CN101133411A - 非罗马字符的容错罗马化输入方法 - Google Patents
非罗马字符的容错罗马化输入方法 Download PDFInfo
- Publication number
- CN101133411A CN101133411A CNA2005800367128A CN200580036712A CN101133411A CN 101133411 A CN101133411 A CN 101133411A CN A2005800367128 A CNA2005800367128 A CN A2005800367128A CN 200580036712 A CN200580036712 A CN 200580036712A CN 101133411 A CN101133411 A CN 101133411A
- Authority
- CN
- China
- Prior art keywords
- input
- assembly
- language
- phonetic
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。该方法可以用于使用拼音的汉语输入方法。例如,该方法通常包括接收代表汉字的拼音输入,该输入至少有一个初始拼音,识别输入中的潜在错误拼音。把每一个潜在错误拼音都扩展为至少一个附加可选拼音,每一对潜在错误和相应的可选拼音都具有近似性测量,把每一个输入的拼音和每一个可选拼音都转换成汉字,计算拼音输入可能转换成汉字的可能性,每一个可能的汉字转换都是该输入的被转换的初始和/或可选拼音的结合,概率基于近似性测量并可选地根据可能的汉语转换的上下文语境,从可能的转换中确定最有可能的汉语转换。
Description
发明领域
本发明总的来说涉及了处理基于非罗马系的语言,更具体来说,涉及了容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。
背景技术
拼写校正通常包括检测错误词并且确定对错误词的适当替换。基于罗马语言如英语的大部分字母拼写错误,是指出现了词汇表以外的词,如“thna”应该是“than”,或本身正确但不适当的用在其语境(或称上下文)的词,如“stranger then”应该是“stranger than”。检测和纠正在基于罗马语言的词汇表之外的那些拼写错误的拼写检查器是公知的。
诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如,很多汉语用户使用拼音(语音拼写)输入汉字。然而,汉语用户可能由于如其自身方言/或口音等因素而并不知道某些汉字的正确发音(拼音),从而会键入错误的拼音输入。
典型说来,常规的拼音输入系统转换拼音输入,并提供候选汉字集合列表供用户可以从中选择预期的汉字集合。然而,由于很多拼音输入方法只有低容错性或根本没有容错性,造成用户所预期的汉字集合可能不在候选列表中。
另外,诸如汉语、日语和韩语(CJK)等基于非罗马系语言通常在任意计算机字符集中,例如UTF-8字符集中,没有非法字符进行编码,这就会经常出现许多拼写错误是由于合法字符被不正确地用于上下文语境而不是词汇表之外的拼写错误。在汉语中,词汇的正确使用通常只能在上下文语境中确定。因此,基于非罗马系的语言的有效拼写检查器应该利用语境信息来确定文中的哪些字和/或词不合适。
对诸如CJK语言等基于非罗马系语言的拼写校正也是复杂而具有挑战性的,原因在于,CJK词汇定义不清造成了这类语言没有标准字典。例如,在汉语中,有些人认为“北京市”是一个词,而另一些人又认为其为两个词。相对说来,英语字典/词汇表查找是英语拼写校正的关键特性,因此,英语拼写校正方法并不能简单用于CJK语言。此外,汉语具有大量的同形异义词和同音词,以及造成含糊的隐藏词汇分界,使得有效可行的汉语拼写校正复杂化且难于实现。由于汉语和英语之间有如此明显的区别,使得许多适用于英语拼写校正的有效技术却并不适用于汉语拼写校正。
因此,需要一种计算机系统和方法,用于高效、可行及准确地处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的拼写错误。
发明内容
本发明公开了处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。特别,本系统和方法使用隐含马尔可夫模型(Markov model)和具有容易混淆发音的拼音的相似性矩阵。在容错拼音输入方法中,如果发音相似,一对易混相似拼音之间的近似性则可以是一个正数,否则,该值就是零。在一实施例中,所述近似性可以是值在0和1之间的概率或称可能性。本系统和方法特别适合那些基于环球网的搜索引擎以及例如,用工具栏和桌面栏实现的、客户端可下载的应用程序,但也可以用于其他各种应用程序。应该被意识到的是,本发明可以用多种方式实现,包括处理程序、装置、系统、设备、方法或诸如计算机可读存储介质的计算机可读介质或者,其中的程序指令是在光或电通讯线上传送的计算机网络。术语“计算机”通常指具有计算能力的任意设备,如个人数字助理(PDA)、手机、以及网络开关。本发明的一些发明实施例如下所述。
容错输入方法通常包括:接收用表示一种语言字符的格式的输入,该输入至少有一个初始组件,识别潜在错误的输入组件,将每一个潜在错误组件都扩展为至少一个附加可选组件,每一对潜在错误组件及其相应的可选组件都具有近似性测量,将每一输入组件和每一可选组件都转换成语言,计算这个输入可能转换为该语言字符的概率,每一个可能转换都是所述输入的经过转换的初始和/或其可选输入组件的结合,概率基于近似性测量并可选地根据可能转换的语境,以及,从所述可能的转换中确定最有可能的转换。
作为一个例子,该方法可以应用于使用拼音的汉语输入方法。例如,该方法可以包括:接收一拼音输入,其中有表示汉字的至少一个初始拼音,识别潜在的错误拼音,将每一个潜在错误拼音都扩展为至少一个附加可选拼音,每一对潜在错误及其相应的可选拼音都具有近似性测量,将输入的拼音及其可选拼音都转换为汉字,计算所述拼音输入可能转换为汉字的概率,每一个可能的汉语转换都是所述输入的经过转换的初始和/或其可选拼音的结合,概率基于近似性测量并可选地根据可能的汉语转换的上下文语境,以及,从所述可能的转换中确定最有可能的汉语转换。
识别潜在错误输入组件的过程可以基于成对的易混相似组件,而这些组件又可以基于容易混淆的成对元音和辅音。每一个潜在错误都至少可与一个易混相似可选项相关,因此,所述扩展就包括了把每一个潜在错误组件都扩展为每一个与其相关的附加可选组件。转换过程可以在每个组件上单独进行和/或在多个组件上结合进行。所述确定最有可能的转换的过程可以包括确定多个最有可能的转换。例如,最可能的转换可以包括至少一个仅从该输入的初始组件进行转换的可能初始转换。最可能的转换还可以包括可能的被修改转换,而其又至少包括一个被转换的可选组件,举例来说,如果所述可能的被修改转换的概率超过了可能初始转换的概率某一预先确定阈值的话。
该语言可以是诸如汉语、日语和韩语(CJK)或泰国语等基于非罗马系的语言。在这个例子,语言是指汉语且更典型是指简体汉字,格式可以是拼音。该方法可以用于诸如输入是用户搜索查询的搜索引擎之类的多种应用程序。各种其他系统可以类似地使用诸如语言输入系统这样的容错输入方法。
容错输入系统通常包括:用于接收至少一个以代表语言字符的格式的初始组件输入的接收器,用于识别所接收输入的潜在错误组件的识别器,用于把每一个所接收输入的潜在错误组件都扩展为至少一个有所述格式的附加可选组件的扩展器,每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量,用于把每个所接收输入的组件和每个有所述格式的附加可选组件都转换为语言的转换器,用于计算所接收的输入转换成语言字符的可能转换概率的计算模块,每个可能转换都是所接收输入的被转换的初始和/或可选组件的结合,概率至少部分依据近似性测量,以及,用于从可能输入转换中确定最有可能的语言字符转换的输出模块。
计算机程序产品用于与计算机系统相结合,计算机程序产品通常包括计算机可读存储介质,其上存储着计算机处理器执行的指令,其指令又包括接收以代表语言字符的格式的输入,这些输入至少有一个初始组件,识别潜在错误输入组件,将每一个潜在输入错误组件都扩展为至少一个附加可选组件,每一对潜在错误组件及其相应的附加可选组件都具有近似性测量,将每个输入组件和每个附加可选组件都以所述格式转换为语言,计算输入转换为语言字符的可能转换概率,每个可能转换都是所输入的被转换的初始和/或可选输入组件的结合,概率至少部分依据近似性测量,以及,从可能输入转换中确定最有可能的语言字符转换。
生成近似性测量的方法通常可包括:收集以代表语言字符的格式的用户输入以及从所述用户输入被解码到语言的相应候选的用户选择比率,把具有选择比率低的候选选择的用户输入识别为非被选择输入,确定被键入的而未被任一被解码的候选所进行用户选择的每一个非被选择输入的百分比,分配一个在易混相似性方面接近的被修改的输入给每个相应非被选择输入以作为相应的预期输入,所修改的输入比与其相应的非被选择输入有更高的候选选择比率,根据相应的非被选择输入作为输入的被键入次数和根据其中未被用户选择过的任意一个被解码候选的相应非被选择输入的被键入次数,为每对被修改输入和非被选择输入确定近似性测量。易混相似性可以根据成对用所述格式的易混相似元素的某一列表来决定,而通过一对或多对易混相似元素,被修改输入和相应的非被选择输入相互进行区分。
执行本系统和方法的应用程序可以在诸如搜索引擎的服务器场所进行,也可下载到诸如用户计算机的客户端进行,以为对输入到文档中的文本所进行的拼写校正作好准备,或者来作为诸如搜索引擎等远程服务器的接口。
本发明的这些和其他特点和益处将在下面说明书中详细介绍和描述,并以附图形式来图示本发明的示例性原理。
附图说明
本发明可以通过下面图文并貌的详细描述而被容易理解,图中相似的引用符号指明相似的结构元素。
图1是汉语元音和辅音中常见易混发音对的示例性集合的列表。
图2是包含了潜在错误(易混淆)输入拼音得出各种预期拼音概率的易混拼音的相似性矩阵。
图3是自动将易混拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个候选项的候选集合的处理流程图。
图4是从一个示例性拼音输入“zhong guo zhen fu”且根据图1的“汉语元音和辅音中常见易混发音对列表”而生成的易混拼音列表。
图5是对于示例性拼音输入“zhong guo zhen fu”而从图4的易混拼音列表中生成的汉字或词的转换列表。
图6是显示以图4和5的示例性拼音输入“zhong guo zhen fu”的易混拼音,其中一些的汉字和词的转换,以及用于该示例性拼音输入的这些汉字/词转换的每对之间过渡关系的网格图。
图7是两条图示的用户界面,其各自表示了以图4到6示例性拼音输入“zhong guo zhen fu”的三个最有可能的候选转换的一个候选列表,包括与拼写校正过的拼音输入相应的一个候选转换。
图8是分别显示经过和不经过容错输入处理的字符转换准确率相对于易混拼音输入错误率之关系的示图。
图9是分别显示经过和不经过容错输入处理的查询转换准确率相对于易混拼音输入错误率之关系的示图。
图10是展示用于训练容错输入处理器的处理流程图。
具体实施方式
本发明公开了处理和校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。本文描述的容错输入系统和方法总的来说涉及到利用源自用户的输入条目和诸如查询日志的相关用户选择的概率来处理、检测并校正拼写错误。需要注意的是,仅为了达到清楚的目的,本文所举出的例子总的来说根据的是处理、检测和校正汉语拼音输入。然而,检测并校正拼写错误的系统和方法也可以类似地适用于诸如日语、韩语、泰国语等其它基于非罗马系的语言。下面的描述说明能使得本领域的任何技术人员都可以作出并使用本发明。具体实施和应用方式仅提供实例并且各种修改对那些本领域的技术人员来说是容易且清楚的。本文定义的一般原则可以被用于其他的实施例和应用程序而不脱离本发明精神和范围。因此,本发明将被给予最宽的范围,包括大量与本文公开的原则和特性相一致的替代,修改和等同物。出于达到清楚的目的,只要没有引起对本发明不必要的含混模糊,在与本发明有关的技术领域已经公知的技术资料之细节就不再赘述。
诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如,很多汉语用户使用拼音(语音拼写)输入汉字,以用于如搜索引擎的搜索查询。拼音是主要用于输入简体汉字的语音输入方法。像本文所提到的,拼音通常指的是表示汉字的语音,汉字的表示可以有或没有音调(四声)。特别地,本文所用的“拼音”指的是用于简体或繁体汉语的所有语音符号,包括注音符号(Bopomofo)。
一些汉语用户可能由于其自身方言或口音等因素而并不知道某些汉字的正确拼音,因此会键入错误的拼音输入。然而,尽管有错误的拼音输入,容错拼音输入处理系统仍可以把错误的拼音输入进行转换,并意图提供包括用户预期的汉字集合在内的候选汉字集合表。
最经常的是,归结于错误发音的拼音拼写错误是基于一组元音和辅音的易混发音对。换言之,大量归结于错误发音的拼音拼写错误都可能是由于用户把某个元音或辅音易混对中的一个混淆成另一个而引起的。图1的表格列出了成对的通常容易混淆的汉语元音和辅音发音的一组示范性例子。列在图1中的易混辅音和/或元音的发音对于许多汉语用户是相似和易混的,因此包含一个或多个易混辅音和/或元音的拼音输入就可能被拼错。应理解,附加和/或可选的易混辅音和/或元音可以存在并可以被本文描述的容错输入系统和方法所考虑,图1仅仅是应用在本文描述的系统和方法的一组示范性例子。如图所示,常见易混辅音对可以包括卷舌音和平舌音,如sh/s,ch/c等等,和其它种类的易混辅音对如h/f,l/n等等。常见易混元音可以包括前鼻音和后鼻音如an/ang,in/ing等等。
为了识别和校正拼音输入错误,由给定输入拼音得出的预期拼音的概率可以用来方便确定输入的拼音是否可能是错误的,而如果是错的,还要确定最可能被校正的或预期的拼音和/或根据被校正和预期拼音得出最可能的拼音到对应的字符/词的转换。由给定输入拼音P得出的预期拼音P’的概率,即p(P’|P),的汇集可以在相似性矩阵中被提供,相似性矩阵在本文也叫做模糊拼音矩阵。图2就是易混拼音对的规范化相似性或模糊拼音矩阵的例子。本文所称的易混拼音,通常涉及到包含所识别的、被如图1列出的常见易混辅音或元音对之中的至少一对的拼音。换言之,易混拼音是容易发错音的,并因此造成基于如图1所示的常见易混发音对集合的拼写错误。其它所有拼音都是非易混拼音,即,不包含在所识别的、被如图1列出的常见易混辅音或元音对之中任一对的拼音。
再参考图2,相似性矩阵的每个单元都指出了当用户键入拼音P时为实际真正预期拼音P’的可能性有多大。矩阵包含给定的易混输入拼音P对各种可能预期拼音P’的概率。空单元表示其值为0,即,相应该拼音对内两者之间不会混在一起。举例说明,给定一输入拼音P“lin”,用户预期拼音P’可以是“lin”(初始输入拼音,即P’=P),“ling”(in-ing是图1中的易混对),“nin”(l-n易混对),或“ning”(l-n和in-ing都是易混对)。每个可能的预期拼音P’都对应着给定输入拼音P得出的用户预期拼音P’经过估计或计算的概率。
相似性矩阵的建立可以根据汉语发音的一些知识或推想,并可选地根据汉语用户出错频率统计。这些知识和/或统计可以从例如搜索查询日志中获得。仅为了达到减少计算复杂性的目的,模糊拼音矩阵一旦被建立,错误拼写就可以不依赖上下文语境作出推断,尽管这样的推断也许并不正确。
图2的矩阵是所有可能易混拼音对的一个小的子集,且仅示出了可被计算出来的、或另外被指定到相关易混拼音对的一些可能性或概率,不同的可能性或概率可以类似地被计算或另外指定。特别,假设图1的表列出了所有汉语元音和辅音的易混对,那么,约408个汉语拼音中大概一半会与其它易混汉语拼音相混淆。键入拼音P而出现预期拼音P’的、经过估算的概率可以用于确定输入拼音是否可能被拼错,并且,如果错了,就要确定最有可能正确或预期的拼音或候选字符,上下文语境相关的概率还可以用来确定一组可能的候选汉字以提高此项确定的准确率。被估算的概率能够用于确定相应汉字的概率。因此,给定的拼音(初始输入或其它)越可能是预期拼音,则是相应汉字的概率也就越高。仅作为实例,如果每个预期输入“san”和“shan”被错发音或错拼成“shang”的可能性分别近似为1%和3%,则相应于拼音“san”的汉字的权重就被分配为相应于拼音“shan”的汉字的三分之一。因此,出现了几乎等同于未考虑易混拼音的那种混乱性。混乱性产生的原因是由于给定语境的可能字符为平均数。混乱性越高,字符就越不确定。
图3是展示处理过程20的流程图,该过程自动把可包含一个或多个易混拼音的拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个汉字集的候选汉字集合。在步骤22,用户拼音输入被接收,在步骤24,拼音输入中如果有任意易混拼音,则其每个易混拼音就都被识别并扩展为包含其它的可能预期拼音。在步骤26,最可能的转换候选被确定。在执行步骤24和26中,如图2所示的模糊拼音相似性矩阵可被用来识别对于给定的易混拼音的可能预期拼音及其相应的概率。另外,在步骤26,确定最可能的转换的过程中,上下文相关的概率也可以被运用。在步骤28,前N(例如3)个最可能的转换候选呈现给用户。
适合于诸如在步骤26执行的、把每个模糊拼音都转换为汉字和/或词的多种机制可以被应用。例如,各种解码器适用于把拼音转换为汉字(汉语字符)。在一实施例,使用隐含马尔可夫模型的Viterbi解码器可以被执行。隐含马尔可夫模型的训练,举例来说,可以通过收集经验数据或通过计算期望值和执行迭代最大化处理过程来实现。Viterbi算法是根据马尔可夫通信通道中的输出观察来对源输入进行解码的有用有效的算法。Viterbi算法已经被成功地应用于各种自然语言处理的应用程序,诸如语音识别,视觉字符识别,机器翻译,语音标注,分析和拼写检查。然而,应该明白,除了马尔可夫假设,各种其它合适的假设也可以用于实现解码算法。此外,Viterbi算法仅是一个可执行的合适解码算法,而各种其它合适的解码算法,诸如有限状态机,贝业斯网络(Bayesian network),决策阶段(decision plane)算法(即,一种高维数Viterbi算法),或BCJR算法(两次向前/向后的Viterbi算法)等等均可被使用。
图4-6示出了处理过程20的一个实例,它把作为例子的易混拼音输入“zhong guo zhen fu”转换为可包括了与某一拼写校正拼音输入相对应的一个或多个汉字组的候选汉字集合。具体来说,图4是把易混拼音输入“zhong guo zhen fu”中的每个拼音都根据汉字元音和辅音常见易混发音对列表扩展为相应的易混或模糊拼音(即,初始拼音和任何其它易混拼音)。例如,可查看如图2所示的相似性矩阵以便把易混拼音输入中的每个拼音都扩展为与其相应的易混或模糊拼音。如图所示,每个“zhong”,“zhen”和“fu”都分别被扩展为多个易混拼音。相比之下,而仅仅与自身有关的“guo ”通常不会与其它任何拼音相混淆,也就是说不会含混。
图5是一个表格,它列出了从图4的示例性拼音输入“zhong guozhen fu”的模糊或易混拼音扩展表所产生的汉字或词的一些可能转换。如图所示,不考虑上下文,每个汉语拼音都能对应多个汉字。例如,拼音“fu”可以对应幅、府、福、夫等等,而拼音“hu”对应胡、湖、虎等等。此外,两个或更多个拼音可以组成一汉语词,而多个拼音也可以被转换为同一个汉语词。例如,拼音“zhong guo”可以被转换为中国人或中国。
图6是显示以图4和5中示例性拼音输入“zhong guo zhen fu”的易混/模糊拼音,其中一些汉字或词的转换,以及用于该示例性拼音输入这些汉字/词转换每对之间的过渡关系的网格图。如图所示,每个模糊拼音节点都与模糊拼音的概率p(P’|P),即给定的输入拼音P得出预期拼音P’的概率相关。例如,模糊拼音“zong”和“zhong”成为输入拼音“zhong”的预期拼音的概率p(zong|zhong)和p(zhong|zhong)分别为0.15和0.85。注意,因为输入拼音“guo”仅与自身有关,它的概率就被赋值为1.0。
图6还示出了一些模糊拼音转换成的汉字或词以及每个可能对的汉字/词转换之间的一些过渡关系。仅为了达到清楚的目的,并不是所有的模糊拼音到汉字或词的转换都被列出,同样也没有把所有转换的过渡都列出来。例如,每个链接或过渡的概率都可以根据语境而被赋值。因此,每种可能路径(即从最前一个到最后一个的拼音转换)的概率或可能性都可以被确定。在一实施例中,给定路径的概率范围可以根据该路径中每个节点概率的乘积来确定,亦即根据路径中每个链接的概率来确定。
图7是两条用户界面的形式,各自表示了图4到6中示例性拼音输入“zhong guo zhen fu”的N(例如3)个最可能的可选择转换的候选列表,注意,各种其它适当的用户界面也可以被使用。展现给用户的前N个可能的转换候选可以既从初始输入产生的候选中,也从使用容错方法产生的候选(如果有的话)中选择。是否显示拼写校正转换候选的决定可以依据:例如,拼写校正候选的概率值是否超过了第一和/或第二个最可能的初始输入候选概率的最小预先确定阈值。如图所示,前两个最可能的候选转换30,32是来自初始拼音输入“zhong guo zhen fu”的转换,而第三个候选转换34则是来自拼写校正拼音输入“zhong guo zheng fu”的转换。特别地,候选转换30对应于图6所示的中国-振-幅路径,而候选转换32对应于图6所示的中国-振-富路径。拼写校正候选转换34对应于图6所示的中国-政府路径。
拼写校正或模糊候选转换34可以表现为与初始拼音候选转换30,32不同的方式以便指给并提醒用户模糊转换34对应的是拼写校正拼音输入而不是初始拼音输入。仅仅作为例子,被校正的候选转换34可以被显示为不同颜色和/或不同字体(字号,下划线,黑体,和/或斜体等)。
图8是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的字符转换准确率和易混拼音输入错误率之间相对关系的图形。易混拼音输入错误率(X坐标)指的是被错误键入的易混拼音的百分比。例如,图8的图形可以从一组诸如用户查询的用户输入中产生。如图所示,易混拼音输入错误率为0%时的转换准确率大约可有96%之高。然而,如果字符输入中的拼音有任何错误,也就是与另一个近似发音的拼音发生混淆,则字符转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时,随着易混拼音输入错误率的增加,字符转换准确率相对明显下降。例如,当易混拼音输入错误率为100%时,字符转换准确率下降到大约62%。注意,即使输入的所有易混拼音都错了,由于输入中可以包含非易混拼音,所以即便在易混拼音输入错误率为100%时,转换准确率也不会是0%。上曲线表明使用容错(模糊)拼音输入处理后,即使当易混拼音输入错误率增加时,字符转换准确率也降低的很慢。例如,即便在易混拼音输入错误率为100%时,字符转换准确率也保持相对不变。
图9是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的查询转换准确率和易混拼音输入错误率之间相对关系的图形。如果给定查询中的一个词或字被错误转换,则整个查询就被认为错误。例如,一个查询包含4个字,其中的1个是非易混的而3个是易混的,且若这3个易混拼音中的1个出错,那么该查询就会有33%的易混拼音输入错误率。有鉴于此,在查询级的转换准确率就要低于字符级,这一点参考以上图8所示出和描述。易混拼音输入错误率(X坐标)代表查询输入中易混拼音被错误键入的百分比。如图所示,查询易混拼音输入错误率为0%时转换准确率可高达约85%。然而,如果查询输入中的拼音有任何错误,也就是说与另一个近似发音的拼音发生混淆,则查询转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时,随着易混拼音输入错误率的增加,查询转换准确率相对明显下降。例如,当易混拼音输入错误率为100%时,查询转换准确率下降到大约25%。上曲线表明使用容错(模糊)拼音输入处理后,即使当易混拼音输入错误率增加时,查询转换准确率也降低得很慢。例如,即便在易混拼音输入错误率为100%时,查询转换准确率也下降的很小,几乎还是大约80%。
图10是展示处理过程40的流程图。该处理过程用于训练容错输入系统和方法,并且更具体地用于生成如图2所示的相似性矩阵。特别是,生成相似性矩阵的处理过程可以利用从用户拼音输入及其相关的用户选择这两者中收集的数据,以便生成模糊拼音概率。通过使用一组输入来训练相似性矩阵,拼音输入中的拼写错误可能性就可以被确定并被处理,从而提高容错输入系统的效率和效果。
训练容错输入系统和方法的以及更具体地用于生成相似性矩阵的处理过程可以使用从用户拼音输入及其相关的用户选择这两者中收集的数据,以便生成模糊拼音概率。例如,在搜索引擎的语境中,用户查询和被用户选择的被转换的查询均被追踪和处理。例如,在步骤42,关于用户拼音输入的和被每个相应转换/解码候选项的用户选择的比率的数据都被收集起来。通过使用一组实际用户输入来训练相似性矩阵,拼音输入中的拼写错误可能性就可被确定并被处理,从而提高容错输入系统的效率和效果。
当至少包含一个拼写错误拼音的输入拼音被键入时,由于通常没有一个候选对应于用户的预期输入,则用户往往不会选择任何常规的转换(即,未经容错处理的转换)候选。相反,当用户正确键入一拼音输入时,可能就会有一个转换汉语候选被选择。因此,在步骤44,被候选选中比例很低的非被选择拼音输入就被识别为可包含与预期拼音P’可能有一定区别的拼错拼音P的那些拼音输入。此外,在步骤46,用户键入的拼音输入中没有被转换候选所选中的百分比或比率就被确定为近似性测量(概率)p(P’|P)。
处理过程40还为非被选择错误拼音输入确定所有可能的正确(预期)拼音输入。特别地,在步骤48,对每个非被选择拼音输入来说,在易混相似性方面与所述非被选择拼音输入相关的且具有相对较高(或最高)用户选择比例(即,接近根据诸如图1所示的易混拼音元素对所确定的编辑距离(editing distance))的拼音输入就被确定为预期拼音输入。换言之,易混相似性根据易混相似拼音对列表来确定。因此,拼错的拼音P(包含在初始拼音输入中)与预期拼音P’(包含在预期拼音输入中)通过一对或多对易混相似拼音元素来相互区别。
在步骤50,近似性测量用来关联每对易混拼音P和P’。例如,非被选择拼音输入和预期拼音输入可以被比较以确定错误拼音P和预期拼音P’。与易混拼音对P和P’相关的近似性测量就涉及到了用户键入拼音输入P和预期输入为P’的可能性,即,输入拼音P应被拼音P’所替代的频度。具体来说,给定易混拼音对P和P’的近似性测量p(P’|P)(在步骤46被确定)被确定为n(P->P’)/n(P),其中,n(P)是拼音输入P被用户键入的次数,n(P->P’)是拼音输入P应被与其相应的模糊拼音P’所替代的次数,也就是用户不曾从候选转换列表进行选择的次数。
显然,处理过程40中各步骤的顺序仅仅是图示性的且是可以改变的。此外,注意,相似性矩阵一旦生成则可以保持固定,也可以随着时间根据新用户拼音输入和选择数据逐步来被定期修改。如果没有足够的数据量来产生有意义的概率,则将用另外一个生成相似性矩阵的处理过程来为每对易混拼音之间的相似性(概率)都设置一个估计常数值。例如,可以假设用户预期拼音“shan”而键入拼音“shang”的可能性或概率为0.03。注意,对于给定的易混输入拼音P来说,输入拼音就是预期拼音(即P’=P)的可能性或概率与输入拼音不是预期拼音的可能性或概率之总和应大约为1.0。
提示,本文描述的图示化容错输入系统和方法特别适用于环球网搜索引擎的语境和包含经过组织的数据的数据库搜索引擎。然而,应该明白,所述容错输入系统和方法可以被改变用在其他各种应用程序,特别是对于非罗马化语言条目进行拼写错误检查和校正。举例来说,该系统和方法可以用于CJK文本输入应用程序,如,字词处理应用程序,以进行拼写错误检查和校正。
容错输入系统和方法特别适合用在基于非罗马系的语言,并且在发现拼写错误以及从带有拼写错误的拼音输入中校正汉字这两方面具有高效率。这样的容错输入系统和方法就使得汉语用户可以使用近似发音来输入汉字词而不必用精确的拼音。该方法还可以用上下文语境以进一步降低不确定性和/或迷惑性。
本文说明和图示了本发明的多个示例性实施例,值得理解的是,它们仅仅用于图示,并且可对这些实施例进行修改而不偏离本发明的精神和范围。因此,本发明的范围意图为仅根据可被修改的权利要求所定义,每个权利要求都与本“具体实施方式”中的发明实施例明确相结合。
Claims (38)
1.一种容错输入处理方法,包括:
接收用代表一种语言字符的格式所进行的输入,所述输入至少有一个初始组件;
识别所述输入的多个潜在错误组件;
将所述输入的每一个潜在错误组件都扩展为用所述格式的至少一个附加可选组件,每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量;
把所述输入的每一个组件和用所述格式的每一个附加可选组件都转换成所述语言;
计算所述输入可能转换为所述语言字符的可能性,每一个可能转换都是所述输入的被转换的初始和/或可选组件的结合,所述可能性至少部分依据所述近似性测量;以及
从所述输入的可能转换中确定最可能的语言字符转换。
2.根据权利要求1所述的方法,其中,所述识别该输入的潜在错误组件的过程基于成对易混相似组件。
3.根据权利要求1所述的方法,其中,所述识别该输入的潜在错误组件的过程基于容易混淆的成对元音和辅音。
4.根据权利要求1所述的方法,其中,每个潜在错误组件都是与至少一个易混相似的附加可选组件相关,以及其中,所述扩展的过程包括:把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。
5.根据权利要求1所述的方法,其中,所述每个组件的转换包括:每个组件单独的转换和多个组件结合的转换这两者其中之一。
6.根据权利要求1所述的方法,其中,所述计算可能性的过程也基于所述可能转换的语境。
7.根据权利要求1所述的方法,其中,所述确定最可能转换包括:确定多于一个的最可能转换。
8.根据权利要求1所述的方法,其中,所述最可能的转换包括:仅仅包含所述输入的被转换的初始组件的第一可能转换;以及,至少包含所述输入的一个被转换的可选组件的第二可能转换,如果所述第二可能转换的可能性超过所述第一可能转换的可能性一个预先确定的阈值的话。
9.根据权利要求1所述的方法,其中,所述语言是指基于非罗马系的语言。
10.根据权利要求1所述的方法,其中,所述语言是汉语,以及所述格式是拼音。
11.根据权利要求1所述的方法,其中,所述输入是指用户搜索查询。
12.一种容错输入系统,包括:
接收器,用于接收以代表一种语言字符的格式的至少一个初始组件的输入;
识别器,用于识别所接收输入的潜在错误组件;
扩展器,用于把每一个所接收输入的潜在错误组件都扩展为至少一个有所述格式的附加可选组件,每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量;
转换器,用于把每个所接收输入的组件和每个有所述格式的附加可选组件都转换为所述语言;
计算模块,用于计算所接收输入转换成语言字符的可能转换的可能性,每个可能转换都是所接收输入的被转换的初始和/或可选组件的结合,该可能性至少部分依据所述近似性测量;以及
输出模块,用于从所述输入的可能转换中确定最可能的语言字符转换。
13.根据权利要求12所述的系统,其中,所述识别器进一步用来基于成对易混相似组件进行识别。
14.根据权利要求12所述的系统,其中,所述识别器进一步用来基于容易混淆的成对元音和辅音进行识别。
15.根据权利要求12所述的系统,其中,每个潜在错误组件都是与至少一个易混相似的附加可选组件相关,以及其中,所述扩展器进一步用来把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。
16.根据权利要求12所述的系统,其中,所述转换器进一步用于通过每个组件单独的转换和多个组件结合的转换这两者其中之一来转换每一组件。
17.根据权利要求12所述的系统,其中,所述计算模块进一步用于依据所述可能转换的语境来计算可能性。
18.根据权利要求12所述的系统,其中,所述输出模块进一步用来确定多于一个的最可能转换。
19.根据权利要求12所述的系统,其中,所述最可能的转换包括:
仅仅包含所述输入的被转换的初始组件的第一可能转换;以及,至少包含所述输入的一个被转换的可选组件的第二可能转换,如果所述第二可能转换的可能性超过所述第一可能转换的可能性一个预先确定的阈值的话。
20.根据权利要求12所述的系统,其中,所述语言是指基于非罗马系的语言。
21.根据权利要求12所述的系统,其中,所述语言是汉语,以及所述格式是拼音。
22.根据权利要求12所述的系统,其中,所述系统是搜索引擎,以及所接收的输入是搜索查询。
23.一种计算机程序产品,用于与计算机系统相结合,所述计算机程序产品包括计算机可读存储介质,其上存储着可在计算机处理器执行的指令,这些指令包括:
接收用代表一种语言字符的格式所进行的输入,所述输入至少有一个初始组件;
识别所述输入的多个潜在错误组件;
将所述输入的每一个潜在错误组件都扩展为用所述格式的至少一个附加可选组件,每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量;
将所述输入的每一个组件和用所述格式的每一个附加可选组件都转换为所述语言;
计算所述输入转为所述语言字符的可能转换的概率,每个可能转换都是所述输入的被转换的初始和/或可选组件的结合,所述概率至少部分依据近似性测量;以及
从所述输入的可能转换中确定最可能的语言字符转换。
24.根据权利要求23所述的计算机程序产品,其中,所述识别该输入的潜在错误组件基于成对的易混相似组件。
25.根据权利要求23所述的计算机程序产品,其中,所述识别该输入的潜在错误组件基于容易混淆的成对元音和辅音。
26.根据权利要求23所述的计算机程序产品,其中,每个潜在错误组件都是与至少一个易混相似的附加可选组件相关,以及其中,所述扩展包括:把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。
27.根据权利要求23所述的计算机程序产品,其中,所述每个组件的转换包括:每个组件单独的转换和多个组件结合的转换这两者其中之一。
28.根据权利要求23所述的计算机程序产品,其中,所述计算概率也基于所述可能转换的语境。
29.根据权利要求23所述的计算机程序产品,其中,所述确定最可能转换包括:确定多于一个的最可能转换。
30.根据权利要求23所述的计算机程序产品,其中,所述最可能的转换包括:仅仅包含所述输入的被转换的初始组件的第一可能转换;以及,至少包含所述输入的一个被转换的可选组件的第二可能转换,如果所述第二可能转换的概率超过所述第一可能转换的概率一个预先确定的阈值的话。
31.根据权利要求23所述的计算机程序产品,其中,所述语言是指基于非罗马系的语言。
32.根据权利要求23所述的计算机程序产品,其中,所述语言是汉语,以及所述格式是拼音。
33.根据权利要求23所述的计算机程序产品,其中,所述输入是指用户搜索查询。
34.一种生成近似性测量的方法,包括:
收集以代表语言字符的格式的用户输入和从所述用户输入被解码到所述语言的相应候选的用户选择比率;
把具有候选选择低比率的用户输入识别为非被选择输入;
分配一个易混相似性方面接近的被修改的输入给每个相应的非被选择输入以作为相应的预期输入,所修改的输入比相应的非被选择输入有更高的候选选择比率;以及
基于被键入为输入的而不被任一被解码的候选进行用户选择的相应非被选择输入的百分比,来为每对被修改的输入和非被选择的输入确定近似性测量。
35.根据权利要求34所述的方法,其中,所述易混相似性基于成对以所述格式的易混近似元素的一个列表以及,通过一对或多对易混近似元素,所修改的输入和相应的非被选择输入相互区分。
36.根据权利要求34所述的方法,其中,所述语言是指基于非罗马系的语言,以及所述格式是所述语言的罗马化字符表现。
37.根据权利要求34所述的方法,其中,所述语言是汉语,以及所述格式是拼音。
38.根据权利要求34所述的方法,其中,所述用户输入是用户搜索查询。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/928,131 US20060048055A1 (en) | 2004-08-25 | 2004-08-25 | Fault-tolerant romanized input method for non-roman characters |
US10/928,131 | 2004-08-25 | ||
PCT/US2005/029141 WO2006026156A2 (en) | 2004-08-25 | 2005-08-15 | Fault-tolerant romanized input method for non-roman characters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101133411A true CN101133411A (zh) | 2008-02-27 |
CN101133411B CN101133411B (zh) | 2014-08-27 |
Family
ID=35734924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200580036712.8A Active CN101133411B (zh) | 2004-08-25 | 2005-08-15 | 非罗马字符的容错罗马化输入方法 |
Country Status (3)
Country | Link |
---|---|
US (3) | US20060048055A1 (zh) |
CN (1) | CN101133411B (zh) |
WO (1) | WO2006026156A2 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
CN102226896A (zh) * | 2011-05-13 | 2011-10-26 | 中山大学 | 一种基于模糊按键的信息容错输入方法 |
CN102368271A (zh) * | 2011-11-01 | 2012-03-07 | 无敌科技(西安)有限公司 | 一种带有容错能力的中文内容拼写校正系统及方法 |
CN102955770A (zh) * | 2011-08-17 | 2013-03-06 | 腾讯科技(深圳)有限公司 | 一种拼音自动识别方法及系统 |
CN106020506A (zh) * | 2016-05-30 | 2016-10-12 | 北京小米移动软件有限公司 | 信息输入的方法及装置 |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN112445953A (zh) * | 2019-08-14 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 信息的搜索纠错方法、计算设备及存储介质 |
Families Citing this family (228)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2006163651A (ja) * | 2004-12-03 | 2006-06-22 | Sony Computer Entertainment Inc | 表示装置、表示装置の制御方法、プログラム及びフォントデータ |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP2024863B1 (en) | 2006-05-07 | 2018-01-10 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
US7565624B2 (en) | 2006-06-30 | 2009-07-21 | Research In Motion Limited | Method of learning character segments during text input, and associated handheld electronic device |
US8395586B2 (en) * | 2006-06-30 | 2013-03-12 | Research In Motion Limited | Method of learning a context of a segment of text, and associated handheld electronic device |
CN100424703C (zh) * | 2006-08-23 | 2008-10-08 | 北京搜狗科技发展有限公司 | 获取新编码字符串的方法及输入法系统、词库生成装置 |
KR100837750B1 (ko) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2010526386A (ja) | 2007-05-06 | 2010-07-29 | バーコード リミティド | バーコード標識を利用する品質管理のシステムと方法 |
US7987176B2 (en) * | 2007-06-25 | 2011-07-26 | Sap Ag | Mixed initiative semantic search |
CN101802812B (zh) | 2007-08-01 | 2015-07-01 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US8365071B2 (en) | 2007-08-31 | 2013-01-29 | Research In Motion Limited | Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window |
WO2009063465A2 (en) | 2007-11-14 | 2009-05-22 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US8176419B2 (en) * | 2007-12-19 | 2012-05-08 | Microsoft Corporation | Self learning contextual spell corrector |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8463597B2 (en) | 2008-05-11 | 2013-06-11 | Research In Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
JP4655109B2 (ja) * | 2008-05-12 | 2011-03-23 | オムロン株式会社 | 文字入力用のプログラムおよび文字入力装置ならびに文字入力方法 |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8589149B2 (en) | 2008-08-05 | 2013-11-19 | Nuance Communications, Inc. | Probability-based approach to recognition of user-entered data |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
CA2787390A1 (en) | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102830808A (zh) * | 2010-07-01 | 2012-12-19 | 杨春华 | 利用规范部件码作补码的拼音输入法 |
JP5694537B2 (ja) | 2010-09-02 | 2015-04-01 | オプティメディカ・コーポレイションOptimedica Corporation | 眼科的診断および介入手技のための患者インターフェース |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US8976118B2 (en) | 2012-01-20 | 2015-03-10 | International Business Machines Corporation | Method for character correction |
US9317606B1 (en) * | 2012-02-03 | 2016-04-19 | Google Inc. | Spell correcting long queries |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
US9135912B1 (en) * | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8612213B1 (en) | 2012-10-16 | 2013-12-17 | Google Inc. | Correction of errors in character strings that include a word delimiter |
US8713433B1 (en) | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9298694B2 (en) * | 2013-04-11 | 2016-03-29 | International Business Machines Corporation | Generating a regular expression for entity extraction |
US9317499B2 (en) * | 2013-04-11 | 2016-04-19 | International Business Machines Corporation | Optimizing generation of a regular expression |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN104750672B (zh) * | 2013-12-27 | 2017-11-21 | 重庆新媒农信科技有限公司 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
US20150185850A1 (en) * | 2013-12-27 | 2015-07-02 | Farzin Guilak | Input detection |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9377871B2 (en) | 2014-08-01 | 2016-06-28 | Nuance Communications, Inc. | System and methods for determining keyboard input in the presence of multiple contact points |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
WO2016185474A1 (en) | 2015-05-18 | 2016-11-24 | Varcode Ltd. | Thermochromic ink indicia for activatable quality labels |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
CN104991657A (zh) * | 2015-06-11 | 2015-10-21 | 周连惠 | 一种中文和日文假名综合输入法及输入法系统 |
CN104991656B (zh) * | 2015-06-11 | 2018-12-21 | 浦江开丰广告设计有限公司 | 一种输入汉语词组的方法 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
WO2017006326A1 (en) | 2015-07-07 | 2017-01-12 | Varcode Ltd. | Electronic quality indicator |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) * | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US20180001490A1 (en) * | 2016-07-01 | 2018-01-04 | Slice, Inc. | Precision knife with ring hook |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10083231B1 (en) * | 2017-11-30 | 2018-09-25 | International Business Machines Corporation | Fuzzy term partition identification |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10803242B2 (en) * | 2018-10-26 | 2020-10-13 | International Business Machines Corporation | Correction of misspellings in QA system |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US10916242B1 (en) * | 2019-08-07 | 2021-02-09 | Nanjing Silicon Intelligence Technology Co., Ltd. | Intent recognition method based on deep learning network |
CN110852087B (zh) * | 2019-09-23 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833610A (en) * | 1986-12-16 | 1989-05-23 | International Business Machines Corporation | Morphological/phonetic method for ranking word similarities |
US5572423A (en) * | 1990-06-14 | 1996-11-05 | Lucent Technologies Inc. | Method for correcting spelling using error frequencies |
US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
US5903861A (en) * | 1995-12-12 | 1999-05-11 | Chan; Kun C. | Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer |
US6047300A (en) * | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
US6131102A (en) * | 1998-06-15 | 2000-10-10 | Microsoft Corporation | Method and system for cost computation of spelling suggestions and automatic replacement |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US6636849B1 (en) * | 1999-11-23 | 2003-10-21 | Genmetrics, Inc. | Data search employing metric spaces, multigrid indexes, and B-grid trees |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
CA2357382A1 (en) * | 2001-09-17 | 2003-03-17 | Soma Networks, Inc. | Software update method, apparatus and system |
US7143033B2 (en) * | 2002-04-03 | 2006-11-28 | The United States Of America As Represented By The Secretary Of The Navy | Automatic multi-language phonetic transcribing system |
US7113950B2 (en) * | 2002-06-27 | 2006-09-26 | Microsoft Corporation | Automated error checking system and method |
US7315982B2 (en) * | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
-
2004
- 2004-08-25 US US10/928,131 patent/US20060048055A1/en not_active Abandoned
-
2005
- 2005-08-15 CN CN200580036712.8A patent/CN101133411B/zh active Active
- 2005-08-15 WO PCT/US2005/029141 patent/WO2006026156A2/en active Application Filing
-
2007
- 2007-10-03 US US11/866,991 patent/US7810030B2/en active Active
-
2010
- 2010-10-04 US US12/897,096 patent/US9069753B2/en active Active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
CN102156551B (zh) * | 2011-03-30 | 2014-04-23 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
CN102226896A (zh) * | 2011-05-13 | 2011-10-26 | 中山大学 | 一种基于模糊按键的信息容错输入方法 |
CN102955770A (zh) * | 2011-08-17 | 2013-03-06 | 腾讯科技(深圳)有限公司 | 一种拼音自动识别方法及系统 |
CN102368271A (zh) * | 2011-11-01 | 2012-03-07 | 无敌科技(西安)有限公司 | 一种带有容错能力的中文内容拼写校正系统及方法 |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN106020506A (zh) * | 2016-05-30 | 2016-10-12 | 北京小米移动软件有限公司 | 信息输入的方法及装置 |
CN112445953A (zh) * | 2019-08-14 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 信息的搜索纠错方法、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US9069753B2 (en) | 2015-06-30 |
CN101133411B (zh) | 2014-08-27 |
US7810030B2 (en) | 2010-10-05 |
WO2006026156A2 (en) | 2006-03-09 |
WO2006026156A3 (en) | 2006-10-19 |
US20110022952A1 (en) | 2011-01-27 |
US20060048055A1 (en) | 2006-03-02 |
US20080028303A1 (en) | 2008-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN102156551B (zh) | 一种字词输入的纠错方法及系统 | |
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
US20050289463A1 (en) | Systems and methods for spell correction of non-roman characters and words | |
US20120246133A1 (en) | Online spelling correction/phrase completion system | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
KR20120006489A (ko) | 입력 방법 편집기 | |
KR20050014738A (ko) | 표음 입력 모호성 제거 시스템 및 방법 | |
CN112329447A (zh) | 中文纠错模型的训练方法、中文纠错方法及装置 | |
Li et al. | Improving text normalization using character-blocks based models and system combination | |
Tursun et al. | Noisy Uyghur text normalization | |
JP2011008784A (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
WO2014189400A1 (en) | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets | |
Lu et al. | An automatic spelling correction method for classical mongolian | |
CN114861669A (zh) | 一种融入拼音信息的中文实体链接方法 | |
KR100897718B1 (ko) | 구어체 문장의 오류 교정 장치 및 방법 | |
CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 | |
Prochasson et al. | Language models for handwritten short message services | |
CN113033188B (zh) | 一种基于神经网络的藏文语法纠错方法 | |
Zahui et al. | EL-Mossahih V1. 0: A hybrid approach for detection and correction of typographical and phonetic transcription errors in Arabic texts | |
Jose et al. | Noisy SMS text normalization model | |
Byun et al. | Automatic spelling correction rule extraction and application for spoken-style korean text | |
Ratnam et al. | Phonogram-based Automatic Typo Correction in Malayalam Social Media Comments | |
Hsu et al. | Spoken correction for chinese text entry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google Inc. Address before: American California Patentee before: GOOGLE Inc. |
|
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |