CN101133411B - 非罗马字符的容错罗马化输入方法 - Google Patents

非罗马字符的容错罗马化输入方法 Download PDF

Info

Publication number
CN101133411B
CN101133411B CN200580036712.8A CN200580036712A CN101133411B CN 101133411 B CN101133411 B CN 101133411B CN 200580036712 A CN200580036712 A CN 200580036712A CN 101133411 B CN101133411 B CN 101133411B
Authority
CN
China
Prior art keywords
input
pinyin
conversion
pinyin input
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200580036712.8A
Other languages
English (en)
Other versions
CN101133411A (zh
Inventor
吴军
陈利人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101133411A publication Critical patent/CN101133411A/zh
Application granted granted Critical
Publication of CN101133411B publication Critical patent/CN101133411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。该方法可以用于使用拼音的汉语输入方法。例如,该方法通常包括接收代表汉字的拼音输入,该输入至少有一个初始拼音,识别输入中的潜在错误拼音。把每一个潜在错误拼音都扩展为至少一个附加可选拼音,每一对潜在错误和相应的可选拼音都具有近似性测量,把每一个输入的拼音和每一个可选拼音都转换成汉字,计算拼音输入可能转换成汉字的可能性,每一个可能的汉字转换都是该输入的被转换的初始和/或可选拼音的结合,概率基于近似性测量并可选地根据可能的汉语转换的上下文语境,从可能的转换中确定最有可能的汉语转换。

Description

非罗马字符的容错罗马化输入方法
发明领域
本发明总的来说涉及了处理基于非罗马系的语言,更具体来说,涉及了容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。
背景技术
拼写校正通常包括检测错误词并且确定对错误词的适当替换。基于罗马语言如英语的大部分字母拼写错误,是指出现了词汇表以外的词,如“thna”应该是“than”,或本身正确但不适当的用在其语境(或称上下文)的词,如“stranger then”应该是“stranger than”。检测和纠正在基于罗马语言的词汇表之外的那些拼写错误的拼写检查器是公知的。
诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如,很多汉语用户使用拼音(语音拼写)输入汉字。然而,汉语用户可能由于如其自身方言/或口音等因素而并不知道某些汉字的正确发音(拼音),从而会键入错误的拼音输入。
典型说来,常规的拼音输入系统转换拼音输入,并提供候选汉字集合列表供用户可以从中选择预期的汉字集合。然而,由于很多拼音输入方法只有低容错性或根本没有容错性,造成用户所预期的汉字集合可能不在候选列表中。
另外,诸如汉语、日语和韩语(CJK)等基于非罗马系语言通常在任意计算机字符集中,例如UTF-8字符集中,没有非法字符进行编码,这就会经常出现许多拼写错误是由于合法字符被不正确地用于上下文语境而不是词汇表之外的拼写错误。在汉语中,词汇的正确使用通常只能在上下文语境中确定。因此,基于非罗马系的语言的有效拼写检查器应该利用语境信息来确定文中的哪些字和/或词不合适。
对诸如CJK语言等基于非罗马系语言的拼写校正也是复杂而具有挑战性的,原因在于,CJK词汇定义不清造成了这类语言没有标准字典。例如,在汉语中,有些人认为“北京市”是一个词,而另一些人又认为其为两个词。相对说来,英语字典/词汇表查找是英语拼写校正的关键特性,因此,英语拼写校正方法并不能简单用于CJK语言。此外,汉语具有大量的同形异义词和同音词,以及造成含糊的隐藏词汇分界,使得有效可行的汉语拼写校正复杂化且难于实现。由于汉语和英语之间有如此明显的区别,使得许多适用于英语拼写校正的有效技术却并不适用于汉语拼写校正。
因此,需要一种计算机系统和方法,用于高效、可行及准确地处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的拼写错误。
发明内容
本发明公开了处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。特别,本系统和方法使用隐含马尔可夫模型(Markov model)和具有容易混淆发音的拼音的相似性矩阵。在容错拼音输入方法中,如果发音相似,一对易混相似拼音之间的近似性则可以是一个正数,否则,该值就是零。在一实施例中,所述近似性可以是值在0和1之间的概率或称可能性。本系统和方法特别适合那些基于环球网的搜索引擎以及例如,用工具栏和桌面栏实现的、客户端可下载的应用程序,但也可以用于其他各种应用程序。应该被意识到的是,本发明可以用多种方式实现,包括处理程序、装置、系统、设备、方法或诸如计算机可读存储介质的计算机可读介质或者,其中的程序指令是在光或电通讯线上传送的计算机网络。术语“计算机”通常指具有计算能力的任意设备,如个人数字助理(PDA)、手机、以及网络开关。本发明的一些发明实施例如下所述。
容错输入方法通常包括:接收用表示一种语言字符的格式的输入,该输入至少有一个初始组件,识别潜在错误的输入组件,将每一个潜在错误组件都扩展为至少一个附加可选组件,每一对潜在错误组件及其相应的可选组件都具有近似性测量,将每一输入组件和每一可选组件都转换成语言,计算这个输入可能转换为该语言字符的概率,每一个可能转换都是所述输入的经过转换的初始和/或其可选输入组件的结合,概率基于近似性测量并可选地根据可能转换的语境,以及,从所述可能的转换中确定最有可能的转换。
作为一个例子,该方法可以应用于使用拼音的汉语输入方法。例如,该方法可以包括:接收一拼音输入,其中有表示汉字的至少一个初始拼音,识别潜在的错误拼音,将每一个潜在错误拼音都扩展为至少一个附加可选拼音,每一对潜在错误及其相应的可选拼音都具有近似性测量,将输入的拼音及其可选拼音都转换为汉字,计算所述拼音输入可能转换为汉字的概率,每一个可能的汉语转换都是所述输入的经过转换的初始和/或其可选拼音的结合,概率基于近似性测量并可选地根据可能的汉语转换的上下文语境,以及,从所述可能的转换中确定最有可能的汉语转换。
识别潜在错误输入组件的过程可以基于成对的易混相似组件,而这些组件又可以基于容易混淆的成对元音和辅音。每一个潜在错误都至少可与一个易混相似可选项相关,因此,所述扩展就包括了把每一个潜在错误组件都扩展为每一个与其相关的附加可选组件。转换过程可以在每个组件上单独进行和/或在多个组件上结合进行。所述确定最有可能的转换的过程可以包括确定多个最有可能的转换。例如,最可能的转换可以包括至少一个仅从该输入的初始组件进行转换的可能初始转换。最可能的转换还可以包括可能的被修改转换,而其又至少包括一个被转换的可选组件,举例来说,如果所述可能的被修改转换的概率超过了可能初始转换的概率某一预先确定阈值的话。
该语言可以是诸如汉语、日语和韩语(CJK)或泰国语等基于非罗马系的语言。在这个例子,语言是指汉语且更典型是指简体汉字,格式可以是拼音。该方法可以用于诸如输入是用户搜索查询的搜索引擎之类的多种应用程序。各种其他系统可以类似地使用诸如语言输入系统这样的容错输入方法。
容错输入系统通常包括:用于接收至少一个以代表语言字符的格式的初始组件输入的接收器,用于识别所接收输入的潜在错误组件的识别器,用于把每一个所接收输入的潜在错误组件都扩展为至少一个有所述格式的附加可选组件的扩展器,每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量,用于把每个所接收输入的组件和每个有所述格式的附加可选组件都转换为语言的转换器,用于计算所接收的输入转换成语言字符的可能转换概率的计算模块,每个可能转换都是所接收输入的被转换的初始和/或可选组件的结合,概率至少部分依据近似性测量,以及,用于从可能输入转换中确定最有可能的语言字符转换的输出模块。
计算机程序产品用于与计算机系统相结合,计算机程序产品通常包括计算机可读存储介质,其上存储着计算机处理器执行的指令,其指令又包括接收以代表语言字符的格式的输入,这些输入至少有一个初始组件,识别潜在错误输入组件,将每一个潜在输入错误组件都扩展为至少一个附加可选组件,每一对潜在错误组件及其相应的附加可选组件都具有近似性测量,将每个输入组件和每个附加可选组件都以所述格式转换为语言,计算输入转换为语言字符的可能转换概率,每个可能转换都是所输入的被转换的初始和/或可选输入组件的结合,概率至少部分依据近似性测量,以及,从可能输入转换中确定最有可能的语言字符转换。
生成近似性测量的方法通常可包括:收集以代表语言字符的格式的用户输入以及从所述用户输入被解码到语言的相应候选的用户选择比率,把具有选择比率低的候选选择的用户输入识别为非被选择输入,确定被键入的而未被任一被解码的候选所进行用户选择的每一个非被选择输入的百分比,分配一个在易混相似性方面接近的被修改的输入给每个相应非被选择输入以作为相应的预期输入,所修改的输入比与其相应的非被选择输入有更高的候选选择比率,根据相应的非被选择输入作为输入的被键入次数和根据其中未被用户选择过的任意一个被解码候选的相应非被选择输入的被键入次数,为每对被修改输入和非被选择输入确定近似性测量。易混相似性可以根据成对用所述格式的易混相似元素的某一列表来决定,而通过一对或多对易混相似元素,被修改输入和相应的非被选择输入相互进行区分。
执行本系统和方法的应用程序可以在诸如搜索引擎的服务器场所进行,也可下载到诸如用户计算机的客户端进行,以为对输入到文档中的文本所进行的拼写校正作好准备,或者来作为诸如搜索引擎等远程服务器的接口。
本发明的这些和其他特点和益处将在下面说明书中详细介绍和描述,并以附图形式来图示本发明的示例性原理。
附图说明
本发明可以通过下面图文并貌的详细描述而被容易理解,图中相似的引用符号指明相似的结构元素。
图1是汉语元音和辅音中常见易混发音对的示例性集合的列表。
图2是包含了潜在错误(易混淆)输入拼音得出各种预期拼音概率的易混拼音的相似性矩阵。
图3是自动将易混拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个候选项的候选集合的处理流程图。
图4是从一个示例性拼音输入“zhong guo zhen fu”且根据图1的“汉语元音和辅音中常见易混发音对列表”而生成的易混拼音列表。
图5是对于示例性拼音输入“zhong guo zhen fu”而从图4的易混拼音列表中生成的汉字或词的转换列表。
图6是显示以图4和5的示例性拼音输入“zhong guo zhen fu”的易混拼音,其中一些的汉字和词的转换,以及用于该示例性拼音输入的这些汉字/词转换的每对之间过渡关系的网格图。
图7是两条图示的用户界面,其各自表示了以图4到6示例性拼音输入“zhong guo zhen fu”的三个最有可能的候选转换的一个候选列表,包括与拼写校正过的拼音输入相应的一个候选转换。
图8是分别显示经过和不经过容错输入处理的字符转换准确率相对于易混拼音输入错误率之关系的示图。
图9是分别显示经过和不经过容错输入处理的查询转换准确率相对于易混拼音输入错误率之关系的示图。
图10是展示用于训练容错输入处理器的处理流程图。
具体实施方式
本发明公开了处理和校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。本文描述的容错输入系统和方法总的来说涉及到利用源自用户的输入条目和诸如查询日志的相关用户选择的概率来处理、检测并校正拼写错误。需要注意的是,仅为了达到清楚的目的,本文所举出的例子总的来说根据的是处理、检测和校正汉语拼音输入。然而,检测并校正拼写错误的系统和方法也可以类似地适用于诸如日语、韩语、泰国语等其它基于非罗马系的语言。下面的描述说明能使得本领域的任何技术人员都可以作出并使用本发明。具体实施和应用方式仅提供实例并且各种修改对那些本领域的技术人员来说是容易且清楚的。本文定义的一般原则可以被用于其他的实施例和应用程序而不脱离本发明精神和范围。因此,本发明将被给予最宽的范围,包括大量与本文公开的原则和特性相一致的替代,修改和等同物。出于达到清楚的目的,只要没有引起对本发明不必要的含混模糊,在与本发明有关的技术领域已经公知的技术资料之细节就不再赘述。
诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如,很多汉语用户使用拼音(语音拼写)输入汉字,以用于如搜索引擎的搜索查询。拼音是主要用于输入简体汉字的语音输入方法。像本文所提到的,拼音通常指的是表示汉字的语音,汉字的表示可以有或没有音调(四声)。特别地,本文所用的“拼音”指的是用于简体或繁体汉语的所有语音符号,包括注音符号(Bopomofo)。
一些汉语用户可能由于其自身方言或口音等因素而并不知道某些汉字的正确拼音,因此会键入错误的拼音输入。然而,尽管有错误的拼音输入,容错拼音输入处理系统仍可以把错误的拼音输入进行转换,并意图提供包括用户预期的汉字集合在内的候选汉字集合表。
最经常的是,归结于错误发音的拼音拼写错误是基于一组元音和辅音的易混发音对。换言之,大量归结于错误发音的拼音拼写错误都可能是由于用户把某个元音或辅音易混对中的一个混淆成另一个而引起的。图1的表格列出了成对的通常容易混淆的汉语元音和辅音发音的一组示范性例子。列在图1中的易混辅音和/或元音的发音对于许多汉语用户是相似和易混的,因此包含一个或多个易混辅音和/或元音的拼音输入就可能被拼错。应理解,附加和/或可选的易混辅音和/或元音可以存在并可以被本文描述的容错输入系统和方法所考虑,图1仅仅是应用在本文描述的系统和方法的一组示范性例子。如图所示,常见易混辅音对可以包括卷舌音和平舌音,如sh/s,ch/c等等,和其它种类的易混辅音对如h/f,l/n等等。常见易混元音可以包括前鼻音和后鼻音如an/ang,in/ing等等。
为了识别和校正拼音输入错误,由给定输入拼音得出的预期拼音的概率可以用来方便确定输入的拼音是否可能是错误的,而如果是错的,还要确定最可能被校正的或预期的拼音和/或根据被校正和预期拼音得出最可能的拼音到对应的字符/词的转换。由给定输入拼音P得出的预期拼音P’的概率,即p(P’|P),的汇集可以在相似性矩阵中被提供,相似性矩阵在本文也叫做模糊拼音矩阵。图2就是易混拼音对的规范化相似性或模糊拼音矩阵的例子。本文所称的易混拼音,通常涉及到包含所识别的、被如图1列出的常见易混辅音或元音对之中的至少一对的拼音。换言之,易混拼音是容易发错音的,并因此造成基于如图1所示的常见易混发音对集合的拼写错误。其它所有拼音都是非易混拼音,即,不包含在所识别的、被如图1列出的常见易混辅音或元音对之中任一对的拼音。
再参考图2,相似性矩阵的每个单元都指出了当用户键入拼音P时为实际真正预期拼音P’的可能性有多大。矩阵包含给定的易混输入拼音P对各种可能预期拼音P’的概率。空单元表示其值为0,即,相应该拼音对内两者之间不会混在一起。举例说明,给定一输入拼音P“lin”,用户预期拼音P’可以是“lin”(初始输入拼音,即P’=P),“ling”(in-ing是图1中的易混对),“nin”(l-n易混对),或“ning”(l-n和in-ing都是易混对)。每个可能的预期拼音P’都对应着给定输入拼音P得出的用户预期拼音P’经过估计或计算的概率。
相似性矩阵的建立可以根据汉语发音的一些知识或推想,并可选地根据汉语用户出错频率统计。这些知识和/或统计可以从例如搜索查询日志中获得。仅为了达到减少计算复杂性的目的,模糊拼音矩阵一旦被建立,错误拼写就可以不依赖上下文语境作出推断,尽管这样的推断也许并不正确。
图2的矩阵是所有可能易混拼音对的一个小的子集,且仅示出了可被计算出来的、或另外被指定到相关易混拼音对的一些可能性或概率,不同的可能性或概率可以类似地被计算或另外指定。特别,假设图1的表列出了所有汉语元音和辅音的易混对,那么,约408个汉语拼音中大概一半会与其它易混汉语拼音相混淆。键入拼音P而出现预期拼音P’的、经过估算的概率可以用于确定输入拼音是否可能被拼错,并且,如果错了,就要确定最有可能正确或预期的拼音或候选字符,上下文语境相关的概率还可以用来确定一组可能的候选汉字以提高此项确定的准确率。被估算的概率能够用于确定相应汉字的概率。因此,给定的拼音(初始输入或其它)越可能是预期拼音,则是相应汉字的概率也就越高。仅作为实例,如果每个预期输入“san”和“shan”被错发音或错拼成“shang”的可能性分别近似为1%和3%,则相应于拼音“san”的汉字的权重就被分配为相应于拼音“shan”的汉字的三分之一。因此,出现了几乎等同于未考虑易混拼音的那种混乱性。混乱性产生的原因是由于给定语境的可能字符为平均数。混乱性越高,字符就越不确定。
图3是展示处理过程20的流程图,该过程自动把可包含一个或多个易混拼音的拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个汉字集的候选汉字集合。在步骤22,用户拼音输入被接收,在步骤24,拼音输入中如果有任意易混拼音,则其每个易混拼音就都被识别并扩展为包含其它的可能预期拼音。在步骤26,最可能的转换候选被确定。在执行步骤24和26中,如图2所示的模糊拼音相似性矩阵可被用来识别对于给定的易混拼音的可能预期拼音及其相应的概率。另外,在步骤26,确定最可能的转换的过程中,上下文相关的概率也可以被运用。在步骤28,前N(例如3)个最可能的转换候选呈现给用户。
适合于诸如在步骤26执行的、把每个模糊拼音都转换为汉字和/或词的多种机制可以被应用。例如,各种解码器适用于把拼音转换为汉字(汉语字符)。在一实施例,使用隐含马尔可夫模型的Viterbi解码器可以被执行。隐含马尔可夫模型的训练,举例来说,可以通过收集经验数据或通过计算期望值和执行迭代最大化处理过程来实现。Viterbi算法是根据马尔可夫通信通道中的输出观察来对源输入进行解码的有用有效的算法。Viterbi算法已经被成功地应用于各种自然语言处理的应用程序,诸如语音识别,视觉字符识别,机器翻译,语音标注,分析和拼写检查。然而,应该明白,除了马尔可夫假设,各种其它合适的假设也可以用于实现解码算法。此外,Viterbi算法仅是一个可执行的合适解码算法,而各种其它合适的解码算法,诸如有限状态机,贝业斯网络(Bayesian network),决策阶段(decision plane)算法(即,一种高维数Viterbi算法),或BCJR算法(两次向前/向后的Viterbi算法)等等均可被使用。
图4-6示出了处理过程20的一个实例,它把作为例子的易混拼音输入“zhong guo zhen fu”转换为可包括了与某一拼写校正拼音输入相对应的一个或多个汉字组的候选汉字集合。具体来说,图4是把易混拼音输入“zhong guo zhen fu”中的每个拼音都根据汉字元音和辅音常见易混发音对列表扩展为相应的易混或模糊拼音(即,初始拼音和任何其它易混拼音)。例如,可查看如图2所示的相似性矩阵以便把易混拼音输入中的每个拼音都扩展为与其相应的易混或模糊拼音。如图所示,每个“zhong”,“zhen”和“fu”都分别被扩展为多个易混拼音。相比之下,而仅仅与自身有关的“guo”通常不会与其它任何拼音相混淆,也就是说不会含混。
图5是一个表格,它列出了从图4的示例性拼音输入“zhong guozhen fu”的模糊或易混拼音扩展表所产生的汉字或词的一些可能转换。如图所示,不考虑上下文,每个汉语拼音都能对应多个汉字。例如,拼音“fu”可以对应幅、府、福、夫等等,而拼音“hu”对应胡、湖、虎等等。此外,两个或更多个拼音可以组成一汉语词,而多个拼音也可以被转换为同一个汉语词。例如,拼音“zhong guo”可以被转换为中国人或中国。
图6是显示以图4和5中示例性拼音输入“zhong guo zhen fu”的易混/模糊拼音,其中一些汉字或词的转换,以及用于该示例性拼音输入这些汉字/词转换每对之间的过渡关系的网格图。如图所示,每个模糊拼音节点都与模糊拼音的概率p(P’|P),即给定的输入拼音P得出预期拼音P’的概率相关。例如,模糊拼音“zong”和“zhong”成为输入拼音“zhong”的预期拼音的概率p(zong|zhong)和p(zhong|zhong)分别为0.15和0.85。注意,因为输入拼音“guo”仅与自身有关,它的概率就被赋值为1.0。
图6还示出了一些模糊拼音转换成的汉字或词以及每个可能对的汉字/词转换之间的一些过渡关系。仅为了达到清楚的目的,并不是所有的模糊拼音到汉字或词的转换都被列出,同样也没有把所有转换的过渡都列出来。例如,每个链接或过渡的概率都可以根据语境而被赋值。因此,每种可能路径(即从最前一个到最后一个的拼音转换)的概率或可能性都可以被确定。在一实施例中,给定路径的概率范围可以根据该路径中每个节点概率的乘积来确定,亦即根据路径中每个链接的概率来确定。
图7是两条用户界面的形式,各自表示了图4到6中示例性拼音输入“zhong guo zhen fu”的N(例如3)个最可能的可选择转换的候选列表,注意,各种其它适当的用户界面也可以被使用。展现给用户的前N个可能的转换候选可以既从初始输入产生的候选中,也从使用容错方法产生的候选(如果有的话)中选择。是否显示拼写校正转换候选的决定可以依据:例如,拼写校正候选的概率值是否超过了第一和/或第二个最可能的初始输入候选概率的最小预先确定阈值。如图所示,前两个最可能的候选转换30,32是来自初始拼音输入“zhong guo zhen fu”的转换,而第三个候选转换34则是来自拼写校正拼音输入“zhong guo zheng fu”的转换。特别地,候选转换30对应于图6所示的中国-振-幅路径,而候选转换32对应于图6所示的中国-振-富路径。拼写校正候选转换34对应于图6所示的中国-政府路径。
拼写校正或模糊候选转换34可以表现为与初始拼音候选转换30,32不同的方式以便指给并提醒用户模糊转换34对应的是拼写校正拼音输入而不是初始拼音输入。仅仅作为例子,被校正的候选转换34可以被显示为不同颜色和/或不同字体(字号,下划线,黑体,和/或斜体等)。
图8是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的字符转换准确率和易混拼音输入错误率之间相对关系的图形。易混拼音输入错误率(X坐标)指的是被错误键入的易混拼音的百分比。例如,图8的图形可以从一组诸如用户查询的用户输入中产生。如图所示,易混拼音输入错误率为0%时的转换准确率大约可有96%之高。然而,如果字符输入中的拼音有任何错误,也就是与另一个近似发音的拼音发生混淆,则字符转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时,随着易混拼音输入错误率的增加,字符转换准确率相对明显下降。例如,当易混拼音输入错误率为100%时,字符转换准确率下降到大约62%。注意,即使输入的所有易混拼音都错了,由于输入中可以包含非易混拼音,所以即便在易混拼音输入错误率为100%时,转换准确率也不会是0%。上曲线表明使用容错(模糊)拼音输入处理后,即使当易混拼音输入错误率增加时,字符转换准确率也降低的很慢。例如,即便在易混拼音输入错误率为100%时,字符转换准确率也保持相对不变。
图9是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的查询转换准确率和易混拼音输入错误率之间相对关系的图形。如果给定查询中的一个词或字被错误转换,则整个查询就被认为错误。例如,一个查询包含4个字,其中的1个是非易混的而3个是易混的,且若这3个易混拼音中的1个出错,那么该查询就会有33%的易混拼音输入错误率。有鉴于此,在查询级的转换准确率就要低于字符级,这一点参考以上图8所示出和描述。易混拼音输入错误率(X坐标)代表查询输入中易混拼音被错误键入的百分比。如图所示,查询易混拼音输入错误率为0%时转换准确率可高达约85%。然而,如果查询输入中的拼音有任何错误,也就是说与另一个近似发音的拼音发生混淆,则查询转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时,随着易混拼音输入错误率的增加,查询转换准确率相对明显下降。例如,当易混拼音输入错误率为100%时,查询转换准确率下降到大约25%。上曲线表明使用容错(模糊)拼音输入处理后,即使当易混拼音输入错误率增加时,查询转换准确率也降低得很慢。例如,即便在易混拼音输入错误率为100%时,查询转换准确率也下降的很小,几乎还是大约80%。
图10是展示处理过程40的流程图。该处理过程用于训练容错输入系统和方法,并且更具体地用于生成如图2所示的相似性矩阵。特别是,生成相似性矩阵的处理过程可以利用从用户拼音输入及其相关的用户选择这两者中收集的数据,以便生成模糊拼音概率。通过使用一组输入来训练相似性矩阵,拼音输入中的拼写错误可能性就可以被确定并被处理,从而提高容错输入系统的效率和效果。
训练容错输入系统和方法的以及更具体地用于生成相似性矩阵的处理过程可以使用从用户拼音输入及其相关的用户选择这两者中收集的数据,以便生成模糊拼音概率。例如,在搜索引擎的语境中,用户查询和被用户选择的被转换的查询均被追踪和处理。例如,在步骤42,关于用户拼音输入的和被每个相应转换/解码候选项的用户选择的比率的数据都被收集起来。通过使用一组实际用户输入来训练相似性矩阵,拼音输入中的拼写错误可能性就可被确定并被处理,从而提高容错输入系统的效率和效果。
当至少包含一个拼写错误拼音的输入拼音被键入时,由于通常没有一个候选对应于用户的预期输入,则用户往往不会选择任何常规的转换(即,未经容错处理的转换)候选。相反,当用户正确键入一拼音输入时,可能就会有一个转换汉语候选被选择。因此,在步骤44,被候选选中比例很低的非被选择拼音输入就被识别为可包含与预期拼音P’可能有一定区别的拼错拼音P的那些拼音输入。此外,在步骤46,用户键入的拼音输入中没有被转换候选所选中的百分比或比率就被确定为近似性测量(概率)p(P’|P)。
处理过程40还为非被选择错误拼音输入确定所有可能的正确(预期)拼音输入。特别地,在步骤48,对每个非被选择拼音输入来说,在易混相似性方面与所述非被选择拼音输入相关的且具有相对较高(或最高)用户选择比例(即,接近根据诸如图1所示的易混拼音元素对所确定的编辑距离(editing distance))的拼音输入就被确定为预期拼音输入。换言之,易混相似性根据易混相似拼音对列表来确定。因此,拼错的拼音P(包含在初始拼音输入中)与预期拼音P’(包含在预期拼音输入中)通过一对或多对易混相似拼音元素来相互区别。
在步骤50,近似性测量用来关联每对易混拼音P和P’。例如,非被选择拼音输入和预期拼音输入可以被比较以确定错误拼音P和预期拼音P’。与易混拼音对P和P’相关的近似性测量就涉及到了用户键入拼音输入P和预期输入为P’的可能性,即,输入拼音P应被拼音P’所替代的频度。具体来说,给定易混拼音对P和P’的近似性测量p(P’|P)(在步骤46被确定)被确定为n(P->P’)/n(P),其中,n(P)是拼音输入P被用户键入的次数,n(P->P’)是拼音输入P应被与其相应的模糊拼音P’所替代的次数,也就是用户不曾从候选转换列表进行选择的次数。
显然,处理过程40中各步骤的顺序仅仅是图示性的且是可以改变的。此外,注意,相似性矩阵一旦生成则可以保持固定,也可以随着时间根据新用户拼音输入和选择数据逐步来被定期修改。如果没有足够的数据量来产生有意义的概率,则将用另外一个生成相似性矩阵的处理过程来为每对易混拼音之间的相似性(概率)都设置一个估计常数值。例如,可以假设用户预期拼音“shan”而键入拼音“shang”的可能性或概率为0.03。注意,对于给定的易混输入拼音P来说,输入拼音就是预期拼音(即P’=P)的可能性或概率与输入拼音不是预期拼音的可能性或概率之总和应大约为1.0。
提示,本文描述的图示化容错输入系统和方法特别适用于环球网搜索引擎的语境和包含经过组织的数据的数据库搜索引擎。然而,应该明白,所述容错输入系统和方法可以被改变用在其他各种应用程序,特别是对于非罗马化语言条目进行拼写错误检查和校正。举例来说,该系统和方法可以用于CJK文本输入应用程序,如,字词处理应用程序,以进行拼写错误检查和校正。
容错输入系统和方法特别适合用在基于非罗马系的语言,并且在发现拼写错误以及从带有拼写错误的拼音输入中校正汉字这两方面具有高效率。这样的容错输入系统和方法就使得汉语用户可以使用近似发音来输入汉字词而不必用精确的拼音。该方法还可以用上下文语境以进一步降低不确定性和/或迷惑性。
本文说明和图示了本发明的多个示例性实施例,值得理解的是,它们仅仅用于图示,并且可对这些实施例进行修改而不偏离本发明的精神和范围。因此,本发明的范围意图为仅根据可被修改的权利要求所定义,每个权利要求都与本“具体实施方式”中的发明实施例明确相结合。

Claims (5)

1.一种计算机执行的用于识别初始输入的最可能的转换的方法,所述初始输入包括潜在不正确的初始输入,所述方法包括:
接收初始拼音输入的初始序列,每个初始拼音输入具有相关的近似性测量,每个近似性测量表示各个预期的拼音输入被作为所述初始拼音输入的概率;
识别具有近似性测量的每个初始拼音输入,所述近似性测量表示不同于作为潜在不正确的初始拼音输入的所述初始拼音输入的各个预期的拼音输入的一个或多个非零概率;
对于拼音输入的一个或多个候选序列和所述初始拼音输入的初始序列中的每一个,其中每个拼音输入的候选序列包括至少一个预期的拼音输入,该预期的拼音输入不同于代替潜在不正确的初始拼音输入的一个潜在不正确的初始拼音输入,为所述序列选择到汉字的转换,所述转换为所述序列中的所述拼音输入到汉字的转换,使得对于所述拼音输入的一个或多个候选序列以及所述初始拼音输入的初始序列中的每一个,存在汉字的序列;
将每个转换与一可能性相关联,每个可能性基于与包括在相应的拼音输入的序列中的并且在用于为所述序列选择转换的拼音输入的所述序列中的预期的拼音输入相关联的近似性测量;
选择用于表示的最可能的转换,其中选择最可能的转换包括:
选择用于表示的到第一汉字的第一转换,该第一转换是从初始拼音输入的初始序列所转换的,所述第一转换具有第一可能性;
识别到第二汉字的第二转换,该第二转换是从拼音输入的候选序列之一转换的,所述第二转换具有第二可能性;
只有在所述第二可能性比第一可能性超出预定阈值时,选择用于表示的第二转换。
2.根据权利要求1所述的方法,其中,所述近似性测量独立于上下文。
3.根据权利要求1所述的方法,其中,所述近似性测量对应于成对的元音和辅音。
4.根据权利要求3所述的方法,其中,所述成对的元音和辅音包括以下的一个或多个对:in/ing,an/ang,en/eng,l/n,sh/s,ch/c,zh/z和h/f。
5.根据权利要求1所述的方法,其中,对于每个转换,每个可能性进一步部分基于与所述汉字相关的上下文的概率。
CN200580036712.8A 2004-08-25 2005-08-15 非罗马字符的容错罗马化输入方法 Active CN101133411B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/928,131 US20060048055A1 (en) 2004-08-25 2004-08-25 Fault-tolerant romanized input method for non-roman characters
US10/928,131 2004-08-25
PCT/US2005/029141 WO2006026156A2 (en) 2004-08-25 2005-08-15 Fault-tolerant romanized input method for non-roman characters

Publications (2)

Publication Number Publication Date
CN101133411A CN101133411A (zh) 2008-02-27
CN101133411B true CN101133411B (zh) 2014-08-27

Family

ID=35734924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580036712.8A Active CN101133411B (zh) 2004-08-25 2005-08-15 非罗马字符的容错罗马化输入方法

Country Status (3)

Country Link
US (3) US20060048055A1 (zh)
CN (1) CN101133411B (zh)
WO (1) WO2006026156A2 (zh)

Families Citing this family (235)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2006163651A (ja) * 2004-12-03 2006-06-22 Sony Computer Entertainment Inc 表示装置、表示装置の制御方法、プログラム及びフォントデータ
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US8395586B2 (en) * 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
CN100424703C (zh) * 2006-08-23 2008-10-08 北京搜狗科技发展有限公司 获取新编码字符串的方法及输入法系统、词库生成装置
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
US7987176B2 (en) * 2007-06-25 2011-07-26 Sap Ag Mixed initiative semantic search
WO2009016631A2 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US8365071B2 (en) 2007-08-31 2013-01-29 Research In Motion Limited Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window
WO2009063464A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8463597B2 (en) * 2008-05-11 2013-06-11 Research In Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
JP4655109B2 (ja) * 2008-05-12 2011-03-23 オムロン株式会社 文字入力用のプログラムおよび文字入力装置ならびに文字入力方法
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8589149B2 (en) * 2008-08-05 2013-11-19 Nuance Communications, Inc. Probability-based approach to recognition of user-entered data
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
JP5752150B2 (ja) 2010-02-01 2015-07-22 ジンジャー ソフトウェア、インコーポレイティッド 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102830808A (zh) * 2010-07-01 2012-12-19 杨春华 利用规范部件码作补码的拼音输入法
AU2011295719B2 (en) 2010-09-02 2014-07-10 Amo Development, Llc Patient interface for ophthalmologic diagnostic and interventional procedures
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102156551B (zh) * 2011-03-30 2014-04-23 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN102226896A (zh) * 2011-05-13 2011-10-26 中山大学 一种基于模糊按键的信息容错输入方法
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
CN102955770B (zh) * 2011-08-17 2017-07-11 深圳市世纪光速信息技术有限公司 一种拼音自动识别方法及系统
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
CN102368271A (zh) * 2011-11-01 2012-03-07 无敌科技(西安)有限公司 一种带有容错能力的中文内容拼写校正系统及方法
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
US9317606B1 (en) * 2012-02-03 2016-04-19 Google Inc. Spell correcting long queries
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US8612213B1 (en) 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9298694B2 (en) * 2013-04-11 2016-03-29 International Business Machines Corporation Generating a regular expression for entity extraction
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150185850A1 (en) * 2013-12-27 2015-07-02 Farzin Guilak Input detection
CN104750672B (zh) * 2013-12-27 2017-11-21 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9377871B2 (en) 2014-08-01 2016-06-28 Nuance Communications, Inc. System and methods for determining keyboard input in the presence of multiple contact points
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
CN104281649B (zh) * 2014-09-09 2017-04-19 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CA2985160C (en) 2015-05-18 2023-09-05 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
CN104991656B (zh) * 2015-06-11 2018-12-21 浦江开丰广告设计有限公司 一种输入汉语词组的方法
CN104991657A (zh) * 2015-06-11 2015-10-21 周连惠 一种中文和日文假名综合输入法及输入法系统
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CA2991275A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN106020506A (zh) * 2016-05-30 2016-10-12 北京小米移动软件有限公司 信息输入的方法及装置
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) * 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US20180001490A1 (en) * 2016-07-01 2018-01-04 Slice, Inc. Precision knife with ring hook
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10083231B1 (en) * 2017-11-30 2018-09-25 International Business Machines Corporation Fuzzy term partition identification
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10803242B2 (en) * 2018-10-26 2020-10-13 International Business Machines Corporation Correction of misspellings in QA system
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10916242B1 (en) * 2019-08-07 2021-02-09 Nanjing Silicon Intelligence Technology Co., Ltd. Intent recognition method based on deep learning network
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
CN110852087B (zh) * 2019-09-23 2022-02-22 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833610A (en) * 1986-12-16 1989-05-23 International Business Machines Corporation Morphological/phonetic method for ranking word similarities
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
US5477448A (en) * 1994-06-01 1995-12-19 Mitsubishi Electric Research Laboratories, Inc. System for correcting improper determiners
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6131102A (en) * 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
US6636849B1 (en) * 1999-11-23 2003-10-21 Genmetrics, Inc. Data search employing metric spaces, multigrid indexes, and B-grid trees
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
CA2357382A1 (en) * 2001-09-17 2003-03-17 Soma Networks, Inc. Software update method, apparatus and system
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US7113950B2 (en) * 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method
US7315982B2 (en) * 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构

Also Published As

Publication number Publication date
US20060048055A1 (en) 2006-03-02
US7810030B2 (en) 2010-10-05
US20110022952A1 (en) 2011-01-27
CN101133411A (zh) 2008-02-27
WO2006026156A3 (en) 2006-10-19
WO2006026156A2 (en) 2006-03-09
US20080028303A1 (en) 2008-01-31
US9069753B2 (en) 2015-06-30

Similar Documents

Publication Publication Date Title
CN101133411B (zh) 非罗马字符的容错罗马化输入方法
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US20120246133A1 (en) Online spelling correction/phrase completion system
US20050289463A1 (en) Systems and methods for spell correction of non-roman characters and words
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
Pennell et al. Normalization of text messages for text-to-speech
JP2003527676A (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
WO2011131785A1 (en) Normalisation of noisy typewritten texts
JP2003514304A (ja) スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ
Li et al. Improving text normalization using character-blocks based models and system combination
CN111985234B (zh) 语音文本纠错方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Tursun et al. Noisy Uyghur text normalization
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
Yang et al. Spell Checking for Chinese.
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
CN114861669A (zh) 一种融入拼音信息的中文实体链接方法
CN114548075A (zh) 文本处理方法、文本处理装置、存储介质与电子设备
KR100897718B1 (ko) 구어체 문장의 오류 교정 장치 및 방법
Zahui et al. EL-Mossahih V1. 0: A hybrid approach for detection and correction of typographical and phonetic transcription errors in Arabic texts
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法
Jose et al. Noisy SMS text normalization model
Ratnam et al. Phonogram-based Automatic Typo Correction in Malayalam Social Media Comments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google Inc.

Address before: American California

Patentee before: GOOGLE Inc.

CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder