CN1954315A - 用于将汉语拼音翻译成汉字的系统和方法 - Google Patents
用于将汉语拼音翻译成汉字的系统和方法 Download PDFInfo
- Publication number
- CN1954315A CN1954315A CNA2005800156697A CN200580015669A CN1954315A CN 1954315 A CN1954315 A CN 1954315A CN A2005800156697 A CNA2005800156697 A CN A2005800156697A CN 200580015669 A CN200580015669 A CN 200580015669A CN 1954315 A CN1954315 A CN 1954315A
- Authority
- CN
- China
- Prior art keywords
- chinese
- input
- phonetic
- group
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Abstract
本发明披露了一种用于将拼音处理并翻译成汉字和词的系统和方法。通过以下处理训练汉语语言模型:从诸如文件和/或用户输入/查询的汉语输入中提取未知字符串;从未知字符串中确定有效词;以及基于汉语输入生成用于预测给定语境的词串的转换矩阵。用于翻译拼音输入的方法通常包括:使用包括从汉语输入得到的词的汉语字典和基于汉语输入训练的语言模型从拼音输入生成一组汉字符串,每个字符串均具有表示字符串对应于拼音输入的可能性的权重。可以通过识别用户输入中的不确定的拼音/非拼音ASC II词以及分析语境以分类用户输入,来将不确定的用户输入分类成非拼音或拼音。
Description
技术领域
本发明广泛地涉及将汉语拼音翻译成汉字。更具体地,本发明披露了使用计算机将拼音汉语文本或拼音处理并翻译成汉字和词的系统和方法。
背景技术
在计算机上输入和处理汉语语言文本是非常困难的。这部分地是由于汉字的绝对数,还由于产生不确定的具有文本标准化、多个同音异义字、和隐形(或隐藏)词界的汉语语言中的固有问题,这使得汉语文本处理困难。
目前可用的用于将汉语语言文本输入到计算机系统中的一种常用方法是使用语音输入(例如,拼音)的方法。拼音使用罗马字符,并具有以多音节词形式列出的词汇表。然而,拼音输入法导致汉语语言处理过程中同音异义字的问题。具体地,因为仅用大约1300个不同的具有音调的语音音节(可由拼音表示)和大约410个不具有音调的语音音节来表示好几万个汉字(Hanzi),所以一个语音音节(具有或不具有音调)可对应许多不同的Hanzi。例如,普通话中“yi”的发音可对应于超过100个的Hanzi。当将语音音节翻译成Hanzi时,这就会产生不确定。
许多语音输入系统使用多项选择法来解决这个同音异义字的问题。一旦用户输入语音音节,就显示出一列具有相同发音的可能的Hanzi字符。然而,输入并选择对应于每个音节的Hanzi的处理可能是缓慢、冗长、以及耗时的。其它语音输入系统以基于相邻Hanzi字符来确定每个可能Hanzi字符的可能性为基础。概率方法可以进一步与语法约束相结合。然而,当应用于文学作品(例如,具有许多的描写句和成语)和/或口语或非正式语言(如在用户查询和/或电子公告牌系统(BBS)站中的网页上所使用的)时,这种将语音转换为Hanzi的方法的准确性通常会受到限制。另外,较低的字典适用范围通常会导致较差的口语转换质量。
除了同音异义字的问题,当处理汉语语言文本时,还存在词界问题。具体地,虽然在现代汉语中有超过80%的词具有多个音节并因而包括两个或多个Hanzi,但是在汉字书写系统中不存在任何字分离。语音汉语的输入通常是一个音节接一个音节地执行,而并不考虑词界。具体地,在输入语音汉语(拼音)词界的过程中,用户间不存在一致性。例如,有些人认为“Beijing daxue”(语音表示是北京大学的含义)是两个词,而其他人可能认为这个拼音是一个词,并且没有任何边界地输入拼音(即,“Beijingdaxue”)。
同音异义字的问题和缺乏词界是造成很难提供一种用于汉语语言文本输入和处理的简单、有效和准确机制的起主要作用的两个因素。以拼音输入的给定汉语文本可能产生许多传统方法不能适当解决的不确定。
因而,需要一种计算机系统,其能够有效、高效并准确地将语音汉语文本(例如,拼音)处理并翻译成汉字和/或词。
发明内容
披露了使用计算机来将语音汉语文本或拼音处理并翻译成汉字和词的系统和方法。术语“计算机”通常指的是任何具有计算能力的装置,诸如个人数字助理(PDA)、移动电话、网络转接器。该系统和方法具体可应用于基于网络的搜索引擎,但是也可应用于各种其它应用。应当了解,本发明可以以许多方式来实施,包括例如处理、设备、系统、装置、方法、或诸如计算机可读存储介质的计算机可读介质、或计算机网络,其中,通过光或电通信线路来发送程序指令。下面描述本发明的几个发明实施例。
训练(training)汉语语言模型的方法通常包括:从一组汉语输入(例如,汉语文件和/或用户汉语输入和/或查询)中提取未知的字符串;通过比较未知字符串的出现频率与未知字符串中单个字的出现频率,从未知字符串确定出有效词;以及例如基于包括如从汉语输入产生的n元组(n-tuple)相邻和非相邻词的计数的n元模型计数(n-gram count)(n≥1),产生用于预测给定语境的词串的条件概率的转换矩阵。n元模型计数可以包括每n个字序列(n-wordsequence)的出现次数。未知字符串的提取可利用先前存在的汉语字典。如果与未知字符串的单个字的出现频率相比,未知字符串的出现频率大于预定阈值,那么就可将未知字符串确定为有效的新字符串。
根据另一个实施例,用于训练汉语语言模型的系统通常包括:分词器(segmenter),用于从一组汉语输入中分出未知字符串;新词分析器,用于通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率,从未知字符串确定有效词;以及汉语语言模型训练模块,用于生成用于预测给定语境的词串的条件概率的转换矩阵。
根据又一实施例,提供了一种用于与计算机系统结合的计算机程序产品,该计算机程序产品具有在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质,指令通常包括:从一组汉语输入中提取未知字符串;通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率,从未知字符串确定有效词;以及生成用于预测给定语境的词串的条件概率的转换矩阵。
用于将拼音输入翻译成至少一个汉语字符串的方法通常包括从拼音输入生成一组字符串,每组字符串均具有与之相关的表示字符串对应于拼音输入的可能性的权重,该生成包括使用包括从一组汉语输入中所提取的词和基于该组汉语输入而训练的语言模型的汉语字典。该生成可包括使用包括从该组汉语输入中所提取的词和基于该组汉语输入所训练的语言模型的汉语字典来执行Viterbi算法。该方法还可包括从拼音输入生成多个拼音候选,使得每个拼音候选对应于一组字符串。该方法可进一步包括根据拼音输入对应于字符串的可能性来分类并排列该组字符串。可将该方法用于执行搜索(例如,通过搜索引擎的网络搜索)以及对数据库的查询,该数据库包括由用户从字符串组中选择的字符串的有组织的数据(organized data)。
根据另一实施例,用于将拼音输入翻译成至少一个汉语字符串的系统通常包括拼音词解码器,用于从拼音输入生成一组字符串,每组字符串均具有与其相关联的表示词串对应于拼音输入的可能性的权重,该拼音词解码器还用于使用包括从一组汉语输入中提取的词以及基于该组汉语输入所训练的语言模型的汉语字典。
根据又一实施例,提供了用于与计算机系统结合的计算机程序产品,该计算机程序产品具有其上存储有可在计算机处理器上执行的指令的计算机可读存储介质,该指令包括从拼音输入生成一组字符串,每组字符串均具有与其相关联的表示字符串对应于拼音输入的可能性的权重,该生成包括使用包括从一组汉语输入提取的词以及基于该组汉语输入训练的语言模型的汉语字典。
用于对用户输入进行拼音分类的方法通常可包括:识别在用户输入中的不确定的词,不确定的词是从在非拼音和拼音中均有效的词的数据库中选择的;以及,分析用户输入的语境词,以选择性地将用户输入分类为非拼音或拼音。该方法还可包括:计算可从不确定的查询生成的可能汉语查询的可能性;以及如果所计算的至少一个可能性超过预定阈值(例如,在分析之后仍未决定用户输入),则将用户输入分类为拼音输入。有效非拼音/拼音n元模型数据库可从非拼音用户查询中通常会出现的词中提取。
根据另一实施例,用于将用户输入分类为非拼音或拼音的拼音分类器通常包括:词数据库,在非拼音和拼音中均有效;以及分类引擎,用于从词数据库选择的用户输入中识别不确定的词以及用于分析用户输入的语境词,以将用户输入选择性地分类为非拼音或拼音。
将在以下通过本发明的实例原理阐述的详细描述和附图中详细给出本发明的这些和其它特征和优点。
附图说明
通过以下结合附图的详细描述将很容易理解本发明,其中,相同的数字表示相同的结构元件,其中:
图1是用于从诸如汉语文件和/或用户汉语条目或查询的汉语输入生成汉语字典的示例性系统和方法的框图;
图2是用于将拼音输入或查询翻译成汉字的示例性系统和方法的框图;
图3示出了表示从用户拼音查询“xian”翻译出的最佳汉语词串(其中之一可被用户选择以执行所选汉语词串的网络搜索)的搜索引擎服务器所服务的示例性页面;
图4是用于示出应用于输入拼音“zhong guo zheng fu”(意思是中国政府)的Viterbi算法的网格结构或格子结构;
图5是示出用于生成拼音分类器的示例性处理的流程图;以及
图6是示出用于处理包括不确定的拼音词的查询的示例性处理的流程图。
具体实施方式
本发明披露了使用计算机将语音汉语文本或拼音处理并翻译成汉字和词的系统和方法。给出以下描述以使本领域的任何技术人员都能实施并使用本发明。特定实施例的描述和应用仅提供作为实例,并且各种修改对本领域技术人员是显而易见的。可在不脱离本发明精神和范围的条件下,将本文中所限定的一般原理应用于其它实施例和应用。因而,本发明符合包括文中所披露的原理和特征相一致的许多替换、修改和等效物的最宽范围。为了简洁,没有详细描述与本发明相关的技术领域中已知的技术材料的详细描述,以避免不必要地混淆本发明。
该系统和方法通常涉及:如以下参考图1描述的通过获得并处理诸如文件和/或用户输入或查询的输入来训练语言模型,以及如以下参考图2描述的使用输入和所训练的语言模型来提供拼音翻译。通过使用该组输入,考虑用户偏好以及基于用户偏好来确定新的有效词。
图1是用于生成汉语字典以及用于基于用户汉语输入查询(诸如在网页搜索引擎中的用户汉语查询)和/或诸如那些例如在互联网上可用的汉语文件来训练汉语语言模型的示例性系统和方法100的框图。应当注意,文中所描述的是示例性系统和方法尤其可应用于例如与网页搜索引擎和用于包括有组织的数据的数据库的搜索引擎有关的汉语查询的语境中。然而,应当了解,该系统和方法适合并用于将拼音翻译成汉字的各种其它应用中。例如,该系统和方法适于从用户的拼音输入生成汉语文件的汉语文本输入应用。应当注意,拼音通常是指汉字的语音表示,具有或不具有与汉字相关的音调的表示。
汉语字典102和诸如用户汉语输入和/或汉语文件的一组用户汉语输入104可用作汉语分词器106的输入。例如,用户汉语输入或条目可以是用户汉语查询或各种或其它输入类型。汉语文件可包括汉语网页内容和诸如报纸、书籍、杂志、网页等的各种出版物。汉语字典102可以是各种适当标准或先前存在的汉语字典(包括各种单个和多个字符的汉语词或术语)中的一个或组合。在汉语查询的情况下,例如,该组汉语输入104可包括过去三周或两个月的用户汉语查询的集合。该组汉语文件104可以是一组汉语文件、汉语文件的集合或存储库,例如,汉语文件为在互联网上可以以简体和/或繁体汉字写入的文件。
汉语分词器106执行算法或规则,以将源汉语文本流(例如,句子或短语)分成汉语词单位或词语,并且还可任意地识别语法功能。例如,“toufa”是意思为“头发”的复合的二个字的汉语词,同样,表示“toufa”的汉字没有被分解,而是被当作一个单词。分词器106(或其它模块)可以在分词之前,首先将汉语文件输入104分成句子。可使用各种合适的分词器,包括那些市场上可以买到的,诸如剑桥、麻省的基础技术的分词器。
分词器106生成使用新词分析器110所分析的具有未知字符串的经过语法分析和分词的汉语条目108。新词分析器110分析未知或新的字符串,以确定字符串是否是有效的复合多字词以及哪个字符串是有效的复合多字词。特别地,给出大的和不同的词典,可能存在不确定的词分类、未知的合适名称、以及其它不在字典中的词(字符串或复合多字词)。例如,缩写词、截断术语、新造术语等可被形成并变得流行,并且可经常在文件和/或用户输入中被发现,但是不会出现在标准汉语字典中。在查询和口语中的超出词汇(OOV)(即,未知单词)出现的比率相对较高。例如,即使在使用大约250,000个最常用单词的大型词汇表时,搜索查询记录仍可包括大约4%的OOV。相反地,报纸和网页通常仅包括大约1%的OOV。新词分析器110可将复合多字符串的频率与各个字符单独出现的频率进行比较,以确定字符串是否是有效的复合多字词以及哪个字符串是有效的复合多字词。原始的汉语字典102与由新词分析器110所确定的新词的组合使得从诸如用户汉语条目或查询的汉语输入生成具有新词的新字典112。新字典112也可包括每个词与其所对应的一个或多个拼音的映射。如果给定的词对应于多个拼音,那么就可通过执行脚本以自动去除和/或通过手动去除无效拼音来改进汉字到拼音的映射质量。在多个拼音的情况下,该映射还可包括每个拼音的对应可能性。在新字典中的词到对应可能拼音以及多个可能拼音中的每个的可能性的映射在此处被称为生成矩阵。
在一个示例实施例中,新词分析器110可根据汉语输入是汉语文件还是用户汉语条目或查询来执行不同的分析。使用汉语文件,新词分析器110可计算每个新字符串的频率以及计算新字符串的子集的范围,以提取或确定覆盖在汉语文件的储存库中发现的所有新字符串的足够大部分的新有效字符串的相对较小的子集。为了进行更加全面的分析,新词分析器可分析所有新的字符串。可选的,新词分析器110可去除具有超过例如7个(或其它合适数目)的汉字的新字符串,然后根据汉字的数目,将剩余的新字符串(即,那些具有7或更少字的剩余新字符串)分成7组新字符串。对于每组新字符串,新词分析器110可计算其子集的范围。具体地,可以以频率{T1,……,Tn}的降序排列7组中每个组的术语T。子表Li的范围,{T1,……,Ti}被计算作为通过该组中所有字符串的频率总和所分割的子表Li中的术语的频率总和。例如,随后可将7组新字符串中的每组分成三个子集,其中,第一子集具有大于该组中98%的范围,以及第一和第二子集具有大于该组中99%的组合范围。也可进一步手动估计第二子集中的字符串,以去除任何不可能的字符串。可以结合第一子集和减少的第二子集,以形成从汉语文件的存储库生成的新一组有效词。将这些有效词添加到字典中。
为了从诸如用户查询的用户条目生成有效的新词,新词分析器110可确定具有高频率的n元模型(n≥2),并且检查在n元模型中每个字符串的频率。如果n元模型具有高于每个单个字的频率,则认为新字符串为有效词并将新的有效词添加到字典中。由于在网络搜索中使用的许多词没有包括在出版的字典中,所以从用户查询提取的这样新的有效词的添加将有助于改进搜索质量。
具体地,在将用户条目进行分词之后,新词分析器110可将所有多个单个字的串看作可能的新词。例如,如果用户输入“abcdefghij”被分成“ab-cd-e-f-g-hij”,则单个字的串“e-f-g”被看作可能的新词。计算可能的新词的频率(例如,P(efg)),然后与单个字的频率(例如,P(e)、P(f),和P(g))进行比较。如果信息增益G大于信息增益阈值,则将术语“efg”看作新的有效词。信息增益G的计算通常取决于以下应用的模型或假设。例如,信息增益G可以被确定为
P(efg)×log[P(efg)/(P(e)×P(f)×P(g))],即,Kullback-Leibler发散。概念是:如果给定的多字符串频繁地一起出现而很少单个或单独出现,那么由于在这种情况下的信息增益G很大,就将该多字符串看作有效的新词。与从汉语文件提取的有效新词类似,从用户条目中提取的有效新词也被添加到字典中。
包括从汉语文件和/或用户汉语条目中提取的新词的新字典112接下来被汉语分词器106b使用来执行第二分词处理,以使用包括新有效词的新字典来生成经过语法分析和分词的汉语条目114。随后,包括新有效词的经过语法分析和分词的汉语条目114用于使用汉语语言模型训练程序116来生成或训练汉语语言模型118。
特别地,汉语语言模型训练程序116生成用于预测给定语境的当前词的语言模型的条件概率的转换矩阵。语言模型通常是指概率模型,用于从诸如先前和随后或下面的词的语境中预测当前的词。可基于当前词及其语境的任何适当统计(例如,n个先前词和/或先前词的词类标记(part-of-speech tag))生成转换矩阵。例如,可基于从汉语输入(例如,用户条目和/或汉语文件)生成的n元模型(一个或多个词序列,即,n≥1)计数来生成转换矩阵。n元计数表示当前词、其语境(或预测值)、和词与其语境的组合的统计。
使用来自汉语输入的新有效词增加汉语字典并且基于汉语输入训练汉语语言模型,可以提供一种用于将拼音翻译成汉字的改进系统和方法。特别地,执行预处理和后处理,以进行拼音翻译。具体地,可通过过滤用户输入、保存非拼音记号及它们在输入中各自的位置、以及自动将拼音串分解成多个拼音候选来执行预处理。可通过从拼音解码所产生的结果的多个候选(即,Hanzi)进行分类,以及将结果与先前保存的非拼音记号合并来执行后处理。
图2是用于将拼音输入或查询翻译成汉字的示例系统和方法140的框图。特别地,原始用户输入或查询144由用户输入预处理器148接收并过滤。因为原始用户输入或查询144可包括字母字符和非字母字符(数字、标点和诸如汉语/日语/韩语(CJK)字符的非ASCII字符),所以用户输入预处理器148过滤掉非拼音记号152并保存它们各自的位置。为了确定非拼音记号,用户输入预处理器148可过滤掉任何非字母字符并且可选地过滤掉任何非拼音字母输入。特别地,用户输入预处理器148可以如将参照图5和图6更详细描述的将字母输入分类为拼音或非拼音。
拼音输入150由拼音分解器154来处理,拼音分解器154将拼音输入150分解成多个拼音候选或选项PY1、PY2、......、PYm156。拼音输入150可具有或不具有诸如空格、破折号或连字符等的定界符(delimiter),以分割不同的词、字符或音节。拼音分解器154可使用各种规则来执行分解功能,以生成各种拼音候选或选项PYi。例如,拼音输入“xian”,拼音分解器154可生成两个候选的拼音输入“xi-an”和“xian”。
m个候选拼音用作拼音-词转换器或汉语拼音解码器158的输入。解码器158也使用具有新有效词的汉语字典112以及使用汉语输入所训练的语言模型118,以生成每个拼音候选PYi的可能词串WSi-1、WSi-2等。具体地,为每个拼音候选PYi所生成的词串可被限制为k个最可能的词串WSi-1、WSi-2、......、WSi-k,其中,k可以是任何适当的数。每个词串WSi-1、WSi-2等可与表示特定词串WS对应于拼音输入150的概率或可能性的权重相联系。随后,基于它们的各自权重,通过分类和排列模块162来分类并排列多达m*k个可能的词串WS,其中,可从拼音输入150所生成的前(top)N(例如,N=3)个翻译的汉语词串164中选择权重。通过结果合并器,根据它们各自的位置152将前N个翻译的词串164与所保存的非拼音记号合并,并将前N个翻译的词串164被呈现或提供给用户。在搜索引擎的情况下,用户可随后选择N个合并结果166中的一个作为期望的搜索查询。
图3示出了由搜索引擎服务器所服务的示例性网页,其表示从用户查询“xian”144翻译出的前3个汉语词串164。前3个汉语词串中的一个可基于网络搜索由用户来选择。3个最可能的汉语词串164包括如可由拼音分解器154生成的作为单个字或音节的“xian”的两种不同的汉字翻译以及作为两个字或音节的“xian”的一种翻译。在搜索引擎的情况下,由于用户查询的记录被不断更新,所以用户输入可以周期性地(例如,每周)处理,以使用从汉语输入得到的新词来更新汉语字典以及更新基于汉语输入训练的汉语语言模型。
参考图3所示的用户接口,类似于当搜索引擎检测到查询可能被拼错时网络搜索引擎表示拼写校正的方式,可向用户呈现用户输入或查询的多种可能翻译。特别地,多种可能翻译在短语“您的意思是”(其自身可选择性地为汉字或Hanzi)之前。如果确定用户输入或查询可能被拼错,那么除可能翻译的列表之外,还可提供用户输入或查询的拼写校正(即,以ASCII)。不仅如此,多种可能翻译和拼写校正中的每一个均可为关于特定翻译的网络搜索的超链接。这样的用户接口(interface)可以是用于除拼音-汉字翻译之外的其它语言或语言格式的翻译,并且甚至可以延伸到两种非ASCII语言格式(例如,汉语-韩语)之间的翻译。
因为拼音-词解码器使用通过使用汉语输入和汉语字典(由从汉语输入得到的新词增加的)所训练的汉语语言模型,所以拼音-词解码器可将输入拼音的更佳翻译组提供给汉语词串。例如,如果仅使用网页和报纸而不使用新词来训练语言模型,则通常有大约67%的拼音查询被正确转换,即,用户的拼音输入的汉字翻译反映用户的预期查询。使用输入或查询数据来识别新的有效词以及训练语言模型可将准确度提高到大约85%。用于将拼音输入或查询翻译成汉字的系统和方法可应用于各种应用。例如,汉字输入应用可使用用于从用户拼音输入的文件生成汉字这样的系统和方法。作为另一个实例,诸如基于网络搜索引擎的搜索引擎可在生成对应于用户拼音输入的最可能的汉语词串过程中使用这样的系统和方法,用户可基于搜索从用户拼音输入中选择一个或多个汉语词串。
以下将更详细描述汉语拼音解码器158。可实现用于将拼音输入解码为可能的汉语词的各种适当机制。各种解码器均适合于将拼音翻译成Hanzi(汉字)。在一个实施例中,可实现使用HiddenMarkov模型的Viterbi解码器。例如,可通过收集试验计数或通过计算期望值和执行反复的最大值化处理来完成训练Hidden Markov模型。Viterbi算法是有用且有效地的算法,用于根据Markov通信信道的输出观察资料来解码源输入。Viterbi算法已在各种用于自然语言处理(例如,语音识别、光学字符识别、机器翻译、语音标记、语法分析和拼写检查)的应用中成功实现。然而,应当了解,代替Markov假设,在执行解码算法的过程中可作出各种其它合适的假设。另外,Viterbi算法不仅是一种可通过解码器执行的适当解码算法,也可执行各种其它合适的解码算法,例如,有限状态机、Bayesian网络、决策平面算法(高维Viterbi算法)或Bahl-Cocke-Jelinek-Raviv(BCJR)算法(双行程向前/向后Viterbi算法)。
Hidden Markov模型包括生成矩阵和条件概率的转换矩阵。如上所述的生成矩阵是在包括新术语的字典中的汉语术语到对应的可能拼音和多个可能拼音中的每个的可能性的映射。如上所述的条件概率的转换矩阵还是用于预测给定语境的当前词的语言模型,并且其可基于从诸如文件和/或用户条目的汉语输入所生成的n元模型计数来建置。
图4是用于示出被应用到输入拼音“zhong guo zheng fu”(意思是中国政府)的Viterbi算法的网格结构或格子结构。在图4中,将每个候选单词作为节点示出。例如,“zhong”可指中、忠、或钟,“guo”可指国或郭,“zhong guo”指中国,“zheng”可指政或挣,“fu”可指府、福、或夫,以及“zheng fu”可指政府、正/负、或征服。
当Viterbi算法遇到拼音“guo”时,该算法不仅找到生成这个拼音的词,而且找到与其之前的拼音结合生成这个拼音的所有词,即,意思是中国的“zhong guo”。因而,生成拼音zhong-guo的中国也可以作为候选词。考虑所有候选词的长度,使得在每个候选之前的单词能够被适当确定。特别地,每一单音节/字词具有长度1,而每个双音节字词具有长度2等。例如,能够在时间t=4生成的单音节/字词(长度1的词)府、福和夫前面的候选词可为在时间t=3生成的政或挣,而不可能是在时间t=2生成的国或郭。相反,能够在时间t=4生成的双音节/字词(长度2的词)政府、正/负和征服前面的候选单词可为在时间t=2生成的国、郭、或中国。
图4中所示的每个节点具有如由生成矩阵所提供的对应生成概率,并且两个节电之间的每个链接都具有如由条件概率的转换矩阵所提供的对应转换概率。在列举所有状态之后,Viterbi算法或解码器确定最佳路径。在图3的实例中,最佳路径是如粗体所示的中国政府。
如上所述,在过滤掉非字母字符之后,以及在处理并翻译作为拼音输入的用户输入的字母字符之前,期望检查用户输入,以检验用户输入是拼音输入而不是诸如英语、法语、或德语输入的非拼音的ASCII输入,即,将输入分类为拼音或非拼音ASCII。具体地,可使用拼音分类器来检测不确定的输入或查询是拼音还是非拼音。特别地,英语和汉语拼音共用相同字符组,即,字母表中的26个字母甚至还有一些单词。例如,每个词“Beijing”、“women”和“dilute”可以被看作英语单词和/或汉语拼音。在一种情况下,英语单词和拼音在两种语言中具有相同的语义,如“Beijing”的情况。在另一种情况下,相同的单词在拼音和英语中均有效,但是具有不同的语义,如“woman”的情况。在又一种情况下,单词可能具有英语(或汉语)意思,但是在汉语(或英语)中可能是无意义或无效的。例如,“dilute”是英语单词,但是即使对应于“di”、“lu”和“te”的字在汉语中是很常用的,“dilute”在汉语中也是无意义的。因而,拼音分类器(classifier)有助于检测不确定的输入或查询的语言。
图5和图6是分别示出用于生成拼音分类器的示例性处理200和用于处理包括不确定的拼音/非拼音ASCII单词的用户输入或查询的示例性处理220的流程图。在如图5所示的用于生成拼音分类器的示例性处理200中,在块202中,提取在非拼音ASCII用户输入中出现的最常用的ASCII n元模型,例如,非拼音ASCII或英语一元模型(unigram)或单词。在块204中,处理200确定最常用的ASCII n元模型中的每一个是否也可以是拼音,以生成一组可用在拼音和非拼音ASCII中的n元模型。因而,如果用户输入包括这些不确定的拼音/非拼音ASCII n元模型中的一个,那么用户输入是拼音还是非拼音就不是很确定。
为了解决不明确性,可以检验输入或查询的语境词。特别地,在用于处理包括如图6中所示的不确定的拼音/非拼音ASCII n元模型的查询的示例性处理220中,如在确定块222所确定地无论何时遇到拼音/非拼音ASCII n元模型中的一个,在块226中检验如在确定块224所确定的语境词,即,主语不确定的n元模型的向左(之前)和向右(之后)的词,以试图确定不确定的拼音/非拼音ASCII n元模型的语言,从而确定查询语言。例如,包括单词“women education”的查询可以被分类为英语查询,因为“education”明显是英语单词。另一方面,“women de jiayuan”(汉语是“我们的家园”)被分类为汉语拼音查询,因为“jiayuan”明显不是英语单词或其它非拼音ASCII n元模型。
在不存在如块224中所确定的语境(例如,单个术语查询),或者如果在块228中所确定的语境也是不确定的情况下,在块230中计算可从不确定的查询生成的一个或多个可能汉语查询的可能性或概率。如果如在确定块232中所确定的可从不确定的查询中生成的至少一个可能汉语查询具有成为拼音查询的很高的可能性,那么在块234中将该查询看作英语查询。可选地,如果可从不确定的查询生成的可能汉语查询中的任何一个都不具有成为拼音查询的很高的可能性,那么在块236中将该查询看作英语查询。作为实例,一个词查询“magazine”可被看作非拼音或英语查询,因为当将“magazine”看作拼音查询时,可从“magazine”生成的可能汉语查询的任何一个都不具有成为拼音查询“ma-ga-zi-ne”的很高的可能性。
虽然在这里描述和示出了本发明的优选实施例,但应该明白,它们仅仅是说明性的,并且在不背离本发明的精神和范围的前提下,可以对这些实施例进行修改。因此,仅根据可修改的权利要求来对本发明进行限定,每条权利要求都明显地结合到如本发明实施例的特性实施例的描述中。
Claims (47)
1.一种用于从汉语输入训练汉语语言模型的方法,包括:
从一组汉语输入中提取未知字符串;
通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率,从所述未知字符串确定有效词;以及
生成用于预测给定语境的词的条件概率的转换矩阵。
2.根据权利要求1所述的方法,其中,所述未知字符串的所述提取使用先前存在的汉语字典。
3.根据权利要求1所述的方法,其中,基于从所述汉语输入生成的n元模型计数来生成所述条件概率的转换矩阵,其中n≥1。
4.根据权利要求3所述的方法,其中,所述n元模型计数包括在所述组汉语输入中的相邻和非相邻词的n元组的计数。
5.根据权利要求3所述的方法,其中,所述n元模型计数包括每n个词序列的出现次数。
6.根据权利要求1所述的方法,其中,如果与所述未知字符串的所述单个字符的出现频率相比,所述未知字符串的所述出现频率大于预定阈值,那么就将所述未知字符串确定为有效的新字符串。
7.根据权利要求1所述的方法,其中,所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。
8.根据权利要求7所述的方法,其中,所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。
9.一种与计算机系统一起使用的计算机程序产品,所述计算机程序产品包括在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质,所述指令包括:
从一组汉语输入中提取未知字符串;
通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率,从所述未知字符串确定有效词;以及
生成用于预测给定语境的词串的条件概率的转换矩阵。
10.一种用于训练汉语语言模型的系统,包括:
分词器,用于从一组汉语输入中划分未知字符串;
新词分析器,用于通过比较所述未知字符串的出现频率与所述未知字符串中的单个字符的出现频率,从所述未知字符串确定有效词;以及
汉语语言模型训练模块,用于生成用于预测给定语境的词串的条件概率的转换矩阵。
11.根据权利要求10所述的系统,其中,所述分词器使用先前存在的汉语字典来划分所述未知词串。
12.根据权利要求10所述的系统,其中,所述新词分析器还用于从所述汉语输入生成n元模型计数,以及基于所述n元模型计数来生成条件概率的所述转换矩阵,其中n>1。
13.根据权利要求12所述的系统,其中,所述n元模型计数包括在所述组汉语输入中相邻和非相邻单词的n元组的计数。
14.根据权利要求12所述的系统,其中,所述n元模型计数包括每n个词序列的出现次数。
15.根据权利要求10所述的系统,其中,所述新词分析器还用于确定:与所述未知字符串的所述单个字符的出现频率相比,如果所述未知字符串的所述出现频率大于预定阈值,那么未知字符串就是有效的新字符串。
16.根据权利要求10所述的系统,其中,所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。
17.根据权利要求16所述的系统,其中,所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。
18.一种用于将拼音输入翻译成至少一个汉语字符串的方法,包括:
从所述拼音输入生成一组字符串,每个字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重,所述生成包括:使用包括从一组汉语输入中提取的词以及基于所述组汉语输入所训练的语言模型的汉语字典。
19.根据权利要求18所述的方法,其中,所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。
20.根据权利要求19所述的方法,其中,所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。
21.根据权利要求18所述的方法,还包括:
在所述生成之前,从所述拼音输入过滤掉非字母字符并存储它们在所述拼音输入中各自的位置;以及
在所述生成之后,将每个所述字符串与在对应于它们的存储位置的位置上的所述非字母字符进行合并。
22.根据权利要求18所述的方法,还包括:
在所述生成之前,识别所述拼音输入中的不确定的词,所述不确定的词是从在非拼音和拼音中均有效的n元模型的数据库中选取的;以及
分析所述用户输入的语境,以选择性地将所述拼音输入分类为非拼音和拼音,其中,仅在所述拼音输入被分类为拼音时才执行所述生成。
23.根据权利要求18所述的方法,还包括从所述拼音输入生成多个拼音候选,其中,所述生成包括生成用于每个拼音候选的一组字符串。
24.根据权利要求18所述的方法,还包括根据所述拼音输入对应于所述字符串的可能性来分类并排列所述组字符串。
25.根据权利要求18所述的方法,其中,所述生成包括使用所述汉语字典来执行Viterbi算法,其中,所述汉语字典包括从所述组汉语输入中提取的词以及基于所述组汉语输入的所述语言模型。
26.根据权利要求18所述的方法,还包括:
对由用户从所述组字符串选择的字符串执行搜索。
27.根据权利要求18所述的方法,其中,所述搜索是由搜索引擎执行的网络搜索。
28.根据权利要求18所述的方法,还包括:
从所述组汉语输入提取未知字符串;
通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率,从所述未知字符串确定有效词,以生成所述汉语字典,所述汉语字典包括所述词到它们对应的拼音的映射;以及
生成用于预测给定语境的词串的所述语言模型。
29.一种与计算机系统一起使用的计算机程序产品,所述计算机程序产品包括在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质,所述指令包括:
从所述拼音输入生成一组字符串,每组字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重,所述生成包括使用包括从一组汉语输入中提取的词以及基于所述组汉语输入训练的语言模型的汉语字典。
30.一种用于将拼音输入翻译成至少一个汉语字符串的系统,包括:
拼音-词解码器,用于从所述拼音输入生成一组字符串,每个字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重,所述拼音-词解码器还用于使用包括从一组汉语输入中提取的词以及基于所述组汉语输入训练的语言模型的汉语字典。
31.根据权利要求30所述的系统,其中,所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。
32.根据权利要求30所述的系统,还包括拼音候选生成器,用于从所述拼音输入生成多个拼音候选,其中,所述拼音-词解码器用于为每个拼音候选生成一组字符串。
33.根据权利要求30所述的系统,还包括分类以及排列模块,用于根据所述拼音输入对应于所述字符串的所述可能性来分类并排所述组词串。
34.根据权利要求30所述的系统,其中,所述拼音-词解码器还用于使用所述汉语字典执行Viterbi算法,其中,所述汉语字典包括从所述组汉语输入中提取的词以及基于所述组汉语输入的语言模型。
35.根据权利要求30所述的系统,还包括:
分词器,用于从所述组汉语输入中划分未知字符串;
新词分析器,用于通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率,从所述未知字符串确定有效词;以及
汉语语言模型训练模块,用于生成用于预测给定语境的词串的条件概率的转换矩阵。
36.一种用于分类用户输入的拼音分类器,包括:
在非拼音和拼音中均有效的词数据库;以及
分类引擎,用于识别从所述词数据库中选择的所述用户输入中的不确定的词以及用于分析所述用户输入的语境词,以将所述用户输入选择性地分类为非拼音或拼音。
37.根据权利要求36所述的拼音分类器,其中,所述分类引擎还用于计算可从不确定的查询生成的可能汉语查询的可能性,以及如果计算的至少一个所述可能性超过预定阈值,就将所述用户输入分类为拼音输入。
38.根据权利要求37所述的拼音分类器,其中,所述分类引擎还用于如果在所述分类引擎分析所述语境词之后仍未决定所述用户输入,则计算可能汉语查询的所述可能性。
39.根据权利要求36所述的拼音分类器,其中,从在非拼音用户查询中通常会出现的词中提取在非拼音和拼音中均有效的所述词数据库。
40.一种用于用户输入的拼音分类方法,包括:
识别所述用户输入中的不确定的词,从在非拼音和拼音中均有效的n元模型数据库中选择所述不确定的词;以及
分析所述用户输入的语境词,以将所述用户输入选择性地分类为非拼音或拼音。
41.根据权利要求40所述的拼音分类方法,还包括:
计算可从不确定的查询生成的可能汉语查询的可能性;以及
如果计算的至少一个所述可能性超过预定阈值,就将所述用户输入分类为拼音输入。
42.根据权利要求41所述的拼音分类方法,其中,如果在所述分析之后仍未决定所述用户输入,则执行所述计算和分类。
43.根据权利要求40所述的拼音分类方法,其中,从在非拼音用户查询中通常会出现的词中提取在非拼音和拼音中均有效的词数据库。
44.一种用于表示用户输入的可能翻译的方法,包括:
提供用于所述用户输入的每个可能翻译的超链接,所述用户输入和所述用户输入的每个可能翻译为不同的语言或语言格式。
45.根据权利要求44所述的用于表示可能翻译的方法,其中,所述用户输入是拼音且每个所述可能的翻译是Hanzi。
46.根据权利要求44所述的用于表示可能翻译的方法,还包括:
提供对应于所述用户输入的拼写校正的至少一个其它超链接。
47.根据权利要求44所述的用于表示可能翻译的方法,其中,所述超链接是所述用户输入的所述对应可能翻译的网络搜索。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/802,479 US7478033B2 (en) | 2004-03-16 | 2004-03-16 | Systems and methods for translating Chinese pinyin to Chinese characters |
US10/802,479 | 2004-03-16 | ||
PCT/US2005/008863 WO2005091167A2 (en) | 2004-03-16 | 2005-03-16 | Systems and methods for translating chinese pinyin to chinese characters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1954315A true CN1954315A (zh) | 2007-04-25 |
CN1954315B CN1954315B (zh) | 2010-06-23 |
Family
ID=34963142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800156697A Active CN1954315B (zh) | 2004-03-16 | 2005-03-16 | 用于将汉语拼音翻译成汉字的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US7478033B2 (zh) |
CN (1) | CN1954315B (zh) |
GB (1) | GB2427944A (zh) |
WO (1) | WO2005091167A2 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008145055A1 (fr) * | 2007-05-25 | 2008-12-04 | Beijing Sogou Technology Development Co., Ltd. | Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie |
CN101378562B (zh) * | 2007-08-29 | 2012-07-04 | 北京三星通信技术研究有限公司 | 移动通信终端地址簿的中文和拼音的相互查找方法 |
US8407236B2 (en) | 2008-10-03 | 2013-03-26 | Microsoft Corp. | Mining new words from a query log for input method editors |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN104813257A (zh) * | 2012-08-31 | 2015-07-29 | 微软技术许可有限责任公司 | 用于输入法编辑器的浏览历史语言模型 |
CN105683873A (zh) * | 2013-04-27 | 2016-06-15 | 谷歌公司 | 容错输入法编辑器 |
CN105679317A (zh) * | 2014-12-08 | 2016-06-15 | 三星电子株式会社 | 用于训练语言模型并识别语音的方法和设备 |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN107704456A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN108681536A (zh) * | 2018-04-27 | 2018-10-19 | 青岛大学 | 一种基于汉语拼音多重映射的无载体隐写方法 |
CN110245331A (zh) * | 2018-03-09 | 2019-09-17 | 中兴通讯股份有限公司 | 一种语句转换方法、装置、服务器及计算机存储介质 |
US10613746B2 (en) | 2012-01-16 | 2020-04-07 | Touchtype Ltd. | System and method for inputting text |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
Families Citing this family (337)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7315982B2 (en) | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
US7478081B2 (en) * | 2004-11-05 | 2009-01-13 | International Business Machines Corporation | Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system |
US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US7657521B2 (en) * | 2005-04-15 | 2010-02-02 | General Electric Company | System and method for parsing medical data |
US7573404B2 (en) * | 2005-07-28 | 2009-08-11 | Research In Motion Limited | Handheld electronic device with disambiguation of compound word text input employing separating input |
KR20070024771A (ko) * | 2005-08-30 | 2007-03-08 | 엔에이치엔(주) | 질의어 자동변환을 이용한 자동완성 질의어 제공 시스템 및방법 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070106664A1 (en) * | 2005-11-04 | 2007-05-10 | Minfo, Inc. | Input/query methods and apparatuses |
US20070112749A1 (en) * | 2005-11-04 | 2007-05-17 | Minfo, Inc. | Query methods and apparatuses including user profile with domain views |
US7895223B2 (en) * | 2005-11-29 | 2011-02-22 | Cisco Technology, Inc. | Generating search results based on determined relationships between data objects and user connections to identified destinations |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US20070250307A1 (en) * | 2006-03-03 | 2007-10-25 | Iq Technology Inc. | System, method, and computer readable medium thereof for language learning and displaying possible terms |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
WO2007129316A2 (en) | 2006-05-07 | 2007-11-15 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
CN1936893B (zh) * | 2006-06-02 | 2010-05-12 | 北京搜狗科技发展有限公司 | 基于互联网信息的输入法词频库的生成方法和系统 |
WO2008000058A1 (en) * | 2006-06-30 | 2008-01-03 | Research In Motion Limited | Learning character segments during text input |
US7665037B2 (en) * | 2006-06-30 | 2010-02-16 | Research In Motion Limited | Method of learning character segments from received text, and associated handheld electronic device |
WO2008000057A1 (en) * | 2006-06-30 | 2008-01-03 | Research In Motion Limited | Learning character segments from received text |
US8395586B2 (en) | 2006-06-30 | 2013-03-12 | Research In Motion Limited | Method of learning a context of a segment of text, and associated handheld electronic device |
US7565624B2 (en) | 2006-06-30 | 2009-07-21 | Research In Motion Limited | Method of learning character segments during text input, and associated handheld electronic device |
CN100405371C (zh) * | 2006-07-25 | 2008-07-23 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
CN1924858B (zh) * | 2006-08-09 | 2010-05-12 | 北京搜狗科技发展有限公司 | 一种获取新词的方法、装置以及一种输入法系统 |
US8732314B2 (en) * | 2006-08-21 | 2014-05-20 | Cisco Technology, Inc. | Generation of contact information based on associating browsed content to user actions |
KR100837750B1 (ko) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템 |
US8626486B2 (en) * | 2006-09-05 | 2014-01-07 | Google Inc. | Automatic spelling correction for machine translation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8078450B2 (en) * | 2006-10-10 | 2011-12-13 | Abbyy Software Ltd. | Method and system for analyzing various languages and constructing language-independent semantic structures |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9471562B2 (en) | 2006-10-10 | 2016-10-18 | Abbyy Infopoisk Llc | Method and system for analyzing and translating various languages with use of semantic hierarchy |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8892423B1 (en) | 2006-10-10 | 2014-11-18 | Abbyy Infopoisk Llc | Method and system to automatically create content for dictionaries |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9588958B2 (en) | 2006-10-10 | 2017-03-07 | Abbyy Infopoisk Llc | Cross-language text classification |
US9053090B2 (en) | 2006-10-10 | 2015-06-09 | Abbyy Infopoisk Llc | Translating texts between languages |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
CN101231636B (zh) * | 2007-01-25 | 2013-09-25 | 北京搜狗科技发展有限公司 | 一种便捷的信息搜索方法、系统及一种输入法系统 |
US8028230B2 (en) * | 2007-02-12 | 2011-09-27 | Google Inc. | Contextual input method |
CN100458795C (zh) * | 2007-02-13 | 2009-02-04 | 北京搜狗科技发展有限公司 | 一种智能组词输入的方法和一种输入法系统及其更新方法 |
US8677237B2 (en) * | 2007-03-01 | 2014-03-18 | Microsoft Corporation | Integrated pinyin and stroke input |
US20080211777A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Stroke number input |
US8316295B2 (en) * | 2007-03-01 | 2012-11-20 | Microsoft Corporation | Shared language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101286094A (zh) * | 2007-04-10 | 2008-10-15 | 谷歌股份有限公司 | 多模式输入法编辑器 |
CN105204617B (zh) * | 2007-04-11 | 2018-12-14 | 谷歌有限责任公司 | 用于输入法编辑器集成的方法和系统 |
US8528808B2 (en) | 2007-05-06 | 2013-09-10 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
US8799307B2 (en) * | 2007-05-16 | 2014-08-05 | Google Inc. | Cross-language information retrieval |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
WO2009000103A1 (en) * | 2007-06-25 | 2008-12-31 | Google Inc. | Word probability determination |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US8086441B1 (en) * | 2007-07-27 | 2011-12-27 | Sonicwall, Inc. | Efficient string search |
CN105045777A (zh) | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US7983902B2 (en) * | 2007-08-23 | 2011-07-19 | Google Inc. | Domain dictionary creation by detection of new topic words using divergence value comparison |
EP2218055B1 (en) | 2007-11-14 | 2014-07-16 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US8209164B2 (en) * | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
CN101470732B (zh) * | 2007-12-26 | 2012-04-18 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8046222B2 (en) | 2008-04-16 | 2011-10-25 | Google Inc. | Segmenting words using scaled probabilities |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
US8463597B2 (en) * | 2008-05-11 | 2013-06-11 | Research In Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
KR100978693B1 (ko) * | 2008-05-20 | 2010-08-30 | 야후! 인크. | 전자사전 서비스를 제공하는 시스템 및 방법 |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US9411800B2 (en) * | 2008-06-27 | 2016-08-09 | Microsoft Technology Licensing, Llc | Adaptive generation of out-of-dictionary personalized long words |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8560298B2 (en) * | 2008-10-21 | 2013-10-15 | Microsoft Corporation | Named entity transliteration using comparable CORPRA |
US8326809B2 (en) * | 2008-10-27 | 2012-12-04 | Sas Institute Inc. | Systems and methods for defining and processing text segmentation rules |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101083455B1 (ko) * | 2009-07-17 | 2011-11-16 | 엔에이치엔(주) | 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법 |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
CA2787390A1 (en) | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
TWI406139B (zh) * | 2010-09-21 | 2013-08-21 | Inventec Corp | 具有聲調的拼音翻譯與拼音查詢系統及其方法 |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US8639701B1 (en) | 2010-11-23 | 2014-01-28 | Google Inc. | Language selection for information retrieval |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
EP2661705A4 (en) * | 2011-01-05 | 2016-06-01 | Google Inc | METHOD AND SYSTEM FOR FACILITATING TEXT INPUT |
US10048771B2 (en) * | 2011-01-12 | 2018-08-14 | Google Technology Holdings LLC | Methods and devices for chinese language input to a touch screen |
US8600730B2 (en) * | 2011-02-08 | 2013-12-03 | Microsoft Corporation | Language segmentation of multilingual texts |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012159245A1 (en) * | 2011-05-20 | 2012-11-29 | Microsoft Corporation | Displaying key pinyins |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
CN102929864B (zh) * | 2011-08-05 | 2016-08-17 | 北京百度网讯科技有限公司 | 一种音字转换方法及装置 |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
CN102955770B (zh) * | 2011-08-17 | 2017-07-11 | 深圳市世纪光速信息技术有限公司 | 一种拼音自动识别方法及系统 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5642037B2 (ja) * | 2011-09-22 | 2014-12-17 | 株式会社東芝 | 検索装置、検索方法およびプログラム |
US9785628B2 (en) * | 2011-09-29 | 2017-10-10 | Microsoft Technology Licensing, Llc | System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication |
US8976118B2 (en) | 2012-01-20 | 2015-03-10 | International Business Machines Corporation | Method for character correction |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8996356B1 (en) | 2012-04-10 | 2015-03-31 | Google Inc. | Techniques for predictive input method editors |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
US20150199332A1 (en) * | 2012-07-20 | 2015-07-16 | Mu Li | Browsing history language model for input method editor |
US20140067394A1 (en) * | 2012-08-28 | 2014-03-06 | King Abdulaziz City For Science And Technology | System and method for decoding speech |
EP2891043A4 (en) * | 2012-08-31 | 2015-10-14 | Microsoft Technology Licensing Llc | PERSONAL LANGUAGE MODEL FOR AN INPUT PROCESSOR EDITOR |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP5741542B2 (ja) * | 2012-09-20 | 2015-07-01 | カシオ計算機株式会社 | 情報表示制御装置、情報表示制御方法、およびプログラム |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US20140142925A1 (en) * | 2012-11-16 | 2014-05-22 | Raytheon Bbn Technologies | Self-organizing unit recognition for speech and other data series |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
KR101440891B1 (ko) * | 2013-01-30 | 2014-09-17 | 삼성에스디아이 주식회사 | 이차 전지 |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US8996355B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US8996353B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9672818B2 (en) | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
CN104219362A (zh) * | 2013-05-30 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 搜索联系人的方法和装置 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9489373B2 (en) | 2013-07-12 | 2016-11-08 | Microsoft Technology Licensing, Llc | Interactive segment extraction in computer-human interactive learning |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9384191B2 (en) * | 2013-09-25 | 2016-07-05 | International Business Machines Corporation | Written language learning using an enhanced input method editor (IME) |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9460344B2 (en) * | 2014-10-13 | 2016-10-04 | Lenovo (Singapore) Pte. Ltd. | Generating multi-logogram phrases from logogram radicals |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
TWI550420B (zh) * | 2015-02-12 | 2016-09-21 | 國立雲林科技大學 | 資訊取得系統與方法、以及儲存裝置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
JP6649472B2 (ja) | 2015-05-18 | 2020-02-19 | バーコード リミティド | 活性化可能な品質表示ラベルのための熱変色性インク証印 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN104899304B (zh) * | 2015-06-12 | 2018-02-16 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN107709946B (zh) | 2015-07-07 | 2022-05-10 | 发可有限公司 | 电子质量标志 |
CN105187408A (zh) * | 2015-08-17 | 2015-12-23 | 北京神州绿盟信息安全科技股份有限公司 | 网络攻击检测方法和设备 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN106855748A (zh) * | 2015-12-08 | 2017-06-16 | 阿里巴巴集团控股有限公司 | 一种信息输入方法、装置和智能终端 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US10409903B2 (en) | 2016-05-31 | 2019-09-10 | Microsoft Technology Licensing, Llc | Unknown word predictor and content-integrated translator |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) * | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
JP6729232B2 (ja) * | 2016-09-20 | 2020-07-22 | 富士通株式会社 | メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN107870901B (zh) * | 2016-09-27 | 2023-05-12 | 松下知识产权经营株式会社 | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 |
CN108009182B (zh) * | 2016-10-28 | 2020-03-10 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107291692B (zh) * | 2017-06-14 | 2020-12-18 | 北京百度网讯科技有限公司 | 基于人工智能的分词模型的定制方法、装置、设备和介质 |
CN107247708B (zh) * | 2017-07-03 | 2021-07-20 | 中国银行股份有限公司 | 一种姓名识别方法及系统 |
US10275646B2 (en) | 2017-08-03 | 2019-04-30 | Gyrfalcon Technology Inc. | Motion recognition via a two-dimensional symbol having multiple ideograms contained therein |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10635305B2 (en) * | 2018-02-01 | 2020-04-28 | Microchip Technology Incorporated | Touchscreen user interface with multi-language support |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10417342B1 (en) * | 2018-07-03 | 2019-09-17 | Gyrfalcon Technology Inc. | Deep learning device for local processing classical chinese poetry and verse |
CN109271625B (zh) * | 2018-08-28 | 2023-07-14 | 江苏省基础地理信息中心 | 一种汉语地名的拼音拼写规范化方法 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10885286B2 (en) * | 2018-10-12 | 2021-01-05 | Microsoft Technology Licensing, Llc | Simultaneous and real time translation and language switching across a set of features |
CN109446521B (zh) * | 2018-10-18 | 2023-08-25 | 京东方科技集团股份有限公司 | 命名实体识别方法、装置、电子设备、机器可读存储介质 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109815476B (zh) * | 2018-12-03 | 2023-03-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110569505B (zh) * | 2019-09-04 | 2023-07-28 | 平顶山学院 | 一种文本输入方法及装置 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN111144096B (zh) * | 2019-12-11 | 2023-09-29 | 心医国际数字医疗系统(大连)有限公司 | 基于hmm的拼音补全的训练方法、补全模型、补全方法及补全输入法 |
CN112241629A (zh) * | 2019-12-23 | 2021-01-19 | 北京来也网络科技有限公司 | 结合rpa及ai的拼音标注文本生成方法及装置 |
CN111145718B (zh) * | 2019-12-30 | 2022-06-07 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111414772B (zh) * | 2020-03-12 | 2023-09-26 | 北京小米松果电子有限公司 | 一种机器翻译方法、装置及介质 |
CN113555009A (zh) * | 2020-04-21 | 2021-10-26 | 京东数字科技控股有限公司 | 用于训练模型的方法和装置 |
CN111340574B (zh) * | 2020-05-15 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 风险用户的识别方法、装置和电子设备 |
CN113932518B (zh) * | 2021-06-02 | 2023-08-18 | 海信冰箱有限公司 | 冰箱及其食材管理方法 |
CN113704406B (zh) * | 2021-08-30 | 2023-06-30 | 临沂职业学院 | 一种流行缩略语的中文释义匹配系统与方法 |
CN113723082A (zh) * | 2021-08-30 | 2021-11-30 | 支付宝(杭州)信息技术有限公司 | 从文本中检测中文拼音的方法和装置 |
CN115310462B (zh) * | 2022-10-11 | 2023-03-24 | 中孚信息股份有限公司 | 一种基于nlp技术的元数据识别翻译方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5270927A (en) * | 1990-09-10 | 1993-12-14 | At&T Bell Laboratories | Method for conversion of phonetic Chinese to character Chinese |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
SG42314A1 (en) * | 1995-01-30 | 1997-08-15 | Mitsubishi Electric Corp | Language processing apparatus and method |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
TWI270792B (en) * | 2003-03-28 | 2007-01-11 | Lin-Shan Lee | Speech-based information retrieval |
CN100429648C (zh) * | 2003-05-28 | 2008-10-29 | 洛昆多股份公司 | 一种文本自动分块的方法、分块器和文本到语言合成系统 |
US20050027547A1 (en) * | 2003-07-31 | 2005-02-03 | International Business Machines Corporation | Chinese / Pin Yin / english dictionary |
-
2004
- 2004-03-16 US US10/802,479 patent/US7478033B2/en active Active
-
2005
- 2005-03-16 GB GB0620176A patent/GB2427944A/en not_active Withdrawn
- 2005-03-16 CN CN2005800156697A patent/CN1954315B/zh active Active
- 2005-03-16 WO PCT/US2005/008863 patent/WO2005091167A2/en active Application Filing
-
2008
- 2008-11-17 US US12/272,562 patent/US8660834B2/en active Active
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008145055A1 (fr) * | 2007-05-25 | 2008-12-04 | Beijing Sogou Technology Development Co., Ltd. | Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie |
CN101378562B (zh) * | 2007-08-29 | 2012-07-04 | 北京三星通信技术研究有限公司 | 移动通信终端地址簿的中文和拼音的相互查找方法 |
US8407236B2 (en) | 2008-10-03 | 2013-03-26 | Microsoft Corp. | Mining new words from a query log for input method editors |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN103201707B (zh) * | 2010-09-29 | 2017-09-29 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
US10613746B2 (en) | 2012-01-16 | 2020-04-07 | Touchtype Ltd. | System and method for inputting text |
CN104813257A (zh) * | 2012-08-31 | 2015-07-29 | 微软技术许可有限责任公司 | 用于输入法编辑器的浏览历史语言模型 |
CN105683873A (zh) * | 2013-04-27 | 2016-06-15 | 谷歌公司 | 容错输入法编辑器 |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
CN105679317A (zh) * | 2014-12-08 | 2016-06-15 | 三星电子株式会社 | 用于训练语言模型并识别语音的方法和设备 |
CN105679317B (zh) * | 2014-12-08 | 2020-11-17 | 三星电子株式会社 | 用于训练语言模型并识别语音的方法和设备 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN107704456A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN107704456B (zh) * | 2016-08-09 | 2023-08-29 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN110245331A (zh) * | 2018-03-09 | 2019-09-17 | 中兴通讯股份有限公司 | 一种语句转换方法、装置、服务器及计算机存储介质 |
CN108681536A (zh) * | 2018-04-27 | 2018-10-19 | 青岛大学 | 一种基于汉语拼音多重映射的无载体隐写方法 |
CN108681536B (zh) * | 2018-04-27 | 2021-11-26 | 青岛大学 | 一种基于汉语拼音多重映射的无载体隐写方法 |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2005091167A2 (en) | 2005-09-29 |
GB2427944A (en) | 2007-01-10 |
WO2005091167A3 (en) | 2006-02-23 |
US20050209844A1 (en) | 2005-09-22 |
US20090070097A1 (en) | 2009-03-12 |
GB0620176D0 (en) | 2006-11-22 |
US8660834B2 (en) | 2014-02-25 |
CN1954315B (zh) | 2010-06-23 |
US7478033B2 (en) | 2009-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1954315B (zh) | 用于将汉语拼音翻译成汉字的系统和方法 | |
KR100961717B1 (ko) | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Adler et al. | An unsupervised morpheme-based HMM for Hebrew morphological disambiguation | |
KR101266361B1 (ko) | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 | |
Chang et al. | An unsupervised iterative method for Chinese new lexicon extraction | |
Kumar et al. | A study of spell checking techniques for indian languages | |
US20100094615A1 (en) | Document translation apparatus and method | |
Alhanini et al. | The enhancement of arabic stemming by using light stemming and dictionary-based stemming | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Pal et al. | Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Kaji et al. | Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakana words | |
Marcińczuk et al. | Statistical proper name recognition in Polish economic texts | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Jabbar et al. | A comparative review of Urdu stemmers: Approaches and challenges | |
Ren et al. | A hybrid approach to automatic Chinese text checking and error correction | |
Doermann et al. | Translation lexicon acquisition from bilingual dictionaries | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Ghaffar et al. | English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis | |
Alsayed et al. | A performance analysis of transformer-based deep learning models for Arabic image captioning | |
Yesuf et al. | Amharic Word Sense Disambiguation Using Wordnet | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Bao-Torayno et al. | A Text Clustering Preprocessing Technique for Mixed Bisaya and English Short Message Service (SMS) Messages for Higher Education Institutions (HEIs) Enrolment-Related Inquiries | |
Younes et al. | Building Bi-script Language Resources for the Tunisian Dialect’s NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: GOOGLE Inc. |
|
CP01 | Change in the name or title of a patent holder |