CN1656477A - 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 - Google Patents
用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 Download PDFInfo
- Publication number
- CN1656477A CN1656477A CNA038114305A CN03811430A CN1656477A CN 1656477 A CN1656477 A CN 1656477A CN A038114305 A CNA038114305 A CN A038114305A CN 03811430 A CN03811430 A CN 03811430A CN 1656477 A CN1656477 A CN 1656477A
- Authority
- CN
- China
- Prior art keywords
- word
- root
- suffix
- prefix
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明用于识别在词典数据库中不存在的一个或者多个单词。如果没有获得有效的(合法的)单词,则进行统计处理,检查该单词中的两个或者多个字符的子集的一个或者多个序列,来判断该单词为有效(合法)单词的概率。在另外的实施例中,本发明包括去前缀处理、去后缀处理、词根处理和/或合并处理。
Description
技术领域
本发明涉及计算机文本处理领域。具体地,本发明涉及自然语言中的可能的真实单词及其词性的识别。
背景技术
当前不能期望任何一种词典能够包含一种语言的所有可能的单词,这是由于语言的动态性质和人类的创造活动。如今,由于新的技术的发展比以前更快,这种现象变得更富挑战性。如果每当发现新词就手工更新词典(字典)基本上是不可能的,即使可能的话也需要大量的专家的时间和努力。
从而,不可避免地,文献中总是会存在“超词汇(out-of-vocabulary)”(在词典中找不到的词)。尤其是,许多特定领域特有的技术词汇以及新衍生的词,比如新的复合词或者已有的词(通过添加词缀产生)的形态变化,都可能并不存在于给定的词典中。在大多数词典中不存在的真实单词的例子比如有autoinjectorelectrocardiography,eyedrop,remanufacturability以及website。
词典中没有的单词会导致许多问题,尤其是对于自然语言处理(natural language processing(NLP))系统比如机器翻译系统和语法分析程序(句型分析程序),因为词典是这些应用的最为重要的和基本的知识源。当NLP应用发现一个其词典不认识的单词时,它要么不能处理该文档,要么猜测处理该文档所必要的信息。但是,这种猜测通常并不很正确,从而系统产生的结果很差。
已经进行了很多努力来解决这个问题,尤其是在POS(词性)标志器(tagger)和语音识别领域。但是,不同的应用是从不同的视角看待超词汇(out-of-vocabulary(OOV))的问题,并具有不同的目标。
对于POS标志器和语法(句型)分析器,它们依赖于单词的词法(句法,语法)信息,目标是根据不认识的词与其相邻词共同出现的概率来猜测OOV在上下文中最为可能的词性。Dermatas和Kokkinakis根据只在前一次看见的文本中出现一次的单词的概率分布,来估计一个不认识的单词具有特定POS标记的概率,见″Automatic stochastic tagging of natural language texts″inComputational Linguistics,21(2),pp 137-164,1995。
更为先进的POS猜测方法使用前导和收尾单词片断来判断不认识的单词的可能的标记。Weischedel等人提出了一种猜测不认识的单词的POS方法,该方法在给定了不认识的单词的大写特征(capitalization feature)和结尾的前提下使用不认识的单词具有特定POS标记的概率。见Ralph Weischedel,Marie Meeter,RichardSchwartz,Lance Ramshaw以及Jeff Palmucci的″Coping withambiguity and unknown words through probabilistic models″inComputational Linguistics,19(2),pp 359-382,1993。
Eric Brill描述了一种规则系统,其使用结尾猜测和更为依赖于形态的规则,见″Transformation-Based Error-Driven Learning andNatural Language Processing:A Case Study in Part of SpeechTagging″in Computational Linguistics,21(4),pp 10 543-565,1995。
对于语言识别系统,OOV单词是系统词汇表(词典)不认识的单词,或者是识别器不能识别的单词。目标是从系统的词汇表中找到最为接近OOV单词的单词(在发音和语意方面)。
基于n字符组的字符统计方法已经在单词级的语言处理中得到使用,比如拼写检查、单词切分。Angell,Freund和Willett描述了一种根据两个串共同拥有的三字符组的数量来用词典项目来比较拼写错误,使用Dice相似性系数作为相似性的量度。拼写错误的单词用词典中与所述错误拼写最为配的单词来取代。见″Automatic SpellingCorrection Using a Trigram Similarity Measure″in InformationProcessing and Management,19(4),pp255-261,1983。
现有技术的问题
现有技术中的方法具有至少两个问题。
首先,现有技术不允许识别和/或标识任何给定自然语言中的有效单词。例如,一个单词的所有形式(形态变化,和/或衍生词)不可能都在某个特定词典中出现。另外,新词和/或新创词不会出现在词典数据库中。这个问题在技术主题的文章中尤为明显:其中要使用新词来描述新的技术或者旧有技术中的进展。
先前的方法开始这个过程是基于这样的假设:OOV单词只是对系统的词典来说是不认识的,但是它们可能是语言中的真实单词。也就是,这些系统将新词比如website和无效的词串比如adkfiedfd或者v3.5a按照相同的方式进行处理。现有的工作中没有人试图识别语言中可能的新词,并提供一种方式来增强现有词典,从而使得这些词在将来能够被适当地识别(作为非OOV)。
其次,先前的方法被嵌在应用系统中以保护系统在遇到OOV单词时不至于失灵(崩溃),或者是为了改善系统的性能。还不存在独立地自动系统来寻找语言中可能的真实单词,并获取这些单词的词法信息。
即使先前的方法的目标在于解决OOV问题,它们也是针对特定的应用设计的。它们根据这些单词出现的上下文来猜测这些单词的为所述特定应用所需的信息。因此,一个单词的信息可能随上下文而不同。
发明目的
本发明的目的是提出一种系统和方法,用于识别自然语言文本中的在词典中不存在的可能的真实单词和/或它们的词性。
本发明的另一个目的是一种系统和方法,用于自动地或者半自动地识别文本中的新词,并可以将其添加到现有的词典中。
发明内容
本发明是一种系统、方法、程序产品和网络,用于识别词典数据库中不存在的一个或者多个单词。一个统计过程检查单词中的两个或者多个字符的子集的一个或者多个序列,以确定该词为有效词的概率。在优选实施例中,应用规则来确定词的词性。
在另外的实施例中,本发明包括一个去前缀处理,一个去后缀处理,一个词根处理,以及/或组合处理。所述去前缀处理从一个单词中取出一个或者多个前缀,其中,所述前缀最好是在一个前缀列表中。该去前缀处理最好受到一个或者多个去前缀规则的约束。该去前缀处理还包括有关被去除的前缀的前缀信息(例如来自词典数据库或者前缀列表)。所述去后缀处理从单词中去除一个或者多个后缀,其中,所述后缀最好是在一个后缀列表中。最好,所述去后缀处理受到一个或者多个去后缀规则的约束。该去后缀处理还包括有关被去除的后缀的后缀信息(例如来自词典数据库或者后缀列表)。所述词根处理从词典数据库获取有关词根的词根信息。(词根是去除了前缀和后缀的单词)。所述组合处理然后判断所述前缀、词根和后缀是否能够组合为由一个或者多个组合规则限定的有效单词。该组合处理可以,如果存在有效单词,获取有效单词一个或者多个词性,并将词性连同该有效词一起存储在词典数据库中(或者其它存储位置)。
附图说明
从下面结合附图对优选实施例进行的非限制性的说明可以更好地理解本发明的前述以及其它目的、特征和优点。附图中:
图1是使用本发明的系统的优选实施例的框图;
图2是总体词典增强方法的流程图;
图3是包括前缀处理、后缀处理和复合词处理的语言学处理的流程图;
图4是用在语言学处理中的前缀处理的流程图;
图5是用在语言学处理中的后缀处理的流程图;
图6是用在语言学处理中的复合词处理的流程图;
图7是统计处理的流程图;
图8是统计学习处理的流程图;
图9是被本发明识别为自然语言中的单词的单词输出的一个例子。
具体实施方式
本发明是一种用于从文本中的超词汇单词中识别可能的真实单词的系统、方法和程序。在另外的实施例中,则是找出所识别的单词的词性,以增强现有的词典。与一般的超词汇处理系统不同,本发明作为优选实施例提出基于单词中的三字符组序列的概率的熵(平均信息量,entropy)模型。
被识别为真实单词的单词可以被加入计算机系统的现有词典中,以便计算机应用程序能够识别超词汇单词并在将来正确处理这些单词。本发明可以集成到许多语言处理系统中,比如术语提取系统、机器翻译系统以及语音识别系统。另外,这些单词可以由词典编纂者用来更新和/或增强出版的词典。本发明可以给词典编纂者提供新词的列表,从而减少他们的工作量。本发明不仅可以应用于英语,而且可以应用于其它语言,包括但不限于法语、德语、西班牙语等。
图1图示了由本发明执行的总体处理。本发明的词典增强系统(100)由任何已知的计算机系统运行。它从硬盘或者网络(例如万维网、内联网、公司网络等)读入文档(120),对于文档中的每一个单词,在系统所使用的在线词典(140)中查找该单词。(在线词典是公知的,包括任何以可检索的方式存储单词的存储设备)。如果该单词在词典中不存在,则本发明检查该单词是否有可能是目标语言中的真实单词。这里,目标语言不仅包括一般所知的自然语言,也包括这些语言的技术变种,比如计算机编程/维修手册或者医学论文。如果它是一个可能的真实单词,则该系统在一个数据库(160)中保存该单词及其词性。所述可能的真实单词可以存储在新词数据库(160)中、在线词典(140)中或者其它任何类型的已知存储位置。
其它计算机应用(200)随后可以使用所述新词数据库来处理文档或者语音(220)。这些应用是公知的,包括语法(句型)分析程序、机器翻译系统以及语音识别系统。该数据库还可以由辞典编纂者(300)用来出版和/或修订人类使用的词典(320)。
图2图示了词典增强处理(100)的总体流程图。当在系统中读入文档(120)时(例如使用标准技术),系统从文档获取一个单词,并在系统词典(140)中查找该单词(110)。如果该单词在词典(130)中存在,则不需要进一步处理。但是,如果该单词在词典中不存在,则系统检查该单词是否由字母组成(150)。如果该单词包含一个或者多个数字或者特殊字符,则系统忽略该词。
如果该词仅由字母组成,则系统首先对其应用语言学处理(400)以检查该词是否是新的衍生词(也就是现有单词的形态变化,和/或复合词)。如果该处理的结果是肯定的(170),则系统可选地将该词及其词法信息(190)保存到新词数据库(160)或者其它存储位置中。如果该处理的结果是否定的,则在优选实施例中,该系统对其应用统计学处理(500)。如果处理(500)将该词识别为新词(180),则将该词及其词法信息(190)保存到所述新词数据库(160)中。重复所述处理,直到文档中没有剩下单词。
图3图示了语言学处理(400)的总体流程。该处理用于识别新衍生词。衍生词是词典已知的词的形态变化,这种形态变化多数是通过添加词缀,例如在单词的开头添加前缀,或者在单词的末尾添加后缀,以及/或者通过复合的手段,也就是将两个或者多个单词写为一个单词。首先,系统检查该单词是否包括一个或者多个前缀和词根(410)。如果前缀处理(410)的结果是肯定的,则该单词被视为一个新词,过程停止。如果前缀处理的结果是否定的(420),则系统检查该单词是构包括一个或者多个后缀和词根(430)。如果后缀处理的结果是肯定的,则该单词被视为新词,过程停止(440)。如果后缀处理(440)的结果是否定的,则系统运行复合词处理(450),看该单词是否包括两个内容词。如果复合词处理的结果是肯定的,则该单词被视为新词,过程停止。注意,本发明可以是一个或者多个前缀处理(410)、后缀处理(430)和/或复合词处理(450)单独作用或者与一个或者多个其它处理结合作用。
图4图示了用在语言学处理(400)中的前缀处理(410)的流程图。对有前缀的单词的该处理(410)如下所述。
首先,系统检查是否有前缀列表(417)中的前缀出现在该单词的开头(411)。如果单词包含一个前缀(412),则系统将该前缀从单词上砍掉(413)(分解单词)并在词典中查找其余部分(词根)(414)。在本发明的一种优选实施例中,将词根的最小长度设置为两个字符。如果词典包含该词根(415),则将该超词汇词视为真实的词,并且由过程410处理的词继承该词根的词法信息(416)。例如。前缀处理(410)发现了antiasthmatic(副词),autoinjector(名词),remanufactured(动词的过去分词),streoselectivity(名词)。
图5图示了用在语言学处理(400)中的后缀处理(430)的流程图。后缀处理如下所述:首先,系统检查是否有后缀数据库(438)中的后缀出现在单词的末尾(431)。在一种优选实施例中,本发明应用针对后缀(438)设置的规则,该规则描述一个词根具有特定后缀的先决条件POS(词性),以及所得到的词性。
用在优选实施例中的后缀规则结构的一个非限制性的例子如下。后缀able的规则是[able,{VB=>JJ},{NN=>JJ}]。该规则的意思是,动词(VB)或者名词(NN)可以在单词的末尾具有后缀able,所得到的词的词性是形容词(JJ)。如果一个单词包含一个后缀(432),则系统将该后缀去除(433),在词典中查找词根(435)。如果在词典中找到了词根(436)并且其具有先决条件POS之一,则该词被视为真实的单词并具有该规则所指的结果POS(437)。
但是,如果该词根在词典中不存在,则系统进行词根形式恢复(434)。当向一个单词添加词缀时,词根的拼写可能发生变化。例如,在英语中,以不发音的e结尾的单词通常在接以元音开头的后缀时会舍掉e。例如,当系统读入browsable时,它分离词缀able,获得词根brows。系统在词典中查找brows,但是未能成功。那么,系统执行词根形式恢复处理,获得原始形式browse。
对于词根形式恢复,在一个优选实施例中,本发明应用下述规则:
(1)如果词根的最后两个字母是同一个辅音字母,则删除一个;
(2)如果词根的最后一个字母是i,则将其变为y;
(3)如果词根的最后一个字母是辅音字母(但是不是第一种情况),则添加一个e。
如果在词典中找到了恢复得到的词根(436),并且其具有前提条件POS之一,则该单词被视为真实单词,则其具有该规则确定的结果POS(437)。这种情况的例子包括browsable(形容词),migranious(形容词),和oxidizability(名词)。
某些词,例如remanufacturability,包括一个或者多个前缀、一个或者多个后缀以及词根。在这种情况下,该单词经过上述的前缀处理和后缀处理。
图6图示了用在语言学处理中的复合词处理的流程图。如果一个词在前缀处理和后缀处理中的结果都是否定的,则考虑对其进行复合词处理(450)。系统将给定的超词汇单词分解为两个组成部分(453):包括从第一字母到断点的字母的第一组成部分(第一词素),以及包括从断点+1到单词末尾的字母的第二组成部分(第二词素)。初始断点为3(451)。如果在词典中找不到第一组成部分(455),则系统增大所述断点(459),重复该处理直到第二组成部分中的字母数量小于等于2(452)。
如果词典认识第一组成部分(455),则在词典中查找第二组成部分(456)。如果词典也认识第二组成部分,则系统检查所述两个组成部分的组合是否合法。可能的单词组合有名词+名词以及名词加动词的分词形式。如果组合是合法的,则将该超词汇词视为真实的单词,并具有第二组成部分的词性(459)。复合词的例子包括airbreathing(名词,动名词),eyedrops(名词),photophobia(名词)以及websire(名词)。
图7图示了优选的整个统计处理(500)的流程图。该过程用于识别非衍生的新词。非衍生的新词的意思是所述词不能通过对语言的现有单词应用衍生(或者构词)规则而产生。许多特定领域的技术术语属于这一类。人类非常容易成功地猜出一个以前从未见过的词是否是可能的真实单词,即使该单词并非由已知的单词构成。在一个实施例中,假设在以下情况下人类可以断定一个词是语言中的可能词汇:该词中的字符序列看起来是很有可能的,并且发音自然。本发明将非衍生新词的识别建立在此假设的基础之上。
在本发明中,如果字符串中的每一个字符都可能与其相邻字符同时出现,则将字母序列视为可能的真实单词。(字母/字符与相邻字符/字母组合而成的序列被称为一个字符串)。相邻字母/字符可以是任意数量的前导或者尾随字符。这种方法系基于语言的可预测性:当知道前导或者尾随的n个字母时能在多大程度上预测文本的下一个字母。在优选实施例中,将一个字符的相邻字符定义为两个前导字符。也就是,在已经看到了两个前导字符的前提下,如果单词中的字符在其位置出现的机会很高(也就是三字符组模型,这里,字符串是三个字符或者说三字符组),则该单词被视为真实单词。
该模型有两种模式:学习模式(510)和应用模式(550,560)。在学习模式,系统从系统词典(140)学习字符三字符组统计结果的概率,并将三字符组统计结果保存在数据库中(520)。学习模式还从训练数据产生基于单词结尾的词性猜测规则(530)。在应用模式中,当系统获取一个超词汇单词(540)时,系统计算该单词中所有字符三字符组的概率的熵(entropy,平均信息量)。
一个语言模型的熵是信息的预期值。熵是模型对未来的不确定性的量度。如果估计的概率分布接近均匀的,则熵增加。本发明提出了一种模型,其中,当提供一个超词汇单词(一个或者多个字符序列或者单词序列)时,该模型能够根据其统计结果判断该单词序列是否会是该语言中的可能的真实单词。也就是,一个单词是具有较强的内部统计效应的字母的聚合组。
假设一个单词w由n个字符组成,也就是w=c1...cn。加上一个前导空格和一个结尾空格来估计三字符组概率(在图8的说明中更详细地说明),使得w=c0c1...cncn+1。单词w的熵H(w)的计算如下:
在一个优选实施例中,如果熵值高(大于给定的阈值),在本发明得出该词是真实的词的结论。在一种实施例中,阈值被设置为2.3,这是从平均熵减去训练数据的最小熵而确定的(见图8对训练数据的描述)。如果一个词被确定为真实的词,那么,系统从结尾猜测规则(猜测结束规则,end-guessing rule)库(530)产生所有可能的词性。在对图8的说明中解释了结尾猜测规则。通过使用结尾猜测规则集,系统根据最长匹配模式产生一个词的所有可能的词性。本发明从最长结尾开始到长度为1的结尾(最后一个字母)在规则集当中查找该单词的结尾字母(如果单词长度大于7,则最长结尾为5个字母,否则为单词长度减3)。如果某个结尾在规则集中存在,则匹配过程停止,系统按照规则频率的顺序产生该结尾的所有词性。例如,猜测critical为形容词和名词,但是形容词优先,因为在训练数据中tical出现的105次是形容词而只有4次是名词。统计处理所识别的新词的例子有accelerometers(名词),diastolic(形容词,名词),kinesiology(名词)以及ingressed(动词)。
图8是统计学习过程(510)的流程图。为了学习单词的三字符组概率,系统使用系统词典(140),在系统词典中单词都是语言中的合法单词。系统从词典读取单词,并产生该单词所有可能的屈折变体(511)。系统向产生的词加上前导和后续空格(512),并将所述词保存到数据库(513)中。例如,假设一个单词w是由n字母构成的超词汇单词c1c2..cn。系统向该单词加上一个前导空格b1和一个后续空格b2(512),得到b1c1c2..cn b2。该单词列表包括可从词典产生的所有合法的词形。重复这个过程,直到词典中的所有单词都得到处理(514)。使用所产生的单词列表,系统学到两种知识:三字符组统计数据和词性规则。该学习过程持续到单词列表中的所有单词都得到处理(519)。
系统通过统计三字母序列和两字母序列的频率来从单词列表(513)计算三字符组的概率。系统从单词列表(513)读入一个单词(515),产生所有可能的三字母序列和两字母序列,并计数它们的频率(516)。
例如,假设一个单词w=b1c1c2..cnb2由n个字符和两个空格(前导空格和后续空格)组成。那么,系统产生所有可能的两字母序列,比如b1c2,c1c2,...,cn-1cn,cnb2,以及所有可能的三字母序列,比如b1c1c2,c1c2c3,...,cn-1cnb2。系统计数从单词列表中的单词中找到的所有两字母序列和三字母序列的频率。
在获得三字母序列和两字母序列的频率之后,系统计算所有可能三字符组的概率(517)并将统计结果保存在数据库(520)中。三字符组的概率,也就是在给出两个前导字符c1和c2之后,字母c3出现的概率的计算如下:
P(c3|c1c2)=频率(c1c2c3)/频率(c1c2)
另外,系统还从单词列表(518)生成词性猜测规则。对于单词列表中的所有单词,产生长度从1到5的所有可能结尾连同单词的词性。将剩余部分的最小长度设定为3。系统计数结尾猜测规则的频率,并在结尾猜测规则库(530)中保存规则。
例如,在训练词典中,单词ailments被列为复数名词(NNS)。那么,结尾猜测规则发生器产生长度从1(s)到5(ments)的所有结尾及其词性。也就是,产生下述规则:s-NNS,ts-NNS,...,以及ments-NNS。单词mounting具有两个词性,也就是名词(NN)和动名词(VBG)。在这种情况下,每一个结尾有两种词性,也就是:g-NN和g-VBG,ng-NN和ng-VBG,....,以及nting-NN和nting-VBG。下表示出了是如何从训练数据产生结尾猜测规则的:
单词 | ailments | mounting | abandons. | primary | |
结尾猜测规则 | ments NNSents NNSnts NNSts NNSs NNS | nting NN nting VBGting NN ting VBGing NN ing VBGng NN ng VBGg NN g VBG | ndons VBZdons VBZons VBZns VBZs VBZ | mary NNary NNry NNy NN | mary JJary JJry JJy JJ |
NN:名词NNS:名词复数形式
VBG:动名词或者动词的现在分词
VBZ:动词的第三人称单数 JJ:形容词。
图9是本发明识别为自然语言中的单词的单词输出的一个例子。在图中的“方法”列表示所用的识别样本新词的机制,“前缀”方法中的单词用过程410识别,“后缀”方法中的单词用过程430识别。“前缀+后缀”方法中的单词用过程410和过程430识别。“复合词”方法中的单词用过程450识别。最后,“熵统计”方法中的单词用过程500识别。也就是,单词的熵值大于给定的阈值。
使用本发明的非限制性的例子来识别文本中的超词汇单词中的可能的真实单词。使用上述技术,根据字符三字符组的概率的熵以及英语中的语形学(形态学)规则,进行真实单词的识别。本发明还可根据词法信息规则和单词的结尾来产生所识别的真实单词的可能的词性(POS)。本发明的实施例在精度和查全率方面都表现出了高超的性能。在另外的非限制性的实施例中,本发明在识别特殊领域的技术术语方面很有用,并成功地被嵌入术语表提取系统中,术语表提取系统识别单单词或者多单词术语项目,并建立领域专用词典。在本说明书的启发下,其它一些实施例对于本领域的普通技术人员来说是明显的。这些实施例也在发明人所想到的范围之内。
Claims (21)
1.一种识别在词典数据库中不存在的一个或者多个单词的系统,包括一个或者多个中央处理单元和一个或者多个存储器,以及:
从所述词典数据库获取有关词根的词根信息的词根处理,词根为没有前缀和后缀的单词之一;以及
一种统计处理,用于:如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
2.如权利要求1所述的系统,其中,所述概率是所述子集正确地与词根中一个或者多个其它字符相邻的可能性的量度。
3.如权利要求2所述的系统,其中,所述相邻字符在所述子集之前。
4.如权利要求2所述的系统,其中,所述相邻字符在所述子集之后。
5.如权利要求4所述的系统,其中,所述子集和所述相邻字符构成一个三字符组。
6.如权利要求2所述的系统,其中,通过比较所述序列和所述相邻字符的串,与各自与相应的概率相关的串的数据库,确定所述概率。
7.如权利要求6所述的系统,其中,所述数据库中的所述串的各自的概率是这样确定的:寻找一个或者多个可能的字符串,计算这些可能的字符串在有效单词的数据库中出现的频率。
8.如权利要求2所述的系统,还包括:一个或者多个定义单词的词性的规则,这些规则具有规则概率,规则概率基于所述规则正确地适用于有效单词的数据库的大于一个阈值的出现频率。
9.如权利要求8所述的系统,其中,通过所述规则之一确定词根的词性。
10.如权利要求8所述的系统,其中,所述规则应用于所述词根的结束。
11.如权利要求1所述的系统,还包括:
复合词处理,将单词分解为两个组成部分,词根为第二组成部分。
12.如权利要求10所述的系统,其中,所述复合词处理还确定所述词根的词性。
13.如权利要求1所述的系统,其中,一旦确定了所述单词是有效单词,则将该单词存储在新词词典存储器中。
14.如权利要求1所述的系统,还包括单词技术处理,计数单词在一个或者多个文档中出现的频率,以确定如果该单词被确定为有效单词的话该单词的重要性。
15.如权利要求1所述的系统,还包括:
去前缀处理:从单词中去除一个或者多个前缀,所述前缀在前缀列表中,该去前缀处理受到一个或者多个去前缀规则的约束,该去前缀处理还获取有关被去除的前缀的前缀信息。
16.如权利要求15所述的系统,其中,所述前缀信息从下述中的一个或者多个获取:词典数据库或者前缀列表。
17.如权利要求1所述的系统,还包括去后缀处理:从单词中去除一个或者多个后缀,所述后缀在一个后缀列表中,该去后缀处理受到一个或者多个去后缀规则的约束,该去后缀处理还获取有关被去除的后缀的后缀信息。
18.如权利要求17所述的系统,其中,所述后缀信息从下述中的一个或者多个获取:词典数据库或者后缀列表。
19.一种识别在词典数据库中不存在的一个或者多个单词的方法,包括以下步骤:
从所述词典数据库获取有关词根的词根信息,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
20.一种识别在词典数据库中不存在的一个或者多个单词的系统,包括:
从所述词典数据库获取有关词根的词根信息的装置,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率的装置。
21.一种存储有计算机程序的计算机存储设备,所述计算机程序执行下述步骤:
从所述词典数据库获取有关词根的词根信息,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/173,931 | 2002-06-17 | ||
US10/173,931 US7680649B2 (en) | 2002-06-17 | 2002-06-17 | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1656477A true CN1656477A (zh) | 2005-08-17 |
CN100587686C CN100587686C (zh) | 2010-02-03 |
Family
ID=29733454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03811430A Expired - Fee Related CN100587686C (zh) | 2002-06-17 | 2003-04-21 | 用于识别一种或者多种自然语言中的单词及其词性的系统、方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7680649B2 (zh) |
JP (1) | JP2006512629A (zh) |
KR (1) | KR100734741B1 (zh) |
CN (1) | CN100587686C (zh) |
AU (1) | AU2003231051A1 (zh) |
CA (1) | CA2488814C (zh) |
WO (1) | WO2003107217A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100514324C (zh) * | 2005-09-21 | 2009-07-15 | 冲电气工业株式会社 | 词素分析装置以及词素分析方法 |
CN103678476A (zh) * | 2012-09-25 | 2014-03-26 | 株式会社东芝 | 文档处理装置以及文档处理方法 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN105468581A (zh) * | 2014-09-25 | 2016-04-06 | 京瓷办公信息系统株式会社 | 词汇表管理装置、词汇表管理系统和词汇表管理方法 |
CN106211165A (zh) * | 2016-06-14 | 2016-12-07 | 北京奇虎科技有限公司 | 检测外文骚扰短信的方法、装置及相应的客户端 |
CN108604227A (zh) * | 2016-01-26 | 2018-09-28 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
CN109983459A (zh) * | 2016-12-21 | 2019-07-05 | 英特尔公司 | 用于标识语料库中出现的n-gram的计数的方法和设备 |
CN110263210A (zh) * | 2019-06-24 | 2019-09-20 | 上海乂学教育科技有限公司 | 自适应英语学习词库图谱管理方法和系统 |
CN112434521A (zh) * | 2020-11-13 | 2021-03-02 | 北京搜狗科技发展有限公司 | 词汇处理方法和装置 |
Families Citing this family (224)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7747428B1 (en) | 2003-09-24 | 2010-06-29 | Yahoo! Inc. | Visibly distinguishing portions of compound words |
US7464020B1 (en) * | 2003-09-24 | 2008-12-09 | Yahoo! Inc. | Visibly distinguishing portions of compound words |
US7398210B2 (en) * | 2003-10-23 | 2008-07-08 | Microsoft Corporation | System and method for performing analysis on word variants |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
EP1717668A1 (en) * | 2005-04-29 | 2006-11-02 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7698128B2 (en) | 2006-01-13 | 2010-04-13 | Research In Motion Limited | Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions |
JP4720570B2 (ja) * | 2006-03-27 | 2011-07-13 | カシオ計算機株式会社 | 情報表示制御装置及び情報表示制御プログラム |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
GB0611303D0 (en) * | 2006-06-08 | 2006-07-19 | Ibm | A method, apparatus and software for selecting terms for a glossary in a document processing system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7983902B2 (en) | 2007-08-23 | 2011-07-19 | Google Inc. | Domain dictionary creation by detection of new topic words using divergence value comparison |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US8265162B2 (en) * | 2007-10-01 | 2012-09-11 | Cisco Technology, Inc. | Context adaptive position and amplitude coding of coefficients for video compression |
WO2009070619A1 (en) * | 2007-11-26 | 2009-06-04 | Warren Daniel Child | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form |
US7437291B1 (en) * | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262397B2 (en) | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8855997B2 (en) * | 2011-07-28 | 2014-10-07 | Microsoft Corporation | Linguistic error detection |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9251143B2 (en) | 2012-01-13 | 2016-02-02 | International Business Machines Corporation | Converting data into natural language form |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9064492B2 (en) * | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
KR101629415B1 (ko) * | 2012-08-10 | 2016-06-10 | 에스케이텔레콤 주식회사 | 문법 오류 검출 방법 및 이를 위한 오류검출장치 |
CN103680261B (zh) * | 2012-08-31 | 2017-03-08 | 英业达科技有限公司 | 词汇学习系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN102902757B (zh) * | 2012-09-25 | 2015-07-29 | 姚明东 | 一种电子商务字典自动生成方法 |
US8612213B1 (en) | 2012-10-16 | 2013-12-17 | Google Inc. | Correction of errors in character strings that include a word delimiter |
US8713433B1 (en) | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN103136191A (zh) * | 2013-03-14 | 2013-06-05 | 姚明东 | 一种电子商务字典中单字词的自动抽取方法 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9805018B1 (en) | 2013-03-15 | 2017-10-31 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
US8788263B1 (en) * | 2013-03-15 | 2014-07-22 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US10853572B2 (en) * | 2013-07-30 | 2020-12-01 | Oracle International Corporation | System and method for detecting the occureances of irrelevant and/or low-score strings in community based or user generated content |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
GB201321927D0 (en) * | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9933994B2 (en) * | 2014-06-24 | 2018-04-03 | Lenovo (Singapore) Pte. Ltd. | Receiving at a device audible input that is spelled |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9852124B2 (en) | 2015-09-02 | 2017-12-26 | International Business Machines Corporation | Dynamic portmanteau word semantic identification |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9959271B1 (en) * | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10185713B1 (en) | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10268684B1 (en) | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10134388B1 (en) * | 2015-12-23 | 2018-11-20 | Amazon Technologies, Inc. | Word generation for speech recognition |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10347249B2 (en) * | 2016-05-02 | 2019-07-09 | The Regents Of The University Of California | Energy-efficient, accelerometer-based hotword detection to launch a voice-control system |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10754441B2 (en) | 2017-04-26 | 2020-08-25 | Microsoft Technology Licensing, Llc | Text input system using evidence from corrections |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109766539B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109582975B (zh) * | 2019-01-31 | 2023-05-23 | 北京嘉和海森健康科技有限公司 | 一种命名实体的识别方法及装置 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR102236846B1 (ko) * | 2019-04-09 | 2021-04-06 | 넷마블 주식회사 | 욕설 필터링 방법 및 장치 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210052958A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 인공 지능 서버 |
US11984116B2 (en) * | 2021-11-08 | 2024-05-14 | Genesys Cloud Services, Inc. | Method and system for unsupervised discovery of unigrams in speech recognition systems |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0682403B2 (ja) * | 1986-03-24 | 1994-10-19 | 沖電気工業株式会社 | 光学式文字読取装置 |
US5189610A (en) * | 1986-10-20 | 1993-02-23 | Xerox Corporation | Electronic dictionary with correct and incorrect words |
JPH0731677B2 (ja) * | 1987-09-29 | 1995-04-10 | シャープ株式会社 | 文書作成・校正支援装置 |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5029223A (en) * | 1990-02-02 | 1991-07-02 | International Business Machines Corporation | Constraint driven-on line recognition of handwritten characters and symbols |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
JPH05233623A (ja) * | 1991-11-27 | 1993-09-10 | Internatl Business Mach Corp <Ibm> | ストローク構文入力装置 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US5392212A (en) * | 1993-07-07 | 1995-02-21 | The United States Of America As Represented By The Secretary Of Commerce | Apparatus for identifying unknown words by comparison to known words |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
JPH0844719A (ja) * | 1994-06-01 | 1996-02-16 | Mitsubishi Electric Corp | 辞書アクセスシステム |
US5537317A (en) * | 1994-06-01 | 1996-07-16 | Mitsubishi Electric Research Laboratories Inc. | System for correcting grammer based parts on speech probability |
US5761689A (en) * | 1994-09-01 | 1998-06-02 | Microsoft Corporation | Autocorrecting text typed into a word processing document |
DE19510083C2 (de) * | 1995-03-20 | 1997-04-24 | Ibm | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6192333B1 (en) * | 1998-05-12 | 2001-02-20 | Microsoft Corporation | System for creating a dictionary |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6393399B1 (en) * | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6349282B1 (en) * | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
ATE320650T1 (de) * | 1999-06-30 | 2006-04-15 | Ibm | Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems |
US6529864B1 (en) * | 1999-08-11 | 2003-03-04 | Roedy-Black Publishing, Inc. | Interactive connotative dictionary system |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
SE519636C2 (sv) * | 2000-07-06 | 2003-03-25 | Hapax Information Systems Ab | Förfarande och anordning för analys av sammansatta ord |
WO2004084176A1 (ja) * | 2000-08-15 | 2004-09-30 | Yoichi Ando | 音響評価方法およびそのシステム |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
-
2002
- 2002-06-17 US US10/173,931 patent/US7680649B2/en active Active - Reinstated
-
2003
- 2003-04-21 AU AU2003231051A patent/AU2003231051A1/en not_active Abandoned
- 2003-04-21 CA CA2488814A patent/CA2488814C/en not_active Expired - Lifetime
- 2003-04-21 KR KR1020047018492A patent/KR100734741B1/ko not_active IP Right Cessation
- 2003-04-21 JP JP2004513965A patent/JP2006512629A/ja active Pending
- 2003-04-21 CN CN03811430A patent/CN100587686C/zh not_active Expired - Fee Related
- 2003-04-21 WO PCT/US2003/012549 patent/WO2003107217A1/en active Application Filing
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100514324C (zh) * | 2005-09-21 | 2009-07-15 | 冲电气工业株式会社 | 词素分析装置以及词素分析方法 |
CN103678476A (zh) * | 2012-09-25 | 2014-03-26 | 株式会社东芝 | 文档处理装置以及文档处理方法 |
CN104750676B (zh) * | 2013-12-31 | 2017-10-24 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN105468581B (zh) * | 2014-09-25 | 2018-04-06 | 京瓷办公信息系统株式会社 | 词汇表管理装置、词汇表管理系统和词汇表管理方法 |
CN105468581A (zh) * | 2014-09-25 | 2016-04-06 | 京瓷办公信息系统株式会社 | 词汇表管理装置、词汇表管理系统和词汇表管理方法 |
CN108604227A (zh) * | 2016-01-26 | 2018-09-28 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
CN108604227B (zh) * | 2016-01-26 | 2023-10-24 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
CN106211165A (zh) * | 2016-06-14 | 2016-12-07 | 北京奇虎科技有限公司 | 检测外文骚扰短信的方法、装置及相应的客户端 |
CN109983459A (zh) * | 2016-12-21 | 2019-07-05 | 英特尔公司 | 用于标识语料库中出现的n-gram的计数的方法和设备 |
CN109983459B (zh) * | 2016-12-21 | 2023-11-28 | 英特尔公司 | 用于标识语料库中出现的n-gram的计数的方法和设备 |
CN110263210A (zh) * | 2019-06-24 | 2019-09-20 | 上海乂学教育科技有限公司 | 自适应英语学习词库图谱管理方法和系统 |
CN110263210B (zh) * | 2019-06-24 | 2020-10-27 | 上海松鼠课堂人工智能科技有限公司 | 自适应英语学习词库图谱管理方法和系统 |
CN112434521A (zh) * | 2020-11-13 | 2021-03-02 | 北京搜狗科技发展有限公司 | 词汇处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2006512629A (ja) | 2006-04-13 |
AU2003231051A1 (en) | 2003-12-31 |
CA2488814A1 (en) | 2003-12-24 |
US7680649B2 (en) | 2010-03-16 |
KR20050007547A (ko) | 2005-01-19 |
CN100587686C (zh) | 2010-02-03 |
CA2488814C (en) | 2010-06-22 |
US20030233235A1 (en) | 2003-12-18 |
KR100734741B1 (ko) | 2007-07-03 |
WO2003107217A1 (en) | 2003-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100587686C (zh) | 用于识别一种或者多种自然语言中的单词及其词性的系统、方法 | |
Denis et al. | Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort | |
CN1135485C (zh) | 利用计算机系统的日文文本字的识别 | |
US6108627A (en) | Automatic transcription tool | |
Grundkiewicz et al. | The wiked error corpus: A corpus of corrective wikipedia edits and its application to grammatical error correction | |
US20090240487A1 (en) | Machine translation | |
Otero | Learning bilingual lexicons from comparable english and spanish corpora | |
CN104317846A (zh) | 一种语义分析与标注方法及系统 | |
CN107844608B (zh) | 一种基于词向量的句子相似度比较方法 | |
CN104375988A (zh) | 一种词语对齐方法及装置 | |
Kumar et al. | Stemming of punjabi words by using brute force technique | |
Hellwig | Sanskrittagger: A stochastic lexical and pos tagger for sanskrit | |
Chen | Chinese word segmentation using minimal linguistic knowledge | |
US8335681B2 (en) | Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns | |
Khan et al. | Template Based Affix Stemmer for a Morphologically Rich Language. | |
CN1224954C (zh) | 含有固定和可变语法块的语言模型的语音识别装置 | |
Kondrak | Determining recurrent sound correspondences by inducing translation models | |
CN1114165C (zh) | 中文文本中的字词分割方法 | |
Doush et al. | Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction | |
Nguyen et al. | Example-based sentence reduction using the hidden markov model | |
CN1567297A (zh) | 一种从双语语料库中自动抽取多词翻译等价单元的方法 | |
Nguyen et al. | Korean morphological analysis for Korean-Vietnamese statistical machine translation | |
Lignos et al. | A Rule-Based Unsupervised Morphology Learning Framework. | |
Kumar et al. | Applications of stemming algorithms in information retrieval-a review | |
Bladier et al. | German and French neural supertagging experiments for LTAG parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100203 Termination date: 20120421 |