CN1656477A - 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 - Google Patents

用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 Download PDF

Info

Publication number
CN1656477A
CN1656477A CNA038114305A CN03811430A CN1656477A CN 1656477 A CN1656477 A CN 1656477A CN A038114305 A CNA038114305 A CN A038114305A CN 03811430 A CN03811430 A CN 03811430A CN 1656477 A CN1656477 A CN 1656477A
Authority
CN
China
Prior art keywords
word
root
suffix
prefix
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038114305A
Other languages
English (en)
Other versions
CN100587686C (zh
Inventor
杨加·帕克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1656477A publication Critical patent/CN1656477A/zh
Application granted granted Critical
Publication of CN100587686C publication Critical patent/CN100587686C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明用于识别在词典数据库中不存在的一个或者多个单词。如果没有获得有效的(合法的)单词,则进行统计处理,检查该单词中的两个或者多个字符的子集的一个或者多个序列,来判断该单词为有效(合法)单词的概率。在另外的实施例中,本发明包括去前缀处理、去后缀处理、词根处理和/或合并处理。

Description

用于识别一种或者多种自然语言中的单词 及其词性的系统、方法、程序产品和网络
技术领域
本发明涉及计算机文本处理领域。具体地,本发明涉及自然语言中的可能的真实单词及其词性的识别。
背景技术
当前不能期望任何一种词典能够包含一种语言的所有可能的单词,这是由于语言的动态性质和人类的创造活动。如今,由于新的技术的发展比以前更快,这种现象变得更富挑战性。如果每当发现新词就手工更新词典(字典)基本上是不可能的,即使可能的话也需要大量的专家的时间和努力。
从而,不可避免地,文献中总是会存在“超词汇(out-of-vocabulary)”(在词典中找不到的词)。尤其是,许多特定领域特有的技术词汇以及新衍生的词,比如新的复合词或者已有的词(通过添加词缀产生)的形态变化,都可能并不存在于给定的词典中。在大多数词典中不存在的真实单词的例子比如有autoinjectorelectrocardiography,eyedrop,remanufacturability以及website。
词典中没有的单词会导致许多问题,尤其是对于自然语言处理(natural language processing(NLP))系统比如机器翻译系统和语法分析程序(句型分析程序),因为词典是这些应用的最为重要的和基本的知识源。当NLP应用发现一个其词典不认识的单词时,它要么不能处理该文档,要么猜测处理该文档所必要的信息。但是,这种猜测通常并不很正确,从而系统产生的结果很差。
已经进行了很多努力来解决这个问题,尤其是在POS(词性)标志器(tagger)和语音识别领域。但是,不同的应用是从不同的视角看待超词汇(out-of-vocabulary(OOV))的问题,并具有不同的目标。
对于POS标志器和语法(句型)分析器,它们依赖于单词的词法(句法,语法)信息,目标是根据不认识的词与其相邻词共同出现的概率来猜测OOV在上下文中最为可能的词性。Dermatas和Kokkinakis根据只在前一次看见的文本中出现一次的单词的概率分布,来估计一个不认识的单词具有特定POS标记的概率,见″Automatic stochastic tagging of natural language texts″inComputational Linguistics,21(2),pp 137-164,1995。
更为先进的POS猜测方法使用前导和收尾单词片断来判断不认识的单词的可能的标记。Weischedel等人提出了一种猜测不认识的单词的POS方法,该方法在给定了不认识的单词的大写特征(capitalization feature)和结尾的前提下使用不认识的单词具有特定POS标记的概率。见Ralph Weischedel,Marie Meeter,RichardSchwartz,Lance Ramshaw以及Jeff Palmucci的″Coping withambiguity and unknown words through probabilistic models″inComputational Linguistics,19(2),pp 359-382,1993。
Eric Brill描述了一种规则系统,其使用结尾猜测和更为依赖于形态的规则,见″Transformation-Based Error-Driven Learning andNatural Language Processing:A Case Study in Part of SpeechTagging″in Computational Linguistics,21(4),pp 10 543-565,1995。
对于语言识别系统,OOV单词是系统词汇表(词典)不认识的单词,或者是识别器不能识别的单词。目标是从系统的词汇表中找到最为接近OOV单词的单词(在发音和语意方面)。
基于n字符组的字符统计方法已经在单词级的语言处理中得到使用,比如拼写检查、单词切分。Angell,Freund和Willett描述了一种根据两个串共同拥有的三字符组的数量来用词典项目来比较拼写错误,使用Dice相似性系数作为相似性的量度。拼写错误的单词用词典中与所述错误拼写最为配的单词来取代。见″Automatic SpellingCorrection Using a Trigram Similarity Measure″in InformationProcessing and Management,19(4),pp255-261,1983。
现有技术的问题
现有技术中的方法具有至少两个问题。
首先,现有技术不允许识别和/或标识任何给定自然语言中的有效单词。例如,一个单词的所有形式(形态变化,和/或衍生词)不可能都在某个特定词典中出现。另外,新词和/或新创词不会出现在词典数据库中。这个问题在技术主题的文章中尤为明显:其中要使用新词来描述新的技术或者旧有技术中的进展。
先前的方法开始这个过程是基于这样的假设:OOV单词只是对系统的词典来说是不认识的,但是它们可能是语言中的真实单词。也就是,这些系统将新词比如website和无效的词串比如adkfiedfd或者v3.5a按照相同的方式进行处理。现有的工作中没有人试图识别语言中可能的新词,并提供一种方式来增强现有词典,从而使得这些词在将来能够被适当地识别(作为非OOV)。
其次,先前的方法被嵌在应用系统中以保护系统在遇到OOV单词时不至于失灵(崩溃),或者是为了改善系统的性能。还不存在独立地自动系统来寻找语言中可能的真实单词,并获取这些单词的词法信息。
即使先前的方法的目标在于解决OOV问题,它们也是针对特定的应用设计的。它们根据这些单词出现的上下文来猜测这些单词的为所述特定应用所需的信息。因此,一个单词的信息可能随上下文而不同。
发明目的
本发明的目的是提出一种系统和方法,用于识别自然语言文本中的在词典中不存在的可能的真实单词和/或它们的词性。
本发明的另一个目的是一种系统和方法,用于自动地或者半自动地识别文本中的新词,并可以将其添加到现有的词典中。
发明内容
本发明是一种系统、方法、程序产品和网络,用于识别词典数据库中不存在的一个或者多个单词。一个统计过程检查单词中的两个或者多个字符的子集的一个或者多个序列,以确定该词为有效词的概率。在优选实施例中,应用规则来确定词的词性。
在另外的实施例中,本发明包括一个去前缀处理,一个去后缀处理,一个词根处理,以及/或组合处理。所述去前缀处理从一个单词中取出一个或者多个前缀,其中,所述前缀最好是在一个前缀列表中。该去前缀处理最好受到一个或者多个去前缀规则的约束。该去前缀处理还包括有关被去除的前缀的前缀信息(例如来自词典数据库或者前缀列表)。所述去后缀处理从单词中去除一个或者多个后缀,其中,所述后缀最好是在一个后缀列表中。最好,所述去后缀处理受到一个或者多个去后缀规则的约束。该去后缀处理还包括有关被去除的后缀的后缀信息(例如来自词典数据库或者后缀列表)。所述词根处理从词典数据库获取有关词根的词根信息。(词根是去除了前缀和后缀的单词)。所述组合处理然后判断所述前缀、词根和后缀是否能够组合为由一个或者多个组合规则限定的有效单词。该组合处理可以,如果存在有效单词,获取有效单词一个或者多个词性,并将词性连同该有效词一起存储在词典数据库中(或者其它存储位置)。
附图说明
从下面结合附图对优选实施例进行的非限制性的说明可以更好地理解本发明的前述以及其它目的、特征和优点。附图中:
图1是使用本发明的系统的优选实施例的框图;
图2是总体词典增强方法的流程图;
图3是包括前缀处理、后缀处理和复合词处理的语言学处理的流程图;
图4是用在语言学处理中的前缀处理的流程图;
图5是用在语言学处理中的后缀处理的流程图;
图6是用在语言学处理中的复合词处理的流程图;
图7是统计处理的流程图;
图8是统计学习处理的流程图;
图9是被本发明识别为自然语言中的单词的单词输出的一个例子。
具体实施方式
本发明是一种用于从文本中的超词汇单词中识别可能的真实单词的系统、方法和程序。在另外的实施例中,则是找出所识别的单词的词性,以增强现有的词典。与一般的超词汇处理系统不同,本发明作为优选实施例提出基于单词中的三字符组序列的概率的熵(平均信息量,entropy)模型。
被识别为真实单词的单词可以被加入计算机系统的现有词典中,以便计算机应用程序能够识别超词汇单词并在将来正确处理这些单词。本发明可以集成到许多语言处理系统中,比如术语提取系统、机器翻译系统以及语音识别系统。另外,这些单词可以由词典编纂者用来更新和/或增强出版的词典。本发明可以给词典编纂者提供新词的列表,从而减少他们的工作量。本发明不仅可以应用于英语,而且可以应用于其它语言,包括但不限于法语、德语、西班牙语等。
图1图示了由本发明执行的总体处理。本发明的词典增强系统(100)由任何已知的计算机系统运行。它从硬盘或者网络(例如万维网、内联网、公司网络等)读入文档(120),对于文档中的每一个单词,在系统所使用的在线词典(140)中查找该单词。(在线词典是公知的,包括任何以可检索的方式存储单词的存储设备)。如果该单词在词典中不存在,则本发明检查该单词是否有可能是目标语言中的真实单词。这里,目标语言不仅包括一般所知的自然语言,也包括这些语言的技术变种,比如计算机编程/维修手册或者医学论文。如果它是一个可能的真实单词,则该系统在一个数据库(160)中保存该单词及其词性。所述可能的真实单词可以存储在新词数据库(160)中、在线词典(140)中或者其它任何类型的已知存储位置。
其它计算机应用(200)随后可以使用所述新词数据库来处理文档或者语音(220)。这些应用是公知的,包括语法(句型)分析程序、机器翻译系统以及语音识别系统。该数据库还可以由辞典编纂者(300)用来出版和/或修订人类使用的词典(320)。
图2图示了词典增强处理(100)的总体流程图。当在系统中读入文档(120)时(例如使用标准技术),系统从文档获取一个单词,并在系统词典(140)中查找该单词(110)。如果该单词在词典(130)中存在,则不需要进一步处理。但是,如果该单词在词典中不存在,则系统检查该单词是否由字母组成(150)。如果该单词包含一个或者多个数字或者特殊字符,则系统忽略该词。
如果该词仅由字母组成,则系统首先对其应用语言学处理(400)以检查该词是否是新的衍生词(也就是现有单词的形态变化,和/或复合词)。如果该处理的结果是肯定的(170),则系统可选地将该词及其词法信息(190)保存到新词数据库(160)或者其它存储位置中。如果该处理的结果是否定的,则在优选实施例中,该系统对其应用统计学处理(500)。如果处理(500)将该词识别为新词(180),则将该词及其词法信息(190)保存到所述新词数据库(160)中。重复所述处理,直到文档中没有剩下单词。
图3图示了语言学处理(400)的总体流程。该处理用于识别新衍生词。衍生词是词典已知的词的形态变化,这种形态变化多数是通过添加词缀,例如在单词的开头添加前缀,或者在单词的末尾添加后缀,以及/或者通过复合的手段,也就是将两个或者多个单词写为一个单词。首先,系统检查该单词是否包括一个或者多个前缀和词根(410)。如果前缀处理(410)的结果是肯定的,则该单词被视为一个新词,过程停止。如果前缀处理的结果是否定的(420),则系统检查该单词是构包括一个或者多个后缀和词根(430)。如果后缀处理的结果是肯定的,则该单词被视为新词,过程停止(440)。如果后缀处理(440)的结果是否定的,则系统运行复合词处理(450),看该单词是否包括两个内容词。如果复合词处理的结果是肯定的,则该单词被视为新词,过程停止。注意,本发明可以是一个或者多个前缀处理(410)、后缀处理(430)和/或复合词处理(450)单独作用或者与一个或者多个其它处理结合作用。
图4图示了用在语言学处理(400)中的前缀处理(410)的流程图。对有前缀的单词的该处理(410)如下所述。
首先,系统检查是否有前缀列表(417)中的前缀出现在该单词的开头(411)。如果单词包含一个前缀(412),则系统将该前缀从单词上砍掉(413)(分解单词)并在词典中查找其余部分(词根)(414)。在本发明的一种优选实施例中,将词根的最小长度设置为两个字符。如果词典包含该词根(415),则将该超词汇词视为真实的词,并且由过程410处理的词继承该词根的词法信息(416)。例如。前缀处理(410)发现了antiasthmatic(副词),autoinjector(名词),remanufactured(动词的过去分词),streoselectivity(名词)。
图5图示了用在语言学处理(400)中的后缀处理(430)的流程图。后缀处理如下所述:首先,系统检查是否有后缀数据库(438)中的后缀出现在单词的末尾(431)。在一种优选实施例中,本发明应用针对后缀(438)设置的规则,该规则描述一个词根具有特定后缀的先决条件POS(词性),以及所得到的词性。
用在优选实施例中的后缀规则结构的一个非限制性的例子如下。后缀able的规则是[able,{VB=>JJ},{NN=>JJ}]。该规则的意思是,动词(VB)或者名词(NN)可以在单词的末尾具有后缀able,所得到的词的词性是形容词(JJ)。如果一个单词包含一个后缀(432),则系统将该后缀去除(433),在词典中查找词根(435)。如果在词典中找到了词根(436)并且其具有先决条件POS之一,则该词被视为真实的单词并具有该规则所指的结果POS(437)。
但是,如果该词根在词典中不存在,则系统进行词根形式恢复(434)。当向一个单词添加词缀时,词根的拼写可能发生变化。例如,在英语中,以不发音的e结尾的单词通常在接以元音开头的后缀时会舍掉e。例如,当系统读入browsable时,它分离词缀able,获得词根brows。系统在词典中查找brows,但是未能成功。那么,系统执行词根形式恢复处理,获得原始形式browse。
对于词根形式恢复,在一个优选实施例中,本发明应用下述规则:
(1)如果词根的最后两个字母是同一个辅音字母,则删除一个;
(2)如果词根的最后一个字母是i,则将其变为y;
(3)如果词根的最后一个字母是辅音字母(但是不是第一种情况),则添加一个e。
如果在词典中找到了恢复得到的词根(436),并且其具有前提条件POS之一,则该单词被视为真实单词,则其具有该规则确定的结果POS(437)。这种情况的例子包括browsable(形容词),migranious(形容词),和oxidizability(名词)。
某些词,例如remanufacturability,包括一个或者多个前缀、一个或者多个后缀以及词根。在这种情况下,该单词经过上述的前缀处理和后缀处理。
图6图示了用在语言学处理中的复合词处理的流程图。如果一个词在前缀处理和后缀处理中的结果都是否定的,则考虑对其进行复合词处理(450)。系统将给定的超词汇单词分解为两个组成部分(453):包括从第一字母到断点的字母的第一组成部分(第一词素),以及包括从断点+1到单词末尾的字母的第二组成部分(第二词素)。初始断点为3(451)。如果在词典中找不到第一组成部分(455),则系统增大所述断点(459),重复该处理直到第二组成部分中的字母数量小于等于2(452)。
如果词典认识第一组成部分(455),则在词典中查找第二组成部分(456)。如果词典也认识第二组成部分,则系统检查所述两个组成部分的组合是否合法。可能的单词组合有名词+名词以及名词加动词的分词形式。如果组合是合法的,则将该超词汇词视为真实的单词,并具有第二组成部分的词性(459)。复合词的例子包括airbreathing(名词,动名词),eyedrops(名词),photophobia(名词)以及websire(名词)。
图7图示了优选的整个统计处理(500)的流程图。该过程用于识别非衍生的新词。非衍生的新词的意思是所述词不能通过对语言的现有单词应用衍生(或者构词)规则而产生。许多特定领域的技术术语属于这一类。人类非常容易成功地猜出一个以前从未见过的词是否是可能的真实单词,即使该单词并非由已知的单词构成。在一个实施例中,假设在以下情况下人类可以断定一个词是语言中的可能词汇:该词中的字符序列看起来是很有可能的,并且发音自然。本发明将非衍生新词的识别建立在此假设的基础之上。
在本发明中,如果字符串中的每一个字符都可能与其相邻字符同时出现,则将字母序列视为可能的真实单词。(字母/字符与相邻字符/字母组合而成的序列被称为一个字符串)。相邻字母/字符可以是任意数量的前导或者尾随字符。这种方法系基于语言的可预测性:当知道前导或者尾随的n个字母时能在多大程度上预测文本的下一个字母。在优选实施例中,将一个字符的相邻字符定义为两个前导字符。也就是,在已经看到了两个前导字符的前提下,如果单词中的字符在其位置出现的机会很高(也就是三字符组模型,这里,字符串是三个字符或者说三字符组),则该单词被视为真实单词。
该模型有两种模式:学习模式(510)和应用模式(550,560)。在学习模式,系统从系统词典(140)学习字符三字符组统计结果的概率,并将三字符组统计结果保存在数据库中(520)。学习模式还从训练数据产生基于单词结尾的词性猜测规则(530)。在应用模式中,当系统获取一个超词汇单词(540)时,系统计算该单词中所有字符三字符组的概率的熵(entropy,平均信息量)。
一个语言模型的熵是信息的预期值。熵是模型对未来的不确定性的量度。如果估计的概率分布接近均匀的,则熵增加。本发明提出了一种模型,其中,当提供一个超词汇单词(一个或者多个字符序列或者单词序列)时,该模型能够根据其统计结果判断该单词序列是否会是该语言中的可能的真实单词。也就是,一个单词是具有较强的内部统计效应的字母的聚合组。
假设一个单词w由n个字符组成,也就是w=c1...cn。加上一个前导空格和一个结尾空格来估计三字符组概率(在图8的说明中更详细地说明),使得w=c0c1...cncn+1。单词w的熵H(w)的计算如下:
H ( w ) = - Σ i = 2 n + 1 P ( ci | ci - 1 , ci - 2 ) log 2 P ( ci | ci - 1 , ci - 2 )
在一个优选实施例中,如果熵值高(大于给定的阈值),在本发明得出该词是真实的词的结论。在一种实施例中,阈值被设置为2.3,这是从平均熵减去训练数据的最小熵而确定的(见图8对训练数据的描述)。如果一个词被确定为真实的词,那么,系统从结尾猜测规则(猜测结束规则,end-guessing rule)库(530)产生所有可能的词性。在对图8的说明中解释了结尾猜测规则。通过使用结尾猜测规则集,系统根据最长匹配模式产生一个词的所有可能的词性。本发明从最长结尾开始到长度为1的结尾(最后一个字母)在规则集当中查找该单词的结尾字母(如果单词长度大于7,则最长结尾为5个字母,否则为单词长度减3)。如果某个结尾在规则集中存在,则匹配过程停止,系统按照规则频率的顺序产生该结尾的所有词性。例如,猜测critical为形容词和名词,但是形容词优先,因为在训练数据中tical出现的105次是形容词而只有4次是名词。统计处理所识别的新词的例子有accelerometers(名词),diastolic(形容词,名词),kinesiology(名词)以及ingressed(动词)。
图8是统计学习过程(510)的流程图。为了学习单词的三字符组概率,系统使用系统词典(140),在系统词典中单词都是语言中的合法单词。系统从词典读取单词,并产生该单词所有可能的屈折变体(511)。系统向产生的词加上前导和后续空格(512),并将所述词保存到数据库(513)中。例如,假设一个单词w是由n字母构成的超词汇单词c1c2..cn。系统向该单词加上一个前导空格b1和一个后续空格b2(512),得到b1c1c2..cn b2。该单词列表包括可从词典产生的所有合法的词形。重复这个过程,直到词典中的所有单词都得到处理(514)。使用所产生的单词列表,系统学到两种知识:三字符组统计数据和词性规则。该学习过程持续到单词列表中的所有单词都得到处理(519)。
系统通过统计三字母序列和两字母序列的频率来从单词列表(513)计算三字符组的概率。系统从单词列表(513)读入一个单词(515),产生所有可能的三字母序列和两字母序列,并计数它们的频率(516)。
例如,假设一个单词w=b1c1c2..cnb2由n个字符和两个空格(前导空格和后续空格)组成。那么,系统产生所有可能的两字母序列,比如b1c2,c1c2,...,cn-1cn,cnb2,以及所有可能的三字母序列,比如b1c1c2,c1c2c3,...,cn-1cnb2。系统计数从单词列表中的单词中找到的所有两字母序列和三字母序列的频率。
在获得三字母序列和两字母序列的频率之后,系统计算所有可能三字符组的概率(517)并将统计结果保存在数据库(520)中。三字符组的概率,也就是在给出两个前导字符c1和c2之后,字母c3出现的概率的计算如下:
P(c3|c1c2)=频率(c1c2c3)/频率(c1c2)
另外,系统还从单词列表(518)生成词性猜测规则。对于单词列表中的所有单词,产生长度从1到5的所有可能结尾连同单词的词性。将剩余部分的最小长度设定为3。系统计数结尾猜测规则的频率,并在结尾猜测规则库(530)中保存规则。
例如,在训练词典中,单词ailments被列为复数名词(NNS)。那么,结尾猜测规则发生器产生长度从1(s)到5(ments)的所有结尾及其词性。也就是,产生下述规则:s-NNS,ts-NNS,...,以及ments-NNS。单词mounting具有两个词性,也就是名词(NN)和动名词(VBG)。在这种情况下,每一个结尾有两种词性,也就是:g-NN和g-VBG,ng-NN和ng-VBG,....,以及nting-NN和nting-VBG。下表示出了是如何从训练数据产生结尾猜测规则的:
单词     ailments   mounting     abandons.          primary
结尾猜测规则     ments NNSents NNSnts NNSts NNSs NNS   nting NN    nting VBGting NN     ting VBGing NN      ing VBGng NN       ng VBGg NN        g VBG     ndons VBZdons VBZons VBZns VBZs VBZ  mary NNary NNry NNy NN     mary JJary JJry JJy JJ
NN:名词NNS:名词复数形式
VBG:动名词或者动词的现在分词
VBZ:动词的第三人称单数     JJ:形容词。
图9是本发明识别为自然语言中的单词的单词输出的一个例子。在图中的“方法”列表示所用的识别样本新词的机制,“前缀”方法中的单词用过程410识别,“后缀”方法中的单词用过程430识别。“前缀+后缀”方法中的单词用过程410和过程430识别。“复合词”方法中的单词用过程450识别。最后,“熵统计”方法中的单词用过程500识别。也就是,单词的熵值大于给定的阈值。
使用本发明的非限制性的例子来识别文本中的超词汇单词中的可能的真实单词。使用上述技术,根据字符三字符组的概率的熵以及英语中的语形学(形态学)规则,进行真实单词的识别。本发明还可根据词法信息规则和单词的结尾来产生所识别的真实单词的可能的词性(POS)。本发明的实施例在精度和查全率方面都表现出了高超的性能。在另外的非限制性的实施例中,本发明在识别特殊领域的技术术语方面很有用,并成功地被嵌入术语表提取系统中,术语表提取系统识别单单词或者多单词术语项目,并建立领域专用词典。在本说明书的启发下,其它一些实施例对于本领域的普通技术人员来说是明显的。这些实施例也在发明人所想到的范围之内。

Claims (21)

1.一种识别在词典数据库中不存在的一个或者多个单词的系统,包括一个或者多个中央处理单元和一个或者多个存储器,以及:
从所述词典数据库获取有关词根的词根信息的词根处理,词根为没有前缀和后缀的单词之一;以及
一种统计处理,用于:如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
2.如权利要求1所述的系统,其中,所述概率是所述子集正确地与词根中一个或者多个其它字符相邻的可能性的量度。
3.如权利要求2所述的系统,其中,所述相邻字符在所述子集之前。
4.如权利要求2所述的系统,其中,所述相邻字符在所述子集之后。
5.如权利要求4所述的系统,其中,所述子集和所述相邻字符构成一个三字符组。
6.如权利要求2所述的系统,其中,通过比较所述序列和所述相邻字符的串,与各自与相应的概率相关的串的数据库,确定所述概率。
7.如权利要求6所述的系统,其中,所述数据库中的所述串的各自的概率是这样确定的:寻找一个或者多个可能的字符串,计算这些可能的字符串在有效单词的数据库中出现的频率。
8.如权利要求2所述的系统,还包括:一个或者多个定义单词的词性的规则,这些规则具有规则概率,规则概率基于所述规则正确地适用于有效单词的数据库的大于一个阈值的出现频率。
9.如权利要求8所述的系统,其中,通过所述规则之一确定词根的词性。
10.如权利要求8所述的系统,其中,所述规则应用于所述词根的结束。
11.如权利要求1所述的系统,还包括:
复合词处理,将单词分解为两个组成部分,词根为第二组成部分。
12.如权利要求10所述的系统,其中,所述复合词处理还确定所述词根的词性。
13.如权利要求1所述的系统,其中,一旦确定了所述单词是有效单词,则将该单词存储在新词词典存储器中。
14.如权利要求1所述的系统,还包括单词技术处理,计数单词在一个或者多个文档中出现的频率,以确定如果该单词被确定为有效单词的话该单词的重要性。
15.如权利要求1所述的系统,还包括:
去前缀处理:从单词中去除一个或者多个前缀,所述前缀在前缀列表中,该去前缀处理受到一个或者多个去前缀规则的约束,该去前缀处理还获取有关被去除的前缀的前缀信息。
16.如权利要求15所述的系统,其中,所述前缀信息从下述中的一个或者多个获取:词典数据库或者前缀列表。
17.如权利要求1所述的系统,还包括去后缀处理:从单词中去除一个或者多个后缀,所述后缀在一个后缀列表中,该去后缀处理受到一个或者多个去后缀规则的约束,该去后缀处理还获取有关被去除的后缀的后缀信息。
18.如权利要求17所述的系统,其中,所述后缀信息从下述中的一个或者多个获取:词典数据库或者后缀列表。
19.一种识别在词典数据库中不存在的一个或者多个单词的方法,包括以下步骤:
从所述词典数据库获取有关词根的词根信息,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
20.一种识别在词典数据库中不存在的一个或者多个单词的系统,包括:
从所述词典数据库获取有关词根的词根信息的装置,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率的装置。
21.一种存储有计算机程序的计算机存储设备,所述计算机程序执行下述步骤:
从所述词典数据库获取有关词根的词根信息,词根为没有前缀和后缀的单词之一;以及
如果在词典数据库中没有有效词根,则检查该词根中的一个或者多个字符的一个或者多个子集,来判断该词根为有效单词的概率。
CN03811430A 2002-06-17 2003-04-21 用于识别一种或者多种自然语言中的单词及其词性的系统、方法 Expired - Fee Related CN100587686C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/173,931 2002-06-17
US10/173,931 US7680649B2 (en) 2002-06-17 2002-06-17 System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages

Publications (2)

Publication Number Publication Date
CN1656477A true CN1656477A (zh) 2005-08-17
CN100587686C CN100587686C (zh) 2010-02-03

Family

ID=29733454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03811430A Expired - Fee Related CN100587686C (zh) 2002-06-17 2003-04-21 用于识别一种或者多种自然语言中的单词及其词性的系统、方法

Country Status (7)

Country Link
US (1) US7680649B2 (zh)
JP (1) JP2006512629A (zh)
KR (1) KR100734741B1 (zh)
CN (1) CN100587686C (zh)
AU (1) AU2003231051A1 (zh)
CA (1) CA2488814C (zh)
WO (1) WO2003107217A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100514324C (zh) * 2005-09-21 2009-07-15 冲电气工业株式会社 词素分析装置以及词素分析方法
CN103678476A (zh) * 2012-09-25 2014-03-26 株式会社东芝 文档处理装置以及文档处理方法
CN104750676A (zh) * 2013-12-31 2015-07-01 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置
CN105468581A (zh) * 2014-09-25 2016-04-06 京瓷办公信息系统株式会社 词汇表管理装置、词汇表管理系统和词汇表管理方法
CN106211165A (zh) * 2016-06-14 2016-12-07 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN108604227A (zh) * 2016-01-26 2018-09-28 皇家飞利浦有限公司 用于神经临床释义生成的系统和方法
CN109983459A (zh) * 2016-12-21 2019-07-05 英特尔公司 用于标识语料库中出现的n-gram的计数的方法和设备
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN112434521A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 词汇处理方法和装置

Families Citing this family (224)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7747428B1 (en) 2003-09-24 2010-06-29 Yahoo! Inc. Visibly distinguishing portions of compound words
US7464020B1 (en) * 2003-09-24 2008-12-09 Yahoo! Inc. Visibly distinguishing portions of compound words
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
EP1717668A1 (en) * 2005-04-29 2006-11-02 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7698128B2 (en) 2006-01-13 2010-04-13 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
GB0611303D0 (en) * 2006-06-08 2006-07-19 Ibm A method, apparatus and software for selecting terms for a glossary in a document processing system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7983902B2 (en) 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8265162B2 (en) * 2007-10-01 2012-09-11 Cisco Technology, Inc. Context adaptive position and amplitude coding of coefficients for video compression
WO2009070619A1 (en) * 2007-11-26 2009-06-04 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9251143B2 (en) 2012-01-13 2016-02-02 International Business Machines Corporation Converting data into natural language form
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
CN103680261B (zh) * 2012-08-31 2017-03-08 英业达科技有限公司 词汇学习系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102902757B (zh) * 2012-09-25 2015-07-29 姚明东 一种电子商务字典自动生成方法
US8612213B1 (en) 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
US8713433B1 (en) 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US9805018B1 (en) 2013-03-15 2017-10-31 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
US8788263B1 (en) * 2013-03-15 2014-07-22 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US10853572B2 (en) * 2013-07-30 2020-12-01 Oracle International Corporation System and method for detecting the occureances of irrelevant and/or low-score strings in community based or user generated content
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB201321927D0 (en) * 2013-12-11 2014-01-22 Touchtype Ltd System and method for inputting text into electronic devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9933994B2 (en) * 2014-06-24 2018-04-03 Lenovo (Singapore) Pte. Ltd. Receiving at a device audible input that is spelled
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9852124B2 (en) 2015-09-02 2017-12-26 International Business Machines Corporation Dynamic portmanteau word semantic identification
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10134388B1 (en) * 2015-12-23 2018-11-20 Amazon Technologies, Inc. Word generation for speech recognition
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10347249B2 (en) * 2016-05-02 2019-07-09 The Regents Of The University Of California Energy-efficient, accelerometer-based hotword detection to launch a voice-control system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10754441B2 (en) 2017-04-26 2020-08-25 Microsoft Technology Licensing, Llc Text input system using evidence from corrections
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109766539B (zh) * 2018-11-30 2022-12-20 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109582975B (zh) * 2019-01-31 2023-05-23 北京嘉和海森健康科技有限公司 一种命名实体的识别方法及装置
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR102236846B1 (ko) * 2019-04-09 2021-04-06 넷마블 주식회사 욕설 필터링 방법 및 장치
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
US11984116B2 (en) * 2021-11-08 2024-05-14 Genesys Cloud Services, Inc. Method and system for unsupervised discovery of unigrams in speech recognition systems

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0682403B2 (ja) * 1986-03-24 1994-10-19 沖電気工業株式会社 光学式文字読取装置
US5189610A (en) * 1986-10-20 1993-02-23 Xerox Corporation Electronic dictionary with correct and incorrect words
JPH0731677B2 (ja) * 1987-09-29 1995-04-10 シャープ株式会社 文書作成・校正支援装置
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH05233623A (ja) * 1991-11-27 1993-09-10 Internatl Business Mach Corp <Ibm> ストローク構文入力装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US5392212A (en) * 1993-07-07 1995-02-21 The United States Of America As Represented By The Secretary Of Commerce Apparatus for identifying unknown words by comparison to known words
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
JPH0844719A (ja) * 1994-06-01 1996-02-16 Mitsubishi Electric Corp 辞書アクセスシステム
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5761689A (en) * 1994-09-01 1998-06-02 Microsoft Corporation Autocorrecting text typed into a word processing document
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6349282B1 (en) * 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US6529864B1 (en) * 1999-08-11 2003-03-04 Roedy-Black Publishing, Inc. Interactive connotative dictionary system
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
WO2004084176A1 (ja) * 2000-08-15 2004-09-30 Yoichi Ando 音響評価方法およびそのシステム
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100514324C (zh) * 2005-09-21 2009-07-15 冲电气工业株式会社 词素分析装置以及词素分析方法
CN103678476A (zh) * 2012-09-25 2014-03-26 株式会社东芝 文档处理装置以及文档处理方法
CN104750676B (zh) * 2013-12-31 2017-10-24 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置
CN104750676A (zh) * 2013-12-31 2015-07-01 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置
CN105468581B (zh) * 2014-09-25 2018-04-06 京瓷办公信息系统株式会社 词汇表管理装置、词汇表管理系统和词汇表管理方法
CN105468581A (zh) * 2014-09-25 2016-04-06 京瓷办公信息系统株式会社 词汇表管理装置、词汇表管理系统和词汇表管理方法
CN108604227A (zh) * 2016-01-26 2018-09-28 皇家飞利浦有限公司 用于神经临床释义生成的系统和方法
CN108604227B (zh) * 2016-01-26 2023-10-24 皇家飞利浦有限公司 用于神经临床释义生成的系统和方法
CN106211165A (zh) * 2016-06-14 2016-12-07 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN109983459A (zh) * 2016-12-21 2019-07-05 英特尔公司 用于标识语料库中出现的n-gram的计数的方法和设备
CN109983459B (zh) * 2016-12-21 2023-11-28 英特尔公司 用于标识语料库中出现的n-gram的计数的方法和设备
CN110263210A (zh) * 2019-06-24 2019-09-20 上海乂学教育科技有限公司 自适应英语学习词库图谱管理方法和系统
CN110263210B (zh) * 2019-06-24 2020-10-27 上海松鼠课堂人工智能科技有限公司 自适应英语学习词库图谱管理方法和系统
CN112434521A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 词汇处理方法和装置

Also Published As

Publication number Publication date
JP2006512629A (ja) 2006-04-13
AU2003231051A1 (en) 2003-12-31
CA2488814A1 (en) 2003-12-24
US7680649B2 (en) 2010-03-16
KR20050007547A (ko) 2005-01-19
CN100587686C (zh) 2010-02-03
CA2488814C (en) 2010-06-22
US20030233235A1 (en) 2003-12-18
KR100734741B1 (ko) 2007-07-03
WO2003107217A1 (en) 2003-12-24

Similar Documents

Publication Publication Date Title
CN100587686C (zh) 用于识别一种或者多种自然语言中的单词及其词性的系统、方法
Denis et al. Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort
CN1135485C (zh) 利用计算机系统的日文文本字的识别
US6108627A (en) Automatic transcription tool
Grundkiewicz et al. The wiked error corpus: A corpus of corrective wikipedia edits and its application to grammatical error correction
US20090240487A1 (en) Machine translation
Otero Learning bilingual lexicons from comparable english and spanish corpora
CN104317846A (zh) 一种语义分析与标注方法及系统
CN107844608B (zh) 一种基于词向量的句子相似度比较方法
CN104375988A (zh) 一种词语对齐方法及装置
Kumar et al. Stemming of punjabi words by using brute force technique
Hellwig Sanskrittagger: A stochastic lexical and pos tagger for sanskrit
Chen Chinese word segmentation using minimal linguistic knowledge
US8335681B2 (en) Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
Khan et al. Template Based Affix Stemmer for a Morphologically Rich Language.
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
Kondrak Determining recurrent sound correspondences by inducing translation models
CN1114165C (zh) 中文文本中的字词分割方法
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Nguyen et al. Example-based sentence reduction using the hidden markov model
CN1567297A (zh) 一种从双语语料库中自动抽取多词翻译等价单元的方法
Nguyen et al. Korean morphological analysis for Korean-Vietnamese statistical machine translation
Lignos et al. A Rule-Based Unsupervised Morphology Learning Framework.
Kumar et al. Applications of stemming algorithms in information retrieval-a review
Bladier et al. German and French neural supertagging experiments for LTAG parsing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100203

Termination date: 20120421