CN103514150A - 识别具有组合型歧义的歧义词的方法和装置 - Google Patents
识别具有组合型歧义的歧义词的方法和装置 Download PDFInfo
- Publication number
- CN103514150A CN103514150A CN201210211767.XA CN201210211767A CN103514150A CN 103514150 A CN103514150 A CN 103514150A CN 201210211767 A CN201210211767 A CN 201210211767A CN 103514150 A CN103514150 A CN 103514150A
- Authority
- CN
- China
- Prior art keywords
- word
- ambiguity
- language
- candidate
- ambiguity word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。
Description
技术领域
本申请总体上涉及自然语言处理的领域,尤其涉及识别具有组合型歧义的歧义词的方法和设备。
背景技术
在自然语言处理中,分词是其中的一个基本课题。大部分自然语言处理都建立在分词的结果之上,因此分词的质量直接影响到后续工作的准确性。由于自然语言自身的特点,在自然语言的分词过程中,会遇到分词歧义的问题。以汉语为例,汉语的分词歧义主要包括如下两种:交集型歧义和组合型歧义。一般,假设A、X和B分别为词串,如果其组成的词串AXB满足AX和XB同时为词的条件,则称词串AXB具有交集型歧义。另外,假设W是汉语词集合,如果一个词w∈W,并且该词w可以分解为连续的词串w1,w2,……,wn(n为大于或等于2的自然数),wi∈W(i=1,2,……,n),而且w和w1,w2,……,wn在汉语句子中均存在,则称w具有组合型歧义。
交集型歧义的解决方案比较明确,现有的方案可以取得较好的效果。然而,对于组合型歧义,目前的解决方案还较少。关于组合型歧义,现有的解决方案主要分成以下两种:一种是通过观察预料库,人工总结歧义现象,另一种是人工标注一部分语料作为训练集,利用机器学习的方法来学习歧义现象。但是,现有的解决方案存在很多缺点。例如,人工很难总结出语料中潜在的歧义现象,而且人工的方式需要大量的时间和人力,成本很高。而且,组合型歧义具有领域相关的特点,即在不同的领域会产生不同的歧义现象,人工的方式很难预测。另外,人工标注语料也是成本很高的过程,如果分词系统应用在新的领域,就需要重新标注新的语料。
因此,期望提供一种能够适用于不同领域并且能够高效地和准确地识别具有组合型歧义的歧义词的方法和装置。
发明内容
在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
发明人通过研究发现,组合型歧义具有如下特点:具有组合型歧义的歧义词在被拆分之后的词义变化很大。另外,这种词义上的变化可以通过其他语言,例如英语,明显地表现出来。因此,发明人认识到可以通过考察与汉语词对应的其它语言的译文的变化来识别具有组合型歧义的歧义词。也就是说,可以通过其他语言的辅助来识别具有组合型歧义的歧义词。
根据本发明的实施例,提供了一种识别具有组合型歧义的歧义词的方法,包括:利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;通过分解候选歧义词,对第一语言句子进行细粒度切分;将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
根据上述识别具有组合型歧义的歧义词的方法,还包括:在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
根据上述识别具有组合型歧义的歧义词的方法,还包括:利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
根据本发明的另一实施例,提供了一种识别具有组合型歧义的歧义词的装置,包括:粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;检测单元,用于利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;细粒度切分单元,用于通过分解候选歧义词,对第一语言句子进行细粒度切分;抽取单元,用于将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及确定单元,用于判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
根据上述识别具有组合型歧义的歧义词的装置,其中,确定单元在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
根据上述识别具有组合型歧义的歧义词的装置,其中,确定单元在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
根据上述识别具有组合型歧义的歧义词的装置,还包括:真伪歧义词判断单元,用于在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
根据上述识别具有组合型歧义的歧义词的装置,还包括:获取单元,用于利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;选择单元,用于在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;特征向量生成单元,用于对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及正反例判断单元,用于利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
根据本发明,可以通过其他语言的辅助,来高效地和准确地识别具有组合型歧义的歧义词。另外,本发明不需要对使用的语料进行人工标注等加工,并且可以有效地自适应到目标领域。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意性流程图;
图2是示出根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法的示意性流程图;
图3是示出根据本发明的实施例的根据共现模型来判断正反例的方法的示意性流程图;
图4是示出根据本发明的实施例的训练分类模型的方法的示意性流程图;
图5是示出根据本发明的实施例的利用分类模型来判断是否对候选歧义词进行切分的方法的示意性流程图;
图6是示出根据本发明的实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
图7是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
图8是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
图9是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;
图10是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图;以及
图11是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
下面将结合图1来描述根据本发明的实施例的识别具有组合型歧义的歧义词的方法。图1是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意性流程图。
如图1所示,该处理在S100开始。接着,该处理前进到S102。
在S102,利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分。
核心词表表示分词系统所使用的基本汉语词典。现有技术中可以从各种途径获得基本汉语词典作为核心词表,其具体细节在此不再赘述。
平行语料库表示包含两种语言、即第一语言和第二语言的语料库,其中,两种语言以句子为单位互为译文。本文中,第一语言例如为汉语,而第二语言例如为英语,以及平行语料库例如为汉英双语平行语料库。本领域技术人员应当理解,第一语言和第二语言不限于汉语和英语,还可以是其他语言。
下文中,为了便于描述,以第一语言为汉语和第二语言为英语为例进行说明。假设汉语句子用S来表示,可以利用预先获得的核心词典对汉语句子S进行最大匹配切分,即按照核心词典中可能存在的最大长度的词为单位对汉语句子进行粗粒度切分,并将对汉语句子S进行粗粒度切分后得到的词串的集合表示为Sw。
例如,假设在汉英双语平行语料库中存在第一语言句子(即汉语句子)S“在供料流中和在酚产物中”及其对应的第二语言句子(即英语句子)“in the feed stream and in the phenol product”。可以利用预先获得的核心词典,按照核心词典中可能存在的最大长度的词为单位,例如将上述汉语句子S“在供料流中和在酚产物中”粗粒度切分为如下词串的集合Sw={“在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”}。由以上切分结果可见,因为在核心词典中,“中”、“和”以及“中和”都是存在于核心词典中的词,其中词“中”以及“和”的长度均为1,而词“中和”的长度为2,因此在粗粒度切分过程中,按照核心词典中可能存在的最大长度的词“中和”为单位,将“中和”切分为一个词。
在S102之后,该处理前进到S104。在S104,利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合。
在步骤S102中对汉语句子S进行粗粒度切分得到词串的集合Sw之后,利用核心词表,在词串的集合Sw中检测能够被分解为更小粒度的多个词的候选歧义词w,并由候选歧义词w组成候选歧义词集合D。
还是以上述汉语句子“在供料流中和在酚产物中”为例,在步骤S102中将上述汉语句子S“在供料流中和在酚产物中”粗粒度切分为词串的集合Sw={“在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”}之后,可以利用核心词表在上述分词结果中进行检测。通过检测发现,词“中和”能够被分解为更小粒度的两个词“中”以及“和”。因此,将词“中和”作为候选歧义词w。可以将检测出的所有候选歧义词组成候选歧义词集合D。
在S104之后,该处理前进到S106。在S106,通过分解候选歧义词,对第一语言句子进行细粒度切分。
在步骤S104中检测到候选歧义词w之后,可以通过将候选歧义词w进一步分解为更小粒度的多个词w1、w2、……、wi、……、wn,来对汉语句子S进行细粒度切分,并将得到的细粒度的词串的集合表示为Sc,其中,1≤i≤n,i和n均为自然数。
接着上面的示例,因为在步骤S104中将词“中和”检测为候选歧义词w,因此可以通过将候选歧义词w“中和”进一步分解为词w1“中”以及词w2“和”,来将上述汉语句子S“在供料流中和在酚产物中”细粒度切分为词串的集合Sc={“在”、“供料”、“流”、“中”、“和”、“在”、“酚”、“产物”、“中”}。
在S106之后,该处理前进到S108。在S108,将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文。
在步骤S102得到粗粒度切分后的词串的集合Sw以及在步骤S104得到细粒度切分后的词串的集合Sc之后,可以将词串的集合Sw和Sc中的词分别与汉语句子S所对应的英语句子中的英语词进行词对齐,以从英语句子中分别抽取候选歧义词w的译文Ew和候选歧义词w所分解成的更小粒度的词w1、w2、……、wi、……、wn的译文Ew1、Ew2、……、Ewi、……、Ewn。
接着上面的示例,将粗粒度切分上述汉语句子S“在供料流中和在酚产物中”得到的粗粒度汉语词的集合Sw中的词“在”、“供料”、“流”、“中和”、“在”、“酚”、“产物”、“中”分别与对应的英语句子“in the feed streamand in the phenol product”中的词进行词对齐,也就是说,自动寻找汉语词与英语词之间的互译对应关系。例如,将词“在”与“in”对齐,将词“供料”与“feed”对齐,将词“流”与“stream”对齐,将词“中和”与“and”对齐,将词“在”以及“中”与“in”对齐,将词“酚”与“phenol”对齐,以及将词“产物”与“product”对齐。另外,现有技术中已经存在各种方法可以进行词对齐,其具体细节在此不再赘述。
根据以上词对齐的结果,由于将候选歧义词w“中和”与英语词“and”对齐,因此将英语词“and”抽取为候选歧义词“中和”的译文Ew。
类似地,将细粒度切分上述汉语句子S“在供料流中和在酚产物中”得到的细粒度汉语词的集合Sc中的词“在”、“供料”、“流”、“中”、“和”、“在”、“酚”、“产物”、“中”分别与对应的英语句子“in the feed stream andin the phenol product”中的词进行词对齐,也就是说,自动寻找汉语词与英语词之间的互译对应关系。例如,将词“在”以及“中”与“in”对齐,将词“供料”与“feed”对齐,将词“流”与“stream”对齐,将词“和”与“and”对齐,将词“在”以及“中”与“in”对齐,将词“酚”与“phenol”对齐,以及将词“产物”与“product”对齐。另外,现有技术中已经存在各种方法可以进行词对齐,其具体细节在此不再赘述。
根据以上词对齐的结果,由于将候选歧义词w“中和”所分解成的更小粒度的词w1“中”与英语词“in”对齐,以及将候选歧义词w“中和”所分解成的更小粒度的词w2“和”与英语词“and”对齐,因此将英语词“in”抽取为候选歧义词w“中和”所分解成的更小粒度的词w1“中”的译文Ew1,以及将英语词“and”抽取为候选歧义词w“中和”所分解成的更小粒度的词w2“和”的译文Ew2。
在S108之后,该处理前进到S110。在S110,判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。
第一语言与第二语言词典表示第一语言的词与第二语言的词之间的互译对应关系的词典。在本文中,第一语言与第二语言词典例如可以是汉英词典。可以根据第一语言与第二语言词典得到与第一语言的候选歧义词w对应的第二语言的所有译文tw。类似地,可以根据第一语言与第二语言词典得到与第一语言的候选歧义词w所分解成的更小粒度的多个词w1、w2、……、wi、……、wn对应的第二语言的所有译文tw1、tw2、......、twi、......、twn。然后,将所抽取的候选歧义词w的译文Ew与通过汉英词典得到的候选歧义词w的所有译文tw进行比较,以判断Ew是否出现在tw中;以及将所抽取的更小粒度的多个词w1、w2、……、wi、……、wn的译文Ew1、Ew2、……、Ewi、……、Ewn分别与通过汉英词典得到的更小粒度的多个词w1、w2、……、wi、……、wn的所有译文tw1、tw2、……、twi、……、twn进行比较,以判断Ew1、Ew2、……、Ewi、……、Ewn是否出现在tw1、tw2、……、twi、……、twn中,从而确定候选歧义词w是真歧义词还是伪歧义词,并且确定包含候选歧义词w的第一语言句子S是正例还是反例。
接着上面的示例,根据汉英词典,可以得到与候选歧义词w“中和”对应的英语词tw为“neutralization”、“neutralize”。类似地,根据汉英词典,可以得到与候选歧义词w“中和”所分解成的更小粒度的词w1“中”对应的英语词tw1为“in”、“middle”,以及可以得到与候选歧义词w“中和”所分解成的更小粒度的词w2“和”对应的英语词tw2为“and”。然后,将所抽取的候选歧义词w“中和”的译文Ew“and”与通过汉英词典得到的候选歧义词w“中和”的所有译文tw{“neutralization”、“neutralize”}进行比较,以判断Ew“and”是否出现在tw={“neutralization”、“neutralize”}中,以及将将所抽取的更小粒度的多个词w1“中”、w2“和”的译文Ew1“in”、Ew2“and”分别与通过汉英词典得到的更小粒度的多个词w1“中”、w2“和”的所有译文tw1={“in”、“middle”}、tw2={“and”}进行比较,以判断Ew1“in”、Ew2“and”是否出现在tw1={“in”、“middle”}、tw2={“and”}中,从而确定候选歧义词w“中和”是真歧义词还是伪歧义词,并且确定包含候选歧义词w“中和”的第一语言句子S“在供料流中和在酚产物中”是正例还是反例。
在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。
如果所抽取的候选歧义词w的译文Ew没有出现在通过汉英词典得到的候选歧义词w的所有译文tw中,并且所抽取的更小粒度的多个词w1、w2、……、wi、……、wn的译文Ew1、Ew2、……、Ewi、……、Ewn出现在通过汉英词典得到的更小粒度的多个词w1、w2、……、wi、……、wn的所有译文tw1、tw2、……、twi、……、twn中,则将候选歧义词w确定为真歧义词,并将包含真歧义词w的第一语言句子S作为反例。
接着上面的示例,因为所抽取的候选歧义词w“中和”的译文Ew“and”没有出现在通过汉英词典得到的候选歧义词w“中和”的所有译文tw{“neutralization”、“neutralize”}中,并且所抽取的更小粒度的多个词w1“中”、w2“和”的译文Ew1“in”、Ew2“and”出现在通过汉英词典得到的更小粒度的多个词w1“中”、w2“和”的所有译文tw1={“in”、“middle”}、tw2={“and”}中,所以将候选歧义词w“中和”确定为真歧义词,并将包含真歧义词w“中和”的第一语言句子S“在供料流中和在酚产物中”作为反例。
在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
如果所抽取的候选歧义词w的译文Ew出现在通过汉英词典得到的候选歧义词w的所有译文tw中,并且所抽取的更小粒度的多个词w1、w2、……、wi、……、wn的译文Ew1、Ew2、……、Ewi、……、Ewn没有出现在通过汉英词典得到的更小粒度的多个词w1、w2、……、wi、……、wn的所有译文tw1、tw2、……、twi、……、twn中,则将候选歧义词w确定为伪歧义词,并将包含伪歧义词w的第一语言句子S作为正例。
最后,该处理在S112处结束。
根据本实施例的方法,可以通过其他语言的辅助,来高效地和准确地识别具有组合型歧义的歧义词。而且,根据本实施例的方法,不需要对使用的语料进行人工标注等加工,并且可以有效地自适应到目标领域。
下面结合图2来描述根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法。图2是示出根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真伪歧义词的方法的示意性流程图。
如图2所示,该处理开始于S200。
在S200之后,该处理前进到S202。在S202,在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
当词语的意思发生变化的时候,其对应的上下文也很可能发生变化。因此,可以通过考察词的上下文来判断一个词是否具有歧义。
假设词w可以分解为w1和w2,可以从汉语单语语料中找出w1、w2单独出现时经常与w1、w2搭配的上下文。例如,对于w1,可以设置一个大小为N的窗口,统计所有出现在该窗口内的上下文,最后取权值weight(w1,wi)最高的m个词作为w1的常用上下文。权值weight(w1,wi)可由下面的公式得到:
其中,p(w1)表示词w1的词频,p(wi)表示词wi的词频,p(w1,wi)表示词w1和词wi共同出现在一个窗口内的次数,其中,1≤m≤N,1≤i≤m,并且i、m和N均为自然数。
对于单语语料中的每个包含w的句子,选择大小为N的窗口内的全部上下文词汇context[w1,…,wn],并且根据下面的公式来计算上下文词汇context[w1,...,wn]与w1或w2的常用上下文之间的相似度sim(w,wi):
其中,wk为w1或w2,如果wi不在wk的常用上下文中,则score(wi,wk)=0;否则,score(wi,wk)=weight(wi,wk),其中,1≤i≤N,k为1或2,并且i、N均为自然数。
将相似度sim(w,wi)与预定阈值进行比较,以判断词w是否具有歧义。如果相似度sim(w,wi)大于预定阈值,则将词w判断为具有歧义,即词w为真歧义词并且在当前上下文条件下应该切分为w1和w2,以及将包含真歧义词w的句子作为一个反例。另外,如果相似度sim(w,wi)不大于预定阈值,则将词w判断为没有歧义,即词w为伪歧义词并且在当前上下文条件下不需要被切分为w1和w2,以及将包含伪歧义词w的句子作为一个正例。
最后,该处理在S204处结束。
根据本实施例的方法,可以根据词的上下文,从汉语单语语料中识别具有组合型歧义的歧义词及相应的正反例。
下面结合图3来描述根据本发明的实施例的根据共现模型来判断正反例的方法。图3是示出根据本发明的实施例的根据共现模型来判断正反例的方法的示意性流程图。
如图3所示,该处理开始于S300。
在S300之后,该处理前进到S302。在S302,利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文。
假设候选歧义词w可以切分为w1,...,wn,可以根据汉英词典查到候选歧义词w及其切分后的w1,...,wn的所有英语译文。
例如,对于候选歧义词“才能”及其切分后的词“才”和“能”,可以根据汉英词典得到其全部英语译文:才能→talent,capability,才→just,immediately,能→can,able。
在S302之后,该处理前进到S304。在S304,在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文。
在步骤S302中得到候选歧义词w及其切分后的w1,…,wn的所有英语译文之后,可以在英语单语语料中统计候选歧义词w及其切分后的w1,…,wn的所有译文中的每个译文的词频,并将其中词频最高的若干个英语译文选择为候选歧义词w及其切分后的w1,...,wn的实际译文t。
例如,对于候选歧义词“才能”及其切分后的词“才”和“能”的全部英语译文:才能→talent,capability,才→just,immediately,能→can,able,在英语单语语料中统计“才能”的英语译文“talent”和“capability”的词频,假设“talent”的词频高于“capability”的词频,则可以将“talent”作为“才能”的实际译文t。类似地,在英语单语语料中统计“才”的英语译文“just”和“immediately”的词频,假设“just”的词频高于“immediately”的词频,则可以将“just”作为“才”的实际译文t。类似地,在英语单语语料中统计“能”的英语译文“can”和“able”的词频,假设“can”的词频高于“able”的词频,则可以将“can”作为“能”的实际译文t。
在S304之后,该处理前进到S306。在S306,对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型。
对于候选歧义词w及其切分后的w1,…,wn的每个实际译文t,在英语单语语料中选择固定词数的上下文contex[f1,…,fn]作为每个实际译文的特征词。当然,根据实际需要,上下文的词的数量(即词数)也可以是任意的。可以按照以下公式来为每个特征词赋予对应的权重weight(t,fi):
其中,p(t)表示每个实际译文t的词频,p(fi)表示特征词fi的词频,p(t,fi)表示每个实际译文t和特征词fi共同出现在大小为N的窗口内的次数,其中,1≤i≤N,并且i、N均为自然数。
可将特征词fi及其对应的权重weight(t,fi)组成特征向量{<f1,weight(t,f1)>,...,<fn,weight(t,fn)>},并且将得到的特征向量的集合作为共现模型。
例如,对于“才能”的译文“talent”,可以将其上下文中的n个特征词f1,...,fn及其对应的权重weight(talent,f1),...,weight(talent,fn)组成特征向量{<f1,weight(talent,f1)>,...,<fn,weight(talent,fn)>}。类似地,对于“才”的译文“just”,可以将其上下文中的n个特征词f1,...,fn及其对应的权重weight(just,f1),…,weight(just,fn)组成特征向量{<f1,weight(just,f1)>,...,<fn,weight(just,fn)>}。类似地,对于“能”的译文“can”,可以将其上下文中的n个特征词f1,…,fn及其对应的权重weight(can,f1),…,weight(can,fn)组成特征向量{<f1,weight(can,f1)>,…,<fn,weight(can,fn)>}。可以将得到的特征向量{<f1,weight(talent,f1)>,...,<fn,weight(talent,fn)>}、{<f1,weight(just,f1)>,…,<fn,weight(just,fn)>}和{<f1,weight(can,f1)>,...,<fn,weight(can,fn)>}的集合作为共现模型。本领域技术人员应当理解,不同的实际译文的上下文中的特征词的个数可以相同,也可以不同。
在S306之后,该处理前进到S308。在S308,利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
对于汉语语料中包含候选歧义词w的每个汉语句子S,利用汉英词典得到汉语句子S中的候选歧义词w的上下文中的每个词的英语译文,并且计算上下文中的每个词的译文与共现模型之间的相似度,以及根据相似度来判断候选歧义词是真歧义词还是伪歧义词,并且判断包含候选歧义词的汉语句子是正例还是反例。具体过程与图2所示的方法类似,其具体过程在此不再赘述。
例如,对于包含候选歧义词“才能”的汉语句子“考核后才能获得上岗资格”,对于候选歧义词“才能”的上下文中的每个词,利用汉英词典得到其译文,然后计算上下文中的每个词的译文与共现模型之间的相似度,最后得到“后(after)”与“能(can)”、“获得(obtain)”与“能(can)”的相似度大于其他组合,因此将汉语句子“考核后才能获得上岗资格”中包含的候选歧义词“才能”判断为真歧义词,将该汉语句子“考核后才能获得上岗资格”判断为一个反例。
最后,该处理在S310处结束。
根据本实施例的方法,可以利用与第一语言不同的第二语言的共现模型在第一语言的语料库中判定真伪歧义词和相应的正反例。
下面结合图4来描述根据本发明的实施例的训练分类模型的方法。图4是示出根据本发明的实施例的训练分类模型的方法的示意性流程图。
如图4所示,该处理开始于S400。
在S400之后,该处理前进到S402。在S402,从候选歧义词集合中的每个候选歧义词的正例和反例中,选择若干词数的上下文,利用机器学习的方法来训练分类模型。
例如,可以利用最大熵模型,从候选歧义词集合中的每个候选歧义词的正例和反例中,选择若干词数的上下文来训练分类模型。本领域技术人员应当理解,训练分类模型的方法不限于最大熵模型,还可以采用本领域已知的其它机器学习的方法来训练分类模型。
最后,该处理在S404处结束。
下面结合图5来描述根据本发明的实施例的利用分类模型来判断是否对候选歧义词进行切分的方法。图5是示出根据本发明的实施例的利用分类模型来判断是否对候选歧义词进行切分的方法的示意性流程图。
如图5所示,该处理开始于S500。
在S500之后,该处理前进到S502。在S502,对于包含候选歧义词的第一语言句子,根据分类模型分别计算候选歧义词的从合概率和从分概率。
对于包含候选歧义词w的汉语句子S,可以根据分类模型,利用下面的公式来计算将候选歧义词w作为一个整体而不切分的从合概率Pcomb(w):
Pcomb(w)=cat(w|contextw)
其中,cat()表示分类模型,centextw表示候选歧义词w的上下文。
另外,如果候选歧义词w可以分解为w1和w2,则可以根据分类模型,利用下面的公式来计算将候选歧义词分解为w1和w2的从分概率Psplit(w1,w2):
其中,cat()表示分类模型,max()表示取其中的最大值,contextw1表示候选歧义词w分解后的w1的上下文,centextw2表示候选歧义词w分解后的w2的上下文。
在S502之后,该处理前进到S504。在S504,根据从合概率和从分概率之间的关系,来确定是否对候选歧义词进行切分,其中,在从合概率大于从分概率的情况下,不切分候选歧义词;以及在从合概率小于或等于从分概率的情况下,将候选歧义词切分成更小粒度的多个词。
如果步骤S502中计算得到的Pcomb(w)>Psplit(w1,w2),则不切分候选歧义词w;否则,将候选歧义词w切分为更小粒度的多个词w1和w2。本领域技术人员应当理解,候选歧义词分解成的更小粒度的词的个数不限于2个,例如可以是大于或等于2的任意数目。
最后,该处理在S506处结束。
下面结合图6至图10来说明根据本发明的实施例的识别具有组合型歧义的歧义词的装置。
图6是示出根据本发明的实施例的识别具有组合型歧义的歧义词的装置的示意性框图。如图6所示,识别具有组合型歧义的歧义词的装置600包括:粗粒度切分单元602,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;检测单元604,用于利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;细粒度切分单元606,用于通过分解候选歧义词,对第一语言句子进行细粒度切分;抽取单元608,用于将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及确定单元610,用于判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。其中,确定单元610在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。其中,确定单元610在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。
需要指出的是,在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应,在此不再赘述。
图7是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图。如图7所示,识别具有组合型歧义的歧义词的装置700包括粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608、确定单元610和真伪歧义词判断单元702。识别具有组合型歧义的歧义词的装置700中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610与图6所示的识别具有组合型歧义的歧义词的装置600中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610相同,其细节在此不再赘述。另外,识别具有组合型歧义的歧义词的装置700中的真伪歧义词判断单元702用于在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。
图8是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图。如图8所示,识别具有组合型歧义的歧义词的装置800包括粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608、确定单元610、获取单元802、选择单元804、特征向量生成单元806和正反例判断单元808。识别具有组合型歧义的歧义词的装置800中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610与图6所示的识别具有组合型歧义的歧义词的装置600中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610相同,其细节在此不再赘述。另外,识别具有组合型歧义的歧义词的装置800中的获取单元802,用于利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;选择单元804,用于在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;特征向量生成单元806,用于对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及正反例判断单元808,用于利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。
图9是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图。如图9所示,识别具有组合型歧义的歧义词的装置900包括粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608、确定单元610和训练单元902。识别具有组合型歧义的歧义词的装置900中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610与图6所示的识别具有组合型歧义的歧义词的装置600中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610相同,其细节在此不再赘述。另外,识别具有组合型歧义的歧义词的装置900中的训练单元902用于从候选歧义词集合中的每个候选歧义词的正例和反例中,选择若干词数的上下文,利用机器学习的方法来训练分类模型。
图10是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的示意性框图。如图10所示,识别具有组合型歧义的歧义词的装置1000包括粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608、确定单元610、概率计算单元1002和切分单元1004。识别具有组合型歧义的歧义词的装置1000中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610与图6所示的识别具有组合型歧义的歧义词的装置600中的粗粒度切分单元602、检测单元604、细粒度切分单元606、抽取单元608和确定单元610相同,其细节在此不再赘述。另外,识别具有组合型歧义的歧义词的装置1000中的概率计算单元1002,用于对于包含候选歧义词的第一语言句子,根据分类模型分别计算候选歧义词的从合概率和从分概率;以及切分单元1004,用于根据从合概率和从分概率之间的关系,来确定是否对候选歧义词进行切分,其中,在从合概率大于从分概率的情况下,不切分候选歧义词;以及在从合概率小于或等于从分概率的情况下,将候选歧义词切分成更小粒度的多个词。
上述图6至图10中的各个装置和/或单元例如可以被配置成按照相应方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。
本领域技术人员理解,在上面描述的根据本发明各实施例的识别具有组合型歧义的歧义词的方法中的各步骤或者识别具有组合型歧义的歧义词的装置中的各功能单元,可以根据实际需要进行任意的组合,即,一个识别具有组合型歧义的歧义词的方法实施例中的处理步骤可以与其它识别具有组合型歧义的歧义词的方法实施例中的处理步骤进行组合,或者,一个识别具有组合型歧义的歧义词的装置实施例中的功能单元可以与其它识别具有组合型歧义的歧义词的装置实施例中的功能单元进行组合,以便实现所期望的技术目的。
此外,本申请的实施例还提出了一种程序产品,该程序产品承载机器可执行的指令,当在信息处理设备上执行指令时,指令使得信息处理设备执行根据上述本发明的实施例的识别具有组合型歧义的歧义词的方法。
此外,本申请的实施例还提出了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,程序代码使得信息处理设备执行根据上述本发明的实施例的识别具有组合型歧义的歧义词的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
根据本发明的实施例的识别具有组合型歧义的歧义词的装置及其各个组成单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的信息处理设备(例如图11所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。再者,由措辞“第一”,“第二”,“第三”等等限定的技术特征或者参数,并不因为这些措辞的使用而具有特定的顺序或者优先级或者重要性程度。换句话说,这些措辞的使用只是为了区分或识别这些技术特征或者参数而没有任何其他的限定含义。
通过以上的描述不难看出,本发明的实施例提供的技术方案包括但不限于:
附记1.一种识别具有组合型歧义的歧义词的方法,包括:
利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;
利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;
通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;
将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及
判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
附记2.根据附记1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。
附记3.根据附记1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
附记4.根据附记1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括:
在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
附记5.根据附记1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括:
利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文;
在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文;
对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及
利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。
附记6.根据附记1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括:
从所述候选歧义词集合中的每个候选歧义词的正例和反例中,选择若干词数的上下文,利用机器学习的方法来训练分类模型。
附记7.根据附记6所述的识别具有组合型歧义的歧义词的方法,还包括:
对于包含所述候选歧义词的第一语言句子,根据所述分类模型分别计算所述候选歧义词的从合概率和从分概率;以及
根据所述从合概率和所述从分概率之间的关系,来确定是否对所述候选歧义词进行切分,其中,在所述从合概率大于所述从分概率的情况下,不切分所述候选歧义词;以及在所述从合概率小于或等于从分概率的情况下,将所述候选歧义词切分成更小粒度的多个词。
附记8.一种识别具有组合型歧义的歧义词的装置,包括:
粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;
检测单元,用于利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;
细粒度切分单元,用于通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;
抽取单元,用于将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及
确定单元,用于判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
附记9.根据附记8所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。
附记10.根据附记8所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
附记11.根据附记8-10中任一项所述的识别具有组合型歧义的歧义词的装置,还包括:
真伪歧义词判断单元,用于在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
附记12.根据附记8-10中任一项所述的识别具有组合型歧义的歧义词的装置,还包括:
获取单元,用于利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文;
选择单元,用于在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文;
特征向量生成单元,用于对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及
正反例判断单元,用于利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。
附记13.根据附记8-10中任一项所述的识别具有组合型歧义的歧义词的装置,还包括:
训练单元,用于从所述候选歧义词集合中的每个候选歧义词的正例和反例中,选择若干词数的上下文,利用机器学习的方法来训练分类模型。
附记14.根据附记13所述的识别具有组合型歧义的歧义词的装置,还包括:
概率计算单元,用于对于包含所述候选歧义词的第一语言句子,根据所述分类模型分别计算所述候选歧义词的从合概率和从分概率;以及
切分单元,用于根据所述从合概率和所述从分概率之间的关系,来确定是否对所述候选歧义词进行切分,其中,在所述从合概率大于所述从分概率的情况下,不切分所述候选歧义词;以及在所述从合概率小于或等于从分概率的情况下,将所述候选歧义词切分成更小粒度的多个词。
尽管已示出和描述了本发明的优选实施例,可以设想,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改。
Claims (10)
1.一种识别具有组合型歧义的歧义词的方法,包括:
利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;
利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;
通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;
将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及
判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
2.根据权利要求1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。
3.根据权利要求1所述的识别具有组合型歧义的歧义词的方法,其中,在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
4.根据权利要求1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括:
在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
5.根据权利要求1-3中任一项所述的识别具有组合型歧义的歧义词的方法,还包括:
利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文;
在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文;
对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及
利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。
6.一种识别具有组合型歧义的歧义词的装置,包括:
粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;
检测单元,用于利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;
细粒度切分单元,用于通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;
抽取单元,用于将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及
确定单元,用于判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
7.根据权利要求6所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为真歧义词,并将包含所述真歧义词的所述第一语言句子作为反例。
8.根据权利要求6所述的识别具有组合型歧义的歧义词的装置,其中,所述确定单元在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的所有译文中、并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将所述候选歧义词确定为伪歧义词,并将包含所述伪歧义词的所述第一语言句子作为正例。
9.根据权利要求6-8中任一项所述的识别具有组合型歧义的歧义词的装置,还包括:
真伪歧义词判断单元,用于在第一语言单语语料中,根据所述候选歧义词的上下文特征集合来判断所述候选歧义词是真歧义词还是伪歧义词。
10.根据权利要求6-8中任一项所述的识别具有组合型歧义的歧义词的装置,还包括:
获取单元,用于利用所述第一语言与第二语言词典,获取所述候选歧义词集合中的每个候选歧义词的所有译文;
选择单元,用于在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文;
特征向量生成单元,用于对于所述每个候选歧义词的每个实际译文,在所述第二语言单语语料中选择固定词数的上下文作为特征词,并为每个所述特征词赋予对应的权重,从而由所述特征词及其对应的权重组成特征向量,以及将所述特征向量的集合作为共现模型;以及
正反例判断单元,用于利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210211767.XA CN103514150A (zh) | 2012-06-21 | 2012-06-21 | 识别具有组合型歧义的歧义词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210211767.XA CN103514150A (zh) | 2012-06-21 | 2012-06-21 | 识别具有组合型歧义的歧义词的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103514150A true CN103514150A (zh) | 2014-01-15 |
Family
ID=49896894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210211767.XA Pending CN103514150A (zh) | 2012-06-21 | 2012-06-21 | 识别具有组合型歧义的歧义词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514150A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN105630971A (zh) * | 2015-12-25 | 2016-06-01 | 黑龙江大学 | 一种中文信息处理装置及信息处理方法 |
CN106294309A (zh) * | 2015-05-19 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110839112A (zh) * | 2019-11-18 | 2020-02-25 | 广东电网有限责任公司佛山供电局 | 一种问题语音的检测方法和装置 |
CN113343686A (zh) * | 2021-04-30 | 2021-09-03 | 山东师范大学 | 文本多特征歧义消解方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488126A (zh) * | 2008-12-31 | 2009-07-22 | 深圳市点通数据有限公司 | 双语语句对齐方法及装置 |
US20110022381A1 (en) * | 2009-07-21 | 2011-01-27 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
CN102063423A (zh) * | 2009-11-16 | 2011-05-18 | 高德软件有限公司 | 一种消歧的方法和装置 |
-
2012
- 2012-06-21 CN CN201210211767.XA patent/CN103514150A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488126A (zh) * | 2008-12-31 | 2009-07-22 | 深圳市点通数据有限公司 | 双语语句对齐方法及装置 |
US20110022381A1 (en) * | 2009-07-21 | 2011-01-27 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
CN102063423A (zh) * | 2009-11-16 | 2011-05-18 | 高德软件有限公司 | 一种消歧的方法和装置 |
Non-Patent Citations (4)
Title |
---|
冯敏萱: "论汉英平行语料的平行处理", 《中国优秀博硕士学位论文全文数据库 (博士) 哲学与人文科学辑》 * |
冯敏萱: "论汉英平行语料的平行处理", 《中国优秀博硕士学位论文全文数据库 (博士) 哲学与人文科学辑》, no. 12, 15 December 2006 (2006-12-15), pages 21 - 22 * |
张霄军等: "基于语料考察的"组合型歧义"与"切分变异"辨析", 《内容计算的研究与应用前沿》 * |
肖云等: "利用上下文信息解决汉语自动分词中的组合型歧义", 《计算机工程与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294309A (zh) * | 2015-05-19 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
CN106294309B (zh) * | 2015-05-19 | 2021-05-28 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN105279252B (zh) * | 2015-10-12 | 2017-12-26 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN105630971A (zh) * | 2015-12-25 | 2016-06-01 | 黑龙江大学 | 一种中文信息处理装置及信息处理方法 |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
CN107577674B (zh) * | 2017-10-09 | 2019-06-28 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110555208B (zh) * | 2018-06-04 | 2021-11-19 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN110839112A (zh) * | 2019-11-18 | 2020-02-25 | 广东电网有限责任公司佛山供电局 | 一种问题语音的检测方法和装置 |
CN113343686A (zh) * | 2021-04-30 | 2021-09-03 | 山东师范大学 | 文本多特征歧义消解方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514150A (zh) | 识别具有组合型歧义的歧义词的方法和装置 | |
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN107357837A (zh) | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN105095444A (zh) | 信息获取方法和装置 | |
CN103823896A (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
EP3057003A1 (en) | Device for collecting contradictory expression and computer program for same | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
US20230237084A1 (en) | Method and apparatus for question-answering using a database consist of query vectors | |
Almiman et al. | Deep neural network approach for Arabic community question answering | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN103678318A (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
Bhattacharya et al. | Studying language evolution in the age of big data | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
Lopes et al. | Using terms and informal definitions to classify domain entities into top-level ontology concepts: An approach based on language models | |
US11288265B2 (en) | Method and apparatus for building a paraphrasing model for question-answering | |
US20210165800A1 (en) | Method and apparatus for question-answering using a paraphrasing model | |
Al-Tashi | Word sense disambiguation: a review | |
Patel et al. | Personality analysis using social media | |
Bloodgood et al. | Using global constraints and reranking to improve cognates detection | |
CN114943235A (zh) | 一种基于多类语言模型的命名实体识别方法 | |
CN114925698A (zh) | 缩略语消歧方法、装置、计算机设备和存储介质 | |
Liu et al. | Learning conditional random fields with latent sparse features for acronym expansion finding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140115 |
|
WD01 | Invention patent application deemed withdrawn after publication |