CN102567306A - 一种不同语言间词汇相似度的获取方法及系统 - Google Patents
一种不同语言间词汇相似度的获取方法及系统 Download PDFInfo
- Publication number
- CN102567306A CN102567306A CN2011103482229A CN201110348222A CN102567306A CN 102567306 A CN102567306 A CN 102567306A CN 2011103482229 A CN2011103482229 A CN 2011103482229A CN 201110348222 A CN201110348222 A CN 201110348222A CN 102567306 A CN102567306 A CN 102567306A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- similarity
- context
- dependence
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种不同语言间词汇相似度的获取方法及系统,可以根据源语言与目标语言中词汇的上下文词汇相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。
Description
技术领域
本发明涉及机器翻译技术领域,特别是涉及一种不同语言间词汇相似度的获取方法及系统。
背景技术
进入21世纪以后,不同国家和地区的人们需要进行更为频繁的交流。语言的不同为交流过程带来了极大障碍,借助于翻译工具进行机器翻译可以有效解决这种问题。
机器翻译的基础是对词汇的翻译,即找到源语言词汇在目标语言中相对应的词汇,使用词汇相似度进行查找是一种常用的技术手段。我们知道的是,自然语言中,不同语言中的某些词汇的含义是十分相似的,甚至相同的,如中文的“漂亮”和英文的“Pretty”和“Beautiful”。
现有技术中,仅仅使用词汇的含义来评价不同语言中词汇的相似度,可靠性较低。在使用这种相似度进行后期的翻译工作时,会使翻译的准确性大大降低。
发明内容
为解决上述技术问题,本发明实施例提供一种不同语言间词汇相似度的获取方法及系统,以实现不同语言间词汇相似度计算的可靠性,技术方案如下:
一种不同语言间词汇相似度的获取方法,包括:
获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;
根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
优选的,所述获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,包括:
根据可比较语料库中的语料构建所述第一词汇的依存关系树;
获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
获得所述上下文词汇与所述第一词汇的源语言依存关系。
优选的,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
优选的,所述依存关系树为采用确定性模型构造的。
优选的,所述获得所述源语言依存关系与所述目标语言依存关系的依存相似度,包括:
根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
根据匹配结果使用余弦相似度计算方法计算依存相似度。
本发明还提供了一种不同语言间词汇相似度的获取系统,包括:第一获得模块、第二获得模块和第三获得模块,
所述第一获得模块,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
所述第二获得模块,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;
所述第三获得模块,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
优选的,所述第一获得模块包括:关系树构建模块、上下文词汇选取模块和依存关系获得模块,
所述关系树构建模块,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;
所述上下文词汇选取模块,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
所述依存关系获得模块,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。
优选的,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
优选的,所述依存关系树为采用确定性模型构造的。
优选的,所述第二获得模块,包括:依存关系匹配模块和依存相似度计算模块,
所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。
通过应用以上技术方案,本发明提供的一种不同语言间词汇相似度的获取方法及系统,可以根据源语言与目标语言中词汇的上下文词汇相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种不同语言间词汇相似度的获取方法的流程示意图;
图2为本发明实施例提供的一种不同语言间词汇相似度的获取方法中建立依存关系树的流程示意图;
图3为本发明实施例提供的一个依存关系树实例;
图4为本发明实施例提供的一种不同语言间词汇相似度的获取系统的结构示意图;
图5为本发明实施例提供的一种不同语言间词汇相似度的获取系统中第一获得模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
为了更好的理解本发明,下面对本发明所涉及的双语词表构建进行简单说明。双语词表构建(Bilingual lexicon construction)是指建立一种语言中的词语和其在另一种语言中的翻译词之间的对应关系。双语词表在机器翻译和跨语言信息检索等自然语言处理任务中发挥着重要作用。如在机器翻译中,必须首先构建两种语言在词语级上的翻译对应关系,即双语词表构建,才能实现两种语言在句子级上的翻译。而在跨语言信息检索中,借助于双语词表,可以将源语言的检索关键词(如中文)翻译成目标语言(如英文),从而可以在内容更丰富的目标语言资源中进行检索。
构建双语词表通常有三种方法:基于大规模平行语料库的方法、基于第三方中间语言的方法和基于可比较语料库的方法。第一种方法通过从大规模平行语料库中抽取词对齐信息来得到双语词表,其前提是源语言和目标语言之间必须存在大规模的平行语料库,这对某些语言对或某一领域来说是难以获得的。第二种方法是源语言和目标语言之间通过第三方即中间语言来实现词语匹配,它需要源语言到中间语言的电子词典和中间语言到目标语言的电子词典。由于语言的一词多义现象,这种方法的准确率不高,并且电子词典有时也难以获得。第三种方法由于只需借助于较容易获得的大规模双语可比较语料库和少量的种子词表就可以进行双语词表构建,因而成为目前双语词表构建的主流方法。
基于可比较语料库构建双语词表的方法基于这样一个前提:在可比较语料库中,意义相似的双语词语其上下文词汇也应该相似。如中文词语“业绩”和英文词语“Achievement”,与前者经常在句子中共现的中文词语有“创造”、“经验”、“经营”、“伟大”和“管理”等,而与后者在句子中共现的英文词语有“create”、“experience”、“operation”、“great”和“management”等。从中可以看出,双语词语“业绩”和“Achievement”其上下文词汇非常相似。因此,首先从可比较语料库中抽取出双语词语各自的上下文词汇信息,利用上下文词汇信息来计算双语词语之间的相似度,选择相似度最高的目标语言词语作为源语言词语的翻译词,就可以实现双语词表的构建。而获得不同语言间词汇相似度是实现双语词表构建的重要环节,在得到相似度以后,就可以相应的根据相似度构建双语词表。
如图1所示,本发明提供的一种不同语言间词汇相似度的获取方法,包括:
S101、获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
本发明在使用上下文词汇对不同语言间词汇进行对比时,不仅使用到上下文词汇,而且使用到上下文词汇与第一词汇或第二词汇之间的依存关系。为方便描述,下面将第一词汇和第二词汇统称为双语词汇,将上下文词汇的自身特征称为词语特征,将上下文词汇与第一词汇或第二词汇之间的依存关系特征称为类型特征。
其中,获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,可以包括:
根据可比较语料库中的语料构建所述第一词汇的依存关系树;
获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
获得所述上下文词汇与所述第一词汇的源语言依存关系。
其中,依存关系树的建立可以采用确定性模型来构造依存关系树,即词汇间的依存关系使用基于状态转换的贪婪搜索策略逐步确定。构造过程一般伴随着状态的转换,而状态是由一串还未找到中心词的词序列构成。具体步骤如图2所示,包括:
S201、由输入句子构造初始状态,即由句子的单词构成的序列;
S202、在当前状态的基础上,检测得到词序列中的一对相邻词间的依存关系;
S203、再转换到一个新的状态,再次进行检测,并逐步建立起句子的依存结构,直至包括了一棵完整的依存分析树。
初始焦点词设置为序列最左边的第一和第二个词,在每个状态中,针对两个焦点词的依存关系,有SHIFT、LEFT、RIGHT这三个动作:
SHIFT:不建立依存关系,焦点词向右移动一个词。
LEFT:建立一条向左的弧,即建立右焦点词依存于左焦点词的依存关系。
RIGHT:建立一条向右的弧,即建立左焦点词依存于右焦点词的依存关系。
由于确定性分析可以在当前状态上抽取更复杂的特征,比如树结构特征,因而确定性模型是一种高效而准确的依存分析方法。图3是中文句子“北京是中国的首都”使用该方法而得到的依存分析树,举例来说,其中词汇“北京”和“是”之间存在着依存关系“top”,即前者是后者的topic(话题)。英文的情况与中文相类似,只是词汇之间存在的依存关系有所不同。
S102、获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;
要获得上下文相似度,首先要获得第一词汇的所有上下文词汇和第二词汇的所有上下文词汇。为了加快处理速度,同时保证必要的词汇数量以保证准确性,可以仅将依存关系树中的邻近节点作为上下文词汇。在实际应用中,邻近节点可以包括:第一词汇的祖父节点、父节点、子节点和孙子节点这四个节点。对于图3所示的依存关系树,假设“首都”为第一词汇,则它的上下文包括:父节点“是”、子节点“中国”、孙子节点“的”。由于它没有祖父节点,因此在该依存关系树中仅有三个邻近节点。当然,在实际应用中,可以在根据可比较语料库中的所有包括第一词汇“首都”的句子构建的依存关系树中进行选取,选择这些依存关系树中的邻近节点。
在实际应用中,可以使用特征向量来表示词语特征和类型特征,经过分析计算得到不同词语的多个特征向量,然后使用特征向量进行相似度的计算。对于上下文相似度,可以使用根据出现频率得到的上下文特征向量进行计算。对于依存相似度,可以使用根据上下文与双语词汇依存关系得到的依存关系特征向量进行计算。
在获得上下文词汇时,可以仅保留种子词表中出现的双语词语,并产生两种特征:仅包含词语的词语特征和同时包含词语和依存关系类型的类型特征;如对于第一词汇“舆论”,与其共现的上下文词汇(即词语特征)有“认为”、“压力”、“引导”、“监督”、“引起”和“国际”,而与其共现的这些上下文词汇与第一词汇之间的依存关系(即类型特征)则有“nsubj-认为”、“assmod-压力”、“nn-监督”、“nn-国际”、“nn-宣传”和“nn-压力”,值得注意的是词语“压力”可以有两种依存方式(即assmod和nn)与“舆论”共现。其中,本领域技术人员可以理解的是,种子词表即为已确定的源语言中词汇和目标语言词汇之间的对应关系列表。
本发明利用点互信息(Pointwise Mutual Information,PMI)来衡量词语特征和类型特征的权值。
用于计算上下文特征向量权值的互信息计算方法:
其中,w为双语词汇;c为上下文词汇;PMI(w,c)为上下文特征向量;N(w,c)为双语词语w与上下文词汇c共同出现的频率;N(w)为双语词语w单独出现的频率;N(c)为上下文词汇c单独出现的频率;N为语料库的总词数。
由于PMI值的大小存在倾向于词频较少词语的缺陷,因此本发明另一实施例可以在此PMI值的基础上再乘以折扣因子(Discounting Factor)。该折扣因子(Discounting Factor)定义为:
其中min(N(w),N(c))为N(w)和N(c)的最小值。
当双语词语或上下文词汇中的任意一个出现频率很低时,折扣因子很小,反之,则折扣因子接近1,从而避免了词频较小时,点互信息反而较大的缺陷。
与上下文特征向量权值的计算方法类似,用于计算依存关系特征向量权值的互信息计算方法:
其中,w为双语词汇;t为上下文词汇与双语词汇的依存关系;PMI(w,t)为依存关系特征向量;N(w,t)为双语词语w与依存关系t的共现频率;N(w)为双语词语w单独出现的频率;N(t)为依存关系t单独出现的频率;N为语料库的总词数。
同样,它的折扣因子(Discounting Factor)定义为:
其中min(N(w),N(t))为N(w)和N(t)的最小值。
在实际应用中,以上计算过程都要计算多次,因为一般情况下,上下文词汇是有多个的,每个上下文词汇都要计算一次。同样,依存关系也有多个,而每一个依存关系也要计算一次。
下面以中文词语“舆论”(第一词汇)和英文词语“opinion”(第二词汇)为例,分别列出多个上下文特征向量和多个依存关系特征向量中的部分内容。
上下文特征向量:
“舆论”:认为:7.8、压力:7.6、引导6.7、监督:6.4、引起:6.2、国际:6.1......
“opinion”:reflect:5.9、pressure:5.8、create:5.5、mass:5.2、criticize:5.2believe:5.1......
其中,上下文后方的数字为所跟随的上下文词汇的权值。
依存关系特征向量:
“舆论”:nsubj-认为:7.7、assmod-压力:6.5、nn-监督:6.1、nn_国际:6.0、nn_宣传:5.6、nn_压力:5.4......
“opinion”:conj-suggestion:8.0、dobj-exchange:5.9、amod-different:5.4、prepof-consensus:5.3、amod-constructive:5.2、dobj-reflect:4.8......
其中,依存关系及上下文词汇后方的数字为所跟随的依存关系的权值。
对于上下文相似度,本发明采用余弦相似度的方法进行计算,实验表明该方法的性能最好。余弦相似度即为两个向量之间内积除以各自长度的乘积,其公式为:
其中,SimDW表示基于余弦相似度的上下文词汇相似度;S为源语言的上下文特征向量;T为目标语言的上下文特征向量;PMIS,i为第i个在种子词表中能匹配的源语言的上下文特征向量的权值;PMIT,i为第i个在种子词表中能匹配的目标语言的上下文特征向量的权值。
对于源词语和目标词语之间的依存相似度,不能直接采用余弦相似度的方法来计算。因为种子词表仅表明了源语言和目标语言之间的词语对应关系,而没有说明源语言和目标语言之间的依存关系的匹配。因此,本发明可以预先构造源语言的依存关系和目标语言之间的依存关系之间的映射表,然后在此基础上利用余弦法来计算相似度,具体步骤可以为:
S301、根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
通过对源语言和目标语言的语言特征的分析,构造出中文到英文的依存关系映射表,如表1所示。其中有些中英文依存关系可以直接匹配,如中文的依存关系“nsubj”(名词性主语)和英文的依存关系“nsubj”(名词性主语),但由于中英文语言之间的差异性,源语言的某一种依存关系可能对应目标语言的多种依存关系。例如,中文的依存关系“nn”(名词修饰),可以匹配英文依存关系中的“amod”(形容词修饰)、“nn”(名词修饰)和“prep_of”(介词“of”修饰)。
表1
S302、根据匹配结果使用余弦相似度计算方法计算依存相似度。
根据中英文依存关系映射表,源语言上下文词汇和目标语言上下文词汇之间的类型特征的匹配意味着同时满足上下文词汇匹配和依存关系类型匹配。在此基础上利用余弦法计算依存相似度SimDRM,其方法类似于计算上下文词汇相似度SimDW。
S103、根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
步骤S102得到的源语言和目标语言之间的上下文相似度和依存相似度都可以单独用来进行不同语言间词汇相似度的评价以进行双语词表的构建。不过,上下文相似度只认为上下文词汇和双语词汇之间存在着依存关系,而没有考虑具体依存关系类型,因此不够准确。原因是源语言和目标语言之间的上下文词汇匹配并不表明依存关系类型也匹配。另一方面,依存关系映射相似度虽然能准确地表示源语言中词汇和目标语言词汇之间的匹配关系,但通常存在数据稀疏性的问题。因此本发明可以利用线性复合的方法把这两种相似度结合起来,旨在发挥各自的优点,克服相应的缺点。所谓线性复合,就是把两种相似度各自乘上一个系数后再相加。为了保证相似度的归一性,两个系数之和为1,其公式为:
SimT(S,T)=α×SimDW(S1,T1)+(1-α)×SimDRM(S2,T2)
其中,SimT为不同语言间词汇的相似度;SimDW为上下文相似度;SimDRM为依存相似度;S1,T1分别为源语言和目标语言中词汇的特征向量;S2,T2为源语言和目标语言中词汇的类型特征向量;α为复合参数。
根据实验测试,当α=0.8时系统性能最好。比如词语“舆论”和“opinion”之间的上下文词汇相似度为0.33,而依存相似度为0.25,则“舆论”和“opinion”的相似度应为0.31。
当然,在本发明其他实施例中,在获得不同语言间词汇的相似度以后,可以进行双语词表的构建,如将目标语言中与第一词汇相似度最高的词汇作为该第一词汇的对应翻译词汇。当然,也可以将相似度高于某一阈值的多个词汇作为翻译词汇,或者,按照相似度的高低排列顺序,将前几名的词汇作为翻译词汇。
本发明提供的一种不同语言间词汇相似度的获取方法,可以根据源语言与目标语言中词汇的上下文相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。
与图1所示的方法实施例相对应,如图4所示,本发明还提供了一种不同语言间词汇相似度的获取系统,包括:第一获得模块100、第二获得模块200和第三获得模块300,
第一获得模块100,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
其中,如图5所示,第一获得模块100可以包括:关系树构建模块110、上下文词汇选取模块120和依存关系获得模块130,
关系树构建模块110,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;
其中,依存关系树可以采用确定性模型进行构造。
上下文词汇选取模块120,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
其中,邻近节点可以包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
依存关系获得模块130,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。
第二获得模块200,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;
第三获得模块300,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
第二获得模块,包括:依存关系匹配模块和依存相似度计算模块,
所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。
本发明提供的一种不同语言间词汇相似度的获取系统,可以根据源语言与目标语言中词汇的上下文相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种不同语言间词汇相似度的获取方法,其特征在于,包括:
获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;
根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
2.根据权利要求1所述的方法,其特征在于,所述获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,包括:
根据可比较语料库中的语料构建所述第一词汇的依存关系树;
获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
获得所述上下文词汇与所述第一词汇的源语言依存关系。
3.根据权利要求2所述的方法,其特征在于,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
4.根据权利要求2所述的方法,其特征在于,所述依存关系树为采用确定性模型构造的。
5.根据权利要求1所述的方法,其特征在于,所述获得所述源语言依存关系与所述目标语言依存关系的依存相似度,包括:
根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
根据匹配结果使用余弦相似度计算方法计算依存相似度。
6.一种不同语言间词汇相似度的获取系统,其特征在于,包括:第一获得模块、第二获得模块和第三获得模块,
所述第一获得模块,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;
所述第二获得模块,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;
所述第三获得模块,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。
7.根据权利要求6所述的系统,其特征在于,所述第一获得模块包括:关系树构建模块、上下文词汇选取模块和依存关系获得模块,
所述关系树构建模块,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;
所述上下文词汇选取模块,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;
所述依存关系获得模块,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。
8.根据权利要求7所述的系统,其特征在于,所述邻近节点包括:所述第一词汇的祖父节点、父节点、子节点和孙子节点。
9.根据权利要求7所述的系统,其特征在于,所述依存关系树为采用确定性模型构造的。
10.根据权利要求6所述的系统,其特征在于,所述第二获得模块,包括:依存关系匹配模块和依存相似度计算模块,
所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;
所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103482229A CN102567306B (zh) | 2011-11-07 | 2011-11-07 | 一种不同语言间词汇相似度的获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103482229A CN102567306B (zh) | 2011-11-07 | 2011-11-07 | 一种不同语言间词汇相似度的获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567306A true CN102567306A (zh) | 2012-07-11 |
CN102567306B CN102567306B (zh) | 2013-11-27 |
Family
ID=46412748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103482229A Expired - Fee Related CN102567306B (zh) | 2011-11-07 | 2011-11-07 | 一种不同语言间词汇相似度的获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567306B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678435A (zh) * | 2013-07-08 | 2014-03-26 | 重庆绿色智能技术研究院 | 一种药品规格数据相似度匹配方法 |
CN104462060A (zh) * | 2014-12-03 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
CN104572634B (zh) * | 2014-12-25 | 2017-08-11 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN111984765A (zh) * | 2019-05-21 | 2020-11-24 | 南京大学 | 知识库问答过程关系检测方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951666A (zh) * | 2015-07-24 | 2015-09-30 | 苏州大学张家港工业技术研究院 | 一种疾病诊断方法和装置 |
CN108681490B (zh) * | 2018-03-15 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 针对rpc信息的向量处理方法、装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007101623A2 (en) * | 2006-03-06 | 2007-09-13 | D'agostini Organizzazione S.R.L. | Computer translation system and translation method to obtain a high level result |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
CN101802812A (zh) * | 2007-08-01 | 2010-08-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
-
2011
- 2011-11-07 CN CN2011103482229A patent/CN102567306B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007101623A2 (en) * | 2006-03-06 | 2007-09-13 | D'agostini Organizzazione S.R.L. | Computer translation system and translation method to obtain a high level result |
CN101802812A (zh) * | 2007-08-01 | 2010-08-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
Non-Patent Citations (6)
Title |
---|
刘青磊: "汉语词语及句子相似度算法研究及应用", 《中国优秀硕士学位论文全文数据库》, 28 October 2011 (2011-10-28), pages 7 - 31 * |
安见才让: "藏语句子相似度算法的研究", 《中文信息学报》, vol. 25, no. 4, 31 July 2011 (2011-07-31), pages 110 - 114 * |
张亮 等: "基于语义树的中文词语相似度计算与分析", 《中文信息学报》, vol. 24, no. 6, 30 November 2010 (2010-11-30), pages 23 - 30 * |
晋薇 等: "基于语义相似度并运用语言学知识进行双语语句词对齐", 《计算机科学》, vol. 29, no. 11, 30 November 2002 (2002-11-30), pages 44 - 47 * |
袁晓虹 等: "基于依存关系的中文名词性谓词语义角色标注研究", 《计算机应用与软件》, vol. 28, no. 5, 31 May 2011 (2011-05-31), pages 31 - 33 * |
郭丽: "基于上下文的词语相似度计算及其应用", 《中国优秀硕士学位论文全文数据库》, 2 September 2009 (2009-09-02), pages 17 - 26 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678435A (zh) * | 2013-07-08 | 2014-03-26 | 重庆绿色智能技术研究院 | 一种药品规格数据相似度匹配方法 |
CN103678435B (zh) * | 2013-07-08 | 2017-02-08 | 重庆药品交易所股份有限公司 | 一种药品规格数据相似度匹配方法 |
CN104462060A (zh) * | 2014-12-03 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
CN104462060B (zh) * | 2014-12-03 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的计算文本相似度和搜索处理方法及装置 |
CN104572634B (zh) * | 2014-12-25 | 2017-08-11 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
CN106934020A (zh) * | 2017-03-10 | 2017-07-07 | 东南大学 | 一种基于多域实体索引的实体链接方法 |
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN109840325B (zh) * | 2019-01-28 | 2020-09-29 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN111984765A (zh) * | 2019-05-21 | 2020-11-24 | 南京大学 | 知识库问答过程关系检测方法及装置 |
CN111984765B (zh) * | 2019-05-21 | 2023-10-24 | 南京大学 | 知识库问答过程关系检测方法及装置 |
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102567306B (zh) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567306B (zh) | 一种不同语言间词汇相似度的获取方法及系统 | |
Ling et al. | Deep graph matching and searching for semantic code retrieval | |
Qi et al. | Openhownet: An open sememe-based lexical knowledge base | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
US9672206B2 (en) | Apparatus, system and method for application-specific and customizable semantic similarity measurement | |
US20160004766A1 (en) | Search technology using synonims and paraphrasing | |
CN103885938B (zh) | 基于用户反馈的行业拼写错误检查方法 | |
Kumar et al. | Mastering text mining with R | |
US20150371137A1 (en) | Displaying Quality of Question Being Asked a Question Answering System | |
TW201314476A (zh) | 基於本體之自動自助式使用者支援 | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
CN103314369B (zh) | 机器翻译装置和方法 | |
Hartmann et al. | A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words. | |
Wu et al. | Community answer generation based on knowledge graph | |
CN101833555A (zh) | 信息提取方法和装置 | |
Yıldırım et al. | Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques | |
Arellano et al. | Frameworks for natural language processing of textual requirements | |
Balaji et al. | Morpho-semantic features for rule-based Tamil enconversion | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Chen et al. | Feature assembly method for extracting relations in Chinese | |
Bai et al. | Enhanced natural language interface for web-based information retrieval | |
Zhong et al. | Natural language processing for systems engineering: automatic generation of systems modelling language diagrams | |
Sridhar et al. | English to Tamil machine translation system using universal networking language | |
Li et al. | Automatic ontology generation from patents using a pre-built library, WordNet and a class-based n-gram model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131127 Termination date: 20191107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |