CN104572634A - 一种交互式抽取可比语料与双语词典的方法及其装置 - Google Patents

一种交互式抽取可比语料与双语词典的方法及其装置 Download PDF

Info

Publication number
CN104572634A
CN104572634A CN201410830446.7A CN201410830446A CN104572634A CN 104572634 A CN104572634 A CN 104572634A CN 201410830446 A CN201410830446 A CN 201410830446A CN 104572634 A CN104572634 A CN 104572634A
Authority
CN
China
Prior art keywords
bilingual
document
vocabulary
weight
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410830446.7A
Other languages
English (en)
Other versions
CN104572634B (zh
Inventor
朱泽德
王绍祺
李淼
张健
陈雷
杨振新
卫林钰
曾新华
郑守国
李华龙
翁士状
盛文溢
高会议
陈晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN201410830446.7A priority Critical patent/CN104572634B/zh
Publication of CN104572634A publication Critical patent/CN104572634A/zh
Application granted granted Critical
Publication of CN104572634B publication Critical patent/CN104572634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种交互式抽取可比语料与双语词典的方法及其装置,解决了领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷。本发明包括:对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系;迭代增强计算双语文档对和双语词汇对的权重;选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典。通过不同语言文档相似性促进不同语言词汇相似性的判断,不同语言词汇的相似性增强不同语言文档的相似性,二者交互式迭代增强实现同步抽取可比语料和双语词典。

Description

一种交互式抽取可比语料与双语词典的方法及其装置
技术领域
本发明涉及跨语言信息处理技术领域,具体来说是一种交互式抽取可比语料与双语词典的方法及其装置。
背景技术
双语可比语料和双语词典是两种不同粒度的跨语言资源,对统计机器翻译和跨语言信息检索等跨语言信息处理具有重要的价值。可比语料由语言不同、内容相似但非互译的文档对构成,从中挖掘双语互译词汇、双语命名实体、平行句对等不同粒度的翻译等价对,可有效解决双语词典编纂中面临的新词和旧词新意等问题,双语词典等更细粒度的双语知识可直接用于跨语言信息处理。
可比语料的获取主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面,采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性。在跨语言检索方面,将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档,构成可比语料库。在维基百科方面,以维基百科类别信息作为主题约束,以语言链接进行双语映射采集相应源语言和目标语言的百科页面。
双语词典的挖掘主要通过词汇共现、上下文信息等方法来实现。在词汇共现方面,通过建立源语言文本和目标语言文本的共现矩阵,计算矩阵相似度来进行翻译等价对的抽取;在上下文信息方面,计算两个双语词的上下文向量之间的相似性来选取最大可能的对应词汇。
然而,现有的挖掘这两类资源的方法都是通过先获取可比语料,再从可比语料抽取双语词典。这些方法分步将两个密切相关的任务分离,无法通过获取的双语词典来为不同语言文档的相似度计算提供支持,也无法区分相似度差异的可比语料来为不同语言词汇的相似度计算提供支持。如何避免上述两点不足实现同步、准确地抽取已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷,提供一种交互式抽取可比语料与双语词典的方法及其装置来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种交互式抽取可比语料与双语词典的方法,包括以下步骤:
预处理过程,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
针对M个源语言文档、N个目标语言文档,进行词性还原、分词、去停用词预处理,得到源语言文档集合DS={dm|1≤m≤M}、目标语言文档集合DT={dn|1≤n≤N}、源语言词汇集合WS={wa|1≤a≤A}、目标语言词汇集合WT={wb|1≤b≤B},其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数;m、n、a、b为相应集合中的某一元素的标号,其均为正整数;
分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系;
迭代增强计算双语文档对和双语词汇对的权重;
选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典;双语文档对的权重越大则不同语言文档的相关性越强,选择权重最大的双语文档对构成可比语料;双语词汇对的权重越大则不同语言词汇的相关性越强,选择权重最大的双语词汇对构成双语词典。
所述的构建源语言文档-目标语言文档关系包括以下步骤:
对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD,对DS和DT中任意源语言文档dm和目标语言文档dn构成双语文档对;
通过dm和dn构成的双语文档对利用词汇重合度计算双语文档对xi的权重其计算公式如下:
R x i = P sim ( d m , d n ) = 2 × countTrans ( w d m , w d n ) count ( w d m ) + count ( w d n ) ,
其中,为根据种子双语词典统计文档dm中词汇与文档dn中词汇为互译词汇对的数量,为文档dm中词汇数量,为文档dn中词汇数量。
所述的构建源语言词汇-目标语言词汇关系包括以下步骤:
对源语言词汇集合WS和目标语言词汇集合WT构建源语言词汇-目标语言词汇的关系L-WW,对WS和WT中任意源语言词汇wa和目标语言词汇wb构成双语词汇对;
通过wa和wb构成的双语词汇对利用共现率计算双语词汇对yj的权重其计算公式如下:
L y j = P sim ( w a , w b ) = 2 × count ( w a , w b ) count ( w a ) + count ( w b )
其中,源语言词汇wa和目标语言词汇wb不构成现有词典的词条,count(wa,wb)为词汇wa和词汇wb共现于权重高于0.1双语文档对的数量,count(wa,wb)≥0;count(wa)为词汇wa在文档集中出现的数量,count(wb)为词汇wb在文档集中出现的数量,count(wa)和count(wb)均为正整数。
所述的构建双语词汇对-双语文档对关系包括以下步骤:
对R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW;
通过双语文档对xi和双语词汇对yj计算H-DW的权重其计算方法如下:
H x i y j = P ( R x i , L y j ) = 2 × countExist ( x i , y j ) count ( w d m ) + count ( w d n )
其中,countExist(xi,yj)为双语词汇对yj出现于权重高于0.1双语文档对xi的次数,为构成双语文档对xi中文档dm的词汇数量,为构成双语文档对xi中文档dn的词汇数量。
所述的迭代增强计算双语文档对和双语词汇对的权重包括以下步骤:
根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下:
R x i t = α Σ j u L y j t - 1 H x i y j β R x i t - 1 ,
其中,为双语文档对xi第t次迭代的概率,为双语文档对xi第t-1次迭代的概率,i∈[0,v],v为双语文档对个数;为双语词汇对yj第t-1词迭代的概率,j∈[0,u],u为双语词汇对的词条数量;α和β为权重参数,α≥0,β≥0,α+β=1;
根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下:
L y j t = &alpha; &Sigma; i v R x i t - 1 H x i y j &beta; L y j t - 1 + &lambda; &Sigma; i v R x i t - 1 cos < C &RightArrow; w a , C &RightArrow; w b > ,
其中,为双语词汇对yj第t次迭代的权重,为双语词汇对yj中词汇wa和wb的上下文向量在权重高于0.1双语文档对xi的关系;α、β和λ为权重参数,α≥0,β≥0,λ≥0,α+β+λ=1;
根据种子双语词典计算双语文档对的初始权重根据权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重
进行迭代处理,直到任意双语词汇对和双语文档对的权重收敛为止,即文档对权重的t循环和t-1循环变化较小,选择变化范围为且词汇对权重的t循环和t-1循环变化较小,选择变化范围为 | L y j t - L y j t - 1 | &le; 0.0001 .
所述的上下文向量的计算方法如下:
在权重高于0.1双语文档对xi中以wa前后各取5个词汇作为上下文信息 I w a = { w a 1 , w a 2 , . . . , w a 10 } ;
上下文信息中任一词项wak(1≤k≤10)的权重MI(wak,wa)通过该词项与候选单元wa共现的互信息来计算,其计算公式如下:
MI ( w ak , w a ) = ln count ( w ak , w a ) count ( w ak ) &times; count ( w a ) ,
其中,count(wak,wa)为在xi中wak作为wa上下文的次数,count(wak)为wak在源语言文档集中出现的次数,count(wa)为wa在源语言文档集中出现的次数;
计算上下文信息每个词项wak的权重构成上下文向量
利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为进行比较,若中第g个分量对应中第k个分量,则令中第g个分量的值为中第k个分量的值;若中第g个分量与无对应,则令中第g个分量的值为0。
一种交互式抽取可比语料与双语词典的装置,包括:
文档输入处理装置,用于读入文档,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
源语言文档与目标语言文档关系构建模块,用于对源语言文档集合与目标语言文档集合按照不同语言文档的相似度构建关联;
源语言词汇与目标语言词汇关系构建模块,用于对源语言词汇集合与目标语言词汇集合按照不同语言词汇的相似度构建关联;
双语词汇对与双语文档对关系构建模块,用于不同语言词汇对集合与不同语言文档对集合按照词汇对在文档对的重要程度构建关联;
双语词汇对与双语文档对的权重计算模块,用于计算双语词汇对和双语文档对的权重,使用交互式增强迭代计算双语文档对和双语词汇对的权重;
双语可比语料和互译词典选择模块,用于选择权重较大的双语文档对与双语词汇对,形成双语可比语料和互译词典;
所述的文档输入处理模块通过源语言文档与目标语言文档关系构建模块、源语言词汇与目标语言词汇关系构建模块和双语词汇对与双语文档对关系构建模块与双语词汇对与双语文档对的权重计算模块相连,双语词汇对与双语文档对的权重计算模块与双语可比语料和互译词典选择模块相连。
有益效果
本发明的一种交互式抽取可比语料与双语词典的方法及其装置,与现有技术相比通过不同语言文档相似性促进不同语言词汇相似性的判断,不同语言词汇的相似性增强不同语言文档的相似性,二者交互式迭代增强实现同步抽取可比语料和双语词典。本发明对原始的双语词典依赖程度低,对低密度语种的双语资源抽取具有广泛的适应性,可有效地双语词典稀缺条件下提高不同语言文档匹配构建可比语料的准确性;还有效地在区分可比语料相似度条件下增强不同语言文档抽取双语词典的准确性;实现可比语料和双语词典的同步构建。
附图说明
图1为本发明的方法流程图;
图2为本发明的装置结构图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种交互式抽取可比语料与双语词典的方法,包括以下步骤:
第一步,预处理过程101。对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合。
针对M个源语言文档、N个目标语言文档,按现有技术的方法进行词性还原、分词、去停用词等预处理,得到源语言文档集合DS={dm|1≤m≤M}、目标语言文档集合DT={dn|1≤n≤N}、源语言词汇集合WS={wa|1≤a≤A}、目标语言词汇集合WT={wb|1≤b≤B},其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数;m、n、a、b为相应集合中的某一元素的标号,其均为正整数。
第二步,分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系。即对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD;对源语言词汇集合WS和目标语言词汇集合WT构建源语言词汇-目标语言词汇的关系L-WW;针对源语言文档-目标语言文档关系R-DD和源语言词汇-目标语言词汇关系L-WW构建双语文档对-双语词汇对关系图H-DW。其具体步骤如下:
(1)构建源语言文档-目标语言文档关系包括以下步骤102:
A、对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD,对DS和DT中任意源语言文档dm和目标语言文档dn构成双语文档对。构建源语言文档-目标语言文档的关系R-DD可以对计算双语文档对xi的权重时提供数据支持。
B、通过dm和dn构成的双语文档对利用词汇重合度计算双语文档对xi的权重其计算公式如下:
R x i = P sim ( d m , d n ) = 2 &times; countTrans ( w d m , w d n ) count ( w d m ) + count ( w d n ) ,
其中,为根据种子双语词典统计文档dm中词汇与文档dn中词汇为互译词汇对的数量,为文档dm中词汇数量,为文档dn中词汇数量。
(2)构建源语言词汇-目标语言词汇关系包括以下步骤103:
A、对源语言词汇集合WS和目标语言词汇集合WT构建源语言词汇-目标语言词汇的关系L-WW,对WS和WT中任意源语言词汇wa和目标语言词汇wb构成双语词汇对。同理,构建源语言词汇-目标语言词汇的关系L-WW对双语词汇对yj的权重的计算提供数据支持。
B、通过wa和wb构成的双语词汇对利用共现率计算双语词汇对yj的权重其计算公式如下:
L y j = P sim ( w a , w b ) = 2 &times; count ( w a , w b ) count ( w a ) + count ( w b )
其中,源语言词汇wa和目标语言词汇wb不构成现有词典的词条,count(wa,wb)为词汇wa和词汇wb共现于权重高于0.1双语文档对的数量,count(wa,wb)≥0;count(wa)为词汇wa在文档集中出现的数量,count(wb)为词汇wb在文档集中出现的数量,count(wa)和count(wb)均为正整数。
(3)构建双语词汇对-双语文档对关系包括以下步骤104:
A、为建立双语文档对和双语词汇对的相关关系,采用R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW。
B、通过R-DD中双语文档对xi和L-WW中双语词汇对yj计算H-DW的权重其计算方法如下:
H x i y j = P ( R x i , L y j ) = 2 &times; countExist ( x i , y j ) count ( w d m ) + count ( w d n )
其中,countExist(xi,yj)为双语词汇对yj出现于权重高于0.1双语文档对xi的次数,为构成双语文档对xi中文档dm的词汇数量,为构成双语文档对xi中文档dn的词汇数量。
第三步105,根据不同语言文档对包含翻译等价对越多,文档对构成可比语料可能性越大原则;以及不同语言词汇在相似程度高的可比语料出现频率越高,词汇对构成翻译等价对可能性越大原则。迭代增强计算双语文档对和双语词汇对的权重,通过迭代的方法形成双语文档对和双语词汇对抽取过程中的相互促进。
其具体步骤如下:
(1)根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下:
R x i t = &alpha; &Sigma; j u L y j t - 1 H x i y j &beta; R x i t - 1 ,
其中,为双语文档对xi第t次迭代的概率,为双语文档对xi第t-1次迭代的概率,i∈[0,v],v为双语文档对个数;为双语词汇对yj第t-1词迭代的概率,j∈[0,u],u为双语词汇对的词条数量;α和β为权重参数,α≥0,β≥0,α+β=1。在实际应用中,根据实验得出可以令α=1/4,β=3/4。
(2)根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下:
L y j t = &alpha; &Sigma; i v R x i t - 1 H x i y j &beta; L y j t - 1 + &lambda; &Sigma; i v R x i t - 1 cos < C &RightArrow; w a , C &RightArrow; w b > ,
其中,为双语词汇对yj第t次迭代的权重,为双语词汇对yj中词汇wa和wb的上下文向量在权重高于0.1双语文档对xi的关系;α、β和λ为权重参数,α≥0,β≥0,λ≥0,α+β+λ=1。在实际应用中,根据实验得出可以令α=β=γ=1/3。
其中上下文向量的计算方法如下:
A、在权重高于0.1双语文档对xi中以wa前后各取5个词汇作为上下文信息 I w a = { w a 1 , w a 2 , . . . , w a 10 } .
B、上下文信息中任一词项wak(1≤k≤10)的权重MI(wak,wa)通过该词项与候选单元wa共现的互信息来计算,其计算公式如下:
MI ( w ak , w a ) = ln count ( w ak , w a ) count ( w ak ) &times; count ( w a ) ,
其中,count(wak,wa)为在xi中wak作为wa上下文的次数,count(wak)为wak在源语言文档集中出现的次数,count(wa)为wa在源语言文档集中出现的次数;
C、计算上下文信息每个词项wak的权重构成上下文向量
D、利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为进行比较,若中第g个分量对应中第k个分量,则令中第g个分量的值为中第k个分量的值;若中第g个分量与无对应,则令中第g个分量的值为0。
同理,的计算方法与相同,在候选可比语料xi中选wb前后各取5个词汇作为上下文信息再采用同样的方法将目标语言词汇wb的上下文信息转换为上下文向量
(3)迭代的起点采用种子双语词典计算双语文档对的初始权重采用权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重
(4)对进行迭代处理,直到任意双语词汇对和双语文档对的权重收敛为止,即文档对权重的t循环和t-1循环变化较小,选择变化范围为且词汇对权重的t循环和t-1循环变化较小,选择变化范围为 | L y j t - L y j t - 1 | &le; 0.0001 .
第四步106,选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典;双语文档对的权重越大则不同语言文档的相关性越强,选择权重最大的双语文档对构成可比语料;双语词汇对的权重越大则不同语言词汇的相关性越强,选择权重最大的双语词汇对构成双语词典。
综上所述,本发明在现有双语词典不足的条件下,通过不同语言文档相似性促进不同语言词汇相似性的判断,不同语言词汇的相似性增强不同语言文档的相似性,利用迭代计算同步抽取可比语料和双语词典,其基本假设是:1、不同语言文档对包含翻译等价对越多,文档对构成可比语料可能性越大;2、不同语言词汇对出现在可比语料的频率越高,词汇对构成翻译等价对可能性越大。该方法有效地解决了不同语言文档匹配过程中现有双语词典领域知识的不足,提高了可比语料匹配的准确率;同时该方法有效地增强了不同语言词汇匹配过程中相关性,扩充了现有双语词典的规模。
如图2所示,一种交互式抽取可比语料与双语词典的装置,包括:
文档输入处理模块,用于读入文档,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
源语言文档与目标语言文档关系构建模块,用于对源语言文档集合与目标语言文档集合按照不同语言文档的相似度构建关联;
源语言词汇与目标语言词汇关系构建模块,用于对源语言词汇集合与目标语言词汇集合按照不同语言词汇的相似度构建关联;
双语词汇对与双语文档对关系构建模块,用于不同语言词汇对集合与不同语言文档对集合按照词汇对在文档对的重要程度构建关联;
双语词汇对与双语文档对的权重计算模块,用于计算双语词汇对和双语文档对的权重,使用交互式增强迭代计算双语文档对和双语词汇对的权重;
双语可比语料和互译词典选择模块,用于选择权重较大的双语文档对与双语词汇对,形成双语可比语料和互译词典;
文档输入处理模块通过源语言文档与目标语言文档关系构建模块、源语言词汇与目标语言词汇关系构建模块和双语词汇对与双语文档对关系构建模块与双语词汇对与双语文档对的权重计算模块相连,双语词汇对与双语文档对的权重计算模块与双语可比语料和互译词典选择模块相连。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (7)

1.一种交互式抽取可比语料与双语词典的方法,其特征在于,包括以下步骤:
11)预处理过程,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
针对M个源语言文档、N个目标语言文档,进行词性还原、分词、去停用词预处理,得到源语言文档集合DS={dm|1≤m≤M}、目标语言文档集合DT={dn|1≤n≤N}、源语言词汇集合WS={wa|1≤a≤A}、目标语言词汇集合WT={wb|1≤b≤B},其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数;m、n、a、b为相应集合中的某一元素的标号,其均为正整数;
12)分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系;
13)迭代增强计算双语文档对和双语词汇对的权重;
14)选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典;双语文档对的权重越大则不同语言文档的相关性越强,选择权重最大的双语文档对构成可比语料;双语词汇对的权重越大则不同语言词汇的相关性越强,选择权重最大的双语词汇对构成双语词典。
2.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的构建源语言文档-目标语言文档关系包括以下步骤:
21)对源语言文档集合DS和目标语言文档集合DT构建源语言文档-目标语言文档的关系R-DD,对DS和DT中任意源语言文档dm和目标语言文档dn构成双语文档对;
22)通过dm和dn构成的双语文档对利用词汇重合度计算双语文档对xi的权重其计算公式如下:
R x i = P sim ( d m , d n ) = 2 &times; countTrans ( w d m , w d n ) count ( w d m ) + count ( w d n ) ,
其中,为根据种子双语词典统计文档dm中词汇与文档dn中词汇为互译词汇对的数量,为文档dm中词汇数量,为文档dn中词汇数量。
3.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的构建源语言词汇-目标语言词汇关系包括以下步骤:
31)对源语言词汇集合WS和目标语言词汇集合WT构建源语言词汇-目标语言词汇的关系L-WW,对WS和WT中任意源语言词汇wa和目标语言词汇wb构成双语词汇对;
32)通过wa和wb构成的双语词汇对利用共现率计算双语词汇对yj的权重其计算公式如下:
L y j = P sim ( w a , w b ) = 2 &times; count ( w a , w b ) count ( w a ) + count ( w b )
其中,源语言词汇wa和目标语言词汇wb不构成现有词典的词条,count(wa,wb)为词汇wa和词汇wb共现于权重高于0.1双语文档对的数量,count(wa,wb)≥0;count(wa)为词汇wa在文档集中出现的数量,count(wb)为词汇wb在文档集中出现的数量,count(wa)和count(wb)均为正整数。
4.根据权利要求1、2和3所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的构建双语词汇对-双语文档对关系包括以下步骤:
41)对R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW;
42)通过双语文档对xi和双语词汇对yj计算H-DW的权重其计算方法如下:
H x i y j = P ( R x i , L y j ) = 2 &times; countExist ( x i , y j ) count ( w d m ) + count ( w d n ) ,
其中,countExist(xi,yj)为双语词汇对yj出现于权重高于0.1双语文档对xi的次数,为构成双语文档对xi中文档dm的词汇数量,为构成双语文档对xi中文档dn的词汇数量。
5.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的迭代增强计算双语文档对和双语词汇对的权重包括以下步骤:
51)根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下:
R x i t = &alpha; &Sigma; j u L y j t - 1 H x i y j + &beta;R x i t - 1 ,
其中,为双语文档对xi第t次迭代的概率,为双语文档对xi第t-1次迭代的概率,i∈[0,v],v为双语文档对个数;为双语词汇对yj第t-1词迭代的概率,j∈[0,u],u为双语词汇对的词条数量;α和β为权重参数,α≥0,β≥0,α+β=1;
52)根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下:
L y j t = &alpha; &Sigma; i v R x i t - 1 H x i y j + &beta;L y j t - 1 + &lambda; &Sigma; i v R x i t - 1 cos < C &RightArrow; w a , C &RightArrow; w b > ,
其中,为双语词汇对yj第t次迭代的权重,为双语词汇对yj中词汇wa和wb的上下文向量在权重高于0.1双语文档对xi的关系;α、β和λ为权重参数,α≥0,β≥0,λ≥0,α+β+λ=1;
53)根据种子双语词典计算双语文档对的初始权重根据权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重
54)对进行迭代处理,直到任意双语词汇对和双语文档对的权重收敛为止,即文档对权重的t循环和t-1循环变化较小,选择变化范围为且词汇对权重的t循环和t-1循环变化较小,选择变化范围为
6.根据权利要求5所述的一种交互式抽取可比语料与双语词典的方法,其特征在于,所述的上下文向量的计算方法如下:
61)在权重高于0.1双语文档对xi中以wa前后各取5个词汇作为上下文信息 I w a = { w a 1 , w a 2 , &CenterDot; &CenterDot; &CenterDot; w a 10 } ;
62)上下文信息中任一词项wak(1≤k≤10)的权重MI(wak,wa)通过该词项与候选单元wa共现的互信息来计算,其计算公式如下:
MI ( w ak , w a ) = ln count ( w ak , w a ) count ( w ak ) &times; count ( w a ) ,
其中,count(wak,wa)为在xi中wak作为wa上下文的次数,count(wak)为wak在源语言文档集中出现的次数,count(wa)为wa在源语言文档集中出现的次数;
63)计算上下文信息每个词项wak的权重构成上下文向量
64)利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为进行比较,若中第g个分量对应中第k个分量,则令中第g个分量的值为中第k个分量的值;若中第g个分量与无对应,则令中第g个分量的值为0。
7.一种交互式抽取可比语料与双语词典的装置,其特征在于,包括:
文档输入处理模块,用于读入文档,对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;
源语言文档与目标语言文档关系构建模块,用于对源语言文档集合与目标语言文档集合按照不同语言文档的相似度构建关联;
源语言词汇与目标语言词汇关系构建模块,用于对源语言词汇集合与目标语言词汇集合按照不同语言词汇的相似度构建关联;
双语词汇对与双语文档对关系构建模块,用于不同语言词汇对集合与不同语言文档对集合按照词汇对在文档对的重要程度构建关联;
双语词汇对与双语文档对的权重计算模块,用于计算双语词汇对和双语文档对的权重,使用交互式增强迭代计算双语文档对和双语词汇对的权重;
双语可比语料和互译词典选择模块,用于选择权重较大的双语文档对与双语词汇对,形成双语可比语料和互译词典;
所述的文档输入处理模块通过源语言文档与目标语言文档关系构建模块、源语言词汇与目标语言词汇关系构建模块和双语词汇对与双语文档对关系构建模块与双语词汇对与双语文档对的权重计算模块相连,双语词汇对与双语文档对的权重计算模块与双语可比语料和互译词典选择模块相连。
CN201410830446.7A 2014-12-25 2014-12-25 一种交互式抽取可比语料与双语词典的方法及其装置 Active CN104572634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410830446.7A CN104572634B (zh) 2014-12-25 2014-12-25 一种交互式抽取可比语料与双语词典的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410830446.7A CN104572634B (zh) 2014-12-25 2014-12-25 一种交互式抽取可比语料与双语词典的方法及其装置

Publications (2)

Publication Number Publication Date
CN104572634A true CN104572634A (zh) 2015-04-29
CN104572634B CN104572634B (zh) 2017-08-11

Family

ID=53088737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410830446.7A Active CN104572634B (zh) 2014-12-25 2014-12-25 一种交互式抽取可比语料与双语词典的方法及其装置

Country Status (1)

Country Link
CN (1) CN104572634B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN108701126A (zh) * 2016-02-24 2018-10-23 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN109766545A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
WO2019119852A1 (zh) * 2017-12-23 2019-06-27 华为技术有限公司 语言处理方法及设备
CN112988690A (zh) * 2021-03-16 2021-06-18 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN113177420A (zh) * 2021-04-29 2021-07-27 同方知网(北京)技术有限公司 一种基于学术文献的中英双语词典构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
CN103473280B (zh) * 2013-08-28 2017-02-08 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZEDE ZHU,ET AL.: "Building comparable corpora based on bilingual LDA model", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
康小丽,章成志: "用于双语术语抽取的专业领域中英文可比语料库构建", 《现代图书情报技术》 *
肖健 等: "英中可比语料库中多词表达自动提取与对齐", 《计算机工程与应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512114B (zh) * 2015-12-14 2018-06-15 清华大学 平行句对的筛选方法和系统
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN108701126B (zh) * 2016-02-24 2022-03-04 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN108701126A (zh) * 2016-02-24 2018-10-23 国立研究开发法人情报通信研究机构 主题推定装置、主题推定方法以及存储介质
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
WO2019119852A1 (zh) * 2017-12-23 2019-06-27 华为技术有限公司 语言处理方法及设备
US11704505B2 (en) 2017-12-23 2023-07-18 Huawei Technologies Co., Ltd. Language processing method and device
CN109766545A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
CN109766545B (zh) * 2018-12-24 2022-11-18 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
CN112988690A (zh) * 2021-03-16 2021-06-18 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN112988690B (zh) * 2021-03-16 2023-02-17 挂号网(杭州)科技有限公司 词典文件同步方法、装置、服务器及存储介质
CN113177420A (zh) * 2021-04-29 2021-07-27 同方知网(北京)技术有限公司 一种基于学术文献的中英双语词典构建方法

Also Published As

Publication number Publication date
CN104572634B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN104572634A (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Cao et al. cw2vec: Learning chinese word embeddings with stroke n-gram information
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
CN101079025B (zh) 一种文档相关度计算系统和方法
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
Glavaš et al. Unsupervised cross-lingual scaling of political texts
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN102063424A (zh) 一种中文分词方法
CN104391885A (zh) 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
Li et al. A self-attention-based approach for named entity recognition in cybersecurity
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN103678287A (zh) 一种关键词翻译统一的方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
CN110851176A (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant