CN104572634A

CN104572634A - 一种交互式抽取可比语料与双语词典的方法及其装置

Info

Publication number: CN104572634A
Application number: CN201410830446.7A
Authority: CN
Inventors: 朱泽德; 王绍祺; 李淼; 张健; 陈雷; 杨振新; 卫林钰; 曾新华; 郑守国; 李华龙; 翁士状; 盛文溢; 高会议; 陈晟
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-29
Anticipated expiration: 2034-12-25
Also published as: CN104572634B

Abstract

本发明涉及一种交互式抽取可比语料与双语词典的方法及其装置，解决了领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷。本发明包括：对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系；迭代增强计算双语文档对和双语词汇对的权重；选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典。通过不同语言文档相似性促进不同语言词汇相似性的判断，不同语言词汇的相似性增强不同语言文档的相似性，二者交互式迭代增强实现同步抽取可比语料和双语词典。

Description

一种交互式抽取可比语料与双语词典的方法及其装置

技术领域

本发明涉及跨语言信息处理技术领域，具体来说是一种交互式抽取可比语料与双语词典的方法及其装置。

背景技术

双语可比语料和双语词典是两种不同粒度的跨语言资源，对统计机器翻译和跨语言信息检索等跨语言信息处理具有重要的价值。可比语料由语言不同、内容相似但非互译的文档对构成，从中挖掘双语互译词汇、双语命名实体、平行句对等不同粒度的翻译等价对，可有效解决双语词典编纂中面临的新词和旧词新意等问题，双语词典等更细粒度的双语知识可直接用于跨语言信息处理。

可比语料的获取主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面，采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性。在跨语言检索方面，将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档，构成可比语料库。在维基百科方面，以维基百科类别信息作为主题约束，以语言链接进行双语映射采集相应源语言和目标语言的百科页面。

双语词典的挖掘主要通过词汇共现、上下文信息等方法来实现。在词汇共现方面，通过建立源语言文本和目标语言文本的共现矩阵，计算矩阵相似度来进行翻译等价对的抽取；在上下文信息方面，计算两个双语词的上下文向量之间的相似性来选取最大可能的对应词汇。

然而，现有的挖掘这两类资源的方法都是通过先获取可比语料，再从可比语料抽取双语词典。这些方法分步将两个密切相关的任务分离，无法通过获取的双语词典来为不同语言文档的相似度计算提供支持，也无法区分相似度差异的可比语料来为不同语言词汇的相似度计算提供支持。如何避免上述两点不足实现同步、准确地抽取已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷，提供一种交互式抽取可比语料与双语词典的方法及其装置来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种交互式抽取可比语料与双语词典的方法，包括以下步骤：

预处理过程，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；

针对M个源语言文档、N个目标语言文档，进行词性还原、分词、去停用词预处理，得到源语言文档集合D_S＝{d_m|1≤m≤M}、目标语言文档集合D_T＝{d_n|1≤n≤N}、源语言词汇集合W_S＝{w_a|1≤a≤A}、目标语言词汇集合W_T＝{w_b|1≤b≤B}，其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数；m、n、a、b为相应集合中的某一元素的标号，其均为正整数；

分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系；

迭代增强计算双语文档对和双语词汇对的权重；

选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典；双语文档对的权重越大则不同语言文档的相关性越强，选择权重最大的双语文档对构成可比语料；双语词汇对的权重越大则不同语言词汇的相关性越强，选择权重最大的双语词汇对构成双语词典。

所述的构建源语言文档-目标语言文档关系包括以下步骤：

对源语言文档集合D_S和目标语言文档集合D_T构建源语言文档-目标语言文档的关系R-DD，对D_S和D_T中任意源语言文档d_m和目标语言文档d_n构成双语文档对；

通过d_m和d_n构成的双语文档对利用词汇重合度计算双语文档对x_i的权重其计算公式如下：

R_{x_{i}} = P_{sim} (d_{m}, d_{n}) = \frac{2 \times countTrans (w_{d_{m}}, w_{d_{n}})}{count (w_{d_{m}}) + count (w_{d_{n}})},

其中，为根据种子双语词典统计文档d_m中词汇与文档d_n中词汇为互译词汇对的数量，为文档d_m中词汇数量，为文档d_n中词汇数量。

所述的构建源语言词汇-目标语言词汇关系包括以下步骤：

对源语言词汇集合W_S和目标语言词汇集合W_T构建源语言词汇-目标语言词汇的关系L-WW，对W_S和W_T中任意源语言词汇w_a和目标语言词汇w_b构成双语词汇对；

通过w_a和w_b构成的双语词汇对利用共现率计算双语词汇对y_j的权重其计算公式如下：

L_{y_{j}} = P_{sim} (w_{a}, w_{b}) = \frac{2 \times count (w_{a}, w_{b})}{count (w_{a}) + count (w_{b})}

其中，源语言词汇w_a和目标语言词汇w_b不构成现有词典的词条，count(w_a,w_b)为词汇w_a和词汇w_b共现于权重高于0.1双语文档对的数量，count(w_a,w_b)≥0；count(w_a)为词汇w_a在文档集中出现的数量，count(w_b)为词汇w_b在文档集中出现的数量，count(w_a)和count(w_b)均为正整数。

所述的构建双语词汇对-双语文档对关系包括以下步骤：

对R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW；

通过双语文档对x_i和双语词汇对y_j计算H-DW的权重其计算方法如下：

H_{x_{i} y_{j}} = P (R_{x_{i}}, L_{y_{j}}) = \frac{2 \times countExist (x_{i}, y_{j})}{count (w_{d_{m}}) + count (w_{d_{n}})}

其中，countExist(x_i,y_j)为双语词汇对y_j出现于权重高于0.1双语文档对x_i的次数，为构成双语文档对x_i中文档d_m的词汇数量，为构成双语文档对x_i中文档d_n的词汇数量。

所述的迭代增强计算双语文档对和双语词汇对的权重包括以下步骤：

根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下：

R_{x_{i}}^{t} = α Σ_{j}^{u} L_{y_{j}}^{t - 1} H_{x_{i} y_{j}} β R_{x_{i}}^{t - 1},

其中，为双语文档对xi第t次迭代的概率，为双语文档对xi第t-1次迭代的概率，i∈[0,v]，v为双语文档对个数；为双语词汇对yj第t-1词迭代的概率,j∈[0,u]，u为双语词汇对的词条数量；α和β为权重参数，α≥0,β≥0,α+β＝1；

根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下：

L_{y_{j}}^{t} = α Σ_{i}^{v} R_{x_{i}}^{t - 1} H_{x_{i} y_{j}} β L_{y_{j}}^{t - 1} + λ Σ_{i}^{v} R_{x_{i}}^{t - 1} \cos < {\overset{&RightArrow;}{C}}_{w_{a}}, {\overset{&RightArrow;}{C}}_{w_{b}} >,

其中，为双语词汇对yj第t次迭代的权重，为双语词汇对yj中词汇w_a和w_b的上下文向量和在权重高于0.1双语文档对xi的关系；α、β和λ为权重参数，α≥0,β≥0,λ≥0,α+β+λ＝1；

根据种子双语词典计算双语文档对的初始权重根据权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重

对和进行迭代处理，直到任意双语词汇对和双语文档对的权重收敛为止，即文档对权重的t循环和t-1循环变化较小，选择变化范围为且词汇对权重的t循环和t-1循环变化较小，选择变化范围为

| L_{y_{j}}^{t} - L_{y_{j}}^{t - 1} | \leq 0.0001 .

所述的上下文向量的计算方法如下：

在权重高于0.1双语文档对x_i中以w_a前后各取5个词汇作为上下文信息

I_{w_{a}} = {w_{a 1}, w_{a 2}, . . ., w_{a 10}};

上下文信息中任一词项w_ak(1≤k≤10)的权重MI(w_ak，w_a)通过该词项与候选单元w_a共现的互信息来计算，其计算公式如下：

MI (w_{ak}, w_{a}) = \ln \frac{count (w_{ak}, w_{a})}{count (w_{ak}) \times count (w_{a})},

其中，count(w_ak,w_a)为在x_i中w_ak作为w_a上下文的次数，count(w_ak)为w_ak在源语言文档集中出现的次数，count(w_a)为w_a在源语言文档集中出现的次数；

计算上下文信息每个词项w_ak的权重构成上下文向量

利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为将与进行比较，若中第g个分量对应中第k个分量，则令中第g个分量的值为中第k个分量的值；若中第g个分量与无对应，则令中第g个分量的值为0。

一种交互式抽取可比语料与双语词典的装置，包括：

文档输入处理装置，用于读入文档，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；

源语言文档与目标语言文档关系构建模块，用于对源语言文档集合与目标语言文档集合按照不同语言文档的相似度构建关联；

源语言词汇与目标语言词汇关系构建模块，用于对源语言词汇集合与目标语言词汇集合按照不同语言词汇的相似度构建关联；

双语词汇对与双语文档对关系构建模块，用于不同语言词汇对集合与不同语言文档对集合按照词汇对在文档对的重要程度构建关联；

双语词汇对与双语文档对的权重计算模块，用于计算双语词汇对和双语文档对的权重，使用交互式增强迭代计算双语文档对和双语词汇对的权重；

双语可比语料和互译词典选择模块，用于选择权重较大的双语文档对与双语词汇对，形成双语可比语料和互译词典；

所述的文档输入处理模块通过源语言文档与目标语言文档关系构建模块、源语言词汇与目标语言词汇关系构建模块和双语词汇对与双语文档对关系构建模块与双语词汇对与双语文档对的权重计算模块相连，双语词汇对与双语文档对的权重计算模块与双语可比语料和互译词典选择模块相连。

有益效果

本发明的一种交互式抽取可比语料与双语词典的方法及其装置，与现有技术相比通过不同语言文档相似性促进不同语言词汇相似性的判断，不同语言词汇的相似性增强不同语言文档的相似性，二者交互式迭代增强实现同步抽取可比语料和双语词典。本发明对原始的双语词典依赖程度低，对低密度语种的双语资源抽取具有广泛的适应性，可有效地双语词典稀缺条件下提高不同语言文档匹配构建可比语料的准确性；还有效地在区分可比语料相似度条件下增强不同语言文档抽取双语词典的准确性；实现可比语料和双语词典的同步构建。

附图说明

图1为本发明的方法流程图；

图2为本发明的装置结构图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种交互式抽取可比语料与双语词典的方法，包括以下步骤：

第一步，预处理过程101。对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合。

针对M个源语言文档、N个目标语言文档，按现有技术的方法进行词性还原、分词、去停用词等预处理，得到源语言文档集合D_S＝{d_m|1≤m≤M}、目标语言文档集合D_T＝{d_n|1≤n≤N}、源语言词汇集合W_S＝{w_a|1≤a≤A}、目标语言词汇集合W_T＝{w_b|1≤b≤B}，其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数；m、n、a、b为相应集合中的某一元素的标号，其均为正整数。

第二步，分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系。即对源语言文档集合D_S和目标语言文档集合D_T构建源语言文档-目标语言文档的关系R-DD；对源语言词汇集合W_S和目标语言词汇集合W_T构建源语言词汇-目标语言词汇的关系L-WW；针对源语言文档-目标语言文档关系R-DD和源语言词汇-目标语言词汇关系L-WW构建双语文档对-双语词汇对关系图H-DW。其具体步骤如下：

(1)构建源语言文档-目标语言文档关系包括以下步骤102：

A、对源语言文档集合D_S和目标语言文档集合D_T构建源语言文档-目标语言文档的关系R-DD，对D_S和D_T中任意源语言文档d_m和目标语言文档d_n构成双语文档对。构建源语言文档-目标语言文档的关系R-DD可以对计算双语文档对x_i的权重时提供数据支持。

B、通过d_m和d_n构成的双语文档对利用词汇重合度计算双语文档对x_i的权重其计算公式如下：

R_{x_{i}} = P_{sim} (d_{m}, d_{n}) = \frac{2 \times countTrans (w_{d_{m}}, w_{d_{n}})}{count (w_{d_{m}}) + count (w_{d_{n}})},

(2)构建源语言词汇-目标语言词汇关系包括以下步骤103：

A、对源语言词汇集合W_S和目标语言词汇集合W_T构建源语言词汇-目标语言词汇的关系L-WW，对W_S和W_T中任意源语言词汇w_a和目标语言词汇w_b构成双语词汇对。同理，构建源语言词汇-目标语言词汇的关系L-WW对双语词汇对y_j的权重的计算提供数据支持。

B、通过w_a和w_b构成的双语词汇对利用共现率计算双语词汇对y_j的权重其计算公式如下：

L_{y_{j}} = P_{sim} (w_{a}, w_{b}) = \frac{2 \times count (w_{a}, w_{b})}{count (w_{a}) + count (w_{b})}

(3)构建双语词汇对-双语文档对关系包括以下步骤104：

A、为建立双语文档对和双语词汇对的相关关系，采用R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW。

B、通过R-DD中双语文档对x_i和L-WW中双语词汇对y_j计算H-DW的权重其计算方法如下：

H_{x_{i} y_{j}} = P (R_{x_{i}}, L_{y_{j}}) = \frac{2 \times countExist (x_{i}, y_{j})}{count (w_{d_{m}}) + count (w_{d_{n}})}

第三步105，根据不同语言文档对包含翻译等价对越多，文档对构成可比语料可能性越大原则；以及不同语言词汇在相似程度高的可比语料出现频率越高，词汇对构成翻译等价对可能性越大原则。迭代增强计算双语文档对和双语词汇对的权重，通过迭代的方法形成双语文档对和双语词汇对抽取过程中的相互促进。

其具体步骤如下：

(1)根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下：

R_{x_{i}}^{t} = α Σ_{j}^{u} L_{y_{j}}^{t - 1} H_{x_{i} y_{j}} β R_{x_{i}}^{t - 1},

其中，为双语文档对xi第t次迭代的概率，为双语文档对x_i第t-1次迭代的概率，i∈[0,v]，v为双语文档对个数；为双语词汇对y_j第t-1词迭代的概率,j∈[0,u]，u为双语词汇对的词条数量；α和β为权重参数，α≥0,β≥0,α+β＝1。在实际应用中，根据实验得出可以令α＝1/4,β＝3/4。

(2)根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下：

L_{y_{j}}^{t} = α Σ_{i}^{v} R_{x_{i}}^{t - 1} H_{x_{i} y_{j}} β L_{y_{j}}^{t - 1} + λ Σ_{i}^{v} R_{x_{i}}^{t - 1} \cos < {\overset{&RightArrow;}{C}}_{w_{a}}, {\overset{&RightArrow;}{C}}_{w_{b}} >,

其中，为双语词汇对y_j第t次迭代的权重，为双语词汇对y_j中词汇w_a和w_b的上下文向量和在权重高于0.1双语文档对x_i的关系；α、β和λ为权重参数，α≥0,β≥0,λ≥0,α+β+λ＝1。在实际应用中，根据实验得出可以令α＝β＝γ＝1/3。

其中上下文向量的计算方法如下：

A、在权重高于0.1双语文档对x_i中以w_a前后各取5个词汇作为上下文信息

I_{w_{a}} = {w_{a 1}, w_{a 2}, . . ., w_{a 10}} .

B、上下文信息中任一词项w_ak(1≤k≤10)的权重MI(w_ak，w_a)通过该词项与候选单元w_a共现的互信息来计算，其计算公式如下：

MI (w_{ak}, w_{a}) = \ln \frac{count (w_{ak}, w_{a})}{count (w_{ak}) \times count (w_{a})},

其中，count(w_ak,w_a)为在xi中w_ak作为w_a上下文的次数，count(w_ak)为w_ak在源语言文档集中出现的次数，count(w_a)为w_a在源语言文档集中出现的次数；

C、计算上下文信息每个词项w_ak的权重构成上下文向量

D、利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为将与进行比较，若中第g个分量对应中第k个分量，则令中第g个分量的值为中第k个分量的值；若中第g个分量与无对应，则令中第g个分量的值为0。

同理，的计算方法与相同，在候选可比语料x_i中选w_b前后各取5个词汇作为上下文信息再采用同样的方法将目标语言词汇w_b的上下文信息转换为上下文向量

(3)迭代的起点采用种子双语词典计算双语文档对的初始权重采用权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重

(4)对和进行迭代处理，直到任意双语词汇对和双语文档对的权重收敛为止，即文档对权重的t循环和t-1循环变化较小，选择变化范围为且词汇对权重的t循环和t-1循环变化较小，选择变化范围为

| L_{y_{j}}^{t} - L_{y_{j}}^{t - 1} | \leq 0.0001 .

第四步106，选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典；双语文档对的权重越大则不同语言文档的相关性越强，选择权重最大的双语文档对构成可比语料；双语词汇对的权重越大则不同语言词汇的相关性越强，选择权重最大的双语词汇对构成双语词典。

综上所述，本发明在现有双语词典不足的条件下，通过不同语言文档相似性促进不同语言词汇相似性的判断，不同语言词汇的相似性增强不同语言文档的相似性，利用迭代计算同步抽取可比语料和双语词典，其基本假设是：1、不同语言文档对包含翻译等价对越多，文档对构成可比语料可能性越大；2、不同语言词汇对出现在可比语料的频率越高，词汇对构成翻译等价对可能性越大。该方法有效地解决了不同语言文档匹配过程中现有双语词典领域知识的不足，提高了可比语料匹配的准确率；同时该方法有效地增强了不同语言词汇匹配过程中相关性，扩充了现有双语词典的规模。

如图2所示，一种交互式抽取可比语料与双语词典的装置，包括：

文档输入处理模块，用于读入文档，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；

文档输入处理模块通过源语言文档与目标语言文档关系构建模块、源语言词汇与目标语言词汇关系构建模块和双语词汇对与双语文档对关系构建模块与双语词汇对与双语文档对的权重计算模块相连，双语词汇对与双语文档对的权重计算模块与双语可比语料和互译词典选择模块相连。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种交互式抽取可比语料与双语词典的方法，其特征在于，包括以下步骤：

11)预处理过程，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；

12)分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系；

13)迭代增强计算双语文档对和双语词汇对的权重；

14)选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典；双语文档对的权重越大则不同语言文档的相关性越强，选择权重最大的双语文档对构成可比语料；双语词汇对的权重越大则不同语言词汇的相关性越强，选择权重最大的双语词汇对构成双语词典。

2.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的构建源语言文档-目标语言文档关系包括以下步骤：

21)对源语言文档集合D_S和目标语言文档集合D_T构建源语言文档-目标语言文档的关系R-DD，对D_S和D_T中任意源语言文档d_m和目标语言文档d_n构成双语文档对；

22)通过d_m和d_n构成的双语文档对利用词汇重合度计算双语文档对x_i的权重其计算公式如下：

R_{x_{i}} = P_{sim} (d_{m}, d_{n}) = \frac{2 \times countTrans (w_{d_{m}}, w_{d_{n}})}{count (w_{d_{m}}) + count (w_{d_{n}})},

3.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的构建源语言词汇-目标语言词汇关系包括以下步骤：

31)对源语言词汇集合W_S和目标语言词汇集合W_T构建源语言词汇-目标语言词汇的关系L-WW，对W_S和W_T中任意源语言词汇w_a和目标语言词汇w_b构成双语词汇对；

32)通过w_a和w_b构成的双语词汇对利用共现率计算双语词汇对y_j的权重其计算公式如下：

L_{y_{j}} = P_{sim} (w_{a}, w_{b}) = \frac{2 \times count (w_{a}, w_{b})}{count (w_{a}) + count (w_{b})}

4.根据权利要求1、2和3所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的构建双语词汇对-双语文档对关系包括以下步骤：

41)对R-DD和L-WW构建双语文档对-双语词汇对的关系H-DW；

42)通过双语文档对x_i和双语词汇对y_j计算H-DW的权重其计算方法如下：

H_{x_{i} y_{j}} = P (R_{x_{i}}, L_{y_{j}}) = \frac{2 \times countExist (x_{i}, y_{j})}{count (w_{d_{m}}) + count (w_{d_{n}})},

5.根据权利要求1所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的迭代增强计算双语文档对和双语词汇对的权重包括以下步骤：

51)根据双语词汇对权重、双语词汇对-双语文档对权重计算双语文档对的权重其计算公式如下：

R_{x_{i}}^{t} = α Σ_{j}^{u} L_{y_{j}}^{t - 1} H_{x_{i} y_{j}} + {βR}_{x_{i}}^{t - 1},

52)根据双语文档对权重、双语词汇对-双语文档对权重计算双语词汇对的权重其计算公式如下：

L_{y_{j}}^{t} = α Σ_{i}^{v} R_{x_{i}}^{t - 1} H_{x_{i} y_{j}} + {βL}_{y_{j}}^{t - 1} + λ Σ_{i}^{v} R_{x_{i}}^{t - 1} \cos < {\overset{&RightArrow;}{C}}_{w_{a}}, {\overset{&RightArrow;}{C}}_{w_{b}} >,

53)根据种子双语词典计算双语文档对的初始权重根据权重高于0.1双语文档对中不同语言词汇共现信息计算双语词汇对的初始权重

54)对和进行迭代处理，直到任意双语词汇对和双语文档对的权重收敛为止，即文档对权重的t循环和t-1循环变化较小，选择变化范围为且词汇对权重的t循环和t-1循环变化较小，选择变化范围为

6.根据权利要求5所述的一种交互式抽取可比语料与双语词典的方法，其特征在于，所述的上下文向量的计算方法如下：

61)在权重高于0.1双语文档对x_i中以w_a前后各取5个词汇作为上下文信息

I_{w_{a}} = {w_{a 1}, w_{a 2}, \cdot \cdot \cdot w_{a 10}};

62)上下文信息中任一词项w_ak(1≤k≤10)的权重MI(w_ak，w_a)通过该词项与候选单元w_a共现的互信息来计算，其计算公式如下：

MI (w_{ak}, w_{a}) = \ln \frac{count (w_{ak}, w_{a})}{count (w_{ak}) \times count (w_{a})},

63)计算上下文信息每个词项w_ak的权重构成上下文向量

64)利用种子双语词典将源语言上下文信息映射为目标语言上下文信息对应的上下文向量为将与进行比较，若中第g个分量对应中第k个分量，则令中第g个分量的值为中第k个分量的值；若中第g个分量与无对应，则令中第g个分量的值为0。

7.一种交互式抽取可比语料与双语词典的装置，其特征在于，包括：