CN103473280A

CN103473280A - 一种网络可比语料的挖掘方法及装置

Info

Publication number: CN103473280A
Application number: CN2013103820101A
Authority: CN
Inventors: 李淼; 朱泽德; 张健; 曾新华; 陈雷; 曾伟辉; 郑守国; 高会议; 胡泽林; 杨振新; 陈晟; 李华龙; 董瀚琳; 吴娜; 卞程飞; 翁士状
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2013-12-25
Anticipated expiration: 2033-08-28
Also published as: CN103473280B

Abstract

本发明涉及网络可比语料的挖掘方法，包括：利用网络爬虫获取源语言网页，经预处理后形成源语言文档；分析源语言文档的跨语言主题的概率，产生对应的目标语言查询词；将目标语言查询词提交搜索引擎，选取前N的文档构成目标语言候选相似文档集；计算源语言文档和目标语言候选相似文档的相似度，筛选出相似度较高的文档构建可比语料库。本发明还公开了一种实施网络可比语料的挖掘方法的装置。本发明避免词汇翻译产生歧义或消耗大量时间；源语言文档源自于网络爬虫获取的特定网站内容，目标语言文档来自于整个互联网，有效提高对源语言文档的利用率；源语言和目标语言相似文档匹配通过主题分布的相似性实现，提高了语料库建设的准确度。

Description

一种网络可比语料的挖掘方法及装置

技术领域

本发明涉及统计机器翻译和跨语言信息检索技术领域，尤其是一种网络可比语料的挖掘方法及装置。

背景技术

可比语料库是由语言不同、内容相似但非互译的文档构成的集合，从中挖掘双语术语、命名实体、平行句对等细粒度的翻译等价促进了词典编纂、跨语言信息检索和统计机器翻译等领域的发展。相对于平行语料，可比语料内容的相似性降低了平行语料中源语言和目标语言文档互译的要求，使可比语料具有语言真实、来源广阔、领域全面、内容新颖和易于获取的优势。

现有的可比较语料构建主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面，采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性；在跨语言检索方面，将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档，构成可比语料库；在维基百科方面，以维基百科类别信息作为主题约束，以语言链接进行双语映射采集相应源语言和目标语言的百科页面。然而，上述三种方法面临的问题有：词汇翻译中的歧义、双语知识的覆盖度不足或可比语料局限于特定数据来源。

发明内容

本发明的首要目的在于提供一种避免词汇翻译歧义的产生，降低对双语知识的依赖，提高语料库建设的准确度的网络可比语料的挖掘方法。

为实现上述目的，本发明采用了以下技术方案：一种网络可比语料的挖掘方法，该方法包括下列顺序的步骤：

（1）利用网络爬虫获取源语言网页，经预处理后形成源语言文档；

（2）根据已有的双语语料库构建跨语言主题模型，分析源语言文档的跨语言主题的概率，利用源语言文档主题信息产生对应的目标语言查询词；

（3）将目标语言查询词提交搜索引擎，获取网络中的目标语言文档，选取前N的文档构成目标语言候选相似文档集；

（4）分析目标语言候选相似文档的跨语言主题概率分布，根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度，筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。

在所述步骤（1）中，利用网络爬虫抓取源语言原始网页并存储至本地数据库中，对收集的网页进行除去导航条、相关链接的去噪声处理，对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。

所述步骤（2）包括以下顺序的步骤：

（a）在已有的双语语料库的基础上，利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型；

（b）跨语言主题模型对源语言文档进行语义分析，获取每一跨语言主题的概率；

（c）根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布，获取目标语言候选查询词；

（d）根据目标语言单语语料库中词汇的统计信息，合并目标语言候选查询词形成目标语言查询词。

在所述步骤（3）中，N为10。

在所述步骤（4）中，源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度，相似度计算公式如下：

Sim (D_{m}^{S}, D_{m}^{T}) = \frac{D_{KL} (D_{m}^{S} | | D_{m}^{S}) + D_{KL} (D_{m}^{T} | | D_{m}^{S})}{2},

其中，

为源语言文档

和目标语言候选相似文档

的主题概率分布的KL散度，

D_{KL} (D_{m}^{S} | | D_{m}^{T}) = {[Σ_{k = 1}^{K} P (Z_{k} | D_{m}^{S}) \log \frac{P (Z_{k} | D_{m}^{S})}{P (Z_{k} | D_{m}^{T})}]}^{- 1},

为目标语言候选相似文档和源语言文档

的主题概率分布的KL散度，

D_{KL} (D_{m}^{T} | | D_{m}^{S}) = {[Σ_{k = 1}^{K} P (Z_{k} | D_{m}^{T}) \log \frac{P (Z_{k} | D_{m}^{T})}{P (Z_{k} | D_{m}^{S})}]}^{- 1};

T为目标语言--Target Language，S为源语言--Source Language,为

属于Ζ_k的概率，

为

属于Ζ_k的概率，Ζ_k为第k个跨语言主题，1≤k≤K，K为所述多个跨语言主题的数量；

选取相似度最大且超过一定阈值β的可比语料加入可比语料库，否则舍弃源语言文档和目标语言候选相似文档。

所述步骤（c）中，计算目标语言词汇对源语言文档的权重并排序，形成目标语言查候选询词，权重的计算公式如下：

P (ω_{n}^{T} | D_{m}^{S}) = Π_{k = 1}^{K} P^{'} (ω_{n}^{T} | Z_{k}) P (Z_{k} | D_{m}^{S}),

其中，为目标语言词汇

对源语言文档

的权重；

为目标语言词汇数据，

为源语言文档数据，Ζ_k为第k个跨语言主题，1≤k≤K，K为所述多个跨语言主题的数量，

为

属于Ζ_k的概率，T为目标语言--TargetLanguage，S为源语言--Source Language；

为Ζ_k属于

的增强概率，与词汇在所有主题中出现的概率成正比，与词汇在所有主题中出现的频率成反比，其计算公式如下：

P^{'} (ω_{n}^{T} | Z_{k}) = P (ω_{n}^{T} | Z_{k}) \log \frac{K}{1 + | k : P (ω_{n}^{T} | Z_{k}) > η |},

其中，

为Ζ_k属于

的概率，为Ζ_k属于

的逆主题概率，η为目标语言词汇对主题的噪声阈值。

所述步骤（d）中，在目标语言的单语语料库中统计目标语言候选查询词的共现率，结合目标语言候选查询词对源语言文档的概率，计算相邻目标语言查询词对源语言文档的权重，计算公式如下：

P_{pharse} (H^{T} | D_{m}^{S}) = P_{phrase} (H^{T}) \times P (H^{T} | D_{m}^{S}),

其中，为目标语言查询词H^T对源语言文档

的权重，H^T为相邻J个候选查询词ω_j构成的查询词，1≤j≤J，J=2,3，P_phrase(H^T)为H^T中相邻候选查询词在单语语料库的共现率；

为目标语言查询词对源语言文档的直接权重；

P_phrase(H^T)的计算公式如下：

P_{phrase} (H^{T}) = P_{co} (ω_{1}^{T}, . . ., ω_{J}^{T}) = \frac{P (ω_{1}^{T}, . . ., ω_{J}^{T})}{P (ω_{1}^{T}) \times . . . \times P (ω_{J}^{T})},

式中，表示H^T的组成

在目标语言单语语料库中满足词法构成规则共现的次数，表示

在目标语言单语语料库中出现次数；

的计算公式如下：

T为目标语言--Target Language,S为源语言--Source Language。

所述β为0.7。

所述η为0.005。

本发明的另一目的在于提供一种网络可比语料的挖掘方法的装置，包括：

网络源语言文档获取装置，用于获取源语言网页，并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档；

目标语言查询词获取装置，采用训练的跨语言主题模型分析源语言文档的跨语言主题概率，并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词；

目标语言文档搜索装置，利用目标语言查询词通过搜索引擎获取网络中目标语言文档，选取排名前N的目标语言文档构成目标语言候选相似文档集；

双语相似文档选择装置，对目标语言候选相似文档进行语义分析获取跨语言主题分布，根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度，筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。

由上述技术方案可知，本发明将文档的主题分析引入网络可比语料挖掘研究，且无需双语词典等知识就能实现从源语言文档到目标语言查询词的获取，避免词汇翻译产生歧义或消耗大量时间；源语言文档源自于网络爬虫获取的特定网站内容，目标语言文档来自于整个互联网，有效提高对源语言文档的利用率，特别是在源语言资源匮乏时十分必要；源语言和目标语言相似文档匹配通过主题分布的相似性实现，增强了对文档语义的分析，提高了语料库建设的准确度。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的装置结构框图。

具体实施方式

一种网络可比语料的挖掘方法，该方法包括下列顺序的步骤：（1）利用网络爬虫获取源语言网页，经预处理后形成源语言文档；（2）根据已有的双语语料库构建跨语言主题模型，分析源语言文档的跨语言主题的概率，利用源语言文档主题信息产生对应的目标语言查询词；（3）将目标语言查询词提交搜索引擎，获取网络中的目标语言文档，选取前N的文档构成目标语言候选相似文档集，N为10；（4）分析目标语言候选相似文档的跨语言主题概率分布，根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度，筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。如图1所示。

以下结合图1对本发明作进一步的说明。

所述步骤（2）包括以下顺序的步骤：（a）在已有的双语语料库的基础上，利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型；（b）跨语言主题模型对源语言文档进行语义分析，获取每一跨语言主题的概率；（c）根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布，获取目标语言候选查询词；（d）根据目标语言单语语料库中词汇的统计信息，合并目标语言候选查询词形成目标语言查询词。

所述步骤（a）中，在已有的双语语料库的基础上，利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型，其中，跨语言隐含狄利克雷分配方法有Mimno和Xiaochuan Ni等分别在2009年的文章“Polylingual topicmodels”和“Mining multilingual topics from Wikipedia”等中进行了详细描述，在此不再展开详细叙述。

P (ω_{n}^{T} | D_{m}^{S}) = Π_{k = 1}^{K} P^{'} (ω_{n}^{T} | Z_{k}) P (Z_{k} | D_{m}^{S}),

其中，

为目标语言词汇

对源语言文档

的权重；

为目标语言词汇数据，

为

属于Ζ_k的概率；

为Ζ_k属于

的增强概率，借鉴于TFIDF模型的思想，与词汇在所有主题中出现的概率成正比，与词汇在所有主题中出现的频率成反比，其计算公式如下：

P^{'} (ω_{n}^{T} | Z_{k}) = P (ω_{n}^{T} | Z_{k}) \log \frac{K}{1 + | k : P (ω_{n}^{T} | Z_{k}) > η |},

其中，

为

属于

的概率，

为Ζ_k属于

的逆主题概率，η为目标语言词汇对主题的噪声阈值，η为0.005。

P_{pharse} (H^{T} | D_{m}^{S}) = P_{phrase} (H^{T}) \times P (H^{T} | D_{m}^{S}),

其中，

为目标语言查询词H^T对源语言文档

为目标语言查询词对源语言文档的直接权重；

P_phrase(H^T)的计算公式如下：

P_{phrase} (H^{T}) = P_{co} (ω_{1}^{T}, . . ., ω_{J}^{T}) = \frac{P (ω_{1}^{T}, . . ., ω_{J}^{T})}{P (ω_{1}^{T}) \times . . . \times P (ω_{J}^{T})},

式中，表示H^T的组成在目标语言单语语料库中满足词法构成规则共现的次数，表示

在目标语言单语语料库中出现次数；

的计算公式如下：

T为目标语言--Target Language,S为源语言--Source Language。

Sim (D_{m}^{S}, D_{m}^{T}) = \frac{D_{KL} (D_{m}^{S} | | D_{m}^{S}) + D_{KL} (D_{m}^{T} | | D_{m}^{S})}{2},

其中，为源语言文档

和目标语言候选相似文档

的主题概率分布的KL散度，

D_{KL} (D_{m}^{S} | | D_{m}^{T}) = {[Σ_{k = 1}^{K} P (Z_{k} | D_{m}^{S}) \log \frac{P (Z_{k} | D_{m}^{S})}{P (Z_{k} | D_{m}^{T})}]}^{- 1},

为目标语言候选相似文档

和源语言文档

的主题概率分布的KL散度，

D_{KL} (D_{m}^{T} | | D_{m}^{S}) = {[Σ_{k = 1}^{K} P (Z_{k} | D_{m}^{T}) \log \frac{P (Z_{k} | D_{m}^{T})}{P (Z_{k} | D_{m}^{S})}]}^{- 1},

T为目标语言--Target Language，S为源语言--Source Language，

为

属于Ζ_k的概率，

为

选取相似度最大且超过一定阈值β的可比语料加入可比语料库，否则舍弃源语言文档和目标语言候选相似文档，所述β为0.7，其中，阈值β根据具体应用设置，所设置的阈值β越高，对齐的质量越好。

如图2所示，本装置包括：网络源语言文档获取装置，用于获取源语言网页，并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档；目标语言查询词获取装置，采用训练的跨语言主题模型分析源语言文档的跨语言主题概率，并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词；目标语言文档搜索装置，利用目标语言查询词通过搜索引擎获取网络中目标语言文档，选取排名前N的目标语言文档构成目标语言候选相似文档集；双语相似文档选择装置，对目标语言候选相似文档进行语义分析获取跨语言主题分布，根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度，筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。

综上所述，本发明采用Gibbs采样方法估计双语语料库的双语潜在狄利克雷分配（Bilingual Latent Dirichlet Allocation,Bi-LDA）模型，采用该模型推断源语言文档的跨语言主题的概率，并结合跨语言主题的目标语言词汇分布生成目标语言查询词，再利用单语搜索引擎获取目标语言候选相似文档，最后根据源语言和目标语言文档的跨语言主题分布的相似性筛选相似文档构建可比语料库。通过上述方式，本发明基于词汇和文档的跨语言主题信息，降低了对双语知识的依赖，提高了语料库建设的准确度。