CN103473280A - 一种网络可比语料的挖掘方法及装置 - Google Patents

一种网络可比语料的挖掘方法及装置 Download PDF

Info

Publication number
CN103473280A
CN103473280A CN2013103820101A CN201310382010A CN103473280A CN 103473280 A CN103473280 A CN 103473280A CN 2013103820101 A CN2013103820101 A CN 2013103820101A CN 201310382010 A CN201310382010 A CN 201310382010A CN 103473280 A CN103473280 A CN 103473280A
Authority
CN
China
Prior art keywords
language
document
target language
target
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103820101A
Other languages
English (en)
Other versions
CN103473280B (zh
Inventor
李淼
朱泽德
张健
曾新华
陈雷
曾伟辉
郑守国
高会议
胡泽林
杨振新
陈晟
李华龙
董瀚琳
吴娜
卞程飞
翁士状
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN201310382010.1A priority Critical patent/CN103473280B/zh
Publication of CN103473280A publication Critical patent/CN103473280A/zh
Application granted granted Critical
Publication of CN103473280B publication Critical patent/CN103473280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络可比语料的挖掘方法,包括:利用网络爬虫获取源语言网页,经预处理后形成源语言文档;分析源语言文档的跨语言主题的概率,产生对应的目标语言查询词;将目标语言查询词提交搜索引擎,选取前N的文档构成目标语言候选相似文档集;计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的文档构建可比语料库。本发明还公开了一种实施网络可比语料的挖掘方法的装置。本发明避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率;源语言和目标语言相似文档匹配通过主题分布的相似性实现,提高了语料库建设的准确度。

Description

一种网络可比语料的挖掘方法及装置
技术领域
本发明涉及统计机器翻译和跨语言信息检索技术领域,尤其是一种网络可比语料的挖掘方法及装置。
背景技术
可比语料库是由语言不同、内容相似但非互译的文档构成的集合,从中挖掘双语术语、命名实体、平行句对等细粒度的翻译等价促进了词典编纂、跨语言信息检索和统计机器翻译等领域的发展。相对于平行语料,可比语料内容的相似性降低了平行语料中源语言和目标语言文档互译的要求,使可比语料具有语言真实、来源广阔、领域全面、内容新颖和易于获取的优势。
现有的可比较语料构建主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面,采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性;在跨语言检索方面,将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档,构成可比语料库;在维基百科方面,以维基百科类别信息作为主题约束,以语言链接进行双语映射采集相应源语言和目标语言的百科页面。然而,上述三种方法面临的问题有:词汇翻译中的歧义、双语知识的覆盖度不足或可比语料局限于特定数据来源。
发明内容
本发明的首要目的在于提供一种避免词汇翻译歧义的产生,降低对双语知识的依赖,提高语料库建设的准确度的网络可比语料的挖掘方法。
为实现上述目的,本发明采用了以下技术方案:一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:
(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;
(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;
(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集;
(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。
在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
所述步骤(2)包括以下顺序的步骤:
(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;
(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;
(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;
(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
在所述步骤(3)中,N为10。
在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
Sim ( D m S , D m T ) = D KL ( D m S | | D m S ) + D KL ( D m T | | D m S ) 2 ,
其中,
Figure BDA0000373654130000022
为源语言文档
Figure BDA0000373654130000023
和目标语言候选相似文档
Figure BDA0000373654130000024
的主题概率分布的KL散度, D KL ( D m S | | D m T ) = [ Σ k = 1 K P ( Z k | D m S ) log P ( Z k | D m S ) P ( Z k | D m T ) ] - 1 ,
Figure BDA0000373654130000026
为目标语言候选相似文档和源语言文档
Figure BDA0000373654130000028
的主题概率分布的KL散度, D KL ( D m T | | D m S ) = [ Σ k = 1 K P ( Z k | D m T ) log P ( Z k | D m T ) P ( Z k | D m S ) ] - 1 ; T为目标语言--Target Language,S为源语言--Source Language,
Figure BDA0000373654130000032
属于Ζk的概率,
Figure BDA0000373654130000033
Figure BDA0000373654130000034
属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档。
所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
P ( ω n T | D m S ) = Π k = 1 K P ′ ( ω n T | Z k ) P ( Z k | D m S ) ,
其中,为目标语言词汇
Figure BDA0000373654130000037
对源语言文档
Figure BDA0000373654130000038
的权重;
Figure BDA0000373654130000039
为目标语言词汇数据,
Figure BDA00003736541300000310
为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,
Figure BDA00003736541300000311
Figure BDA00003736541300000312
属于Ζk的概率,T为目标语言--TargetLanguage,S为源语言--Source Language;
Figure BDA00003736541300000313
为Ζk属于
Figure BDA00003736541300000314
的增强概率,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
P ′ ( ω n T | Z k ) = P ( ω n T | Z k ) log K 1 + | k : P ( ω n T | Z k ) > η | ,
其中,
Figure BDA00003736541300000316
为Ζk属于
Figure BDA00003736541300000317
的概率,为Ζk属于
Figure BDA00003736541300000319
的逆主题概率,η为目标语言词汇对主题的噪声阈值。
所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重,计算公式如下:
P pharse ( H T | D m S ) = P phrase ( H T ) × P ( H T | D m S ) ,
其中,为目标语言查询词HT对源语言文档
Figure BDA00003736541300000322
的权重,HT为相邻J个候选查询词ωj构成的查询词,1≤j≤J,J=2,3,Pphrase(HT)为HT中相邻候选查询词在单语语料库的共现率;
Figure BDA00003736541300000323
为目标语言查询词对源语言文档的直接权重;
Pphrase(HT)的计算公式如下:
P phrase ( H T ) = P co ( ω 1 T , . . . , ω J T ) = P ( ω 1 T , . . . , ω J T ) P ( ω 1 T ) × . . . × P ( ω J T ) ,
式中,表示HT的组成
Figure BDA0000373654130000042
在目标语言单语语料库中满足词法构成规则共现的次数,表示
Figure BDA0000373654130000044
在目标语言单语语料库中出现次数;
的计算公式如下:
Figure BDA0000373654130000046
T为目标语言--Target Language,S为源语言--Source Language。
所述β为0.7。
所述η为0.005。
本发明的另一目的在于提供一种网络可比语料的挖掘方法的装置,包括:
网络源语言文档获取装置,用于获取源语言网页,并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档;
目标语言查询词获取装置,采用训练的跨语言主题模型分析源语言文档的跨语言主题概率,并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词;
目标语言文档搜索装置,利用目标语言查询词通过搜索引擎获取网络中目标语言文档,选取排名前N的目标语言文档构成目标语言候选相似文档集;
双语相似文档选择装置,对目标语言候选相似文档进行语义分析获取跨语言主题分布,根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度,筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。
由上述技术方案可知,本发明将文档的主题分析引入网络可比语料挖掘研究,且无需双语词典等知识就能实现从源语言文档到目标语言查询词的获取,避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率,特别是在源语言资源匮乏时十分必要;源语言和目标语言相似文档匹配通过主题分布的相似性实现,增强了对文档语义的分析,提高了语料库建设的准确度。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的装置结构框图。
具体实施方式
一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集,N为10;(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。如图1所示。
以下结合图1对本发明作进一步的说明。
在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
所述步骤(2)包括以下顺序的步骤:(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
所述步骤(a)中,在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型,其中,跨语言隐含狄利克雷分配方法有Mimno和Xiaochuan Ni等分别在2009年的文章“Polylingual topicmodels”和“Mining multilingual topics from Wikipedia”等中进行了详细描述,在此不再展开详细叙述。
所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
P ( ω n T | D m S ) = Π k = 1 K P ′ ( ω n T | Z k ) P ( Z k | D m S ) ,
其中,
Figure BDA0000373654130000062
为目标语言词汇
Figure BDA0000373654130000063
对源语言文档
Figure BDA0000373654130000064
的权重;
Figure BDA0000373654130000065
为目标语言词汇数据,
Figure BDA0000373654130000066
为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,
Figure BDA0000373654130000067
Figure BDA0000373654130000068
属于Ζk的概率;
Figure BDA0000373654130000069
为Ζk属于
Figure BDA00003736541300000610
的增强概率,借鉴于TFIDF模型的思想,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
P ′ ( ω n T | Z k ) = P ( ω n T | Z k ) log K 1 + | k : P ( ω n T | Z k ) > η | ,
其中,
Figure BDA00003736541300000612
Figure BDA00003736541300000613
属于
Figure BDA00003736541300000614
的概率,
Figure BDA00003736541300000615
为Ζk属于
Figure BDA00003736541300000616
的逆主题概率,η为目标语言词汇对主题的噪声阈值,η为0.005。
所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重,计算公式如下:
P pharse ( H T | D m S ) = P phrase ( H T ) × P ( H T | D m S ) ,
其中,
Figure BDA00003736541300000618
为目标语言查询词HT对源语言文档
Figure BDA00003736541300000619
的权重,HT为相邻J个候选查询词ωj构成的查询词,1≤j≤J,J=2,3,Pphrase(HT)为HT中相邻候选查询词在单语语料库的共现率;
Figure BDA00003736541300000620
为目标语言查询词对源语言文档的直接权重;
Pphrase(HT)的计算公式如下:
P phrase ( H T ) = P co ( ω 1 T , . . . , ω J T ) = P ( ω 1 T , . . . , ω J T ) P ( ω 1 T ) × . . . × P ( ω J T ) ,
式中,表示HT的组成在目标语言单语语料库中满足词法构成规则共现的次数,表示
Figure BDA0000373654130000075
在目标语言单语语料库中出现次数;
Figure BDA0000373654130000076
的计算公式如下:
Figure BDA0000373654130000077
T为目标语言--Target Language,S为源语言--Source Language。
在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
Sim ( D m S , D m T ) = D KL ( D m S | | D m S ) + D KL ( D m T | | D m S ) 2 ,
其中,为源语言文档
Figure BDA00003736541300000710
和目标语言候选相似文档
Figure BDA00003736541300000711
的主题概率分布的KL散度, D KL ( D m S | | D m T ) = [ Σ k = 1 K P ( Z k | D m S ) log P ( Z k | D m S ) P ( Z k | D m T ) ] - 1 ,
Figure BDA00003736541300000713
为目标语言候选相似文档
Figure BDA00003736541300000714
和源语言文档
Figure BDA00003736541300000715
的主题概率分布的KL散度, D KL ( D m T | | D m S ) = [ Σ k = 1 K P ( Z k | D m T ) log P ( Z k | D m T ) P ( Z k | D m S ) ] - 1 , T为目标语言--Target Language,S为源语言--Source Language,
Figure BDA00003736541300000717
Figure BDA00003736541300000718
属于Ζk的概率,
Figure BDA00003736541300000719
Figure BDA00003736541300000720
属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档,所述β为0.7,其中,阈值β根据具体应用设置,所设置的阈值β越高,对齐的质量越好。
如图2所示,本装置包括:网络源语言文档获取装置,用于获取源语言网页,并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档;目标语言查询词获取装置,采用训练的跨语言主题模型分析源语言文档的跨语言主题概率,并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词;目标语言文档搜索装置,利用目标语言查询词通过搜索引擎获取网络中目标语言文档,选取排名前N的目标语言文档构成目标语言候选相似文档集;双语相似文档选择装置,对目标语言候选相似文档进行语义分析获取跨语言主题分布,根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度,筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。
综上所述,本发明采用Gibbs采样方法估计双语语料库的双语潜在狄利克雷分配(Bilingual Latent Dirichlet Allocation,Bi-LDA)模型,采用该模型推断源语言文档的跨语言主题的概率,并结合跨语言主题的目标语言词汇分布生成目标语言查询词,再利用单语搜索引擎获取目标语言候选相似文档,最后根据源语言和目标语言文档的跨语言主题分布的相似性筛选相似文档构建可比语料库。通过上述方式,本发明基于词汇和文档的跨语言主题信息,降低了对双语知识的依赖,提高了语料库建设的准确度。

Claims (10)

1.一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:
(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;
(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;
(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集;
(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。
2.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
3.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:所述步骤(2)包括以下顺序的步骤:
(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;
(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;
(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;
(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
4.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:在所述步骤(3)中,N为10。
5.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
Sim ( D m S , D m T ) = D KL ( D m S | | D m S ) + D KL ( D m T | | D m S ) 2 ,
其中,
Figure FDA0000373654120000022
为源语言文档
Figure FDA0000373654120000023
和目标语言候选相似文档
Figure FDA0000373654120000024
的主题概率分布的KL散度, D KL ( D m S | | D m T ) = [ Σ k = 1 K P ( Z k | D m S ) log P ( Z k | D m S ) P ( Z k | D m T ) ] - 1 ,
Figure FDA0000373654120000026
为目标语言候选相似文档
Figure FDA0000373654120000027
和源语言文档
Figure FDA0000373654120000028
的主题概率分布的KL散度, D KL ( D m T | | D m S ) = [ Σ k = 1 K P ( Z k | D m T ) log P ( Z k | D m T ) P ( Z k | D m S ) ] - 1 ; T为目标语言--Target Language,S为源语言--Source Language,
Figure FDA00003736541200000210
Figure FDA00003736541200000211
属于Ζk的概率,
Figure FDA00003736541200000213
属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档。
6.根据权利要求3所述的网络可比语料的挖掘方法,其特征在于:所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
P ( ω n T | D m S ) = Π k = 1 K P ′ ( ω n T | Z k ) P ( Z k | D m S ) ,
其中,
Figure FDA00003736541200000215
为目标语言词汇
Figure FDA00003736541200000216
对源语言文档
Figure FDA00003736541200000217
的权重;
Figure FDA00003736541200000218
为目标语言词汇数据,
Figure FDA00003736541200000219
为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,
Figure FDA00003736541200000220
Figure FDA00003736541200000221
属于Ζk的概率,T为目标语言--TargetLanguage,S为源语言--Source Language;
为Ζk属于
Figure FDA00003736541200000223
的增强概率,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
P ′ ( ω n T | Z k ) = P ( ω n T | Z k ) log K 1 + | k : : P ( ω n T | Z k ) > η | ,
其中,
Figure FDA00003736541200000225
为Ζk属于
Figure FDA00003736541200000226
的概率,
Figure FDA00003736541200000227
为Ζk属于
Figure FDA00003736541200000228
的逆主题概率,η为目标语言词汇对主题的噪声阈值。
7.根据权利要求3所述的网络可比语料的挖掘方法,其特征在于:所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重,计算公式如下:
P pharse ( H T | D m S ) = P phrase ( H T ) × P ( H T | D m S ) ,
其中,为目标语言查询词HT对源语言文档
Figure FDA0000373654120000033
的权重,HT为相邻J个候选查询词ωj构成的查询词,1≤j≤J,J=2,3,Pphrase(HT)为HT中相邻候选查询词在单语语料库的共现率;为目标语言查询词对源语言文档的直接权重;
Pphrase(HT)的计算公式如下:
P phrase ( H T ) = P co ( ω 1 T , . . . , ω J T ) = P ( ω 1 T , . . . , ω J T ) P ( ω 1 T ) × . . . × P ( ω J T ) ,
式中,表示HT的组成
Figure FDA0000373654120000036
在目标语言单语语料库中满足词法构成规则共现的次数,
Figure FDA0000373654120000037
表示
Figure FDA0000373654120000038
在目标语言单语语料库中出现次数;
Figure FDA0000373654120000039
的计算公式如下:
T为目标语言--Target Language,S为源语言--Source Language。
8.根据权利要求5所述的网络可比语料的挖掘方法,其特征在于:所述β为0.7。
9.根据权利要求6所述的网络可比语料的挖掘方法,其特征在于:所述η为0.005。
10.实施权利要求1至9中任一项所述的网络可比语料的挖掘方法的装置,包括:
网络源语言文档获取装置,用于获取源语言网页,并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档;
目标语言查询词获取装置,采用训练的跨语言主题模型分析源语言文档的跨语言主题概率,并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词;
目标语言文档搜索装置,利用目标语言查询词通过搜索引擎获取网络中目标语言文档,选取排名前N的目标语言文档构成目标语言候选相似文档集;
双语相似文档选择装置,对目标语言候选相似文档进行语义分析获取跨语言主题分布,根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度,筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。
CN201310382010.1A 2013-08-28 2013-08-28 一种网络可比语料的挖掘方法 Active CN103473280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310382010.1A CN103473280B (zh) 2013-08-28 2013-08-28 一种网络可比语料的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310382010.1A CN103473280B (zh) 2013-08-28 2013-08-28 一种网络可比语料的挖掘方法

Publications (2)

Publication Number Publication Date
CN103473280A true CN103473280A (zh) 2013-12-25
CN103473280B CN103473280B (zh) 2017-02-08

Family

ID=49798128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310382010.1A Active CN103473280B (zh) 2013-08-28 2013-08-28 一种网络可比语料的挖掘方法

Country Status (1)

Country Link
CN (1) CN103473280B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104298663A (zh) * 2014-09-30 2015-01-21 中国科学院计算技术研究所 评价术语领域翻译一致性的方法及统计机器翻译方法
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN105260483A (zh) * 2015-11-16 2016-01-20 金陵科技学院 一种面向微博文本的跨语言话题检测装置及方法
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN106844648A (zh) * 2017-01-22 2017-06-13 中央民族大学 一种基于图片构建资源稀缺语言可比语料库的方法及系统
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN104572634B (zh) * 2014-12-25 2017-08-11 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置
CN108153835A (zh) * 2017-12-14 2018-06-12 新疆大学 一种维-汉文可比语料自动获取方法
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109766545A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
CN111159115A (zh) * 2019-12-27 2020-05-15 深信服科技股份有限公司 相似文件检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110301935A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Locating parallel word sequences in electronic documents
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110301935A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Locating parallel word sequences in electronic documents
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHU Z, LI M, CHEN L, ET AL.: "Building Comparable Corpora Based on Bilingual LDA Model", 《ACL》 *
房璐: "英汉可比较语料库的构建与应用研究", 《苏州大学硕士学位论文》 *
路荣 等: "基于隐主题分析和文本聚类的微博客新闻话题发现研究", 《模式识别与人工智能》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN104933022B (zh) * 2014-03-20 2018-11-13 株式会社东芝 信息处理装置和信息处理方法
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104298663A (zh) * 2014-09-30 2015-01-21 中国科学院计算技术研究所 评价术语领域翻译一致性的方法及统计机器翻译方法
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN104331449B (zh) * 2014-10-29 2017-10-27 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN105608083A (zh) * 2014-11-13 2016-05-25 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN105608083B (zh) * 2014-11-13 2019-09-03 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN104572634B (zh) * 2014-12-25 2017-08-11 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置
CN105260483A (zh) * 2015-11-16 2016-01-20 金陵科技学院 一种面向微博文本的跨语言话题检测装置及方法
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105677913B (zh) * 2016-02-29 2019-04-26 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN106844648A (zh) * 2017-01-22 2017-06-13 中央民族大学 一种基于图片构建资源稀缺语言可比语料库的方法及系统
CN106844648B (zh) * 2017-01-22 2019-07-26 中央民族大学 一种基于图片构建资源稀缺语言可比语料库的方法及系统
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN108153835A (zh) * 2017-12-14 2018-06-12 新疆大学 一种维-汉文可比语料自动获取方法
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN108763321B (zh) * 2018-05-02 2021-07-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109766545A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
CN109766545B (zh) * 2018-12-24 2022-11-18 中国科学院合肥物质科学研究院 基于多特征融合的文本相似度计算方法
CN111159115A (zh) * 2019-12-27 2020-05-15 深信服科技股份有限公司 相似文件检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103473280B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
US8296168B2 (en) System and method for analysis of an opinion expressed in documents with regard to a particular topic
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN103399901A (zh) 一种关键词抽取方法
CN103150381B (zh) 一种高精度汉语谓词识别方法
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
CN106202065A (zh) 一种跨语言话题检测方法及系统
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Kim et al. Effective fake news detection using graph and summarization techniques
Tian et al. A chinese event relation extraction model based on bert
Wan et al. A deep neural network model for coreference resolution in geological domain
Mastropavlos et al. Automatic acquisition of bilingual language resources
Belbachir et al. Using language models to improve opinion detection
CN104217026A (zh) 一种基于图模型的中文微博客倾向性检索方法
Qiu et al. Review of development and construction of Uyghur knowledge graph
De Luzi et al. Cicero: an AI-based writing assistant for legal users
Song et al. Hwe: Hybrid word embeddings for text classification
Keerthana Automatic Text Summarization Using Deep Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant