CN103473280B - 一种网络可比语料的挖掘方法 - Google Patents
一种网络可比语料的挖掘方法 Download PDFInfo
- Publication number
- CN103473280B CN103473280B CN201310382010.1A CN201310382010A CN103473280B CN 103473280 B CN103473280 B CN 103473280B CN 201310382010 A CN201310382010 A CN 201310382010A CN 103473280 B CN103473280 B CN 103473280B
- Authority
- CN
- China
- Prior art keywords
- language
- document
- candidate
- source
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络可比语料的挖掘方法,包括:利用网络爬虫获取源语言网页,经预处理后形成源语言文档;分析源语言文档的跨语言主题的概率,产生对应的目标语言查询词;将目标语言查询词提交搜索引擎,选取前N的文档构成目标语言候选相似文档集;计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的文档构建可比语料库。本发明避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率;源语言和目标语言相似文档匹配通过主题分布的相似性实现,提高了语料库建设的准确度。
Description
技术领域
本发明涉及统计机器翻译和跨语言信息检索技术领域,尤其是一种网络可比语料的挖掘方法。
背景技术
可比语料库是由语言不同、内容相似但非互译的文档构成的集合,从中挖掘双语术语、命名实体、平行句对等细粒度的翻译等价促进了词典编纂、跨语言信息检索和统计机器翻译等领域的发展。相对于平行语料,可比语料内容的相似性降低了平行语料中源语言和目标语言文档互译的要求,使可比语料具有语言真实、来源广阔、领域全面、内容新颖和易于获取的优势。
现有的可比较语料构建主要通过特征信息、跨语言检索和维基百科等方法来实现。在特征信息方面,采用新闻发布日期、语言无关单元、双语字典和词频分布等特征计算文档对的相似性;在跨语言检索方面,将某一语言文档中特定频率词汇或关键词翻译成另一语言作为查询词检索文档,构成可比语料库;在维基百科方面,以维基百科类别信息作为主题约束,以语言链接进行双语映射采集相应源语言和目标语言的百科页面。然而,上述三种方法面临的问题有:词汇翻译中的歧义、双语知识的覆盖度不足或可比语料局限于特定数据来源。
发明内容
本发明的目的在于提供一种避免词汇翻译歧义的产生,降低对双语知识的依赖,提高语料库建设的准确度的网络可比语料的挖掘方法。
为实现上述目的,本发明采用了以下技术方案:一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:
(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;
(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;
(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集;
(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。
在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
所述步骤(2)包括以下顺序的步骤:
(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;
(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;
(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;
(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
在所述步骤(3)中,N为10。
在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
其中,为源语言文档和目标语言候选相似文档的主题概率分布的KL散度, 为目标语言候选相似文档和源语言文档的主题概率分布的KL散度,T为目标语言--Target Language,S为源语言--Source Language,为属于Ζk的概率,为属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档。
所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
其中,为目标语言词汇对源语言文档的权重;为目标语言词汇数据,为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,为属于Ζk的概率,T为目标语言--Target Language,S为源语言--Source Language;
为Ζk属于的增强概率,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
其中,为Ζk属于的概率,为Ζk属于的逆主题概率,η为目标语言词汇对主题的噪声阈值。
所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重,计算公式如下:
其中,为目标语言查询词HT对源语言文档的权重,HT为相邻J个候选查询词ωj构成的查询词,1≤j≤J,J=2,3,Pphrase(HT)为HT中相邻候选查询词在单语语料库的共现率;为目标语言查询词对源语言文档的直接权重;
Pphrase(HT)的计算公式如下:
式中,表示HT的组成在目标语言单语语料库中满足词法构成规则共现的次数,表示在目标语言单语语料库中出现次数;
的计算公式如下:
T为目标语言--Target Language,S为源语言--Source Language。
所述β为0.7。
所述η为0.005。
由上述技术方案可知,本发明将文档的主题分析引入网络可比语料挖掘研究,且无需双语词典等知识就能实现从源语言文档到目标语言查询词的获取,避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率,特别是在源语言资源匮乏时十分必要;源语言和目标语言相似文档匹配通过主题分布的相似性实现,增强了对文档语义的分析,提高了语料库建设的准确度。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的装置结构框图。
具体实施方式
一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集,N为10;(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。如图1所示。
以下结合图1对本发明作进一步的说明。
在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
所述步骤(2)包括以下顺序的步骤:(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
所述步骤(a)中,在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型,其中,跨语言隐含狄利克雷分配方法有Mimno和XiaochuanNi等分别在2009年的文章“Polylingual topic models”和“Mining multilingual topicsfrom Wikipedia”等中进行了详细描述,在此不再展开详细叙述。
所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
其中,为目标语言词汇对源语言文档的权重;为目标语言词汇数据,为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,为属于Ζk的概率;
为Ζk属于的增强概率,借鉴于TFIDF模型的思想,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
其中,为Ζk属于的概率,为Ζk属于的逆主题概率,η为目标语言词汇对主题的噪声阈值,η为0.005。
所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重,计算公式如下:
其中,为目标语言查询词HT对源语言文档的权重,HT为相邻J个候选查询词ωj构成的查询词,1≤j≤J,J=2,3,Pphrase(HT)为HT中相邻候选查询词在单语语料库的共现率;为目标语言查询词对源语言文档的直接权重;
Pphrase(HT)的计算公式如下:
式中,表示HT的组成在目标语言单语语料库中满足词法构成规则共现的次数,表示在目标语言单语语料库中出现次数;
的计算公式如下:
T为目标语言--Target Language,S为源语言--Source Language。
在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
其中,为源语言文档和目标语言候选相似文档的主题概率分布的KL散度, 为目标语言候选相似文档和源语言文档的主题概率分布的KL散度,T为目标语言--Target Language,S为源语言--Source Language,为属于Ζk的概率,为属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档,所述β为0.7,其中,阈值β根据具体应用设置,所设置的阈值β越高,对齐的质量越好。
如图2所示,本装置包括:网络源语言文档获取装置,用于获取源语言网页,并对网页进行去噪、词性标注、命名实体识别、词性选择的预处理获得源语言文档;目标语言查询词获取装置,采用训练的跨语言主题模型分析源语言文档的跨语言主题概率,并结合目标语言词汇对主题的分布计算对应于源语言文档的目标语言查询词;目标语言文档搜索装置,利用目标语言查询词通过搜索引擎获取网络中目标语言文档,选取排名前N的目标语言文档构成目标语言候选相似文档集;双语相似文档选择装置,对目标语言候选相似文档进行语义分析获取跨语言主题分布,根据源语言文档和目标语言候选相似文档主题分布计算不同语言文档的相似度,筛选相似度排序高的源语言文档和目标语言候选相似文档构建可比语料库。
综上所述,本发明采用Gibbs采样方法估计双语语料库的双语潜在狄利克雷分配(Bilingual Latent Dirichlet Allocation,Bi-LDA)模型,采用该模型推断源语言文档的跨语言主题的概率,并结合跨语言主题的目标语言词汇分布生成目标语言查询词,再利用单语搜索引擎获取目标语言候选相似文档,最后根据源语言和目标语言文档的跨语言主题分布的相似性筛选相似文档构建可比语料库。通过上述方式,本发明基于词汇和文档的跨语言主题信息,降低了对双语知识的依赖,提高了语料库建设的准确度。
Claims (8)
1.一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:
(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;
(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;
(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集;
(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库;
在所述步骤(1)中,利用网络爬虫抓取源语言原始网页并存储至本地数据库中,对收集的网页进行除去导航条、相关链接的去噪声处理,对网页的正文内容进行分词、词性标注、命名实体识别、词性选择的预处理。
2.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:所述步骤(2)包括以下顺序的步骤:
(a)在已有的双语语料库的基础上,利用跨语言隐含狄利克雷分配的方法获取多个跨语言主题模型;
(b)跨语言主题模型对源语言文档进行语义分析,获取每一跨语言主题的概率;
(c)根据源语言文档的跨语言主题分布和每个主题中目标语言词汇的概率分布,获取目标语言候选查询词;
(d)根据目标语言单语语料库中词汇的统计信息,合并目标语言候选查询词形成目标语言查询词。
3.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:在所述步骤(3)中,N为10。
4.根据权利要求1所述的网络可比语料的挖掘方法,其特征在于:在所述步骤(4)中,源语言文档和目标语言候选相似文档的跨语言主题概率分布的KL散度作为衡量源语言文档和目标语言候选相似文档的相似度,相似度计算公式如下:
其中,为源语言文档和目标语言候选相似文档的主题概率分布的KL散度, 为目标语言候选相似文档和源语言文档的主题概率分布的KL散度,T为目标语言--Target Language,S为源语言--Source Language,为属于Ζk的概率,为属于Ζk的概率,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量;
选取相似度最大且超过一定阈值β的可比语料加入可比语料库,否则舍弃源语言文档和目标语言候选相似文档。
5.根据权利要求2所述的网络可比语料的挖掘方法,其特征在于:所述步骤(c)中,计算目标语言词汇对源语言文档的权重并排序,形成目标语言查候选询词,权重的计算公式如下:
其中,为目标语言词汇对源语言文档的权重;为目标语言词汇数据,为源语言文档数据,Ζk为第k个跨语言主题,1≤k≤K,K为所述多个跨语言主题的数量,为属于Ζk的概率,T为目标语言--Target Language,S为源语言--SourceLanguage;
为Ζk属于的增强概率,与词汇在所有主题中出现的概率成正比,与词汇在所有主题中出现的频率成反比,其计算公式如下:
其中,为Ζk属于的概率,为Ζk属于的逆主题概率,η为目标语言词汇对主题的噪声阈值。
6.根据权利要求2所述的网络可比语料的挖掘方法,其特征在于:所述步骤(d)中,在目标语言的单语语料库中统计目标语言候选查询词的共现率,结合目标语言候选查询词对源语言文档的概率,计算相邻目标语言查询词对源语言文档的权重。
7.根据权利要求4所述的网络可比语料的挖掘方法,其特征在于:所述β为0.7。
8.根据权利要求5所述的网络可比语料的挖掘方法,其特征在于:所述η为0.005。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310382010.1A CN103473280B (zh) | 2013-08-28 | 2013-08-28 | 一种网络可比语料的挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310382010.1A CN103473280B (zh) | 2013-08-28 | 2013-08-28 | 一种网络可比语料的挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473280A CN103473280A (zh) | 2013-12-25 |
CN103473280B true CN103473280B (zh) | 2017-02-08 |
Family
ID=49798128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310382010.1A Active CN103473280B (zh) | 2013-08-28 | 2013-08-28 | 一种网络可比语料的挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473280B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6165657B2 (ja) * | 2014-03-20 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN104133848B (zh) * | 2014-07-01 | 2017-09-19 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN104298663B (zh) * | 2014-09-30 | 2017-01-18 | 中国科学院计算技术研究所 | 翻译一致性的方法和装置及统计机器翻译方法和系统 |
CN104331449B (zh) * | 2014-10-29 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN105608083B (zh) * | 2014-11-13 | 2019-09-03 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
CN104572634B (zh) * | 2014-12-25 | 2017-08-11 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
CN105260483A (zh) * | 2015-11-16 | 2016-01-20 | 金陵科技学院 | 一种面向微博文本的跨语言话题检测装置及方法 |
CN105677913B (zh) * | 2016-02-29 | 2019-04-26 | 哈尔滨工业大学 | 一种基于机器翻译的中文语义知识库的构建方法 |
CN106294314A (zh) * | 2016-07-19 | 2017-01-04 | 北京奇艺世纪科技有限公司 | 主题挖掘方法及装置 |
CN106372187B (zh) * | 2016-08-31 | 2019-12-17 | 中译语通科技股份有限公司 | 一种面向大数据的跨语言检索方法 |
CN106776560A (zh) * | 2016-12-15 | 2017-05-31 | 昆明理工大学 | 一种柬埔寨语组织机构名识别方法 |
CN106844648B (zh) * | 2017-01-22 | 2019-07-26 | 中央民族大学 | 一种基于图片构建资源稀缺语言可比语料库的方法及系统 |
CN106980664B (zh) * | 2017-03-21 | 2020-11-10 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN108153835A (zh) * | 2017-12-14 | 2018-06-12 | 新疆大学 | 一种维-汉文可比语料自动获取方法 |
CN108763321B (zh) * | 2018-05-02 | 2021-07-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN109766545B (zh) * | 2018-12-24 | 2022-11-18 | 中国科学院合肥物质科学研究院 | 基于多特征融合的文本相似度计算方法 |
CN111159115A (zh) * | 2019-12-27 | 2020-05-15 | 深信服科技股份有限公司 | 相似文件检测方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8560297B2 (en) * | 2010-06-07 | 2013-10-15 | Microsoft Corporation | Locating parallel word sequences in electronic documents |
-
2013
- 2013-08-28 CN CN201310382010.1A patent/CN103473280B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
Non-Patent Citations (3)
Title |
---|
Building Comparable Corpora Based on Bilingual LDA Model;Zhu Z, Li M, Chen L, et al.;《ACL》;20130809;第278-282页 * |
基于隐主题分析和文本聚类的微博客新闻话题发现研究;路荣 等;《模式识别与人工智能》;20121231(第3期);第6页 * |
英汉可比较语料库的构建与应用研究;房璐;《苏州大学硕士学位论文》;20111231;第7、18、19、26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103473280A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473280B (zh) | 一种网络可比语料的挖掘方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN105138665B (zh) | 一种基于改进lda模型的互联网话题在线挖掘方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN105589948A (zh) | 一种文献引用网络可视化及文献推荐方法及系统 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN109543178A (zh) | 一种司法文本标签体系构建方法及系统 | |
CN105279252A (zh) | 挖掘相关词的方法、搜索方法、搜索系统 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN106372061A (zh) | 基于语义的短文本相似度计算方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN104063387A (zh) | 在文本中抽取关键词的装置和方法 | |
CN103150381B (zh) | 一种高精度汉语谓词识别方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN102495892A (zh) | 一种网页信息抽取方法 | |
CN106372117B (zh) | 一种基于词共现的文本分类方法及其装置 | |
Afzal et al. | Mayonlp at semeval-2016 task 1: Semantic textual similarity based on lexical semantic net and deep learning semantic model | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |