CN104408078B - 一种基于关键词的中英双语平行语料库构建方法 - Google Patents
一种基于关键词的中英双语平行语料库构建方法 Download PDFInfo
- Publication number
- CN104408078B CN104408078B CN201410618941.1A CN201410618941A CN104408078B CN 104408078 B CN104408078 B CN 104408078B CN 201410618941 A CN201410618941 A CN 201410618941A CN 104408078 B CN104408078 B CN 104408078B
- Authority
- CN
- China
- Prior art keywords
- keyword
- alignment
- phrase
- bilingual
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:1)建设双语平行语料库;2)自动对齐;3)抽取关键词;4)建成基于关键词的双语平行语料库。本发明从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高2.52%。
Description
技术领域
本发明涉及一种语料库的构建方法,尤其涉及一种基于关键词的中英双语平行语料库构建方法。
背景技术
语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,科研和企业单位可开展相关的语言理论及应用研究。双语平行语料库是两种语言的篇章、段落和句子级别的对齐文本。
可以说,语料库是自然语言处理多项领域技术的基础。按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)语料库。按照语料的采集单位,语料库又可以分为篇章的、句子的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库(Parallel Corpora)和比较语料库(Comparable Corpora),前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
再具体的讲,不同的语料库可以用于不同的应用领域。如面向机器翻译的语料库训练集、面向文本分类研究的中英文新闻、法律分类语料、以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。而不论是何种目的,现今已经达成共识,语料库应该是能反映出现实世界的大规模真实电子文本。
大规模“语料库”已经成为大数据时代的“宠儿”。如今我们可以从这些大规模的真实的文本中提取中各种有用的信息。总体来讲,语料库是当前各种自然语言处理(比如,机器翻译、拼音汉字转换、语音识别、文本分类和聚类、人机问答系统等)的基础性工作,很多工作没有它,当前主流的统计方法,也就毫无根基可言了。经过不同深度加工的(纯文本、分词文本、标注文本、语义文本、篇章对齐文本、句子对齐文本等)真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。鉴于语料库的重要性,构建“大规模的”、“真实的”文本语料库就显得十分重要了。
从文本的对齐级别来区分构建的语料库的话,可以分为短语对齐(phrasealignment)文本、句子对齐(sentence alignment)文本、篇章对齐(document alignment)文本。其中句子级别的对齐对当前自然语言处理很多领域有着不可替代的作用。在语料库构建中,为了服务当前和今后相当长的一段时间的应用,我们充分考虑以下四类语料文本的建设:
信息丰富的词典语料库:词典作为基础性资源含有丰富的信息(比如人名、地名以及词的搭配信息等),这些丰富的信息资源,对自然语言处理的很多工作是非常重要的,比如作为自动词对齐的参考、双语训练的文本、术语库的补充等等。
篇章对齐语料库的研制:篇章对齐是两种或者两种以上的基于段落或者篇章对齐的翻译文本。篇章对齐的语料库可以为机器翻译和语音识别、信息检索等领域采用。篇章对齐包含了丰富的上下文信息:词语间的指代关系、语境信息等。
句子对齐语料库的研制:句子对齐的文本通常是由双语或多语的对应翻译文本构成,在机器翻译和跨语言的信息检索(cross-language information retrieval)中占据极其重要的作用,目前包括词典的自动编撰、术语的自动抽取等
可比较语料库的研制:可比较语料库(Comparable Corpora)是来自同一个领域不同的两种语言对。它的出现,可以弥补双语平行语料库库的稀缺现状。这种语料库既可以抽取平行语料库,也可以用来抽取对齐的短语片段,也可以用来抽取专业术语,是解决多语翻译的一种可替代方案。
发明内容
本发明的目的在于提供一种基于关键词的中英双语平行语料库构建方法,解决现有技术存在的缺憾。
本发明采用如下技术方案实现:
一种基于关键词的中英双语平行语料库构建方法,其特征在于,该方法包括如下步骤:
1)建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料库;
2)自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信息,抽取所有词和词组作为关键词的一部分;
3)抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度计算,经过过滤后的词组加入到平行语料库中,构成基于关键词的双语平行语料库;
4)建成基于关键词的双语平行语料库:
进一步的,在分步骤(4)中,对齐包括篇章对齐、断句或句子对齐。
进一步的,抽取关键词时去除概率低于0.0001的短语。
本发明的有益技术效果是:采用网络爬虫从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高2.52%。
附图说明
图1是基于关键词的双语平行语料库构建流程图。
图2是构建语料库中的领域分布情况。
具体实施方式
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的保护范围。
具体实施例:一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:
1)建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料库;
2)自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信息,抽取所有词和词组作为关键词的一部分;
3)抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度计算,经过过滤后的词组加入到平行语料库中,构成基于关键词的双语平行语料库;
4)建成基于关键词的双语平行语料库:
在另一实施例中,在分步骤(4)中,对齐包括篇章对齐、断句或句子对齐。
在又一实施例中,抽取关键词时去除概率低于0.0001的短语。
基于关键词的双语平行语料库来源于这样一个事实:给定一个英文句子,我们很可能不知道整句话的确切翻译,究其原因就是对句中的部分词或者短语不知道确切的翻译。但是如果被告知这些“关键词”我们很快的就能理解整个句子的意思。对于部分“关键词”的不可知性,导致我们难于理解或者理解不全一句话,这往往来自于我们大脑记忆深处的“漏洞”,或者说是词汇的匮乏。统计机器翻译中对语言文本的难“理解”,往往也是基于这些前期“学习”的翻译对的不足。针对这个特点,本实施例特别设计一种包含有句中关键词的双语平行语料库。基于关键词的双语平行语料库如下表所示:
基于关键词的双语平行语料库的建设遵循以下步骤:
传统双语平行语料库建设;
自动词对齐训练;
有监督训练抽取关键词;
基于关键词的双语语料库
在获得了双语平行语料库后,接下来就要对这些平行文本利用开源工具GIZA++,进行自动词对齐训练。词语对齐(word alignment)是机器翻译中很重要的一步,它是短语规则抽取的基础。借助GIZA++,最终我们能够得到如下格式的文本对齐文件:
# Sentence pair (1) source length 4 target length 3 alignment
This is an example .
NULL ({ }) 这 ({ 1 }) 是 ({ 2 }) 一个 ({ 3 }) 例子 ({ 4 }) 。 ({ 5 })
# Sentence pair (2) source length 7 target length 6 alignment
you can go to school today .
NULL ({ }) 你 ({ 1 }) 可以 ({ 2 }) 今天 ({ 6 }) 去 ({ 3 4 }) 上学({5 }) 。({ 7 })
# Sentence pair (3) source length 8 target length 7 alignment
I am able to do it well.
NULL ({ 2 }) 我 ({ 1 }) 可以 ({ 3 }) 把 ({ }) 它 ({ 6 }) 做({ 4 5 })好 ({ 7 }) 。({ 8 })
上述语句中数字的意思代表该词是由源语言的第几个词翻译而来的。例如,这({1 })意思代表这是由源语言中的第一个词“this”翻译而来的。每句话目标语言的结果中的NULL,代表的是源语言中未翻译的词或者短语,例如第三个例子中的NULL ({ 2 }),意思就是源语言中的第二个词中的“am”没有翻译。
在得出对齐文本后,就是要借助对齐信息,抽取所有的词和词组作为关键词的一部分。从另一个角度讲,词组的获取就是自动词和短语对齐的过程。但是要注意的是自动对齐抽取出来的词组,并不一定是完全正确的词组,其中关键的一步就是自动过滤。
经过语料库的处理(自动和人工双结合),我们总共从网络获取15,764,200传统中英句对。图2给出了构建语料库中的领域分布情况。关键词抽取后,共有2,244,319句具有高质量的关键词句对。
词组的过滤我们采用两种方法:第一种是概率去除法,即把低概率的短语对齐对去除,目前我们去除的短语对为低于概率为0.0001的词组。第二种方法就是相似度去除法。该种方法是从已知的双语词典中,去和抽取出来的词组进行相似度计算。实践中,为了扩大词典的覆盖范围,我们借助了权威的《牛津英汉词典》和有道例句中的对齐信息。经过过滤后的词组我们就加入了传统平行语料库中,构成基于关键词的双语平行语料库。
计划构建的语料库涵盖多领域的平衡语料库,主要包括:新闻(News)、小说(Novels)、法律(Laws)、教育(Education)、科学术语(Science)、口语对话字幕(Speech/Dialog/Subtitle)、微博(Twitter)、议会(Parliament)。
语料库获取后,文件的存储格式也是相当重要。为了适用不同后续的平台搭建,我们采取主要两种格式进行存放,所有的文本以UTF-8格式编码:
纯文本格式。这种存储格式主要用于机器翻译的训练数据。
标记文本格式。该种标记语言的存储格式主要分为XML和SGML两种格式。同时为了方便术语库和记忆库采用,我们同时把纯文本文件生成TMX格式文本。这种标记文本可以方便的查询文本资源的一些其他属性,包括文本的创建时间、作者、问题内容等更加细化的内容,方便数据库查询和索引。
当然,本发明还可以有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (1)
1.一种基于关键词的中英双语平行语料库构建方法,其特征在于,该方法包括如下步骤:
1)建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料库;
2)自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信息,抽取所有的词和词组作为关键词的一部分;
3)抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度去除,经过过滤后的词组加入到平行语料库中;
4)构成基于关键词的双语平行语料库;
在分步骤(4)中,对齐包括篇章对齐、断句和句子对齐;
抽取关键词时去除概率低于0.0001的短语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410618941.1A CN104408078B (zh) | 2014-11-07 | 2014-11-07 | 一种基于关键词的中英双语平行语料库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410618941.1A CN104408078B (zh) | 2014-11-07 | 2014-11-07 | 一种基于关键词的中英双语平行语料库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408078A CN104408078A (zh) | 2015-03-11 |
CN104408078B true CN104408078B (zh) | 2019-02-12 |
Family
ID=52645709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410618941.1A Expired - Fee Related CN104408078B (zh) | 2014-11-07 | 2014-11-07 | 一种基于关键词的中英双语平行语料库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408078B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750820A (zh) * | 2015-04-24 | 2015-07-01 | 中译语通科技(北京)有限公司 | 一种语料库的过滤方法及装置 |
CN105138548A (zh) * | 2015-07-13 | 2015-12-09 | 广西达译商务服务有限责任公司 | 汉泰双语平行语料自动采集的系统及实现方法 |
CN104933192A (zh) * | 2015-07-13 | 2015-09-23 | 广西达译商务服务有限责任公司 | 汉菲双语平行语料自动采集的系统及实现方法 |
CN104965925A (zh) * | 2015-07-13 | 2015-10-07 | 广西达译商务服务有限责任公司 | 汉高双语平行语料自动采集的系统及实现方法 |
CN105045861A (zh) * | 2015-07-13 | 2015-11-11 | 广西达译商务服务有限责任公司 | 汉印双语平行语料自动采集的系统及实现方法 |
CN104933194A (zh) * | 2015-07-13 | 2015-09-23 | 广西达译商务服务有限责任公司 | 汉越双语平行语料自动采集的系统及实现方法 |
CN105022728A (zh) * | 2015-07-13 | 2015-11-04 | 广西达译商务服务有限责任公司 | 汉老双语平行语料自动采集的系统及实现方法 |
CN104933195A (zh) * | 2015-07-13 | 2015-09-23 | 广西达译商务服务有限责任公司 | 汉缅双语平行语料自动采集的系统及实现方法 |
CN105045862A (zh) * | 2015-07-13 | 2015-11-11 | 广西达译商务服务有限责任公司 | 汉外双语平行语料自动采集的系统及实现方法 |
CN104933193A (zh) * | 2015-07-13 | 2015-09-23 | 广西达译商务服务有限责任公司 | 汉马双语平行语料自动采集的系统及实现方法 |
JP6655788B2 (ja) * | 2016-02-01 | 2020-02-26 | パナソニックIpマネジメント株式会社 | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム |
CN105843801B (zh) * | 2016-03-25 | 2018-05-11 | 北京语言大学 | 多译本平行语料库的构建系统 |
CN105868187B (zh) * | 2016-03-25 | 2018-05-08 | 北京语言大学 | 多译本平行语料库的构建方法 |
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN106126506B (zh) * | 2016-06-22 | 2019-10-22 | 上海一者信息科技有限公司 | 一种在线语料对齐方法及系统 |
CN108664477B (zh) * | 2016-06-28 | 2022-04-01 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
CN107526728A (zh) * | 2017-08-07 | 2017-12-29 | 中译语通科技(青岛)有限公司 | 一种基于众包的双语平行语料对齐方法 |
CN108021560B (zh) * | 2017-12-07 | 2021-04-27 | 苏州大学 | 一种数据增强方法、系统、装置及计算机可读存储介质 |
CN109033320B (zh) * | 2018-07-18 | 2021-02-12 | 无码科技(杭州)有限公司 | 一种双语新闻聚合方法及系统 |
CN109376224B (zh) * | 2018-10-24 | 2020-07-21 | 深圳市壹鸽科技有限公司 | 语料过滤方法与装置 |
CN109857746B (zh) * | 2018-11-09 | 2021-05-04 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN110046261B (zh) * | 2019-04-22 | 2022-01-21 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN111221965A (zh) * | 2019-12-30 | 2020-06-02 | 成都信息工程大学 | 基于公共标识语双语语料的分类抽样检测方法 |
CN111241784A (zh) * | 2019-12-30 | 2020-06-05 | 成都理工大学 | 公共标识语语料资源的加工整理方法 |
CN111368561A (zh) * | 2020-02-28 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 平行语料获取方法、装置、电子设备、及存储介质 |
CN116070643B (zh) * | 2023-04-03 | 2023-08-15 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020043A (zh) * | 2012-11-16 | 2013-04-03 | 哈尔滨工业大学 | 一种面向web双语平行语料资源的分布式采集系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
-
2014
- 2014-11-07 CN CN201410618941.1A patent/CN104408078B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020043A (zh) * | 2012-11-16 | 2013-04-03 | 哈尔滨工业大学 | 一种面向web双语平行语料资源的分布式采集系统 |
Non-Patent Citations (3)
Title |
---|
Automatic Construction of English/Chinese Parallel Corpora;Christopher C. Yang 等;《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY,》;20031231;全文 |
Automatically Mining Parallel Corpora for Minority Languages from Web Pages;Zede Zhu 等;《2012 International Conference on Asian Language Processing》;20121231;全文 |
汉英平行语料库中名词短语对齐算法的研究;薛松;《中国优秀硕士学位论文全文数据库 信息科技辑》;20040315(第1期);第17-32页 |
Also Published As
Publication number | Publication date |
---|---|
CN104408078A (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408078B (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
Saad et al. | Osac: Open source arabic corpora | |
Brooke et al. | GutenTag: an NLP-driven tool for digital humanities research in the Project Gutenberg corpus | |
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
Wang et al. | Automatic construction of discourse corpora for dialogue translation | |
Abainia | DZDC12: a new multipurpose parallel Algerian Arabizi–French code-switched corpus | |
Benko | Two years of Aranea: Increasing counts and tuning the pipeline | |
Rivera et al. | A flexible framework for collocation retrieval and translation from parallel and comparable corpora | |
Boulaknadel et al. | Building a standard Amazigh corpus | |
Utka et al. | Lithuanian-Latvian-Lithuanian Parallel Corpus. | |
Alkahtani et al. | A new parallel corpus of Arabic/English | |
Rosmorduc | Computational linguistics in egyptology | |
Dimitrova et al. | Bulgarian-Slovak Parallel Corpus | |
Bahanshal et al. | Toward recipes for arabic dbpedia | |
Oco et al. | Resources for Philippine languages: Collection, annotation, and modeling | |
CN106815189B (zh) | 一种汉语新动词识别方法 | |
Yamamoto et al. | What we need is word, not morpheme; constructing word analyzer for Japanese | |
Wu et al. | Research on Intelligent Retrieval Model of Multilingual Text Information in Corpus | |
Usoniene et al. | Corpus Academicum Lithuanicum: design criteria, methodology, application | |
Hill et al. | Introduction (to special issue on Tibetan natural language processing) | |
Sadek et al. | Building a causation annotated corpus: the Salford Arabic Causal Bank-proclitics | |
Nasim | On building an interpretable topic modeling approach for the Urdu language | |
Abu Bakar et al. | Part-of-speech for old Malay manuscript corpus: A Review | |
Dimitrova et al. | Bilingual Corpus-Digital Repository for Preservation of Language Heritage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190212 Termination date: 20191107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |