CN104408078B

CN104408078B - 一种基于关键词的中英双语平行语料库构建方法

Info

Publication number: CN104408078B
Application number: CN201410618941.1A
Authority: CN
Inventors: 程维
Original assignee: BEIJING INTERNATIONAL STUDIES UNIVERSITY
Current assignee: BEIJING INTERNATIONAL STUDIES UNIVERSITY
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2019-02-12
Anticipated expiration: 2034-11-07
Also published as: CN104408078A

Abstract

本发明公开了一种基于关键词的中英双语平行语料库构建方法，该方法包括如下步骤：1）建设双语平行语料库；2）自动对齐；3）抽取关键词；4）建成基于关键词的双语平行语料库。本发明从网络上获取传统的平行语料库，然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对，同时采用各种相似度的计算方法，把提取出来的关键词对进行过滤，最终得到质量较好的基于关键词的平行语料库。实验证明，基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量，从实验的BLEU值来看，在英到中的翻译中，能提高大约6.2%，而在中英翻译中能提高2.52%。

Description

一种基于关键词的中英双语平行语料库构建方法

技术领域

本发明涉及一种语料库的构建方法，尤其涉及一种基于关键词的中英双语平行语料库构建方法。

背景技术

语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具，科研和企业单位可开展相关的语言理论及应用研究。双语平行语料库是两种语言的篇章、段落和句子级别的对齐文本。

可以说，语料库是自然语言处理多项领域技术的基础。按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）语料库。按照语料的采集单位，语料库又可以分为篇章的、句子的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库（Parallel Corpora）和比较语料库（Comparable Corpora），前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。

再具体的讲，不同的语料库可以用于不同的应用领域。如面向机器翻译的语料库训练集、面向文本分类研究的中英文新闻、法律分类语料、以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。而不论是何种目的，现今已经达成共识，语料库应该是能反映出现实世界的大规模真实电子文本。

大规模“语料库”已经成为大数据时代的“宠儿”。如今我们可以从这些大规模的真实的文本中提取中各种有用的信息。总体来讲，语料库是当前各种自然语言处理（比如，机器翻译、拼音汉字转换、语音识别、文本分类和聚类、人机问答系统等）的基础性工作，很多工作没有它，当前主流的统计方法，也就毫无根基可言了。经过不同深度加工的（纯文本、分词文本、标注文本、语义文本、篇章对齐文本、句子对齐文本等）真实文本的语料库，是研究自然语言统计性质的基础。没有它们，统计方法只能是无源之水。鉴于语料库的重要性，构建“大规模的”、“真实的”文本语料库就显得十分重要了。

从文本的对齐级别来区分构建的语料库的话，可以分为短语对齐（phrasealignment）文本、句子对齐（sentence alignment）文本、篇章对齐（document alignment）文本。其中句子级别的对齐对当前自然语言处理很多领域有着不可替代的作用。在语料库构建中，为了服务当前和今后相当长的一段时间的应用，我们充分考虑以下四类语料文本的建设：

信息丰富的词典语料库：词典作为基础性资源含有丰富的信息（比如人名、地名以及词的搭配信息等），这些丰富的信息资源，对自然语言处理的很多工作是非常重要的，比如作为自动词对齐的参考、双语训练的文本、术语库的补充等等。

篇章对齐语料库的研制：篇章对齐是两种或者两种以上的基于段落或者篇章对齐的翻译文本。篇章对齐的语料库可以为机器翻译和语音识别、信息检索等领域采用。篇章对齐包含了丰富的上下文信息：词语间的指代关系、语境信息等。

句子对齐语料库的研制：句子对齐的文本通常是由双语或多语的对应翻译文本构成，在机器翻译和跨语言的信息检索（cross-language information retrieval）中占据极其重要的作用，目前包括词典的自动编撰、术语的自动抽取等

可比较语料库的研制：可比较语料库（Comparable Corpora）是来自同一个领域不同的两种语言对。它的出现，可以弥补双语平行语料库库的稀缺现状。这种语料库既可以抽取平行语料库，也可以用来抽取对齐的短语片段，也可以用来抽取专业术语，是解决多语翻译的一种可替代方案。

发明内容

本发明的目的在于提供一种基于关键词的中英双语平行语料库构建方法，解决现有技术存在的缺憾。

本发明采用如下技术方案实现：

一种基于关键词的中英双语平行语料库构建方法，其特征在于，该方法包括如下步骤：

1）建设双语平行语料库：本步骤中包括如下分步骤：（1）源网站搜集、（2）通过网络爬虫获取网站HTML、（3）对网站HTML进行解析、（4）对齐、（5）去除噪音、（6）得到平行语料库；

2）自动对齐：利用开源工具GIZA++进行词语对齐，得到对齐文本，借助对齐文本的信息，抽取所有词和词组作为关键词的一部分；

3）抽取关键词：对词和词组进行过滤，过滤的方法为概率去除法或相似度去除法，所述概率去除法为将低概率的短语对齐对去除，所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度计算，经过过滤后的词组加入到平行语料库中，构成基于关键词的双语平行语料库；

4）建成基于关键词的双语平行语料库：

进一步的，在分步骤（4）中，对齐包括篇章对齐、断句或句子对齐。

进一步的，抽取关键词时去除概率低于0.0001的短语。

本发明的有益技术效果是：采用网络爬虫从网络上获取传统的平行语料库，然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对，同时采用各种相似度的计算方法，把提取出来的关键词对进行过滤，最终得到质量较好的基于关键词的平行语料库。实验证明，基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量，从实验的BLEU值来看，在英到中的翻译中，能提高大约6.2%，而在中英翻译中能提高2.52%。

附图说明

图1是基于关键词的双语平行语料库构建流程图。

图2是构建语料库中的领域分布情况。

具体实施方式

通过下面对实施例的描述，将更加有助于公众理解本发明，但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制，任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的保护范围。

具体实施例：一种基于关键词的中英双语平行语料库构建方法，该方法包括如下步骤：

4）建成基于关键词的双语平行语料库：

在另一实施例中，在分步骤（4）中，对齐包括篇章对齐、断句或句子对齐。

在又一实施例中，抽取关键词时去除概率低于0.0001的短语。

基于关键词的双语平行语料库来源于这样一个事实：给定一个英文句子，我们很可能不知道整句话的确切翻译，究其原因就是对句中的部分词或者短语不知道确切的翻译。但是如果被告知这些“关键词”我们很快的就能理解整个句子的意思。对于部分“关键词”的不可知性，导致我们难于理解或者理解不全一句话，这往往来自于我们大脑记忆深处的“漏洞”，或者说是词汇的匮乏。统计机器翻译中对语言文本的难“理解”，往往也是基于这些前期“学习”的翻译对的不足。针对这个特点，本实施例特别设计一种包含有句中关键词的双语平行语料库。基于关键词的双语平行语料库如下表所示：

基于关键词的双语平行语料库的建设遵循以下步骤：

传统双语平行语料库建设；

自动词对齐训练；

有监督训练抽取关键词；

基于关键词的双语语料库

在获得了双语平行语料库后，接下来就要对这些平行文本利用开源工具GIZA++，进行自动词对齐训练。词语对齐（word alignment）是机器翻译中很重要的一步，它是短语规则抽取的基础。借助GIZA++，最终我们能够得到如下格式的文本对齐文件：

# Sentence pair (1) source length 4 target length 3 alignment

This is an example .

NULL ({ }) 这 ({ 1 }) 是 ({ 2 }) 一个 ({ 3 }) 例子 ({ 4 }) 。 ({ 5 })

# Sentence pair (2) source length 7 target length 6 alignment

you can go to school today .

NULL ({ }) 你 ({ 1 }) 可以 ({ 2 }) 今天 ({ 6 }) 去 ({ 3 4 }) 上学({5 }) 。({ 7 })

# Sentence pair (3) source length 8 target length 7 alignment

I am able to do it well.

NULL ({ 2 }) 我 ({ 1 }) 可以 ({ 3 }) 把 ({ }) 它 ({ 6 }) 做({ 4 5 })好 ({ 7 }) 。({ 8 })

上述语句中数字的意思代表该词是由源语言的第几个词翻译而来的。例如，这({1 })意思代表这是由源语言中的第一个词“this”翻译而来的。每句话目标语言的结果中的NULL，代表的是源语言中未翻译的词或者短语，例如第三个例子中的NULL ({ 2 })，意思就是源语言中的第二个词中的“am”没有翻译。

在得出对齐文本后，就是要借助对齐信息，抽取所有的词和词组作为关键词的一部分。从另一个角度讲，词组的获取就是自动词和短语对齐的过程。但是要注意的是自动对齐抽取出来的词组，并不一定是完全正确的词组，其中关键的一步就是自动过滤。

经过语料库的处理（自动和人工双结合），我们总共从网络获取15,764,200传统中英句对。图2给出了构建语料库中的领域分布情况。关键词抽取后，共有2,244,319句具有高质量的关键词句对。

词组的过滤我们采用两种方法：第一种是概率去除法，即把低概率的短语对齐对去除，目前我们去除的短语对为低于概率为0.0001的词组。第二种方法就是相似度去除法。该种方法是从已知的双语词典中，去和抽取出来的词组进行相似度计算。实践中，为了扩大词典的覆盖范围，我们借助了权威的《牛津英汉词典》和有道例句中的对齐信息。经过过滤后的词组我们就加入了传统平行语料库中，构成基于关键词的双语平行语料库。

计划构建的语料库涵盖多领域的平衡语料库，主要包括：新闻（News）、小说（Novels）、法律（Laws）、教育（Education）、科学术语（Science）、口语对话字幕（Speech/Dialog/Subtitle）、微博（Twitter）、议会（Parliament）。

语料库获取后，文件的存储格式也是相当重要。为了适用不同后续的平台搭建，我们采取主要两种格式进行存放，所有的文本以UTF-8格式编码：

纯文本格式。这种存储格式主要用于机器翻译的训练数据。

标记文本格式。该种标记语言的存储格式主要分为XML和SGML两种格式。同时为了方便术语库和记忆库采用，我们同时把纯文本文件生成TMX格式文本。这种标记文本可以方便的查询文本资源的一些其他属性，包括文本的创建时间、作者、问题内容等更加细化的内容，方便数据库查询和索引。

当然，本发明还可以有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于关键词的中英双语平行语料库构建方法，其特征在于，该方法包括如下步骤：

2）自动对齐：利用开源工具GIZA++进行词语对齐，得到对齐文本，借助对齐文本的信息，抽取所有的词和词组作为关键词的一部分；

3）抽取关键词：对词和词组进行过滤，过滤的方法为概率去除法或相似度去除法，所述概率去除法为将低概率的短语对齐对去除，所述相似度去除法为从书籍的双语词典中去和抽取出来的词组进行相似度去除，经过过滤后的词组加入到平行语料库中；

4）构成基于关键词的双语平行语料库；

在分步骤（4）中，对齐包括篇章对齐、断句和句子对齐；

抽取关键词时去除概率低于0.0001的短语。