CN104657351A - 双语对齐语料的加工方法及装置 - Google Patents

双语对齐语料的加工方法及装置 Download PDF

Info

Publication number
CN104657351A
CN104657351A CN201510076025.4A CN201510076025A CN104657351A CN 104657351 A CN104657351 A CN 104657351A CN 201510076025 A CN201510076025 A CN 201510076025A CN 104657351 A CN104657351 A CN 104657351A
Authority
CN
China
Prior art keywords
article
languages
string
character
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510076025.4A
Other languages
English (en)
Inventor
刘汇丹
龙从军
诺明花
安波
吴健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201510076025.4A priority Critical patent/CN104657351A/zh
Publication of CN104657351A publication Critical patent/CN104657351A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。本发明适用于双语对齐语料的自动加工。

Description

双语对齐语料的加工方法及装置
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种双语对齐语料的加工方法及装置。
背景技术
随着全球化的不断深入和互联网的发展,人们在日常工作和生活中常常需要面对大量的非母语信息,如何利用计算机实现不同语言之间的自动转换以克服人类的语言障碍已成为当前人们的迫切需求。
机器翻译(Machine Translation,MT),又称为自动翻译,是利用计算机将一种自然语言自动转换成另一种自然语言的过程,是自然语言处理(NaturalLanguage Processing,NLP)领域的重要应用之一。它是自然语言处理的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural LanguageUnderstanding)之间存在着密不可分的关系。
机器翻译的用途广泛,多语言政府、大型新闻机构以及全球性的跨国公司、体育赛事等都有大量的翻译需求,普通的计算机用户也有对外文资料翻译的需求,比如在互联网上搜索非母语的信息。
目前,主要的机器翻译方法有基于规则的机器翻译方法(Rule-based MT,RBMT),基于实例的机器翻译方法(Example-based MT,EBMT)和统计机器翻译方法(Statistical MT,SMT)。
基于规则的机器翻译方法针对不同的语言对构造语言相关的规则,从而描述语言的特征。其主要问题在于:(1)方法的灵活性差,规则和语言之间的相关度大,且特定语言对之间的转换规则互相独立;(2)规则的获取比较难,规则的制定依赖于语言学家;(3)规则与规则之间存在冲突等。
基于实例的机器翻译方法通过将待翻译的句子和已有的翻译实例进行比较,利用实例推理和学习的方法得到翻译片段,最后将这些片段进行整合得到输入句子的翻译。对于和实例库中相似的句子,其翻译效果比较好。基于实例方法的主要问题在于实例的覆盖率普遍偏低,只适用于领域较小的情况,另外实例的范化与匹配能力直接决定了翻译质量的好坏。
统计机器翻译方法是近年来逐渐兴起的机器翻译方法,利用统计翻译模型,从大量的已经翻译好的文本(平行语料)或单语语料中学习语言特征。这种方法和语言的相关度小,方法灵活,系统的开发周期短,且译文质量相对较好。但是,统计机器翻译方法对语料库的依赖性较强,存在数据稀疏的问题,在训练和测试数据不同领域的情形下翻译性能不好。此外,目前的统计翻译系统需要依赖计算机硬件的性能来处理大量的翻译数据。
随着计算机技术的发展、可用语料的增多以及研究的不断深入,统计机器翻译方法逐渐成为机器翻译领域的主流方法。这种方法首先在平行语料上训练模型(学习器),然后根据这个模型翻译以前没有出现过的句子(测试)。尽管相比其他机器翻译方法,统计机器翻译方法提出的时间并不长,但是目前它已经成为机器翻译研究领域的热点研究方向,近年来统计机器翻译系统的性能也在逐年提高。
统计机器翻译方法依赖于统计翻译模型,从最早的基于词的模型,到显著提高翻译质量的基于短语的模型,以及最近的研究热点基于句法结构的模型,统计翻译模型对语言的分析层次逐渐深入。在基于词的模型中,翻译的基本单元是词,为了处理翻译时句子长度不同的问题,引入富裕度(Fertility)的概念,确定每个基本词产生翻译词的数量。基于短语的模型可以解决逐词翻译的限制,翻译的基本单元是连续的词串,称为短语。通常这些连续的词串不需要符合语言学意义上的短语定义,而是从语料中利用统计方法直接学习得到的。
语料是统计机器翻译方法的基础,翻译任务中所需的语料通常指大量的已翻译好的双语或多语文本,称为平行语料(Parallel Corpus)。目前用于统计机器翻译的语料主要有双语新闻文本、双语对话文本、双语政府文件、圣经文本以及其他从互联网获取的双语数据等。根据语料的类型和处理级别不同,语料可以分为篇章对齐语料、句子对齐语料、经过词性标注的语料和经过句法分析的树库语料等。
在一种简化观点中,统计机器翻译方法分为翻译模型的训练和翻译模型的应用两个阶段。
在第一阶段,需要首先获取双语篇章对齐语料,然后将双语篇章对齐语料加工成句子对齐语料;然后,在必要的情况下,对源语言或/和目标语言的句子要进行词语切分,将句子切分为词语的序列;再进一步的,利用统计机器学习的方法进行词语(短语)一级的对齐,并据此训练形成用于机器翻译模型和翻译知识库,翻译知识库中主要包括源语言的词语(短语)与目标语言中的词语(短语)的翻译概率、目标语言中的两个或多个词语连续共现的概率等信息。
在第二阶段,对于待翻译的源语言句子,翻译解码模块从知识库中将源语言句子中的每个词语(短语)对应的目标词语(短语)及翻译概率提取出来,并根据一定的评价标准,从多个候选译文句子中选择一个最优结果,作为最终译文。
因此,双语篇章对齐语料是进一步加工句子对齐语料、训练统计机器翻译模型和翻译知识库的基础。
对于国际主流语言,如汉语、英语、法语、德语、西班牙语、葡萄牙语来说,各种同时以两种或多种语言发布的文献资料数不胜数,获取比较容易。但对于资源稀缺的语种语言的文献资料的总量要比汉语、英语等国际主流语言要少很多,双语篇章语料的获取更是极其不易。
对于藏语来说,由于诸多客观因素的制约,导致了藏文语料库匮乏的现状。目前藏文语料的来源主要是政府文件、电子版书籍和报刊,一般是向国内各级翻译机构付费获取纸质或电子文本,而在语料库的建设上大多依赖于人工方式。汉藏双语语料的人工加工工作需要加工人员同时熟悉汉语和藏语,并需要对机器翻译技术有较为深刻的了解,而具备这些素质的人力资源却是稀缺的,因此,这种原始的语料加工方法限制了汉藏双语语料库的建设速度,汉藏双语篇章对齐语料加工的效率低下,双语对齐语料库的规模较小。
例如:目前,互联网上多个网站均同时以汉语和藏语两种语言甚至更多语言发布信息,在这些网站中,虽然并不是所有的汉语文章都有对应的藏语译文,但有对应藏语译文的文章的数量仍然是相当可观的。因此,多语言网站是汉藏双语篇章对齐语料的一个重要的来源。由于同一文章的汉语版本和其藏语版本的URL(Uniform Resource Locator,统一资源定位符)并没有明显的映射关系,即便能够将网站中所有的汉语文章和所有的藏语文章分别抽取出来,如何从汉语文章集合和藏语文章集合中自动找到那些互为翻译的文章,仍然是一个有待解决的技术问题。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
对于资源稀缺的语种语言的文章,现有的双语对齐语料加工的效率低下,双语对齐语料库的规模较小。
发明内容
本发明提供一种双语对齐语料的加工方法及装置,能够针对资源稀缺的语种语言的文章,进行双语对齐语料的自动加工,有效增加双语对齐语料库的规模。
本发明提供的双语对齐语料的加工方法,包括:
获取第一语种文章的发布日期;
提取所述第一语种文章的特征;
筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
提取所述第二语种文章的特征;
根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
本发明提供的双语对齐语料的加工装置,包括:
发布日期获取模块,用于获取第一语种文章的发布日期;
特征提取模块,用于提取所述第一语种文章的特征;
发布日期筛选模块,用于筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
所述特征提取模块还用于提取所述发布日期筛选模块筛选出的第二语种文章的特征;
距离计算模块,用于根据所述特征提取模块提取的所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
距离筛选模块,用于当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
本发明提供的双语对齐语料的加工方法及装置,通过计算第一语种文章与发布日期相差在预设时间阈值以内的第二语种文章之间的归一化编辑距离,确定具有互译关系的文章对,从而构建双语对齐预料。与现有技术相比,本发明能够利用互联网上大规模的双语网站的资源自动加工双语对齐语料,提高了双语对齐语料加工的自动化程度,加快了语料库建设的速度,增加了语料库的规模;避免了人工搜集整理双语对齐语料对人员素质要求高的情况;避免了从翻译机构获取语料所需的费用,节省了经济成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为计算字符串sot和stop的编辑距离的示意图;
图2为本发明实施例一提供的双语对齐语料的加工方法流程图;
图3为本发明实施例二提供的对中国西藏新闻网的文章进行发布日期和特征提取的结果列表;
图4为本发明实施例二提供的对中国西藏新闻网的文章进行归一化编辑距离计算后筛选得到的汉藏双语对齐语料的部分列表;
图5为本发明实施例二提供的最终筛选出的一对汉藏双语对齐语料的实例;
图6为本发明实施例三提供的对中国藏族网通的文章进行发布日期和特征抽提取的结果列表;
图7为本发明实施例三提供的对中国藏族网通的文章进行归一化编辑距离计算后筛选得到的汉藏双语对齐语料的部分列表;
图8为本发明实施例三提供的最终筛选出的一对汉藏双语对齐语料的实例;
图9为本发明实施例四提供的双语对齐语料的加工装置的结构示意图;
图10为图9中特征提取模块22的结构示意图;
图11为图9中距离计算模块24的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在计算机信息处理领域,有一个基本的概念叫编辑距离(Edit Distance),编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten一字转成sitting:
sitten(k→s)
sittin(e→i)
sitting(→g)
编辑距离的计算一般采用动态规划算法实现,对于两个字符串A和B,相应的递推计算公式如下:
D(0,0)=0
D(i,0)=i
D(0,f)=j
D ( i , j ) = min D ( i - 1 , j ) + 1 D ( i - 1 , j - 1 ) + f ( i , j ) D ( i , j - 1 ) + 1
其中,A[i]为字符串A的第i个字符,B[j]为字符串B的第j个字符。以计算sot和stop的编辑距离为例,使用上述公式计算出的编辑距离矩阵如图1中所示,当i和j分别等于两个字符串的长度时,对应的距离矩阵的元素(图1右上角的元素)就是最终计算出的编辑距离,本例中sot和stop的编辑距离为2,对应的两次编辑操作是:将sot中插入t成为stot,将末尾的t替换为p成为stop。
编辑距离的取值范围是自然数(≥0),在统计自然语言处理领域,很多时候使用归一化编辑距离作为度量指标。对于两个字符串A和B,归一化编辑距离定义为其编辑距离与它们长度最大值的比值。如下面公式所示:
ND ( A , B ) = D ( A , B ) max ( | A | , | B | )
其中,ND(A,B)为字符串A和B的归一化编辑距离,D(A,B)为字符串A和B的编辑距离,max(|A|,|B|)为字符串A和B的长度最大值。
归一化编辑距离的取值范围是闭区间[0,1],前面的例子中,sot和stop的归一化编辑距离为2/4=0.5。
编辑距离和归一化编辑距离通常作为一种相似度计算函数被用于多种实际应用中,特别的,对于中文自然语言处理,一般以“词语”而不是“字符”为基本处理单元。
实施例一
本发明实施例提供一种双语对齐语料的加工方法,如图2所示,所述方法包括:
S21、获取第一语种文章的发布日期;
S22、提取所述第一语种文章的特征;
S23、筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
其中,所述预设时间阈值可以为5天、10天或20天,但不仅限于此。
S24、提取所述第二语种文章的特征;
S25、根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
S26、当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
其中,所述预设距离阈值可以根据具体情况选取区间[0,1]中的数字,例如0.21。
本发明实施例提供的双语对齐语料的加工方法,通过计算第一语种文章与发布日期相差在预设时间阈值以内的第二语种文章之间的归一化编辑距离,确定具有互译关系的文章对,从而构建双语对齐预料。与现有技术相比,本发明能够利用互联网上大规模的双语网站的资源自动加工双语对齐语料,提高了双语对齐语料加工的自动化程度,加快了语料库建设的速度,增加了语料库的规模;避免了人工搜集整理双语对齐语料对人员素质要求高的情况;避免了从翻译机构获取语料所需的费用,节省了经济成本。
进一步地,所述提取所述第一语种文章的特征可以包括:
将所述第一语种文章的文章标题和正文中的全角字符转换为半角字符;
从所述第一语种文章的文章标题和正文中提取所有符合以下特征的字符串:
连续的阿拉伯数字(0~9)字符串,以便匹配所有的整数、手机号码等;
以小数点分隔的两个连续的阿拉伯数字字符串,以便匹配所有带小数点的数字;
紧邻其后带有百分号的上述两类字符串,以便匹配所有的百分数;
将依次提取的字符串组成第一字符串集合,作为所述第一语种文章的特征。
所述提取所述第二语种文章的特征可以包括:
将所述第二语种文章的文章标题和正文中的全角字符转换为半角字符;
从所述第二语种文章的文章标题和正文中提取所有符合以下特征的字符串:
连续的阿拉伯数字(0~9)字符串,以便匹配所有的整数、手机号码等;
以小数点分隔的两个连续的阿拉伯数字字符串,以便匹配所有带小数点的数字;
紧邻其后带有百分号的上述两类字符串,以便匹配所有的百分数;
将依次提取的字符串组成第二字符串集合,作为所述第二语种文章的特征。
进一步地,所述根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离可以包括:
根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离;
根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值;
所述第一语种文章与所述第二语种文章之间的归一化编辑距离,等于所述第一语种文章与所述第二语种文章之间的编辑距离除以所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
可选地,所述根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离可以包括:计算从所述第一字符串集合转换为所述第二字符串集合所需的最少编辑操作次数;所述编辑操作包括将一个字符串替换为另一个字符串、插入一个字符串或删除一个字符串。
可选地,所述根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值可以包括:分别统计所述第一字符串集合和所述第二字符串集合中包括的字符串的个数,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
进一步地,所述获取第一语种文章的发布日期可以包括:通过构造正则表达式的方式获取第一语种文章的发布日期。
一般来说,文章的发布日期是以减号分隔的三个数字,其中年份为4位阿拉伯数字,月份为2位阿拉伯数字,日为2位阿拉伯数字,例如“2010-08-25”。发布日期对应的正则表达式为“\d{4}-\d{2}-\d{2}”。
也可以理解为,将所提取的符合上述三种特征的每个字符串作为一个词语,所提取的文章的特征,即字符串集合,包括多个字符串,也即包括多个词语,计算以词语为基本单元的第一字符串集合与第二字符串集合之间的归一化编辑距离,作为第一语种文章与第二语种文章之间的归一化编辑距离。
实施例二
以第一语种文章为藏语文章、第二语种文章为汉语文章为例,下面说明从中国西藏新闻网的汉语语料和藏语语料中加工汉藏双语对齐语料的过程。
S31、对于从中国西藏新闻网整理得到的43553篇藏语文章和415443篇汉语文章,对每篇文章抽取发布日期。
例如,对于存储路径分别如下的两篇文章:
D:\bitextcand\tb.chinatibetnews.com\news\2008-07\28\content_133178.txt(藏语,以下简称“文章A”)
D:\bitextcand\www.chinatibetnews.com\news\2008-07\23\content_131494.txt(汉语,以下简称“文章B”)
抽取的发布日期分别为“2008-07-28”和“2008-07-23”。
S32、从每篇文章中抽取标题和正文中的阿拉伯数字。
对于上述两个文件,特征抽取的结果分别为:
2010 2006 2007 4560 4564 35 4.77 80% 1000 300 240 1000 16000 4.7 3
2010 2010 2006 2007 4560 4564 35 4.77 80% 1000 300 240 1000 16000 4.7 3
如图3所示,为本实施例中对中国西藏新闻网的汉语语料和藏语语料进行发布日期和特征抽取的结果。
S33、依次处理每篇藏语文章。
以发布日期为“2008-07-28”的文章A为例。
S34、对于预先设定的阈值“10天”,从汉语文章中筛选出所有发布日期从“2008-07-18”至“2008-08-07”之间的汉语文章。
其中文章B的发布日期为“2008-07-23”,在设定的范围之内。
S35、计算这些汉语文章与藏语文章的归一化编辑距离。
如图4所示,为本实施例中对中国西藏新闻网的文章进行归一化编辑距离计算后筛选得到的汉藏双语对齐语料的部分列表。
其中,文章B与文章A之间的归一化编辑距离为0.0625。
S36、进行阈值筛选,对于预先设定的阈值0.21,文章B与文章A之间的归一化编辑距离小于预设阈值,因此,将藏语文章A和汉语文章B添加到汉藏双语对齐语料库中。
当然,所得到的归一化编辑距离小于阈值的汉语文章也可能有两篇或两篇以上,最终得到的汉藏双语对齐语料也可能有两对或两对以上。
如图5所示,为本发明实施例最终筛选得到的一对汉藏双语对齐语料A和B。
S37、继续转到步骤S33处理下一篇藏语文章,直至所有藏语文章都被处理。
S38、结束处理过程。
最终,共为5867篇藏语文章(包含总计17万藏语句子)找到了汉语译文,部分藏语文章有多篇汉语译文,共形成汉藏双语对齐语料共10950对。
实施例三
以第一语种文章为藏语文章、第二语种文章为汉语文章为例,下面说明从中国藏族网通的汉语语料和藏语语料中加工汉藏双语对齐语料的过程。
S41、对于从中国藏族网通整理得到的19964篇藏语文章和126540篇汉语文章,对每篇文章提取发布日期。
例如,对于存储路径分别如下的两篇文章:
D:\bitextcand\ti.tibet3.com\news\tibet\qh\2010-11\01\content_363647.txt(藏语,以下简称“文章C”)
D:\bitextcand\www.tibet3.com\news\content\2010-11\01\content_381196.txt(汉语,以下简称“文章D”)
提取的发布日期分别为“2010-11-01”和“2010-11-01”。
S42、从每篇文章中提取标题和正文中的阿拉伯数字。
对于上述两个文件,特征提取的结果分别为:
900 10 31 900 2010 2010 2010 9 16 20
900 10 31 900 2010 2010 2010 14 9 16 20
如图6所示,为本实施例中对中国藏族网通的汉语语料和藏语语料进行发布日期和特征提取的结果。
S43、依次处理每篇藏语文章。
以发布日期为“2010-11-01”的文章C为例。
S44、对于预先设定的阈值“5天”,从汉语文章中筛选出所有发布日期从“2010-10-27”至“2010-11-06”之间的汉语文章。
其中文章D的发布日期为“2010-11-01”,在设定的范围之内。
S45、计算这些汉语文章与藏语文章的归一化编辑距离。
如图7所示,为本实施例中对中国藏族网通的文章进行归一化编辑距离计算后筛选得到的汉藏双语对齐语料的部分列表。
其中,文章D与文章C之间的归一化编辑距离为0.0910。
S46、进行阈值筛选,对于预先设定的阈值0.20,文章D与文章C之间的归一化编辑距离小于预设阈值,因此,将藏语文章C和汉语文章D添加到汉藏双语对齐语料库中。
当然,所得到的归一化编辑距离小于阈值的汉语文章也可能有两篇或两篇以上,最终得到的汉藏双语对齐语料也可能有两对或两对以上。
如图8所示,为本发明实施例最终筛选得到的一对汉藏双语对齐语料C和D。
S47、继续转到步骤S43处理下一篇藏语文章,直至所有藏语文章都被处理。
S48、结束处理过程。
最终,共为2046篇藏语文章(包含总计47755个藏语句子)找到了汉语译文,部分藏语文章有多篇汉语译文,共形成汉藏双语对齐语料共3401对。
实施例四
本发明实施例提供一种双语对齐语料的加工装置,如图9所示,所述装置包括:
发布日期获取模块21,用于获取第一语种文章的发布日期;
特征提取模块22,用于提取所述第一语种文章的特征;
发布日期筛选模块23,用于筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
其中,所述预设时间阈值可以为5天、10天或20天,但不仅限于此。
所述特征提取模块22还用于提取所述发布日期筛选模块23筛选出的第二语种文章的特征;
距离计算模块24,用于根据所述特征提取模块22提取的所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
距离筛选模块25,用于当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
其中,所述预设距离阈值可以根据具体情况选取区间[0,1]中的数字,例如0.21。
本发明实施例提供的双语对齐语料的加工装置,通过计算第一语种文章与发布日期相差在预设时间阈值以内的第二语种文章之间的归一化编辑距离,确定具有互译关系的文章对,从而构建双语对齐预料。与现有技术相比,本发明能够利用互联网上大规模的双语网站的资源自动加工双语对齐语料,提高了双语对齐语料加工的自动化程度,加快了语料库建设的速度,增加了语料库的规模;避免了人工搜集整理双语对齐语料对人员素质要求高的情况;避免了从翻译机构获取语料所需的费用,节省了经济成本。
进一步地,如图10所示,所述特征提取模块22可以包括:
字符转换单元221,用于将所述第一语种文章的文章标题和正文中的全角字符转换为半角字符;
字符串提取单元222,用于从所述第一语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串,以便匹配所有的整数、手机号码等;以小数点分隔的两个连续的阿拉伯数字字符串,以便匹配所有带小数点的数字;紧邻其后带有百分号的上述两类字符串,以便匹配所有的百分数;将依次提取的字符串组成第一字符串集合,作为所述第一语种文章的特征;
所述字符转换单元221,还用于将所述第二语种文章的文章标题和正文中的全角字符转换为半角字符;
所述字符串提取单元222,还用于从所述第二语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串,以便匹配所有的整数、手机号码等;以小数点分隔的两个连续的阿拉伯数字字符串,以便匹配所有带小数点的数字;紧邻其后带有百分号的上述两类字符串,以便匹配所有的百分数;将依次提取的字符串组成第二字符串集合,作为所述第二语种文章的特征。
进一步地,如图11所示,所述距离计算模块24可以包括:
计算单元241,用于根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离;
确定单元242,用于根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值;
所述第一语种文章与所述第二语种文章之间的归一化编辑距离,等于所述计算单元241计算得到的所述第一语种文章与所述第二语种文章之间的编辑距离除以所述确定单元242所确定的所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
可选地,所述计算单元241,还可用于计算从所述第一字符串集合转换为所述第二字符串集合所需的最少编辑操作次数;所述编辑操作包括将一个字符串替换为另一个字符串、插入一个字符串或删除一个字符串。
可选地,所述确定单元242,还可用于分别统计所述第一字符串集合和所述第二字符串集合中包括的字符串的个数,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
进一步地,所述发布日期获取模块21,还可以用于通过构造正则表达式的方式获取第一语种文章的发布日期。
一般来说,文章的发布日期是以减号分隔的三个数字,其中年份为4位阿拉伯数字,月份为2位阿拉伯数字,日为2位阿拉伯数字,例如“2010-08-25”。发布日期对应的正则表达式为“\d{4}-\d{2}-\d{2}”。
也可以理解为,将所提取的符合上述三种特征的每个字符串作为一个词语,所提取的文章的特征,即字符串集合,包括多个字符串,也即包括多个词语,计算以词语为基本单元的第一字符串集合与第二字符串集合之间的归一化编辑距离,作为第一语种文章与第二语种文章之间的归一化编辑距离。
本发明实施例提供的双语对齐语料的加工方法及装置,可以适用于针对资源稀缺的语种语言的文章,进行双语对齐语料的自动加工,但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种双语对齐语料的加工方法,其特征在于,包括:
获取第一语种文章的发布日期;
提取所述第一语种文章的特征;
筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
提取所述第二语种文章的特征;
根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
2.根据权利要求1所述的方法,其特征在于,所述提取所述第一语种文章的特征包括:
将所述第一语种文章的文章标题和正文中的全角字符转换为半角字符;
从所述第一语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串、以小数点分隔的两个连续的阿拉伯数字字符串、紧邻其后带有百分号的上述两类字符串,组成第一字符串集合,作为所述第一语种文章的特征;
所述提取所述第二语种文章的特征包括:
将所述第二语种文章的文章标题和正文中的全角字符转换为半角字符;
从所述第二语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串、以小数点分隔的两个连续的阿拉伯数字字符串、紧邻其后带有百分号的上述两类字符串,组成第二字符串集合,作为所述第二语种文章的特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离包括:
根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离;
根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值;
所述第一语种文章与所述第二语种文章之间的归一化编辑距离,等于所述第一语种文章与所述第二语种文章之间的编辑距离除以所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离包括:计算从所述第一字符串集合转换为所述第二字符串集合所需的最少编辑操作次数;所述编辑操作包括将一个字符串替换为另一个字符串、插入一个字符串或删除一个字符串。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值包括:分别统计所述第一字符串集合和所述第二字符串集合中包括的字符串的个数,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
6.一种双语对齐语料的加工装置,其特征在于,包括:
发布日期获取模块,用于获取第一语种文章的发布日期;
特征提取模块,用于提取所述第一语种文章的特征;
发布日期筛选模块,用于筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;
所述特征提取模块还用于提取所述发布日期筛选模块筛选出的第二语种文章的特征;
距离计算模块,用于根据所述特征提取模块提取的所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;
距离筛选模块,用于当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。
7.根据权利要求6所述的装置,其特征在于,所述特征提取模块包括:
字符转换单元,用于将所述第一语种文章的文章标题和正文中的全角字符转换为半角字符;
字符串提取单元,用于从所述第一语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串、以小数点分隔的两个连续的阿拉伯数字字符串、紧邻其后带有百分号的上述两类字符串,组成第一字符串集合,作为所述第一语种文章的特征;
所述字符转换单元,还用于将所述第二语种文章的文章标题和正文中的全角字符转换为半角字符;
所述字符串提取单元,还用于从所述第二语种文章的文章标题和正文中提取所有符合以下特征的字符串:连续的阿拉伯数字字符串、以小数点分隔的两个连续的阿拉伯数字字符串、紧邻其后带有百分号的上述两类字符串,组成第二字符串集合,作为所述第二语种文章的特征。
8.根据权利要求7所述的装置,其特征在于,所述距离计算模块包括:
计算单元,用于根据所述第一字符串集合和所述第二字符串集合,计算所述第一语种文章与所述第二语种文章之间的编辑距离;
确定单元,用于根据所述第一字符串集合和所述第二字符串集合,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值;
所述第一语种文章与所述第二语种文章之间的归一化编辑距离,等于所述计算单元计算得到的所述第一语种文章与所述第二语种文章之间的编辑距离除以所述确定单元所确定的所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
9.根据权利要求8所述的装置,其特征在于,所述计算单元,还用于计算从所述第一字符串集合转换为所述第二字符串集合所需的最少编辑操作次数;所述编辑操作包括将一个字符串替换为另一个字符串、插入一个字符串或删除一个字符串。
10.根据权利要求8所述的装置,其特征在于,所述确定单元,还用于分别统计所述第一字符串集合和所述第二字符串集合中包括的字符串的个数,确定所述第一语种文章和所述第二语种文章中包括的字符串个数的最大值。
CN201510076025.4A 2015-02-12 2015-02-12 双语对齐语料的加工方法及装置 Pending CN104657351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510076025.4A CN104657351A (zh) 2015-02-12 2015-02-12 双语对齐语料的加工方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510076025.4A CN104657351A (zh) 2015-02-12 2015-02-12 双语对齐语料的加工方法及装置

Publications (1)

Publication Number Publication Date
CN104657351A true CN104657351A (zh) 2015-05-27

Family

ID=53248500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510076025.4A Pending CN104657351A (zh) 2015-02-12 2015-02-12 双语对齐语料的加工方法及装置

Country Status (1)

Country Link
CN (1) CN104657351A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN107436878A (zh) * 2016-05-25 2017-12-05 滴滴(中国)科技有限公司 相同信息点的判定方法及装置、信息点的去重方法及设备
CN109344389A (zh) * 2018-08-15 2019-02-15 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法
US10970344B2 (en) 2016-05-10 2021-04-06 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for recommending personalized content
CN114742077A (zh) * 2022-04-15 2022-07-12 中国电子科技集团公司第十研究所 一种领域平行语料的生成方法与翻译模型的训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127405A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
US20100286978A1 (en) * 2006-07-10 2010-11-11 Microsoft Corporation Aligning hierarchial and sequential document trees to identify parallel data
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127405A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
US20100286978A1 (en) * 2006-07-10 2010-11-11 Microsoft Corporation Aligning hierarchial and sequential document trees to identify parallel data
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙凌玲 等: "《用户界面设计与网页制作》", 28 February 2014 *
李玉鑑: "符号序列之间的归一化距离度量", 《北京工业大学学报》 *
王刚: "基于WEB的双语句对齐语料的获取和过滤", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970344B2 (en) 2016-05-10 2021-04-06 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for recommending personalized content
CN107436878A (zh) * 2016-05-25 2017-12-05 滴滴(中国)科技有限公司 相同信息点的判定方法及装置、信息点的去重方法及设备
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106250367B (zh) * 2016-07-27 2019-04-09 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN109344389A (zh) * 2018-08-15 2019-02-15 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN109344389B (zh) * 2018-08-15 2020-08-18 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法
CN110046261B (zh) * 2019-04-22 2022-01-21 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法
CN114742077A (zh) * 2022-04-15 2022-07-12 中国电子科技集团公司第十研究所 一种领域平行语料的生成方法与翻译模型的训练方法

Similar Documents

Publication Publication Date Title
CN104657351A (zh) 双语对齐语料的加工方法及装置
Oufaida et al. Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization
Song et al. Named entity recognition based on conditional random fields
Kumar et al. Automatic identification of closely-related Indian languages: Resources and experiments
Spring et al. Exploring German multi-level text simplification
Song et al. Toward any-language zero-shot topic classification of textual documents
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Chakrawarti et al. Machine translation model for effective translation of Hindi poetries into English
Badawi et al. Kurdish news dataset headlines (KNDH) through multiclass classification
Jindal et al. Building english-punjabi parallel corpus for machine translation
Laitonjam et al. Manipuri–English comparable corpus for cross-lingual studies
Zhao et al. Extracting paraphrase patterns from bilingual parallel corpora
Zhang et al. Chinese OOV translation and post-translation query expansion in chinese--english cross-lingual information retrieval
Sharoff Measuring the distance between comparable corpora between languages
Kazakov et al. Using parallel corpora for word sense disambiguation
Montalvo et al. Multilingual news clustering: Feature translation vs. identification of cognate named entities
Zong et al. Research on alignment in the construction of parallel corpus
Lefever et al. Five languages are better than one: an attempt to bypass the data acquisition bottleneck for wsd
Devi et al. Steps of pre-processing for english to mizo smt system
Dolev Using Multilingual Word Embeddings for Similarity-Based Word Alignments in a Zero-Shot Setting: Tested on the Case of German–Romansh
Kuandykova et al. English-kazakh parallel corpus for statistical machine translation
Boschetti et al. “Voices of the Great War”: A Richly Annotated Corpus of Italian Texts on the First World War
Abdul-Rauf et al. Parallel fragments: Measuring their impact on translation performance
Sigurðardóttir When more is less: identifying biases in large Icelandic corpora
Sanz-Villar An overview of basque corpora and the extraction of certain multi-word expressions from a translational corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150527

RJ01 Rejection of invention patent application after publication