CN105868187A - 多译本平行语料库的构建方法 - Google Patents

多译本平行语料库的构建方法 Download PDF

Info

Publication number
CN105868187A
CN105868187A CN201610178474.4A CN201610178474A CN105868187A CN 105868187 A CN105868187 A CN 105868187A CN 201610178474 A CN201610178474 A CN 201610178474A CN 105868187 A CN105868187 A CN 105868187A
Authority
CN
China
Prior art keywords
sentence
translation
source language
language text
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610178474.4A
Other languages
English (en)
Other versions
CN105868187B (zh
Inventor
吴平
孙洪波
粟向军
苑晓鹤
安胜昔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN201610178474.4A priority Critical patent/CN105868187B/zh
Publication of CN105868187A publication Critical patent/CN105868187A/zh
Application granted granted Critical
Publication of CN105868187B publication Critical patent/CN105868187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种多译本平行语料库的构建方法,其中,该方法包括:分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与多个译本中其它译本的深度语义相似度;根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。上述技术方案实现了多译本平行语料库的构建,提高了语料对齐的精确度,通过该方案构建的多译本平行语料库具有鲁棒性。

Description

多译本平行语料库的构建方法
技术领域
本发明涉及语料库建设技术领域,特别涉及一种多译本平行语料库的构建方法。
背景技术
随着互联网的高速发展,带来了网络数据文本的爆炸式生长,蓬勃的互联网发展带来了丰富的多语言信息,借助这些丰富的多语言信息可以构建更好的机器翻译系统。人工翻译耗时较长,成本较高,已经满足不了人们对多语言信息日益增长的需求。机器翻译能够将一种自然语言自动地翻译为另一种自然语言。利用机器翻译快速获取多语言的信息和资源已成为必然趋势。这使得能提供多语言、高质量、易获取的翻译服务的机器翻译系统和设备也变得越来越重要。近年来在一些国际组织机构(如欧洲联盟)、新闻媒体、全球性的网络平台、跨国贸易与旅游等政治、网络、文化、教育以及商务环境中,机器翻译已逐渐成为了一种获取信息和传播信息的重要基础手段。
统计机器翻译是目前主流的机器翻译技术。它能够根据数学模型和算法自动地从平行语料库中学习到翻译知识。统计机器翻译并不需要相关的语言学家参与,并且与具体的语言相对独立。另外,统计机器翻译系统开发部署周期较短,翻译速度较快,翻译质量较为鲁棒。机器翻译质量的一个决定性因素就是翻译训练语料库的质量和数量,因此为了构建强大的翻译系统就必须先构建完善的语料库系统。
近年来,平行语料库因其独特功能正日益受到人们关注。平行语料库属双语语料库,是指能将源语文本和其译语文本进行全文检索并对照显示的语料库。较之词典和单语语料库有其独特优势,如双语对照、语言实例数量多、语域广、时效性强、语境丰富等。可广泛运用于翻译研究与培训、双语对比、双语词典编纂等,也可用做各种课型的外语教学和学生自主学习辅助平台(包括对外汉语教学)。
现有的平行语料库多是一个中文文本对应一个英文文本,或一个英文文本对应一个中文文本。同时,现有平行语料库语料对齐不精确,对于自动对齐,有的采用统计的方法,有的采用句子排序方法,如按一定的准则对平行语料库中的句对进行排序,使较好的句对在排序后处于语料库的前端;之后,可以人工着重校对处于后端的句对,或直接删除这些句对。目前的平行语料库语料不能实现多译本对齐。
发明内容
本发明实施例提供了一种多译本平行语料库的构建方法,用以构建多译本平行语料库,提高语料对齐的精确度,该方法包括:
分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的深度语义相似度;
根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。
与现有技术相比较,本发明实施例提供的技术方案具有如下优点:
首先,与现有采用统计的方法或句子排序方法相比较,本发明实施例提供的技术方案,通过计算源语言文本句子和多个译本待匹配句子的深度语义相似度,根据深度语义相似度进行句子自动对齐,基于深度语义的匹配,可以提供比表面词汇更深层次的语义匹配关系,提高了语料对齐的精确度;
其次,本发明实施例在根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配时,即在考虑两个文本相似度时,充分考虑了源语言文本与多个译本中其它译本的深度语义相似度,进行协同语句匹配,实现了多译本对齐,并使得最终构建的多译本平行语料库更具有鲁棒性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例中多译本平行语料库的构建方法的流程示意图;
图2是本发明实施例中计算源语言文本句子和多个译本待匹配句子的深度语义相似度的流程示意图;
图3是本发明实施例中将词汇向量化表示的句子进行深度压缩编码,转换为句子语义压缩向量一个实施例的示意图;
图4是本发明实施例中将词汇向量化表示的句子进行深度压缩编码,转换为句子语义压缩向量另一个实施例的示意图;
图5是本发明实施例中语料训练的流程示意图;
图6是本发明实施例中多译本平行语料库的构建方法的另一实施例流程示意图;
图7是本发明实施例中加权计算源语言文本句子与多个译本中每一译本的待匹配句子的匹配度涉及到的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明实施例中多译本平行语料库的构建方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
步骤102:根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与多个译本中其它译本的深度语义相似度;
步骤103:根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。
与现有技术相比较,本发明实施例提供的技术方案具有如下优点:
首先,与现有采用统计的方法或句子排序方法相比较,本发明实施例提供的技术方案,通过计算源语言文本句子和多个译本待匹配句子的深度语义相似度,根据深度语义相似度进行句子自动对齐,基于深度语义的匹配,可以提供比表面词汇更深层次的语义匹配关系,提高了语料对齐的精确度;
其次,本发明实施例在根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配时,即在考虑两个文本相似度时,充分考虑了源语言文本与多个译本中其它译本的深度语义相似度,进行协同语句匹配,实现了多译本对齐,并使得最终构建的多译本平行语料库更具有鲁棒性。
本发明实施例中提到的深度语义为句子的语义向量,具有相似语义的句子的深度语义向量表示在向量空间距离比较接近,这个深度语义不但可以表示出句子丰富的语义信息,也可以表示它们细微的差异。
在一个实施例中,在步骤101中,分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,可以包括:
将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子;将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子;
将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量;
根据源语言文本句子的语义压缩向量和多个译本句子的语义压缩向量的对比结果,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度。
图2即为本发明实施例中分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度的一个例子的流程示意图,下面结合附图2进行详细说明。
计算源语言文本句子和多个译本待匹配句子的深度语义相似度的过程即为对两个句子的语义一致性评价的过程,其根据双语两端输入的词汇化序列计算出语义一致性分数,作为对齐(匹配)决策的重要指标,语义相似性评价指标执行过程如图2所示。不失一般性,本发明实施例以双语句对输入为例。
具体实施时,图2中语言F/语言E:分别代表着两种语言,该两种语言可以是同种语言,也可以是不同的语言,对语言没有特定要求,例如:语言F可以是中文,语言E可以是英文;或者语言F可以是普通话,语言E可以是四川方言。
具体实施时,图2中句子f/句子e:分别代表着使用语言F和语言E对应文字书写的句子,例如:句子f可以是源语言文本中的一个句子,句子e可以是一个译本中的待匹配的句子。对比句子f可以为源语言文本的句子,待评价句子e可以为多个译本中待匹配的句子。
在一个实施例中,在将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子之前,还可以包括:对源语言文本句子进行预处理;
在将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子之前,还可以包括:对多个译本待匹配句子进行预处理。
在一个实施例中,对源语言文本句子进行预处理,可以包括:
如果源语言文本是汉语,对源语言文本句子进行分词处理;
如果源语言文本是英语,对源语言文本句子进行标记Token处理;
对多个译本待匹配句子进行预处理,可以包括:
如果多个译本是汉语,对多个译本待匹配句子进行分词处理;
如果多个译本是英语,对多个译本待匹配句子进行标记Token处理。
具体实施时,上述对源语言文本句子进行预处理和对多个译本待匹配句子进行预处理,可以减小数据稀疏性和增加数据一致性。预处理具体可以是:汉语需要则进行分词,如果是英语需要进行标记Token。
具体实施时,上述将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子,将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子,这一过程可以通过词汇向量化装置来完成,该装置将词汇转化为可计算的向量形式的装置,为一浅层神经网络装置。该装置通过大量单语语料训练得到该语词汇的向量化表示,该装置的具体技术方案具体参考文献[1-3](详见下文)。具体生成的词汇向量具体形式可以为:(0.13,-0.29,……,0.91,0.88)。
参考文献[1]Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean.EfficientEstimation of Word Representations in Vector Space.In Proceedings of Workshop atICLR,2013。
参考文献[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,and JeffreyDean.Distributed Representations of Words and Phrases and their Compositionality.InProceedings of NIPS,2013。
参考文献[3]Tomas Mikolov,Wen-tau Yih,and Geoffrey Zweig.LinguisticRegularities in Continuous Space Word Representations.In Proceedings of NAACL HLT,2013。
具体实施时,上述将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量,将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量,这一过程可以通过句子深度编码装置来完成,该装置为对已词汇向量化表示的句子序列进行进一步深层次压缩编码转换为语义向量的装置,其为一多层次化的深层次神经网络装置。其中,句子语义压缩向量是经过句子深层次编码装置得到的句子语义压缩向量表示,具体形式与词汇化向量化装置中的一致。
具体实施时,上述根据源语言文本句子的语义压缩向量和多个译本句子的语义压缩向量的对比结果,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,这一过程可以通过语义向量对比装置来完成,该装置即为对两个句子的语义压缩向量进行对比并输出二者一致性程度的装置。
下面着重介绍上述进行深度压缩编码获得句子语义压缩向量的技术方案。
语义向量是特定维数的实数值向量,其中,每一维度都在统计学角度代表了文本的某一语义特征。与传统分类模式中的人工设计特征相比,语义向量的优势体现在两个方面:其一是借助深度学习技术可以自动化地从语料文本中习得;其二是借助向量中的实值属性及其组合可以表达丰富的语义和细微的差异。语义向量的习得与以此为基础的分类,借助统一的神经网络结构即可完成。
上述提到的句子深度编码装置为将词汇向量化后的句子作为输入,并进行深度压缩编码,首先输出上文提到的语义向量,再经过编码输出该句子的语义压缩向量的装置。具体实施时,句子深度编码装置具体在一个句子上进行压缩编码生成语义压缩向量。
具体实施时,可以采用了两种不同的方式进行句子深度压缩编码。下面分别对这两种不同的深度编码方式进行介绍。
方式一:线性深度语义表示。
在一个实例中,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量,可以包括:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟源语言文本词汇向量化表示的句子的句法树结构;
根据句法树结构,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;
将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量,可以包括:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟多个译本词汇向量化表示的句子的句法树结构;
根据句法树结构,将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量。
具体实施时,文本包含了复杂的结构,既有层次化的关系,也有序列化的关系。这里我们采用卷积神经网络装置对文本进行建模,可以更好的表示文本的层次化语义。一个简单的方法,是通过多层的卷积层和池化层模拟句子的句法树结构,从而将文本表示为向量。如图3所示,不同长度的句子,通过‘0’向量补全,表示为固定的输入,然后通过卷积神经网络,句子的主要信息就会逐层传递和抽象。而池化操作可以有效的过滤掉句子中不重要的信息。
方式二:结构深度语义表示。
在一个实施例中,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量,可以包括:
在进行深度压缩编码时,对源语言文本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将源语言文本词汇向量化表示的句子根据句法结构递归为源语言文本句子的语义压缩向量;
将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量,可以包括:
在进行深度压缩编码时,对多个译本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将多个译本词汇向量化表示的句子根据句法结构递归为多个译本句子的语义压缩向量。
具体实施时,为了更充分的挖掘文本的语义信息,我们将深度语义和句法树结合起来,利用递归自编码神经网络对文本的语义进行抽象表示,如图4所示,这个方法借助于句法分析的结果,将文本根据句法结构递归的进行表示,这个例子中“明天是星期天”经过递归被表示为序号“5”所对应的向量。本方法借助了无监督学习的思想,同时需要将“5”表示的信息尽可能还原为输入的句子。这样的结构使得根节点“5”,尽可能多的保留了句子的句法和语义信息。
本发明实施例中深度压缩编码,通过深度语义对句子进行层次化稠密向量的压缩,获得的压缩向量提供了丰富的语义信息。
在上述将源语言文本句子和多个译本待匹配句子的句子语义压缩向量进行对比过程中,可以按照如下公式,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度:
s i m ( v 1 , v 2 ) = ( v 1 - v 2 ) · ( v 1 - v 2 ) | v 1 · v 2 | ;
其中,sim(v1,v2)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度函数,v1为源语言文本中的一个句子的语义压缩向量,v2为一个译本中的一个待匹配句子的语义压缩向量。
具体实施时,语义向量对比是将两个不同语言的句子通过图2中的方式获得的语义压缩向量进行对比并输出其相似度。相似度sim(v1,v2)计算方法配置较为灵活,可以使用一般的向量的cos相似度进行评价。在本发明实施例中,由于向量语义向量维度配置一般较大,导致cos相似度评价方法的区分度受限,因此,本发明实施例中,语义向量对比通过上述公式实现。语义向量对比的具体流程为根据两个句子的语义压缩向量,经过上述的sim函数相似度计算输出的语义相似度。
下面结合图5,对上述计算源语言文本句子和多个译本待匹配句子的深度语义相似度的过程中,涉及到的语料训练装置进行介绍。该训练装置可以用于本发明实施例中的词汇向量化和句子语义压缩向量化的实施过程。
图5中双语平行语料:双语平行句对的集合,其中,双语平行句对为描述同样事物或表达同样语义的不同语言的句子。在本发明实施例中双语平行句对可以为图2中的对比句子f(源语言文本中的句子)和待评价句子e(多个译本中待匹配的句子)。
图5中向量化双语平行语料:对双语平行语料中的双语平行句对进行词汇向量化得到的双语平行语料集合。
图5中对比差异训练装置:对双语平行句对经过句子深度压缩编码后的语义压缩向量进行优化配置的装置。
在一个实施例中,如图6所示,本发明实施例提供的多译本平行语料库的构建方法,还可以包括:
计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;
代表性词典相似度和其他统计信息相似度的含义及举例如下:汉语句子“今天北京天气不错”,英语句子是“the weather is good today”。词典相似度计算比较简单,根据源语言的每个词,按辞典翻译为目标语言,然后计算翻译的句子和真正的句子之间的相似度就可以了。其它统计信息的相似度比较灵活,比如源语言句子有数字,目标语言是否也有相同的数字,源语言有命名实体,例如“北京”,目标语言是否出现了相应的命名实体“Beijing”。
在上述步骤102中,根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,包括:
根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;所述线性回归模型为:y=w1x1+w2x2+w3x3+b;其中,y为融合匹配度,x1为深度语义相似度,w1为深度语义相似度的加权参数,x2为代表性词典相似度,w2为代表性词典相似度的加权参数,x3为其他统计信息相似度,w3为其他统计信息相似度的加权参数,b为偏置量;w和b这两个参数都可以通过图5中流程示意图训练得到;
根据融合匹配度,将源语言文本与每一译本进行语句匹配。
具体实施时,可以利用加权融合匹配装置,根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的匹配度。
具体实施时,如图7所示,上述加权融合匹配装置根据上层输入的深度语义相似度、代表性词典相似度和其他统计信息相似度,即经过融合,得到两个文本的匹配度。输入层是深度语义相似度、代表性词典相似度和其他统计信息相似度等信息,经过一个多层感知机网络可以输出它们的融合匹配度,作为两个文本的最终匹配相似度,图7中输出层用于输出上述融合匹配度,隐层即为多层感知机网络的中间层。上述多层感知机相当于一个浅层的神经网络,相对于逻辑斯特线性回归,多层感知机通过多层非线性变化,能够表示更丰富的和更抽象的语义匹配信息。因为语言本质上是人类对现实的高度抽象,所以更需要多层的非线性的网络来表示这种抽象的关系。
通过上述可知,本发明实施例不仅仅利用了深度语义匹配度(相似度),还充分融合了其它的统计信息和代表性词典相似度等,这样使得匹配更为精确。
在一个实施例中,根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与多个译本中其它译本的深度语义相似度,包括:
计算源语言文本与所述多个译本中其它译本的条件概率;
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,以及源语言文本与所述多个译本中其它译本的条件概率,将源语言文本与每一译本进行语句匹配。
在一个实施例中,按照如下公式,将源语言文本与每一译本进行语句匹配:
p(s,ti)=∑p(s|tj)p(tj|ti);
其中,s为源语言文本,ti为一个译本,tj为其它译本,p(s,ti)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,p(s|tj)p(tj|ti)为源语言文本与所述多个译本中其它译本的条件概率。
具体实施时,上述加权融合匹配装置可以直接计算任意两个文本之间的最终的匹配度(融合匹配度),但是没有充分利用多译本的信息,因此在这个基础上,本发明实施例进一步使用了多译本协同对齐方案,充分考虑了多个译本的信息。
下面举个具体的例子,说明多译本协同对齐如何实施:假设当前文本为语言s,对应的译本为ti,tj为其它译本,那么s与ti的匹配度,根据条件概率模型:p(s,ti)=∑p(s|tj)p(tj|ti)即可精确求得。其中,p(s,ti)可以根据加权融合匹配得到。本发明实施例根据条件概率关系,在考虑两个文本相似度的时候,充分考虑到其它译本的条件概率,使得对齐更为鲁棒。
本发明实施例提供的技术方案实现了如下技术效果:
(1)利用深度语义信息,通过多译本的协同关系,构建了多译本平行语料库,同时,促进了进一步训练更大规模的机器翻译系统。
(2)通过深度语义的匹配,可以提供一个较表面词汇句子更深层次的语义匹配关系。通过深度语义相似度、代表性词典相似度和其他统计信息相似度等多方面的融合,确定了融合匹配度,根据该融合后的匹配度进行语句匹配,提高了语句匹配的精确度,即提高了语料对齐的精确度。同时,多协同对齐能很好地利用了多个译本之间的关系,构建更为鲁棒的多译本平行语料库。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多译本平行语料库的构建方法,其特征在于,包括:
分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的深度语义相似度;
根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。
2.如权利要求1所述的多译本平行语料库的构建方法,其特征在于,分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,包括:
将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子;将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子;
将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量;
根据所述源语言文本句子的语义压缩向量和多个译本句子的语义压缩向量的对比结果,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度。
3.如权利要求2所述的多译本平行语料库的构建方法,其特征在于,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量,包括:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟源语言文本词汇向量化表示的句子的句法树结构;
根据所述句法树结构,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;
将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量,包括:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟多个译本词汇向量化表示的句子的句法树结构;
根据所述句法树结构,将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量。
4.如权利要求2所述的多译本平行语料库的构建方法,其特征在于,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量,包括:
在进行深度压缩编码时,对源语言文本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将源语言文本词汇向量化表示的句子根据句法结构递归为源语言文本句子的语义压缩向量;
将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量,包括:
在进行深度压缩编码时,对多个译本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将多个译本词汇向量化表示的句子根据句法结构递归为多个译本句子的语义压缩向量。
5.如权利要求2所述的多译本平行语料库的构建方法,其特征在于,按照如下公式,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度:
s i m ( v 1 , v 2 ) = ( v 1 - v 2 ) · ( v 1 - v 2 ) | v 1 · v 2 | ;
其中,sim(v1,v2)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度函数,v1为源语言文本中的一个句子的语义压缩向量,v2为一个译本中的一个待匹配句子的语义压缩向量。
6.如权利要求2所述的多译本平行语料库的构建方法,其特征在于,在将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子之前,还包括:对源语言文本句子进行预处理;
在将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子之前,还包括:对多个译本待匹配句子进行预处理。
7.如权利要求6所述的多译本平行语料库的构建方法,其特征在于,对源语言文本句子进行预处理,包括:
如果源语言文本是汉语,对源语言文本句子进行分词处理;
如果源语言文本是英语,对源语言文本句子进行标记Token处理;
对多个译本待匹配句子进行预处理,包括:
如果多个译本是汉语,对多个译本待匹配句子进行分词处理;
如果多个译本是英语,对多个译本待匹配句子进行标记Token处理。
8.如权利要求1所述的多译本平行语料库的构建方法,其特征在于,还包括:
计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,包括:
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;所述线性回归模型为:y=w1x1+w2x2+w3x3+b;其中,y为融合匹配度,x1为深度语义相似度,w1为深度语义相似度的加权参数,x2为代表性词典相似度,w2为代表性词典相似度的加权参数,x3为其他统计信息相似度,w3为其他统计信息相似度的加权参数,b为偏置量;
根据所述融合匹配度,将源语言文本与每一译本进行语句匹配。
9.如权利要求1所述的多译本平行语料库的构建方法,其特征在于,根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的深度语义相似度,包括:
计算源语言文本与所述多个译本中其它译本的条件概率;
根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,以及源语言文本与所述多个译本中其它译本的条件概率,将源语言文本与每一译本进行语句匹配。
10.如权利要求9所述的多译本平行语料库的构建方法,其特征在于,按照如下公式,将源语言文本与每一译本进行语句匹配:
p(s,ti)=∑p(s|tj)p(tj|ti);
其中,s为源语言文本,ti为一个译本,tj为其它译本,p(s,ti)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,p(s|tj)p(tj|ti)为源语言文本与所述多个译本中其它译本的条件概率。
CN201610178474.4A 2016-03-25 2016-03-25 多译本平行语料库的构建方法 Active CN105868187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610178474.4A CN105868187B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610178474.4A CN105868187B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建方法

Publications (2)

Publication Number Publication Date
CN105868187A true CN105868187A (zh) 2016-08-17
CN105868187B CN105868187B (zh) 2018-05-08

Family

ID=56625739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610178474.4A Active CN105868187B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建方法

Country Status (1)

Country Link
CN (1) CN105868187B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344389A (zh) * 2018-08-15 2019-02-15 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN109670178A (zh) * 2018-12-20 2019-04-23 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及装置、计算机可读存储介质
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN112380830A (zh) * 2020-06-18 2021-02-19 达而观信息科技(上海)有限公司 不同文档中相关句子的匹配方法、系统和计算机可读存储介质
CN112906371A (zh) * 2021-02-08 2021-06-04 北京有竹居网络技术有限公司 一种平行语料获取方法、装置、设备及存储介质
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
JP5428199B2 (ja) * 2007-12-25 2014-02-26 富士ゼロックス株式会社 対訳文抽出装置及び対訳文抽出方法
US20140200878A1 (en) * 2013-01-14 2014-07-17 Xerox Corporation Multi-domain machine translation model adaptation
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5428199B2 (ja) * 2007-12-25 2014-02-26 富士ゼロックス株式会社 対訳文抽出装置及び対訳文抽出方法
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
US20140200878A1 (en) * 2013-01-14 2014-07-17 Xerox Corporation Multi-domain machine translation model adaptation
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344389A (zh) * 2018-08-15 2019-02-15 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN109344389B (zh) * 2018-08-15 2020-08-18 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CN109670178A (zh) * 2018-12-20 2019-04-23 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及装置、计算机可读存储介质
CN109670178B (zh) * 2018-12-20 2019-10-08 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及装置、计算机可读存储介质
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN112380830A (zh) * 2020-06-18 2021-02-19 达而观信息科技(上海)有限公司 不同文档中相关句子的匹配方法、系统和计算机可读存储介质
CN112380830B (zh) * 2020-06-18 2024-05-17 达观数据有限公司 不同文档中相关句子的匹配方法、系统和计算机可读存储介质
CN112906371A (zh) * 2021-02-08 2021-06-04 北京有竹居网络技术有限公司 一种平行语料获取方法、装置、设备及存储介质
CN112906371B (zh) * 2021-02-08 2024-03-01 北京有竹居网络技术有限公司 一种平行语料获取方法、装置、设备及存储介质
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Also Published As

Publication number Publication date
CN105868187B (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN105843801B (zh) 多译本平行语料库的构建系统
CN105868187B (zh) 多译本平行语料库的构建方法
CN101539907B (zh) 词性标注模型训练装置、词性标注系统及其方法
CN109213995A (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN104008092B (zh) 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN107977362B (zh) 一种用于中文文本定级以及计算中文文本难度评分的方法
CN109472026A (zh) 一种同时针对多个命名实体的精准情感信息提取方法
CN112329467A (zh) 地址识别方法、装置、电子设备以及存储介质
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
Lee et al. Sgd-x: A benchmark for robust generalization in schema-guided dialogue systems
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN116596347B (zh) 基于云平台的多学科交互教学系统及教学方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
CN112528642B (zh) 一种隐式篇章关系自动识别方法及系统
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
CN117473971A (zh) 一种基于采购文本库的招标文件自动生成方法及系统
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
Aleksandrova et al. CEFR-based Contextual Lexical Complexity Classifier in English and French

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant