CN105843801B - 多译本平行语料库的构建系统 - Google Patents

多译本平行语料库的构建系统 Download PDF

Info

Publication number
CN105843801B
CN105843801B CN201610178472.5A CN201610178472A CN105843801B CN 105843801 B CN105843801 B CN 105843801B CN 201610178472 A CN201610178472 A CN 201610178472A CN 105843801 B CN105843801 B CN 105843801B
Authority
CN
China
Prior art keywords
sentence
translation
source language
language text
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610178472.5A
Other languages
English (en)
Other versions
CN105843801A (zh
Inventor
吴平
吴增欣
唐嘉梨
张弛
安丰科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN201610178472.5A priority Critical patent/CN105843801B/zh
Publication of CN105843801A publication Critical patent/CN105843801A/zh
Application granted granted Critical
Publication of CN105843801B publication Critical patent/CN105843801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种多译本平行语料库的构建系统,包括:深度语义相似度计算装置,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;代表性词典相似度和其他统计信息相似度计算装置;融合匹配度计算装置,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;语句匹配装置,用于根据融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的融合匹配度;多译本平行语料库构建装置,用于根据匹配结果,构建多译本平行语料库。上述技术方案实现了多译本平行语料库的构建,提高了语料对齐的精确度,通过该方案构建的多译本平行语料库具有鲁棒性。

Description

多译本平行语料库的构建系统
技术领域
本发明涉及语料库建设技术领域,特别涉及一种多译本平行语料库的构建系统。
背景技术
随着互联网的高速发展,带来了网络数据文本的爆炸式生长,蓬勃的互联网发展带来了丰富的多语言信息,借助这些丰富的多语言信息可以构建更好的机器翻译系统。人工翻译耗时较长,成本较高,已经满足不了人们对多语言信息日益增长的需求。机器翻译能够将一种自然语言自动地翻译为另一种自然语言。利用机器翻译快速获取多语言的信息和资源已成为必然趋势。这使得能提供多语言、高质量、易获取的翻译服务的机器翻译系统和设备也变得越来越重要。近年来在一些国际组织机构(如欧洲联盟)、新闻媒体、全球性的网络平台、跨国贸易与旅游等政治、网络、文化、教育以及商务环境中,机器翻译已逐渐成为了一种获取信息和传播信息的重要基础手段。
统计机器翻译是目前主流的机器翻译技术。它能够根据数学模型和算法自动地从平行语料库中学习到翻译知识。统计机器翻译并不需要相关的语言学家参与,并且与具体的语言相对独立。另外,统计机器翻译系统开发部署周期较短,翻译速度较快,翻译质量较为鲁棒。机器翻译质量的一个决定性因素就是翻译训练语料库的质量和数量,因此为了构建强大的翻译系统就必须先构建完善的语料库系统。
近年来,平行语料库因其独特功能正日益受到人们关注。平行语料库属双语语料库,是指能将源语文本和其译语文本进行全文检索并对照显示的语料库。较之词典和单语语料库有其独特优势,如双语对照、语言实例数量多、语域广、时效性强、语境丰富等。可广泛运用于翻译研究与培训、双语对比、双语词典编纂等,也可用做各种课型的外语教学和学生自主学习辅助平台(包括对外汉语教学)。
现有的平行语料库多是一个中文文本对应一个英文文本,或一个英文文本对应一个中文文本。同时,现有平行语料库语料对齐不精确,对于自动对齐,有的采用统计的方法,有的采用句子排序方法,如按一定的准则对平行语料库中的句对进行排序,使较好的句对在排序后处于语料库的前端;之后,可以人工着重校对处于后端的句对,或直接删除这些句对。目前的平行语料库语料不能实现多译本对齐。
发明内容
本发明实施例提供了一种多译本平行语料库的构建系统,用以构建多译本平行语料库,提高语料对齐的精确度,该系统包括:
深度语义相似度计算装置,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
代表性词典相似度和其他统计信息相似度计算装置,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;
融合匹配度计算装置,用于根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;
语句匹配装置,用于根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的融合匹配度;
多译本平行语料库构建装置,用于根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。
与现有技术相比较,本发明实施例提供的技术方案具有如下优点:
首先,与现有采用统计的方法或句子排序方法相比较,本发明实施例提供的技术方案,通过计算源语言文本句子和多个译本待匹配句子的深度语义相似度,基于深度语义的匹配,可以提供比表面词汇更深层次的语义匹配关系,提高了语料对齐的精确度;
其次,本发明实施例通过深度语义相似度、代表性词典相似度和其他统计信息相似度等多方面的融合,加权计算确定了融合匹配度,根据该融合匹配度进行语句匹配,提高了语句匹配的精确度;
最后,本发明实施例在根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度将源语言文本与每一译本进行语句匹配时,即在考虑两个文本相似度时,充分考虑了源语言文本与多个译本中其它译本的融合匹配度,进行协同语句匹配,实现了多译本对齐,并使得最终构建的多译本平行语料库更具有鲁棒性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例中多译本平行语料库的构建系统的结构示意图;
图2是本发明实施例中深度语义相似度计算装置的结构示意图;
图3是本发明实施例中深度语义相似度计算装置工作时一个例子的流程示意图;
图4是本发明实施例中将词汇向量化表示的句子进行深度压缩编码,转换为句子语义压缩向量一个实施例的示意图;
图5是本发明实施例中将词汇向量化表示的句子进行深度压缩编码,转换为句子语义压缩向量另一个实施例的示意图;
图6是本发明实施例中语料训练的流程示意图;
图7是本发明实施例中加权计算源语言文本句子与多个译本中每一译本的待匹配句子的匹配度涉及到的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明实施例中多译本平行语料库的构建系统的结构示意图,如图1所示,该系统包括:
深度语义相似度计算装置10,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
代表性词典相似度和其他统计信息相似度计算装置20,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;
融合匹配度计算装置30,用于根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;
语句匹配装置40,用于根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与多个译本中其它译本的融合匹配度;
多译本平行语料库构建装置50,用于根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。
与现有技术相比较,本发明实施例提供的技术方案具有如下优点:
首先,与现有采用统计的方法或句子排序方法相比较,本发明实施例提供的技术方案,通过计算源语言文本句子和多个译本待匹配句子的深度语义相似度,基于深度语义的匹配,可以提供比表面词汇更深层次的语义匹配关系,提高了语料对齐的精确度;
其次,本发明实施例通过深度语义相似度、代表性词典相似度和其他统计信息相似度等多方面的融合,加权计算确定了融合匹配度,根据该融合匹配度进行语句匹配,提高了语句匹配的精确度;
最后,本发明实施例在根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度将源语言文本与每一译本进行语句匹配时,即在考虑两个文本相似度时,充分考虑了源语言文本与多个译本中其它译本的融合匹配度,进行协同语句匹配,实现了多译本对齐,并使得最终构建的多译本平行语料库更具有鲁棒性。
本发明实施例中提到的深度语义为句子的语义向量,具有相似语义的句子的深度语义向量表示在向量空间距离比较接近,这个深度语义不但可以表示出句子丰富的语义信息,也可以表示它们细微的差异。
另外,工作时,深度语义相似度计算装置10和代表性词典相似度和其他统计信息相似度计算装置20的计算顺序不受限制,可以是深度语义相似度计算装置10先计算深度语义相似度,也可以是代表性词典相似度和其他统计信息相似度计算装置20先计算代表性词典相似度和其他统计信息相似度,也可以是两个装置同时进行计算。
具体实施时,代表性词典相似度和其他统计信息相似度的含义及举例如下:汉语句子“今天北京天气不错”,英语句子是“the weather is good today”。词典相似度计算比较简单,根据源语言的每个词,按辞典翻译为目标语言,然后计算翻译的句子和真正的句子之间的相似度就可以了。其它统计信息的相似度比较灵活,比如源语言句子有数字,目标语言是否也有相同的数字,源语言有命名实体,例如“北京”,目标语言是否出现了相应的命名实体“Beijing”。
在一个实施例中,如图2所示,深度语义相似度计算装置可以包括:
词汇向量化装置11,用于将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子;将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子;
深度压缩编码装置12,用于将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量;
语义压缩向量对比装置13,用于根据源语言文本句子的语义压缩向量和多个译本句子的语义压缩向量的对比结果,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度。
图3即为本发明实施例中深度语义相似度计算装置工作时的一个例子的流程示意图,下面结合附图3进行详细说明。
计算源语言文本句子和多个译本待匹配句子的深度语义相似度的过程即为对两个句子的语义一致性评价的过程,其根据双语两端输入的词汇化序列计算出语义一致性分数,作为对齐(匹配)决策的重要指标,语义相似性评价指标执行过程如图3所示。不失一般性,本发明实施例以双语句对输入为例。
具体实施时,图3中语言F/语言E:分别代表着两种语言,该两种语言可以是同种语言,也可以是不同的语言,对语言没有特定要求,例如:语言F可以是中文,语言E可以是英文;或者语言F可以是普通话,语言E可以是四川方言。
具体实施时,图3中句子f/句子e:分别代表着使用语言F和语言E对应文字书写的句子,例如:句子f可以是源语言文本中的一个句子,句子e可以是一个译本中的待匹配的句子。对比句子f可以为源语言文本的句子,待评价句子e可以为多个译本中待匹配的句子。
在一个实施例中,本发明实施例提供的多译本平行语料库的构建系统还包括:
源语言文本预处理装置,用于在将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子之前,对源语言文本句子进行预处理;
多个译本预处理装置,用于在将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子之前,对多个译本待匹配句子进行预处理。
在一个实施例中,上述源语言文本预处理装置具体用于:
如果源语言文本是汉语,对源语言文本句子进行分词处理;
如果源语言文本是英语,对源语言文本句子进行标记Token处理;
多个译本预处理装置具体用于:
如果多个译本是汉语,对多个译本待匹配句子进行分词处理;
如果多个译本是英语,对多个译本待匹配句子进行标记Token处理。
具体实施时,上述对源语言文本句子进行预处理和对多个译本待匹配句子进行预处理,可以减小数据稀疏性和增加数据一致性。预处理具体可以是:汉语需要则进行分词,如果是英语需要进行标记Token。
具体实施时,上述词汇向量化装置11将词汇转化为可计算的向量形式的装置,为一浅层神经网络装置。该装置通过大量单语语料训练得到该语词汇的向量化表示,该装置的具体技术方案具体参考文献[1-3](详见下文)。具体生成的词汇向量具体形式可以为:(0.13,-0.29,……,0.91,0.88)。
参考文献[1]Tomas Mikolov,Kai Chen,Greg Corrado,and JeffreyDean.Efficient Estimation of Word Representations in Vector Space.InProceedings of Workshop at ICLR,2013。
参考文献[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,andJeffrey Dean.Distributed Representations of Words and Phrases and theirCompositionality.In Proceedings of NIPS,2013。
参考文献[3]Tomas Mikolov,Wen-tau Yih,and Geoffrey Zweig.LinguisticRegularities in Continuous Space Word Representations.In Proceedings of NAACLHLT,2013。
具体实施时,上述深度压缩编码装置12为对已词汇向量化表示的句子序列进行进一步深层次压缩编码转换为语义向量的装置,其为一多层次化的深层次神经网络装置。其中,句子语义压缩向量是经过句子深层次编码装置得到的句子语义压缩向量表示,具体形式与词汇化向量化装置中的一致。
具体实施时,上述语义压缩向量对比装置13即为对两个句子的语义压缩向量进行对比并输出二者一致性程度的装置。
下面着重介绍上述深度压缩编码装置12。
语义向量是特定维数的实数值向量,其中,每一维度都在统计学角度代表了文本的某一语义特征。与传统分类模式中的人工设计特征相比,语义向量的优势体现在两个方面:其一是借助深度学习技术可以自动化地从语料文本中习得;其二是借助向量中的实值属性及其组合可以表达丰富的语义和细微的差异。语义向量的习得与以此为基础的分类,借助统一的神经网络结构即可完成。
上述提到的句子深度编码装置为将词汇向量化后的句子作为输入,并进行深度压缩编码,首先输出上文提到的语义向量,再经过编码输出该句子的语义压缩向量的装置。具体实施时,句子深度编码装置具体在一个句子上进行压缩编码生成语义压缩向量。
具体实施时,可以采用了两种不同的方式进行句子深度压缩编码。下面分别对这两种不同的深度编码方式进行介绍。
方式一:线性深度语义表示。
在一个实例中,深度压缩编码装置12具体用于:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟源语言文本词汇向量化表示的句子的句法树结构;
根据句法树结构,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;
深度压缩编码装置12具体还用于:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟多个译本词汇向量化表示的句子的句法树结构;
根据句法树结构,将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量。
具体实施时,文本包含了复杂的结构,既有层次化的关系,也有序列化的关系。这里我们采用卷积神经网络装置对文本进行建模,可以更好的表示文本的层次化语义。一个简单的方法,是通过多层的卷积层和池化层模拟句子的句法树结构,从而将文本表示为向量。如图4所示,不同长度的句子,通过‘0’向量补全,表示为固定的输入,然后通过卷积神经网络,句子的主要信息就会逐层传递和抽象。而池化操作可以有效的过滤掉句子中不重要的信息。
方式二:结构深度语义表示。
在一个实施例中,深度压缩编码装置12具体用于:
在进行深度压缩编码时,对源语言文本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将源语言文本词汇向量化表示的句子根据句法结构递归为源语言文本句子的语义压缩向量;
深度压缩编码装置12具体还用于:
在进行深度压缩编码时,对多个译本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将多个译本词汇向量化表示的句子根据句法结构递归为多个译本句子的语义压缩向量。
具体实施时,为了更充分的挖掘文本的语义信息,我们将深度语义和句法树结合起来,利用递归自编码神经网络对文本的语义进行抽象表示,如图5所示,这个方法借助于句法分析的结果,将文本根据句法结构递归的进行表示,这个例子中“明天是星期天”经过递归被表示为序号“5”所对应的向量。本方法借助了无监督学习的思想,同时需要将“5”表示的信息尽可能还原为输入的句子。这样的结构使得根节点“5”,尽可能多的保留了句子的句法和语义信息。
本发明实施例中深度压缩编码装置12,通过深度语义对句子进行层次化稠密向量的压缩,获得的压缩向量提供了丰富的语义信息。
在一个实施例中,语义压缩向量对比装置13具体用于按照如下公式,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度:
其中,sim(v1,v2)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度函数,v1为源语言文本中的一个句子的语义压缩向量,v2为一个译本中的一个待匹配句子的语义压缩向量。
具体实施时,语义向量对比是将两个不同语言的句子通过图3中的方式获得的语义压缩向量进行对比并输出其相似度。相似度sim(v1,v2)计算方法配置较为灵活,可以使用一般的向量的cos相似度进行评价。在本发明实施例中,由于向量语义向量维度配置一般较大,导致cos相似度评价方法的区分度受限,因此,本发明实施例中,语义向量对比通过上述公式实现。语义向量对比的具体流程为根据两个句子的语义压缩向量,经过上述的sim函数相似度计算输出的语义相似度。
下面结合图6,对上述计算源语言文本句子和多个译本待匹配句子的深度语义相似度的过程中,涉及到的语料训练装置进行介绍。该训练装置可以用于本发明实施例中的词汇向量化和句子语义压缩向量化的实施过程。
图6中双语平行语料:双语平行句对的集合,其中,双语平行句对为描述同样事物或表达同样语义的不同语言的句子。在本发明实施例中双语平行句对可以为图3中的对比句子f(源语言文本中的句子)和待评价句子e(多个译本中待匹配的句子)。
图6中向量化双语平行语料:对双语平行语料中的双语平行句对进行词汇向量化得到的双语平行语料集合。
图6中对比差异训练装置:对双语平行句对经过句子深度压缩编码后的语义压缩向量进行优化配置的装置。
具体实施时,可以利用融合匹配度计算装置30,根据源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度。
具体实施时,如图7所示,上述融合匹配度计算装置30根据上层输入的深度语义相似度、代表性词典相似度和其他统计信息相似度,即经过融合,得到两个文本的匹配度。输入层是深度语义相似度、代表性词典相似度和其他统计信息相似度等信息,经过一个多层感知机网络可以输出它们的融合匹配度,作为两个文本的最终匹配相似度,图7中输出层用于输出上述融合匹配度,隐层即为多层感知机网络的中间层。上述多层感知机相当于一个浅层的神经网络,相对于逻辑斯特线性回归,多层感知机通过多层非线性变化,能够表示更丰富的和更抽象的语义匹配信息。因为语言本质上是人类对现实的高度抽象,所以更需要多层的非线性的网络来表示这种抽象的关系。
在一个实施例中,上述线性回归模型为:y=w1x1+w2x2+w3x3+b;其中,y为融合匹配度,x1为深度语义相似度,w1为深度语义相似度的加权参数,x2为代表性词典相似度,w2为代表性词典相似度的加权参数,x3为其他统计信息相似度,w3为其他统计信息相似度的加权参数,b为偏置量;w和b这两个参数都可以通过图5中流程示意图训练得到。
通过上述可知,本发明实施例不仅仅利用了深度语义匹配度(相似度),还充分融合了其它的其他统计信息和代表性词典相似度等,这样使得匹配更为精确。
在一个实施例中,语句匹配装置40具体用于:
计算源语言文本与所述多个译本中其它译本的条件概率;
根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,以及源语言文本与所述多个译本中其它译本的条件概率,将源语言文本与每一译本进行语句匹配。
在一个实施例中,按照如下公式,将源语言文本与每一译本进行语句匹配:
p(s,ti)=∑p(s|tj)p(tj|ti);
其中,s为源语言文本,ti为一个译本,tj为其它译本,p(s,ti)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,p(s|tj)p(tj|ti)为源语言文本与所述多个译本中其它译本的条件概率。
具体实施时,加权融合匹配装置(融合匹配度计算装置30)可以直接计算任意两个文本之间的最终的匹配度(融合匹配度),但是没有充分利用多译本的信息,因此在这个基础上,本发明实施例进一步使用了多译本协同对齐方案,充分考虑了多个译本的信息。
下面举个具体的例子,说明多译本协同对齐如何实施:假设当前文本为语言s,对应的译本为ti,tj为其它译本,那么s与ti的匹配度,根据条件概率模型:p(s,ti)=∑p(s|tj)p(tj|ti)即可精确求得。其中,p(s,ti)可以根据加权融合匹配得到。本发明实施例根据条件概率关系,在考虑两个文本相似度的时候,充分考虑到其它译本的条件概率,使得对齐更为鲁棒。
本发明实施例提供的技术方案实现了如下技术效果:
(1)利用深度语义信息,通过多译本的协同关系,构建了多译本平行语料库,同时,促进了进一步训练更大规模的机器翻译系统。
(2)通过深度语义的匹配,可以提供一个较表面词汇句子更深层次的语义匹配关系。通过深度语义相似度、代表性词典相似度和其他统计信息相似度等多方面的融合,确定了融合匹配度,根据该融合后的匹配度进行语句匹配,提高了语句匹配的精确度,即提高了语料对齐的精确度。同时,多协同对齐能很好地利用了多个译本之间的关系,构建更为鲁棒的多译本平行语料库。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多译本平行语料库的构建系统,其特征在于,包括:
深度语义相似度计算装置,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;
代表性词典相似度和其他统计信息相似度计算装置,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;
融合匹配度计算装置,用于根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;
语句匹配装置,用于根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的融合匹配度;
多译本平行语料库构建装置,用于根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库;
所述深度语义相似度计算装置包括:
词汇向量化装置,用于将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子;将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子;
深度压缩编码装置,用于将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量;
语义压缩向量对比装置,用于根据所述源语言文本句子的语义压缩向量和多个译本句子的语义压缩向量的对比结果,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度。
2.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,所述深度压缩编码装置具体用于:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟源语言文本词汇向量化表示的句子的句法树结构;
根据所述句法树结构,将源语言文本词汇向量化表示的句子进行深度压缩编码,获得源语言文本句子的语义压缩向量;
所述深度压缩编码装置具体还用于:
在进行深度压缩编码时,通过多层的卷积层和池化层,模拟多个译本词汇向量化表示的句子的句法树结构;
根据所述句法树结构,将多个译本词汇向量化表示的句子进行深度压缩编码,获得多个译本句子的语义压缩向量。
3.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,所述深度压缩编码装置具体用于:
在进行深度压缩编码时,对源语言文本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将源语言文本词汇向量化表示的句子根据句法结构递归为源语言文本句子的语义压缩向量;
所述深度压缩编码装置具体还用于:
在进行深度压缩编码时,对多个译本词汇向量化表示的句子进行句法结构分析;
基于句法结构分析的结果,将多个译本词汇向量化表示的句子根据句法结构递归为多个译本句子的语义压缩向量。
4.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,所述语义压缩向量对比装置具体用于按照如下公式,计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>v</mi> <mn>1</mn> <mo>,</mo> <mi>v</mi> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mi>v</mi> <mn>1</mn> <mo>-</mo> <mi>v</mi> <mn>2</mn> <mo>)</mo> <mo>&amp;CenterDot;</mo> <mo>(</mo> <mi>v</mi> <mn>1</mn> <mo>-</mo> <mi>v</mi> <mn>2</mn> <mo>)</mo> </mrow> <mrow> <mo>|</mo> <mi>v</mi> <mn>1</mn> <mo>&amp;CenterDot;</mo> <mi>v</mi> <mn>2</mn> <mo>|</mo> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,sim(v1,v2)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度函数,v1为源语言文本中的一个句子的语义压缩向量,v2为一个译本中的一个待匹配句子的语义压缩向量。
5.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,还包括:
源语言文本预处理装置,用于在将源语言文本句子中的词汇转换为向量化词汇,获得源语言文本词汇向量化表示的句子之前,对源语言文本句子进行预处理;
多个译本预处理装置,用于在将多个译本待匹配句子中的词汇转换为向量化词汇,获得多个译本词汇向量化表示的句子之前,对多个译本待匹配句子进行预处理。
6.如权利要求5所述的多译本平行语料库的构建系统,其特征在于,所述源语言文本预处理装置具体用于:
如果源语言文本是汉语,对源语言文本句子进行分词处理;
如果源语言文本是英语,对源语言文本句子进行标记Token处理;
所述多个译本预处理装置具体用于:
如果多个译本是汉语,对多个译本待匹配句子进行分词处理;
如果多个译本是英语,对多个译本待匹配句子进行标记Token处理。
7.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,所述语句匹配装置具体用于:
计算源语言文本与所述多个译本中其它译本的条件概率;
根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,以及源语言文本与所述多个译本中其它译本的条件概率,将源语言文本与每一译本进行语句匹配。
8.如权利要求7所述的多译本平行语料库的构建系统,其特征在于,按照如下公式,将源语言文本与每一译本进行语句匹配:
p(s,ti)=∑p(s|tj)p(tj|ti);
其中,s为源语言文本,ti为一个译本,tj为其它译本,p(s,ti)为源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度,p(s|tj)p(tj|ti)为源语言文本与所述多个译本中其它译本的条件概率。
9.如权利要求1所述的多译本平行语料库的构建系统,其特征在于,所述线性回归模型为:
y=w1x1+w2x2+w3x3+b;
其中,y为融合匹配度,x1为深度语义相似度,w1为深度语义相似度的加权参数,x2为代表性词典相似度,w2为代表性词典相似度的加权参数,x3为其他统计信息相似度,w3为其他统计信息相似度的加权参数,b为偏置量。
CN201610178472.5A 2016-03-25 2016-03-25 多译本平行语料库的构建系统 Active CN105843801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610178472.5A CN105843801B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610178472.5A CN105843801B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建系统

Publications (2)

Publication Number Publication Date
CN105843801A CN105843801A (zh) 2016-08-10
CN105843801B true CN105843801B (zh) 2018-05-11

Family

ID=56583529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610178472.5A Active CN105843801B (zh) 2016-03-25 2016-03-25 多译本平行语料库的构建系统

Country Status (1)

Country Link
CN (1) CN105843801B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509407B (zh) * 2017-02-27 2022-03-18 阿里巴巴(中国)有限公司 文本语义相似度计算方法、装置及用户终端
CN108509410B (zh) * 2017-02-27 2022-08-05 阿里巴巴(中国)有限公司 文本语义相似度计算方法、装置及用户终端
CN107315741B (zh) * 2017-05-24 2019-11-22 清华大学 双语词典构建方法和设备
CN107679043A (zh) * 2017-09-22 2018-02-09 广州阿里巴巴文学信息技术有限公司 数据处理方法、装置及终端设备
CN107895000B (zh) * 2017-10-30 2021-06-18 昆明理工大学 一种基于卷积神经网络的跨领域语义信息检索方法
US10782986B2 (en) * 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
CN109213995B (zh) * 2018-08-02 2022-11-18 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110826344B (zh) * 2019-10-24 2022-03-01 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置
CN112825109B (zh) * 2019-11-20 2024-02-23 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN111539228B (zh) * 2020-04-29 2023-08-08 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
CN113392176B (zh) * 2020-09-28 2023-08-22 腾讯科技(深圳)有限公司 文本相似性的确定方法、装置、设备及介质
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157900A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 対訳文抽出装置及び対訳文抽出方法
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157900A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 対訳文抽出装置及び対訳文抽出方法
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Also Published As

Publication number Publication date
CN105843801A (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN105843801B (zh) 多译本平行语料库的构建系统
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN105868187B (zh) 多译本平行语料库的构建方法
CN110825881A (zh) 一种建立电力知识图谱的方法
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN112329467A (zh) 地址识别方法、装置、电子设备以及存储介质
CN110377918A (zh) 融合句法解析树的汉-越神经机器翻译方法
CN110866121A (zh) 一种面向电力领域知识图谱构建方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN110427616A (zh) 一种基于深度学习的文本情感分析方法
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN113901831B (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN110362797A (zh) 一种研究报告生成方法及相关设备
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
He English grammar error detection using recurrent neural networks
CN114757184B (zh) 实现航空领域知识问答的方法和系统
Heo et al. Multimodal neural machine translation with weakly labeled images
Heidari et al. Getting to production with few-shot natural language generation models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant