CN112766002A - 基于动态规划的文本对齐方法及系统 - Google Patents

基于动态规划的文本对齐方法及系统 Download PDF

Info

Publication number
CN112766002A
CN112766002A CN202110047757.6A CN202110047757A CN112766002A CN 112766002 A CN112766002 A CN 112766002A CN 202110047757 A CN202110047757 A CN 202110047757A CN 112766002 A CN112766002 A CN 112766002A
Authority
CN
China
Prior art keywords
sentence
original
sentences
translated
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110047757.6A
Other languages
English (en)
Inventor
陈斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202110047757.6A priority Critical patent/CN112766002A/zh
Publication of CN112766002A publication Critical patent/CN112766002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于动态规划的文本对齐方法及系统,包括:计算任一原文句子对应的向量与目标译文中每一译文句子对应的向量之间的初始相似度;通过前向搜索获取任一原文句子到任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取任一译文句子到任一原文句子的前K条原文句子之间的初始相似度,获取优化相似度和每一原文句子对应的候选译文句子;将错误锚点边删除;将剩余未对齐的原文句子重新当做原文预设窗口,将剩余未对齐的译文句子重新当做译文对齐窗口,重复上述过程,获取每一原文句子对应的最优译文句子。本发明实施例利用的原译文句子序列关系,优化对齐效果,还能完成一句原文对应多句译文的拼接情况,具备高容错机制。

Description

基于动态规划的文本对齐方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于动态规划的文本对齐方法及系统。
背景技术
文本对齐是在原文和译文都存在的基础上,把文档按照语种规则划分成句子,然后为每一条原文语句寻找对应的译文句子,进行句子对齐。
传统的基于统计规则的对齐系统是基于关键词、单词编辑距离或者单词数目等语种最原始的统计信息来抽取特征信息,最后根据抽取的特征,计算原文句子和译文句子相似度,判断是否是双语平行句子。针对不同语种都需要定制相应规则来适配,除了基于文档词频的TF-IDF能适应多语种的规则,其他的语种特征要么由于语言特性难以定制,要么就是语料不够丰富,制定的规则不具备通用型,导致传统的对齐效果参差不齐。
近年来,基于神经网络的语言处理技术高速发展,基于海量的网络文本数据,可以轻松的获得大量不同语种数据,并且为多语种提供了一个统一技术来进行特征处理,也就是嵌入(Embedding)技术。
形式上来讲,嵌入技术就是用一个低维稠密向量表示一个对象(Object),这里对象可以是一个单词,一个句子,也可以是一个文档。不同语种的句子都可以通过嵌入技术转化为同一个向量空间的向量,同时向量之间的运算就能够包含词之间、句之间的语义关系。这就为多语种的通用文本对齐规则处理提供的一致技术基础。
利用嵌入技术进行文本对齐,虽然可以完全依赖句相似度来实现句对齐,但是仍然面临相似度阈值的取舍和文档语序的约束问题,常规的句对齐并未针对文档对齐作出对应的优化处理,例如,如果相似度阈值取的过高,对齐的句子就会非常少,在这个基础上修复剩余句子对齐关系会不准确,并且也没有充分挖掘和利用对齐向量提供的语义相似关系,也就是句子对齐锚点过少;如果相似度阈值过低,虽然句子对齐锚点密集,但是存在锚点错误的情况,文本对齐任务中,如果出现对齐锚点错位的情况,将会出现后续的句子完全错过正确的对齐窗口的情况。
发明内容
本发明提供一种基于动态规划的文本对齐方法及系统,用以解决现有技术中对齐精度低的缺陷,实现高精度的文本对齐。
本发明提供一种基于动态规划的文本对齐方法,包括:
获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
对于所述译文预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
根据本发明提供的一种基于动态规划的文本对齐方法,还包括:
若达到预设循环次数,对于剩下未对齐的译文句子,将剩下未对齐的译文句子与目标锚点译文句子进行拼接,若目标锚点原文句子与拼接后的译文句子之间的优化相似度大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则将拼接后的译文句子重新作为所述目标锚点译文句子,所述目标锚点译文句子为剩下未对齐的译文句子上方已经对齐的译文句子。
根据本发明提供的一种基于动态规划的文本对齐方法,还包括:
若目标锚点原文句子与拼接后的译文句子之间的优化相似度不大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则不做处理。
根据本发明提供的一种基于动态规划的文本对齐方法,所述计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的初始相似度,包括:
计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的余弦相似度,即为所述初始相似度。
根据本发明提供的一种基于动态规划的文本对齐方法,所述计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的初始相似度,包括:
计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的L2距离,即为所述初始相似度。
根据本发明提供的一种基于动态规划的文本对齐方法,所述根据所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度、所述任一译文句子到所述任一原文句子的后K条原文句子之间的初始相似度,获取所述任一原文句子与所述任一译文句子之间的优化相似度之前,还包括:
对所述初始相似度进行正则化处理,获取正则化后的初始相似度,将正则化后的初始相似度重新作为所述初始相似度。
根据本发明提供的一种基于动态规划的文本对齐方法,所述根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子之前,还包括:
对所述优化相似度进行正则化处理,获取正则化后的优化相似度,将正则化后的优化相似度重新作为所述优化相似度。
本发明还提供一种基于动态规划的文本对齐系统,包括:
向量模块,用于获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
初始相似度模块,用于对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
优化相似度模块,用于对于所述预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
候选模块,用于根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
优化模块,用于获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
迭代输出模块,用于将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态规划的文本对齐方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于动态规划的文本对齐方法的步骤。
本发明提供的一种基于动态规划的文本对齐方法及系统,利用文档句子序列关系,利用动态规划算法自适应的解决了关键句和锚点不准导致的句子对齐错位连锁反应,并且动态规划算法完全是自适应的,无需预先制定阈值即可完成关键锚点句的提取和句子拼接对齐,即利用的原译文句子序列关系,也优化的对齐效果,同时还能完成一句原文对应多句译文的拼接情况,具备高容错机制。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于动态规划的文本对齐方法的流程图;
图2为本发明提供的一种基于动态规划的文本对齐系统的结构示意图;
图3为本发明提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于动态规划的文本对齐方法,如图1所示,该方法包括:
本发明实施例中,对齐既用于表示不同语言文本之间互译片段相互匹配的过程,也常常用于表示该过程获得的最后的匹配结果。
110,获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
将目标原文拆分成多个句子,称之为原文句子,利用现有的多语种文本嵌入(Sentence Embedding)技术,计算出每个原文句子对应的向量,通过该向量将原文句子转换到同一维度空间下,该向量就可以看做是这个句子的分布式表达。
本发明实施例中,文本嵌入技术包括但不限于LASER、BERT预训练模型等技术,任何可以将原文句子转化为同一纬度下的嵌入技术、并且可以通过向量来表达句之间的关系模型,均可以适用于该方法。
120,对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
接着计算句相似度,本发明实施例中,首先设置一个原文预设窗口和一个译文预设窗口,两个窗口长度可以根据实际需要进行确定。原文预设窗口和译文预设窗口是为了保证每次迭代计算量不会太大,从而控制整个方案的计算量。
对于原文预设窗口内的任意一个原文句子,计算该原文句子与译文预设窗口中每个译文句子之间的相似度。
在一具体实施例中,该原文句子与译文句子之间相似度具体的计算方法为:计算该原文句子对应的向量与每个译文句子对应的向量之间的相似度,此时的相似度称之为初始相似度。
在一实施例中,初始相似度即为两个向量之间的余弦相似度。
在另一实施例中,初始相似度即为两个向量之间的L2距离。
在又一优选实施例中,还需要对初始相似度进行正则化处理,可以提升向量相似度的准确性,正则化处理的目的是将所有的初始相似度统一到同一量纲上,其效果类似于归一化。
按照上述相同的步骤,计算预设原文窗口中每个原文句子与预设译文窗口中每个译文句子之间的初始相似度。
传统的嵌入技术没有充分利用文档句子序列的前后序贯关系,也就是原文的句子前后关系肯定和译文句子前后关系是一致的。
而本发明实施例中通过利用文档语序关系,不仅能优化对齐效果,还具有优秀的容错能力。
130,对于所述预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
由于目标原文语种和目标译文语种的嵌入预训练采用的语料库可能存在不一致的情况,举例地,BERT的中文版本的预训练的语料库远小于英文版本的预训练语料库,这是由于目前的互联网预料还是以英文资料居多,并且多语种的模型训练是无法保证语料库的绝对一致性的,在某些实施例中,所以仍然需要采取一定的正则化手段来应对这种情况。
为了更好的表示原文句子和译文句子之间的相似性,在前面计算出来的初始相似性的基础上,再结合句子上下文计算出原文句子与译文句子的优化相似性,具体步骤如下:
以预设原文窗口中的任意一个原文句子和预设译文窗口中的任意一个译文句子为例进行说明,获取该原文句子与预设译文窗口中每个译文句子之间的初始相似度,并进行排序,通过前向搜索,找出初始相似度最大的前K条译文句子,将初始相似度位于前K条的译文句子作为该译文句子的前K条译文句子。
另外地,以预设原文窗口中每个原文句子与该译文句子之间的初始相似度,并进行排序,通过后向搜索,找出初始相似度最大的前K条原文句子,并将该这前K条原文句子作为该原文句子的前K条原文句子。
本发明实施例中,将该原文句子到该译文句子的前K条译文句子之间的初始相似度、该译文句子到该原文句子的前K条原文句子之间的初始相似度的平均值,作为该原文句子与该译文句子之间的优化相似度。
按照同样地方法计算出每个原文句子与每个译文句子之间的优化相似度。
140,根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
本发明实施例中,优化相似度最高表示两个句子对齐的可能性最大,将优化相似度最高的译文句子作为候选译文句子。
举例地,对于一个目标原文中的原文句子1,在目标译文的译文句子中搜索相似度最高的前K句译文句子,当K=3时,取出前3条相似度最高的译文句子,比如说译文句子{1,3,5}构成一个对应关系,原句子{1}-->译文句子{1,3,5};再从目标译文的译文句子1搜索目标原文中相似度最高的前3句话,比如说译文{1}-->原文{1,2,4},需要注意这两个操作的方向是不一样的,一个是原文{1}-->译文{1,3,5},这个是前向搜索,一个是译文{1}-->原文{1,2,4},这个后向搜索,相同的是都是搜索前K句相似度最高的作为候选关系,不同的是一个从原文到译文搜索,一个译文到原文搜索,这2个搜索获取到候选句子是不一样的,但是都作为下一步的候选连接保留起来,因为最终结果就只需要原文的一个句子{1}对应到译文到一个句子{1},多余的关系都会在层层优化和筛选中被过滤掉
150,获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
为了对上面的对齐结果进行进一步优化,因为在第一次对齐中,难免会出现噪音、对齐错误等操作,句对齐关系肯定包含不是按照目标原文和目标译文句子序列来排列的,因为可能会存在目标原文的一句话被错误的对应到目标译文的另一句话上,此时就会干扰整个对齐匹配列表,这样的对应关系应该在锚点选取的过程中被舍弃掉。因此本发明实施例中需要先找出错误的对齐关系,然后将错误的对齐关系删除。
将原文句子与候选译文句子之间的对齐关系成为锚点边,将锚点边的原文句子称作为原文锚点,将锚点边的译文句子称作为译文锚点。
首先计算出目标原文对应的最长递增子序列(longest increasingsubsequence),称之为第一最长递增子序列,最长递增子序列是指在一个给定的数值序列中,找到一个子序列,使得这个子序列元素的数值依次递增,并且这个子序列的长度尽可能的大,最长递增子序列中的元素在目标原文中不一定是连续的。
同样地,找出目标译文对应的最长递增子序列,称之为第二最长递增子序列。
根据每个锚点边的优化相似度,对锚点边进行排序,将相似度最低的一部分锚点边删除,也就是说相似度位于最后的锚点边表示两者的关联性不强,因此将相似度低的对齐关系删除,也就是将删除后的原文句子作为剩余未对齐的原文句子,将删除后的译文句子作为剩余未对齐的译文句子。
160,将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
接着将剩余未对齐的原文句子重新当做该原文预设窗口,将剩余未对齐的译文句子重新当做该译文预设窗口,重复步骤120至150,进行循环迭代,当每个原文句子都找到对应的候选译文句子后,将对应的候选译文句子作为最佳译文句子。
本发明实施例提供一种基于动态规划的文本对齐方法,利用文档句子序列关系,利用动态规划算法自适应的解决了关键句和锚点不准导致的句子对齐错位连锁反应,并且动态规划算法完全是自适应的,无需预先制定阈值即可完成关键锚点句的提取和句子拼接对齐,即利用的原译文句子序列关系,也优化的对齐效果,同时还能完成一句原文对应多句译文的拼接情况,具备高容错机制。
在上述实施例的基础上,优选地,还包括:
若达到预设循环次数,对于剩下未对齐的译文句子,将剩下未对齐的译文句子与目标锚点译文句子进行拼接,若目标锚点原文句子与拼接后的译文句子之间的优化相似度大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则将拼接后的译文句子重新作为所述目标锚点译文句子,所述目标锚点译文句子为剩下未对齐的译文句子上方已经对齐的译文句子。
在上述实施例的基础上,优选地,还包括:
若目标锚点原文句子与拼接后的译文句子之间的优化相似度不大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则不做处理。
自动合并剩余未对齐句子,因为存在原文的一句话会被翻译译文的多句话情况,这样就计算嵌入相似度时,会造成相似度不足,却始终无法还原的情况,
常规的手段是利用类似编辑距离的动态规划算法来将译文的多个句子拼接成一句话,再计算相似度。这样就容易出现的倾向于多对多(many-to-many)的问题,比如当出现3条1-1句子时候,却生成一条3-3对齐结果,因为传统技术中采用的是先融合再找对齐锚点。
此问题在这里得到很好的解决,本发明实施例中采用先找对齐锚点再融合的手段,因为只会针对关键句的上文和下文采取拼接措施,并且需要句相似度的自增和递减状况自适应的选择拼接,所以不会出现倾向于多对多情况。
这里由于关键句的锚点存在,这些分散的句子一定在需要对齐的窗口的顶部,那么只需要尝试在句子锚点的下方的一部分译文句子尝试和锚点句进行拼接并重新计算相似度,如果得到了更高的相似度,那么可以把拼接后的句子置为有效,如果相似度降低了,则说明下方的句子不是在翻译过程中多出来的句子,则不做处理。
本发明实施例提供一种基于动态规划的文本对齐系统,如图2所示,该系统包括向量模块201、初始相似度模块202、优化相似度模块203、候选模块204、优化模块205和迭代输出模块206,其中:
向量模块201用于获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
初始相似度模块202用于对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
优化相似度模块203用于对于所述预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
候选模块204用于根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
优化模块205用于获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
迭代输出模块206用于将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
本实施例为与上述方法相对应的系统实施例,详情请参考上述方法实施例,本系统实施例在此不再赘述。
本发明实施例提供了一种电子设备,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种基于动态规划的文本对齐方法,该方法包括:
获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
对于所述译文预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种基于动态规划的文本对齐方法,该方法包括:
获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
对于所述译文预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种基于动态规划的文本对齐方法,该方法包括:
获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
对于所述译文预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于动态规划的文本对齐方法,其特征在于,包括:
获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
对于所述译文预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
2.根据权利要求1所述的基于动态规划的文本对齐方法,其特征在于,还包括:
若达到预设循环次数,对于剩下未对齐的译文句子,将剩下未对齐的译文句子与目标锚点译文句子进行拼接,若目标锚点原文句子与拼接后的译文句子之间的优化相似度大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则将拼接后的译文句子重新作为所述目标锚点译文句子,所述目标锚点译文句子为剩下未对齐的译文句子上方已经对齐的译文句子。
3.根据权利要求2所述的基于动态规划的文本对齐方法,其特征在于,还包括:
若目标锚点原文句子与拼接后的译文句子之间的优化相似度不大于所述目标锚点原文句子与所述目标锚点译文句子之间的优化相似度,则不做处理。
4.根据权利要求1至3任一所述的基于动态规划的文本对齐方法,其特征在于,所述计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的初始相似度,包括:
计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的余弦相似度,即为所述初始相似度。
5.根据权利要求1至3任一所述的基于动态规划的文本对齐方法,其特征在于,所述计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的初始相似度,包括:
计算所述任一原文句子对应的向量与所述目标译文中位于所述预设窗口内的每一译文句子对应的向量之间的L2距离,即为所述初始相似度。
6.根据权利要求1至3任一所述的基于动态规划的文本对齐方法,其特征在于,所述根据所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度、所述任一译文句子到所述任一原文句子的后K条原文句子之间的初始相似度,获取所述任一原文句子与所述任一译文句子之间的优化相似度之前,还包括:
对所述初始相似度进行正则化处理,获取正则化后的初始相似度,将正则化后的初始相似度重新作为所述初始相似度。
7.根据权利要求1至3任一所述的基于动态规划的文本对齐方法,其特征在于,所述根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子之前,还包括:
对所述优化相似度进行正则化处理,获取正则化后的优化相似度,将正则化后的优化相似度重新作为所述优化相似度。
8.一种基于动态规划的文本对齐系统,其特征在于,包括:
向量模块,用于获取目标原文中每个原文句子对应的向量和目标译文中每个译文句子对应的向量;
初始相似度模块,用于对于所述目标原文中位于原文预设窗口内的任一原文句子,计算所述任一原文句子对应的向量与所述目标译文中位于所述译文预设窗口内的每一译文句子对应的向量之间的初始相似度;
优化相似度模块,用于对于所述预设窗口中的任一译文句子,通过前向搜索获取所述任一原文句子到所述任一译文句子的前K条译文句子之间的初始相似度,通过后向搜索获取所述任一译文句子到所述任一原文句子的前K条原文句子之间的初始相似度,获取每一原文句子与每一译文句子之间的优化相似度,K>0,且K为正整数,所述前K条译文句子为与所述任一原文句子相似度最高的前K条译文句子,所述前K条原文句子为与所述任一译文句子相似度最高的前K条原文句子;
候选模块,用于根据每一原文句子与每一译文句子之间的优化相似度,获取每一原文句子对应的候选译文句子;
优化模块,用于获取所有原文句子对应的第一最长递增子序列和所有译文句子对应的第二最长递增子序列,将所述第一最长递增子序列和所述第二最长递增子序列中错误锚点边删除,所述锚点边表示原文句子与候选译文句子之间的对齐关系,所述错误锚点边为在所有锚点边中优化相似度排在最后预设比例的锚点边;
迭代输出模块,用于将剩余未对齐的原文句子重新当做所述原文预设窗口,将剩余未对齐的译文句子重新当做所述译文对齐窗口,重复上述过程,若每个原文句子都找到对应的候选译文句子,则获取每一原文句子对应的最优译文句子。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于动态规划的文本对齐方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于动态规划的文本对齐方法的步骤。
CN202110047757.6A 2021-01-14 2021-01-14 基于动态规划的文本对齐方法及系统 Pending CN112766002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110047757.6A CN112766002A (zh) 2021-01-14 2021-01-14 基于动态规划的文本对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110047757.6A CN112766002A (zh) 2021-01-14 2021-01-14 基于动态规划的文本对齐方法及系统

Publications (1)

Publication Number Publication Date
CN112766002A true CN112766002A (zh) 2021-05-07

Family

ID=75700385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110047757.6A Pending CN112766002A (zh) 2021-01-14 2021-01-14 基于动态规划的文本对齐方法及系统

Country Status (1)

Country Link
CN (1) CN112766002A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN105094358A (zh) * 2014-05-20 2015-11-25 富士通株式会社 信息处理装置和通过外码输入目标语言文字的方法
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN107766339A (zh) * 2017-10-20 2018-03-06 语联网(武汉)信息技术有限公司 原译文对齐的方法及装置
CN107943797A (zh) * 2017-11-22 2018-04-20 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译系统
CN108345589A (zh) * 2017-11-22 2018-07-31 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109522563A (zh) * 2018-10-15 2019-03-26 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CN111191468A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 术语替换方法及装置
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667177A (zh) * 2009-09-23 2010-03-10 清华大学 双语文本的对齐方法及装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN105094358A (zh) * 2014-05-20 2015-11-25 富士通株式会社 信息处理装置和通过外码输入目标语言文字的方法
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN107766339A (zh) * 2017-10-20 2018-03-06 语联网(武汉)信息技术有限公司 原译文对齐的方法及装置
CN107943797A (zh) * 2017-11-22 2018-04-20 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译系统
CN108345589A (zh) * 2017-11-22 2018-07-31 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109522563A (zh) * 2018-10-15 2019-03-26 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CN111191468A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 术语替换方法及装置
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHIGUOZI666: "动态规划计算文本相似度项目", 《HTTPS://WWW.CNBLOGS.COM/CHIGUOGUO/P/13722071.HTML》, 24 September 2020 (2020-09-24) *
冯凯: "基于动态规划的汉语句子相似度算法", 《计算机工程》, vol. 39, no. 2, 28 February 2013 (2013-02-28) *
塞麦提・麦麦提敏;侯敏;吐尔根・伊布拉音;: "基于锚点句对的汉维句子对齐方法", 计算机工程, no. 04, 15 April 2015 (2015-04-15) *
李维刚;刘挺;张宇;李生;: "基于长度和位置信息的双语句子对齐方法", 哈尔滨工业大学学报, no. 05, 28 May 2006 (2006-05-28) *
郭锐 等: "基于自动句对齐的相似古文句子检索", 《中文信息学报》, vol. 22, no. 2, 31 March 2008 (2008-03-31) *
郭锐;宋继华;廖敏;: "基于自动句对齐的相似古文句子检索", 中文信息学报, no. 02, 15 March 2008 (2008-03-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Similar Documents

Publication Publication Date Title
US20200250383A1 (en) Translation processing method and storage medium
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
WO2017017527A1 (en) Method and device for machine translation
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN105068997B (zh) 平行语料的构建方法及装置
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN114218932B (zh) 基于故障因果图谱的航空故障文本摘要生成方法及其装置
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
US10394960B2 (en) Transliteration decoding using a tree structure
KR101962113B1 (ko) 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
CN110874535B (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
US10402489B2 (en) Transliteration of text entry across scripts
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
JP6535607B2 (ja) 前処理モデル学習装置、方法、及びプログラム
CN114218921A (zh) 一种优化bert的问题语义匹配方法
CN112766002A (zh) 基于动态规划的文本对齐方法及系统
CN112257456A (zh) 基于文本编辑技术的文本生成模型的训练方法及装置
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置
EP3617908A1 (en) Machine translation method and apparatus, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination