CN109697287A - 句子级双语对齐方法及系统 - Google Patents
句子级双语对齐方法及系统 Download PDFInfo
- Publication number
- CN109697287A CN109697287A CN201811561745.XA CN201811561745A CN109697287A CN 109697287 A CN109697287 A CN 109697287A CN 201811561745 A CN201811561745 A CN 201811561745A CN 109697287 A CN109697287 A CN 109697287A
- Authority
- CN
- China
- Prior art keywords
- sentence
- list
- text
- statement
- sentence list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种句子级双语对齐方法及系统,该方法包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表;步骤S2:计算该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的文本相似度;步骤S3:根据该第一语句列表中的语句在该一个文本中的对应语句的位置与该第二语句列表中的语句在该另一个文本中的对应语句的位置对该文本相似度进行修正,得到该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度;步骤S4:根据该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度得到该两文本的语句对齐结果。本发明有利于提高语句对齐效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是一种句子级双语对齐方法及系统。
背景技术
平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料,平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可分为词级、句级、段级和篇级几种,其中,句级的平行语料是最常用的语料库,因此,常常会将将段级、篇级的平行语料转换成句级的平行语料,但是在语料库中,原文与译文并不一定是一一对应的,因此通常需要采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子,这种方式需要耗费大量的人力和时间,从而不利于语句对齐效率的提高。
发明内容
有鉴于此,本发明的目的之一在于提供一种句子级双语对齐方法及系统,有利于提高语句对齐效率。
为达到上述目的,本发明的技术方案提供了一种句子级双语对齐方法,包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
进一步地,所述步骤S1包括:
对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
进一步地,所述步骤S3包括:
建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
进一步地,所述步骤S4包括:
采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
根据语句匹配度之和得到所述两文本的语句对齐结果。
为实现上述目的,本发明的技术方案还提供了一种句子级双语对齐系统,包括:
第一处理模块,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
进一步地,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
进一步地,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
进一步地,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
本发明提供的句子级双语对齐方法,利用语句的文本相似性以及语句在文本中的位置进行语句对齐,不但可以减少人工参与,实现语句自动对齐,还可以提高对齐的准确率,有利于提高文本间语句对齐的效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种句子级双语对齐方法的流程图;
图2是本发明实施例提供的一种卷积核的示意图;
图3是本发明实施例提供中的语句文本相似度矩阵的部分示意图;
图4是本发明实施例提供中的语句匹配度矩阵的部分示意图;
图5是本发明实施例提供的一种句子级双语对齐系统的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种句子级双语对齐方法的流程图,该方法包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
即对于每两个语句,可以根据其中第一语句列表中的语句在一个文本中的对应语句的位置(也即语句出现的时间顺序)以及其中第二语句列表中的语句在另一个文本中的对应语句的位置(也即语句出现的时间顺序)对该两个语句的文本相似度进行修正,若两者的位置相近,可以进一步增大文本相似度,若两者的位置较远,可进一步地减小文本相似度,之后将修正后的文本相似度作为该两语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果(即句子级对齐结果)。
本发明实施例提供的句子级双语对齐方法,利用语句的文本相似性以及语句在文本中的位置进行语句对齐,不但可以减少人工参与,实现语句自动对齐,还可以提高对齐的准确率,有利于提高文本间语句对齐的效率。
例如,本发明实施例提供的句子级双语对齐方法可以具体包括:
步骤A:对待对齐的两文本分别进行以下处理:对其中一个文本进行断句处理,得到第一语句列表,对另一个文本进行断句处理后将得到的语句翻译为与上述一个文本语言相同的语句,从而得到第二语句列表;
例如,可以判断文本中是否出现用于分割句子的标志性符号,若出现则进行断句,如中文的“。”、“!”为句子结尾,英文以“.”为句子结尾;
例如,待对齐的两文本中一个文本为英文文本(原文文本),另一个文本为中文文本(译文文本),通过将英文文本断句后得到n个英文语句,每一个英文语句为英文文本中独立的一句话,通过该n个英文语句建立第一语句列表,且第一语句列表的语句位置顺序对应英文文本中的语句位置顺序(即英文文本中的第一个英文语句在第一语句列表仍为第一位,英文文本中的第二个英文语句在第一语句列表仍为第二位,……),其中,通过将中文文本断句后得到m个中文语句,之后可以通过调用翻译API,将该m个中文语句翻译为英文语句,进而得到第二语句列表,其中,第二语句列表的语句位置顺序对应中文文本中的语句位置顺序(即中文语句在中文文本中的位置与该中文语句翻译得到的英文语句在第二语句列表中的位置相同);
步骤B:计算第一语句列表中的每一个语句与第二语句列表中的每一个语句的文本相似度,例如,可以对语句中的词语取词根进行完全匹配,得到两语句的文本相似度K,具体如下:
其中,L为所述两个语句中词语数量最多的语句的词语数量(如果两个语句中的词语数量相同,可取任意一个语句作为词语数量最多的语句),Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0;
步骤C:根据对步骤B得到的文本相似度进行修正,得到第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度,具体方式如下:
步骤C1:建立文本相似度矩阵B:
其中,n为第一语句列表中的语句数量,m为第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度(也即英文文本中第i个英文语句与中文文本中第j个中文语句的文本相似度),且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序;
其中,为能够更直观的体现出相似度情况,可以将上述相似度矩阵B转换为对应的图像,其中,通过图像中第i行、第j列位置上的像素的灰度值示出Kij的大小,例如,通过深色代表文本相似度最低,浅色代表相似度一般,白色代表相似度高;
步骤C2:获取卷积核,该卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值(即从左上角至右下角对位线位置上的每一个元素的值都大于每一个其他位置上的元素的值),例如,采用的卷积核可以如图2所示;
通过采用卷积核对文本相似度矩阵进行卷积,以改变文本相似度矩阵的值,使得前后位置距离较近的中文句子与英文句子间的语句匹配度更大,使得前后位置距离较远的中文句子与英文句子间的语句匹配度更小,即考虑了语句在文本中的位置(语句在文本出现的时间顺序),从而可以避免中英文本中重复出现的相同或相似的句子对匹配的干扰,有利于提高匹配的准确度;
步骤C3:采用卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度(也即英文文本中每一个英文语句与中文文本中每一个中文语句的语句匹配度);
例如,相似度矩阵B中第34~36行、第35~37列中的元素(也即第一语句列表中第34~36个语句与第二语句列表中第35~37个语句的文本相似度)如图3所示,经过卷积处理后得到的结果如图4所示,包括第一语句列表中第34~36个语句与第二语句列表中第35~37个语句的语句匹配度;
通过上述卷积的结果可以得出,在进行卷积后,产生干扰的错误匹配的句子间的匹配度显著的降低了,得出的正确匹配对为:第一语句列表中第34个语句与第二语句列表中第35个语句配对,第一语句列表中第35个语句与第二语句列表中第36个语句配对,第一语句列表中第36个语句与第二语句列表中第37个语句配对,而通过图3可以看出,卷积前第一语句列表中第34个语句与第二语句列表中第35个语句的文本相似度同第一语句列表中第34个语句与第二语句列表中第36个语句的文本相似度相近,容易造成误判,在卷积之后,第一语句列表中第34个语句与第二语句列表中第35个语句的语句匹配度(即修正后的文本相似度)高于第一语句列表中第34个语句与第二语句列表中第36个语句的语句匹配度(即修正后的文本相似度),从而有利于做出正确判断;
步骤D:根据第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果,具体步骤如下:
步骤D1:采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
需要说明的是,某一语句对齐情况下的语句匹配度之和是将该语句对齐情况下所有配对语句的语句匹配度相加求和。
动态规划的本质是对问题状态的定义和状态转移方程的定义,然后通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决句子与句子的最优匹配;
在本实施例中,由于在计算所有对齐情况下的语句匹配度之和的过程中包含大量重复的计算,通过动态规划技术可以避免大量的重复计算,从而达到节省时间的目的;
步骤D2:根据语句匹配度之和得到所述两文本的语句对齐结果,具体可将语句匹配度之和最大的语句对齐情况作为两文本的语句对齐结果。
本发明实施例提供的句子级双语对齐方法,采用卷积核对文本相似度矩阵进行卷积,得到语句匹配度矩阵,该语句匹配度矩阵中的语句匹配度语句之间的文本相似度以及语句在文本中的位置确定,能够避免相同重复的语句在语句匹配时产生的干扰,有利于提高句子匹配的准确率。
参见图5,图5是本发明实施例提供的一种句子级双语对齐系统的示意图,该系统包括:
第一处理模块1,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块2,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块3,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块4,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
在一实施例中,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
在一实施例中,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
在一实施例中,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
在一实施例中,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (10)
1.一种句子级双语对齐方法,其特征在于,包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
2.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S1包括:
对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
3.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
4.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S3包括:
建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
5.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S4包括:
采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
根据语句匹配度之和得到所述两文本的语句对齐结果。
6.一种句子级双语对齐系统,其特征在于,包括:
第一处理模块,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
7.根据权利要求6所述的句子级双语对齐系统,其特征在于,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
8.根据权利要求6所述的句子级双语对齐系统,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
9.根据权利要求6所述的句子级双语对齐系统,其特征在于,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
10.根据权利要求6所述的句子级双语对齐系统,其特征在于,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811561745.XA CN109697287B (zh) | 2018-12-20 | 2018-12-20 | 句子级双语对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811561745.XA CN109697287B (zh) | 2018-12-20 | 2018-12-20 | 句子级双语对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697287A true CN109697287A (zh) | 2019-04-30 |
CN109697287B CN109697287B (zh) | 2020-01-21 |
Family
ID=66231868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811561745.XA Active CN109697287B (zh) | 2018-12-20 | 2018-12-20 | 句子级双语对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697287B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
CN113705158A (zh) * | 2021-09-26 | 2021-11-26 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5541955A (en) * | 1992-11-06 | 1996-07-30 | Pericle Communications Company | Adaptive data rate modem |
JP2003006193A (ja) * | 2001-06-20 | 2003-01-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 機械翻訳装置および方法 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
CN106126506A (zh) * | 2016-06-22 | 2016-11-16 | 上海者信息科技有限公司 | 一种在线语料对齐方法及系统 |
CN107391495A (zh) * | 2017-06-09 | 2017-11-24 | 北京吾译超群科技有限公司 | 一种双语平行语料的句对齐方法 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
-
2018
- 2018-12-20 CN CN201811561745.XA patent/CN109697287B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5541955A (en) * | 1992-11-06 | 1996-07-30 | Pericle Communications Company | Adaptive data rate modem |
JP2003006193A (ja) * | 2001-06-20 | 2003-01-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 機械翻訳装置および方法 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
CN106126506A (zh) * | 2016-06-22 | 2016-11-16 | 上海者信息科技有限公司 | 一种在线语料对齐方法及系统 |
CN107391495A (zh) * | 2017-06-09 | 2017-11-24 | 北京吾译超群科技有限公司 | 一种双语平行语料的句对齐方法 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
CN113705158A (zh) * | 2021-09-26 | 2021-11-26 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
CN113705158B (zh) * | 2021-09-26 | 2024-05-24 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697287B (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
US11163956B1 (en) | System and method for recognizing domain specific named entities using domain specific word embeddings | |
US20210209313A1 (en) | Translation methods and systems | |
US20200356556A1 (en) | Assertion-based question answering | |
CN110019749B (zh) | 生成vqa训练数据的方法、装置、设备和计算机可读介质 | |
CN103678288B (zh) | 一种专名自动翻译的方法 | |
CN109697287A (zh) | 句子级双语对齐方法及系统 | |
CN111680527B (zh) | 基于专属机翻引擎训练的人机共译系统与方法 | |
Rashid et al. | A dictionary based Urdu word segmentation using maximum matching algorithm for space omission problem | |
CN103577398A (zh) | 一种基于谓词论元结构的层次机器翻译方法及系统 | |
CN110362682A (zh) | 一种基于统计机器学习算法的实体共指消解方法 | |
CN112380877B (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
Griesel et al. | Navigating challenges of multilingual resource development for under-resourced languages: The case of the African Wordnet project | |
CN114996387A (zh) | 一种基于索引数据的自然语言处理方法和系统 | |
CN107870905B (zh) | 一种特定词汇的识别方法 | |
CN114169345A (zh) | 利用同源词的日中机器翻译方法和系统 | |
CN102955842A (zh) | 一种多特征融合识别中文机构名的控制方法 | |
Postel | Record linkage for character-based surnames: evidence from Chinese exclusion | |
CN110674871B (zh) | 面向翻译译文的自动评分方法及自动评分系统 | |
Liu | Prescriptive aspects of the Descriptive translation studies | |
Lin et al. | Design and implementation of intelligent scoring system for handwritten short answer based on deep learning | |
CN113407676A (zh) | 题目批改方法和系统、电子设备和计算机可读介质 | |
Iglesias-Franjo et al. | TIR over Egyptian hieroglyphs | |
Lazareva et al. | Technology for mastering russian vocabulary by chinese students in the field of international trade | |
CN102184171A (zh) | 机器翻译检查方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. Address before: 519031 room 417, building 20, creative Valley, Hengqin New District, Zhuhai City, Guangdong Province Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240718 Granted publication date: 20200121 |
|
PP01 | Preservation of patent right |