CN109697287B - 句子级双语对齐方法及系统 - Google Patents

句子级双语对齐方法及系统 Download PDF

Info

Publication number
CN109697287B
CN109697287B CN201811561745.XA CN201811561745A CN109697287B CN 109697287 B CN109697287 B CN 109697287B CN 201811561745 A CN201811561745 A CN 201811561745A CN 109697287 B CN109697287 B CN 109697287B
Authority
CN
China
Prior art keywords
sentence
list
sentences
text
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811561745.XA
Other languages
English (en)
Other versions
CN109697287A (zh
Inventor
聂镭
李睿
聂颖
郑权
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201811561745.XA priority Critical patent/CN109697287B/zh
Publication of CN109697287A publication Critical patent/CN109697287A/zh
Application granted granted Critical
Publication of CN109697287B publication Critical patent/CN109697287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种句子级双语对齐方法及系统,该方法包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表;步骤S2:计算该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的文本相似度;步骤S3:根据该第一语句列表中的语句在该一个文本中的对应语句的位置与该第二语句列表中的语句在该另一个文本中的对应语句的位置对该文本相似度进行修正,得到该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度;步骤S4:根据该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度得到该两文本的语句对齐结果。本发明有利于提高语句对齐效率。

Description

句子级双语对齐方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是一种句子级双语对齐方法及系统。
背景技术
平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料,平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可分为词级、句级、段级和篇级几种,其中,句级的平行语料是最常用的语料库,因此,常常会将将段级、篇级的平行语料转换成句级的平行语料,但是在语料库中,原文与译文并不一定是一一对应的,因此通常需要采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子,这种方式需要耗费大量的人力和时间,从而不利于语句对齐效率的提高。
发明内容
有鉴于此,本发明的目的之一在于提供一种句子级双语对齐方法及系统,有利于提高语句对齐效率。
为达到上述目的,本发明的技术方案提供了一种句子级双语对齐方法,包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
进一步地,所述步骤S1包括:
对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;
Figure BDA0001913436640000021
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
进一步地,所述步骤S3包括:
建立文本相似度矩阵B:
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
进一步地,所述步骤S4包括:
采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
根据语句匹配度之和得到所述两文本的语句对齐结果。
为实现上述目的,本发明的技术方案还提供了一种句子级双语对齐系统,包括:
第一处理模块,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
进一步地,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
Figure BDA0001913436640000041
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
进一步地,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
Figure BDA0001913436640000042
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
进一步地,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
本发明提供的句子级双语对齐方法,利用语句的文本相似性以及语句在文本中的位置进行语句对齐,不但可以减少人工参与,实现语句自动对齐,还可以提高对齐的准确率,有利于提高文本间语句对齐的效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种句子级双语对齐方法的流程图;
图2是本发明实施例提供的一种卷积核的示意图;
图3是本发明实施例提供中的语句文本相似度矩阵的部分示意图;
图4是本发明实施例提供中的语句匹配度矩阵的部分示意图;
图5是本发明实施例提供的一种句子级双语对齐系统的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种句子级双语对齐方法的流程图,该方法包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
即对于每两个语句,可以根据其中第一语句列表中的语句在一个文本中的对应语句的位置(也即语句出现的时间顺序)以及其中第二语句列表中的语句在另一个文本中的对应语句的位置(也即语句出现的时间顺序)对该两个语句的文本相似度进行修正,若两者的位置相近,可以进一步增大文本相似度,若两者的位置较远,可进一步地减小文本相似度,之后将修正后的文本相似度作为该两语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果(即句子级对齐结果)。
本发明实施例提供的句子级双语对齐方法,利用语句的文本相似性以及语句在文本中的位置进行语句对齐,不但可以减少人工参与,实现语句自动对齐,还可以提高对齐的准确率,有利于提高文本间语句对齐的效率。
例如,本发明实施例提供的句子级双语对齐方法可以具体包括:
步骤A:对待对齐的两文本分别进行以下处理:对其中一个文本进行断句处理,得到第一语句列表,对另一个文本进行断句处理后将得到的语句翻译为与上述一个文本语言相同的语句,从而得到第二语句列表;
例如,可以判断文本中是否出现用于分割句子的标志性符号,若出现则进行断句,如中文的“。”、“!”为句子结尾,英文以“.”为句子结尾;
例如,待对齐的两文本中一个文本为英文文本(原文文本),另一个文本为中文文本(译文文本),通过将英文文本断句后得到n个英文语句,每一个英文语句为英文文本中独立的一句话,通过该n个英文语句建立第一语句列表,且第一语句列表的语句位置顺序对应英文文本中的语句位置顺序(即英文文本中的第一个英文语句在第一语句列表仍为第一位,英文文本中的第二个英文语句在第一语句列表仍为第二位,……),其中,通过将中文文本断句后得到m个中文语句,之后可以通过调用翻译API,将该m个中文语句翻译为英文语句,进而得到第二语句列表,其中,第二语句列表的语句位置顺序对应中文文本中的语句位置顺序(即中文语句在中文文本中的位置与该中文语句翻译得到的英文语句在第二语句列表中的位置相同);
步骤B:计算第一语句列表中的每一个语句与第二语句列表中的每一个语句的文本相似度,例如,可以对语句中的词语取词根进行完全匹配,得到两语句的文本相似度K,具体如下:
Figure BDA0001913436640000071
其中,L为所述两个语句中词语数量最多的语句的词语数量(如果两个语句中的词语数量相同,可取任意一个语句作为词语数量最多的语句),Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0;
步骤C:根据对步骤B得到的文本相似度进行修正,得到第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度,具体方式如下:
步骤C1:建立文本相似度矩阵B:
Figure BDA0001913436640000072
其中,n为第一语句列表中的语句数量,m为第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度(也即英文文本中第i个英文语句与中文文本中第j个中文语句的文本相似度),且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序;
其中,为能够更直观的体现出相似度情况,可以将上述相似度矩阵B转换为对应的图像,其中,通过图像中第i行、第j列位置上的像素的灰度值示出Kij的大小,例如,通过深色代表文本相似度最低,浅色代表相似度一般,白色代表相似度高;
步骤C2:获取卷积核,该卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值(即从左上角至右下角对位线位置上的每一个元素的值都大于每一个其他位置上的元素的值),例如,采用的卷积核可以如图2所示;
通过采用卷积核对文本相似度矩阵进行卷积,以改变文本相似度矩阵的值,使得前后位置距离较近的中文句子与英文句子间的语句匹配度更大,使得前后位置距离较远的中文句子与英文句子间的语句匹配度更小,即考虑了语句在文本中的位置(语句在文本出现的时间顺序),从而可以避免中英文本中重复出现的相同或相似的句子对匹配的干扰,有利于提高匹配的准确度;
步骤C3:采用卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度(也即英文文本中每一个英文语句与中文文本中每一个中文语句的语句匹配度);
例如,相似度矩阵B中第34~36行、第35~37列中的元素(也即第一语句列表中第34~36个语句与第二语句列表中第35~37个语句的文本相似度)如图3所示,经过卷积处理后得到的结果如图4所示,包括第一语句列表中第34~36个语句与第二语句列表中第35~37个语句的语句匹配度;
通过上述卷积的结果可以得出,在进行卷积后,产生干扰的错误匹配的句子间的匹配度显著的降低了,得出的正确匹配对为:第一语句列表中第34个语句与第二语句列表中第35个语句配对,第一语句列表中第35个语句与第二语句列表中第36个语句配对,第一语句列表中第36个语句与第二语句列表中第37个语句配对,而通过图3可以看出,卷积前第一语句列表中第34个语句与第二语句列表中第35个语句的文本相似度同第一语句列表中第34个语句与第二语句列表中第36个语句的文本相似度相近,容易造成误判,在卷积之后,第一语句列表中第34个语句与第二语句列表中第35个语句的语句匹配度(即修正后的文本相似度)高于第一语句列表中第34个语句与第二语句列表中第36个语句的语句匹配度(即修正后的文本相似度),从而有利于做出正确判断;
步骤D:根据第一语句列表中的每一个语句与第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果,具体步骤如下:
步骤D1:采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
需要说明的是,某一语句对齐情况下的语句匹配度之和是将该语句对齐情况下所有配对语句的语句匹配度相加求和。
动态规划的本质是对问题状态的定义和状态转移方程的定义,然后通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决句子与句子的最优匹配;
在本实施例中,由于在计算所有对齐情况下的语句匹配度之和的过程中包含大量重复的计算,通过动态规划技术可以避免大量的重复计算,从而达到节省时间的目的;
步骤D2:根据语句匹配度之和得到所述两文本的语句对齐结果,具体可将语句匹配度之和最大的语句对齐情况作为两文本的语句对齐结果。
本发明实施例提供的句子级双语对齐方法,采用卷积核对文本相似度矩阵进行卷积,得到语句匹配度矩阵,该语句匹配度矩阵中的语句匹配度语句之间的文本相似度以及语句在文本中的位置确定,能够避免相同重复的语句在语句匹配时产生的干扰,有利于提高句子匹配的准确率。
参见图5,图5是本发明实施例提供的一种句子级双语对齐系统的示意图,该系统包括:
第一处理模块1,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块2,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块3,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块4,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
在一实施例中,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
在一实施例中,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
Figure BDA0001913436640000101
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
在一实施例中,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
Figure BDA0001913436640000102
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
在一实施例中,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

Claims (8)

1.一种句子级双语对齐方法,其特征在于,包括:
步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果;
其中,所述步骤S3包括:
建立文本相似度矩阵B:
Figure FDA0002160985240000011
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
2.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S1包括:
对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
3.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;
Figure FDA0002160985240000021
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
4.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S4包括:
采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
根据语句匹配度之和得到所述两文本的语句对齐结果。
5.一种句子级双语对齐系统,其特征在于,包括:
第一处理模块,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;
计算模块,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;
第二处理模块,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;
第三处理模块,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果;
其中,所述第二处理模块包括:
矩阵构建单元,用于建立文本相似度矩阵B:
Figure FDA0002160985240000031
其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;
获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;
卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。
6.根据权利要求5所述的句子级双语对齐系统,其特征在于,所述第一处理模块包括:
第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;
第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。
7.根据权利要求5所述的句子级双语对齐系统,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;
Figure FDA0002160985240000032
其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。
8.根据权利要求5所述的句子级双语对齐系统,其特征在于,所述第三处理模块包括:
第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;
第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。
CN201811561745.XA 2018-12-20 2018-12-20 句子级双语对齐方法及系统 Active CN109697287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811561745.XA CN109697287B (zh) 2018-12-20 2018-12-20 句子级双语对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811561745.XA CN109697287B (zh) 2018-12-20 2018-12-20 句子级双语对齐方法及系统

Publications (2)

Publication Number Publication Date
CN109697287A CN109697287A (zh) 2019-04-30
CN109697287B true CN109697287B (zh) 2020-01-21

Family

ID=66231868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811561745.XA Active CN109697287B (zh) 2018-12-20 2018-12-20 句子级双语对齐方法及系统

Country Status (1)

Country Link
CN (1) CN109697287B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580299A (zh) * 2020-12-30 2021-03-30 讯飞智元信息科技有限公司 智能评标方法、评标设备及计算机存储介质
CN113705158B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541955A (en) * 1992-11-06 1996-07-30 Pericle Communications Company Adaptive data rate modem
JP2003006193A (ja) * 2001-06-20 2003-01-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 機械翻訳装置および方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541955A (en) * 1992-11-06 1996-07-30 Pericle Communications Company Adaptive data rate modem
JP2003006193A (ja) * 2001-06-20 2003-01-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 機械翻訳装置および方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法

Also Published As

Publication number Publication date
CN109697287A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
DE112007000855T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Vorsehen eines Rechtschreibprüfungs-Lern-Merkmals
CN105068997B (zh) 平行语料的构建方法及装置
DE112007000727T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Integrieren der Ausgabe der Rechtschreibprüfung in die Ausgabe einer Disambiguierung
DE112007000848T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer optimierten Rechtschreibprüfung während einer Texteingabe durch Vorsehen einer sequentiell angeordneten Reihe von Rechtschreibprüfalgorithmen
CN109800414A (zh) 语病修正推荐方法及系统
CN109697287B (zh) 句子级双语对齐方法及系统
TWI553491B (zh) 問句處理系統及其方法
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111914825B (zh) 文字识别方法、装置及电子设备
CN110019749B (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN112560846B (zh) 纠错语料的生成方法、装置及电子设备
CN111125438A (zh) 实体信息提取方法、装置、电子设备及存储介质
CN112036406A (zh) 一种图像文档的文本抽取方法、装置及电子设备
EP3657359A1 (en) Method and apparatus for identifying medical entity in medical text
CN111598087A (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
KR20230061001A (ko) 문서 교정 장치 및 방법
CN110134766B (zh) 一种面向中医古籍文献的分词方法和装置
CN109710950B (zh) 双语对齐方法、装置及系统
US20200320255A1 (en) Language Processing Method and Device
Yang et al. Spell Checking for Chinese.
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: 519031 room 417, building 20, creative Valley, Hengqin New District, Zhuhai City, Guangdong Province

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.