CN112541062B - 平行语料对齐方法、装置、存储介质及电子设备 - Google Patents

平行语料对齐方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112541062B
CN112541062B CN202011364569.8A CN202011364569A CN112541062B CN 112541062 B CN112541062 B CN 112541062B CN 202011364569 A CN202011364569 A CN 202011364569A CN 112541062 B CN112541062 B CN 112541062B
Authority
CN
China
Prior art keywords
target
text
search range
pair
aligned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011364569.8A
Other languages
English (en)
Other versions
CN112541062A (zh
Inventor
刘译璟
孙伟
苏海波
周泽彪
张文学
李崇岭
左云鹏
高体伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN202011364569.8A priority Critical patent/CN112541062B/zh
Publication of CN112541062A publication Critical patent/CN112541062A/zh
Application granted granted Critical
Publication of CN112541062B publication Critical patent/CN112541062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本公开涉及一种平行语料对齐方法、装置、存储介质及电子设备,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,在与所述目标搜索范围对对应的文本中确定目标对,确定目标对在待对齐源文本和待对齐目标文本中的位置序号,基于位置序号重新确定新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空,解决了相关技术中对齐效率较低的问题。

Description

平行语料对齐方法、装置、存储介质及电子设备
技术领域
本公开涉及语言处理技术领域,具体地,涉及一种平行语料对齐方法、装置、存储介质及电子设备。
背景技术
在相关技术中,通过词、短语、句子三种粒度计算词之间、短语之间、句子之间的相似度,进而构建平行句对,虽然此种对齐方式有较高的准确率,但是,在基于词、短语、句子的进行对齐时,因对齐计算量较大,也将导致对齐的效率较低。
发明内容
本公开的目的是提供一种平行语料对齐方法、装置、存储介质及电子设备,解决了相关技术中对齐效率较低的问题。
为了实现上述目的,第一方面,本公开提供一种平行语料对齐方法,所述方法包括:
确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;
在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。
可选地,在所述第一子源文本为段落,且所述第二子目标文本为段落的情况下,所述方法还包括:
确定每个段落的至少一个关键词;
将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串;
所述在与所述目标搜索范围对对应的文本中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;
将第一相似度值最高的两个段落确定为目标对。
可选地,所述确定每个段落的至少一个关键词包括:
针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率;
针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数;
基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。
可选地,在所述第一子源文本为句子,且所述第二子目标文本为句子的情况下,所述在所述目标搜索范围对中对应的对象中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有句子与第二搜索范围中对应的所有句子进行相似度计算,得到多个第二相似度值;
将第二相似度值最高的两个句子确定为目标对。
可选地,采用以下方式进行相似度计算:
提取第一文本和第二文本对应的语义向量;
根据所述第一文本和所述第二文本的语义向量,计算所述第一文本与所述第二文本之间的余弦距离,将该余弦距离作为相似度值。
可选地,所述方法还包括:
获取初始源文本和初始目标文本;
分别对所述初始源文本和所述初始目标文本进行预处理,以分别得到与所述初始源文本对应的待对齐源文本,以及与所述初始目标文本对应的待对齐目标文本,其中,所述预处理包括分段处理或分句处理。
可选地,所述方法还包括:
将每一次确定的所述目标对加入对齐列表中;
在所述得到的新的目标搜索范围均为空的情况下,输出所述对齐列表。
第二方面,本公开还提供一种平行语料对齐装置,所述装置包括:
第一确定模块,用于确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对;
第二确定模块,用于在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
第三确定模块,确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
划分模块,用于根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
更新模块,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。
第三方面,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中的平行语料对齐方法。
第四方面,本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中的平行语料对齐方法的步骤。
通过上述技术方案,在实现待对齐源文本和待对齐目标文本中包括的文本的对齐时,通过每次确定的目标对中包括的第一子源文本和第二子目标文本在待对齐源文本和待对齐目标文本中的位置序号,对后续文本对齐依据的文本搜索范围进行缩小,以提高对齐效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种平行语料对齐方法的流程图。
图2是根据一示例性实施例示出的一种平行语料对齐方法的另一流程图。
图3是根据一示例性实施例示出的一种平行语料对齐装置的结构示意图。
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开提供一种平行语料对齐方法,图1是根据一示例性实施例示出的一种平行语料对齐方法的流程图。如图1所示,包括以下步骤。
在步骤S101中,确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将初始化搜索范围对作为目标搜索范围对,其中,目标搜索范围对包括与待对齐源文本对应的第一搜索范围和与待对齐目标文本对应的第二搜索范围。
在步骤S102中,在与目标搜索范围对对应的文本中确定目标对。
在步骤S103中,确定目标对中包括的第一子源文本在待对齐源文本中的第一位置序号,以及目标对中包括的第二子目标文本在待对齐目标文本中的第二位置序号。
在步骤S104中,根据第一位置序号对第一搜索范围进行划分得到新的两个第一搜索范围,根据第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围。
在步骤S105中,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。
在步骤S106中,判断两个新的目标搜索范围对是否均为空,在两个新的目标搜索范围对均为空的情况下,结束流程;否则,并返回执行步骤102。
在本公开中,在实现对齐时,在第一搜索范围与第二搜索范围对应的文本中确定目标对,并基于目标对中包括的第一子源文本和第二子目标文本分别在待对齐源文本、待对齐目标文本中的位置序号,对第一搜索范围和第二搜索范围进行重新划分,以便于下次对齐时,可缩小目标对的查找范围,实现提高对齐效率的目的。
值得说明的是,待对齐源文本可以是包括多个段落的文本,相应地,第一子源文本即对应为段落文本;待对齐源文本也可以是包括多个句子的段落文本,相应地,第一子源文本即对应为句子。与待对齐源文本相似,待对齐目标文本也可以是包括多个段落的文本,也可以是包括多个句子的段落文本。基于此,可以理解的是,待对齐源文本是包括多个段落的文本且待对齐目标文本是包括多个段落的文本时,可以实现待对齐源文本和待对齐源文本之间的段落对齐。待对齐源文本是包括多个句子的文本且待对齐目标文本是包括多个句子的文本时,可以实现待对齐源文本和待对齐源文本之间的句子对齐。以下将以待对齐源文本和待对齐目标文本为包括多个段落的文本对本案进行进一步说明。
在步骤S101中,待对齐源文本和待对齐目标文本是不同语言的文本。例如,待对齐源文本可以是中文,对应的,待对齐目标文本可以是英文。待对齐源文本和待对齐目标文本利用上述平行语料对齐方法实现对齐。
在本公开中,第一次确定目标对对应的目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围,通过首次在该范围中确定目标对后,在基于确定的目标对再重新下一目标对所对应的第一搜索范围和第二搜索范围,以减小文本范围大小,进而在确定目标对时也可以相应地减小文本相似度计算次数,进而提高对齐效率。
在本公开中,可以通过以下方式确定第一次确定目标对对应的目标化搜索范围对所包括的第一搜索范围和第二搜索范围。具体地,通过待对齐源文本与待对齐目标文本分别包括的第一子源文本和第二子目标文本的数量分别确定初始化搜索范围对中包括的第一搜索范围和第二搜索范围,确定的第一搜索范围和第二搜索范围即作为目标搜索范围对。
示例地,以待对齐源文本包括8个段落,且待对齐目标文本包括10个段落为例,初始化搜索范围对中的第一搜索范围是[1,2,3,4,5,6,7,8],相应地,待对齐源文本包括的段落依次为:a1,a2,a3,a4,a5,a6,a7,a8;初始化搜索范围对中的第二搜索范围是[1,2,3,4,5,6,7,8,9,10],相应地,待对齐目标文本包括的段落依次为:b1,b2,b3,b4,b5,b6,b7,b8,b9,b10;其中,数字表征在各个文本中的位置序号。
在步骤S102中,目标对包括相似度值最高的第一子源文本和第二子目标文本。在目标搜索范围对对应的文本中确定目标对,具体地,确定目标搜索范围对中第一搜索范围对应的各文本(即第一子源文本)与第二搜索范围对应的各文本(即第二子源文本)之间的相似度值,将相似度值最高的第一子源文本与第二子源文本作为目标对。
以目标搜索范围对中的第一搜索范围是[1,2,3,4,5,6,7,8],相应地,待对齐源文本包括的段落依次为:a1,a2,a3,a4,a5,a6,a7,a8;目标搜索范围对中的第二搜索范围是[1,2,3,4,5,6,7,8,9,10],相应地,待对齐目标文本包括的段落依次为:b1,b2,b3,b4,b5,b6,b7,b8,b9,b10为例,对如何确定目标对进行进一步说明。具体的,分别计算第一搜索范围对应的每个段落与第二搜索范围对应的每个段落之间的相似度值,根据上述示例,此次计算会得到80个相似度值,并将该80个相似度值中最大值所对应的段落对确定为目标对,例如,a3和b5之间的相似度值最高,则a3和b5即为目标对,a3为待对齐源文本中位置排列第三的第一子源文本,b5为待对齐目标文本中位置排列第五的第二子目标文本。需要说明的是,上述示例为第一次确定目标对的情况,相应地,对应的目标搜索范围对为第一次确定目标对所对应的范围。
在步骤S103中,确定目标对中包括的子源文本和子目标文本各自在相应文本(待对齐源文本或待对齐目标文本)中的位置序号。根据该位置序号,即可以确定新的目标搜索范围,并基于新的目标搜索范围,确定下一个目标对。
在步骤S104中,根据第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围。
示例地,仍以上述确定的目标对为a3和b5为例,对第一搜索范围([1,2,3,4,5,6,7,8])进行划分,得到的两个新的第一搜索范围分别为:[1,2]和[4,5,6,7,8];对第二搜索范围([1,2,3,4,5,6,7,8,9,10])进行划分,得到的两个新的第二搜索范围分别为:[1,2,3,4]和[6,7,8,9,10]。
在步骤S105中,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,新的目标搜索范围对是缩小了文本搜索范围的范围。
值得说明的是,在进行组合时,将位于待对齐源文本前面的新的第一搜索范围与位于待对齐目标文本前面的新的第二搜索范围进行组合,相对应地,将位于待对齐源文本后面的新的第一搜索范围与位于待对齐目标文本后面的新的第二搜索范围进行组合。
以上述得到的两个新的第一搜索范围分别为:[1,2]和[4,5,6,7,8]以及得到的两个新的第二搜索范围分别为:[1,2,3,4]和[6,7,8,9,10]为例,组合得到的两个新的目标搜索范围对分别为:[1,2]与[1,2,3,4],以及[4,5,6,7,8]与[6,7,8,9,10]。
值得说明的是,在得到新的目标搜索范围对时,直接在[1,2]与[1,2,3,4]中确定下一目标对,以及在[4,5,6,7,8]与[6,7,8,9,10]确定下一目标对。而相关现有技术中是在剩下的[1,2,4,5,6,7,8]与[1,2,3,4,6,7,8,9,10]中确定下一目标对,相较于现有技术,本公开缩小了确定目标对的文本搜索范围,进而实现了提高对齐效率的目的。
在步骤S106中,判断两个新的目标搜索范围对是否均为空,在确定的新的目标搜索范围对均为空时,则表明目标搜索范围对对应的文本中不在存在相似的文本,即可以结束流程,否则,继续执行上述在与目标搜索范围对对应的文本中确定目标对的步骤。
需要说明的是,待对齐源文本和待对齐目标文本为包括多个句子的段落文本时,每次确定目标对所对应的目标搜索范围与上述待对齐源文本和待对齐目标文本为包括多个段落的文本时确定目标搜索范围的过程类似,本实施例在此不做赘述。
在一种实施方式中,在第一子源文本为段落,且第二子目标文本为段落的情况下,可以基于段落中的多个关键词确定整个段落的语义信息。因此,在实现段落对齐的实例中,所述方法还包括以下步骤:
确定每个段落的至少一个关键词;
将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串。
在本公开中,关键词是在一个文本中的重要程度较高的词汇,一般的,出现次数较多的词即可认为是对应文本中的关键词。基于多个关键词,即可以确定文本的语义信息。
具体通过以下方式确定每个段落中的至少一个关键词:
第一,针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率。其中,出现频率=M1/M2,M1是指该词汇在该段落出现的次数,M2是指该段落中总词汇数;逆段落频率=log(N1/(N2+1)),N1是指文本中的总段落数,N2是指在整个文本中出现该词汇的段落数。出现频率和逆段落频率均是评价一个词汇在文本中的重要程度的参数。
第二,针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数。其中,重要性分数可以是出现频率和逆段落频率之积。
第三,基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。基于每个词汇的重要性分数,按重要性分数从高到低的顺序进行排列,选取重要性分数位于前列的词汇作为该段落的关键词。例如,若需要五个关键词,则选取重要性分数位于前五的词汇作为段落的关键词。
在得到至少一个关键词后,对得到的关键词进行拼接,得到一个字符串,该字符串即可以表征与该字符串对应的段落的语义信息。
进一步可以理解的是,关键词可以表明段落的语义信息,因此,在实现段落对齐时,上述步骤S102具体包括将目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;将第一相似度值最高的两个段落确定为目标对。基于每个段落文本的关键词进行相似度计算,可以减少计算量,进一步提高对齐效率。
在一种实施方式中,在第一子源文本为句子,且第二子目标文本为句子的情况下,上述步骤S102具体包括:将目标搜索范围对中第一搜索范围中对应的所有句子与第二搜索范围中对应的所有句子进行相似度计算,得到多个第二相似度值;将第二相似度值最高的两个句子确定为目标对。
在本公开中,可以采用以下方式计算第一相似度值和第二相似度值。具体的:
第一,提取第一文本和第二文本对应的语义向量
第二,根据第一文本和第二文本的语义向量,计算第一文本与第二文本之间的余弦距离,将该余弦距离作为相似度值。
其中,在实现段落对齐时,第一文本为与第一搜索范围对应的任一段落所对应的字符串,第二文本为与第二搜索范围对应的任一段落所对应的字符串;在实现句子对齐时,第一文本为与第一搜索范围对应的任一句子,第二文本为与第二搜索范围对应的任一句子。
需要说明的是,本实施例在计算相似度值时,采用的是基于注意力机制的双Encoder模型模型实现,利用余弦相似度计算对齐概率,该模型可动态计算不同语境下,不同语种的词汇之间的相关性,较好地计算了对齐概率,极大地提升了对齐效果。具体的,将两个字符串分别输入不同的编码器,分别经过池化后得到两个对应的语义向量,再计算该两个语义向量的相似度值。
可选地,双Encoder模型可通过神经网络训练得到。具体的,获取多个样本数据,该多个样本数据包括语义相关的正样本、语义不相关的负样本,通过该多个样本数据进行训练,得到模型。其中,多个样本数据可利用网络爬虫技术获取得到。
可选地,还可以基于编辑距离算法计算第一文本与第二文本的相似度值,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。
图2是根据一示例性实施例示出的一种平行语料对齐方法的另一流程图,如图2所示,包括以下步骤:
在步骤S201中,获取初始源文本和初始目标文本。
在步骤S202中,分别对所述初始源文本和所述初始目标文本进行预处理,以分别得到与所述初始源文本对应的待对齐源文本,以及与所述初始目标文本对应的待对齐目标文本。
在步骤S203中,确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将初始化搜索范围对作为目标搜索范围对,其中,目标搜索范围对包括与待对齐源文本对应的第一搜索范围和与待对齐目标文本对应的第二搜索范围。
在步骤S204中,在与目标搜索范围对对应的文本中确定目标对。
在步骤S205中,确定目标对中包括的第一子源文本在待对齐源文本中的第一位置序号,以及目标对中包括的第二子目标文本在待对齐目标文本中的第二位置序号。
在步骤S206中,根据第一位置序号对第一搜索范围进行划分得到新的两个第一搜索范围,根据第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围。
在步骤S207中,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。
在步骤S208中,判断两个新的目标搜索范围对是否均为空,在两个新的目标搜索范围对均为空的情况下,结束流程;否则,并返回执行步骤204。
在本公开中,预处理包括分段处理或分句处理。在实现文本的段落对齐时,需要对原文本进行分段处理,再基于分段后的文本进行段落对齐。而在实现段落中各个句子对齐时,相应地也需要对段落进行分句处理,在基于分句后的段落进行句子对齐。
在本公开中,初始源文本和初始目标文本的文档格式不同,分段的处理方式不同。例如,对于文件后缀名为“docx”、“doc”的文本,可以先将该类文本解压成XML文件,在全文检索段落标签(例如<w:p>),基于识别到的所有段落标签,对文本进行分段处理,得到所有段落后,可以再识别每个段落中的文本标签(例如<w:t>),得到只有文字的段落文本,减少其他与文字无关的量对后续对齐造成的影响,以提高准确率和对齐效率。
例如,对于文件后缀名为“txt”的文本,在全文检索表征换行的转义字符(例如“\n”,“\r\n”,“\r”),基于识别到的所有表征换行的转义字符,对文本进行分段处理。
在本公开中,初始源文本和初始目标文本的语言种类不同,分句处理的方式不同。对于中文文本来说,可以通过检索全文的断句字符(例如:句号、问号)来实现分句。对于英文文本来说,可以通过检索全文的断句字符(例如:问号)来实现分句。
步骤S203与图1中所示步骤S101的实施过程类似,本实施例对此不做赘述。
步骤S204与图1中所示步骤S102的实施过程类似,本实施例对此不做赘述。
步骤S205与图1中所示步骤S103的实施过程类似,本实施例对此不做赘述。
步骤S206与图1中所示步骤S104的实施过程类似,本实施例对此不做赘述。
步骤S207与图1中所示步骤S105的实施过程类似,本实施例对此不做赘述。
步骤S208与图1中所示步骤S106的实施过程类似,本实施例对此不做赘述。
在本公开中,可以对不同结构化的文本进行相应的预处理,进而实现段落对齐,和/或句子对齐,提高了适用性。
在一种实施方式中,还可以将每一次确定的所述目标对加入对齐列表中,在得到的新的目标搜索范围均为空的情况下,输出所述对齐列表,便于用户直观观看对齐后的文本。
值得说明的是,在对文本采用上述平行语料进行段落对齐后,可以得到段落对齐的对齐列表;再基于该列表中每个对齐的段落文本,进行分句处理,进一步采用上述平行语料进行句子对齐,最终得到句子对齐的对齐列表。
基于同一发明构思,本公开还提供一种平行语料对齐装置。图3是根据一示例性实施例示出的一种平行语料对齐装置的结构示意图。如图3所示。所述装置包括:
第一确定模块301,用于确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对;
第二确定模块302,用于在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
第三确定模块303,确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
划分模块304,用于根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
更新模块305,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。
可选地,所述装置300还包括判断模块,用于判断两个新的目标搜索范围对是否均为空。
可选地,在第一子源文本为段落,且第二子目标文本为段落的情况下,所述装置300还包括:
关键词确定模块,用于确定每个段落的至少一个关键词。
拼接模块,用于将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串。
可选地,所述关键词确定模块包括:
第一计算子模块,用于针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率。
第二计算子模块,用于针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数。
确定子模块,用于基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。
可选地,第二确定模块包括第一确定子模块,用于在第一子源文本为段落,且第二子目标文本为段落的情况下,将目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;将第一相似度值最高的两个段落确定为目标对。
可选地,第二确定模块还包括第二确定子模块,用于在第一子源文本为句子,且第二子目标文本为句子的情况下,将目标搜索范围对中第一搜索范围中对应的所有句子与第二搜索范围中对应的所有句子进行相似度计算,得到多个第二相似度值;将第二相似度值最高的两个句子确定为目标对。
可选地,可以采用以下方式计算第一相似度值和第二相似度值。具体的:
第一,提取第一文本和第二文本对应的语义向量
第二,根据第一文本和第二文本的语义向量,计算第一文本与第二文本之间的余弦距离,将该余弦距离作为相似度值。
可选地,所述装置300还包括:
获取模块,用于获取初始源文本和初始目标文本。
预处理模块,用于分别对所述初始源文本和所述初始目标文本进行预处理,以分别得到与所述初始源文本对应的待对齐源文本,以及与所述初始目标文本对应的待对齐目标文本。
可选地,所述装置300还包括:
列表生成模块,用于将每一次确定的所述目标对加入对齐列表中,并在得到的新的目标搜索范围均为空的情况下,输出所述对齐列表。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以上述方法实施例中所述方法的步骤。
图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示,该电子设备400可以包括:处理器402,存储器404。该电子设备400还可以包括电力组件406,多媒体组件408,输入/输出(I/O)接口412,以及通信组件414中的一者或多者。
其中,处理器402用于控制该电子设备400的整体操作,以完成上述的平行语料对齐方法中的全部或部分步骤。存储器404用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为电子设备400的各种组件提供电力。电力组件406可以包括电源管理系统,一个或多个电源,及其他与为电子设备400生成、管理和分配电力相关联的组件。
多媒体组件408可以包括屏幕。其中屏幕例如可以是触摸屏。
输入/输出(I/O)接口412为处理器402和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件414用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件414可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的平行语料对齐方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的平行语料对齐方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器404,上述程序指令可由电子设备400的处理器402执行以完成上述的平行语料对齐方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种平行语料对齐方法,其特征在于,所述方法包括:
确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;
在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。
2.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为段落,且所述第二子目标文本为段落的情况下,所述方法还包括:
确定每个段落的至少一个关键词;
将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串;
所述在与所述目标搜索范围对对应的文本中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;
将第一相似度值最高的两个段落确定为目标对。
3.根据权利要求2所述的方法,其特征在于,所述确定每个段落的至少一个关键词包括:
针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率;
针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数;
基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。
4.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为句子,且所述第二子目标文本为句子的情况下,所述在所述目标搜索范围对中对应的对象中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有句子与第二搜索范围中对应的所有句子进行相似度计算,得到多个第二相似度值;
将第二相似度值最高的两个句子确定为目标对。
5.根据权利要求2或4所述的方法,其特征在于,采用以下方式进行相似度计算:
提取第一文本和第二文本对应的语义向量;
根据所述第一文本和所述第二文本的语义向量,计算所述第一文本与所述第二文本之间的余弦距离,将该余弦距离作为相似度值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取初始源文本和初始目标文本;
分别对所述初始源文本和所述初始目标文本进行预处理,以分别得到与所述初始源文本对应的待对齐源文本,以及与所述初始目标文本对应的待对齐目标文本,其中,所述预处理包括分段处理或分句处理。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将每一次确定的所述目标对加入对齐列表中;
在所述得到的新的目标搜索范围均为空的情况下,输出所述对齐列表。
8.一种平行语料对齐装置,其特征在于,所述装置包括:
第一确定模块,用于确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对;
第二确定模块,用于在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
第三确定模块,确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
划分模块,用于根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
更新模块,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202011364569.8A 2020-11-27 2020-11-27 平行语料对齐方法、装置、存储介质及电子设备 Active CN112541062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364569.8A CN112541062B (zh) 2020-11-27 2020-11-27 平行语料对齐方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364569.8A CN112541062B (zh) 2020-11-27 2020-11-27 平行语料对齐方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112541062A CN112541062A (zh) 2021-03-23
CN112541062B true CN112541062B (zh) 2022-11-25

Family

ID=75015329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364569.8A Active CN112541062B (zh) 2020-11-27 2020-11-27 平行语料对齐方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112541062B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836484B (zh) * 2021-04-20 2021-08-27 北京妙医佳健康科技集团有限公司 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN109635197A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN110807334A (zh) * 2019-10-29 2020-02-18 网易有道信息技术(北京)有限公司 文本处理方法、装置、介质和计算设备
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
CN109635197A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN110807334A (zh) * 2019-10-29 2020-02-18 网易有道信息技术(北京)有限公司 文本处理方法、装置、介质和计算设备
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112541062A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
US9922025B2 (en) Generating distributed word embeddings using structured information
US10592605B2 (en) Discovering terms using statistical corpus analysis
Täckström et al. Efficient inference and structured learning for semantic role labeling
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US11017301B2 (en) Obtaining and using a distributed representation of concepts as vectors
US9514185B2 (en) Answering time-sensitive questions
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US10810375B2 (en) Automated entity disambiguation
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
Li et al. Improving text normalization using character-blocks based models and system combination
CN111597800A (zh) 同义句的获取方法及装置、设备及存储介质
US10558631B2 (en) Enhancing textual searches with executables
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
JP2022055334A (ja) テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体
Shaaban Automatic Diacritics Restoration for Arabic Text
CN114330290A (zh) 语言模型的训练方法及装置
US10528661B2 (en) Evaluating parse trees in linguistic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant