CN111191469B

CN111191469B - 大规模语料清洗对齐方法及装置

Info

Publication number: CN111191469B
Application number: CN201911303493.5A
Authority: CN
Inventors: 袁建
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-09-19
Anticipated expiration: 2039-12-17
Also published as: CN111191469A

Abstract

本发明实施例提供一种大规模语料清洗对齐方法及装置，所述方法包括：对历史稿件进行解析和分句，获得句子集合；取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。本发明实施例提供的大规模语料清洗对齐方法及装置，无须花费大量人力，计算复杂度低、准确率高，能够自动地对大规模语料进行清洗对齐。

Description

大规模语料清洗对齐方法及装置

技术领域

本发明涉及机器翻译技术领域，更具体地，涉及一种大规模语料清洗对齐方法及装置。

背景技术

随着翻译技术的发展，机器翻译被广泛地使用，产生了大量的翻译语料。但是，目前翻译行业很多项目采取Word、Excel、PDF、PPT、TEXT等文件做为翻译载体，积累了大量语料，且相关语料中原文、译文文件无法匹配对应，而解析对齐这些语料将形成巨大数字资产，为后续相关业务提供支撑。

传统的语料对齐方案，要么基于长度对齐方法，要么基于词汇对齐方法，均需要花费大量人力，计算复杂度高、准确率低。因此，亟需提供一种无须花费大量人力，计算复杂度低、准确率高的对大规模语料进行清洗对齐的方法。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的大规模语料清洗对齐方法及装置。

第一方面，本发明实施例提供一种大规模语料清洗对齐方法，包括：

对历史稿件进行解析和分句，获得句子集合；

取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；

对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；

若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

其中，对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算，具体为：

基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。

其中，对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后，还包括：

若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值，则删除所述句子。

其中，所述确定匹配到的句子与所述句子为一组双语对齐语料之后，还包括：

构建双语对齐语料库，将匹配到的句子与所述句子加入至所述双语对齐语料库中。

第二方面，本发明实施例提供一种大规模语料清洗对齐装置，包括：

解析模块，用于对历史稿件进行解析和分句，获得句子集合；

翻译模块，用于取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；

相似度匹配模块，用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；

判断模块，用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

其中，所述相似度匹配模块具体用于：

其中，还包括：

删除模块，用于若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值，则删除所述句子。

其中，还包括：

对齐语料库生成模块，用于构建双语对齐语料库，将匹配到的句子与所述句子加入至所述双语对齐语料库中。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的大规模语料清洗对齐方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所提供的大规模语料清洗对齐方法的步骤。

本发明实施例提供的大规模语料清洗对齐方法及装置，无须花费大量人力，计算复杂度低、准确率高，能够自动地对大规模语料进行清洗对齐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的大规模语料清洗对齐方法的流程示意图；

图2为本发明实施例提供的大规模语料清洗对齐装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的大规模语料清洗对齐方法的流程示意图，包括：

步骤100、对历史稿件进行解析和分句，获得句子集合；

具体地，对各种类型的历史稿件进行解析，获得文本语料，然后对所述文本语料进行分句，获得由句子组成的集合，即形成句子集合。

步骤101、取出所述句子集合中的任意一个句子进行语种识别，并并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；

具体地，取出所述句子集合中的任意一个句子，然后首先对该句子进行语种识别，再利用与该句子的语种识别结果相对应的机器翻译引擎对该句子进行翻译，获得该句子对应的译文。

步骤102、对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；

具体地，从取出了该句子的句子集合中匹配出与该句子对应的译文最相似的句子。具体通过逐一从取出了该句子的句子集合中提取出一个句子，与该句子对应的译文进行相似度匹配计算。

例如，若句子集合包含了N个句子，则取出了该句子的句子集合还剩下N-1个句子，那么，将这N-1个句子逐一与该句子进行相似度匹配计算。

步骤103、若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

具体地，根据相似度匹配计算的结果，确定句子集合中是否存在某个句子与该句子对应的译文之间的相似度达到、甚至是高于预先设定的阈值，若存在，则匹配到一个句子，与该句子能够组成一组双语对齐语料。然后取出所述句子集合中剩下的N-2个句子中的任意一个句子，执行如上步骤101至103，直至所述句子集合为空。

本发明实施例提供的大规模语料清洗对齐方法，无须花费大量人力，计算复杂度低、准确率高，能够自动地对大规模语料进行清洗对齐。

基于上述实施例的内容，对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算，具体为：

具体地，余弦相似度计算方法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，差异越小，余弦值越大。本发明实施例中利用余弦相似度来衡量两个句子之间的相似度，即基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。余弦相似度计算方法简单、易实现，适合本发明实施例大规模语料对齐场景。

基于上述实施例的内容，对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后，还包括：

具体地，若确定取出了该句子的句子集合中的每个句子与该句子对应的译文之间的相似度均未达到预设阈值，则说明该句子集合中不存在该句子的译文，则从句子集合中删除该句子。然后取出所述句子集合中剩下的N-1个句子中的任意一个句子，执行如上步骤101至103，直至所述句子集合为空。

基于上述实施例的内容，所述确定匹配到的句子与所述句子为一组双语对齐语料之后，还包括：

具体地，构建双语对齐语料库，用于对齐后的语料。

若确定匹配到的句子与该句子为一组双语对齐语料，则从句子集合中删除匹配到的句子与该句子，将匹配到的句子与该句子加入至双语对齐语料库中。然后继续执行上述步骤101至103，直至句子集合为空。

如图2所示，为本发明实施例提供的大规模语料清洗对齐装置的结构示意图，包括：解析模块210、翻译模块220、相似度匹配模块230和判断模块240，其中，

解析模块210，用于对历史稿件进行解析和分句，获得句子集合；

具体地，解析模块210对各种类型的历史稿件进行解析，获得文本语料，然后对所述文本语料进行分句，获得由句子组成的集合，即形成句子集合。

翻译模块220，用于取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；

具体地，翻译模块取出所述句子集合中的任意一个句子，然后首先对该句子进行语种识别，再利用与该句子的语种识别结果相对应的机器翻译引擎对该句子进行翻译，获得该句子对应的译文。

相似度匹配模块230，用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；

具体地，相似度匹配模块230从取出了该句子的句子集合中匹配出与该句子对应的译文最相似的句子。具体通过逐一从取出了该句子的句子集合中提取出一个句子，与该句子对应的译文进行相似度匹配计算。

例如，若句子集合包含了N个句子，则相似度匹配模块230取出了该句子的句子集合还剩下N-1个句子，那么，将这N-1个句子逐一与该句子进行相似度匹配计算。

判断模块240，用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

具体地，判断模块240根据相似度匹配计算的结果，确定句子集合中是否存在某个句子与该句子对应的译文之间的相似度达到、甚至是高于预先设定的阈值，若存在，则匹配到一个句子，与该句子能够组成一组双语对齐语料。

然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤，取出所述句子集合中剩下的N-2个句子中的任意一个句子，进行下一个双语语料的对齐过程，直至所述句子集合为空。

本发明实施例提供的大规模语料清洗对齐装置，无须花费大量人力，计算复杂度低、准确率高，能够自动地对大规模语料进行清洗对齐。

基于上述实施例的内容，所述相似度匹配模块230具体用于：

具体地，余弦相似度计算方法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，差异越小，余弦值越大。本发明实施例中相似度匹配模块230利用余弦相似度来衡量两个句子之间的相似度，即基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。余弦相似度计算方法简单、易实现，适合本发明实施例大规模语料对齐场景。

基于上述实施例的内容，所述大规模语料清洗对齐装置还包括：

具体地，若确定取出了该句子的句子集合中的每个句子与该句子对应的译文之间的相似度均未达到预设阈值，则说明该句子集合中不存在该句子的译文，则利用删除模块从句子集合中删除该句子。然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤，取出所述句子集合中剩下的N-1个句子中的任意一个句子，进行下一个双语语料的对齐过程，直至所述句子集合为空。

具体地，对齐语料库生成模块首先构建双语对齐语料库，用于对齐后的语料，若确定匹配到的句子与该句子为一组双语对齐语料，则从句子集合中删除匹配到的句子与该句子，将匹配到的句子与该句子加入至双语对齐语料库中。然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤，取出所述句子集合中剩下的句子中的任意一个句子，进行下一个双语语料的对齐过程，直至所述句子集合为空。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，所述电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各方法实施例所提供的大规模语料清洗对齐方法，例如包括：对历史稿件进行解析和分句，获得句子集合；取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各方法实施例提供的大规模语料清洗对齐方法，例如包括：对历史稿件进行解析和分句，获得句子集合；取出所述句子集合中的任意一个句子进行语种识别，并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译，获得所述句子对应的译文；对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算；若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，所述计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大规模语料清洗对齐方法，其特征在于，包括：

对历史稿件进行解析和分句，获得句子集合；

若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料；

2.根据权利要求1所述的大规模语料清洗对齐方法，其特征在于，对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后，还包括：

3.根据权利要求1所述的大规模语料清洗对齐方法，其特征在于，所述确定匹配到的句子与所述句子为一组双语对齐语料之后，还包括：

4.一种大规模语料清洗对齐装置，其特征在于，包括：

判断模块，用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值，则确定匹配到的句子与所述句子为一组双语对齐语料；

其中，所述相似度匹配模块具体用于：

5.根据权利要求4所述的大规模语料清洗对齐装置，其特征在于，还包括：

6.根据权利要求4所述的大规模语料清洗对齐装置，其特征在于，还包括：

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。