CN110046332A

CN110046332A - 一种相似文本数据集生成方法及装置

Info

Publication number: CN110046332A
Application number: CN201910270585.1A
Authority: CN
Inventors: 薛闯
Original assignee: Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd
Current assignee: Zhuhai Yuanguang Mobile Interconnection Technology Co ltd; Yuanguang Software Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-23
Anticipated expiration: 2039-04-04
Also published as: CN110046332B

Abstract

本发明涉及一种相似文本数据集生成方法及装置，属于自然语言文本智能分析技术领域，解决了现有相似文本数据集生成方法存在的生成效率低、相似度差等问题。包括如下步骤：利用第一转换模型，将原文本转换为与所述原文本相关的第一文本集；利用第二转换模型，将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集；从所述第二文本集中选择与原文本相似的文本，将所述选择结果作为原文本的相似文本数据集；所述第一转换模型与所述第二转换模型采用不同的转换方式。实现了相似文本数据集的快速生成，且生成的相似文本数据集中的各文本与原文本相似度较高。

Description

一种相似文本数据集生成方法及装置

技术领域

本发明涉及自然语言文本智能分析技术领域，尤其涉及一种相似文本数据集生成方法及装置。

背景技术

目前，获得高质量的相似文本数据主要还是依靠人力筛选，想获得大量的数据就要使用大量的人力，因此会消耗大量的人力以及财力。而且，不同的人因为认知的不同，标记存在主观意识，可能两句话一个人觉得相似，另一个人觉得不相似，尤其是在专业领域，很多文本的含义需要大量思考和专业知识。

因此，现有技术中的相似文本数据集生成方法，普遍存在生成效率低、相似度较差等问题。

发明内容

鉴于上述的分析，本发明旨在提供一种相似文本数据集生成方法及装置，用以解决现有相似文本数据集生成方法存在的生成效率低、相似度差等问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，提供了一种相似文本数据集生成方法，包括如下步骤：

利用第一转换模型，将原文本转换为与所述原文本相关的第一文本集；

利用第二转换模型，将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集；

从所述第二文本集中选择与原文本相似的文本，将所述选择结果作为原文本的相似文本数据集；

所述第一转换模型与所述第二转换模型采用不同的转换方式。

在上述方案的基础上，本发明还做了如下改进：

进一步，所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

所述第一转换模型包括多个翻译子模型，不同的翻译子模型翻译侧重的方向不同；利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本，得到由同一中介语言表述的第一文本集；

所述第二转换模型，用于将所述第一文本集中的每一文本，由中介语言转换为原语言，得到由原语言表述的第二文本集。

所述第一转换模型包括N个翻译子模型，不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言，得到由多种中介语言表述的第一文本集；

所述第二转换模型也包括N个翻译子模型，分别与第一转换模型中的N个翻译子模型对应设置，不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言，得到由原语言表述的第二文本集。

进一步，利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型；

利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型；

利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型；

其中，所述第一平行数据与第二平行数据为不同数据。

进一步，执行以下操作，获取所述第二文本集中与原文本相似的文本，得到原文本的相似文本数据集：

对所述第二文本集中的各文本、原文本分别进行分词，得到第二文本集中的各文本向量与原文本的文本向量；

分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度，提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本，作为原文本的相似文本数据集。

另一方面，提供了一种相似文本数据集生成装置，包括：

第一文本集生成模块，用于利用第一转换模型，将原文本转换为与所述原文本相关的第一文本集；

第二文本集生成模块，用于利用第二转换模型，将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集；

相似文本数据集生成模块，用于从所述第二文本集中选择与原文本相似的文本，将所述选择结果作为原文本的相似文本数据集；

其中，所述第一转换模型与所述第二转换模型采用不同的转换方式。

在上述方案的基础上，本发明还做了如下改进：

其中，所述第一平行数据与第二平行数据为不同数据。

进一步，所述相似文本数据集生成模块包括：

文本向量生成模块，用于对所述第二文本集中的各文本、原文本分别进行分词，得到第二文本集中的各文本向量与原文本的文本向量；

相似文本数据集获取模块，用于分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度，提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本，作为原文本的相似文本数据集。

本发明有益效果如下：本实施例提供的相似文本数据集生成方法及装置，通过利用第一转换模型、第二转换模型的文本转换功能实现对原文本表述方式的转换，得到与原文本相似的文本集，该方法能够有效提升相似文本数据集生成效率，得到相似度较高的文本集，起到扩充语料的作用。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明第1实施例中的相似文本数据集生成方法流程图；

图2为本发明第2实施例中的第一转换模型、第二转换模型关系示意图；

图3为本发明第3实施例中的另一种第一转换模型、第二转换模型关系示意图；

图4为本发明第4实施例中的相似文本数据集生成装置示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

在本发明的第1实施例中，提供了一种相似文本数据集生成方法，流程图如图1所示，该方法包括如下步骤：

步骤S1：利用第一转换模型，将原文本转换为与所述原文本相关的第一文本集；

步骤S2：利用第二转换模型，将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集；

步骤S3：从所述第二文本集中选择与原文本相似的文本，将所述选择结果作为原文本的相似文本数据集；

与现有技术相比，本实施例提供的相似文本数据集生成方法，通过利用第一转换模型、第二转换模型的文本转换功能实现对原文本表述方式的转换，得到与原文本相似的文本集，该方法能够有效提升相似文本数据集生成效率，得到相似度较高的文本集，起到扩充语料的作用。

优选地，利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型；

对于第一转换模型、所述第二转换模型的训练过程，与上述优选实施方式的第一转换模型、第二转换模型的功能相对应。

同时，第一转换模型与第二转换模型的损失函数不同，第一转换模型的损失函数更加注重生成的中介语言的准确度，loss随着中介语言的准确度下降。而第二转换模型的损失函数加入了融合惩罚机制。第二模型不仅要关注准确度，还要根据生成的第二文本集与第一文本集的重合程度进行一定程度的惩罚，致使随着loss的下降不会使第二文本集与第一文本集趋于重合。

此外，本领域的技术人员也可以根据不同的需求对第一转换模型、第二转换模型进行差异化设置，只要能实现其语言转换功能即可。

优选地，在步骤S3中，有多种方式可以得到与原文本相似的文本集，本实施例给出了一种利用余弦相似度得到相似文本数据集的方法，具体包括以下步骤：

优选地，余弦相似度阈值范围的选取可根据不同的要求相应设置，当对相似文本的要求较高时，可适当提升余弦相似度阈值范围的下限；当对相似文本的要求较低时，可适当降低余弦相似度阈值范围的下限；同时，为保证生成的相似文本与原文本仍存在一定区别，所述余弦相似度阈值范围的上限一般小于1。

上述获取相似文本数据集的方式，借助于现有技术即可实现，该部分不是本发明的重点，因此，获取相似文本数据集的具体实现过程，此处不在赘述。

在本发明的第2实施例中，提供了另一种相似文本数据集生成方法，对第一转换模型、第二转换模型进行了如下限定：

所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

所述第二转换模型，用于将所述第一文本集中的每一文本，由中介语言转换为原语言，得到由原语言表述的第二文本集。相应示意图如图2所示。

在上述优选方式中，第一转换模型中的多个翻译子模型翻译侧重方向不同，可分别设置侧重于正式、口语、商务、旅游等多方面的翻译子模型，以保证经过不同翻译子模型输出的文本在文本表述方式上有一定区别。经过不同翻译子模型输出的文本，在经过第二转换模型转换后，表述方式也存在一定区别，由此得到由多个不同文本组成的第二文本集。

优选地，利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型；具体地：

由于第一转换模型包括侧重方向不同的多个翻译子模型，针对具体的翻译子模型，可分别采用相应侧重方向的原语言-中介语言平行数据对其进行训练；例如，针对侧重于正式方面的翻译子模型，采用正式化的原语言及相应的正式化的中介语言对该翻译子模型进行训练，以保证该翻译子模型的翻译结果结果更正式化；针对侧重于商务化的翻译子模型，则采用更加商务化的原语言及相应的商务化的中介语言对该翻译子模型进行训练，以保证该翻译子模型的翻译结果结果更加商务化。

优选地，利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型；

其中，所述第一平行数据与第二平行数据为不同数据。

在本发明的第3实施例中，提供了另一种相似文本数据集生成方法，对第一转换模型、第二转换模型进行了如下限定：

所述第一转换模型包括N个翻译子模型，不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言，得到由多种中介语言表述的第一文本集；具体地，

第一转换模型包括用于将原文本由原语言转化为不同中介语言的N个翻译子模型，如果原文本为中文，可设置包括中英翻译、中法翻译、中日翻译、中韩翻译等多种翻译子模型，以保证经过不同翻译子模型输出的文本为不同的翻译结果。

第二转换模型中的N个翻译子模型与第一转换模型中的N个翻译子模型相应设置：

若第一转换模型中的翻译子模型为中英翻译，则第二转换模型中的相应翻译子模型为英中翻译，以保证经过第二转换模型后，得到的是采用原语言表达的文本。

相应示意图如图3所示。

优选地，利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型；

其中，所述第一平行数据与第二平行数据为不同数据。

当第一转换模型为由原语言转化为不同中介语言的翻译子模型时，可采用相应的原语言-中介语言平行数据对其进行训练；且在这种方式下，对于第二转换模型中的相应翻译子模型，选用不同的数据其进行训练，比如第一转换模型的训练数据侧重使用新闻数据集，第二转换模型训练数据就侧重使用对话数据集。在此基础上，再在第二转换模型的数据集中包含少部分第一模型数据集的数据，用于第一点中所提到的对重合程度的惩罚。通过以上设置，以保证经过第二转换模型输出的文本与原文本存在一定区别。

经过不同翻译子模型输出的文本，在经过第二转换模型中对应设置的翻译子模型的转换后，仍转换为原文本对应的语言，但在表述方式存在一定区别，由此得到由多个不同文本组成的第二文本集。

在本发明的第4实施例中，提供了一种与上述相似文本数据集生成方法对应设置的相似文本数据集生成装置，装置示意图如图4所示，包括：

优选地，所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

其中，所述第一平行数据与第二平行数据为不同数据。

优选地，所述相似文本数据集生成模块包括：

上述方法实施例和装置实施例，基于相同的原理，其相关之处可相互借鉴，且能达到相同的技术效果。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种相似文本数据集生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

3.根据权利要求1所述的方法，其特征在于：所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

4.根据权利要求2或3所述的方法，其特征在于，利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型；

其中，所述第一平行数据与第二平行数据为不同数据。

5.根据权利要求4所述的方法，其特征在于，执行以下操作，获取所述第二文本集中与原文本相似的文本，得到原文本的相似文本数据集：

6.一种相似文本数据集生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于：所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

8.根据权利要求6所述的装置，其特征在于：所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型：

9.根据权利要求7或8所述的装置，其特征在于，利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型；

其中，所述第一平行数据与第二平行数据为不同数据。

10.根据权利要求9所述的装置，其特征在于，所述相似文本数据集生成模块包括：