CN116167455A

CN116167455A - 模型训练及数据去重方法、装置、设备及存储介质

Info

Publication number: CN116167455A
Application number: CN202211687070.XA
Authority: CN
Inventors: 尹从峰; 章玥; 史亚冰; 蒋烨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-26
Anticipated expiration: 2042-12-27
Also published as: CN116167455B

Abstract

本公开提供了一种模型训练及数据去重方法、装置、设备及存储介质，涉及大数据、人工智能、机器学习以及知识图谱等技术领域。具体实现方案为：获取训练数据集合，其包括多条训练数据，各条训练数据包括相同的锚点数据和正样本数据、及不同的负样本数据；基于训练数据集合，获取语义相似度打分模型预测的锚点数据与正样本数据之间的第一语义相似度、锚点数据分别与各负样本数据之间的第二语义相似度、锚点数据的特征表达、以及最大的第二语义相似度对应的困难负样本数据的特征表达；基于获取的上述信息，对语义相似度打分模型进行训练，使得语义相似度打分模型能够强化对困难负样本数据的学习。本公开的技术，能够有效地提高语料数据去重的准确性。

Description

模型训练及数据去重方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及大数据、人工智能、机器学习以及知识图谱等技术领域，尤其涉及一种模型训练及数据去重方法、装置、设备及存储介质。

背景技术

在各行各业中，通常会存在不同的语料数据具有相同的语义。例如，在电力行业中，“空载转动的运行时间”和“空载运转时间”，即表示相同的语义。

但是，在具体地应用场景中，需要对所有的语料数据进行消岐处理，以去除语义重复的语料数据，使得相同语义的多个语料数据仅保留一个，才便于下游拓展使用。例如，消岐处理后的语料数据，可应用于行业的知识体系构建、知识网络浏览、企业搜索以及后续的智能分析和辅助决策，这些场景都具有极高的商业价值。

发明内容

本公开提供了一种模型训练及数据去重方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种语义相似度打分模型的训练方法，包括：

获取训练数据集合，所述训练数据集合中包括多条训练数据，各条所述训练数据包括锚点数据、所述锚点数据的正样本数据和所述锚点数据的负样本数据，且各条所述训练数据中的所述锚点数据相同、所述正样本数据相同；

基于所述训练数据集合，获取语义相似度打分模型预测的所述锚点数据与所述正样本数据之间的第一语义相似度、所述锚点数据分别与各所述负样本数据之间的第二语义相似度、所述锚点数据的特征表达、以及最大的所述第二语义相似度对应的困难负样本数据的特征表达；

基于所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、各所述第二语义相似度、所述锚点数据的特征表达、以及所述困难负样本的特征表达，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

根据本公开的另一方面，提供了一种语料数据去重方法，包括：

对待处理的数据集合中的语料数据进行分桶处理，使得同一桶所述数据子集合中不同语料数据之间具有相同的文本信息，得到多桶数据子集合；

在各桶所述数据子集合内，采用预先训练的语义相似度打分模型进行语料数据的去重处理；所述语义相似度打分模型的训练中强化了对困难负样本数据的学习。根据本公开的再一方面，提供了一种语义相似度打分模型的训练装置，包括：

数据集合获取模块，用于获取训练数据集合，所述训练数据集合中包括多条训练数据，各条所述训练数据包括锚点数据、所述锚点数据的正样本数据和所述锚点数据的负样本数据，且各条所述训练数据中的所述锚点数据相同、所述正样本数据相同；

信息获取模块，用于基于所述训练数据集合，获取语义相似度打分模型预测的所述锚点数据与所述正样本数据的第一语义相似度、所述锚点数据分别与各所述负样本数据的第二语义相似度、所述锚点数据的特征表达、以及最大的所述第二语义相似度对应的困难负样本数据的特征表达；

训练模块，用于基于所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、各所述第二语义相似度、所述锚点数据的特征表达、以及所述困难负样本的特征表达，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

根据本公开的又一方面，提供了一种语料数据去重装置，包括：

分桶处理模块，用于对待处理的数据集合中的语料数据进行分桶处理，得到多桶数据子集合；

去重处理模块，用于在各桶所述数据子集合内，采用预先训练的语义相似度打分模型进行语料去重处理。

根据本公开的再另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提高语料数据去重的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是本实施例的语义相似度打分模型的训练示意图；

图4是根据本公开第三实施例的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是根据本公开第八实施例的示意图；

图10是根据本公开第九实施例的示意图；

图11是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

现有技术的语料数据的去重处理，可以采用人工定制规则来实现。例如，当语料数据本身的内容模式比较固定时，可以通过人工预先配置N-gram匹配模板等方式，实现等价语义的语料数据的识别，从而用于消歧。但是，人工配置的规则比较死板、泛化性比较差，一旦出现新的术语表达方式，人工配置的规则很可能会失效；而且对于文本相似程度高的语料数据，人工配置的规则也容易出现误识别，导致语料数据的去重处理的准确性较差。

例如，在电力行业中，文档中存在海量的实体名称和分面名称。其中，实体是客观存在的事物，比如“10kV电力变压器”、“防烟排烟系统”等等，分面是用来描述实体的某种特征或属性，依附于实体。比如“使用方法”、“直流过压保护”等等。由于其中的实体数据或者分面数据存在意义上的重复，需要去除重复才便于下游拓展使用。

然而，电力行业文档中包含的实体数据之间或者分面数据之间的相似度很高，这给重复数据对的准确判定带来显著的困难。举例来说，和实体“防烟排烟系统”重复的实体有“防排烟系统”，但是实体数据中同时还存在与之高度相似但是不重复的实体，如“排烟系统”、“建筑防烟排烟系统”等，这就要求所采用的语料数据去重方法能够在文本高度相似的情况下准确识别出正确的重复数据。而现有的人工配置的规则很难取得较高的准确率。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种语义相似度打分模型的训练方法，具体可以包括如下步骤：

S101、获取训练数据集合；

该训练数据集合中包括多条训练数据，各条训练数据包括锚点数据、锚点数据的正样本数据和锚点数据的负样本数据，且各条训练数据中的锚点数据相同。

本实施例的语义相似度打分模型的训练方法的执行主体，可以为语义相似度打分模型的训练装置，该装置可以为一电子实体，或者也可以为采用软件集成的应用，使用时，运行在计算机等设备上，实现的语义相似度打分模型进行训练。

该训练数据集合，即为一轮训练中，所需要的数据。该训练数据集合中可以包括有多条训练数据。而每一条训练数据的格式可以为【锚点数据、正样本数据、负样本数据】。同一训练数据集合中的多条训练数据的锚点数据相同。本实施例的锚点数据可以认为是一个参考数据，正样本数据和负样本数据都相对于锚点数据而言的。正样本数据和锚点数据为语义相同的语料数据，而负样本数据和锚点数据为语义不同的锚点数据。

例如，一条训练数据可以包括：【防烟排烟系统、防排烟系统、建筑防烟排烟系统】，其中，“防烟排烟系统”为锚点数据，“防排烟系统”为正样本数据，“建筑防烟排烟系统”为负样本数据。正样本数据“防排烟系统”与锚点数据“防烟排烟系统”语义相同；而负样本数据“建筑防烟排烟系统”与锚点数据“防烟排烟系统”的语义不同。

S102、基于该训练数据集合，获取语义相似度打分模型预测的锚点数据与正样本数据的第一语义相似度、锚点数据分别与各负样本数据的第二语义相似度、锚点数据的特征表达、以及最大的第二语义相似度对应的困难负样本数据的特征表达；

本实施例中，将训练数据集合多条训练数据依次输入至该语义相似度打分模型中。

对于每一条训练数据，该语义相似度打分模型可以预测出锚点数据与正样本数据的第一语义相似度、锚点数据与负样本数据的第二语义相似度。而且，该语义相似度打分模型在预测第一语义相似度和第二语义相似度之前，会先分别计算得到锚点数据、正样本数据、和负样本数据的特征表达，然后，基于锚点数据的特征表达和正样本数据的特征表达，计算第一语义相似度。并基于锚点数据的特征表达和负样本数据的特征表达，计算第二语义相似度。所以，可以基于该语义相似度打分模型，获取到其预测的中间值：锚点数据的特征表达和各负样本数据的特征表达；然后通过比对多个第二语义相似度，获取最大的第二语义相似度对应的困难负样本的特征表达。

也就是说，该困难负样本数据就是该训练数据集合中与锚点数据的第二语义相似度最大的负样本数据。当然，该第二语义相似度也是基于当前的语义相似度打分模型计算得到的。

S103、基于该训练数据集合中包括的训练数据的条数、第一语义相似度、各第二语义相似度、锚点数据的特征表达、以及困难负样本的特征表达，对语义相似度打分模型进行训练，使得语义相似度打分模型能够强化对困难负样本数据的学习。

本实施例中，基于上述步骤获取到的当前的训练数据集合中困难负样本数据的特征表达、锚点数据的特征表达、锚点数据与正样本数据的第一语义相似度、以及锚点数据分别与各负样本数据的第二语义相似度，并结合训练数据集合中包括的训练数据的条数，可以对语义相似度打分模型执行一轮训练。

需要注意的是，在模型训练的不同阶段，模型的参数也会不同，针对于同一个训练数据集合，困难负样本数据也可能不同。所以，在每一轮训练中，语义相似度打分模型需要关注的是此轮训练中与锚点数据的语义相似度最高的困难负样本数据的学习。而在下一轮训练中，由于模型参数发生了变化，筛选的困难负样本可能也发生变化。

在每一轮训练中，语义相似度打分模型都需要强化对困难负样本的学习，例如，要保证困难负样本与锚点数据的第二语义相似度打分必须低于锚点数据与正样本数据的第一语义相似度，而且尽可能地低，例如，至少要低于预设语义相似度阈值。该预设语义相似度阈值可以为识别两个语料数据是否是相同语义的一个最低标准。

具体地，也可以理解为，训练该语义相似度打分模型，使得其关注困难负样本数据的学习，即要保证对困难负样本数据与锚点数据的第二语义相似度打分尽可能低，由于该困难负样本数据是多个负样本数据中与锚点数据的语义相似度最大的，困难负样本数据与锚点数据的第二语义相似度低了，其他负样本数据与锚点数据的第二语义相似度则会更低，而且还能够烘托出正样本数据与锚点数据的第一语义相似度更高了，即拉大第一语义相似度与最大的第二语义相似度之间的差距，所以，能够提高语义相似度打分模型打分的准确性。

本实施例中，以一轮训练为例，描述语义相似度打分模型的训练原理，实际应用中，可以包括多轮本实施例的步骤S101-S103的训练，直至获取到效果最佳的语义相似度打分模型。

本实施例的语义相似度打分模型的训练方法，通过基于该训练数据集合中包括的训练数据的条数、锚点数据与正样本数据的第一语义相似度、锚点数据分别与各负样本数据的第二语义相似度、锚点数据的特征表达、以及困难负样本数据的特征表达，对语义相似度打分模型进行训练，使得语义相似度打分模型能够关注与锚点数据的相似度最高的困难负样本数据的学习，可以有效地提高语义相似度打分模型打分的准确性。

与现有技术的人工配置规则相比，不仅能够大幅低降低人工配置规则的成本，而且泛化能力比较强，泛化能力更强，能够适用于各种领域各种场景的语料数据去重中。而且由于采用该方式训练的语义相似度打分模型的准确性非常高，进而也能够有效地提高语料数据去重的准确性，从而提高语料数据去重的效率。

在本公开的一个实施例中，上述步骤S103在具体实施时，可以包括如下步骤：

(1)基于困难负样本数据的特征表达和锚点数据的特征表达，配置困难负样本数据的权重系数；

(2)基于困难负样本数据的权重系数、训练数据集合中包括的训练数据的条数、第一语义相似度、以及各第二语义相似度，对语义相似度打分模型进行训练，使得语义相似度打分模型能够强化困难负样本数据的学习。

例如，该困难负样本数据的权重系数可以表征模型训练中强化困难负样本数据学习的强度，或者说是模型训练中关注该困难负样本数据的程度。权重系数越高，则对语义相似度打分模型的训练中，关注该困难负样本数据的程度就越高，即强化模型学习困难负样本数据的强度越大。采用该方式，可以使得语义相似度打分模型在训练中，能够关注到与锚点数据的语义相似度最高的困难负样本，并学习到将困难负样本和锚点数据的相似度打分降至合理范围，能够提高语义相似度打分模型的准确性。

图2是根据本公开第二实施例的示意图；如图2所示，本实施例提供一种语义相似度打分模型的训练方法，具体可以包括如下步骤：

S201、采集多条训练数据集合；

各训练数据集合中包括多条训练数据，各条训练数据包括锚点数据、锚点数据的正样本数据和锚点数据的负样本数据，且各条训练数据中的锚点数据相同、正样本数据相同。例如，各负样本数据分别与锚点数据的文字重叠比例大于预设比例阈值，但语义与锚点数据不相同，可以说明本实施例的负样本数据与锚点数据是有一定文字重叠的数据，例如“空载运转时间”和“带载运转时间”，由于文字重叠比例较高，在通用的语义相似度打分模型中，很容易将两者识别为相同语义。本实施例的语义相似度打分模型的训练方法，便是针对此类语料数据进行强化学习，以避免将文字重叠度高，语义不同的语料数据，误识别为相同的语料数据。所以，本实施例中的各负样本数据分别与锚点数据的文字重叠比例大于预设比例阈值，可以保证负样本数据与锚点数据的文字重叠程度较高，但又属于不同语义，这样的训练数据，可以有效地保证训练的语义相似度打分模型，能够有效地识别具有一定的文字重叠、但是又属于不同语义的语料数据，进而能够有效地提高语义相似度打分模型的准确性。

若负样本数据包括的文字的长度，大于锚点数据包括的文字的长度，负样本数据与锚点数据的文字重叠比例，可以等于负样本数据和锚点数据中的重叠文字的数量，除以负样本数据包括的文字的长度。

若负样本数据包括的文字的长度，小于锚点数据包括的文字的长度，负样本数据与锚点数据的文字重叠比例，可以等于负样本数据和锚点数据中的重叠文字的数量，除以锚点数据包括的文字的长度。

本实施例的预设比例阈值，可以很近实际经验来设置。例如，通过对已知的具有一定文字重叠度，但语义不同的语料数据对进行统计和分析，挖掘最小的文字重叠比例，作为预设比例阈值。

或者可选地，本实施例中的预设比例阈值还可以为多条训练数据集合中锚点数据与正样本数据的最小文字重叠比例，这样，可以使得语义相似度打分模型更能学习到对文本重叠度高，但语义不同的负样本的打分。

S202、从多条训练数据集合中获取一条训练数据集合；

即选择一条训练数据集合开始对模型进行训练。

S203、基于该训练数据集合，获取语义相似度打分模型预测的锚点数据与正样本数据的第一语义相似度、和锚点数据分别与各负样本数据的第二语义相似度、锚点数据的特征表达、以及最大的第二语义相似度对应的困难负样本数据的特征表达；

S204、取困难负样本数据的特征表达与锚点数据的特征表达的点积，作为困难负样本数据的权重系数；

S205、基于困难负样本数据的权重系数、训练数据集合中包括的训练数据的条数、第一语义相似度、以及各第二语义相似度，构建损失函数，使得语义相似度打分模型能够强化对困难负样本数据的学习；

S206、基于损失函数，对语义相似度打分模型进行参数调整；

具体地，调整时，是朝着损失函数收敛的方向调整。

S207、检测是否满足训练终止条件，若不满足，返回步骤S202，获取下一条训练数据集合，继续进行训练；若满足，训练终止，确定相似度打分模型的参数，进而确定相似度打分模型。

本实施例的训练终止条件，可以包括损失函数收敛，或者训练次数达到预设次数阈值。实际应用中可以根据需求，选择其中一个。例如，优选地，选择损失函数收敛。对于特殊情况，损失函数若一直趋于收敛，但又不能达到收敛，此时可以根据实际场景，选择训练次数达到预设次数阈值。

例如，图3是本实施例的语义相似度打分模型的训练示意图。如图3所示，在训练阶段，模型主体由文本嵌入表示模块构成，这两个文本嵌入表示模块参数共享，以节省空间资源，提高预测打分的效率。文本嵌入表示模块可以由一定数量的transformer编码器构成，例如可以包括12个transformer编码器。并通过在应用领域的公开资料上进行预训练，引入该应用领域的专业知识和文本语义信息。例如，本实施例的语义相似度打分模型应用在电力行业时，利用电力行业的公开资料对语义相似度打分模型进行预训练即可。

语义相似度打分模型在transformer架构的基础上，根据输入的语料数据对，给出二者重复与否的判断结果，该判断结果可以为一个0-1之间的数，这是语料数据的语义等价判定中的核心策略。

训练时，一次可以输入一条训练数据，包含锚点数据、正样本数据和负样本数据，比如(防烟排烟系统，防排烟系统，排烟系统)，分别拼接作为模型输入。通过语义相似度打分模型获得数据对的向量表示，而后通过线性层分别计算得到锚点数据和正样本数据的相似度，和锚点数据和负样本数据的相似度。

接下来，通过构建的损失函数得到损失，用于优化模型参数。训练过程的目标是最小化损失。训练过程中，可以保存训练过程中得到的所有模型的F1指标和准确(precision)指标，并根据需求，选择一个最佳的模型作为用于语料数据去重任务的目标模型。其中F1指标是兼顾准确性指标和召回性指标的均衡参数。预测过程只需输入一对语料数据，比如“空载转动的运行时间和空载运转时间”，可以直接得到相似度的计算结果。

如图3所示，为了方便训练，提高训练效率，设置两个文本嵌入表示模块，两个文本嵌入表示模块在训练时参数共享。在应用时，仅需要一个文本嵌入表示模块，即图3中单侧的结构，即可实现对输入的两个语料进行语义相似度的计算。

在本公开的一个实施例中，构造的损失函数可以采用如下公式来表示：

该损失函数表达式中，x～p表示锚点数据的分布，

表示正样本数据的分布，/>

表示负样本数据的分布。x,x⁺,x^-分别表示锚点数据，正样本数据和负样本数据，sim(*,*)是语义相似度打分模型的线性层得到的语义相似度计算结果，例如sim(x,x⁺)表示锚点数据与正样本数据的第一语义相似度，sim(x,x^-)表示锚点数据与负样本数据的第二语义相似度。N是训练数据集合中包括的负样本的个数，Q是困难负样本数据的权重系数。即由困难负样本数据的特征表达和锚点数据的特征表达进行点积计算，得到权重系数Q。

具体地，该困难负样本数据的权重系数Q越大，损失函数的值也越大。训练时，调整模型的参数，是朝着损失函数收敛的方向调整的，此时调整的模型参数的幅度便越大，或者也可以说是学习率越大。则说明模型训练中关注该困难负样本数据的程度就越高，或者也可以说是强化模型学习困难负样本数据的强度越大。

由于困难负样本数据与锚点数据的文字重叠比例大于预设比例阈值，所以，训练开始时，困难负样本数据和锚点数据的特征表达可能较为接近。困难负样本数据和锚点数据的特征表达越接近，对应的第二语义相似度越高，该困难负样本数据的权重系数Q就越大。因此，在训练过程中，可以使得模型会更关注困难负样本数据的学习，使得困难的负样本数据与锚点数据的相似度打分降回至合理值。所以，本实施例权重系数的配置、以及损失函数的构建，都非常合理，高效，能够有效地提高语义相似度打分模型的准确性。

本实施例的语义相似度打分模型的训练方法，相比于仅使用普通深度网络的模型，设计了关注于困难样本的损失，同时辅以预训练文本嵌入表示模型，具备更强的语义信息和专业知识辨别能力，可以对较难的数据对做出准确的判断，比如判定“空载运转时间”和“空载转动的运行时间”是重复的数据对，判定“空载运转时间”和“带载运转时间”是不重复的数据对。因此，本实施例的语义相似度打分模型的训练方法，能够有效地提高训练得到的语义相似度打分模型的准确性。该语义相似度打分模型能够适用于各种领域各种场景的语料数据去重中，进而也能够有效地提高语料数据去重的准确性，从而提高语料数据去重的效率。

图4是根据本公开第三实施例的示意图；如图4所示，本实施例提供一种语料数据的去重方法，具体可以包括如下步骤：

S401、对待处理的数据集合中的语料数据进行分桶处理，使得同一桶数据子集合中不同语料数据之间具有相同的文本信息，得到多桶数据子集合；

S402、在各桶数据子集合内，采用预先训练的语义相似度打分模型进行语料去重处理。

本实施例的语料数据的去重方法的执行主体为语料数据的去重装置，该装置可以为电子实体，或者也可以以为采用软件集成的应用，使用时，运行在计算机设备上，实现对待处理的数据集合中的语料数据进行去重处理。

本实施例的语料数据的去重处理，可以应用于任何领域中。但是由于每个领域的专业术语的特殊性，均需要采用该领域的语料数据对该语义相似度打分模型按照上述图1或者图2所示实施例进行训练。

本实施例中，为了提高数据去重效率，可以将待处理数据集合中的数据分桶处理，使得同一桶数据子集合中不同语料数据之间的具有相同的文本信息。也就是说，两个完全没有任何文本重叠度的语料数据，通常不可能是语义相同的语料数据，在本实施例的应用场景中，不可能被分在一个桶内。

本实施例中待处理的数据集合可以为待去重的数据库，或者也可以为待去重的数据库和已经去重后的数据库的合集，即此时需要两者一起参考再去重。

本实施例的语料数据的去重方法，在各桶数据子集合内，采用语义相似度打分模型进行语料去重处理。由于该语义相似度打分模型的训练中强化了对困难负样本数据的学习，能够在去重处理时，更加准确地识别出重复的语料数据和不重复的语料数据，进而能够有效地提高语料数据的去重准确性和去重效率。

图5是根据本公开第四实施例的示意图；如图5所示，本实施例提供一种语料数据的去重方法，具体可以包括如下步骤：

S501、将待处理的数据集合中文字重叠度大于预设比例阈值的至少两个语料数据分为一桶，共得到多桶数据子集合；

任意两个语料数据的文字重叠度等于重叠的文字的数量，除以两个语料数据中包括文字数量多的语料数据所包括的文字的数量。

通过该方式进行的分桶处理，可以确保一个分桶的数据子集合包括有相同的文本信息，具有很强的文本相关性，包括相同语义的语料数据的概率较大，所以，需要进行语料数据的去重。该分桶方式，非常合理，高效，能够确保得到的多桶数据子集合的准确性，为后续的数据去重提供了有效地基础。

S502、对于各桶数据子集合，获取多对候选数据对；

例如，对于各桶数据子集合，将对应的数据子集合内的任意两个语料数据组成一对候选数据对，共得到多对候选数据对，可以有效地保证获取的候选数据对的全面性，为后续的去重提供了有效地基础。

S503、采用语义相似度打分模型，预测各候选数据对中的两条语料数据的语义相似度；

该语义相似度打分模型为上述图1或者图2所示实施例训练好的。该语义相似度打分模型的结构可以为上述图3所示实施例的一侧的结构。

使用时，对于各候选数据对，将该候选数据对中的两条语料数据输入至该语义相似度打分模型，该语义相似度打分模型可以预测并输出两者的语义相似度。

S504、基于多对候选数据对中各候选数据对的语义相似度，对对应的数据子集合内的语料数据进行去重处理。

例如，具体实现时，可以先从多对候选数据对中，获取语义相似度大于或者等于预设相似度阈值的至少一对目标数据对；再将对应的数据子集合内、至少一对目标数据对对应的至少两个语料数据，作为重复语料数据，进行聚合，实现去重处理。

或者可选地，也可以先从多对候选数据对中，去除语义相似度小于预设相似度阈值的候选数据对，剩下的都是需要去重处理的候选数据对。直接将剩下候选数据对的语料数据聚合，即可实现去重处理。本实施例的上述去重处理方式，非常合理、准确、高效。

具体聚合时，可以建立一个映射表，将这些重复语料数据都映射至一个目标语料数据上，从而将重复语料数据，在下游推广和应用时，如知识库创建时，采用统一的一个目标语料数据来标识。具体多个重复语料数据在聚合时，聚合在哪个目标语料数据上，还可以根据实际需求来设置。例如，若多个重复语料数据中存在知识库中的语料数据时，可以选择知识库中的该语料数据为目标语料数据。若不存在知识库中的语料数据时，可以选择一个最精简，如字数字少的语料数据，作为目标语料数据。若最精简的语料数据存在多个，可以随机选择一个。或者也可以进一步参考行业文献，获取出现频率最高的一个。或者也可以训练一个神经网络模型，能够从多个重复语料数据中筛选一个最恰当的目标语料数据，作为聚合后的目标语料数据。

本实施例的语料数据的去重方法，由于采用上述图1或者图2所示实施例的语义相似度打分模型实现去重处理，强化了对困难负样本数据的学习，能够使得该语义相似度打分模型提高识别重复语料和不重复语料的准确性，所以，能够有效的提高语料数据的去重效率。

在电力行业文档中广泛使用各种专业术语，这对一般去重消岐方法的应用构成了行业壁垒。从电力行业文档中抽取得到的实体和分面普遍带有行业知识，比如：“空载转动的运行时间”和“空载运转时间”。经试验验证，将上述本公开实施例的语义相似度打分模型，应用在电力行业中，进行训练，并应用在电力行业中进行语料数据的去重，都具有非常好的效果。

具体实现时，可以使用在电力行业预训练的语义模型，引入额外的语义知识，在此基础上采用上述图2所示实施例中特殊设计的损失函数，能够甄别实体对或者分面对中蕴含的专业信息，从而在电力行业实体数据或者分面数据上达到了很好的消歧去重效果。

例如，图6是根据本公开第五实施例的示意图；如图6所示，提供一种电力行业的语料数据去重的示例图。

本实施例技术方案，可以适用于对实体集合进行语料去重，也适用于对分面集合进行语料去重。知识库包括实体数据库，以及分面数据库。

下面以实体集合为例，本实施例，即用于将实体集合中的实体语料数据和知识库中的实体数据库中的实体语料数据，合在一起，作为待处理的语料数据集合。参考上述图5所示实施例的步骤，先进行分桶；并在每个分桶的数据子集合内，获取多对候选数据对；然后采用语义相似度打分模型对每个候选数据对进行语义相似度的打分。然后在每个分桶内，基于分桶内各候选数据对的语义相似度，识别重复数据对，并将重复数据对进行聚合，并将聚合结果保存入库，即保存至知识库中的实体数据库中。具体实现方式，可以参考上述图5所示实施例的相关记载，在此不再赘述。此时，得到的知识库中的该实体数据库中不存在重复语料，可以基于知识库中的该实体数据库进行知识图谱的创建等应用，可适用于下游的高商业价值场景。

另外，分面集合的语料去重的实现原理，与上述实体集合的语料去重的实现原理完全相同，详细可以参考上述相关记载，在此不再赘述。

图7是根据本公开第六实施例的示意图；如图7所示，本实施例提供一种语义相似度打分模型的训练装置700，包括：

数据集合获取模块701，用于获取训练数据集合，所述训练数据集合中包括多条训练数据，各条所述训练数据包括锚点数据、所述锚点数据的正样本数据和所述锚点数据的负样本数据，且各条所述训练数据中的所述锚点数据相同、所述正样本数据相同；

信息获取模块702，用于基于所述训练数据集合，获取语义相似度打分模型预测的所述锚点数据与所述正样本数据的第一语义相似度、所述锚点数据分别与各所述负样本数据的第二语义相似度、所述锚点数据的特征表达、以及最大的所述第二语义相似度对应的困难负样本数据的特征表达；

训练模块703，用于基于所述训练数据集合中包括的训练数据的条数、所述锚点数据与所述正样本数据的第一语义相似度、所述锚点数据分别与各所述负样本数据的第二语义相似度、所述锚点数据的特征表达、以及所述困难负样本的特征表达，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

本实施例的语义相似度打分模型的训练装置700，通过采用上述模块实现语义相似度打分模型的训练的实现原理以及技术效果，与上述相关方法实施例相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图8是根据本公开第七实施例的示意图；如图8所示，本实施例提供一种语义相似度打分模型的训练装置800，包括：上述图7所示的同名同功能模块：数据集合获取模块801、信息获取模块802和训练模块803。

如图8所示，训练模块803，包括：

配置单元8031，用于基于所述困难负样本数据的特征表达和所述锚点数据的特征表达，配置所述困难负样本数据的权重系数；

训练单元8032，用于基于所述困难负样本数据的权重系数、所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、以及各所述第二语义相似度，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

进一步可选地，在本公开的一个实施例中，训练单元8032，用于：

基于所述困难负样本数据的权重系数、所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、以及各所述第二语义相似度，构建损失函数，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习；

基于所述损失函数，对所述语义相似度打分模型进行参数调整语义相似度打分模型。

进一步可选地，在本公开的一个实施例中，配置单元8031，用于：

取所述困难负样本数据的特征表达与所述锚点数据的特征表达的点积，作为所述困难负样本数据的权重系数。

各所述负样本数据分别与所述锚点数据的文字重叠比例大于预设比例阈值。

本实施例的语义相似度打分模型的训练装置800，通过采用上述模块实现语义相似度打分模型的训练的实现原理以及技术效果，与上述相关方法实施例相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图9是根据本公开第八实施例的示意图；如图9所示，本实施例提供一种语料数据去重装置900，包括：

分桶处理模块901，用于对待处理的数据集合中的语料数据进行分桶处理，得到多桶数据子集合；

去重处理模块902，用于在各桶所述数据子集合内，采用预先训练的语义相似度打分模型进行语料去重处理。

本实施例的语料数据去重装置900，通过采用上述模块实现语料数据去重的实现原理以及技术效果，与上述相关方法实施例相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图10是根据本公开第九实施例的示意图；如图10所示，本实施例提供一种语料数据去重装置1000，包括图9所示的同名同功能模块：分桶处理模块1001和去重处理模块1002。

在本实施例中，分桶处理模块1001，用于：

将所述数据集合中文字重叠度大于预设比例阈值的至少两个语料数据分为一桶，共得到所述多桶数据子集合。

如图10所示，在本实施例中，去重处理模块1002，包括：

获取单元10021，用于对于各桶所述数据子集合，获取多对候选数据对；

预测单元10022，用于采用所述语义相似度打分模型，预测各所述候选数据对中的两条语料数据的语义相似度；所述语义相似度打分模型的训练中强化了对文字重叠度大于所述预设比例阈值，但是语义不同的负样本数据的学习；

去重处理单元10023，用于基于所述多对候选数据对中各所述候选数据对的语义相似度，对对应的所述数据子集合内的语料数据进行去重处理。

在本公开的一个实施例中，获取单元10021，用于：

对于各桶所述数据子集合，将对应的所述数据子集合内的任意两个语料数据组成一对所述候选数据对，共得到所述多对候选数据对。

在本公开的一个实施例中去重处理单元10023，用于：

从所述多对候选数据对中，获取语义相似度大于或者等于预设相似度阈值的至少一对目标数据对；

将对应的所述数据子集合内、所述至少一对目标数据对对应的至少两个语料数据，作为重复语料数据，进行聚合，实现去重处理。

本实施例的语料数据去重装置1000，通过采用上述模块实现语料数据去重的实现原理以及技术效果，与上述相关方法实施例相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如本公开的上述方法。例如，在一些实施例中，本公开的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义相似度打分模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，基于所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、各所述第二语义相似度、所述锚点数据的特征表达、以及所述困难负样本的特征表达，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习，包括：

基于所述困难负样本数据的特征表达和所述锚点数据的特征表达，配置所述困难负样本数据的权重系数；

基于所述困难负样本数据的权重系数、所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、以及各所述第二语义相似度，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

3.根据权利要求2所述的方法，其中，基于所述困难负样本数据的权重系数、所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、以及各所述第二语义相似度，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习，包括：

基于所述损失函数，对所述语义相似度打分模型进行参数调整。

4.根据权利要求2所述的方法，其中，基于所述困难负样本数据的特征表达和所述锚点数据的特征表达，配置所述困难负样本数据的权重系数，包括：

5.根据权利要求1-4任意所述的方法，其中，各所述负样本数据分别与所述锚点数据的文字重叠比例大于预设比例阈值。

6.一种语料数据去重方法，包括：

在各桶所述数据子集合内，采用预先训练的语义相似度打分模型进行语料数据的去重处理；所述语义相似度打分模型的训练中强化了对困难负样本数据的学习。

7.根据权利要求6所述的方法，其中，对待处理的数据集合中的语料数据进行分桶处理，使得同一桶所述数据子集合中不同语料数据之间具有相同的文本信息，得到多桶数据子集合，包括：

8.根据权利要求7所述的方法，其中，在各桶所述数据子集合内，采用预先训练的语义相似度打分模型进行语料数据的去重处理，包括：

对于各桶所述数据子集合，获取多对候选数据对；

采用所述语义相似度打分模型，预测各所述候选数据对中的两条语料数据的语义相似度；

基于所述多对候选数据对中各所述候选数据对的语义相似度，对对应的所述数据子集合内的语料数据进行去重处理。

9.根据权利要求8所述的方法，其中，对于各桶所述数据子集合，获取多对候选数据对，包括：

10.根据权利要求8所述的方法，其中，基于所述多对候选数据对中各所述候选数据对的语义相似度，对对应的所述数据子集合内的语料数据进行去重处理，包括：

11.一种语义相似度打分模型的训练装置，包括：

12.根据权利要求11所述的装置，其中，所述训练模块，包括：

配置单元，用于基于所述困难负样本数据的特征表达和所述锚点数据的特征表达，配置所述困难负样本数据的权重系数；

训练单元，用于基于所述困难负样本数据的权重系数、所述训练数据集合中包括的训练数据的条数、所述第一语义相似度、以及各所述第二语义相似度，对所述语义相似度打分模型进行训练，使得所述语义相似度打分模型能够强化对所述困难负样本数据的学习。

13.根据权利要求12所述的装置，其中，所述训练单元，用于：

14.根据权利要求12所述的装置，其中，所述配置单元，用于：

15.根据权利要求11-14任意所述的装置，其中，各所述负样本数据分别与所述锚点数据的文字重叠比例大于预设比例阈值。

16.一种语料数据去重装置，包括：

17.根据权利要求16所述的装置，其中，所述分桶处理模块，用于：

18.根据权利要求17所述的装置，其中，所述去重处理模块，包括：

获取单元，用于对于各桶所述数据子集合，获取多对候选数据对；

预测单元，用于采用所述语义相似度打分模型，预测各所述候选数据对中的两条语料数据的语义相似度；所述语义相似度打分模型的训练中强化了对文字重叠度大于所述预设比例阈值，但是语义不同的负样本数据的学习；

去重处理单元，用于基于所述多对候选数据对中各所述候选数据对的语义相似度，对对应的所述数据子集合内的语料数据进行去重处理。

19.根据权利要求18所述的装置，其中，所述获取单元，用于：

20.根据权利要求18所述的装置，其中，所述去重处理单元，用于：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5或者6-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5或者6-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5或者6-10中任一项所述的方法。