CN110929526A

CN110929526A - 样本生成方法、装置以及电子设备

Info

Publication number: CN110929526A
Application number: CN201911033220.3A
Authority: CN
Inventors: 张怡
Original assignee: Shenzhen Lutuo Technology Co Ltd
Current assignee: Shenzhen Lutuo Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-03-27
Anticipated expiration: 2039-10-28
Also published as: CN110929526B

Abstract

本申请实施例公开了一种样本生成方法、装置以及电子设备。所述方法包括：获取样本集合中的第一语义样本；将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度；若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

Description

样本生成方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种样本生成方法、装置以及电子设备。

背景技术

在机器学习模型领域，通常需要输入正负样本进行学习。而在相关的样本标记过程中，都是基于人为标注的。在人为标注过程中，需要人去给出大量的句子对，并且判断两句话是不是同一个含义，在时间、人力成本上耗费大、并且在力求样本质量的情况下成本更大。

发明内容

鉴于上述问题，本申请实施例提出了一种样本生成方法、装置以及电子设备，以改善上述问题。

第一方面，本申请实施例提供了一种样本生成方法，所述方法包括：获取样本集合中的第一语义样本；将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度；若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

第二方面，本申请实施例提供了一种样本生成装置，所述装置包括：样本获取单元，用于获取样本集合中的第一语义样本；样本匹配单元，用于将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度；样本生成单元，用于若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的方法。

本申请实施例提供的一种样本生成方法、装置以及电子设备，对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的第二语义样本与语义不同的所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度，若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种样本生成方法的流程图；

图2示出了本申请另一实施例提出的一种样本生成方法的流程图；

图3示出了本申请另一实施例提出的一种样本生成方法的中计算第二语义样本对应的匹配度的流程图；

图4示出了本申请再一实施例提出的一种样本生成方法的流程图；

图5示出了本申请实施例提出的一种样本生成装置的结构框图；

图6示出了本申请另一实施例提出的一种样本生成装置的结构框图；

图7示出了本申请的用于执行根据本申请实施例的样本生成方法的服务器的结构框图；

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的样本生成方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。而在人工智能领域，机器学习是必不可少的技术。

机器学习通常有监督学习以及无监督学习。其中，无监督学习可以理解为对于无标签的数据进行学习，目的是不仅能够解决有明确答案的问题，也可以对没有明确答案的问题进行预测，进而通过自学学习知识，达到可以正确回答有答案的问题，也可以对无答案的问题进行预测归类。常用于聚类、异常检测等。例如，视频分析、社交网站解析、声音信号解析等。

再者，对于其中的监督学习可以为对于有标签的数据进行学习，目的是能够正确判断无标签的数据。通俗的讲，可以理解为老师教授学生知识，并告知学习过程中的对与错，让学生可以从所学知识的经验和技能中对没有学过的问题进行正确回答，这就是监督学习，用于预测数据的回归、分类标签的分类、顺序的排序等问题，例如，手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断、股票预测等。

而对于其中的监督学习，在学习过程中让模型了解到对与错通常是通输入正样本以及负样本来实现的，所以在学习之前需要预先标注输入需要的正样本以及负样本，进而实现对模型进行训练。但是，发明人在研究中发现，在相关的样本标注方式中，基本都是基于人为标注的。例如，在确定某个待标注的样本的负样本的过程中，都是由后台人员人工的标注每个样本的负样本。并且，在标注过程中，一般是将其他样本直接标注为待标注的样本的负样本。因此，不仅造成样本标注的效率不高，也使得样本的标注质量也不高。

因此，本申请实施例提供了样本生成方法、装置以及电子设备，可以在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的语义样本对应的负样本，进而提升负样本的生成效率。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，为本申请一实施例提供的一种样本生成方法，所述方法包括：

步骤S110：获取样本集合中的第一语义样本。

需要说明的是，在本申请实施例提供的样本生成方法运行前，可以先生成样本集合。在生成的样本集合中包括有多个语义样本。其中，语义样本可以理解为包括用户期望查询信信息的语义内容。例如，语义样本可以为“Aqara网关可以连接哪些子设备”，也可以为“智能门锁添加指纹、密码的方式”，还可以为“小米米家智能门锁开锁方式”等表征用户期望咨询的语义内容。在本实施例中，第一语义样本为当前进行负样本生成的样本。

再者，在本申请实施例中，可以有多种方式来触发开始执行实施例提供的样本生成方法。

作为一种方式，可以由后台维护人员手动触发开始执行实施例提供的样本生成方法。那么在这种方式下，当检测到后台维护人员手动触发开始执行实施例提供的样本生成方法后，即可开始执行获取样本集合中的第一语义样本，从而使得后台维护人员可以即时根据自己的需要触发负样本的生成。

作为另一种方式，可以周期性的触发开始执行实施例提供的样本生成方法。可以理解的是，对于样本集合中的样本可能会定期的进行更新，那么在有样本更新后，不同样本对应的正样本或者让负样本都有可能随之更新。因此，通过定期的执行实施例提供的样本生成方法，可以尽可能的保证样本集合中的样本所对应的负样本可以保持较为定期更新的状态。再者，可以理解的是，本申请实施例中会基于指定的相似度算法来计算样本之间的相似度，而不同的相似度算法的计算方式可能会有所差别，那么可选的，可以在检测到定的相似度算法更新后，触发执行实施例提供的样本生成方法，从而使得每个样本对应的负样本可以及时的更新。

作为再一种方式，可以检测到样本集合中有新的样本录入的情况下，即可开始执行实施例提供的样本生成方法。从而通过这种方式，可以使得每个样本对应的负样本可以实时处于一个最新的状态。

步骤S120：将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

可以理解的是，在进行样本集合的生成的过程中，录入到集合中的样本均为语义不相同的样本，而对于语义不相同的样本可能会存在一定的相似度，那么通过相似度匹配，可以得到与第一语义样本对应的负样本。其中，第二语义样本为样本集合中除该第一语义样本外的任一一个语义样本或者多个语义样本。

作为一种方式，在本申请实施例提供的样本生成方法中，可以直接基于指定的相似度算法来对两个样本进行相似计算，进而得到两个样本之间的匹配度作为第二语义样本对应的匹配度。其中，指定的算法可以为cosine相似度计算规则、jaccard相似度计算规则或者bm25相似度计算规则。

作为另一种方式，可以调用分布式全文搜索引擎(Elastic Search)将样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

需要说明的是，在这种方式中，可以将输入数据输入到分布式全文搜索引擎中进行相似度的计算。那么当分布式全文搜索引擎接收到输入数据后，可以进一步的判断输入数据是否为已经录入到样本集合中的样本，那么进而可以继续进行后续的相似度计算，若不是已经录入到样本集合中的样本，则不作出响应或者直接反馈搜索信息。可以理解的是，样本集合中的样本的内容为用户期望查询信信息，那么分布式全文搜索引擎就可以直接对输入的输入数据进行查询。

步骤S130：若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

在本申请实施例中，目标条件可以有多种实施样式。

作为一种方式，在第二语义样本为单个的情况下，目标条件可以为匹配度阈值。可以理解的是，在这种方式下，不论是通过指定的相似度算法还是通过分布式全文搜索引擎所计算出的匹配度均为数值形式的。那么在得到第二语义样本对应的匹配度后，可以将第二语义样本对应的匹配度与预先配置的匹配度阈值进行比对，若不小于该匹配度阈值，则将该将所述第二语义样本生成为与所述第一语义样本对应的负样本，从而得到第一语义样本对应的字面相似而语义不相似的负样本。

作为另外一种方式，在第二语义样本为多个的情况下，目标条件可以包括匹配度不小于匹配度阈值以及匹配度排序满足指定排序位置中的至少一个。类似的，在这种方式下，不论是通过指定的相似度算法还是通过分布式全文搜索引擎所计算出的匹配度也可以均为数值形式的。那么在分别计算得到多个第二语义样本各自对应的匹配度后，可以对多个第二语义样本各自对应的匹配度进行排序。

那么在目标条件进包括匹配度排序满足指定排序位置的情况下，可以直接将排序指定排序位置的第二语义样本生成为与所述第一语义样本对应的负样本。例如，其中的指定排序位置可以为排序最前的2个或者4个等。再者，若目标条件包括匹配度排序满足指定排序位置，且匹配度不小于匹配度阈值，那么在满足指定排序位置的情况下，再从满足指定排序位置的匹配度中选出匹配度不小于匹配度阈值的第二语义样本生成为与所述第一语义样本对应的负样本。示例性的，对于第一语义样本A，当前选择有第二语义样本B、第二语义样本C、第二语义样本D以及第二语义样本E分别与第一语义样本A进行相似度匹配。

那么在判断满足指定排序位置的第二语义样本为第二语义样本B、第二语义样本C以及第二语义样本D的情况下，进一步基于匹配度阈值对第二语义样本B、第二语义样本C以及第二语义样本D进行判断，则可以得到对应的匹配度大于匹配度阈值可以为第二语义样本D，从而将第二语义样本D作为第一语义样本A的负样本。

需要说明的是，在本实施例中，获取到第二语义样本后，即可判断第二语义样本的数量，然后基于前述定义的方式来结合第二语义样本的数量更新目标条件的内容。

本申请实施例提供的一种样本生成方法，对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的第二语义样本与语义不同的所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度，若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

请参阅图2，为本申请一实施例提供的一种样本生成方法，所述方法包括：

步骤S210：获取样本集合中的第一语义样本。

步骤S220：将所述样本集合中的第二语义样本与相似样本分别与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

可以理解的是，有时候对于同一个语义可以有不同的文字表达方式。在这种情况下，虽然两个样本的文本描述方式不同，但是语义却是相同的。对应的，在表征问答场景的样本集合中，可以配置一个标准问题对应的语义内容为标准样本，而将与该标准问题相似的相似问题对应的语义内容作为相似样本，其中，相似问题与标准问题各自对应的语义内容的语义相同，但是文本描述方式不同。因此，相似样本为标准样本的正样本。

例如，如下表示例性的列出了标准问题以及相似问题。

如上表所示的标准问题，会对应有至少一个相似问题。例如，标准问题对应的语义内容为“Aqara网关可以连接哪些子设备”，那么对应的相似问题的语义内容为“Aqara网关支持的子设备类型”或者“Aqara网关目前可以连接米家设备吗”或者“哪些设备可以连接Aqara网关”或者“Aqara网关可以添加的设备有哪些”。基于上述内容，在本实施例中第一语义样本为其中的一个待生成负样本的标准问题对应的语义内容。而第二语义样本为其他的标准问题对应的语义内容以及其他的标准问题对应的相似问题所对应的语义内容。

例如，若第一语义样本为ID为001的标准问题对应的语义内容“Aqara网关可以连接哪些子设备”。那么第二语义样本可以为ID为002的标准问题对应的语义内容“S2智能门锁添加指纹、密码的方式”。相似样本可以为ID为002的相似问题对应的语义内容“S2智能门锁指纹如何设置”，以及“S2智能门锁密码如何设置”，以及“S2智能门锁怎么录入指纹”，以及“S2智能门锁怎么录入密码”。

再者，在本申请实施例中，可以将除了当前用于生成负样本的标准问题的语义内容(即第一语义样本)外的所有其他标准问题对应的语义内容均作为第二语义样本，也可以将除了当前用于生成负样本的标准问题的语义内容(即第一语义样本)外的部分其他标准问题对应的语义内容作为第二语义样本，其中的部分其他标准问题对应的语义内容的数量可以根据实际需求进行动态的调整。可选的，若当前需要较为快速的生成样本集合中每个标准问题对应语义内容的负样本，就可以仅选择除了当前用于生成负样本的标准问题的语义内容(即第一语义样本)外的部分其他标准问题对应的语义内容作为第二语义样本。例如，当前用于生成负样本的标准问题的语义内容(即第一语义样本)为前述表中ID为002的标准问题对应的语义内容“S2智能门锁添加指纹、密码的方式”，那么第二语义样本就可以为ID为001的标准问题对应的语义内容以及ID为001的标准问题对应的语义内容。

可选的，在这种方式下，还可以先通过关键词匹配的方式来确定部分其他标准问题对应的语义内容具体为哪些。需要说明的是，本实施例要实现的一个效果是将语义不同且文本内容相似的样本作为负样本，以提升负样本的质量。那么在确定当前用于生成负样本的标准问题的语义内容后，可以将与当前用于生成负样本的标准问题的语义内容包括有相同关键词的其他标准问题的语义内容作为第二语义样本。其中，关键词表征语义内容中的实体成分。例如，“Aqara网关可以连接哪些子设备”对应的关键词就是网关。而“S2智能门锁添加指纹、密码的方式”对应的关键词就是智能门锁。

其中，作为一种方式，如图3所示，所述将所述第二语义样本与所述相似样本分别与所述第一语义样本进行语义相似度，得到所述第二语义样本对应的匹配度匹配的步骤包括：

步骤S221：基于语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本的第一语义相似度值，以及所述相似样本与所述第一语义样本的第二语义相似度值。

其中，可以基于cosine相似度计算规则、jaccard相似度计算规则或者bm25相似度计算规则来分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本的第一语义相似度值，以及所述相似样本与所述第一语义样本的第二语义相似度值。

步骤S222：基于所述第一语义相似度值以及第二语义相似度值，计算得到所述第二语义样本对应的匹配度。

作为一种方式，可以将第一语义相似度值以及第二语义相似度值的均值作为第二语义样本对应的匹配度。例如，可以将第一语义相似度值以及第二语义相似度值之间的算术平均值作为第二语义样本对应的匹配度。

示例性的，若其中的相似样本有多个，且分别为相似样本C、相似样本D、相似样本E以及相似样本F。那么在计算相似度的过程中，除了会基于语义相似度计算规则计算第一语义样本A与第二语义样本B之间相似度外，还会计算第一语义样本A与相似样本C之间相似度，第一语义样本A与相似样本D之间相似度，第一语义样本A与相似样本E之间相似度以及第一语义样本A与相似样本F之间相似度，那么在这种方式下，第一语义样本A与相似样本C之间相似度，第一语义样本A与相似样本D之间相似度，第一语义样本A与相似样本E之间相似度以及第一语义样本A与相似样本F之间相似度均为第二语义相似度值。

需要说明的是，在计算第二语义样本对应的匹配度的过程中可以仅运用单独的一种相似度计算规则。而为了进一步的提升所计算得到的负样本的准确性，可以同时基于多种相似度计算规则进行计算。那么在这种方式，作为一种方式，所述基于语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度的步骤包括：

基于多个语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本在每个语义相似度计算规则中的第一语义相似度值，以及所述相似样本与所述第一语义样本在每个语义相似度计算规则中的第二语义相似度值；

对应的，所述基于所述第一语义相似度值以及第二语义相似度值，计算得到所述匹配度的步骤包括：计算每个语义相似度规则中的所述第一语义相似度值以及第二语义相似度值的均值，得到在每个语义相似度规则中的中间均值；计算每个语义相似度规则中的中间均值的均值，得到所述第二语义样本对应的匹配度。

下面再通过cosine相似度计算规则、jaccard相似度计算规则以及bm25相似度计算规则这三种规则为例对上述的内容进行示例性的说明。示例性的，样本集合包括第一语义样本A以及第二语义样本B，还包括第二语义样本B对应的相似样本C、相似样本D、相似样本E以及相似样本F。

那么在cosine相似度计算规则下，会分别基于cosine相似度计算规则计算第一语义样本A与第二语义样本B、相似样本C、相似样本D、相似样本E以及相似样本F的相似度。例如，基于cosine相似度计算规则计算得到第一语义样本A与第二语义样本B的相似度为c1，第一语义样本A与相似样本C的相似度为c2，第一语义样本A与相似样本D的相似度为c3，第一语义样本A与相似样本E的相似度为c4，第一语义样本A与相似样本F的相似度为c5。

那么在cosine相似度计算规则下，所得到的均值S1＝(c1+c2+c3+c4+c5)/5。

对应的，那么在jaccard相似度计算规则下，会分别基于jaccard相似度计算规则计算第一语义样本A与第二语义样本B、相似样本C、相似样本D、相似样本E以及相似样本F的相似度。例如，基于jaccard相似度计算规则计算得到第一语义样本A与第二语义样本B的相似度为j1，第一语义样本A与相似样本C的相似度为j2，第一语义样本A与相似样本D的相似度为j3，第一语义样本A与相似样本E的相似度为j4，第一语义样本A与相似样本F的相似度为j5。那么在jaccard相似度计算规则下，所得到的均值S2＝(j1+j2+j3+j4+j5)/5。

对应的，那么在bm25相似度计算规则下，会分别基于bm25相似度计算规则计算第一语义样本A与第二语义样本B、相似样本C、相似样本D、相似样本E以及相似样本F的相似度。例如，基于bm25相似度计算规则计算得到第一语义样本A与第二语义样本B的相似度为b1，第一语义样本A与相似样本C的相似度为b2，第一语义样本A与相似样本D的相似度为b3，第一语义样本A与相似样本E的相似度为b4，第一语义样本A与相似样本F的相似度为b5。那么在bm25相似度计算规则下，所得到的均值S3＝(b1+b2+b3+b4+b5)/5。

那么最终计算得到的第二语义样本对应的匹配度为(S1+S2+S3)/3。

步骤S230：若匹配度满足目标条件，将所述第二语义样本以及第二语义样本对应的相似样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

再者，可以理解的是，前述确认的第一语义样本为样本集合中的一个标准问题对应的语义内容。那么对应的第一语义样本也会对应有相似样本。那么在将所述第二语义样本生成为与所述第一语义样本对应的负样本的情况下，若匹配度满足目标条件，也可以将所述第二语义样本生成为与所述第一语义样本对应的相似样本的负样本。

作为一种方式，当在计算得到第一语义样本对应的负样本后，可以进一步的对所计算得到的负样本进行记录。而在本实施例中，可以有多种记录方式。

作为一种方式，可以直接记录在样本集合中。可选的，可以通过数据表的方式来实施样本集合。示例性的，如下表所示：

在上表所示的内容中，可以配置不相似问题字段用于记录负样本。例如，若在前述内容中第一语义样本为ID为001的标准问题所对应的语义内容“Aqara网关可以连接哪些子设备”，那么在计算得到ID为006的标准问题对应的语义内容以及ID为006的相似问题对应的语义内容均为负样本的情况下，会将ID为006的标准问题对应的语义内容以及ID为006的相似问题对应的语义内容填充到ID为001的标准问题所对应的不相似问题字段中。

可以理解的是，若直接将负样本记录在样本集合中，会造成样本集合中的数据较为冗余。例如，在上述示例中，ID为001的标准问题所对应的不相似问题字段的语义内容和ID为006的标准问题对应的语义内容以及ID为006的相似问题对应的语义内容是重读的。若样本集合中的样本较多，直接将负样本记录在样本集合中，会使得样本集合中的数据过多，浪费过多的存储空间。

那么，为了改善上述问题，作为一种方式，还可以将正负样本的对应关系记录在独立于样本集合的文件中。那么在这种方式下，本实施例提供的样本生成方法还包括：生成独立于所述样本集合的文件；在所述文件中存储表征所述第二语义样本为与所述第一语义样本对应负样本的信息。可以理解的是，该文件中所存储的是正负样本对应关系的描述信息，而描述正负样本对应关系的描述信息可以只是一些字符，相比于正负样本本身的文本内容，所占用的存储空间更小。

示例性的，在上表中需要在样本集合中标准问题对应的不相似问题字段中记录“Aqara网关可以连接多少个设备//Aqara网关能添加几个子设备//一个Aqara网关可以添加多少个子设备//Aqara网关添加子设备数量有限制吗//Aqara网关最大可以添加多少个设备”等字符才能完成一次负样本的记录。而在使用独立文件的情况下，仅仅在该独立文件中增加描述信息即可完成所生成负样本的记录，进而极大的减少了样本集合本身的冗余信息，也降低了样本集合所占用的存储空间，减少了样本集合的维护成本。

本申请实施例提供的一种样本生成方法，对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的第二语义样本以及该第二语义样本对应的相似样本分别与语义不同的所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度，若匹配度满足目标条件，将所述第二语义样本以及第二语义样本对应的相似样本均生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

请参阅图4，为本申请一实施例提供的一种样本生成方法，所述方法包括：

步骤S310：获取样本集合中的第一语义样本。

步骤S320：将多个所述第二语义样本分别与所述第一语义样本进行语义相似度匹配，得到多个所述第二语义样本各自对应的匹配度。

步骤S330：若匹配度满足目标条件，将对应的匹配度在匹配度排序中满足指定的排序位置的第二语义样本，生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

本申请实施例提供的一种样本生成方法，对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的多个第二语义样本与语义不同的所述第一语义样本进行语义相似度匹配，得到所述多个第二语义样本各自对应的匹配度，将对应的匹配度在匹配度排序中满足指定的排序位置的第二语义样本，生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，从样本集合的多个样本中得到第一语义样本对应的负样本，进而提升负样本的生成效率。

请参阅图5，为本申请一实施例提供的一种样本生成装置400，所述装置包括：

样本获取单元410，用于获取样本集合中的第一语义样本。

样本匹配单元420，用于将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

样本生成单元430，用于若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

作为一种方式，所述样本集合中还包括与所述第二语义样本对应的相似样本，其中，所述相似样本与所述第二语义样本的语义相同，且文本描述方式不同。在这种方式下，样本匹配单元420，具体用于将所述样本集合中的第二语义样本与所述相似样本分别与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

作为一种方式，样本匹配单元420，具体用于基于语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本的第一语义相似度值，以及所述相似样本与所述第一语义样本的第二语义相似度值；基于所述第一语义相似度值以及第二语义相似度值，计算得到所述第二语义样本对应的匹配度。

作为一种方式，样本匹配单元420，具体用于基于多个语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本在每个语义相似度计算规则中的第一语义相似度值，以及所述相似样本与所述第一语义样本在每个语义相似度计算规则中的第二语义相似度值；计算每个语义相似度规则中的所述第一语义相似度值以及第二语义相似度值的均值，得到在每个语义相似度规则中的中间均值；计算每个语义相似度规则中的中间均值的均值，得到所述第二语义样本对应的匹配度。

在这种方式下，样本生成单元430，还用于若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的相似样本的负样本。

作为一种方式，所述第二语义样本有多个。在这种方式下，样本匹配单元420，具体用于将多个所述第二语义样本分别与所述第一语义样本进行语义相似度匹配，得到多个所述第二语义样本各自对应的匹配度；所述若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本的步骤包括：将对应的匹配度在匹配度排序中满足指定的排序位置的第二语义样本，生成为与所述第一语义样本对应的负样本。

可选的，样本匹配单元420，具体用于调用分布式全文搜索引擎将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

如图6所示，所述装置400，还包括：

文件生成单元440，用于生成独立于所述样本集合的文件；在所述文件中存储表征所述第二语义样本为与所述第一语义样本对应负样本的信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例提供的电子设备(可以是者服务器)，能够实现图3到图5的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例还提供了一种服务器，该服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的信息处理方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

下面将结合图7对本申请提供的一种服务器进行说明。

图7是本申请实施例提供的一种信息处理方法的服务器的硬件结构框图。如图7所示，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Unit，CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)，用于存储数据的存储器1130，一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中，存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器1110可以设置为与存储介质1120通信，在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1140，和/或，一个或一个以上操作系统1121，例如Windows Server TM，Mac OSXTM，Unix TM，Linux TM，Free BSDTM等等。

输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中，输入输出接口1140包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1140可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述网关的结构造成限定。例如，服务器1100还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

综上，本申请实施例终端的服务器可以使得对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的第二语义样本与语义不同的所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度，若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

如图8所示，本申请实施例还提供一种计算机可读存储介质1200，计算机可读存储介质1200上存储有用于执行根据本申请方法实施例中各步骤的程序代码1210，该程序代码1210被处理器执行时实现上述信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

综上所述，本申请实施例提供的一种样本生成方法、装置以及电子设备，对于预先录入有样本的样本集合，获取样本集合中的第一语义样本，然后将所述样本集合中的第二语义样本与语义不同的所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度，若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本。从而通过上述方式，在样本集合中录入有语义不同的样本后，可以自动化的基于相似度匹配的方式，得到样本集合中的第一语义样本对应的负样本，进而提升负样本的生成效率。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种样本生成方法，其特征在于，所述方法包括：

获取样本集合中的第一语义样本；

将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度；

若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

2.根据权利要求1所述的方法，其特征在于，所述样本集合中还包括与所述第二语义样本对应的相似样本，其中，所述相似样本与所述第二语义样本的语义相同，且文本描述方式不同；

将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度的步骤包括：

将所述样本集合中的第二语义样本以及所述相似样本分别与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二语义样本与所述相似样本分别与所述第一语义样本进行语义相似度，得到所述第二语义样本对应的匹配度匹配的步骤包括：

基于语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度，得到所述第二语义样本与所述第一语义样本的第一语义相似度值，以及所述相似样本与所述第一语义样本的第二语义相似度值；

基于所述第一语义相似度值以及第二语义相似度值，计算得到所述第二语义样本对应的匹配度。

4.根据权利要求3所述的方法，其特征在于，所述基于语义相似度计算规则分别计算所述第二语义样本以及所述相似样本各自与所述第一语义样本的语义相似度的步骤包括：

所述基于所述第一语义相似度值以及第二语义相似度值，计算得到所述匹配度的步骤包括：

计算每个语义相似度规则中的所述第一语义相似度值以及第二语义相似度值的均值，得到在每个语义相似度规则中的中间均值；

计算每个语义相似度规则中的中间均值的均值，得到所述第二语义样本对应的匹配度。

5.根据权利要求1所述的方法，其特征在于，所述第二语义样本有多个；将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度的步骤包括：

将多个所述第二语义样本分别与所述第一语义样本进行语义相似度匹配，得到多个所述第二语义样本各自对应的匹配度；

所述若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本的步骤包括：

将对应的匹配度在匹配度排序中满足指定的排序位置的第二语义样本，生成为与所述第一语义样本对应的负样本。

6.根据权利要求1-5任一权利要求所述的方法，其特征在于，所述将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度的步骤包括：

调用分布式全文搜索引擎将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度。

7.根据权利要求1-5任一权利要求所述的方法，其特征在于，所述方法还包括：

生成独立于所述样本集合的文件；

在所述文件中存储表征所述第二语义样本为与所述第一语义样本对应负样本的信息。

8.根据权利要求1-5任一权利要求所述的方法，其特征在于，所述样本集合还包括与第一语义样本对应的相似样本；所述方法还包括：

若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的相似样本的负样本。

9.一种样本生成装置，其特征在于，所述装置包括：

样本获取单元，用于获取样本集合中的第一语义样本；

样本匹配单元，用于将所述样本集合中的第二语义样本与所述第一语义样本进行语义相似度匹配，得到所述第二语义样本对应的匹配度；

样本生成单元，用于若匹配度满足目标条件，将所述第二语义样本生成为与所述第一语义样本对应的负样本，其中，所述第一语义样本和所述第二语义样本均为预先录入到所述样本集合中的语义不同的样本。

10.一种电子设备，其特征在于，包括处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-8任一所述的方法。