CN110991181B

CN110991181B - 用于增强已标注样本的方法和设备

Info

Publication number: CN110991181B
Application number: CN201911202165.6A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-03-31
Anticipated expiration: 2039-11-29
Also published as: CN110991181A

Abstract

本文描述了一种用于增强已标注样本的方法和设备。所述方法包括：从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，已标注样本包括第一查询条目、第一文档以及第一标签，第一标签表示所述第一查询条目与第一文档的相关程度；对第一查询条目进行分词处理，以得到多个词；基于所述多个词对第一文档中的至少一个词进行替换以生成第二文档；确定第二文档的语言得分，并且基于所述语言得分确定表示第一查询条目与第二文档的相关程度的第二标签；生成增强后的已标注样本，其包括所述第一查询条目、第二文档以及第二标签。

Description

用于增强已标注样本的方法和设备

技术领域

本公开涉及自然语言处理的技术领域，具体地涉及用于增强已标注样本的方法和设备。

背景技术

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常被使用在语义匹配模型中。语义匹配模型有着广泛的使用，例如被使用在搜索引擎、智能问答、知识检索、信息流推荐等系统中。

作为示例，当用户在搜索引擎中输入查询条目时，通过后台搜索引擎会返回与该查询条目语义匹配相关性较高的一系列文档，并按从语义匹配模型得到的语义匹配分数进行排序。语义匹配模型大多是基于机器学习模型来构建的，并且需要进行大量训练才能高效使用。要训练该机器学习模型往往需要人工标注大量的训练数据，但是人工标注训练数据成本高且效率低。然而，如果标注的训练数据不够，会导致得到的机器学习模型存在一系列过拟合问题，从而无法得到较好的性能。

发明内容

有鉴于此，本公开提供了用于增强已标注样本的方法和设备，期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。

根据本公开的第一方面，提供了一种用于增强已标注样本的方法，包括：从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，所述已标注样本包括第一查询条目、第一文档以及第一标签，所述第一标签表示所述第一查询条目与第一文档的相关程度；对所述待增强样本中的第一查询条目进行分词处理，以得到多个词；基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档；确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度；以及，生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。

在一些实施例中，从用于训练语义匹配模型的已标注样本的集合中选择待增强样本可以包括：从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。

在一些实施例中，基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换可以包括：确定所述多个词中的重要词；对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换。

在一些实施例中，确定所述多个词中的重要词包括：确定所述多个词中每个词的逆文档频率；将其逆文档频率大于逆文档频率阈值的词确定为重要词。

在一些实施例中，确定所述多个词中的重要词包括：确定所述多个词中每个词的逆文档频率和词性；将其逆文档频率大于逆文档频率阈值、且其词性与预定词性相同的词划分为重要词。

在一些实施例中，对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换可以包括对所述待增强样本中的第一文档中与查询条目相同的部分所包括的与所述重要词不同的至少一个词进行替换。

在一些实施例中，对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换可以包括：使用不同于所述重要词中的任一个的替换词对所述与所述重要词不同的至少一个词进行替换。

在一些实施例中，基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换可以包括：将所述第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词替换成所述至少一个词的同义词。

在一些实施例中，确定所生成的第二文档的语言得分可以包括：利用N-gram语言模型确定针对所述第二文档的语言模型分数以作为所述语言得分。

在一些实施例中，确定所生成的第二文档的语言得分，包括：利用N-gram语言模型确定针对所述第二文档的语言模型分数；基于第二文档中的替换词的词性与对应的第一文档中的被替换词的词性确定第二文档的词性替换分数；确定所述语言模型分数和词性替换分数的加权平均值以作为所述语言得分。

在一些实施例中，生成增强后的已标注样本可以包括：响应于所述第二标签表示的符合语言习惯的程度大于符合程度阈值，生成所述增强后的已标注样本。

根据本公开的第二方面，提供了一种用于增强已标注样本的设备，包括：选择模块，被配置成从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，所述已标注样本包括第一查询条目、第一文档以及第一标签，所述第一标签表示所述第一查询条目与第一文档的相关程度；分词模块，被配置成对所述待增强样本中的第一查询条目进行分词处理，以得到多个词；替换模块，被配置成基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档；确定模块，被配置成确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度；以及，生成模块，被配置成生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。

在一些实施例中，所述选择模块被配置成从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。

在一些实施例中，所述替换模块被配置成首先确定所述多个词中的重要词，然后对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换。

在一些实施例中，所述替换模块被配置成将所述第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词替换成所述至少一个词的同义词。

在一些实施例中，所述确定模块被配置成利用N-gram语言模型确定针对所述第二文档的语言模型分数以作为所述语言得分。

在一些实施例中，所述生成模块被配置成响应于所述第二标签表示的符合语言习惯的程度大于符合程度阈值，生成所述增强后的已标注样本。

根据本公开的第三方面，提供了一种计算设备，包括处理器；以及存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如上面所述的任意方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的任意方法。

在本公开要求保护的用于增强已标注样本的方法和设备中，可以对已标注样本中的文档进行数据替换，以对现有的少量已标注样本进行增强来生成更大规模的已标注样本，从而为语义匹配模型提供足够多的训练数据，达到提高语义匹配模型的匹配精度的目的。特别地，还可以仅对文档和查询条目相关程度较高的已标注样本（例如，正样本）进行增强，从而提高增强后的已标注样本的有效性。

根据下文描述的实施例，本公开的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本公开的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本公开的实施例，其中：

图1图示了根据本公开的实施例的可以在其中使用语义匹配模型的示例性应用场景；

图2图示了根据本公开的一个实施例的一种用于增强已标注样本的方法的示意性流程图；

图3图示了根据本公开的实施例的基于对第一查询条目进行分词处理得到的多个词对待增强样本中的第一文档中的词进行替换的方法的示意性流程图；

图4图示了根据本公开的一个实施例的通过对第一文档中的词进行替换增强已标注样本的示意图；

图5图示了根据本公开的一个实施例的用于增强已标注样本的设备的示例性结构框图；以及

图6图示了一个示例系统，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。

具体实施方式

下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解，本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下，并没有示出或详细描述一些熟知的结构和功能，以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解：

N-gram语言模型：其是一个基于概率的判别模型，它的输入是句子（词的顺序序列），输出是所述句子的概率，即这些词的联合概率；

idf：（inverse document frequency，逆文档频率）, 是一个词语普遍重要性的度量；某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。

图1图示了根据本公开的实施例的可以在其中使用语义匹配模型的示例性应用场景100。如图1所示，所述应用场景100可以包括终端101和服务器102，语义匹配模型103被实施在服务器102中。所述终端101和服务器102通过网络104通信地耦合。

作为示例，可以例如在终端101上运行的客户端中输入查询条目并将其例如通过网络104发送到服务器102。服务器102中的语义匹配模型103可以基于服务器102接收到的查询条目查找与所述查询条目相关的一个或多个文档并计算出每个文档与所述查询条目的相关程度。然后，服务器102可以例如按照相关程度对所述文档进行排序，并将排序后文档发送给终端101上运行的所述客户端。所述语义匹配模型103可以是机器学习模型，典型地需要使用大量已标注的样本数据进行训练后才能高效地使用。

所述服务器102例如可以是搜索引擎的服务器，此时，所述查询条目可以是用户的检索词或句，所述文档可以是检索的文档的信息，例如网页标题、网页内容等。所述服务器102例如也可以是智能问答服务器，此时，查询条目可以是用户的问题，文档可以是针对用户的问题的答案。所述服务器例如也可以是信息流推荐服务器，此时所述查询条目可以是用户的画像描述，所述文档可以是对应待推荐的信息。当然，以上列举的仅仅是部分示例，并不是限制性的。

应当指出，所述服务器102可以是服务器集群、云服务器等。所述终端101例如可以是移动终端、个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。所述网络104例如可以是广域网（WAN）、局域网（LAN）、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。

采用人工标注以形成所述大量已标注的样本成本高且效率低，本公开的技术方案旨在对少量的已标注的样本进行增强，以便自动构造出大量的已标注样本用于训练语义匹配模型，以达到提高语义匹配精度的目的。

图2图示了根据本公开的一个实施例的一种用于增强已标注样本的方法200的示意性流程图。如图2所示，所述方法200包括如下步骤。

在步骤201，从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，所述待增强样本因此也是已标注样本。如前所述，所述已标注样本的集合中的已标注样本的数量通常是比较少的。每个已标注样本包括第一查询条目、第一文档以及第一标签，所述第一标签表示所述第一查询条目与第一文档的相关程度。所述第一查询条目可以是由多个词构成的词组、短语或句子。

应当指出，本文中的术语“第一”和“第二”的使用仅仅是为了区分不同的对象，而不对这些对象的位置或者顺序进行限定。例如，本文所述的第一文档以及第一标签并不是对标签的限定，仅仅是为了与下文所述的增强后的样本中的第二文档以及第二标签进行区分。事实上，本文中所述任一已标注样本都是表示成<查询条目，文档，标签>的形式。

应当指出，本文中所述的“标签”可以是数字、字母或任何其它合适的表示。本文中所述的“查询条目与文档的相关”可以指查询条目与文档匹配或相似，因此所述相关程度指所述查询条目与所述文档的匹配程度或相似程度。作为所述标签为数字为例，所述标签可以是数字“1”或者“0”，数字“1”可以表示所述查询条目与所述文档的相关程度高，即所述已标注样本为正样本，而数字“0”表示所述第一查询条目与第一文档的相关程度低或者不相关，即所述已标注样本为负样本。当然，所述标签的范围可以不限于仅两个数字“1”和“0”，其可以包括更多个数字以表示相关程度有更多的分级。例如，数字“2”的标签可以表示所述查询条目与所述文档的相关程度最高，数字“1”的标签可以表示所述查询条目与所述文档的相关程度不太高，数字“0”的标签可以表示所述查询条目与所述文档的相关程度为零，即不相关。

在一些实施例中，可以从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。作为示例，在所述标签的范围包括两个数字“1”和“0”且表示相关程度阈值的标签是数字“0”的情况下，可以仅选择标签为数字“1”的样本（即，正样本）作为待增强样本。当所述标签的范围包括三个数字“2”、“1”和“0”时，在表示相关程度阈值的标签是数字“1”的情况下可以仅选择标签为数字“2”的样本作为待增强样本，或者在表示相关程度阈值的标签是数字“0”的情况下可以选择标签为数字“2”和“1”的样本作为待增强样本。这样，能有效提高增强后的已标注样本的有效性，即有效提高增强后的已标注样本中查询条目与文档的相关程度。在一些实施例中，对于所述已标注样本的集合中包括的第一标签所表示的相关程度不大于相关程度阈值的已标注样本，可以不做任何处理，或者可以随机丢弃文档中的若干个词（特别是丢弃查询条目中具有的词）以使得这些已标注样本的有效性更低。

在步骤202中，对所述待增强样本中的第一查询条目进行分词处理，以得到多个词。应当指出，本文所述的“词”指的是句子的最小的组成单位。例如，在中文中，词可以包括单个字，例如“山”、“水”；可以包括两个字，例如“水果”、“蜈蚣”；或者甚至可以包括三个字或者更多的字，这不是限制性的。

应当指出，可以使用各种分词技术来对所述待增强样本中的第一查询条目进行分词处理。例如，当所述第一查询条目为英文时，只需要以空格和标点符号为依据即可完成分词处理。当所述第一查询条目为中文时，可以利用匹配和统计的方式对中文文本进行分词处理，常见的分词工具有LTP等。

在步骤203，基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档。查询条目通常包含了用户意图的很大信息量，因此对待增强样本中的查询条目进行改动具有偏离用户本身意图的风险，而本公开的技术方案只对文档中的词进行替换，有效避免了这种风险。

在一些实施例中，可以对第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词进行替换以生成第二文档。例如，在查询条目为“高低压配电的安全操作规程”时，可以仅对第一文档中与所述查询条目相同的部分（即，第一文档中出现的“高低压配电的安全操作规程”）中包括的多个词中的至少一个词进行替换，这能够显著减少替换过程的复杂性而不会降低最后生成的增强样本的有效性。当然，也可以对第一文档中的任何词进行替换，或者可以使用其它的方式对第一文档中的词进行替换，这不是限制性的。

在一些实施例中，可以利用同义词替换的方式对第一文档中的词进行替换，即将第一文档中的词替换成其同义词。可选地，可以将所述第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词替换成所述至少一个词的同义词，这能够显著增加最后生成的增强样本的有效性。

在步骤204，确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度。作为示例，可以利用N-gram语言模型来确定针对所述第二文档的语言模型分数以作为所述语言得分。

N-gram语言模型是一个基于概率的判别模型。它的输入通常是句子（也即词的顺序序列），输出是所述句子的概率，即这些词的联合概率。在本公开的实施例中，所述句子的概率也可以被确定为所述句子的语言得分，语言得分越高，表明所述句子符合语言习惯的程度越高。N-gram语言模型的输入的词具有先后顺序，且不要求词之间互不相同。n-gram语言模型的思想可以追溯到信息论大师香农的研究工作，他提出一个问题：给定一串字母，如“for ex”，下一个最大可能性出现的字母是什么

从训练语料数据中，可以通过极大似然估计的方法，得到N个概率分布：是a的概率是0.4，是b的概率是0.0001，是c的概率是…，当然，存在约束条件：所有的N个概率分布的总和为1。假设有一个由n个词组成的句子

，其中/>

为句子S中按阅读顺序包括的词。可以通过下面的原理来衡量该句子S的概率P(S)。假设，每一个单词/>

（其中i小于等于n）都要依赖于从第一个单词/>

到它之前一个单词/>

的影响，即：

。然而，如果直接计算该概率，是有很大困难的，因此引入马尔科夫假设，即：一个词在语料库中的出现概率，只与其前面的m个词有关。如果一个词的出现仅依赖于它前面出现的一个词，就称之为Bi-gram。如果一个词的出现仅依赖于它前面出现的两个词，就称之为 Tri-gram。当然，N-gram的 N 可以取更大的值，这不是不限制的。应当指出，本公开中使用的所述语料库可以是微信公众号中的全部文章或者任意已知的语料库，这不是限制性的。

例如，当使用Bi-gram模型时，

，其中的每一项条件概率/>

可以通过极大似然估计求得，其等于/>

。

表示统计M在语料中出现的词频，即次数。类似地，当使用Tri-gram模型时，

，其中的条件概率/>

等于/>

。试验表明，本发明的实施例使用Tri-gram模型可以取得很好的效果。

在一些实施例中，例如在标签的范围包括两个数字“1”和“0”的情况下，当语言得分高于第一程度阈值时，将所述第二标签确定为数字“1”，否则将所述第二标签确定为数字“0”。再例如，在所述标签的范围包括三个数字“2”、“1”和“0”的情况下，当语言得分高于第二程度阈值时，将所述第二标签确定为数字“2”；当语言得分不高于第二符合程度阈值但高于第一程度阈值时，将所述第二标签确定为数字“1”；否则将所述第二标签确定为数字“0”。当然，所描述的这些仅仅为示例，事实上标签的范围可以包括更多的数字以使得对相关程度的分级更精细。

在一些实施例中，在计算语言得分时，可以参考替换词的词性。当替换词与第一文档中的被替换词的词性相同（例如，同为动词）时，可以确定该情形下的词性替换分数（例如为1）；当替换词与第一文档中的被替换词的词性不相同时，可以确定该情形下的词性替换分数（例如为0）。然后，第二文档的语言得分可以被确定为所述第二文档的语言模型分数和词性替换分数的加权平均值。赋予语言模型分数和词性替换分数的权重可以是可根据需要调节的。

在步骤205中，生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。也就是说，增强后的已标注样本也表示成<查询条目，文档，标签>的形式。在一些实施例中，仅在所述第二标签表示的符合语言习惯的程度大于符合程度阈值时，才生成所述增强后的已标注样本。例如，所述符合程度阈值可以是上面描述的第一程度阈值或者第二程度阈值，这可以确保生成的增强后的已标注样本中第一查询条目和所述第二文档的相关程度较高，例如能够仅生成训练用的正样本而不生成负样本，从而极大地提升增强后的已标注样本成为有效训练样本的可能性。

在本公开的实施例描述的技术方案中，通过对已标注样本中的文档进行数据替换，以对现有的少量已标注样本进行增强来生成更大规模的已标注样本，从而为语义匹配模型提供足够多的训练数据，达到提高语义匹配模型匹配精度的目的。特别地，还可以仅对文档和查询条目相关程度较高的已标注样本（例如，正样本）进行增强，从而提高增强后的已标注样本的有效性。

图3图示了根据本公开的实施例的基于对第一查询条目进行分词处理得到的多个词对待增强样本中的第一文档中的至少一个词进行替换的方法300的流程图。如图3所示，所述方法300包括如下步骤。

在步骤301，确定所述多个词中的重要词。所述多个词例如可以是在步骤202中对所述待增强样本中的第一查询条目进行分词处理得到的多个词。

在一些实施例中，可以将每个词的idf（inverse document frequency，逆文档频率）值确定为该词的重要度。idf值为事先从语料库（例如，海量新闻语料构成的语料库）统计的词的逆文档频率，这是一种词的重要性的度量。一个词的idf值可以由语料库中的总文件数目除以包含该词的文件的数目，再将得到的商取以10为底的对数得到，公式可以表示为：

其中，

为语料库中的文件总数，/>

表示该词，/>

为第j个文件，/>

表示包含词/>

的文件的数目，/>

即为词/>

的idf值。

在得到每个词的重要度后，可以设置逆文档频率阈值，并将所述多个词中idf值大于逆文档频率阈值的词确定为重要词。所述多个词中所有的重要词构成一个重要词组。

在一些实施例中，确定所述多个词中的重要词时，可以考虑词的词性。例如，动词、名词、形容词通常具有较高的重要性、而代词、助词、介词等的重要性较低。因此，在确定所述多个词中的重要词时，可以首先确定所述多个词中每个词的逆文档频率和词性，然后将其逆文档频率大于逆文档频率阈值、且其词性属于预定词性（例如，动词、名词、形容词）的词确定为重要词。

在步骤302，对所述待增强样本中的文档中与所述重要词不同的词进行替换。在替换过程中，本发明的实施例可以仅对第一文档中包括的与所述重要词不同的词进行替换，而不对第一文档中的同样在重要词组中的任何词进行替换，这可以尽可能保留第一文档中的重要信息，从而保证生成的增强样本的有效性。所述替换词可以来源于微信公众号中的文章的词，或者可以是来源于同义词词典中作为被替换的词的同义词的词。

在另一实施例中，可以使用不同于所述重要词中的任一个的替换词对第一文档中与所述重要词不同的至少一个词进行替换。换句话说，所述重要词组中的任何词都不能作为替换词对第一文档中的词进行替换，这避免了对第一文档中的重要信息的干扰，从而保证生成的增强样本的有效性。作为示例，图4图示了以这种方式对第一文档中的词进行替换时增强已标注样本的示意图。如图4所示，待增强的已标注的样本401包括的第一查询条目为“普陀山庄”，第一文档为“普陀山庄：刹那便是永恒”，第一标签为“5”。第一查询条目“普陀山庄”中的重要词被确定为“普陀”、“山”和“庄” ，则在所示的样本402、403和404中，只有样本403是正确的增强后的已标注样本。在样本402中，重要词“山”被替换成了“村”，而在样本404中，使用重要词“普陀”对第一样本中的词进行替换，这在本实施例中都是不允许的。

在一些实施例中，可以对第一文档中与查询条目相同的部分所包括的与所述重要词不同的至少一个词进行替换。例如，当第一查询条目为“高低压配电的安全操作规程”时，可以确定其中的重要词分别为“高低压”、“配电”、“安全”、“操作”和“规程”，然后可以从第一文档中找到与查询条目相同的部分，即：“高低压配电的安全操作规程”，并对该部分包括的与所述重要词不同的词（即，词“的”）进行替换。这里与所述重要词不同的词的数量为一个，但在另一些实施例中可以为两个或更多个，这不是限制性的。

进一步地，如与上面所描述的内容相类似的，也可以使用不同于所述重要词中的任一个的替换词对与所述重要词不同的词（本示例中即为词“的”）进行替换。表1列出了在该示例中，对第一文档中与查询条目相同的部分所包括的与所述重要词不同的词“的”进行替换后所生成的第二文档的语言得分：

序号	对词“的”进行替换的替换词	生成的第二文档的语言得分
			1	消防	0.17028
2	室	0.12039
			3	网	0.09499
4	网络	0.07992
			5	系统	0.03537
6	箱	0.03074
			7	信息	0.02185
8	交通	0.01313
			9	设备	0.01153
10	及	0.00909

表1。

其中，这些替换词是来源于微信公众号中的文章的词，这里的语言得分是根据上面所描述的Tri-gram语言模型得到的概率，例如序号1对应的语言得分P(高低压配电消防安全操作规程)= 0.17028。

作为示例，在标签的范围包括两个数字“1”(其表示正样本)和“0”（其表示负样本）的情况下，当第一程度阈值为0.1时可以生成两个增强后的已标注样本（其也是正样本），其以<查询条目，文档，标签>的形式表示如下：

< “高低压配电的安全操作规程”， “高低压配电消防安全操作规程”，1>；以及

< “高低压配电的安全操作规程”， “高低压配电室安全操作规程”，1>。

图5图示了根据本公开的一个实施例的用于增强已标注样本的设备500的示例性结构框图。如图5所示，所述设备500包括选择模块501、分词模块502、替换模块503、确定模块504、生成模块505。

选择模块501被配置成从用于训练语义匹配模型的已标注样本的集合中选择待增强样本。所述已标注样本包括第一查询条目、第一文档以及第一标签。所述第一标签表示所述第一查询条目与第一文档的相关程度。所述第一查询条目可以是由多个词构成的词组、短语或句子。在一些实施例中，选择模块501被配置成从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。

分词模块502被配置成对所述待增强样本中的第一查询条目进行分词处理，以得到多个词。分词模块502可以被配置成使用各种分词技术来对所述待增强样本中的第一查询条目进行分词处理。例如，当所述第一查询条目为英文时，可以以空格和标点符号为依据完成分词处理。当所述第一查询条目为中文时，可以利用匹配和统计的方式对中文文本进行分词处理，常见的分词工具有LTP等。

替换模块503被配置成基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档。在一些实施例中，替换模块503可以被配置成对第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词进行替换以生成第二文档。在一些实施例中，替换模块503可以被配置成利用同义词对第一文档中的词进行替换。

在一些实施例中，替换模块503可以被配置成确定所述多个词中的重要词，然后对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换以生成第二文档。可选地，所述替换模块503可以被配置成确定所述多个词中每个词的逆文档频率，然后将其逆文档频率大于逆文档频率阈值的词确定为重要词。可选地，所述替换模块503可以被配置成确定所述多个词中每个词的逆文档频率和词性，然后将其逆文档频率大于逆文档频率阈值、且其词性与预定词性相同的词确定为重要词。作为示例，所述替换模块可以对所述待增强样本中的第一文档中与查询条目相同的部分所包括的与所述重要词不同的至少一个词进行替换。作为另一示例，所述替换模块可以使用不同于所述重要词中的任一个的替换词对所述与所述重要词不同的至少一个词进行替换。

确定模块504可以被配置成确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度。作为示例，确定模块504可以被配置成利用N-gram语言模型来确定针对所述第二文档的语言模型分数以作为所述语言得分。在一些实施例中，确定模块504可以被配置成确定词性替换分数，然后将第二文档的语言得分确定为所述第二文档的语言模型分数和词性替换分数的加权平均值。

生成模块505被配置成生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。在一些实施例中，生成模块505被配置成仅在所述第二标签表示的符合语言习惯的程度大于符合程度阈值时，才生成所述增强后的已标注样本。

图6图示了示例系统600，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备610。计算设备610可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图5描述的用于增强已标注样本的设备500可以采取计算设备610的形式。替换地，用于增强已标注样本的设备500可以以样本增强应用616的形式被实现为计算机程序。

如图示的示例计算设备610包括彼此通信耦合的处理系统611、一个或多个计算机可读介质612以及一个或多个I / O接口613。尽管未示出，但是计算设备610还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统611代表使用硬件执行一个或多个操作的功能。因此，处理系统611被图示为包括可被配置为处理器、功能块等的硬件元件614。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件614不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质612被图示为包括存储器/存储装置615。存储器/存储装置615表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置615可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置615可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质612可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口613代表允许用户向计算设备610输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备610可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备610还包括样本增强应用616。样本增强应用616可以例如是用于增强已标注样本的设备500的软件实例，并且与计算设备610中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备610访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备610的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件614和计算机可读介质612代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件614体现的一个或多个指令和/或逻辑。计算设备610可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件614，可以至少部分地以硬件来实现将模块实现为可由计算设备610作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备610和/或处理系统611）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备610可以采用各种不同的配置。例如，计算设备610可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备610还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备610还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备610的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台622而在“云”620上全部或部分地实现。

云620包括和/或代表用于资源624的平台622。平台622抽象云620的硬件（例如，服务器）和软件资源的底层功能。资源624可以包括在远离计算设备610的服务器上执行计算机处理时可以使用的应用和/或数据。资源624还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台622可以抽象资源和功能以将计算设备610与其他计算设备连接。平台622还可以用于抽象资源的分级以提供遇到的对于经由平台622实现的资源624的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统600内。例如，功能可以部分地在计算设备610上以及通过抽象云620的功能的平台622来实现。

应当理解，为清楚起见，参考不同的功能单元对本公开的实施例进行了描述。然而，将明显的是，在不偏离本公开的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本公开可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本公开，但是其不旨在被限于在本文中所阐述的特定形式。相反，本公开的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于增强已标注样本的方法，包括：

从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，所述已标注样本包括第一查询条目、第一文档以及第一标签，所述第一标签表示所述第一查询条目与第一文档的相关程度；

对所述待增强样本中的第一查询条目进行分词处理，以得到多个词；

基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档；利用N-gram语言模型确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度；

生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。

2.根据权利要求1所述的方法，其中，从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，包括：

从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。

3.根据权利要求1所述的方法，其中，基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换，包括：

确定所述多个词中的重要词；

对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换。

4.根据权利要求3所述的方法，其中，确定所述多个词中的重要词包括：

确定所述多个词中每个词的逆文档频率；

将其逆文档频率大于逆文档频率阈值的词确定为重要词。

5.根据权利要求3所述的方法，其中，确定所述多个词中的重要词包括：

确定所述多个词中每个词的逆文档频率和词性；

将其逆文档频率大于逆文档频率阈值、且其词性与预定词性相同的词划分为重要词。

6.根据权利要求3所述的方法，其中，对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换，包括

对所述待增强样本中的第一文档中与查询条目相同的部分所包括的与所述重要词不同的至少一个词进行替换。

7.根据权利要求3或6所述的方法，其中，对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换，包括：

使用不同于所述重要词中的任一个的替换词对所述与所述重要词不同的至少一个词进行替换。

8.根据权利要求1所述的方法，其中，基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换，包括：

将所述第一文档中与查询条目相同的部分所包括的所述多个词中的至少一个词替换成所述至少一个词的同义词。

9.根据权利要求1所述的方法，其中，利用N-gram语言模型确定所生成的第二文档的语言得分，包括：

利用N-gram语言模型确定针对所述第二文档的语言模型分数以作为所述语言得分。

10.根据权利要求1所述的方法，其中，利用N-gram语言模型确定所生成的第二文档的语言得分，包括：

利用N-gram语言模型确定针对所述第二文档的语言模型分数；

基于第二文档中的替换词的词性与对应的第一文档中的被替换词的词性确定第二文档的词性替换分数；

确定所述语言模型分数和词性替换分数的加权平均值以作为所述语言得分。

11.根据权利要求1所述的方法，其中，生成增强后的已标注样本，包括：

响应于所述第二标签表示的符合语言习惯的程度大于符合程度阈值，生成所述增强后的已标注样本。

12.一种用于增强已标注样本的设备，包括：

选择模块，被配置成从用于训练语义匹配模型的已标注样本的集合中选择待增强样本，所述已标注样本包括第一查询条目、第一文档以及第一标签，所述第一标签表示所述第一查询条目与第一文档的相关程度；

分词模块，被配置成对所述待增强样本中的第一查询条目进行分词处理，以得到多个词；

替换模块，被配置成基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档；

确定模块，被配置成利用N-gram语言模型确定所生成的第二文档的语言得分，并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签，所述语言得分表示第二文档符合语言习惯的程度；

生成模块，被配置成生成增强后的已标注样本，所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。

13.根据权利要求12所述的设备，其中，所述选择模块被配置成：

14.一种计算设备，包括

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-11中的任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-11中的任一项所述的方法。