CN111538806B

CN111538806B - 查询负例的泛化方法及装置

Info

Publication number: CN111538806B
Application number: CN201910053043.9A
Authority: CN
Inventors: 温丽云; 李亚丽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2023-04-07
Anticipated expiration: 2039-01-21
Also published as: CN111538806A

Abstract

本申请实施例提供了一种查询负例的泛化方法及装置，涉及人工智能领域。其中,所述方法包括：确定包含查询领域关键词的第一查询负例；通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。通过本申请实施例，对高质量查询负例进行泛化处理，能够获取大量的高质量查询负例样本。

Description

查询负例的泛化方法及装置

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种查询负例的泛化方法及装置。

背景技术

语音对话系统，一般包含唤醒模块、自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块、语音合成模块等。其中，自然语言理解模块是一个重要组成部分，负责将自动语音识别模块识别得到的查询请求的文本内容数据转换成便于机器理解的结构化表示(领域字段、意图字段、目的地字段等)，传给对话管理模块以用于后续决策。例如，查询请求的文本内容数据为“我要去五道口”，相应的结构化表示为：领域字段对应的内容为“导航领域”、意图字段对应的内容为“导航意图”、目的地字段对应的内容为“五道口”。

基于统计的自然语言理解模块通常采用句子分类和序列标注实现，这类方法需要训练数据中包含足够多的高质量负例样本来防止乱入。如果训练数据中未包含高质量的负例样本，或者训练数据中包含的高质量负例样本的数量较少，那么自然语言理解模块不能准确地将查询请求的文本内容数据转换成便于机器理解的结构化表示。例如，查询请求的文本内容数据为“导航的英语怎么说”，对于导航应用来说，这是一种闲聊，并不是导航的意图，然而自然语言理解模块转换得到的意图字段对应的内容为“导航意图”。若根据意图字段对应的内容直接为用户导航，会造成较差的用户体验。

发明内容

本申请的目的在于提出一种查询负例的泛化方法及装置，用于解决现有技术中存在的如何大量获取高质量查询负例样本的问题。

根据本申请实施例的第一方面，提供了一种查询负例的泛化方法。所述方法包括：确定包含查询领域关键词的第一查询负例；通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

根据本申请实施例的第二方面，提供了一种查询负例的泛化装置。所述装置包括：第一确定模块，用于确定包含查询领域关键词的第一查询负例；泛化处理模块，用于通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

通过本申请实施例提供的技术方案，确定包含查询领域关键词的查询负例，并通过查询负例泛化模型，对所述查询负例进行泛化处理，以获得包含所述查询领域关键词的查询负例样本，与现有的其它方式相比，对包含查询领域关键词的查询负例(又称之为高质量的查询负例)进行泛化处理，能够获取大量查询负例样本(又称之为高质量的查询负例样本)。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例一中查询负例的泛化方法的步骤流程图；

图2为本申请实施例二中查询负例的泛化方法的步骤流程图；

图3为根据本申请实施例二提供的查询负例的泛化方法的流程示意图；

图4为本申请实施例三中查询负例的泛化装置的结构示意图；

图5为本申请实施例四中查询负例的泛化装置的结构示意图；

图6为本申请实施例五中电子设备的结构示意图；

图7为本申请实施例六中电子设备的硬件结构。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1，示出了本申请实施例一的查询负例的泛化方法的步骤流程图。

具体地，本实施例提供的查询负例的泛化方法包括以下步骤：

在步骤S101中，确定包含查询领域关键词的第一查询负例。

在本实施例中，所述查询领域关键词可理解为用于指示查询领域的关键词，例如，关键词“地图”和“导航”指示的查询领域为“导航领域”，关键词“播放”指示的查询领域为“娱乐领域”，关键词“拨打”指示的领域为“电话领域”等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本实施例中，所述查询负例可理解为不属于特定的查询领域的查询请求内容数据，例如，查询请求内容数据“我要去哪你猜”和“导航的英文是什么”为不属于导航领域的查询请求内容数据，因此，该查询请求内容数据为导航领域的查询负例。进一步地，所述第一查询负例可理解为包含查询领域关键词，但不属于所述查询领域关键词指示的查询领域的查询请求内容数据，例如，查询请求内容数据“导航的英语怎么说”包含查询领域关键词“导航”，但不属于查询领域关键词“导航”指示的导航领域，因此，该查询请求内容数据为导航领域的第一查询负例。又例如，查询请求内容数据“地图的英语怎么说”包含查询领域关键词“地图”，但不属于查询领域关键词“地图”指示的导航领域，因此，该查询请求内容数据同样也为导航领域的第一查询负例。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本实施例中，所述高质量的查询负例可理解为包含查询领域关键词的第一查询负例，也即是包含查询领域关键词，但不属于所述查询领域关键词指示的查询领域的所有查询请求内容数据。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本实施例中，所述查询请求内容数据包括查询请求的语音内容数据、查询请求的文本内容数据，或者包含查询请求的文本内容的图像数据等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S101，确定包含查询领域关键词的第一查询负例，包括：步骤S111，确定用于指示查询领域的所述查询领域关键词；步骤S121，基于所述查询领域关键词，对查询负例集合中的第二查询负例进行筛选，以确定包含所述查询领域关键词的所述第一查询负例。其中，所述查询负例集合可为人工预先确定的查询负例集合，或者机器预先确定的查询负例集合，所述查询负例集合包括预先确定的多个第二查询负例。籍此，通过查询领域关键词对查询负例集合中的查询负例进行筛选，能够准确地确定包含查询领域关键词的查询负例。可以理解的是，任何确定包含查询领域关键词的第一查询负例的实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S111，确定用于指示查询领域的所述查询领域关键词，包括：步骤S131，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于所述查询领域的第二查询请求内容数据；步骤S141，基于所述第二查询请求内容数据，确定用于指示所述查询领域的所述查询领域关键词。籍此，通过查询请求内容数据，能够准确地确定用于指示查询领域的查询领域关键词。可以理解的是，任何确定用于指示查询领域的所述查询领域关键词的实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S131，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，包括：步骤S151，可通过查询领域标注模型，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于不同的查询领域的第三查询请求内容数据；步骤S161，基于属于不同的查询领域的第三查询请求内容数据，确定属于所述查询领域的第二查询请求内容数据。其中，所述查询领域标注模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。此外，还可通过人工对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于所述查询领域的第二查询请求内容数据。可以理解的是，任何对用户日志的文本数据中的第一查询请求内容数据进行标注处理的实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S141，基于所述第二查询请求内容数据，确定用于指示所述查询领域的所述查询领域关键词，包括：步骤S171，对所述第二查询请求内容数据进行分词处理，以获得属于所述查询领域的词语；步骤S181，基于所述词语，确定用于指示所述查询领域的所述查询领域关键词。籍此，通过查询请求内容数据中的词语，能够准确地确定用于指示查询领域的查询领域关键词。可以理解的是，基于所述第二查询请求内容数据，确定用于指示所述查询领域的所述查询领域关键词的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S171，对所述第二查询请求内容数据进行分词处理，包括：可通过分词模型或分词库，对所述第二查询请求内容数据进行分词处理，以获得属于所述查询领域的词语。其中，所述分词模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。可以理解的是，对所述第二查询请求内容数据进行分词处理的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S181，基于所述词语，确定用于指示所述查询领域的所述查询领域关键词，包括：步骤S191，确定所述词语的词频和所述词语所属的不同的查询领域的数量；步骤S112，基于所述词语的词频和所述词语所属的不同的查询领域的数量，确定用于指示所述查询领域的所述查询领域关键词。籍此，通过查询请求内容数据中的词语的词频和查询请求内容数据中的词语所属的不同的查询领域的数量，能够准确地确定用于指示查询领域的查询领域关键词。可以理解的是，基于所述词语，确定用于指示所述查询领域的所述查询领域关键词的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S191，确定所述词语的词频和所述词语所属的不同的查询领域的数量，包括：确定所述词语在所述第二查询请求内容数据中的出现次数，以及所述第二查询请求内容数据中的词语的总数量；将所述出现次数除以所述总数量，以获得所述词语的词频；将所述词语分别与所述第三查询请求内容数据所属的不同的查询领域中的词语进行比对，如果所述第三查询请求内容数据所属的不同的查询领域中的词语中存在所述词语，则确定所述词语属于所述不同的查询领域；如果所述第三查询请求内容数据所属的不同的查询领域中的词语中不存在所述词语，则确定所述词语不属于所述不同的查询领域，从而确定得到所述词语所属的不同的查询领域的数量。可以理解的是，确定所述词语的词频和所述词语所属的不同的查询领域的数量的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S112，基于所述词语的词频和所述词语所属的不同的查询领域的数量，确定用于指示所述查询领域的所述查询领域关键词，包括：对所述第三查询请求内容数据所属的不同的查询领域的数量除以所述词语所属的不同的查询领域的数量的商进行取对数，以获得所述词语的词频的权重值；将所述词语的词频与所述词语的词频的权重值进行相乘，以获得所述词语的排序分数；基于所述词语的排序分数，确定用于指示所述查询领域的所述查询领域关键词。可以理解的是，基于所述词语的词频和所述词语所属的不同的查询领域的数量，确定用于指示所述查询领域的所述查询领域关键词的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S121，基于所述查询领域关键词，对预先确定的查询负例集合中的第二查询负例进行筛选之前，所述方法还包括：步骤S122，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以预先确定所述查询负例集合。籍此，通过对用户日志的文本数据中的第一查询请求内容数据进行标注处理，能够准确地预先确定查询负例集合。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S122，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，包括：可通过查询领域标注模型，对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于不同的查询领域的第三查询请求内容数据；在所述第一查询请求内容数据中除去属于不同的查询领域的第三查询请求内容数据，以预先确定所述查询负例集合。其中，所述查询领域标注模型与上述查询领域标注模型类似，在此不再赘述。此外，还可通过人工对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以预先确定所述查询负例集合。可以理解的是，任何对用户日志的文本数据中的第一查询请求内容数据进行标注处理的实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S121，基于所述查询领域关键词，对所述查询负例集合中的第二查询负例进行筛选，包括：对所述查询负例集合中的第二查询负例进行分词，以获得所述第二查询负例对应的分词；如果确定所述第二查询负例对应的分词中包含所述查询领域关键词，则确定所述第二查询负例为包含所述查询领域关键词的所述第一查询负例；如果确定所述第二查询负例对应的分词中不包含所述查询领域关键词，则确定所述第二查询负例不为包含所述查询领域关键词的所述第一查询负例。可以理解的是，任何基于所述查询领域关键词，对预先确定的查询负例集合中的第二查询负例进行筛选的实施方式均可适用于此，本申请实施例对此不做任何限定。

在步骤S102中，通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

在本申请实施例中，所述查询负例泛化模型包括生成对抗网络模型。针对第一查询负例的泛化处理可理解为对第一查询负例的改写或仿真，例如，可将第一查询负例“导航的英语怎么说”改写成“导航的英文是什么”。通过对第一查询负例的泛化处理，可达到增加话术、扩充训练语料的目的。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S102，通过查询负例泛化模型，对所述第一查询负例进行泛化处理，包括：步骤S132，确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量；步骤S142，通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得查询样本；步骤S152，对所述查询样本进行筛选，以获得所述查询负例样本。籍此，通过查询负例泛化模型对第一查询负例进行泛化处理，能够大量获取包含查询领域关键词的查询负例样本。可以理解的是，通过查询负例泛化模型，对所述第一查询负例进行泛化处理的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在实际应用中，用户输入的查询请求内容数据的长度不定，为此，为所述第一查询负例的内容数据配置了终结符，从而使得所述查询负例泛化模型对第一查询负例的泛化处理更加逼真。一旦所述查询负例泛化模型生成所述终结符，则判定停止所述第一查询负例的泛化处理。这样，获得的包含查询领域关键词的查询负例样本的长度不一，更加符合实际情况，从而提升了包含查询领域关键词的查询负例样本的质量。另外，获得的包含所述查询领域关键词的所述查询样本包括包含所述查询领域关键词的查询正例样本和查询负例样本，因此，需要对包含所述查询领域关键词的所述查询样本进行筛选，以获得包含所述查询领域关键词的所述查询负例样本。例如，所述查询负例泛化模型对第一查询负例“打开望远镜”和“导航英文怎么说”进行泛化处理，可能获得查询正例样本“打开导航”，这样，就需要对包含所述查询领域关键词的所述查询样本进行筛选。其中，所述查询正例样本可理解为包含所述查询领域关键词，且属于所述查询领域关键词指示的查询领域的查询请求内容数据的样本。例如，查询请求内容数据的样本“导航去五道口”包含查询领域关键词“导航”，并且属于查询领域关键词“导航”指示的导航领域。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S132，确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量，包括：对所述第一查询负例的内容数据进行分词处理，以获得所述第一查询负例的内容数据的词语序列；通过word2vec模型，对所述词语序列中的词语分别进行映射操作，以获得所述词语序列中的每个词语对应的第一向量；基于网络提供的用于表征符号的向量，确定用于表征所述终结符的第二向量。此外，所述第一向量和所述第二向量可以随机初始化，并且随着所述查询负例泛化模型的训练过程一起学习。具体地，使用均值为0，方差为0.02的高斯分布随机初始化第一向量和第二向量构成的向量矩阵，然后随着所述查询负例泛化模型的训练过程一起学习。在所述向量矩阵学习好之后，所述词语序列中的每个词语对应的第一向量就是从所述向量矩阵中取对应的向量，所述终止符对应的第二向量就是从所述向量矩阵中取对应的向量。可以理解的是，确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，步骤S142，通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得查询样本，包括：通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，生成表征所述查询样本中的词语的词向量的概率分布；基于表征所述查询样本中的词语的词向量的概率分布，确定所述查询样本中的词语。可以理解的是，通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得查询样本的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一些可选实施例中，在通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，生成表征所述查询样本中的词语的词向量的概率分布时，通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，获得前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量；基于前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量，在t+1时刻生成表征所述查询样本中的词语的词向量的概率分布，其中，t为常数。可以理解的是，通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，生成表征所述查询样本中的词语的词向量的概率分布的任何实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，步骤S152，对所述查询样本进行筛选，包括：可通过查询样本筛选模型，对所述查询样本进行筛选，以获得所述查询负例样本。其中，所述查询样本筛选模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。具体地，可通过现有的语音对话系统中的自然语言理解模块，对所述查询样本进行筛选，以获得所述查询负例样本。更具体地，将获得的包含所述查询领域关键词的查询样本输入到所述自然语言理解模块，获得查询样本的查询领域置信度；基于所述查询样本的查询领域置信度，对所述查询样本进行筛选，以获得所述查询负例样本。更具体地，如果确定所述查询样本的查询领域置信度大于或等于预设阈值，则确定所述查询样本为所述查询正例样本；如果确定所述查询样本的查询领域置信度小于所述预设阈值，则确定所述查询样本为所述查询负例样本。可以理解的是，任何对所述查询样本进行筛选的实施方式均可适用于此，本申请实施例对此不做任何限定。

在实际应用中，使用几千条的第一查询负例，生成了三万多条的查询负例样本，人工逐条检验，准确率达到了99％以上。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

通过本申请实施例提供的查询负例的泛化方法，确定包含查询领域关键词的查询负例，并通过查询负例泛化模型，对所述查询负例进行泛化处理，以获得查询负例样本，与现有的其它方式相比，对包含查询领域关键词的查询负例(高质量的查询负例)进行泛化处理，能够大量获取查询负例样本(高质量的查询负例样本)。

本实施例的查询负例的泛化方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

参照图2，示出了本申请实施例二的查询负例的泛化方法的步骤流程图。

在步骤S201中，确定包含查询领域关键词的第一查询负例。

由于该步骤S201与上述步骤S101类似，在此不再赘述。

在步骤S202中，通过生成对抗网络模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

在本申请实施例中，生成对抗网络模型(GAN，Generative AdversarialNetworks)是一种深度神经网络模型，包含两个模块：生成器和判别器，二者通过互相博弈学习，共同进步，最终产生好的输出。通过向所述生成对抗网络模型引入强化学习，可有效地对所述第一查询负例进行泛化处理。所述强化学习是一种通过主体与环境交互而进行学习的方法。它的目标是要通过与环境交互，根据自身的状态、作出的动作和环境的反馈，优化自己的策略，以获得更多更好的反馈奖励。在本实施例中，对所述第一查询负例进行泛化处理的问题被视作一个序列决策问题。生成器为强化学习中的主体，生成器以何种规则生成查询样本即为策略，在每一个时间步，生成器选择生成的词语即为动作，当前已经生成的查询样本的片段即为状态。判别器实质上提供了强化学习中的环境和奖励值信号。其中，所述生成器可选用循环神经网络(RNN，Recurrent Neural Network)或其它更常用的变体。在本实施例中，选用长短期记忆网络(Long-Short Term Memory，LSTM)作为生成器。使用该模型生成查询样本的过程，实际是生成一系列词语的过程。在时刻t生成词向量时，生成器会利用前t-1个时刻积累的信息，通过神经网络的计算，得到生成每个词向量的概率分布。生成器依此概率分布进行采样，得到时刻t的词向量。由此，重复T个时间步，即可生成一个长度为T的查询样本。所述判别器可选用卷积神经网络或循环神经网络。在本实施例中，使用双向长短期记忆网络以提取更为精细的查询负例信息。判别器是一个二分类模型，它将整个完整的查询样本(词向量序列)作为输入，经过神经网络的计算，得到该查询样本是真实查询样本的概率。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，所述生成对抗网络模型的训练过程包括所述生成对抗网络模型的预训练过程和对抗训练过程。其中，所述生成对抗网络模型的预训练过程包括：在包含查询领域关键词的第一查询负例的基础上，通过最大似然估计对生成器进行预训练；生成器生成预训练负样本，并将该预训练负样本与正样本组合成预训练混合查询负例集，在预训练混合查询负例集上，通过极小化交叉熵对判别器进行预训练。所述生成对抗网络模型的对抗训练过程包括：在对抗训练的每次迭代中，生成器生成的查询样本会交由判别器，判断其是否为真实的查询样本。若判别器判断错误，即判别器无法分辨该查询样本是真实的查询样本还是生成的查询样本，则说明该查询样本目前阶段可以“以假乱真”，因此会得到值为1的奖励。若判别器判断正确，则说明该查询样本仿真程度不高，因此会得到值为0的奖励。生成器会根据判别器给出的奖励信号，对自身参数进行调整，以生成仿真程度更好的查询样本。当生成器产生的查询样本的质量足够高时，再用新产生的查询样本与真实查询样本训练判别器，以使其能提供更精准的奖励信号。如此反复进行对抗训练，便可不断提高仿真查询样本的质量。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，通过生成器生成查询样本并计算查询样本中每个词语的奖励值。设查询样本长度为T，或者说，查询样本是词向量序列X_1:T，X_1:T＝(x₁，x₂，…，x_t-1)，生成查询样本的所有词向量均是从包含查询样本的词汇的词典中获取。例如，有一长度为5的查询样本X_1:5：“导航/的/英语/怎么/说”，其中的每个词语都有对应的词向量，并且词向量从词典中选取。生成器为循环神经网络，内部执行T次循环，每次循环以上一次循环输出的词向量为输入，输出新的词向量，从而重复T次生成查询样本X_1:T。例如，第2时刻输出结果为“导航”，其对应的词向量编码为[0，0，0，0，0，0，0，0，0，1]，而第2时刻的输出的词向量则作为第3时刻的输入向量，为[0，0，0，0，0，0，0，0，0，1]，输出“的”。以上是一个特定的查询样本来说明生成器生成查询样本的形式。实际上，对第t步生成的词向量x_t，在时间步t，状态是当前已生成序列(x₁，x₂，…，x_t-1)，记作s_t-1＝(x₁，x₂，…，x_t-1)，动作是下一个选择的词向量x_t，生成器G的策略是G_θ(x_t|s_t-1)，θ为生成器G的参数。由于判别器只能当序列被完全生成之后才能返回一个奖励，因此，为了估计中间时间步上的动作奖励值，以已经生成的词向量序列(x₁，x₂，…，x_t-1)为初始状态固定不变，重复运行生成器进行采样，生成以X_1:t-1为前缀的N个完整的查询样本。判别器对每个查询样本给出一个奖励值，对N个查询样本的奖励值取平均值，作为第t步所采取的动作(即生成词向量x_t)的奖励值。根据得到的序列总长度为T的查询样本，和序列中每个词语获得的来自于判别器的奖励值，更新生成器。如此反复进行对抗训练，直至生成器收敛。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，使用训练收敛的生成器生成负样本，即由生成的查询样本组成的负样本，并与真实的查询样本组成的正样本组成混合样本数据集；在判别器中，将全连接层之前得到的特征向量组合成为新向量，通过全连接层后给出样本得分。如此反复进行对抗训练，直至判别器收敛。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，在通过生成对抗网络模型，对所述第一查询负例进行泛化处理时，通过完成训练的生成对抗网络模型中的生成器，对所述第一查询负例进行泛化处理，以获得查询负例样本。可以理解的是，任何通过生成对抗网络模型，对所述第一查询负例进行泛化处理的实施方式均可适用于此，本申请实施例对此不做任何限定。

在一个具体的例子中，包含查询领域关键词的第一查询负例为“导航的英语怎么说”和“天窗的英文是什么”，对该第一查询负例进行分词的结果是“导航的英语怎么说”和“天窗的英文是什么”，那么整个的词表就是[导航，的，英语，怎么，说，天窗，英文，是，什么，EOS]，即所有出现过的词语和EOS(终结符)。所谓生成器，就是每个时刻判断应该从词表中选择哪个词语来生成查询样本。假设查询样本的最大长度为30：T＝1，生成器选择了“导航”这个词语；T＝2，生成器基于之前的状态选择了“的”这个词语；T＝3，生成器基于之前的状态选择了“英文”这个词语；T＝4，生成器基于之前的状态选择了“是”这个词语；T＝5，生成器基于之前的状态选择了“什么”这个词语；T＝6，生成器基于之前的状态选择了“EOS”这个符号。因为生成了终结符，所以停止生成查询样本，生成的查询样本已给出。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一个具体的例子中，如图3所示，查询负例的泛化流程包括三个步骤。第一个步骤是日志收集、查询负例标注，及关键词抽取。具体地，收集文本形式的用户日志，并标注其中的查询负例，及使用TF-IDF技术计算出业务中的关键词，也即是计算出属于查询领域的查询请求内容数据中的关键词。第二个步骤是查询负例的筛选。具体地，筛选出包含第一个步骤中得到的关键词的查询负例。第三个步骤是基于GAN，对筛选出的查询负例进行泛化处理。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

通过本申请实施例提供的查询负例的泛化方法，确定包含查询领域关键词的查询负例，并通过生成对抗网络模型，对所述查询负例进行泛化处理，以获得查询负例样本，与现有的其它方式相比，对包含查询领域关键词的查询负例(高质量的查询负例)进行泛化处理，能够大量获取查询负例样本(高质量的查询负例样本)。

参照图4，示出了本申请实施例三中查询负例的泛化装置的结构示意图。

本实施例的查询负例的泛化装置包括：第一确定模块301，用于确定包含查询领域关键词的第一查询负例；泛化处理模块302，用于通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

本实施例的查询负例的泛化装置用于实现前述多个方法实施例中相应的查询负例的泛化方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图5，示出了本申请实施例四中查询负例的泛化装置的结构示意图。

本实施例的查询负例的泛化装置包括：第一确定模块401，用于确定包含查询领域关键词的第一查询负例；泛化处理模块402，用于通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

可选地，所述第一确定模块401，包括：第二确定模块4011，用于确定用于指示查询领域的所述查询领域关键词；第一筛选模块4017，用于基于所述查询领域关键词，对预先确定的查询负例集合中的第二查询负例进行筛选，以确定包含所述查询领域关键词的所述第一查询负例。

可选地，所述第二确定模块4011，包括：第一标注模块4012，用于对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于所述查询领域的第二查询请求内容数据；第三确定模块4013，用于基于所述第二查询请求内容数据，确定用于指示所述查询领域的所述查询领域关键词。

可选地，所述第三确定模块4013，包括：分词处理模块4014，用于对所述第二查询请求内容数据进行分词处理，以获得属于所述查询领域的词语；第四确定模块4015，用于基于所述词语，确定用于指示所述查询领域的所述查询领域关键词。

可选地，所述第四确定模块4015，具体用于：确定所述词语的词频和所述词语所属的不同的查询领域的数量；基于所述词语的词频和所述词语所属的不同的查询领域的数量，确定用于指示所述查询领域的所述查询领域关键词。

可选地，所述第一筛选模块4017之前，所述装置还包括：第二标注模块4016，用于对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以预先确定所述查询负例集合。

可选地，所述泛化处理模块402，具体用于：确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量；通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得包含所述查询领域关键词的查询样本；对所述查询样本进行筛选，以获得包含所述查询领域关键词的所述查询负例样本。

可选地，所述查询负例泛化模型包括生成对抗网络模型。

图6为本申请实施例五中电子设备的结构示意图；该电子设备可以包括：

一个或多个处理器501；

计算机可读介质502，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例一或实施例二所述的查询负例的泛化方法。

图7为本申请实施例六中电子设备的硬件结构；如图7所示，该电子设备的硬件结构可以包括：处理器601，通信接口602，计算机可读介质603和通信总线604；

其中处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信；

可选地，通信接口602可以为通信模块的接口，如GSM模块的接口；

其中，处理器601具体可以配置为：确定包含查询领域关键词的第一查询负例；通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读介质603可以是，但不限于，随机存取存储介质(Random AccessMemory，RAM)，只读存储介质(Read Only Memory，ROM)，可编程只读存储介质(Programmable Read-Only Memory，PROM)，可擦除只读存储介质(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定模块、泛化处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一确定模块还可以被描述为“确定包含查询领域关键词的第一查询负例的模块”。

作为另一方面，本申请还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一或实施例二所描述的查询负例的泛化方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：确定包含查询领域关键词的第一查询负例；通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种查询负例的泛化方法，其特征在于，所述方法包括：

确定包含查询领域关键词的第一查询负例，所述第一查询负例为包含查询领域关键词，但不属于所述查询领域关键词指示的查询领域的查询请求内容数据；

通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。

2.根据权利要求1所述的方法，其特征在于：

确定用于指示查询领域的所述查询领域关键词；

基于所述查询领域关键词，对查询负例集合进行筛选，以确定包含所述查询领域关键词的所述第一查询负例。

3.根据权利要求2所述的方法，其特征在于：

对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以获得属于所述查询领域的第二查询请求内容数据；

对所述第二查询请求内容数据进行分词处理，以获得属于所述查询领域的词语；

确定所述词语的词频和所述词语所属的不同的查询领域的数量；

基于所述词语的词频和所述词语所属的不同的查询领域的数量，确定用于指示所述查询领域的所述查询领域关键词。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对用户日志的文本数据中的第一查询请求内容数据进行标注处理，以预先确定所述查询负例集合。

5.根据权利要求1-4中任意一项权利要求所述的方法，其特征在于，所述通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本，包括：

确定用于表征所述第一查询负例的内容数据中的词语的第一向量和用于表征为所述内容数据配置的终结符的第二向量；

通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得查询样本；

对所述查询样本进行筛选，以获得所述查询负例样本。

6.根据权利要求5所述的方法，其特征在于，所述通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，对所述第一查询负例进行泛化处理，以获得查询样本，包括：

通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，生成表征所述查询样本中的词语的词向量的概率分布；

基于表征所述查询样本中的词语的词向量的概率分布，确定所述查询样本中的词语。

7.根据权利要求6所述的方法，其特征在于，所述通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，生成表征所述查询样本中的词语的词向量的概率分布，包括：

通过所述查询负例泛化模型，基于所述第一向量和所述第二向量，获得前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量；

基于前t个时刻中的每个时刻生成的表征所述查询样本中的词语的词向量，在t+1时刻生成表征所述查询样本中的词语的词向量的概率分布，其中，t为常数。

8.根据权利要求5-7中任意一项权利要求所述的方法，其特征在于，所述查询负例泛化模型包括生成对抗网络模型。

9.一种查询负例的泛化装置，其特征在于，所述装置包括：

第一确定模块，用于确定包含查询领域关键词的第一查询负例，所述第一查询负例为包含查询领域关键词，但不属于所述查询领域关键词指示的查询领域的查询请求内容数据；

泛化处理模块，用于通过查询负例泛化模型，对所述第一查询负例进行泛化处理，以获得查询负例样本。