CN112417132B

CN112417132B - 一种利用谓宾信息筛选负样本的新意图识别方法

Info

Publication number: CN112417132B
Application number: CN202011492756.4A
Authority: CN
Inventors: 戴新宇; 陈陌信; 何亮; 黄书剑; 尹存燕; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-11-17
Anticipated expiration: 2040-12-17
Also published as: CN112417132A

Abstract

本发明提供了一种利用谓宾信息筛选负样本的新意图识别方法，包括如下步骤：步骤1，输入意图标签和人工标注的正样本；步骤2，收集无标注的句子样本，计算无标注样本与意图标签的相似度，排序并筛选后作为用于后续训练意图识别模型的负样本；步骤3，结合正、负样本训练意图识别模型；步骤4，使用训练好的意图识别模型对用户输入进行预测。

Description

一种利用谓宾信息筛选负样本的新意图识别方法

技术领域

本发明涉及一种利用谓宾信息筛选负样本的新意图识别方法。

背景技术

得益于人工智能技术的快速发展，对话形式的新型人机交互方式开始广泛应用于人类生产和生活的诸多领域，例如手机中的智能助手、车载语音系统、智能音箱等。意图识别(Intent Detection)是人机对话系统(Dialogue System)的核心环节之一，负责识别出用户当前的意图，它的识别准确率直接决定了系统对用户需求的完成度和用户对系统的满意程度。同时，在真实的应用场景中，用户时常会给出一些全新的表述，这些表述中包含的意图超出了系统现有的识别能力，这类意图通常称为新意图。

文本分类(Text Classification)是文本处理中常见的任务。文本分类模型可以基于领域词汇和模板匹配的方法来实现；也可以使用带参数的模型，通过在标注数据上学习获得分类的能力。意图识别任务可以转换成文本分类任务进行处理。

目前主流的意图识别技术方案是通过自动语音识别技术(Automatic SpeechRecognition，ASR)将用户对话转换成文本，然后由一个文本分类模型来进行意图分类。随着深度学习的发展，采用神经网络结构的文本分类模型在准确率上取得了巨大的提升。这类模型需要由大量用户表述和意图标签组成的标注数据进行训练，只能在事先确定的意图体系下才能保证准确识别。在真实的应用场景中，用户经常会给出现有意图体系之外的输入，因此模型需要具备新意图识别的能力，然后将包含新意图的样本进行收集反馈，进行进一步标注和训练模型，完善模型的识别能力。

【专利一】CN111382270A基于文本分类器的意图识别方法、装置、设备及存储介质(CN111382270A基于文本分类器的意图识别方法、装置、设备及存储介质)。

该发明使用文本分类器进行意图分类，同时通过判断文本分类器的预测置信度是否打羽意图阈值来判断当前意图是否为新意图。

【论文二】Out-of-domain Detection for Natural Language Understanding inDialog Systems.(Zheng Y,Chen G,Huang M.Out-of-domain detection for naturallanguage understanding in dialog systems[J].2020.)

该论文在训练文本分类模型的过程中引入不输入已知意图体系中的负样本，从而增强模型对已知意图和新意图的分辨能力。

【论文三】An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction.(Larson S,Mahendran A,Peper J J,et al.An evaluation datasetfor intent classification and out-of-scope prediction[J].2019.)

该论文针对人工标注的高质量负样本数量稀少的问题，通过从维基百科中随机采样一些文本作为负样本。

文本分类模型的工作原理是对判断当前样本属于预定意图类别的概率，选取概率最大的作为预测结果。直接采用文本分类模型进行意图识别无法处理不属于预定意图类别体系内的新意图。专利一通过设定意图阈值来处理新意图样本。使用模型的预测概率作为置信度，如果模型对输入样本的预测置信度大于意图阈值，则判断当前样本属于模型预测的意图；若小于意图阈值，则判断当前样本属于新意图。但是，基于神经网络结构的文本分类器通常会面临过拟合(overfitting)的问题，对预测结果过分自信，即便输入样本不属于已知意图，模型也会以很大的概率分类为已知意图中的一个，导致模型对新意图的识别准确率不高。

针对这个问题，论文二通过在模型训练过程中引入负样本来增强模型对新意图的区分能力。具体的，模型除了使用已知意图样本和标签进行训练，还会使用不属于已知意图的样本作为负样本进行训练，要求模型对负样本预测的熵尽可能大，即模型将负样本预测成已知意图的概率尽可能小，从而缓解模型对于预测结果过分自信的问题。然后，训练时使用的负样本要求不属于已知意图体系，此类样本通常难以获取，且标注成本更高。一种常见的解决方法是从百科、社交媒体等平台获取大量的文本，随机采样若干条作为负样本。但是这种方法很难保证负样本的质量，选中的样本表达的新意图可能过于直接、或者可能不包含任何意图，对于模型来说过于简单，模型无法很好地学习对已知意图和一些与已知意图比较接近的新意图的区分。

发明内容

发明目的：本发明要解决地技术问题是如何从大量无标注的文本样本中挑选新意图样本，通过计算样本与意图标签之间的相似度，并且增强样本中谓宾成份的权重，可以有效筛选出与已知意图样本具有一定相似度的负样本，参与意图识别模型的训练，从而提升模型对新意图的识别能力。本发明提供了一种利用谓宾信息筛选负样本的新意图识别方法，具体包括如下步骤：

步骤1，输入意图标签和人工标注的正样本；意图标签需要事先根据业务需求人工制定，并标注包含这些意图的对话语句作为用于后续训练意图识别模型的正样本。

步骤2，收集无标注的句子样本，计算无标注样本与意图标签的相似度，排序并筛选后作为用于后续训练意图识别模型的负样本；

步骤3，结合正、负样本训练意图识别模型；

步骤4，使用训练好的意图识别模型对用户输入进行预测。

步骤2包括：

步骤2-1，输入无标注样本和意图标签；

步骤2-2，对无标注样本和意图标签的文本进行分词，然后使用预训练的词向量将分词得到的词语依次映射到对应的向量，得到样本和意图标签的向量化表示；

步骤2-3，对无标注样本进行句法分析，获得它的句法结构信息，识别出其中的谓语和宾语成份；对话语句中意图相关的信息通常会使用“做……某事”的形式进行表达，对应于句法结构中的谓语和宾语成份，因此通过句法分析识别出样本中的谓语和宾语成份；

步骤2-4，计算无标注样本和意图标签之间的相似度，采用词移距离作为相似度指标。词移距离计算无标注样本与标签之间的词级别的距离，词与词之间的距离通过对应词向量之间的欧氏距离表示，最后汇总得到无标注样本与意图标签在句子级别的距离作为相似度。在计算过程中，增强样本中谓语和宾语成份对应词语的权重，使结果更加关注样本中意图相关的词语和意图标签的相似度，从而更好地反映出当前样本与意图标签之间的关系；

步骤2-5，按照相似度对无标注样本降序排序，选择与正样本同等数量的无标注样本数量作为训练意图识别模型的负样本。

本发明中，步骤2-4包括：

步骤2-4-1，汇总所有无标注样本和意图标签的分词结果构造词汇表，其中需要过滤掉“的”、“了”之类的无意义的停用词。

步骤2-4-2，使用nBOW向量d,d′分别表示无标注样本和意图标签中每个词的权重，对于无标注样本，设定词汇表的大小为n，则无标注样本中第i个词的权重d_i为该词在无标注样本中出现的次数c_i除以词表中所有词在无标注样本中出现的次数之和，记为其中α_i是对无标注样本中谓宾成份词权重的增强系数，如果第i个词属于宾语或谓语成份，则α_i为大于1的常数，否则α_i＝1；

对于意图标签，意图标签中第i个词的的权重d′_j通过该词在意图标签中出现的次数c′_j除以词表中所有词在意图标签中出现的次数之和得到，并对意图标签中的谓宾成份词进行权重增强，计算公式为：

步骤2-4-3，对无标注样本和意图标签之间的每个词都计算两两之间的距离，计算方式为：设定无标注样本和意图标签之间两个词对应的词向量分别表示为w_i,w_j，通过词向量欧式距离来表示两个词的距离sim(i,j)：sim(i,j)＝||w_i-w_j||₂；

步骤2-4-4，计算得到无标注样本与意图标签之间的相似度。

步骤2-4-4包括：构造转移矩阵T∈R^n×n，R^n×n表示一个维度为n×n的实数矩阵，其中T_ij表示第i个词中权重转移至第j个词上的数量；在计算无标注样本和意图标签之间的相似度时，要求无标注样本中每个词的权重全部转移到意图标签的词上，即通过一种无标注样本与意图标签之间词的映射方式，使得词与词之间通过转移矩阵加权的距离之和最小，得到的最小距离记为无标注样本与意图标签之间的相似度，公式如下：

步骤3包括：

步骤3-1，输入正样本和负样本，分别记为x⁺和x^-；输入正样本对应的意图标签并对其进行独热编码，记为集合y＝{y₁,…,y_c}，c为意图标签的总数，y_c表示第c个意图标签，y中当前正样本对应意图标签的位置值为1，其余位置值为0；正、负样本和意图标签按照9：1的比例划分得到训练集和验证集；

步骤3-2，意图识别模型进行前向计算，分别对输入的正、负样本进行预测，分别得到正、负样本在各个意图标签上的概率分布其中/>表示模型将正样本预测为第c个意图标签的概率；/>表示模型将负样本预测为第c个意图标签的概率；

步骤3-3，计算正样本预测概率分布与真实标签的交叉熵，记为i取值为1～c；计算负样本预测概率分布的熵，作为意图识别模型的正则项，缓解模型在已知意图上过拟合的问题，记为/>求和得到意图识别模型的预测损失，记为L＝CE+E；

步骤3-4，计算梯度，反向传播更新意图识别模型参数；

步骤3-5，使用验证集评估意图识别模型对正样本的识别准确率；

步骤3-6，判断意图识别模型性能是否提升，如果有提升则返回步骤3-2继续迭代训练，否则执行步骤3-7；

步骤3-7，结束训练意图识别模型。

步骤4包括：采用意图阈值的方式处理新意图，如果意图识别模型预测置信度小于选定阈值，则判断为新意图样本；否则为意图识别模型预测的意图。通过枚举0-1区间内可能的取值，挑选出在验证集上负样本识别准确率最高的取值作为意图阈值。

有益效果：本发明提出了一种获取高质量负样本的方法，利用文本的句法结构信息计算样本与意图标签的相似度，可以实现不依赖人工标注地从大量无标注文本数据中挖掘出高质量的、有助于提升模型识别能力的新意图样本。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是意图识别算法流程图。

图2是负样本筛选流程图。

图3是意图识别模型训练流程图。

具体实施方式

结合负样本的意图识别算法整体流程如图1所示。

步骤101，输入意图标签和人工标注的正样本；意图标签需要事先根据业务需求人工制定，并标注包含这些意图的对话语句作为用于后续训练意图识别模型的正样本。意图标签为形如“查询天气”、“预订机票”的文本形式。训练意图识别模型需要事现确定好意图标签体系，依据意图体系标注大量用户对话语料作为训练数据作为正样本，用于模型学习。表1给出了意图“查询天气”的一个正样本示例。

步骤102，收集无标注的句子样本，计算样本与意图标签的相似度，排序并筛选后作为用于后续训练意图识别模型的负样本。首先从百科、社交平台等来源收集大量无标注的文本，然后计算与意图标签的相似度进行排序，选择相似度高的若干数据作为负样本。负样本所表述的意图不能存在于步骤101输入的意图标签体系中，表1给出了意图“查询天气”的一个负样本示例。具体的负样本筛选流程如图2所示：

表1

意图标签	查询天气
		正样本	帮我查一下南京明天的天气
负样本	南京是江苏的省会城市

具体的负样本筛选流程如图2所示：

步骤201，输入无标注样本和意图标签。

步骤202，对无标注样本和意图标签的文本进行分词，然后使用预训练的词向量将分词得到的词语依次映射到对应的向量，得到样本和意图标签的向量化表示。向量化表示的目的是便于后续步骤的相似度计算。

步骤203，对无标注样本进行句法分析，获得它的句法结构信息，本实施例中使用spaCy工具获取句法结构信息。本发明主要关注句子中的谓宾成份信息，对应于表2所示句法分析结果中的dobj(direct object)关系(参考文献：Stanford typed dependenciesmanual.https://nlp.stanford.edu/software/)。因为在意图识别领域中，意图通常为“动作(动词)+对象(名词)”的结构，例如“查询天气”；包含该意图的句子中通常也会出现相应的词语，例如“帮我查一下南京明天的天气”中“查”和“天气”在这个句子中便属于谓语和宾语的成份。本发明利用句子中的谓宾成份来判断句子与意图的相关性。

表2

步骤204，计算样本和意图标签之间的相似度。样本和意图标签均由多个词语组成，采用词移距离(Word Mover's Distance，WMD)作为相似度指标(参考文献：Kusner M,Sun Y,Kolkin N,et al.From word embeddings to document distances[C]//International conference on machine learning.2015.)。词移距离是一种度量两个文本句子或文档之间距离的方法。具体地，步骤202对样本和意图标签的每个词进行向量化，计算词向量之间的欧氏距离作为词语之间的距离，通过将一个句子中包含的词语“移动”到另一个句子中的词语，这个“移动”过程产生的距离总和的最小值作为词移距离。步骤203阐述了谓宾成份的重要性，因此本发明对词移距离进行改进，计算词语“移动”距离的加权和，增强了其中谓宾成份所对应词语的权重，使得计算结果更加关注于意图相关的词语，更加准确地反映样本与意图之间的相似度。本实施例中将谓宾词语的权重缩放为普通词语的3倍，如表3所示(“我”、“的”为停用词)。

表3

步骤205，按照相似度对无标注样本降序排序，选择与正样本同等数量的无标注样本作为训练意图识别模型的负样本。

步骤103，结合正、负样本训练意图识别模型。具体的训练流程如图3所示：

步骤301，输入正样本和负样本，记为x⁺和x^-。输入正样本对应的意图标签并对其进行独热编码，记为y＝{y₁,…,y_c}，c为意图标签的总数，y中当前正样本对应意图标签的位置值为1，其余位置值为0。正、负样本和意图标签按照9：1的比例划分得到训练集和验证集；

步骤302，意图识别模型进行前向计算，分别对输入的正、负样本进行预测，得到正、负样本在各个意图标签上的概率分布其中/>表示模型将正样本预测为第c个意图标签的概率；/>表示模型将负样本预测为第c个意图标签的概率；

步骤303，计算正样本预测概率分布与真实标签的交叉熵，记为计算负样本预测概率分布的熵，作为意图识别模型的正则项，缓解模型在已知意图上过拟合的问题，记为/>求和得到意图识别模型的预测损失，记为L＝CE+E；

步骤304，计算梯度，反向传播更新模型参数。

步骤305，使用验证集评估意图识别模型对正样本的识别准确率

步骤306，判断模型性能是否提升，若有提升则返回步骤302继续迭代训练，否则执行步骤307。

步骤307，结束训练模型。

步骤104，使用训练好的模型对用户输入进行预测。采用意图阈值的方式处理新意图，若模型预测置信度小于选定阈值，则判断为新意图样本；否则为模型预测的意图。通过枚举0-1区间内可能的取值，挑选出在验证集上负样本识别准确率最高的取值作为意图阈值。本实施例中意图阈值设置为0.9。

从技术层面来说，本发明的技术方案(1)通过计算无标注样本与意图标签之间的文本相似度，可以有效地筛选出能够给意图识别模型带来增益的负样本；(2)计算词移距离作为文本相似度，同时结合句法信息，增强样本中谓宾成份在词移距离中的权重，可以更加准确地衡量样本与意图标签之间地相关程度，从而筛选出高质量的负样本。(3)通过在训练意图识别模型引入高质量的负样本，增强模型对已知意图和新意图的区分能力，能够有效降低模型将新意图样本误判为已知意图的概率，提高新意图识别准确率。

从应用层面来说，本发明的技术方案(1)能够自动化地从海量文本数据中挖掘高质量地负样本，能够大幅减少标注负样本数据所需的人工成本。(2)使用高质量的负样本增强模型的识别能力，能够降低系统的错误率，优化用户体验，同时及时发现高价值的新意图，有助于快速提高和完善系统的识别能力。

本发明提出一种基于样本与意图标签之间的相似度挑选高质量负样本增强新意图识别的方法。在计算词移距离作为相似度度量时，加强了样本中谓宾成份词语的权重，从而挑选出和已知意图更加接近的负样本。引入这些高质量负样本训练意图识别模型，使模型学习如何区分已知意图和新意图，从而提高模型对新意图的识别准确率。

本发明提供了一种利用谓宾信息筛选负样本的新意图识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种利用谓宾信息筛选负样本的新意图识别方法，其特征在于，包括如下步骤：

步骤1，输入意图标签和标注的正样本；

步骤3，结合正、负样本训练意图识别模型；

步骤4，使用训练好的意图识别模型对用户输入进行预测；

步骤2包括：

步骤2-1，输入无标注样本和意图标签；

步骤2-3，对无标注样本进行句法分析，获得它的句法结构信息，识别出其中的谓语和宾语成份；

步骤2-4，计算无标注样本和意图标签之间的相似度，采用词移距离作为相似度指标；

步骤2-5，按照相似度对无标注样本降序排序，选择与正样本同等数量的无标注样本作为训练意图识别模型的负样本；

步骤2-4包括：

步骤2-4-1，汇总所有无标注样本和意图标签的分词结果构造词汇表；

步骤2-4-2，使用nBOW向量d,d′分别表示无标注样本和意图标签中每个词的权重，对于无标注样本，设定词汇表的大小为n，则无标注样本中第i个词的权重d_i为该词在无标注样本中出现的次数c_i除以词表中所有词在无标注样本中出现的次数之和，计算公式为：其中α_i是对无标注样本中谓宾成份词权重的增强系数，如果第i个词属于宾语或谓语成份，则α_i为大于1的常数，否则α_i＝1；

步骤2-4-4，计算得到无标注样本与意图标签之间的相似度。

2.根据权利要求1所述的方法，其特征在于，步骤2-4-4包括：构造转移矩阵T∈R^n×n，R^n×n表示一个维度为n×n的实数矩阵，其中T_ij表示第i个词中权重转移至第j个词上的数量；在计算无标注样本和意图标签之间的相似度时，要求无标注样本中每个词的权重全部转移到意图标签的词上，即通过一种无标注样本与意图标签之间词的映射方式，使得词与词之间通过转移矩阵加权的距离之和最小，得到的最小距离记为无标注样本与意图标签之间的相似度，公式如下：

3.根据权利要求2所述的方法，其特征在于，步骤3包括：

步骤3-3，计算正样本预测概率分布与真实标签的交叉熵，记为i取值为1～c；计算负样本预测概率分布的熵，作为意图识别模型的正则项，记为求和得到意图识别模型的预测损失，记为L＝CE+E；

步骤3-4，计算梯度，反向传播更新意图识别模型参数；

步骤3-7，结束训练意图识别模型。

4.根据权利要求3所述的方法，其特征在于，步骤4包括：采用意图阈值的方式处理新意图，如果意图识别模型预测置信度小于选定阈值，则判断为新意图样本；否则为意图识别模型预测的意图。