CN109933663A

CN109933663A - 基于embedding方法的意图识别算法

Info

Publication number: CN109933663A
Application number: CN201910141203.5A
Authority: CN
Inventors: 孙晓明
Original assignee: Shanghai Coast Mdt Infotech Ltd
Current assignee: Shanghai Coast Mdt Infotech Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-06-25

Abstract

本发明公开了一种基于embedding方法的意图识别算法，基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性；本发明提供的基于embedding方法的意图识别算法，在通用数据集上预训练的词向量需要占用上GB的内存空间，而本申请方案提供的模型由于只是嵌入了所关心的词和意图，因此仅需100MB左右的内存空间，占用的内存空间更少。

Description

基于embedding方法的意图识别算法

技术领域

本发明涉及机器学习算法类，尤其涉及一种基于embedding方法的意图识别算法。

背景技术

目前智能客服中的意图识别算法一般是选用一个预训练好的词向量，对用户的输入文本转换映射为词向量，用预训练好的词向量对用户输入语句进行表示，然后选用传统机器学习算法或深度学习算法进行分类，将意图识别转换为一个多分类问题。现有技术的缺点主要有四个：意图识别的最终效果受词向量质量的影响非常大，与词向量的质量相比，选用何种分类算法对最终效果的影响不大；由于词向量的训练一般都是在通用数据集上进行，所以特定领域内词语可能未出现在词向量中或通用数据集中词的含义与特定领域内词的含义有可能不同，导致预训练的词向量中并未学习到特定领域内的词或学习的不准确；在通用数据集上预训练的词向量在处理特定领域内的问题时会有大量的词并未使用，导致内存空间的浪费；在对具有多个意图的句子进行分类时现有技术不能得到很好的结果。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种基于embedding方法的意图识别算法，其中，具体技术方案为：

基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性。

上述的基于embedding方法的意图识别算法，其中：首先，将语料库中的所有语句都通过神经网络映射到一个新的向量空间中，网络输入层的维度为语料中所有语句分词后词语的数量，隐藏层和输出层的维度为可调节的超参数；然后，将所有意图也都映射到与上步相同的向量空间，输入层的维度与意图的数量相同，输出层的维度与之前网络的输出层相同。

上述的基于embedding方法的意图识别算法，其中：为了训练模型，需要在新的向量空间中对语句与意图进行比较，具体的是最小化如下损失函数：

其中E⁺是正例集合，E^-是负例集合，是从负例集合中采用负采样方法选出的负样本，该损失函数对负例样本采用了取最大运算操作，只考虑输入语句和所有负样本相似度的最大值，而原损失函数是考虑输入语句和所有负样本相似度的平均值。

本发明相对于现有技术具有如下有益效果：在通用数据集上预训练的词向量需要占用上GB的内存空间，而本申请方案提供的模型由于只是嵌入了所关心的词和意图，因此仅需100MB左右的内存空间，占用的内存空间更少；此方法的准确性也比使用预训练词向量配合分类器的方法更具优势，特别是在多意图分类的数据中，传统方法的F1-score为0.31，本方法的F1-score为0.88。

附图说明

图1为基于embedding方法的意图识别算法的示意图。

图2为基于embedding方法的意图识别算法的示意图。

具体实施方式

本发明提供技术方案没有使用通用数据集上预训练好的词向量，而是基于自己特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，这样就将分类问题转化了排序问题。

本发明的创新关键点有两个：一是通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题。二是对论文中的损失函数进行了修改，使得新的损失函数具有更好的稳定性和鲁棒性。

如图1所示，首先将语料库中的所有语句都通过神经网络映射到一个新的向量空间中，网络输入层的维度为语料中所有语句分词后词语的数量，隐藏层和输出层的维度为可调节的超参数；然后如图2所示，将所有意图也都映射到与上步相同的向量空间，输入层的维度与意图的数量相同，输出层的维度与之前网络的输出层相同；为了训练模型，需要在新的向量空间中对语句与意图进行比较，具体的是最小化如下损失函数：

其中E⁺是正例集合，E^-是负例集合，是从负例集合中采用负采样方法选出的负样本。该损失函数对负例样本采用了取最大运算操作，只考虑输入语句和所有负样本相似度的最大值，而原损失函数是考虑输入语句和所有负样本相似度的平均值，经试验表明，采用最大值可以使结果具有更好的鲁棒性和稳定性，减少噪声数据对结果的影响。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于embedding方法的意图识别算法，其特征在于：基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性。

2.如权利要求1所述的基于embedding方法的意图识别算法，其特征在于：首先，将语料库中的所有语句都通过神经网络映射到一个新的向量空间中，网络输入层的维度为语料中所有语句分词后词语的数量，隐藏层和输出层的维度为可调节的超参数；然后，将所有意图也都映射到与上步相同的向量空间，输入层的维度与意图的数量相同，输出层的维度与之前网络的输出层相同。

3.如权利要求2所述的基于embedding方法的意图识别算法，其特征在于：为了训练模型，需要在新的向量空间中对语句与意图进行比较，具体的是最小化如下损失函数：