CN111881672A

CN111881672A - 一种意图识别的方法

Info

Publication number: CN111881672A
Application number: CN202010558040.3A
Authority: CN
Inventors: 孔冬兵
Original assignee: Shengzhi Information Technology Nanjing Co ltd
Current assignee: Shengzhi Information Technology Nanjing Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-11-03

Abstract

本发明公开了一种意图识别的方法，包括以下步骤：步骤一、获取话术语境下的候选意图的文本，对每个候选意图的文本进行预处理；步骤二、通过TF‑IDF来计算单词的权重；步骤三、保存步骤二得到的单词的权重，以供后续通话过程中来查询使用；步骤四、通话过程中，对用户输入的文本进行预处理，计算单词向量，再分别将预处理后的用户输入文本和步骤一预处理后的候选意图中配置的标准文本转换为向量，进而计算这两个文本的余弦相似度；步骤五、确定与预处理后的用户输入文本余弦相似度最大的标准文本对应的意图。本发明能够利用语境下的关键词信息和TF‑IDF技术，提升关键词的权重，从而增强意图识别效果。

Description

一种意图识别的方法

技术领域

本发明涉及智能语音对话技术领域，特别是一种意图识别的方法。

背景技术

在一个常见的对话系统中，一般预先会定义一系列的意图，表示该对话系统所有能够理解和处理的意图。并且一般对于每一个意图，会配置一个标准文本列表，表示与该意图相匹配的文本。然后在实际的对话过程中，将用户表述的文本与候选的各个意图进行比较，判断与哪一个意图更为接近，此过程称之为意图识别。

传统的文本相似度计算，可以通过计算两个文本之间的余弦相似度来求得。利用文本相似度来进行意图识别，可以通过计算输入文本与意图标准文本列表中每个文本的相似度，并取最高分值来求得。

直接将传统的文本相似度应用到意图识别中存在一些问题。一方面，没有充分利用意图下的“关键词”信息，提升关键词的权重。比如在一个表达“会来参加”的意图下，标准文本列表可能有[“我想参加”,“我会参加”,“会来参加”]，此时“参加”即为关键词，其权重需要比其他单词高。

另一方面，在一个基于树状结构或状态图的对话系统中，虽然意图是全局设置，但是每个状态下都会有一个候选的意图列表，在候选意图之外的其他意图是不做考虑的。比如在一个开场白AI问“你会来参加吗？”的语境下，由于候选意图包含了“会来参加”意图，“参加”词的权重需要提高。而在一个“你会按时付款吗”语境下，“参加”词则没那么重要，此时可能“付款”更重要一点。

在智能语音对话领域，一般是利用ASR技术将用户输入转换为文本，并通过计算用户输入文本与候选意图的标准文本之间的文本相似度来进行意图识别。其中文本相似度的计算，主要是依赖于传统的余弦相似度算法，同时利用TF-IDF技术，基于不同的语境，动态地计算不同单词的权重，优化相似度计算效果。

如今在对话系统的意图识别中，已经有比较成熟的文本分类模型如BERT等来实现，但由于其较大的资源消耗及训练时长，很难做到快速启动。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种意图识别的方法，本发明增强意图识别效果。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种意图识别的方法，包括以下步骤：

步骤一、获取话术语境下的候选意图的文本，对每个候选意图的文本进行预处理；

步骤二、通过TF-IDF来计算单词的权重；具体如下：

2.1、对于每个语境，获取当前语境下所有候选意图列表，长度记为N，此即为文档总数；

2.2、对于每一个意图，记录该意图下预先配置的标准文本个数为n，n表示条目数；对于意图下的每一个单词，计算该意图下包含该单词的标准文本个数c，c表示词频；同时计算所有出现了该单词的意图的个数df_t，df_t即为文档频率；

2.3、分别计算词频TF和逆文本频率指数IDF，这两者相乘得到单词的权重；

步骤三、保存步骤二得到的单词的权重，以供后续通话过程中来查询使用；

步骤四、通话过程中，对用户输入的文本进行预处理，计算单词向量，再分别将预处理后的用户输入文本和步骤一预处理后的候选意图中配置的标准文本转换为向量，进而计算这两个文本的余弦相似度；

所述计算这两个文本的余弦相似度具体如下；

4.1、将单词向量与步骤二计算的单词的权重相乘得到加权后的单词向量；加权后的单词向量相加得到文本对应的向量；

4.2、通过以下公式来计算两个文本的余弦相似度cosine(v1,v2)；

其中v1和v2分别是第一个文本S1和第二个文本S2对应的向量；第一个文本S1是指预处理后的用户输入文本，第二个文本S2是指预处理后的候选意图中配置的标准文本；

步骤五、确定与预处理后的用户输入文本余弦相似度最大的标准文本对应的意图。

作为本发明所述的一种意图识别的方法进一步优化方案，步骤一中，文本预处理的过程如下：

1.1、去除标点符号、预先定义的停止词；

1.2、对去除后的文本进行分词。

作为本发明所述的一种意图识别的方法进一步优化方案，步骤四中，文本转换为向量的过程如下：

对于语料充足的话术，通过Word2Vec工具来转换；

而对于语料不足的话术，则采用One-Hot Encoder方法：以两个文本所有的词为向量空间，每个词都代表不同的维度，其对应维度值为1，而其他的维度值为0；计算文本的向量时，将每一个词的向量相加即可。

作为本发明所述的一种意图识别的方法进一步优化方案，步骤三中，保存的格式使用键值对的形式，将各个语境下的词权重的保存到数据库。

作为本发明所述的一种意图识别的方法进一步优化方案，对于通话过程中动态计算出的权重值，保存到内存中，生命周期仅为程序运行周期。

作为本发明所述的一种意图识别的方法进一步优化方案，标准文本指预先配置的文本。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.能够利用语境下的关键词信息和TF-IDF技术，提升关键词的权重，从而增强意图识别效果。

2.相对于其他文本分类进行的意图识别方法，资源消耗较小，能够做到快速启动。

附图说明

图1是计算语境对应的词权重流程。

图2是通话过程中的意图识别流程。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

关于对话过程中语境问题

在一个常见的基于树状结构或状态图的对话系统中，在保存话术时通常会生成一些固定的语境，比如开场白等，不妨称之为静态语境。这些语境下的候选意图是固定的，也就是在通话之前就能确定下来的。然而，在通话过程中也经常会出现一些动态的语境，比如通过意图澄清，用户明确否定了某一意图之后，需要将该意图从候选意图中移除。也就是说通话过程中某一语境下的候选意图是动态的，这在通话之前是无法确定下来的。

不论对于静态的还是动态的语境，处理方案都是类似的。只是对于前一种，我们可以在保存话术时就进行计算处理，节约处理时间，并且每一个会话都可以使用；对于后一种，需要依赖通话过程中的具体状态进行计算。对于一个特定语境，将它的每一个候选意图作为一个文档集合，利用TF-IDF计算每个单词权重。由于本文所述文本相似度计算方法是快速的，因此在通话过程中实时利用动态的候选意图进行计算是可行的。

图1是计算语境对应的词权重流程，图2是通话过程中的意图识别流程。在进行相似度和权重计算之前，需要进行一些文本的预处理操作，以提升计算效果。文本预处理过程基本步骤:

1.去除标点符号，预先定义的停止词等无意义的词。

2.分词。中文场景下可以使用结巴分词等工具来进行分词，不多赘述。

余弦相似度计算

计算两个文本S1和S2的余弦相似度时，主要需要先把文本转化为向量，然后通过以下公式来计算。

其中v1和v2分别是文本S1和S2对应的向量。

对于如何从文本转化为向量，一般地可以通过先计算单词的向量，再将单词的向量相加得到文本的向量。对于语料足够充足的话术，可以通过Word2Vec等工具来得到单词的向量。而对于语料不足的话术，则可以采用更直接的One-Hot Encoder方法：以两个文本所有的单词为向量空间，每个单词都代表不同的维度，其对应维度值为1，而其他的维度值为0。计算文本的向量时，将每一个单词的向量相加即可。计算默认情况下，每一个单词的权重是一样的。比如有文本S1：“我会参加”和S2：“我想参加”。常用的分词软件会将“我”，“想”，“会”作为单独的词，而“参加”整个作为一个词，则由于有4个不同的词，向量维度即为4。可得S1对应的向量为：[1,0,1,1]，S2对应的向量为：[1,1,0,1]。下面介绍如何通过TD-IDF来提升词的权重。

TF-IDF

TF-IDF(term frequency–inverse document frequency)是一种评估一个词在一个文档集合中的重要程度的方法。它主要通过计算词频TF和逆文本频率指数IDF，并求积来求得最终结果。

在将TF-IDF应用到意图识别的单词权重计算中，我们不是将整个话术的每一个意图作为一个文档集合，而是在每个语境下，将该语境下的每个候选意图作为一个文档集合。也就是说我们在每个语境下都应用TF-IDF得到不同的单词权重。这样同样的词在不同的语境下，权重也是不一样的。比如在在询问用户“你会按时来参加吗？”的语境下，“参加”的权重会更高；在询问用户“你会按时付款吗？”的语境下，“付款”的权重会更高。

计算TF-IDF的基本步骤如下

1.对于每个语境，获取当前语境下所有候选意图列表，长度记为N，此即为文档总数。

2.对于每一个意图，记录标准文本个数为n，表示条目数。对于意图下的每一个词，计算该意图下包含该词的标准文本个数，记为c，表示词频。同时计算所有出现了该词的意图的个数df_t，此即为文档频率。

3.分别计算TF和IDF，相乘得到TF-IDF即为单词的权重；

以上面的例子为例，已知初始状态下，意图中一个标准文本为“我想参加”。通过TF-IDF计算得到一个权重更高的词，比如“参加”的TF-IDF权重计算为2，其他词的权重仍然为1：

1.若用户输入也包含该词，比如为“我会参加”，由于包含了重要的词，我们是希望匹配分值能够更高。此时用户输入向量为[1,1,0,2]，标准文本向量为[1,0,1,2]，其中“参加”词所在的维是第四维。此时计算的相似度结果约为0.83，而如果不增加权重，则计算结果为0.67，符合预期。

2.若用户输入不包含该词，比如为“我想问”。由于未包含重要的词，我们是希望匹配分值更低。此时用户输入向量为[1,1,1,0]，标准文本的向量为[1,0,1,2]，计算的相似度结果约为0.47，而如果不增加权重，则计算结果为0.67，符合预期。

TF-IDF计算结果的保存

对于保存话术时，计算得出的权重值，需要保存下来，以供后续通话过程中来查询使用。保存的格式可以使用键值对的形式，将各个语境下的词权重的保存到数据库，Redis等可以固化存储下来的地方；而对于通话过程中动态计算出的权重值，由于并不是对所有对话通用的，可以仅保存到内存中，生命周期仅为程序运行周期。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种意图识别的方法，其特征在于，包括以下步骤：

步骤二、通过TF-IDF来计算单词的权重；具体如下：

所述计算这两个文本的余弦相似度具体如下；

4.2、通过以下公式来计算两个文本的余弦相似度cosine(v1,v2)；

2.根据权利要求1所述的一种意图识别的方法，其特征在于，步骤一中，文本预处理的过程如下：

1.1、去除标点符号、预先定义的停止词；

1.2、对去除后的文本进行分词。

3.根据权利要求1所述的一种意图识别的方法，其特征在于，步骤四中，文本转换为向量的过程如下：

对于语料充足的话术，通过Word2Vec工具来转换；

4.根据权利要求1所述的一种意图识别的方法，其特征在于，步骤三中，保存的格式使用键值对的形式，将各个语境下的词权重的保存到数据库。

5.根据权利要求1所述的一种意图识别的方法，其特征在于，对于通话过程中动态计算出的权重值，保存到内存中，生命周期仅为程序运行周期。

6.根据权利要求1所述的一种意图识别的方法，其特征在于，标准文本指预先配置的文本。