CN110347833B

CN110347833B - 一种多轮对话的分类方法

Info

Publication number: CN110347833B
Application number: CN201910614398.0A
Authority: CN
Inventors: 曹斌; 马奎; 范菁; 刘宇琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-08-24
Anticipated expiration: 2039-07-09
Also published as: CN110347833A

Abstract

本发明公开了一种多轮对话的分类方法，通过利用这种方法，能够对对话的内容给于不同关注度，并以此来帮助确定对话类别。本发明根据多轮对话的语义宽泛，内容繁杂，对话有重点等特点，我们采用了基于统计的特征选择方法，将标出的对话重点视为关键句进行建模处理，对对话进行分类，并提高了分类正确率。包括下列步骤：步骤1、用卡方检验选择特征词；步骤2、使用TF‑IDF计算特征词权重；步骤3、基于关键句计算句权重；步骤4、对话向量的表示和模型训练。

Description

一种多轮对话的分类方法

技术领域

本发明属于自然语言处理(Natural Language processing)领域，尤其涉及一种多轮对话的分类方法。

背景技术

如今，越来越多的产品和平台在提供在线客服支持，比如淘宝，电信等。客服以语音或者文字的方式对客户提出的问题和需求进行解答和服务。在客服服务结束后，通常需要对对话的内容进行分类，以便后续服务。针对对话内容繁杂，客服难以快速确定对话类别，本申请提出了一个结合关键句进行多轮对话分类的方法，用来解决多轮对话文本难以确定对话类别的问题。

例如，在电信领域，客服和客户进行语音沟通时，通过实时的语音转文本，产生大量的对话文本数据。客服在对对话进行整理分类时，存在许多干扰和难点。例如，口语沟通时，通常人们喜欢描述自己的问题，客户会说一些和主题无关的内容，这无疑会对客服确定对话主题带来不利影响。此外，客服人员会手工对每通对话内容进行标重点，即关键句，以帮助确定对话主题并进行后续服务，但这样费时费力，效率低，成本高。

目前，尚未有利用关键句做多轮对话文本分类的方法出现和研究结果发表。对于多轮对话文本，通常的做法都是将对话文本当作普通的文本文档进行处理，即将一通对话视为一篇文章。主流的处理方法有LDA主题模型，TF-IDF词袋模型，textCNN/RNN等深度学习方法。另外，针对人工标出的对话重点，如何设计算法来加以利用并提高对话类别的分类准确率，这也尚未有研究成果发表。

发明内容

本发明针对多轮对话文本语义宽泛，内容繁杂，对话有重点等特点，利用人工标出的对话重点，提出了一种利用关键句进行多轮对话分类的方法。通过利用这种方法，能够对对话的内容给予不同关注度，并以此来帮助确定对话类别，提高多轮对话的分类正确率。

本发明所采用的技术方案如下：一种多轮对话的分类方法，该方法包括如下步骤：

步骤1、用卡方检验选择特征词；

步骤2、使用TF-IDF计算特征词权重；

步骤3、基于关键句计算句权重；

步骤4、对话向量的表示和模型训练，训练后的模型进行多轮对话的分类。

进一步的，所述步骤1具体如下：对一通对话中的所有语句使用分词工具进行分词，将所有对话语句的分词结果保存到词语数组，称为token；在得到所有对话的词语数组后，对数组进行去重操作，使得数组中所有词语都是唯一的，将去重后得到的数组记为BOW，对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语；在计算每个词语的卡方值后，根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率；设置一个临界参数t，当词语的p值小于等于t时，认为该词语与对话文本分类相关，作为特征词，所有特征词存为一个数组，记作特征词集FW。

进一步的，所述分词工具可以采用jieba分词工具，清华大学THULAC分词等。

进一步的，所述临界参数t的取值一般为0.05。

进一步的，所述步骤2具体如下：将步骤1得到的特征词集FW用来表示对话的每句话，每句话用一个n维行向量sentence vector来表示，行向量的每一维用一个特征词的TF-IDF来表示，n为特征词数量，将每个特征词的TF-IDF值作为词权重，值越大，表示该词对确定对话文本所属的类越重要。

进一步的，所述TF-IDF计算如下：

TF-IDF＝TF*IDF

其中，w_i表示第i个词的词频，k表示词的数量，∑_kw_i表示所有词的词频的和，D表示语料的文件总数，d_w表示包含词w的文件总数。

进一步的，所述步骤3具体如下：

对步骤1得到的所有对话的分词结果token计算其每个词的TF-IDF值，记为tokentfidf；

对每个对话进行如下操作：提取人工打标的关键句及其索引，根据索引从token中获得该对话的每个关键句的分词结果并做去重操作，结果称为key token；利用之前得到的token tfidf，计算key token中每个词的TF-IDF值，记为key token tfidf；根据key tokentfidf中的值，对key token中的每个词进行快速排序，结果按从大到小排列，并取排在前1/2的词作为该对话的关键句的关键词，并将结果添加保存到关键词数组；在完成对所有对话的关键句提取关键词后，需对关键词数组进行去重操作，并将去重后得到的关键词数组称为key word dictionary；

接下来根据key word dictionary来计算每个句子的权重；对一个对话文本，先对对话中的每个句子进行分词操作，将分词结果按句保存到数组中，称作sentence token；对数组sentence token和关键词数组key word dictionary求交集，交集中的所有词作为该对话的关键词，称为dialog key word；

对该对话中的每个句子进行如下操作：从sentence token中获得一句话的分词结果，称作sub sentence token，对sub sentence token和dialog key word求交集，得到该句子的所有关键词，记作sub key word；定义句子权重公式

weight表示句子权重，sub表示句子的关键词数sub key word，dlg表示对话的关键词数dialog keyword，st表示组成句子的所有不重复的词的数量。

进一步的，为了保持不同对话之间，权重度量的统一，以对话为一个整体，对话内每个句子的权重进行归一化，归一化公式

这里x为一个句子的weight值，X是由该对话所有句子的weight值组成的集合。

进一步的，所述步骤4具体如下：利用步骤2和步骤3分别得到的句向量sentencevector和相应的句权重weight来计算表示整个对话的向量；一个对话的向量，用公式

来计算,dialog为所求的对话向量，k表示一个对话中句子的数量，sc_i表示第i个句子的句向量，w_i表示第i个句子的权重；在对所有对话进行向量表示后，即得到所有对话的向量矩阵，把向量矩阵作为分类器的输入，每个对话的类别构成的类别矩阵作为输出，对模型进行训练，训练后的模型进行多轮对话的分类。

相对于现有技术，本发明的有益效果如下：

1、本发明所提出的方法考虑了多轮对话存在话题重点的特征，并将现有文档分类的方法进行改进。本发明通过结合人工标注的关键句来学习和计算对话中每个对话语句在整个对话中的权重，通过权重的大小来区分对话语句的重要性，并以语句的权重和句向量以基础构建对话向量,以此达到了减少对话主题，减少噪声和突出对话主题，提高了对话分类的效果。

2、本发明所提出的方法帮助客服领域把客服与客户的对话工单进行自动归类，减轻了客服的工作负担，提高了客服的工作效率，同时也降低了企业的运营成本。

附图说明

图1表示特征词提取和句向量生成过程；

图2表示构建关键词字典的过程；

图3表示计算句权重的过程以及生成对话向量的示意图。

具体实施方法

下面结合附图，进一步说明本发明。

一种多轮对话的分类方法，该方法包括如下步骤：

步骤1、用卡方检验选择特征词；

步骤2、使用TF-IDF计算特征词权重；

步骤3、基于关键句计算句权重；

下面对每个步骤做详细描述。

1、用卡方检验选择特征词

对一通对话中的所有语句使用分词工具进行分词，例如jieba分词工具，清华大学THULAC分词等，将对话语句的分词结果暂时保存为词语数组，然后对所有对话进行同样的分词操作，并将结果添加到之前保存的词语数组中，记为token。在得到所有对话的词语数组后，对数组进行去重操作，使得数组中所有词语都是唯一的，将去重后得到的数组记为BOW。对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语。

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。卡方值计算公式为：

k表示观测的次数，x_i表示第i次观测的观测值，m_i表示第i次观测的期望值。

在计算每个词语的卡方值后，我们根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率。这里我们设置一个临界参数t，当词语的p值小于等于t时，我们认为该词语与对话文本分类相关，可以作为特征词语。一般的，临界参数t的取值为0.05。这里得到的所有特征词存为一个数组，记作FW。

2、使用TF-IDF计算特征词权重

TF-IDF是一种统计学上的方法，它用来评估一个字或者词对于一个语料库中的其中一份语料的重要程度。字或者词的重要性随着它在一份文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频(TF)指的是一个给定的词语在该文件中出现的次数，为了防止偏向长文件，对词数做归一化，

分子表示第i个词的词频，分母表示所有词的词频的和。词的逆文件频率(IDF)指总文件数目除以包含该词的文件的数目，再将结果取对数，

D表示语料的文件总数，d_w表示包含词w的文件总数,由此可得TF-IDF＝TF*IDF。将第一步得到的特征词集FW，用来表示对话的每句话，并根据每个特征词的TF-IDF值作为词权重，值越大，表示该词对确定对话文本所属的类越重要。所谓特征词表示对话的每句话，就是对于对话中的一句话，凡是特征词出现了，则该词的权重为TF-IDF值，否则就为0。这里每句话用一个n维行向量来表示，行向量的每一维用一个特征词的TF-IDF来表示，n为特征词数量，句子的行向量记为sentence vector。

3、基于关键句计算句权重

对步骤1得到的所有对话的分词结果token计算其每个词的TF-IDF值，记为tokentfidf。对每个对话进行如下操作：提取人工打标的关键句及其索引，根据索引从token中获得该对话的每个关键句的分词结果并做去重操作，结果记为key token。利用之前得到的token tfidf，计算key token中每个词的TF-IDF值，记为key token tfidf。根据key tokentfidf中的值，对key token中的每个词进行快速排序，结果按从大到小排列，并取排在前1/2的词作为该对话的关键句的关键词，并将结果添加保存到关键词数组。在完成对所有对话的关键句提取关键词后，得到的关键词数组中存在重复出现的关键词，需对关键词数组进行去重操作，并将去重后得到的关键词数组记为key word dictionary，保存到文件，以便之后使用。

接下来根据key word dictionary来计算每个句子的权重。对一个对话文本，先对对话中的每个句子进行分词操作，将分词结果按句保存到数组中，记作sentence token。对数组sentence token和关键词数组key word dictionary求交集，即sentence token中的词在key word dictionary中出现，交集中的所有词作为该对话的关键词，记为dialog keyword。对该对话中的每个句子进行如下操作：从sentence token中获得一句话的分词结果，记作sub sentence token，对sub sentence token和dialog key word求交集，得到该句子的所有关键词，记作sub key word。定义句子权重公式

weight表示句子权重，sub表示句子的关键词数sub key word，dlg表示对话的关键词数dialog key word，st表示组成句子的所有不重复的词的数量。为了保持不同对话之间，权重度量的统一，以对话为一个整体，对话内每个句子的权重进行归一化。归一化公式

4、对话的向量表示和模型训练

利用步骤2和步骤3分别得到的句向量sentence vector和相应的句权重weight来计算表示整个对话的向量。一个对话的向量，用公式

来计算,dialog为所求的对话向量，k表示一个对话中句子的数量，sc_i表示第i个句子的句向量，w_i表示第i个句子的权重。在对所有对话进行向量表示后，即得到所有对话的向量矩阵，把向量矩阵作为分类器的输入，每个对话的类别构成的类别矩阵作为输出，对模型进行训练。

实施例：

假设有389个对话，共5个类别。我们取其中一个对话进行说明，文字内容为下表中的转写结果一列。

转写结果即为语音转文字的结果。转写结果中，每一行视为一句话，因此，该对话由15句话组成。上表中关键句一列，即为客服对对话内容进行打标的结果，这里数字1表示客服标识的关键句，空白表示不关键。权重一列的每一行都对应一句话的权值。最大为1，最小为0。

针对所有对话，我们根据图1的过程，提取特征词并生成句向量。分词工具，我们采用了jieba分词。在对分词结果做去重操作后，我们得到的词共有6739个，显然这个词库太庞大。因此，我们使用卡方检验对这些词进行选择。我们假设词库的每个词与类别不相关，设置临界参数t＝0.03，对所有词计算p值，如果p值小于等于t，我们就认为假设不成立，该词与类别相关，并把词保留下来，作为特征词。对所有词进行选择后，共保留了1088个词。用特征词形成的n维向量来表示句子，向量的每一维代表一个特征词，如果特征词在句子中出现，则把向量中该维度的值用对应词的TF-IDF值表示，这里得到的n维向量就是句向量。

图2表示构建关键词字典的过程。比如上表中的对话示例，共有四句话被标注为关键句。我们对这四句话的所有词都计算TF-IDF值，并根据TF-IDF值进行降序排列。取排在前1/2的词作为此对话的关键词。对所有对话做关键词提取，便得到整个语料的关键词字典。

图3表示计算句权重的过程以及生成对话向量的示意图。关键词字典和对话文本求交集，得到对话关键词，将对话关键词和该对话的句子求交集，得到语句关键词，并根据图中所示的运算，计算句权重。将句向量与对应的句权重相乘，最后加权相加，即得对话向量。之后，对话向量作为分类器的输入，对话对应的类别作为输出，进行模型的训练或者类别预测。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多轮对话的分类方法，其特征在于，该方法包括如下步骤：

步骤1、用卡方检验选择特征词；

步骤2、使用TF-IDF计算特征词权重；

步骤3、基于关键句计算句权重；

步骤4、对话向量的表示和模型训练，训练后的模型进行多轮对话的分类；

其中所述TF-IDF计算如下：

TF-IDF＝TF*IDF

其中，w_i表示第i个词的词频，k表示词的数量，∑_kw_i表示所有词的词频的和，D表示语料的文件总数，d_w表示包含词w的文件总数；

所述步骤3具体如下：

weight表示句子权重，sub表示句子的关键词数sub key word，dlg表示对话的关键词数dialog key word，st表示组成句子的所有不重复的词的数量；

为了保持不同对话之间，权重度量的统一，以对话为一个整体，对话内每个句子的权重进行归一化，归一化公式

这里x为一个句子的weight值，X是由该对话所有句子的weight值组成的集合；

所述步骤4具体如下：

利用步骤2和步骤3分别得到的句向量sentence vector和相应的句权重weight来计算表示整个对话的向量；一个对话的向量，用公式

2.根据权利要求1所述的一种多轮对话的分类方法，其特征在于，所述步骤1具体如下：

对一通对话中的所有语句使用分词工具进行分词，将所有对话语句的分词结果保存到词语数组，称为token；在得到所有对话的词语数组后，对数组进行去重操作，使得数组中所有词语都是唯一的，将去重后得到的数组记为BOW，对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语；在计算每个词语的卡方值后，根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率；设置一个临界参数t，当词语的p值小于等于t时，认为该词语与对话文本分类相关，作为特征词，所有特征词存为一个数组，记作特征词集FW。

3.根据权利要求2所述的一种多轮对话的分类方法，其特征在于，所述分词工具采用jieba分词工具或清华大学THULAC分词。

4.根据权利要求2所述的一种多轮对话的分类方法，其特征在于，所述临界参数t的取值为0.05。

5.根据权利要求2-4任一项所述的一种多轮对话的分类方法，其特征在于，所述步骤2具体如下：

将步骤1得到的特征词集FW用来表示对话的每句话，每句话用一个n维行向量sentencevector来表示，行向量的每一维用一个特征词的TF-IDF来表示，n为特征词数量，将每个特征词的TF-IDF值作为词权重，值越大，表示该词对确定对话文本所属的类越重要。