CN110472041A

CN110472041A - 一种面向客服在线质检的文本分类方法

Info

Publication number: CN110472041A
Application number: CN201910583894.4A
Authority: CN
Inventors: 曹斌; 莫志强; 范菁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-11-19
Anticipated expiration: 2039-07-01
Also published as: CN110472041B

Abstract

一种面向客服在线质检的文本分类方法，包括以下步骤：步骤1.语音转文本；步骤2.数据标注；步骤3.数据预处理；步骤4.选择特征编码方式(包括one‑hot(word2vec)+位置编码、n‑gram)；步骤5.分类模型选择(starspace、CNN)。本发明处理的问题是针对当下采用分类方法进行在线客服质检时如何考虑实体顺序关系，希望能够在有限的数据量情况下，充分考虑顺序关系，从而改善效果。本发明的优点是：引入词序特征，不增加数据量需求，简单易实现。

Description

一种面向客服在线质检的文本分类方法

技术领域

本发明属于自然语言处理领域，提出了有效识别实体顺序的客服在线质检分类技术，通过对现有的部分特征构建方式与分类模型的分析，总结其各自值得借鉴的优点，并且结合企业实际语料的特点，构建出简单而有效，能够在小样本量情况下适用的考虑实体顺序的分类方法。

技术背景

如今大多数企业为了提供更好的服务给客户，都会提供电话咨询。在这个客服与客户在线交流的过程中，判断客服是否按公司要求提供服务称为在线质检。目前常用做法是针对特定服务场景将客服与客户的对话内容转成文本，再对客服所说话语进行文本分析，判断客服的服务内容是否满足事先规定的业务规程，进而判断客服是否合格。在文本分析过程中会涉及大量业务场景，需要不同的技术予以解决，其中一些场景需要对实体顺序关系进行考虑。例如在电信行业，客服在同一句话中推送了A和B，但是公司要求先推送A再推送B，则此时分类模型还需要能够识别这样的顺序关系。在绝大多数情况下，这样的推送顺序关系体现在词序上。目前分类中考虑词序主要从两个角度：

第一个角度是特征表示，将文本表示成合适的特征向量放入分类模型中训练，常见的特征表示有：one-hot、n-gram、word2vec等，其中one-hot使用简便，较为常用，在one-hot方法下构建得到的特征向量每一维对应一个词(或者字符)，向量维度对应语料中的总词(字符)数，因此其得到的特征向量往往十分稀疏，而且词与词之间没有关联，相互不影响，导致one-hot构建的特征也没有考虑词序。n-gram特征构建与one-hot类似，n-gram方法得到的特征向量每一维对应n 个词(或者字符)。当n＝1时one-hot等同于n-gram。N取值2或3较为常用。 N-gram特征构建因为考虑的是连续的词组，所以包含词与词之间顺序关系，但是其能够考虑的顺序关系距离受n限制，当两个词之间的距离超过n则两者之间顺序关系考虑不到。word2vec作为一种词向量模型往往可以得到很好的词向量表示，但是在很多时候公司无法提供以供模型训练的大量语料，若强行使用word2vec，效果相较one-hot没有多大提升，甚至不如。

第二个角度是分类模型。考虑到词序的文本分类也是一个序列问题，一旦涉及序列问题很容易想到使用循环神经网络(RNN)。在RNN中，独特的隐藏层处理方式使得它在处理序列问题具有天然的优势，但是RNN训练无法并行，因此训练速度也受到限制。卷积神经网络(CNN)也是文本分类常用的模型，相较RNN而言CNN模型的训练过程可以并行，训练速度快。CNN在卷积的过程中考虑了词序。但是单层卷积的CNN捕获特征的距离十分有限,而多层卷积对数据量的要求会提高。

发明内容

为了克服现有服务行业客服在线质检的分类模型和特征提取的特点以及不足之处，本发明提供一种面向客服在线质检的文本分类方法，引入词序特征，不增加数据量需求，简单易实现，该方法基于客服人员与客户之间的语音通话数据，在语音转文本之后，针对客服所说的内容文本，结合数据预处理、人工特征构建与分类模型调整，最后判断客服是否质检合格。

为了解决上述技术问题本发明提供如下的技术方案：

一种面向客服在线质检的文本分类方法包括以下步骤：

步骤1.数据准备及预处理，过程如下：

1.1语音转文本

需要分类的数据来自在线客服与客户的交流，将语音数据转译成文本数据。

1.2数据标注

1.3数据预处理

采用基于tf-idf特征的无用词过滤，步骤如下：

S1)计算tf，统计每条文本中出现的词以及对应的词频；

S2)计算idf，统计所有语料中出现的词，对于每一个词，计算其出现过的文本数；

S3)对于每条文本，计算改文本中出现词的tf-idf＝tf*idf；

S4)对于每条文本，去除掉tf-idf低于阈值k的词，k作为超参数其值的选取可根据具体任务调节；

步骤2.特征表示，过程如下：

2.1one-hot(word2vec)+位置编码

得到词对应的one-hot特征向量w_i之后，将w_i加上对应位置的位置编码向量p_i得到新的词向量w′_i，位置编码向量的计算采用正余弦位置编码公式计算：

PE(pos,2i)＝sin(pos/10000^2i/d)

PE(pos,2i+1)＝cos(pos/10000^2i/d)

为了使得位置编码向量与one-hot编码的词向量相加，两者的维度必须相同，并且不能直接将w′_i相加得到对应的文本向量，若这样做，位置编码将没有效果；本方案使用嵌入的方式得到对应的句向量，只需要在对应的分类模型中的输入层加上一层嵌入层即可。

若应用场景下的数据量足够多，使用word2vec训练得到词向量来取代简单的one-hot表示；

2.2n-gram

采用累加的方式得到对应的文本向量，不需要训练额外的嵌入层，能够考虑的顺序关系距离受n限制，而且n的取值越大会使得到的特征向量越稀疏；

步骤3.分类模型，结合选用的特征表示方法构建不同的分类模型，过程如下：

3.1one-hot(word2vec)+位置编码+starspace；

S1)输入层：输入层有两个通道，分别对应文本实体的嵌入和类别实体的嵌入，结合特征表示阶段构建的结合了位置编码的词向量，在经过一层嵌入层之后，得到对应文本的特征向量作为文本实体通道的输入，将所有的类别实体用 one-hot表示，每一维对应一个类别，从而得到相应的实体向量表示作为实体嵌入通道的输入；

S2)隐藏层：两层简单的神经网络层，参数根据具体应用调节；

S3)输出层：输出文本实体的嵌入向量和类别实体的嵌入向量；

3.2n-gram+CNN；

步骤如下：

S1)构建n-gram特征向量，向量的每一维对应一个n元词组；

S2)对每一条文本，即n元词组序列，其文本的特征矩阵作为CNN模型的输入，每一个n元词组对应一个向量；

S3)设置响应的卷积核大小和数量，每个卷积核在文本特征矩阵上单方向移动，每次移动都通过矩阵计算得到对应位置的特征，直至提取完整条文本的特征，最后得到对应的特征向量；

S4)抛弃池化过程，因为在池化过程中会丢失一些位置信息。直接经过 softmax层输出分类结果；

本发明拟解决的问题是针对当下采用分类方法进行在线客服质检时如何考虑实体顺序关系，希望能够在有限的数据量情况下，充分考虑实体顺序，从而改善效果。

本发明的有益效果是：引入词序特征，不增加数据量需求，简单易实现。

附图说明

图1是本发明方案的总流程图。

图2是starspace模型架构图。

图3是CNN卷积过程示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，一种面向客服在线质检的文本分类方法，包括以下步骤：

步骤1.数据准备及预处理

该步骤的目的是为了了解实际应用场景中的数据并进行相应的数据标注，了解数据特点会对之后的数据特征表示和分类模型的选择上有所帮助。该阶段主要包涵下列步骤：

1.1语音转文本

需要分类的数据来自在线客服与客户的交流，主要是语音数据，因此第一步需要将语音数据转译成文本数据。

1.2数据标注

实际场景下，客户与客服在一次咨询中的交流内容很多而实际需要标注的话语往往只有几句，但为了标注这几句话，标注人员不得不看完一整段对话，这大大影响了标注的速度和质量，因此在有限的人力下标注出来的数据量不多。

1.3数据预处理

在服务行业下客户与客服的交流过程中，很多口语表述的习惯以及口音导致语音到文本的转译会出现很多错误，这就导致了实际产生的文本会有很多噪音，此时适当的文本预处理就十分重要。

本方法采用基于tf-idf特征的无用词过滤，步骤如下：

S1)计算tf，统计每条文本中出现的词以及对应的词频。

S2)计算idf，统计所有语料中出现的词，对于每一个词，计算其出现过的文本数。

S3)对于每条文本，计算改文本中出现词的tf-idf＝tf*idf。

S4)对于每条文本，去除掉tf-idf低于阈值k的词，k作为超参数其值的选取可根据具体任务调节。

步骤2.特征表示；

是本方案采用两种可选择的特征表示方案。

2.1one-hot(word2vec)+位置编码

由于onehot特征的构建十分简便，在实际中十分容易操作，所以本方法也决定采用。与传统使用方案不同，得到词对应的one-hot特征向量w_i之后，不在进行相加得到对应文本的特征向量t_i，传统方法将w_i累加之后得到的文本特征向量t_i没有考虑词序特征。本方案中将w_i加上对应位置的位置编码向量 p_i得到新的词向量w_i^'。位置编码向量的计算采用正余弦位置编码公式计算：

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝cos(pos/10000^2i/d)

需要注意的是，为了使得位置编码向量与one-hot编码的词向量相加，两者的维度必须相同。并且不能直接将w_i^'相加得到对应的文本向量，若这样做，位置编码将没有效果。本方案使用嵌入的方式得到对应的句向量，只需要在对应的分类模型中的输入层加上一层嵌入层即可。

若应用场景下的数据量足够多，可以考虑使用word2vec训练得到词向量来取代简单的one-hot表示。其他步骤相同。

2.2n-gram

相较第一种方式更加简便，对数据量的需求弱于第一种方式，因为第一种方式中需要使用嵌入的方式由词向量得到对应的文本特征向量，即需要训练的参数增加了(多了嵌入层)，相应的对数据量的要求也增多了，而n-gram的方法可以采用累加的方式得到对应的文本向量，不需要训练额外的嵌入层。但是其能够考虑的顺序关系距离受n限制，而且n的取值越大会使得到的特征向量越稀疏，不利于分类模型的训练，通常n取2或者3。

步骤3.分类模型；

结合选用的特征表示方法构建不同的分类模型。

3.1one-hot(word2vec)+位置编码+starspace；

StarSpace是一种简单的神经网络嵌入模型，对数据量的需求不大。可以应用在文本分类中。主要思想是将文本与对应的标签都看作实体，文本实体及其对应的标签实体为正相关，与其他标签(不包含正相关标签实体)实体为负相关，将所有实体放入同一个神经网络中训练得到对应的嵌入向量。最后得到的正相关实体向量之间的相似度高，而负相关实体向量之间的相似度低。

S1)输入层：输入层有两个通道，分别对应文本实体的嵌入和类别实体的嵌入。结合特征表示阶段构建的结合了位置编码的词向量，在经过一层嵌入层之后，得到对应文本的特征向量作为文本实体通道的输入。将所有的类别实体用 one-hot表示，每一维对应一个类别，从而得到相应的实体向量表示作为实体嵌入通道的输入。

S2)隐藏层：两层简单的神经网络层，参数根据具体应用调节。

S3)输出层：输出文本实体的嵌入向量和类别实体的嵌入向量。。

3.2n-gram+CNN；

CNN模型在文本分类中使用时，其卷积核就相当于特征抽取器，例如一个 KxN(N表示词向量维度，K表示词数)的卷积核会抽取相应的K-gram特征，所以想要考虑词序是可以使用CNN模型的。但是单层卷积(即一个卷积层)的CNN 捕获特征的距离十分有限。上述大小的卷积核只能考虑到距离为K的词之间的关系，为了让CNN能够捕捉距离更远的词之间的关系可以采用多层卷积的方式，但是这样的做法对数据量的要求也提高了。

为了让能够不增加数据量需求，同时使用CNN模型能够捕获更远距离特征，本方案提出使用n-gram+CNN的方式。n-gram特征可以人为构建，不需要经过训练。步骤如下：

S1)构建n-gram特征向量，向量的每一维对应一个n元词组。

S2)对每一条文本(n元词组序列)，其文本的特征矩阵(每一个n元词组对应一个向量)作为CNN模型的输入。

S3)设置响应的卷积核大小和数量，每个卷积核在文本特征矩阵上单方向移动，每次移动都通过矩阵计算得到对应位置的特征，直至提取完整条文本的特征，最后得到对应的特征向量。

S4)抛弃池化过程，因为在池化过程中会丢失一些位置信息。直接经过 softmax层输出分类结果。

本实施例中，假设某一条已经标注了的对话文本：“这种是100块的包月套餐，那您是要这种包年的套餐吗？”分词之后的结果为“这种是包月套餐您是要这种包年的套餐吗”；

特征表示阶段

采用one-hot+位置编码的方式过程如下：

表1为计算one-hot编码向量

这种	是	包月	套餐	您	要	包年	的	吗
										2	2	1	2	1	1	1	1	1

表1

表2为计算位置编码向量；

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝cos(pos/10000^2i/d)

i＝1

i＝2

i＝3

i＝4

i＝5

i＝6

i＝7

i＝8

i＝9

pos＝1

PE(1，1)

PE(1，2)

PE(1，3)

PE(1，4)

PE(1，5)

PE(1，6)

PE(1，7)

PE(1，8)

PE(1，9)

表2

n-gram特征编码的方式如下：

CNN模型的输入为17x17的矩阵。

Claims

1.一种面向客服在线质检的文本分类方法，其特征在于，所述方法包括下列步骤

步骤1.数据准备及预处理，过程如下：

1.1语音转文本

需要分类的数据来自在线客服与客户的交流，将语音数据转译成文本数据；

1.2数据标注

1.3数据预处理

步骤2.特征表示，采用两种可选择的特征表示方案，如下：

2.1 one-hot(word2vec)+位置编码

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝cos(pos/10000^2i/d)

为了使得位置编码向量与one-hot编码的词向量相加，两者的维度必须相同，并且不能直接将w′_i相加得到对应的文本向量，使用嵌入的方式得到对应的句向量，只需要在对应的分类模型中的输入层加上一层嵌入层即可；

2.2 n-gram

采用累加的方式得到对应的文本向量，不需要训练额外的嵌入层，但是其能够考虑的顺序关系距离受n限制，而且n的取值越大会使得到的特征向量越稀疏；

3.1 one-hot(word2vec)+位置编码+starspace；

S1)输入层：输入层有两个通道，分别对应文本实体的嵌入和类别实体的嵌入，结合特征表示阶段构建的结合了位置编码的词向量，在经过一层嵌入层之后，得到对应文本的特征向量作为文本实体通道的输入，将所有的类别实体用one-hot表示，每一维对应一个类别，从而得到相应的实体向量表示作为实体嵌入通道的输入；

3.2 n-gram+CNN，构建步骤如下：

S1)构建n-gram特征向量，向量的每一维对应一个n元词组，

S4)抛弃池化过程，因为在池化过程中会丢失一些位置信息，直接经过softmax层输出分类结果。

2.如权利要求1所述的一种面向客服在线质检的文本分类方法，其特征在于，所述1.3中，数据预处理的步骤如下：

S1)计算tf，统计每条文本中出现的词以及对应的词频；

S3)对于每条文本，计算改文本中出现词的tf-idf＝tf*idf；