CN111104513B

CN111104513B - 一种游戏平台用户问答业务的短文本分类方法

Info

Publication number: CN111104513B
Application number: CN201911282726.8A
Authority: CN
Inventors: 陶涛; 刘冶; 桂进军; 陈宇恒; 潘炎; 印鉴
Original assignee: Guangzhou Heyan Big Data Technology Co ltd; Sun Yat Sen University
Current assignee: Guangzhou Heyan Big Data Technology Co ltd; Sun Yat Sen University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-05-02
Anticipated expiration: 2039-12-13
Also published as: CN111104513A

Abstract

本发明涉及一种游戏平台用户问答业务的短文本分类方法，对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取，拼接两个输出结果，通过算法得到该输入文本属于各类别的概率，并选择概率最大的一个类别作为最后输出；本申请能够充分挖掘出中文短文本所包含的语义信息，有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据，在短文本分类任务识别效果更好，效率也有很大的提升。

Description

一种游戏平台用户问答业务的短文本分类方法

技术领域

本发明涉及智能客服领域，特别是涉及一种游戏平台用户问答业务的短文本分类方法。

背景技术

在智能客服领域中大量涉及自然语言理解的应用，会对用户提出的问题进行分类，根据问题的分类结果向客户提供相应的信息。目前，自然语言理解常用的模型是基于循环神经网络(Recurrent Neural Network，RNN)的各种变体网络。RNN的特点是可以处理时序数据，其神经元更新依赖上一次的输入以捕捉时序数据，而文本也可以看作一种时序数据，因为文本中的一个词语的出现会受前面词语的影响，因此RNN常用于自然语言理解问题。对于长文本类型的数据，改进的RNN模型如长短期记忆网络(Long Short-Term Memory，LSTM)和注意力机制(Attention Mechanism)都有不错的效果，可以在较长的文本距离上能捕捉到上下文联系。

不过在游戏平台用户问答业务场景之下，用户或玩家在提问过程中的表达更接近短文本类型的数据，极其容易出现语法的不完整而导致上下文内容缺失，现有技术常常难以应对。

发明内容

本发明的目的在于现有技术的局限，提供一种游戏平台用户问答业务的短文本分类方法，由以下技术方案实现：

获取用户的输入文本，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语；

运用基于分词的词向量模型获得所述分词词语的词向量，对所述分词词语的词向量进行拼接得到第一词向量矩阵，运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取；其中，所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本；

运用基于分字的词向量模型获得所述分字词语的词向量，对所述分字词语的词向量进行拼接得到第二词向量矩阵，运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取；其中，所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本；

对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。

相较于现有技术，本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取，拼接两个输出结果，通过算法得到该输入文本属于各类别的概率，并选择概率最大的一个类别作为最后输出；本申请能够充分挖掘出中文短文本所包含的语义信息，有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据，在短文本分类任务识别效果更好，同时在效率上也有很大的提升。

进一步的，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语，可包括以下步骤：

对所述输入文本进行文本清洗及格式规范化；

运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语；其中，所述分词工具的词库预设有所述语料文本的游戏类用词；

对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。

由于用户的输入文本噪声数据较多，存在拼写错误或不完整的问题，因而可通过文本清洗去掉不包含语义信息的词语，并对文本的表达和格式进行纠正和规范化；同时，由于用户的输入文本中夹杂着游戏中一些专有的、非正式的用词用语，运用分词工具并在其词库预设所述语料文本的游戏类用词，能更加准确地对输入文本进行分词。

在一种可选的实施例中，所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型；所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵，M为所述分词词语或分字词语的个数，N为词向量维度。

相比CBOW采用输入为上下文，输出为当前词语的方式，Skip-gram采用输入为当前词语，输出为上下文的方式；针对游戏平台用户问答业务的内容，由于本申请涉及的语料库存在较多的低频词语，Skip-gram因上述特点能比CBOW更好处理含低频词较多的语料库；而在Skip-gram中加入负采样还能减少出现频率较多的词语的影响；相比现有技术中通过加权平均把多个句子中的词向量压缩成一个相同维度句子向量，本申请将输入文本所包含的所有词向量拼接为M×N的矩阵，M为所述分词词语或分字词语的个数，N为词向量维度，能有效避免语义信息的丢失。

在一种可选的实施例中，所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核；其中，卷积核高度h可变，1≤h≤m，m为词向量矩阵高度，n为词向量维度。

与现有卷积神经网络中的卷积层不同的是，本申请使用的卷积层中的卷积核高度是可变的，其高度h会由1变化增加到m，每个卷积核高度的卷积计算结果对应输出矩阵的一行向量，因此输出矩阵可以捕捉到每一个词语的所有N-gram集合的语义。

进一步的，根据每一个卷积核kernel，输入词向量矩阵W，卷积层一行输出y_i，按以下方式运算得到点积的值y_ij：

y_ij＝f(kernel·[v_j,v_j+h-1]+b)；

其中，b是偏置项，v是词向量，[v_j,v_j+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵，由词向量矩阵W中j行到j+h-1行的词向量v构成，1≤j≤m；卷积核kernel从上至下与尺寸为h×n的子矩阵做点积，拼接所有点积的值y_ij得到一行的输出y_i。

进一步的，所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下：

该激活函数的特点是在x>0时其导数恒为1，在x≤0时其导数恒为0，因此在更新卷积核权重时可以避免出现梯度消失或梯度弥散问题。

进一步的，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别，包括按以下方式运算得到各个分类类别的结果p_i：

其中，i为一个分类类别，p_i为分类类别i的概率，z为全连接层的输出向量，其下标为向量对应位置的数值，k为所有分类类别的总数，各个分类类别的概率p_i相加和为1。

一种游戏平台用户问答业务的短文本分类系统，包括：

输入文本处理模块，用于获取用户的输入文本，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语；

分词语义提取模块，用于运用基于分词的词向量模型获得所述分词词语的词向量，对所述分词词语的词向量进行拼接得到第一词向量矩阵，运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取；其中，所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本；

分字语义提取模块，用于运用基于分字的词向量模型获得所述分字词语的词向量，对所述分字词语的词向量进行拼接得到第二词向量矩阵，运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取；其中，所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本；

概率最大的分类类别获取模块，用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。

本发明还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。

本发明还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例游戏平台用户问答业务的短文本分类方法的流程图；

图2为本发明实施例步骤S01的流程图；

图3为Word2Vec模型结构示意图；

图4为本发明实施例卷积神经网络卷积计算与词向量矩阵对应关系图；

图5为本发明实施例的游戏平台用户问答业务的短文本分类系统示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本实施例提供一种游戏平台用户问答业务的短文本分类方法，请参阅图1，由以下技术方案实现：

S01，获取用户的输入文本，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语；

S02，运用基于分词的词向量模型获得所述分词词语的词向量，对所述分词词语的词向量进行拼接得到第一词向量矩阵，运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取；其中，所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本；

S03，运用基于分字的词向量模型获得所述分字词语的词向量，对所述分字词语的词向量进行拼接得到第二词向量矩阵，运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取；其中，所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本；

S04，对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。

相较于现有技术，本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取，拼接两个输出结果，通过算法得到该输入文本属于各类别的概率，并选择概率最大的一个类别作为最后输出；本申请能够充分挖掘出中文短文本所包含的语义信息，有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据，在短文本分类任务识别效果更好，效率也有很大的提升。

具体的，所述分字处理即将文本中每个中文单字视作一个词语进行划分，可结合以下例子进行理解：

原句：我爱自然语言理解。

分词：我，爱，自然，语言，理解。

分字：我，爱，自，然，语，言，理，解。

具体的，词向量模型及卷积神经网络模型均须对语料库中的语料文本进行训练学习；其中，卷积神经网络模型包括卷积层、激活函数、池化层及全连接层，原理在于，卷积层通过变动卷积核的高度计算卷积值并输出到池化层；激活函数能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题；池化层可使用Max PoolingOver Time方法，以滑动窗口中的最大值作为输出，抽取卷积层输出的重要特征，然后输出到全连接层，在本实施例中，池化层输出的是1维的1×N向量，用作全连接层的输入；全连接层连接所有的特征后输出。

在本实施例中，所述基于分字的卷积神经网络模型相比于基于分词的卷积神经网络模型，因各自的训练样本不同，故两者卷积核权重也不同；另外，由于分字会导致整体语义联系的缺失，可对所述基于分字的卷积神经网络模型设置相比于基于分词的卷积神经网络模型更多的卷积层和池化层以捕捉到所述第二词向量矩阵更高维的语义联系。

作为一种可选的实施例，还可在所述基于分词的卷积神经网络模型和/或基于分字卷积神经网络模型中加入批量归一化层以规范卷积神经网络模型输入输出数据的分布。

作为一种可选的实施例，对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，拼接方法可选用add或concate方法，归一化算法可选用Softmax方法。

进一步的，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语，请参阅图2，可包括以下步骤：

S012，对所述输入文本进行文本清洗及格式规范化；

S013，运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语；其中，所述分词工具的词库预设有所述语料文本的游戏类用词；

S014，对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。

具体的，文本清洗包括去除标点符号、表情符号和停用词以及如“的”、“啊”、“哦”等等不包含语义信息的词语；格式规范化包括纠正错词，补全简称词，繁体转化为简体；由于输入文本完全由用户决定，所以没有一个固定规范的格式，用户的输入可能会包含错误的拼写和简称，或者使用繁体输入，因此可对此进行纠正和规范。

在一种可选的实施例中，所述分词工具为Jieba，其为一种Python中文分词组件。

Word2Vec模型结构请参阅图3，具体在于把使用独热编码表示的词向量降维，变成较低维度的词向量，其网络只有一层隐藏层，该层神经元即是Word2Vec词向量表达；该神经网络的实际输出结果是隐藏层神经元的权重，输入和输出均为独热编码的词向量，神经元不使用非线性激活函数，构成类似Auto Encoder结构。用户输入的问题文本中的词语经过Word2Vec模型后，会从文本类型的数据转换为一组向量，原来问题中的每个词语都会变成一个词向量，即对于一个词语w_i，经过Word2Vec模型后输出为[v_i1,v_i2,...,v_in]，其中n为设定的词向量维度，也是Word2Vec模型中间隐藏神经元的个数。

具体的，以一个句子作为例子，Skip-gram需要先定义一个窗口尺寸k，对于处于位置i的词语w_i，其上下文最大距离即为k，因此上下文词语包含：w_i,...,w_i-1,w_i+1,...,w_i+k。训练时，如果中心词为w_i，对于所有邻近中心词的上下文词语w_j，其中j满足i-k≤j≤i+k且j≠i，构造输入输出对(w_i,w_j)作为神经网络模型的输入输出，重复一定次数，得到中间隐藏层神经元权重向量作为中心词w_i的词向量进行输出。

与现有卷积神经网络中的卷积层不同的是，本申请使用的卷积层中的卷积核高度是可变的，其高度h会由1变化增加到m，请参阅图4，每个卷积核高度的卷积计算结果对应输出矩阵的一行向量，因此输出矩阵可以捕捉到每一个词语的所有N-gram集合的语义。

y_ij＝f(kernel·[v_j,v_j+h-1]+b)；

一种游戏平台用户问答业务的短文本分类系统，请参阅图5，包括：

输入文本处理模块1，用于获取用户的输入文本，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语；

分词语义提取模块2，用于运用基于分词的词向量模型获得所述分词词语的词向量，对所述分词词语的词向量进行拼接得到第一词向量矩阵，运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取；其中，所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本；

分字语义提取模块3，用于运用基于分字的词向量模型获得所述分字词语的词向量，对所述分字词语的词向量进行拼接得到第二词向量矩阵，运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取；其中，所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本；

概率最大的分类类别获取模块4，用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。

本实施例还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。

本实施例还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。

本实施例所提供的实施方式，在根据具体的应用业务进行适应性调整之后，同样可适用于其他短文本分类任务场景。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种游戏平台用户问答业务的短文本分类方法，其特征在于，包括以下步骤：

对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别；

所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核；其中，卷积核高度h可变，1≤h≤m，m为词向量矩阵高度，n为词向量维度；

根据每一个卷积核kernel，输入词向量矩阵W，卷积层一行输出y_i，按以下方式运算得到点积的值y_ij：

y_ij＝f(kernel·[v_j,v_j+h-1]+b)；

其中，b是偏置项，v是词向量，[v_j,v_j+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵，由词向量矩阵W中j行到j+h-1行的词向量v构成，1≤j≤m；卷积核kernel从上至下与尺寸为h×n的子矩阵做点积，拼接所有点积的值y_ij得到一行的输出y_i；

所述对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别，包括按以下方式运算得到各个分类类别的结果p_i：

2.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法，其特征在于，对所述输入文本分别进行分词和分字处理，得到分词词语和分字词语，包括以下步骤：

对所述输入文本进行文本清洗及格式规范化；

3.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法，其特征在于，所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型；所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵，M为所述分词词语或分字词语的个数，N为词向量维度。

4.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法，其特征在于，所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下：

5.一种游戏平台用户问答业务的短文本分类系统，其特征在于，包括：

分字语义提取模块，用于运用基于分字的词向量模型获得所述分字词语的词向量，对所述分字词语的词向量进行拼接得到第二词向量矩阵，运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取；其中，所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本；所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核；其中，卷积核高度h可变，1≤h≤m，m为词向量矩阵高度，n为词向量维度；根据每一个卷积核kernel，输入词向量矩阵W，卷积层一行输出y_i，按以下方式运算得到点积的值y_ij：

y_ij＝f(kernel·[v_j,v_j+h-1]+b)；

概率最大的分类类别获取模块，用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接，对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别；所述对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别，包括按以下方式运算得到各个分类类别的结果p_i：

6.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的游戏平台用户问答业务的短文本分类方法的步骤。

7.一种计算机，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的游戏平台用户问答业务的短文本分类方法的步骤。