CN111353032B

CN111353032B - 面向社区问答的问题分类方法及系统

Info

Publication number: CN111353032B
Application number: CN202010122754.XA
Authority: CN
Inventors: 陈羽中; 张衍坤
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2022-06-14
Anticipated expiration: 2040-02-27
Also published as: CN111353032A

Abstract

本发明涉及一种面向社区问答的问题分类方法及系统，该方法包括以下步骤：步骤A：采集网络问答社区中用户所提问题以及对应的问题类别，构建问题分类训练集TS；步骤B：对问题分类训练集TS中的问题进行字符级编码和词语级编码，得到问题的表征向量，以此训练基于双通道神经网络的深度学习网络模型；步骤C：问题分类系统接受用户提交的问题，将问题输入到训练好的深度学习网络模型中，输出模型划分的问题所述类别。该方法及系统有利于提高社区问答中问题分类的准确性。

Description

面向社区问答的问题分类方法及系统

技术领域

本发明属于自然语言处理与智能问答应用领域，具体涉及一种面向社区问答的问题分类方法及系统。

背景技术

问答(Question Answering，QA)系统起源于图灵测试，随着时间的发展，问答系统领域也发生了重大变革。按照处理的数据格式不同，问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题.答案数据阶段。随着互联网的普及，网上出现了大量的文本和各种大型论坛，这为智能问答系统的兴起奠定了基础。在问答系统中，问题分类逐渐成了问答系统的一个重要研究分支。

在早期，一些问题分类的方法主要在特定领域下采用模板或者规则来对问题进行分类，如依照一些特定的疑问词使用模板进行匹配，在一些问题分类任务上取得了一定的成果。除此之外，Yu等人通过半监督学习来进行问题分类，在数据集中协同使用未标注和已标注的数据，通过词间的语义相似性作为特征分类，实验结果得到较大的提高。 Xu等人基于朴素贝叶斯来使用汉语依存语法提取问题文本的句法特征进行问题分类，有效提高了问题分类的精度。

深度学习理论在答案抽取和排序任务上也有一定应用。Zhou等人将输入序列先输入CNN后，再输入LSTM来得问题句子的表征向量，输入到softmax中进行问题分类。 Wang等人则先使用LSTM来得到输入问题文本序列的隐藏序列，再利用CNN模型来得到最终的表征向量，最后进行问题分类。

传统CQA系统使用有监督学习，训练问题分类模型，但该方法需要抽取复杂的文本特征，特征工程需要较多的工程经验，很难在特征构造上做到最优，并且该方法在新的数据集上泛化性能较差，对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常基于单一的卷积神经网络或循环神经网络，或者串行结合卷积神经网络和循环神经网络，无法全面准确地提取影响问题分类精度的各项特征。

发明内容

本发明的目的在于提供一种面向社区问答的问题分类方法及系统，该方法及系统有利于提高社区问答中问题分类的准确性。

为实现上述目的，本发明采用的技术方案是：一种面向社区问答的问题分类方法，包括以下步骤：

步骤A：采集网络问答社区中用户所提问题以及对应的问题类别，构建问题分类训练集TS；

步骤B：对问题分类训练集TS中的问题进行字符级编码和词语级编码，得到问题的表征向量，以此训练基于双通道神经网络的深度学习网络模型；

步骤C：问题分类系统接受用户提交的问题，将问题输入到训练好的深度学习网络模型中，输出模型划分的问题所述类别。

进一步地，所述步骤B具体包括以下步骤：

步骤B1：遍历问题分类训练集TS，TS中的每个训练样本表示为(q,y)，其中q表示问题，y＝c∈C表示问题q所属的问题类别，C＝{1,2,...,L}为问题类别集合，1≤c≤L， L表示问题类别数；将问题q输入深度学习网络模型的字符级编码模块，得到问题q的字符向量序列

步骤B2：将问题q的字符向量序列

输入深度学习网络模型的双层Bi-LSTM网络模块，再输入注意力模块，得到问题q的表征向量

步骤B3：将问题q输入深度学习网络模型的词语级编码模块，得到问题q的词语级表征向量

步骤B4：将问题q的词语级表征向量

输入到深度学习网络模型的带shortcut连接的卷积神经网络中，得到问题q的表征向量

步骤B5：将问题q的表征向量

与

输入全连接层进行融合，得到问题q的最终表征向量

将

输入到Softmax层中，计算问题q属于各个问题类别的概率

选择

作为预测的问题类别；

步骤B6：根据目标损失函数loss，利用反向传播方法计算深度学习网络模型中各参数的梯度，并利用随机梯度下降方法更新参数，以此训练深度学习网络模型；

步骤B7：当深度学习网络模型产生的损失值迭代变化小于设定阈值或者达到最大迭代次数时，则终止深度学习网络模型的训练。

进一步地，所述步骤B1具体包括以下步骤：

步骤B11：对问题q进行分词处理，并去除停用词，得到问题q的词序列 q＝{w₁,w₂,...,w_k}，其中w_i,i＝1,2,...,k为分词及去除停用词后的问题q中的第i个词，k 为分词及去除停用词后的问题q中的词语数，

其中c_i,j,j＝1,2,...,n_i为构成w_i的第j个字符，n_i为w_i中的字符数；

步骤B12：对问题q的词序列q＝{w₁,w₂,...,w_k}中的每个词w_i进行字符级编码，w_i的字符序列为

则w_i的字符向量序列为

i＝1,2,...,k，其中

j＝1,2,...,n_i为c_i,j的字符向量，在预训练的字符向量矩阵

中查询得到，其中d₁表示字符向量的维度，|V₁|表示字符向量矩阵E₁中的字符总数；则问题q的字符向量序列为

进一步地，所述步骤B2具体包括以下步骤：

步骤B21：遍历问题q的每个词w_i，将其字符向量序列

输入第一层Bi-LSTM网络，得到w_i的隐藏状态序列

取

作为w_i的词向量

即

则问题q的词向量序列为

步骤B22：将

输入第二层Bi-LSTM网络，得到问题q的隐藏状态序列h＝[h₁,h₂,...,h_i,...,h_k]，其中h_i为

的隐藏状态；

步骤B23：将问题q的隐藏状态序列h＝[h₁,h₂,...,h_i,...,h_k]输入到注意力层，输出问题q的表征向量

其中，W_a表示权重矩阵。

进一步地，所述步骤B3的具体方法为：对问题q的词序列q＝{w₁,w₂,...,w_k}，其词向量序列为[e₁,e₂,...,e_k]，

i＝1,2,...,k，e_i为第i个词w_i的词向量，在预训练的词向量矩阵

中查询得到，其中d₂表示词向量的维度，|V₂|表示预训练的词向量矩阵E₂中的词数；则问题q的词语级表征向量为

进一步地，所述步骤B4具体包括以下步骤：

步骤B41：对

进行一轮卷积，获得表征向量x₁，对x₁进行两轮卷积，获得表征向量x₂；

步骤B42：通过shortcut连接表征向量x₁和x₂，得到表征向量

以缓解梯度消失问题，则有：

x_s＝x₁+x₂

步骤B43：对表征向量x_s进行最大池化，得到池化后的向量x_p；

步骤B44：将池化向量x_p作为输入，对x_p进行2轮卷积得到向量x₃，通过shortcut 连接x_p和x₃并进行最大池化后输入到全连接层，将全连接层的输出作为问题q的表征向量

进一步地，所述步骤B41的具体方法为：在每轮卷积中，卷积核的大小设为h，卷积核的数量设为l，padding设置为(h-1)/2，则每轮卷积中的第t个卷积核的输出

为：

其中，卷积核在位置i的输出

为：

其中

为每轮卷积中第t个卷积核的参数，t＝1,2,...,l，

是偏置参数， f为激活函数，

表示输入卷积核的表征向量落在卷积核窗口内的第i到 i+h-1列；

连接l个卷积核的输出，得到表征向量

对

进行两轮卷积，连接l个卷积核的输出，得到表征向量

本发明还提供了一种面向社区问答的问题分类系统，其特征在于，包括：

数据收集模块，用于采集网络问答社区中用户所提问题以及对应的问题类别，构建问题分类训练集；

问题预处理模块，用于对问题分类训练集中的问题进行预处理，包括分词处理和去除停用词；

问题编码模块，用于对问题分类训练集中的问题进行字符级编码和词语级编码，得到问题的表征向量；

深度学习网络训练模块，用于将问题的表征向量输入到深度学习网络中，对深度学习网络模型进行训练，得到训练好的深度学习网络模型；以及

问题分类模块，用于利用训练好的深度学习网络模型对输入的问题进行处理，输出问题所属的类别。

相较于现有技术，本发明具有以下有益效果：提供了一种面向社区问答的问题分类方法及系统，本发明通过对问题进行字符级编码和词语级编码，能够全面准确地提取影响问题分类精度的各项特征，然后对基于双通道神经网络的深度学习网络模型进行训练，以训练好的模型对问题进行分类，从而能够有效提高社区问答中问题分类的准确性，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例中步骤B的实现流程图。

图3是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供一种面向社区问答的问题分类方法，如图1所示，包括以下步骤：

步骤A：采集网络问答社区中用户所提问题以及对应的问题类别，构建问题分类训练集TS。

步骤B：对问题分类训练集TS中的问题进行字符级编码和词语级编码，得到问题的表征向量，以此训练基于双通道神经网络的深度学习网络模型。如图2所示，步骤B 具体包括以下步骤：

具体包括以下步骤：

步骤B11：对问题q进行分词处理，并去除停用词，得到问题q的词序列 q＝{w₁,w₂,...,w_k}，其中w_i,i＝1,2,...,k为分词及去除停用词后的问题q中的第i个词，k 为分词及去除停用词后的问题q中的词语数，w_i进一步表示为

其中 c_i,j,j＝1,2,...,n_i为构成w_i的第j个字符，n_i为w_i中的字符数；

则w_i的字符向量序列为

i＝1,2,...,k，其中

j＝1,2,...,n_i为c_i,j的字符向量，在预训练的字符向量矩阵

步骤B2：将问题q的字符向量序列

具体包括以下步骤：

步骤B21：遍历问题q的每个词w_i，将其字符向量序列

输入第一层Bi-LSTM网络，得到w_i的隐藏状态序列

取

作为w_i的词向量

即

则问题q的词向量序列为

步骤B22：将

的隐藏状态；

其中，W_a表示权重矩阵。

其具体方法为：

对问题q的词序列q＝{w₁,w₂,...,w_k}，其词向量序列为[e₁,e₂,...,e_k]，

中查询得到，其中d₂表示词向量的维度，|V₂|表示预训练的词向量矩阵E₂中的词数；则问题 q的词语级表征向量为

步骤B4：将问题q的词语级表征向量

具体包括以下步骤：

步骤B41：对

进行一轮卷积，获得表征向量x₁，对x₁进行两轮卷积，获得表征向量x₂。其具体方法为：

在每轮卷积中，卷积核的大小设为h，卷积核的数量设为l，padding设置为(h-1)/2，则每轮卷积中的第t个卷积核的输出

为：

其中，卷积核在位置i的输出

为：

其中

为每轮卷积中第t个卷积核的参数，t＝1,2,...,l，

是偏置参数， f为激活函数，

连接l个卷积核的输出，得到表征向量

对

进行两轮卷积，连接l个卷积核的输出，得到表征向量

步骤B42：通过shortcut连接表征向量x₁和x₂，得到表征向量

以缓解梯度消失问题，则有：

x_s＝x₁+x₂

步骤B43：对表征向量x_s进行最大池化，得到池化后的向量x_p。

步骤B5：将问题q的表征向量

与

输入全连接层进行融合，得到问题q的最终表征向量

将

输入到Softmax层中，计算问题q属于各个问题类别的概率

选择

作为预测的问题类别。

步骤B6：根据目标损失函数loss，利用反向传播方法计算深度学习网络模型中各参数的梯度，并利用随机梯度下降方法更新参数，以此训练深度学习网络模型。

步骤B7：当深度学习网络模型产生的损失值迭代变化小于设定阈值或者达到最大迭代次数时，则终止深度学习网络模型的训练，得到训练好的深度学习网络模型。

本发明还提供了一种采用上述方法的面向社区问答的问题分类系统，如图3所示，包括数据收集模块、问题预处理模块、问题编码模块、深度学习网络训练模块和问题分类模块。

所述数据收集模块用于采集网络问答社区中用户所提问题以及对应的问题类别，构建问题分类训练集。

所述问题预处理模块用于对问题分类训练集中的问题进行预处理，包括分词处理和去除停用词。

所述问题编码模块用于对问题分类训练集中的问题进行字符级编码和词语级编码，得到问题的表征向量。

所述深度学习网络训练模块用于将问题的表征向量输入到深度学习网络中，对深度学习网络模型进行训练，得到训练好的深度学习网络模型。

所述问题分类模块用于利用训练好的深度学习网络模型对输入的问题进行处理，输出问题所属的类别。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种面向社区问答的问题分类方法，其特征在于，包括以下步骤：

步骤C：问题分类系统接受用户提交的问题，将问题输入到训练好的深度学习网络模型中，输出模型划分的问题所述类别；

所述步骤B具体包括以下步骤：

步骤B1：遍历问题分类训练集TS，TS中的每个训练样本表示为(q,y)，其中q表示问题，y＝c∈C表示问题q所属的问题类别，C＝{1,2,...,L}为问题类别集合，1≤c≤L，L表示问题类别数；将问题q输入深度学习网络模型的字符级编码模块，得到问题q的字符向量序列

步骤B2：将问题q的字符向量序列

步骤B4：将问题q的词语级表征向量

步骤B5：将问题q的表征向量

与

输入全连接层进行融合，得到问题q的最终表征向量

将

输入到Softmax层中，计算问题q属于各个问题类别的概率

选择

作为预测的问题类别；

步骤B7：当深度学习网络模型的损失值迭代变化小于设定阈值或者达到最大迭代次数时，则终止深度学习网络模型的训练。

2.根据权利要求1所述的面向社区问答的问题分类方法，其特征在于，所述步骤B1具体包括以下步骤：

步骤B11：对问题q进行分词处理，并去除停用词，得到问题q的词序列q＝{w₁,w₂,...,w_k}，其中w_i,i＝1,2,...,k为分词及去除停用词后的问题q中的第i个词，k为分词及去除停用词后的问题q中的词语数，

则w_i的字符向量序列为

其中

为c_i,j的字符向量，在预训练的字符向量矩阵

3.根据权利要求2所述的面向社区问答的问题分类方法，其特征在于，所述步骤B2具体包括以下步骤：

步骤B21：遍历问题q的每个词w_i，将其字符向量序列

输入第一层Bi-LSTM网络，得到w_i的隐藏状态序列

取

作为w_i的词向量

即

则问题q的词向量序列为

步骤B22：将

的隐藏状态；

其中，W_a表示权重矩阵。

4.根据权利要求1所述的面向社区问答的问题分类方法，其特征在于，所述步骤B3的具体方法为：对问题q的词序列q＝{w₁,w₂,...,w_k}，其词向量序列为[e₁,e₂,...,e_k]，

为第i个词w_i的词向量，在预训练的词向量矩阵

5.根据权利要求1所述的面向社区问答的问题分类方法，其特征在于，所述步骤B4具体包括以下步骤：

步骤B41：对

步骤B42：通过shortcut连接表征向量x₁和x₂，得到表征向量

以缓解梯度消失问题，则有：

x_s＝x₁+x₂

步骤B44：将池化向量x_p作为输入，对x_p进行2轮卷积得到向量x₃，通过shortcut连接x_p和x₃并进行最大池化后输入到全连接层，将全连接层的输出作为问题q的表征向量

6.根据权利要求5所述的面向社区问答的问题分类方法，其特征在于，所述步骤B41的具体方法为：在每轮卷积中，卷积核的大小设为h，卷积核的数量设为l，padding设置为(h-1)/2，则每轮卷积中的第t个卷积核的输出

为：

其中，卷积核在位置i的输出

为：

其中

为每轮卷积中第t个卷积核的参数，t＝1,2,...,l，

是偏置参数，f为激活函数，

表示输入卷积核的表征向量落在卷积核窗口内的第i到i+h-1列；

连接l个卷积核的输出，得到表征向量

对

进行两轮卷积，连接l个卷积核的输出，得到表征向量

7.一种采用如权利要求1-6任一项所述方法的面向社区问答的问题分类系统，其特征在于，包括：