CN110472045A

CN110472045A - 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Info

Publication number: CN110472045A
Application number: CN201910625640.4A
Authority: CN
Inventors: 郑子彬; 蔡岳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-19
Anticipated expiration: 2039-07-11
Also published as: CN110472045B

Abstract

本发明公开一种基于文档嵌入的短文本虚假问题分类预测方法及装置，本装置用于实现本方法，本方法包括对在问答社区提取的问题文本样本集进行去差异化的预处理；将预处理后的问题文本样本集嵌入词库映射并重组获得每个问题文本的问题向量；对问题文本进行主题模型训练，计算获取问题TFIDF特征向量，采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题‑主题概率分布向量W；将问题TFIDF特征向量和最优问题‑主题概率分布向量输入深度学习模型进行训练学习，获取语义‑主题表征向量，非线性激活语义‑主题表征向量以获取预测问题的分类概率值，根据预测问题的分类概率值判断问题的虚实分类。本发明提高问题文本的虚实过滤效率。

Description

一种基于文档嵌入的短文本虚假问题分类预测方法及装置

技术领域

本发明涉及数据处理领域，更具体地，涉及一种基于文档嵌入的短文本虚假问题分类预测方法及装置。

背景技术

随着互联网的迅速发展和普及，互联网用户能够获取的信息呈现指数增长，许多用户上网冲浪，常在问答社区提出问题，并与提供独特见解与高质量答案的其他用户联系。但是在Quora，知乎等网络问答社区上，在享受信息增长的便利的同时，也面临着信息过载带来的难题，这些网络问答社区每天都会有大量的用户在上面提出各种类型的问题，但其中有许多问题是虚假问题，包括建立在一个错误的前提上的问题，或者只是为了发布一些声明而不是为了寻求答案的一些问题，以及一些涉嫌黄赌毒与民族分裂等恶意的问题。网络问答社区需要对这些问题进行监控过滤，将这些虚假问题从该社区撤除或者提醒用户进行修改，而这类工作实际生成的，是对一个问题的虚假性进行分类判断，以快速地寻找更有可能是虚假问题的候选集，过滤掉大部分正常的问题。但是现在，预测性编程和利用机器学习，深度学习的软件完全可以在短时间内完成这一工作，可以大幅降低成本、提升效率。

随着人工智能技术的发展以及大数据应用的广泛开展，业务人员希望通过机器阅读大量的历史问题，自动给出该问题的虚假性分类，以提高监控过滤的效率。同时，也有利于公民根据反馈对问题描述进行修正，更加友好地在社区进行交流。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于文档嵌入的短文本虚假问题分类预测方法及装置。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是提高问题文本的虚实过滤效率，

为了达到上述技术效果，本发明的技术方案如下：

本发明公开了一种基于文档嵌入的短文本虚假问题分类预测方法，包括：

S10对在问答社区提取的问题文本样本集进行去差异化的预处理；

S20将预处理后的问题文本样本集嵌入词库映射，以获取每个单词对应的词向量，重组单词的词向量获得每个问题文本的问题向量；

S30对问题文本进行主题模型训练，计算获取问题TFIDF特征向量，采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W；

S40将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习，获取语义-主题表征向量，非线性激活语义-主题表征向量以获取预测问题的分类概率值，根据预测问题的分类概率值判断问题的虚实分类。

优选地，所述S30的具体步骤：

计算每个问题文本d的词语数count(d)，词语w在该问题文本d中出现的次数Count(w|d)，整文本集合中问题文本数N以及出现过词语w的文本数n_w；

通过如下公式计算词频(TF)：

通过如下公式计算逆向文档频率：

计算词频(TF)和逆向文档频率(IDF)的乘积，获得问题文本d中词语w的TFIDF特征向量；

采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H，其中W矩阵表示问题-主题的概率分布，H矩阵表示主题-词语的概率分布：

定义问题集合中的m个问题，n个词，A为一个m*n的矩阵，矩阵W为一个m*x的问题-主题的概率分布，矩阵H为一个x*n的主题-词语的概率分布，x为主题数量的参数，A_ij表示第i个问题文本的第j个词的TFIDF特征值，随机初始化矩阵W和H，矩阵W中W_ik表示第i个问题文本第k个主题的概率相关度，矩阵H中H_kj表示第j个词第k个主题的概率相关度，将A_ij采用非负矩阵分解法近似分解为：

A_ij≈(WH)_ij＝W_ik*H_kj；

通过如下公式训练两个矩阵W和H：

使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小，最小化它们之间的差值，训练得到最优问题-主题概率分布向量W。

优选地，所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层，所述S40的具体步骤为：将问题向量通过问题嵌入层输入长短期记忆层LSTM，以根据问题的上下文内容提取问题文本的语义表征；将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征，拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量，将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵；将语义-主题表征矩阵输入非线性激活层，非线性激活层利用非线性激活函数计算得到预测问题的分类概率值；若预测问题的分类概率值大于预定阈值，则判断该问题为虚假问题；反之，则判断该问题为正常问题。

优选地，所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM，设置双向长短期记忆网络LSTM的输出维度，将问题向量输入第一层双向长短期记忆网络LSTM，将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM，第二层双向长短期记忆网络LSTM输出问题文本的语义表征。

优选地，所述非线性激活函数的表达式如下：

其中Z为拼接问题文本的语义表征和高维问题-主题概率分布特征向量得到语义-主题表征向量，σ(Z)的输出区间为[0，1]。

优选地，所述去差异化的预处理至少包括文本字符大小写的统一；文本异常字符的去除；将文本中的缩写形式转换全文形式。

本发明还公开了一种基于文档嵌入的短文本虚假问题分类预测装置，用于实现上述方法，其包括：

预处理模块，用于对在问答社区提取的问题文本样本集进行去差异化的预处理，所述去差异化的预处理至少包括文本字符大小写的统一；文本异常字符的去除；将文本中的缩写形式转换全文形式；

问题向量映射模块，用于将预处理后的问题文本样本集嵌入词库映射，以获取每个单词对应的词向量，重组单词的词向量获得每个问题文本的问题向量；

主题概率分布模块，用于对问题文本进行主题模型训练，计算获取问题TFIDF特征向量，采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W；

深度学习预测模块，用于将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习，获取语义-主题表征向量，非线性激活语义-主题表征向量以获取预测问题的分类概率值，根据预测问题的分类概率值判断问题的虚实分类。

优选地，基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述主题概率分布模块包括问题特征向量单元和主题向量单元，

问题特征向量单元，用于计算每个问题文本d的词语数count(d)，词语w在该问题文本d中出现的次数Count(w|d)，整文本集合中问题文本数N以及出现过词语w的文本数n_w；

通过如下公式计算词频(TF)：

通过如下公式计算逆向文档频率：

计算词频(TF)和逆向文档频率(IDF)的乘积，获得问题文本d中词语w的

TFIDF特征向量；

主题向量单元，用于采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H，其中W矩阵表示问题-主题的概率分布，H矩阵表示主题-词语的概率分布：

A_ij≈(WH)_ij＝W_ik*H_kj；

通过如下公式训练两个矩阵W和H：

优选地，基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述深度学习预测模块包括深度学习模型和预测判断单元，所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层，用于将问题向量通过问题嵌入层输入长短期记忆层LSTM，以根据问题的上下文内容提取问题文本的语义表征；将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征，拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量，将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵；将语义-主题表征矩阵输入非线性激活层，非线性激活层利用非线性激活函数计算得到预测问题的分类概率值；

预测判断单元，用于若预测问题的分类概率值大于预定阈值，则判断该问题为虚假问题；反之，则判断该问题为正常问题。

与现有技术相比，本发明技术方案的有益效果是：本发明系统通过对问题文本进行主题模型训练获取问题TFIDF特征向量，通过NMF非负矩阵近似分解问题TFIDF特征向量求出最优问题-主题概率分布向量，再将两者输入深度学习模型，学习隐藏在问题文本背后的虚假信息，判断该问题的虚假可能性，以提高问题文本虚实过滤的效率。同时，及时发现恶意用户提出的虚假问题尽快消除以防止在全网传播，普通的用户也可以根据及时过滤后的问题文本得到问题的真实反馈或提供更好的修正描述。进一步地，本发明采用两层双向长短期记忆网络LSTM，根据问题文本的上下文内容，提取问题的语序，语境，语义等信息，以此丰富问题文本的表达。对于主题向量，采用Dense线性层提取高维特征，可得到问题更高维度的主题特征。进一步地，对于待预测的问题，计算其问题向量和主题向量，通过深度学习模型的计算输出值，与训练模型给出分类的预定阈值进行比较，得到带预测问题的正常和虚假的分类。

附图说明

图1为本发明所述基于文档嵌入的短文本虚假问题分类预测方法一实施例的方法流程图；

图2本发明所述基于文档嵌入的短文本虚假问题分类预测装置一实施例的功能模块图；

图3为本发明所述深度学习模型的架构框图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一、对问答社区的问题样本集合进行预处理。

首先将问题的全部字符转换为小写字符，可以对单词进行去差异化，如How和how本质上是同一个单词，但如果没有转换为小写的话会被识别为两个单词，从而影响训练过程，故需将How转换为how；

其次去除问题中的另类字符，另类字符包括文本中的异常符号和无具体释义的非文本符号，如星星符号，箭头符号等；

并对问题集提取常见的缩写调整为全拼写的形式，如you’re拆分为you are，以方便后续的文本向量映射的操作。

二、对问题文本进行词向量映射，得到问题向量。

对于预处理的问题文本，首先得到问题集的词汇表，对于词汇表中出现的单词，使用wiki(维基百科)，googlenews(谷歌词库)等Embeddings获取到每个单词对应的词向量，最终利用单词的词向量进行重组，得到每一个问题的问题向量。

三、对问题文本进行主题模型训练，获取主题概率分布向量。

分别计算每个问题文档d中的词语数Count(d)，词语w出现在文档d中的次数Count(w|d)，整个文档集合D中文档数N以及出现过词语w的文章数n_w，再分别计算词频(TF)和逆向文档频率(IDF)。公式为：

得到词频(TF)和逆向文档频率(IDF)之后，计算两者乘积最终可以得到文档d中词语w的TFIDF值，即作为文档d中词语w的特征向量。

利用TF-IDF得到每一个问题中每一个词的特征向量之后，可以组成一个问题-词语矩阵A，然后利用NMF——非负矩阵分解的方法，将矩阵A分解成W，H两个矩阵相乘的形式，其中W矩阵可代表问题-主题的概率分布，H矩阵代表主题-词语的概率分布，分解之后即可将W矩阵作为问题的主题概率分布向量。

NMF将矩阵A分解成矩阵W和矩阵H相乘的形式，A≈W*H，从而完成问题主题模型的训练。具体的分解过程由下述公式所示：

NMF试图训练两个矩阵W、H，使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小，即公式所表达的最小化(argmin)它们之间的差值从而得到训练完成的矩阵W和矩阵H。以此来还原矩阵A，得到的矩阵W即可更加准确地代表问题的主题概率分布。

这样对于问题集合中的m个问题，n个词，A是一个m*n的矩阵，W是一个m*x的矩阵，H是一个x*n的矩阵，其中x为主题数量,k∈(0,x).Aij对应第i个问题的第j个词的TFIDF特征值,i∈(0,m),j∈(0,n)。(WH)_ij即可作为第i个问题的特征向量,是由问题-主题向量和主题-词语向量相乘所得，即由W_ik以及H_kj相乘得到，其中W_ik为第i个问题和第k个主题的概率相关度，H_kj为第j个词和第k个主题的概率相关度。

因此可以训练得到每一个问题的主题概率分布向量，根据问题-主题的概率相关度，可以得到不同问题的主题偏向，概率相关度越大，则该问题就属于这类主题的问题。

四、将问题向量和主题概率分布向量输入深度学习模型，进行训练学习，获取语义-主题表征向量，非线性激活语义-主题表征向量以获取预测问题的分类概率值，根据预测问题的分类概率值判断问题的虚实分类。

a.首先将第二步得到的问题向量输入到两层相同结构的双向长短期记忆网络LSTM，提取问题文本的语义等信息，得到问题文本的高维特征向量。长短期记忆网络LSTM通过学习问题文本上下文内容的语序，语义，语境等信息，输出语义-主题表征向量，即高维特征向量更好地表征了问题。

b.同时将第三步得到的问题的主题概率分布向量输送到第一Dense线性层，根据当前数据量设置输入向量维度和输出向量的维度，得到问题主题概率分布向量的高维特征向量。Dense层学习一组输入向量维度*输出向量维度的参数，设置输入向量维度为40，输出向量维度为32，则每个问题的主题概率分布向量的维度是1*40，那么Dense层的参数是一个有40*32个参数的矩阵，该矩阵通过对输入向量的各个维度做线性组合得到1*32维的问题主题概率分布向量的高维特征向量。Dense层是常见的对向量各个维度进行组合的网络层，可以通过对向量各个维度的线性组合，得到更有效的信息。

c.将问题文本的高维特征向量和问题主题的高维特征向量拼接在一起得到一个同时包含语义信息和主题信息的丰富的表征向量，拼接方式如：该向量是由第二层LSTM的输出向量(1*128)拼接问题主题的高维特征向量(1*32)得到的一个1*160的特征向量。

d.再将1*160的特征向量输送到第二Dense线性层，设置输入向量维度为特征向量维度，输出向量维度为16，这组参数由Dense层的输入向量的数量以及输出向量的数量决定，如，设置Dense线性层的第二输入向量的维度是160，输出向量的维度是16，那么Dense层的参数是一个有160*16个参数的矩阵，该矩阵通过对输入向量的各个维度做线性组合得到输出向量的各个维度，输出向量的维度是1*16。

e.经过sigmoid非线性激活函数计算得到一个在0-1之间的概率值，若概率值≧预定阈值则预测该问题为虚假问题；若概率值<预定阈值，则预测该问题为正常问题,预定阈值一般取0.5。

sigmoid的函数如下所示：

其中z即问题向量和主题向量拼接得到的目标向量，sigmoid非线性激活函数的输出区间在[0,1]，在深度学习领域可以作为一个分类概率的结果表示。预设合适的分类概率的阈值，大于该阈值的问题为正常问题，小于该阈值的问题为虚假问题。

相同或相似的标号对应相同或相似的部件；附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，包括：

2.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述S30的具体步骤：

通过如下公式计算词频(TF)：

通过如下公式计算逆向文档频率：

A_ij≈(WH)_ij＝W_ik*H_kj；

通过如下公式训练两个矩阵W和H：

3.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层，所述S40的具体步骤为：将问题向量通过问题嵌入层输入长短期记忆层LSTM，以根据问题的上下文内容提取问题文本的语义表征；将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征，拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量，将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵；将语义-主题表征矩阵输入非线性激活层，非线性激活层利用非线性激活函数计算得到预测问题的分类概率值；若预测问题的分类概率值大于预定阈值，则判断该问题为虚假问题；反之，则判断该问题为正常问题。

4.如权利要求3所述的基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM，设置双向长短期记忆网络LSTM的输出维度，将问题向量输入第一层双向长短期记忆网络LSTM，将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM，第二层双向长短期记忆网络LSTM输出问题文本的语义表征。

5.如权利要求3所述的基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述非线性激活函数的表达式如下：

6.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法，其特征在于，所述去差异化的预处理至少包括文本字符大小写的统一；文本异常字符的去除；将文本中的缩写形式转换全文形式。

7.一种基于文档嵌入的短文本虚假问题分类预测装置，其特征在于，包括：

8.如权利要求7所述的基于文档嵌入的短文本虚假问题分类预测装置，其特征在于，所述主题概率分布模块包括问题特征向量单元和主题向量单元，

通过如下公式计算词频(TF)：

通过如下公式计算逆向文档频率：

A_ij≈(WH)_ij＝W_ik*H_kj；

通过如下公式训练两个矩阵W和H：

9.如权利要求7所述的基于文档嵌入的短文本虚假问题分类预测装置，其特征在于，所述深度学习预测模块包括深度学习模型和预测判断单元，所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层，用于将问题向量通过问题嵌入层输入长短期记忆层LSTM，以根据问题的上下文内容提取问题文本的语义表征；将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征，拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量，将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵；将语义-主题表征矩阵输入非线性激活层，非线性激活层利用非线性激活函数计算得到预测问题的分类概率值；