CN110472045A - 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 - Google Patents

一种基于文档嵌入的短文本虚假问题分类预测方法及装置 Download PDF

Info

Publication number
CN110472045A
CN110472045A CN201910625640.4A CN201910625640A CN110472045A CN 110472045 A CN110472045 A CN 110472045A CN 201910625640 A CN201910625640 A CN 201910625640A CN 110472045 A CN110472045 A CN 110472045A
Authority
CN
China
Prior art keywords
theme
vector
matrix
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910625640.4A
Other languages
English (en)
Other versions
CN110472045B (zh
Inventor
郑子彬
蔡岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201910625640.4A priority Critical patent/CN110472045B/zh
Publication of CN110472045A publication Critical patent/CN110472045A/zh
Application granted granted Critical
Publication of CN110472045B publication Critical patent/CN110472045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于文档嵌入的短文本虚假问题分类预测方法及装置,本装置用于实现本方法,本方法包括对在问答社区提取的问题文本样本集进行去差异化的预处理;将预处理后的问题文本样本集嵌入词库映射并重组获得每个问题文本的问题向量;对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题‑主题概率分布向量W;将问题TFIDF特征向量和最优问题‑主题概率分布向量输入深度学习模型进行训练学习,获取语义‑主题表征向量,非线性激活语义‑主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。本发明提高问题文本的虚实过滤效率。

Description

一种基于文档嵌入的短文本虚假问题分类预测方法及装置
技术领域
本发明涉及数据处理领域,更具体地,涉及一种基于文档嵌入的短文本虚假问题分类预测方法及装置。
背景技术
随着互联网的迅速发展和普及,互联网用户能够获取的信息呈现指数增长,许多用户上网冲浪,常在问答社区提出问题,并与提供独特见解与高质量答案的其他用户联系。但是在Quora,知乎等网络问答社区上,在享受信息增长的便利的同时,也面临着信息过载带来的难题,这些网络问答社区每天都会有大量的用户在上面提出各种类型的问题,但其中有许多问题是虚假问题,包括建立在一个错误的前提上的问题,或者只是为了发布一些声明而不是为了寻求答案的一些问题,以及一些涉嫌黄赌毒与民族分裂等恶意的问题。网络问答社区需要对这些问题进行监控过滤,将这些虚假问题从该社区撤除或者提醒用户进行修改,而这类工作实际生成的,是对一个问题的虚假性进行分类判断,以快速地寻找更有可能是虚假问题的候选集,过滤掉大部分正常的问题。但是现在,预测性编程和利用机器学习,深度学习的软件完全可以在短时间内完成这一工作,可以大幅降低成本、提升效率。
随着人工智能技术的发展以及大数据应用的广泛开展,业务人员希望通过机器阅读大量的历史问题,自动给出该问题的虚假性分类,以提高监控过滤的效率。同时,也有利于公民根据反馈对问题描述进行修正,更加友好地在社区进行交流。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于文档嵌入的短文本虚假问题分类预测方法及装置。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是提高问题文本的虚实过滤效率,
为了达到上述技术效果,本发明的技术方案如下:
本发明公开了一种基于文档嵌入的短文本虚假问题分类预测方法,包括:
S10对在问答社区提取的问题文本样本集进行去差异化的预处理;
S20将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
S30对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
S40将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
优选地,所述S30的具体步骤:
计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
通过如下公式计算逆向文档频率:
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
优选地,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,所述S40的具体步骤为:将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
优选地,所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM,设置双向长短期记忆网络LSTM的输出维度,将问题向量输入第一层双向长短期记忆网络LSTM,将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM,第二层双向长短期记忆网络LSTM输出问题文本的语义表征。
优选地,所述非线性激活函数的表达式如下:
其中Z为拼接问题文本的语义表征和高维问题-主题概率分布特征向量得到语义-主题表征向量,σ(Z)的输出区间为[0,1]。
优选地,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式。
本发明还公开了一种基于文档嵌入的短文本虚假问题分类预测装置,用于实现上述方法,其包括:
预处理模块,用于对在问答社区提取的问题文本样本集进行去差异化的预处理,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式;
问题向量映射模块,用于将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
主题概率分布模块,用于对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
深度学习预测模块,用于将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
优选地,基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述主题概率分布模块包括问题特征向量单元和主题向量单元,
问题特征向量单元,用于计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
通过如下公式计算逆向文档频率:
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的
TFIDF特征向量;
主题向量单元,用于采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
优选地,基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述深度学习预测模块包括深度学习模型和预测判断单元,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,用于将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;
预测判断单元,用于若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
与现有技术相比,本发明技术方案的有益效果是:本发明系统通过对问题文本进行主题模型训练获取问题TFIDF特征向量,通过NMF非负矩阵近似分解问题TFIDF特征向量求出最优问题-主题概率分布向量,再将两者输入深度学习模型,学习隐藏在问题文本背后的虚假信息,判断该问题的虚假可能性,以提高问题文本虚实过滤的效率。同时,及时发现恶意用户提出的虚假问题尽快消除以防止在全网传播,普通的用户也可以根据及时过滤后的问题文本得到问题的真实反馈或提供更好的修正描述。进一步地,本发明采用两层双向长短期记忆网络LSTM,根据问题文本的上下文内容,提取问题的语序,语境,语义等信息,以此丰富问题文本的表达。对于主题向量,采用Dense线性层提取高维特征,可得到问题更高维度的主题特征。进一步地,对于待预测的问题,计算其问题向量和主题向量,通过深度学习模型的计算输出值,与训练模型给出分类的预定阈值进行比较,得到带预测问题的正常和虚假的分类。
附图说明
图1为本发明所述基于文档嵌入的短文本虚假问题分类预测方法一实施例的方法流程图;
图2本发明所述基于文档嵌入的短文本虚假问题分类预测装置一实施例的功能模块图;
图3为本发明所述深度学习模型的架构框图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一、对问答社区的问题样本集合进行预处理。
首先将问题的全部字符转换为小写字符,可以对单词进行去差异化,如How和how本质上是同一个单词,但如果没有转换为小写的话会被识别为两个单词,从而影响训练过程,故需将How转换为how;
其次去除问题中的另类字符,另类字符包括文本中的异常符号和无具体释义的非文本符号,如星星符号,箭头符号等;
并对问题集提取常见的缩写调整为全拼写的形式,如you’re拆分为you are,以方便后续的文本向量映射的操作。
二、对问题文本进行词向量映射,得到问题向量。
对于预处理的问题文本,首先得到问题集的词汇表,对于词汇表中出现的单词,使用wiki(维基百科),googlenews(谷歌词库)等Embeddings获取到每个单词对应的词向量,最终利用单词的词向量进行重组,得到每一个问题的问题向量。
三、对问题文本进行主题模型训练,获取主题概率分布向量。
分别计算每个问题文档d中的词语数Count(d),词语w出现在文档d中的次数Count(w|d),整个文档集合D中文档数N以及出现过词语w的文章数nw,再分别计算词频(TF)和逆向文档频率(IDF)。公式为:
得到词频(TF)和逆向文档频率(IDF)之后,计算两者乘积最终可以得到文档d中词语w的TFIDF值,即作为文档d中词语w的特征向量。
利用TF-IDF得到每一个问题中每一个词的特征向量之后,可以组成一个问题-词语矩阵A,然后利用NMF——非负矩阵分解的方法,将矩阵A分解成W,H两个矩阵相乘的形式,其中W矩阵可代表问题-主题的概率分布,H矩阵代表主题-词语的概率分布,分解之后即可将W矩阵作为问题的主题概率分布向量。
NMF将矩阵A分解成矩阵W和矩阵H相乘的形式,A≈W*H,从而完成问题主题模型的训练。具体的分解过程由下述公式所示:
NMF试图训练两个矩阵W、H,使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,即公式所表达的最小化(argmin)它们之间的差值从而得到训练完成的矩阵W和矩阵H。以此来还原矩阵A,得到的矩阵W即可更加准确地代表问题的主题概率分布。
这样对于问题集合中的m个问题,n个词,A是一个m*n的矩阵,W是一个m*x的矩阵,H是一个x*n的矩阵,其中x为主题数量,k∈(0,x).Aij对应第i个问题的第j个词的TFIDF特征值,i∈(0,m),j∈(0,n)。(WH)ij即可作为第i个问题的特征向量,是由问题-主题向量和主题-词语向量相乘所得,即由Wik以及Hkj相乘得到,其中Wik为第i个问题和第k个主题的概率相关度,Hkj为第j个词和第k个主题的概率相关度。
因此可以训练得到每一个问题的主题概率分布向量,根据问题-主题的概率相关度,可以得到不同问题的主题偏向,概率相关度越大,则该问题就属于这类主题的问题。
四、将问题向量和主题概率分布向量输入深度学习模型,进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
a.首先将第二步得到的问题向量输入到两层相同结构的双向长短期记忆网络LSTM,提取问题文本的语义等信息,得到问题文本的高维特征向量。长短期记忆网络LSTM通过学习问题文本上下文内容的语序,语义,语境等信息,输出语义-主题表征向量,即高维特征向量更好地表征了问题。
b.同时将第三步得到的问题的主题概率分布向量输送到第一Dense线性层,根据当前数据量设置输入向量维度和输出向量的维度,得到问题主题概率分布向量的高维特征向量。Dense层学习一组输入向量维度*输出向量维度的参数,设置输入向量维度为40,输出向量维度为32,则每个问题的主题概率分布向量的维度是1*40,那么Dense层的参数是一个有40*32个参数的矩阵,该矩阵通过对输入向量的各个维度做线性组合得到1*32维的问题主题概率分布向量的高维特征向量。Dense层是常见的对向量各个维度进行组合的网络层,可以通过对向量各个维度的线性组合,得到更有效的信息。
c.将问题文本的高维特征向量和问题主题的高维特征向量拼接在一起得到一个同时包含语义信息和主题信息的丰富的表征向量,拼接方式如:该向量是由第二层LSTM的输出向量(1*128)拼接问题主题的高维特征向量(1*32)得到的一个1*160的特征向量。
d.再将1*160的特征向量输送到第二Dense线性层,设置输入向量维度为特征向量维度,输出向量维度为16,这组参数由Dense层的输入向量的数量以及输出向量的数量决定,如,设置Dense线性层的第二输入向量的维度是160,输出向量的维度是16,那么Dense层的参数是一个有160*16个参数的矩阵,该矩阵通过对输入向量的各个维度做线性组合得到输出向量的各个维度,输出向量的维度是1*16。
e.经过sigmoid非线性激活函数计算得到一个在0-1之间的概率值,若概率值≧预定阈值则预测该问题为虚假问题;若概率值<预定阈值,则预测该问题为正常问题,预定阈值一般取0.5。
sigmoid的函数如下所示:
其中z即问题向量和主题向量拼接得到的目标向量,sigmoid非线性激活函数的输出区间在[0,1],在深度学习领域可以作为一个分类概率的结果表示。预设合适的分类概率的阈值,大于该阈值的问题为正常问题,小于该阈值的问题为虚假问题。
相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,包括:
S10对在问答社区提取的问题文本样本集进行去差异化的预处理;
S20将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
S30对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
S40将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
2.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述S30的具体步骤:
计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
通过如下公式计算逆向文档频率:
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
3.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,所述S40的具体步骤为:将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
4.如权利要求3所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM,设置双向长短期记忆网络LSTM的输出维度,将问题向量输入第一层双向长短期记忆网络LSTM,将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM,第二层双向长短期记忆网络LSTM输出问题文本的语义表征。
5.如权利要求3所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述非线性激活函数的表达式如下:
其中Z为拼接问题文本的语义表征和高维问题-主题概率分布特征向量得到语义-主题表征向量,σ(Z)的输出区间为[0,1]。
6.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式。
7.一种基于文档嵌入的短文本虚假问题分类预测装置,其特征在于,包括:
预处理模块,用于对在问答社区提取的问题文本样本集进行去差异化的预处理,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式;
问题向量映射模块,用于将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
主题概率分布模块,用于对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
深度学习预测模块,用于将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
8.如权利要求7所述的基于文档嵌入的短文本虚假问题分类预测装置,其特征在于,所述主题概率分布模块包括问题特征向量单元和主题向量单元,
问题特征向量单元,用于计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
通过如下公式计算逆向文档频率:
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
主题向量单元,用于采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
9.如权利要求7所述的基于文档嵌入的短文本虚假问题分类预测装置,其特征在于,所述深度学习预测模块包括深度学习模型和预测判断单元,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,用于将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;
预测判断单元,用于若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
CN201910625640.4A 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 Active CN110472045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625640.4A CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625640.4A CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Publications (2)

Publication Number Publication Date
CN110472045A true CN110472045A (zh) 2019-11-19
CN110472045B CN110472045B (zh) 2023-02-03

Family

ID=68508016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625640.4A Active CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Country Status (1)

Country Link
CN (1) CN110472045B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222320A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN113051375A (zh) * 2019-12-27 2021-06-29 阿里巴巴集团控股有限公司 基于问答设备的问答数据的处理方法和装置
CN113407697A (zh) * 2021-06-28 2021-09-17 李蕊男 深度百科学习的中文医疗问句分类系统
CN114579046A (zh) * 2022-01-21 2022-06-03 南华大学 一种云存储相似数据检测方法和系统
CN115394084A (zh) * 2022-08-29 2022-11-25 郑州轻工业大学 一种基于NMF-BiLSTM的城市路网短时交通流预测方法
CN117807322A (zh) * 2024-02-29 2024-04-02 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
US20180268298A1 (en) * 2017-03-15 2018-09-20 Salesforce.Com, Inc. Deep Neural Network-Based Decision Network
CN108874768A (zh) * 2018-05-16 2018-11-23 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
US20180268298A1 (en) * 2017-03-15 2018-09-20 Salesforce.Com, Inc. Deep Neural Network-Based Decision Network
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108874768A (zh) * 2018-05-16 2018-11-23 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王帆: "社交网络信息可信度实时评估的研究与应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222320A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN113051375A (zh) * 2019-12-27 2021-06-29 阿里巴巴集团控股有限公司 基于问答设备的问答数据的处理方法和装置
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112069827B (zh) * 2020-07-30 2022-12-09 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112699662B (zh) * 2020-12-31 2022-08-16 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN112699662A (zh) * 2020-12-31 2021-04-23 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN113407697A (zh) * 2021-06-28 2021-09-17 李蕊男 深度百科学习的中文医疗问句分类系统
CN114579046A (zh) * 2022-01-21 2022-06-03 南华大学 一种云存储相似数据检测方法和系统
CN114579046B (zh) * 2022-01-21 2024-01-02 南华大学 一种云存储相似数据检测方法和系统
CN115394084A (zh) * 2022-08-29 2022-11-25 郑州轻工业大学 一种基于NMF-BiLSTM的城市路网短时交通流预测方法
CN115394084B (zh) * 2022-08-29 2023-07-25 郑州轻工业大学 一种基于NMF-BiLSTM的城市路网短时交通流预测方法
CN117807322A (zh) * 2024-02-29 2024-04-02 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统
CN117807322B (zh) * 2024-02-29 2024-05-14 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN110472045B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN110472045A (zh) 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
Prusa et al. Improving deep neural network design with new text data representations
Moens Argumentation mining: How can a machine acquire common sense and world knowledge?
CN107679580A (zh) 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN106649715A (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
Ma et al. FER‐Net: facial expression recognition using densely connected convolutional network
Ueda et al. Cultural differences in visual search for geometric figures
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
Zhang et al. Data mining applications in university information management system development
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
Miao et al. Research on visual question answering based on GAT relational reasoning
CN114385817A (zh) 实体关系的识别方法、设备及可读存储介质
Kusum et al. Sentiment analysis using global vector and long short-term memory
CN109982272A (zh) 一种诈骗短信识别方法及装置
Nair et al. Knowledge graph based question answering system for remote school education
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Unal et al. Visual persuasion in covid-19 social media content: A multi-modal characterization
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115588193A (zh) 基于图注意力神经网络与视觉关系的视觉问答方法及装置
Guo et al. Double-layer affective visual question answering network
Regino et al. QART: A Framework to Transform Natural Language Questions and Answers into RDF Triples.
Song et al. Deep hierarchical attention flow for visual commonsense reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant