CN110472045B - 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 - Google Patents

一种基于文档嵌入的短文本虚假问题分类预测方法及装置 Download PDF

Info

Publication number
CN110472045B
CN110472045B CN201910625640.4A CN201910625640A CN110472045B CN 110472045 B CN110472045 B CN 110472045B CN 201910625640 A CN201910625640 A CN 201910625640A CN 110472045 B CN110472045 B CN 110472045B
Authority
CN
China
Prior art keywords
vector
text
matrix
theme
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910625640.4A
Other languages
English (en)
Other versions
CN110472045A (zh
Inventor
郑子彬
蔡岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910625640.4A priority Critical patent/CN110472045B/zh
Publication of CN110472045A publication Critical patent/CN110472045A/zh
Application granted granted Critical
Publication of CN110472045B publication Critical patent/CN110472045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于文档嵌入的短文本虚假问题分类预测方法及装置,本装置用于实现本方法,本方法包括对在问答社区提取的问题文本样本集进行去差异化的预处理;将预处理后的问题文本样本集嵌入词库映射并重组获得每个问题文本的问题向量;对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题‑主题概率分布向量W;将问题TFIDF特征向量和最优问题‑主题概率分布向量输入深度学习模型进行训练学习,获取语义‑主题表征向量,非线性激活语义‑主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。本发明提高问题文本的虚实过滤效率。

Description

一种基于文档嵌入的短文本虚假问题分类预测方法及装置
技术领域
本发明涉及数据处理领域,更具体地,涉及一种基于文档嵌入的短文本虚假问题分类预测方法及装置。
背景技术
随着互联网的迅速发展和普及,互联网用户能够获取的信息呈现指数增长,许多用户上网冲浪,常在问答社区提出问题,并与提供独特见解与高质量答案的其他用户联系。但是在Quora,知乎等网络问答社区上,在享受信息增长的便利的同时,也面临着信息过载带来的难题,这些网络问答社区每天都会有大量的用户在上面提出各种类型的问题,但其中有许多问题是虚假问题,包括建立在一个错误的前提上的问题,或者只是为了发布一些声明而不是为了寻求答案的一些问题。网络问答社区需要对这些问题进行监控过滤,将这些虚假问题从该社区撤除或者提醒用户进行修改,而这类工作实际生成的,是对一个问题的虚假性进行分类判断,以快速地寻找更有可能是虚假问题的候选集,过滤掉大部分正常的问题。但是现在,预测性编程和利用机器学习,深度学习的软件完全可以在短时间内完成这一工作,可以大幅降低成本、提升效率。
随着人工智能技术的发展以及大数据应用的广泛开展,业务人员希望通过机器阅读大量的历史问题,自动给出该问题的虚假性分类,以提高监控过滤的效率。同时,也有利于公民根据反馈对问题描述进行修正,更加友好地在社区进行交流。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于文档嵌入的短文本虚假问题分类预测方法及装置。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是提高问题文本的虚实过滤效率,
为了达到上述技术效果,本发明的技术方案如下:
本发明公开了一种基于文档嵌入的短文本虚假问题分类预测方法,包括:
S10对在问答社区提取的问题文本样本集进行去差异化的预处理;
S20将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
S30对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
S40将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
优选地,所述S30的具体步骤:
计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
Figure GDA0003896355960000021
通过如下公式计算逆向文档频率:
Figure GDA0003896355960000022
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
Figure GDA0003896355960000031
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
优选地,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,所述S40的具体步骤为:将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
优选地,所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM,设置双向长短期记忆网络LSTM的输出维度,将问题向量输入第一层双向长短期记忆网络LSTM,将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM,第二层双向长短期记忆网络LSTM输出问题文本的语义表征。
优选地,所述非线性激活函数的表达式如下:
Figure GDA0003896355960000032
其中Z为拼接问题文本的语义表征和高维问题-主题概率分布特征向量得到语义-主题表征向量,σ(Z)的输出区间为[0,1]。
优选地,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式。
本发明还公开了一种基于文档嵌入的短文本虚假问题分类预测装置,用于实现上述方法,其包括:
预处理模块,用于对在问答社区提取的问题文本样本集进行去差异化的预处理,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式;
问题向量映射模块,用于将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
主题概率分布模块,用于对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
深度学习预测模块,用于将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
优选地,基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述主题概率分布模块包括问题特征向量单元和主题向量单元,
问题特征向量单元,用于计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
Figure GDA0003896355960000041
通过如下公式计算逆向文档频率:
Figure GDA0003896355960000042
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
主题向量单元,用于采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
Figure GDA0003896355960000051
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
优选地,基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述深度学习预测模块包括深度学习模型和预测判断单元,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,用于将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;
预测判断单元,用于若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
与现有技术相比,本发明技术方案的有益效果是:本发明系统通过对问题文本进行主题模型训练获取问题TFIDF特征向量,通过NMF非负矩阵近似分解问题TFIDF特征向量求出最优问题-主题概率分布向量,再将两者输入深度学习模型,学习隐藏在问题文本背后的虚假信息,判断该问题的虚假可能性,以提高问题文本虚实过滤的效率。同时,及时发现恶意用户提出的虚假问题尽快消除以防止在全网传播,普通的用户也可以根据及时过滤后的问题文本得到问题的真实反馈或提供更好的修正描述。进一步地,本发明采用两层双向长短期记忆网络LSTM,根据问题文本的上下文内容,提取问题的语序,语境,语义等信息,以此丰富问题文本的表达。对于主题向量,采用Dense线性层提取高维特征,可得到问题更高维度的主题特征。进一步地,对于待预测的问题,计算其问题向量和主题向量,通过深度学习模型的计算输出值,与训练模型给出分类的预定阈值进行比较,得到带预测问题的正常和虚假的分类。
附图说明
图1为本发明所述基于文档嵌入的短文本虚假问题分类预测方法一实施例的方法流程图;
图2本发明所述基于文档嵌入的短文本虚假问题分类预测装置一实施例的功能模块图;
图3为本发明所述深度学习模型的架构框图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一、对问答社区的问题样本集合进行预处理。
首先将问题的全部字符转换为小写字符,可以对单词进行去差异化,如How和how本质上是同一个单词,但如果没有转换为小写的话会被识别为两个单词,从而影响训练过程,故需将How转换为how;
其次去除问题中的另类字符,另类字符包括文本中的异常符号和无具体释义的非文本符号,如星星符号,箭头符号等;
并对问题集提取常见的缩写调整为全拼写的形式,如you’re拆分为you are,以方便后续的文本向量映射的操作。
二、对问题文本进行词向量映射,得到问题向量。
对于预处理的问题文本,首先得到问题集的词汇表,对于词汇表中出现的单词,使用wiki(维基百科),googlenews(谷歌词库)等Embeddings获取到每个单词对应的词向量,最终利用单词的词向量进行重组,得到每一个问题的问题向量。
三、对问题文本进行主题模型训练,获取主题概率分布向量。
分别计算每个问题文档d中的词语数Count(d),词语w出现在文档d中的次数Count(w|d),整个文档集合D中文档数N以及出现过词语w的文章数nw,再分别计算词频(TF)和逆向文档频率(IDF)。公式为:
Figure GDA0003896355960000071
Figure GDA0003896355960000072
得到词频(TF)和逆向文档频率(IDF)之后,计算两者乘积最终可以得到文档d中词语w的TFIDF值,即作为文档d中词语w的特征向量。
利用TF-IDF得到每一个问题中每一个词的特征向量之后,可以组成一个问题-词语矩阵A,然后利用NMF——非负矩阵分解的方法,将矩阵A分解成W,H两个矩阵相乘的形式,其中W矩阵可代表问题-主题的概率分布,H矩阵代表主题-词语的概率分布,分解之后即可将W矩阵作为问题的主题概率分布向量。
NMF将矩阵A分解成矩阵W和矩阵H相乘的形式,A≈W*H,从而完成问题主题模型的训练。具体的分解过程由下述公式所示:
Figure GDA0003896355960000073
NMF试图训练两个矩阵W、H,使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,即公式所表达的最小化(argmin)它们之间的差值从而得到训练完成的矩阵W和矩阵H。以此来还原矩阵A,得到的矩阵W即可更加准确地代表问题的主题概率分布。
这样对于问题集合中的m个问题,n个词,A是一个m*n的矩阵,W是一个m*x的矩阵,H是一个x*n的矩阵,其中x为主题数量,k∈(0,x).Aij对应第i个问题的第j个词的TFIDF特征值,i∈(0,m),j∈(0,n)。(WH)ij即可作为第i个问题的特征向量,是由问题-主题向量和主题-词语向量相乘所得,即由Wik以及Hkj相乘得到,其中Wik为第i个问题和第k个主题的概率相关度,Hkj为第j个词和第k个主题的概率相关度。
因此可以训练得到每一个问题的主题概率分布向量,根据问题-主题的概率相关度,可以得到不同问题的主题偏向,概率相关度越大,则该问题就属于这类主题的问题。
四、将问题向量和主题概率分布向量输入深度学习模型,进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类。
a.首先将第二步得到的问题向量输入到两层相同结构的双向长短期记忆网络LSTM,提取问题文本的语义等信息,得到问题文本的高维特征向量。长短期记忆网络LSTM通过学习问题文本上下文内容的语序,语义,语境等信息,输出语义-主题表征向量,即高维特征向量更好地表征了问题。
b.同时将第三步得到的问题的主题概率分布向量输送到第一Dense线性层,根据当前数据量设置输入向量维度和输出向量的维度,得到问题主题概率分布向量的高维特征向量。Dense层学习一组输入向量维度*输出向量维度的参数,设置输入向量维度为40,输出向量维度为32,则每个问题的主题概率分布向量的维度是1*40,那么Dense层的参数是一个有40*32个参数的矩阵,该矩阵通过对输入向量的各个维度做线性组合得到1*32维的问题主题概率分布向量的高维特征向量。Dense层是常见的对向量各个维度进行组合的网络层,可以通过对向量各个维度的线性组合,得到更有效的信息。
c.将问题文本的高维特征向量和问题主题的高维特征向量拼接在一起得到一个同时包含语义信息和主题信息的丰富的表征向量,拼接方式如:该向量是由第二层LSTM的输出向量(1*128)拼接问题主题的高维特征向量(1*32)得到的一个1*160的特征向量。
d.再将1*160的特征向量输送到第二Dense线性层,设置输入向量维度为特征向量维度,输出向量维度为16,这组参数由Dense层的输入向量的数量以及输出向量的数量决定,如,设置Dense线性层的第二输入向量的维度是160,输出向量的维度是16,那么Dense层的参数是一个有160*16个参数的矩阵,该矩阵通过对输入向量的各个维度做线性组合得到输出向量的各个维度,输出向量的维度是1*16。
e.经过sigmoid非线性激活函数计算得到一个在0-1之间的概率值,若概率值≧预定阈值则预测该问题为虚假问题;若概率值<预定阈值,则预测该问题为正常问题,预定阈值一般取0.5。
sigmoid的函数如下所示:
Figure GDA0003896355960000091
其中z即问题向量和主题向量拼接得到的目标向量,sigmoid非线性激活函数的输出区间在[0,1],在深度学习领域可以作为一个分类概率的结果表示。预设合适的分类概率的阈值,大于该阈值的问题为正常问题,小于该阈值的问题为虚假问题。
相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,包括:
S10对在问答社区提取的问题文本样本集进行去差异化的预处理;
S20将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
S30对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
S40将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类;
所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,所述S40的具体步骤为:将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
2.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述S30的具体步骤:
计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
Figure FDA0003866642560000011
通过如下公式计算逆向文档频率:
Figure FDA0003866642560000021
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
Figure FDA0003866642560000022
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
3.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述长短期记忆层包括两层相同结构的双向长短期记忆网络LSTM,设置双向长短期记忆网络LSTM的输出维度,将问题向量输入第一层双向长短期记忆网络LSTM,将第一层双向长短期记忆网络LSTM的输出输入第二层双向长短期记忆网络LSTM,第二层双向长短期记忆网络LSTM输出问题文本的语义表征。
4.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述非线性激活函数的表达式如下:
Figure FDA0003866642560000031
其中Z为拼接问题文本的语义表征和高维问题-主题概率分布特征向量得到语义-主题表征向量,σ(Z)的输出区间为[0,1]。
5.如权利要求1所述的基于文档嵌入的短文本虚假问题分类预测方法,其特征在于,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式。
6.一种基于文档嵌入的短文本虚假问题分类预测装置,其特征在于,包括:
预处理模块,用于对在问答社区提取的问题文本样本集进行去差异化的预处理,所述去差异化的预处理至少包括文本字符大小写的统一;文本异常字符的去除;将文本中的缩写形式转换全文形式;
问题向量映射模块,用于将预处理后的问题文本样本集嵌入词库映射,以获取每个单词对应的词向量,重组单词的词向量获得每个问题文本的问题向量;
主题概率分布模块,用于对问题文本进行主题模型训练,计算获取问题TFIDF特征向量,采用NMF非负矩阵分解法近似分解问题TFIDF特征向量并求出最优问题-主题概率分布向量W;
深度学习预测模块,用于将问题TFIDF特征向量和最优问题-主题概率分布向量输入深度学习模型进行训练学习,获取语义-主题表征向量,非线性激活语义-主题表征向量以获取预测问题的分类概率值,根据预测问题的分类概率值判断问题的虚实分类;
所述深度学习预测模块包括深度学习模型和预测判断单元,所述深度学习模型包括问题嵌入层、长短期记忆层、主题特征输入层、第一线性层、连接层、第二线性层、非线性激活层和预测判断层,用于将问题向量通过问题嵌入层输入长短期记忆层LSTM,以根据问题的上下文内容提取问题文本的语义表征;将最优问题-主题概率分布向量W通过主题特征输入层输入第一线性层以提取问题-主题概率分布特征向量的高维特征,拼接问题文本的语义表征和问题-主题概率分布特征向量的高维特征得到语义-主题表征向量,将语义-主题表征向量输入第二线性层得到语义-主题表征矩阵;将语义-主题表征矩阵输入非线性激活层,非线性激活层利用非线性激活函数计算得到预测问题的分类概率值;
预测判断单元,用于若预测问题的分类概率值大于预定阈值,则判断该问题为虚假问题;反之,则判断该问题为正常问题。
7.如权利要求6所述的基于文档嵌入的短文本虚假问题分类预测装置,其特征在于,所述主题概率分布模块包括问题特征向量单元和主题向量单元,
问题特征向量单元,用于计算每个问题文本d的词语数count(d),词语w在该问题文本d中出现的次数Count(w|d),整文本集合中问题文本数N以及出现过词语w的文本数nw
通过如下公式计算词频(TF):
Figure FDA0003866642560000041
通过如下公式计算逆向文档频率:
Figure FDA0003866642560000042
计算词频(TF)和逆向文档频率(IDF)的乘积,获得问题文本d中词语w的TFIDF特征向量;
主题向量单元,用于采用NMF非负矩阵分解法将矩阵A近似分解成W矩阵和H矩阵两个矩阵相乘形式A≈W*H,其中W矩阵表示问题-主题的概率分布,H矩阵表示主题-词语的概率分布:
定义问题集合中的m个问题,n个词,A为一个m*n的矩阵,矩阵W为一个m*x的问题-主题的概率分布,矩阵H为一个x*n的主题-词语的概率分布,x为主题数量的参数,Aij表示第i个问题文本的第j个词的TFIDF特征值,随机初始化矩阵W和H,矩阵W中Wik表示第i个问题文本第k个主题的概率相关度,矩阵H中Hkj表示第j个词第k个主题的概率相关度,将Aij采用非负矩阵分解法近似分解为:
Aij≈(WH)ij=Wik*Hkj
通过如下公式训练两个矩阵W和H:
Figure FDA0003866642560000043
使得矩阵W和矩阵H的乘积得到的矩阵对应的每个位置的值和原矩阵A对应位置的值相比误差尽可能小,最小化它们之间的差值,训练得到最优问题-主题概率分布向量W。
CN201910625640.4A 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 Active CN110472045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625640.4A CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625640.4A CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Publications (2)

Publication Number Publication Date
CN110472045A CN110472045A (zh) 2019-11-19
CN110472045B true CN110472045B (zh) 2023-02-03

Family

ID=68508016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625640.4A Active CN110472045B (zh) 2019-07-11 2019-07-11 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Country Status (1)

Country Link
CN (1) CN110472045B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222320B (zh) * 2019-12-17 2020-10-20 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN113051375B (zh) * 2019-12-27 2024-06-14 阿里巴巴集团控股有限公司 基于问答设备的问答数据的处理方法和装置
CN113111167A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本车辆型号提取方法和装置
CN112069827B (zh) * 2020-07-30 2022-12-09 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112699662B (zh) * 2020-12-31 2022-08-16 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN113407697A (zh) * 2021-06-28 2021-09-17 李蕊男 深度百科学习的中文医疗问句分类系统
CN114579046B (zh) * 2022-01-21 2024-01-02 南华大学 一种云存储相似数据检测方法和系统
CN115394084B (zh) * 2022-08-29 2023-07-25 郑州轻工业大学 一种基于NMF-BiLSTM的城市路网短时交通流预测方法
CN117807322B (zh) * 2024-02-29 2024-05-14 南京信息工程大学 一种基于知识图谱检索的虚假新闻检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108874768A (zh) * 2018-05-16 2018-11-23 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US10387430B2 (en) * 2015-02-26 2019-08-20 International Business Machines Corporation Geometry-directed active question selection for question answering systems
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108874768A (zh) * 2018-05-16 2018-11-23 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
社交网络信息可信度实时评估的研究与应用;王帆;《中国优秀硕士学位论文全文数据库》;20180215;全文 *

Also Published As

Publication number Publication date
CN110472045A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472045B (zh) 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN107066446B (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110175229B (zh) 一种基于自然语言进行在线培训的方法和系统
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
Sunkle et al. Informed active learning to aid domain experts in modeling compliance
CN110543551B (zh) 一种问题语句处理方法和装置
CN116662522B (zh) 问题答案推荐方法、存储介质和电子设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116662960A (zh) 通过有限身份信息生成自我介绍的系统、方法及存储介质
CN116562296A (zh) 地理命名实体识别模型训练方法及地理命名实体识别方法
Yang [Retracted] Application of English Vocabulary Presentation Based on Clustering in College English Teaching
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
JP2003058861A (ja) データエラーの検出方法及び装置、ソフトウェア並びにその記憶媒体
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN112487165A (zh) 一种基于关键词的问答方法、装置及介质
Zhu et al. A Performance Comparison of Fake News Detection Approaches
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant