CN111460105A - 基于短文本的主题挖掘方法、系统、设备及存储介质 - Google Patents

基于短文本的主题挖掘方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN111460105A
CN111460105A CN202010256606.7A CN202010256606A CN111460105A CN 111460105 A CN111460105 A CN 111460105A CN 202010256606 A CN202010256606 A CN 202010256606A CN 111460105 A CN111460105 A CN 111460105A
Authority
CN
China
Prior art keywords
short text
text
short
trained
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010256606.7A
Other languages
English (en)
Other versions
CN111460105B (zh
Inventor
李春平
吴小宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010256606.7A priority Critical patent/CN111460105B/zh
Publication of CN111460105A publication Critical patent/CN111460105A/zh
Application granted granted Critical
Publication of CN111460105B publication Critical patent/CN111460105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例涉及文本数据处理技术领域,公开了基于短文本的主题挖掘方法、系统、设备及存储介质。本发明实施例先获取待处理短文本;通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。可见,本发明实施例由于应用一个专门面向短文本处理的主题挖掘模型去处理短文本的主题挖掘操作,可以准确地挖掘出短文本主题,解决了较难准确地挖掘出高质量短文本主题的技术问题。

Description

基于短文本的主题挖掘方法、系统、设备及存储介质
技术领域
本发明涉及文本数据处理技术领域,尤其涉及基于短文本的主题挖掘方法、系统、设备及存储介质。
背景技术
随着在当今互联网的飞速发展,短文本变得愈加流行,典型的短文本例如微博、购物网站的评论及新闻标题等。
可见,短文本是一类文本长度较短且内容有限的文本数据。至于短文本的字数限制可在50个字以内,也可在100个字以内,此处不作硬性限制,短文本是一种学界使用得较为广泛的文本类型表述。
人们倾向于使用短文本来表达观点和情感,而且,从短文本中挖掘出的隐含主题也已经在语义分析、用户建模和内容推荐等领域发挥着较为重要的作用。
但是,相较于普通的长文本,在针对短文本进行主题挖掘时,由于短文本的文本词数相对较少、数据极其稀疏等状况,使得较难挖掘出短文本的主题。
发明内容
为了解决较难准确地挖掘出高质量短文本主题的技术问题,本发明实施例提供基于短文本的主题挖掘方法、系统、设备及存储介质。
第一方面,本发明实施例提供一种基于短文本的主题挖掘方法,包括:
获取待处理短文本;
通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
优选地,所述获取待处理短文本之前,所述基于短文本的主题挖掘方法还包括:
获取待训练短文本集合;
对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合;
通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征;
对所述编码特征在预设映射空间中进行向量量化操作,以获得量化特征;
基于所述量化特征进行短文本的预测操作,以获得预测短文本;
根据所述待训练短文本与所述预测短文本之间的重构误差信息对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
优选地,所述预设编码器包括预设多层感知器;
所述通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征,包括:
通过预设词袋模型处理所述目标文本集合,以获得与所述目标文本集合中的目标短文本对应的文本表示信息;
通过所述预设多层感知器处理所述文本表示信息,以获得编码特征。
优选地,所述基于所述量化特征进行短文本的预测操作,以获得预测短文本,包括:
将所述量化特征与预设词分布矩阵相乘,以获得乘积;
对所述乘积进行归一化处理,以获得预测短文本。
优选地,所述对所述编码特征在预设映射空间中进行向量量化操作,以获得量化特征之后,所述基于短文本的主题挖掘方法还包括:
对所述量化特征进行负例采样,以获得负例词汇;
所述根据所述待训练短文本与所述预测短文本之间的重构误差信息对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型,包括:
根据所述待训练短文本与所述预测短文本之间的重构误差信息、所述量化特征中的向量距离及所述负例词汇对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
优选地,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
对所述待训练短文本集合中的待训练短文本进行分词处理,以获得目标文本集合。
优选地,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
从所述待训练短文本集合中的待训练短文本中去除预设非法符号,以获得调整后的待训练短文本集合,并将调整后的待训练短文本集合记为目标文本集合。
第二方面,本发明实施例提供一种基于短文本的主题挖掘系统,包括:
文本获取模块,用于获取待处理短文本;
主题挖掘模块,用于通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的一种基于短文本的主题挖掘方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面提供的一种基于短文本的主题挖掘方法的步骤。
本发明实施例提供的基于短文本的主题挖掘方法、系统、设备及存储介质,先获取待处理短文本;通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。可见,本发明实施例由于应用一个专门面向短文本处理的主题挖掘模型去处理短文本的主题挖掘操作,可以准确地挖掘出短文本主题,解决了较难准确地挖掘出高质量短文本主题的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于短文本的主题挖掘方法的流程图;
图2为本发明又一实施例提供的一种基于短文本的主题挖掘方法的流程图;
图3为本发明再一实施例提供的一种基于短文本的主题挖掘方法的流程图;
图4为本发明实施例提供的一种基于短文本的主题挖掘系统的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于短文本的主题挖掘方法的流程图,如图1所示,该方法包括:
S1,获取待处理短文本。
S2,通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
可以理解的是,正是因为相较于普通的长文本,在针对短文本进行主题挖掘时,短文本存在着文本词数相对较少、数据极其稀疏等诸多状况,使得较难挖掘出短文本的主题,所以,本实施例将提出一个专门面向短文本处理的主题挖掘模型,以更好地提取出短文本中的主题。
其中,预设短文本主题挖掘模型为面向短文本的主题挖掘模型,可准确地提取出短文本中的主题分布信息。
本发明实施例提供的基于短文本的主题挖掘方法,先获取待处理短文本;通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。可见,本发明实施例由于应用一个专门面向短文本处理的主题挖掘模型去处理短文本的主题挖掘操作,可以准确地挖掘出短文本主题,解决了较难准确地挖掘出高质量短文本主题的技术问题。
图2为本发明又一实施例提供的一种基于短文本的主题挖掘方法的流程图,本发明又一实施例基于上述图1所示的实施例。
本实施例中,所述S1之前,所述基于短文本的主题挖掘方法还包括:
S01,获取待训练短文本集合。
S02,对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合。
可以理解的是,本实施例将给出一种预设短文本主题挖掘模型的获得方式,具体如下。
在具体实现中,可先通过网络爬虫在网络平台上获取待训练短文本集合,待训练短文本集合中的待训练短文本可涉及新闻标题、评论及问题标题等短文本数据。
接着,可对待训练短文本进行预处理操作,可将预处理后的待训练短文本记为目标文本集合。
S03,通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征。
应当理解的是,可对目标文本集合中的目标短文本进行编码操作,从而得到编码特征,编码特征可记为θe
其中,编码特征还可记为主题分布概率,为主题分布信息。至于此处使用的预设编码器(Encoder)类型不作硬性限制。
S04,对所述编码特征在预设映射空间中进行向量量化操作,以获得量化特征。
在完成编码过程后,可进入向量量化过程(Vector Quantization)。在向量量化过程中,可基于预设映射空间处理编码特征θe,以得到量化特征θq
S05,基于所述量化特征进行短文本的预测操作,以获得预测短文本。
具体地,量化特征可通过解码器(Decoder)进行短文本的预测操作,以获得预测短文本。
S06,根据所述待训练短文本与所述预测短文本之间的重构误差信息对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
应当理解的是,可通过比较待训练短文本与所述预测短文本之间的区别即重构误差信息来对模型进行训练,以优化待训练短文本主题挖掘模型中的模型参数,从而获得训练后的模型。
具体地,鉴于预设短文本主题挖掘模型属于无监督学习模型,没有标签信息,所以,该模型主要通过衡量原输入文本和输出的预测文本之间的差异进行训练。
本发明实施例提供的基于短文本的主题挖掘方法,给出了一种预设短文本主题挖掘模型的训练方式,在该训练方式中由于将编码特征映射到映射空间中,提高了相同主题间的集中性,进而提高了最终主题挖掘的准确性。
在上述实施例的基础上,优选地,所述预设编码器包括预设多层感知器;
所述通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征,包括:
通过预设词袋模型处理所述目标文本集合,以获得与所述目标文本集合中的目标短文本对应的文本表示信息;
通过所述预设多层感知器处理所述文本表示信息,以获得编码特征。
在具体实现中,此处给出一类编码过程的具体实现方式。
比如,鉴于主题挖掘模型主要通过词语间的共现性来提取出主题语义信息,即上文提及的主题分布信息,由此可通过词袋模型来表示文本数据,即对于一个短文本而言,可统计每个词的出现次数,词之间的顺序先不予考虑。
通过预设词袋模型表示每个目标短文本,目标短文本对应的文本表示信息可记为w=(n1,n2,…,nV)。其中,ni表示第i个词在目标短文本中的数量,V表示总词汇量。
在获得文本表示信息w后,可正式进入编码过程。
在编码过程中,可通过预设多层感知器处理该文本表示信息,以获得编码特征θe
可以理解的是,鉴于预设多层感知器属于一种简易的神经网络模型,其结构可表示如下:
π1=ζ(W1w)
π2=ζ(W2π2)
θe=σ(π2)
其中,W1和W2为线性变换矩阵,为了简洁性,该结构中的偏置项(bias term)被省略;π1和π2表示中间结果;ζ(·)表示激活函数;θe表示编码特征;σ(·)表示softmax函数。
其中,softmax函数的具体定义可如下,
Figure BDA0002437577100000081
其中,i,j均表示序号,softmax函数将向量进行归一化。
其中,ζ(·)激活函数可为softplus激活函数,具体定义如下,
ζ(x)=log(1+exp(x))。
应当理解的是,完成编码过程后获得的编码特征θe可用于后续的向量量化环节。
在上述实施例的基础上,可进一步地细化向量量化环节。
就向量量化环节而言,可基于预设映射空间处理编码特征θe,以得到量化特征θq
具体地,可先设置预设映射空间(embedding space),也可称为码本(code book)。
其中,该预设映射空间可记为下式,
e=(e1,e2,…,eB)∈RK×B
其中,ei表示嵌入向量,i表示序号;K表示映射向量的特征大小,同时,也是主题数量;B表示映射空间的大小;R为实数集合,RK×B则表示e是K×B维的实数矩阵,其中,ei为K×1维的向量。
进一步地,通过实验发现,映射空间的初始化对于短文本建模的建模效果有很大影响。
比如,如果全部进行随机初始化,嵌入向量之间的距离会过近,从而导致难以学习到合适的映射关系,也会使得出现多种重复主题。
为了能够通过向量量化环节提高短文本主题的多样性,本发明实施例可最大化映射向量之间的距离,比如,将预设映射空间中的一部分初始化为单位矩阵,另一部分通过均匀分布进行随机初始化,即
Figure BDA0002437577100000091
明显地,预设映射空间不进行全部随机初始化。
其中,Uniform为均匀分布(uniform distribution)函数,其作用为,从一定范围内均匀随机地选择出一个数用于对嵌入向量进行初始化。
那么,预设映射空间可以写为下式,
Figure BDA0002437577100000092
进一步地,在定义了预设映射空间后,可将短文本经过预设编码器处理后得到的编码特征θe,再经过向量量化机制,以得到量化特征θq,可定义如下:
θq=ek,where k=argminj||θe-ej||2
明显地,可通过计算编码特征θe到预设映射空间中每个向量的距离来选定量化特征θq
进一步地,模型中隐变量φ的后验分布建模可为下式,
Figure BDA0002437577100000101
可以发现,经过向量量化环节,编码特征θe倾向于选择预设映射空间中距离最近的向量ek。由此,获得的主题分布信息会更加集中,从而能够提高模型的建模效果。
可见,通过计算编码特征到预设映射空间中各个向量的距离,选择最接近的作为量化特征。
在上述实施例的基础上,优选地,所述基于所述量化特征进行短文本的预测操作,以获得预测短文本,包括:
将所述量化特征与预设词分布矩阵相乘,以获得乘积;
对所述乘积进行归一化处理,以获得预测短文本。
可以理解的是,该预测操作实质上就是一类解码操作。
进一步地,在主题模型中,文本生成过程的边缘分布可记为p(w|α,β),表示如下
Figure BDA0002437577100000102
其中,w表示当前的短文本的文本表示信息;θ为主题分布信息;α表示狄利克雷分布(Dirichlet distribution)的分布参数;β表示各个主题分别对应的预设词分布矩阵,β=(β12,…βk)∈RV×K,βk是指第k个主题的预设词分布矩阵。
其中,N表示当前的短文本中的词数,K表示主题数量。
进一步地,在传统的基于概率图模型的主题挖掘模型中,β一般从狄利克雷分布中采样获得,而在本模型中,β为随机初始化并在训练过程中进行优化。
进一步,为了更加方便地进行建模操作,还可对离散的变量z进行积分,可得到,
Figure BDA0002437577100000111
最终,根据上述简化后的边缘分布公式,可将解码过程建模为wn~Mult(σ(βθq)),解码过程即为预测过程。
由此,总体的目标函数可以写为下式,可记为第一目标函数:
Figure BDA0002437577100000112
其中,D表示短文本的数量,w(d)表示短文本d的词袋模型表示,
Figure BDA0002437577100000113
表示短文本d在预设编码器处理后得到的编码特征,
Figure BDA0002437577100000114
表示
Figure BDA0002437577100000115
经过向量量化后得到的主题分布信息,也可记为量化特征,β表示各个主题分别对应的预设词分布矩阵,λ表示超参数。
其中,sg(·)函数表示stop gradient操作,stop gradient操作用于停止梯度计算,可定义如下
Figure BDA0002437577100000116
其含义为,在前向传播(forward pass)时,函数输出等于原输入保持不变;在后向传播(backward pass)时,其输入的导数为0,即不更新其参数。
其中,公式的第一项
Figure BDA0002437577100000117
以交叉熵形式表示重构误差(reconstruction error)信息,用于衡量原短文本与预测短文本之间的差距。
其中,公式的第二项
Figure BDA0002437577100000121
使得量化特征
Figure BDA0002437577100000122
能够接近编码特征
Figure BDA0002437577100000123
公式的第三项
Figure BDA0002437577100000124
使得编码特征
Figure BDA0002437577100000125
不能远离其对应的量化特征
Figure BDA0002437577100000126
可见,通过以上方式,主题分布的变量仅会从映射空间中产生,并通过合理地设置映射空间的初始化向量,可以得到更加集中的主题分布。
图3为本发明再一实施例提供的一种基于短文本的主题挖掘方法的流程图,本发明再一实施例基于上述图2所示的实施例。
本实施例中,所述S04之后,所述基于短文本的主题挖掘方法还包括:
S041,对所述量化特征进行负例采样,以获得负例词汇。
可以理解的是,为了进一步地优化主题挖掘效果,本实施例还可引入基于词分布的负采样(Negative Sampling)环节。
应当理解的是,在长文本环境中,单词出现频率较高,拥有着足够的上下文环境来进行模型建模;然而,短文本中数据稀疏,每个文本中的词数极少,难以提供足够的学习信号。正是考虑到短文本的上述现实状况,可以使用一个文本中未出现的词作为负例,进而完成模型建模操作。
进一步地,引入负例的相似构思虽然曾应用于协同过滤(CollaborateFiltering)等领域,但是,这些领域均是直接使用所有的负例来进行学习,即词的负例ν=1-w,其中,w为原文本输入。可是,这种直接的应用方式没有明显地区分出作为负例的在不同主题下的词,因此,效果有限。
可以理解的是,本实施例应用负例的具体应用方式将不会直接使用一个样本点所有的负例进行学习。
具体地,本实施例应用负例的具体应用方式可细化为,其一,可先给定一个短文本d和该短文本对应的主题分布信息θq,主题数量为K,接着,去除掉概率最高的t个主题,然后,从剩余的(K-t)个主题采样出一个主题z。
其中,上述主题分布信息θq即为量化特征。
其中,上述采样操作涉及到的采样公式可为z~Mult(p,1),
该采样公式反应了从主题中采样出第z个主题,其中,主题z即为需要从中采样负例词汇的主题。
此外,该采样公式可记为第一采样公式。
其中,p=(p1,p2,…,pk),pk可定义为
Figure BDA0002437577100000131
其中,k表示第k个主题,其他情况是指主题k不在被排除的t个主题中。
可见,如果主题k在被排除的t个主题中,选中的概率为0;如果不在,则按照相同概率选取。
至于上述第一采样公式中的z,用于代表在某一短文本中应避免与该短文本关联的某个主题,自然,该短文本d涉及到主题z的概率较低。
其二,可应用以主题z的词分布信息作为参数的多项式分布(MultinomialDistribution),从该多项式分布中采样出M个词,涉及到的采样公式如下,可记为第二采样公式,
v~Mult(βz,M)。
可以理解的是,在通过第一采样公式得到需要从中采样负例词汇的主题z后,第二采样公式可从主题z中采样出M个负例词汇。
其中,v代表该短文本在解码时应避免生成的词。例如,对于可能为“体育”主题下的短文本而言,可以从其它主题例如“商业”中采样出负例词汇。
该种负例词汇的获取方式,一方面可以优化学习效果,另一方面也可以使得学习过程中更容易产生差别度较大的主题词分布。
进一步地,所述S06,包括:
S061,根据所述待训练短文本与所述预测短文本之间的重构误差信息、所述量化特征中的向量距离及所述负例词汇对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
可以理解的是,在获得负例词汇后,可同时参考原输入的短文本与预测短文本的重构误差、向量距离以及负例词汇的生成情况来进行模型训练。
进一步地,由此,本实施例对应的总体的目标函数可以写成如下,可记为第二目标函数:
Figure BDA0002437577100000141
可见,第一目标函数与第二目标函数不同,第一目标函数不包括对于负例词汇的学习,第二目标函数包括采样出的负例词汇。
其中,公式中的
Figure BDA0002437577100000142
使得在解码生成过程中,模型可避免负例词汇的生成。通过交叉熵的形式,可以使得预测生成的文本中词的概率逐渐增大,而生成负例样本词的概率逐渐减少,从而提高了主题的关联性和多样性。
本发明实施例提供的基于短文本的主题挖掘方法,给出了一种预设短文本主题挖掘模型的训练方式,在该训练方式中将同时考量原输入的短文本与预测短文本的重构误差、负例词汇的生成情况以及向量距离来进行训练,从而优化模型参数。同时,训练完成后,可得到短文本集合中各个主题下的分布和每个短文本的主题分布信息。此外,由于引入了与词对应的负例采样环节,使得不同主题之间的距离更大,从而更进一步地增强了主题词之间的关联性以及主题的多样性;并且,在一定程度上避免了之前在数据严重稀疏情形下大量重复主题出现的状况。
在上述实施例的基础上,优选地,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
对所述待训练短文本集合中的待训练短文本进行分词处理,以获得目标文本集合。
在具体实现中,就预处理操作而言,若为待训练短文本为中文短文本,则可对待训练短文本进行切词分割处理,以分离出分词。
在上述实施例的基础上,优选地,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
从所述待训练短文本集合中的待训练短文本中去除预设非法符号,以获得调整后的待训练短文本集合,并将调整后的待训练短文本集合记为目标文本集合。
可以理解的是,可去除的预设非法符号包括标点符号、停用词等,当然,还可去除掉出现频率较低的词。
进一步地,在进行编码操作之前,还可先将目标文本集合中的各个符号进行最小化操作。
进一步地,本发明实施例还可先去除预设非法符号,然后,对调整后的待训练短文本集合进行分词处理,以获得目标文本集合。明显地,可先进行文本调整,再进行分词处理。
进一步地,就模型使用环节而言,可先对待处理短文本进行预处理,基于预处理后的待处理短文本来使用预设短文本主题挖掘模型以提取出其中的主题分布信息。
至于此处使用的预处理操作可参见上文。
进一步地,就模型训练环节而言,可在部分模型训练操作后,增加化批标准化(Batch Normalization)处理,以提高训练的稳定性。
同时,为了提高效率,还可选用mini-batch随机梯度下降的方式来优化模型网络中的参数。比如,每轮训练时,可提供一个批次的数据作为训练集,求导后进行参数更新。
图4为本发明实施例提供的一种基于短文本的主题挖掘系统的结构示意图,如图4所示,该系统包括:文本获取模块301、主题挖掘模块302;
文本获取模块301,用于获取待处理短文本;
主题挖掘模块302,用于通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
本发明实施例提供的基于短文本的主题挖掘系统,先获取待处理短文本;通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。可见,本发明实施例由于应用一个专门面向短文本处理的主题挖掘模型去处理短文本的主题挖掘操作,可以准确地挖掘出短文本主题,解决了较难准确地挖掘出高质量短文本主题的技术问题。
本发明实施例提供的系统实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行包括如下的方法:
获取待处理短文本;
通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待处理短文本;
通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于短文本的主题挖掘方法,其特征在于,包括:
获取待处理短文本;
通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
2.根据权利要求1所述的基于短文本的主题挖掘方法,其特征在于,所述获取待处理短文本之前,所述基于短文本的主题挖掘方法还包括:
获取待训练短文本集合;
对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合;
通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征;
对所述编码特征在预设映射空间中进行向量量化操作,以获得量化特征;
基于所述量化特征进行短文本的预测操作,以获得预测短文本;
根据所述待训练短文本与所述预测短文本之间的重构误差信息对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
3.根据权利要求2所述的基于短文本的主题挖掘方法,其特征在于,所述预设编码器包括预设多层感知器;
所述通过预设编码器对所述目标文本集合进行编码操作,以获得编码特征,包括:
通过预设词袋模型处理所述目标文本集合,以获得与所述目标文本集合中的目标短文本对应的文本表示信息;
通过所述预设多层感知器处理所述文本表示信息,以获得编码特征。
4.根据权利要求2所述的基于短文本的主题挖掘方法,其特征在于,所述基于所述量化特征进行短文本的预测操作,以获得预测短文本,包括:
将所述量化特征与预设词分布矩阵相乘,以获得乘积;
对所述乘积进行归一化处理,以获得预测短文本。
5.根据权利要求2所述的基于短文本的主题挖掘方法,其特征在于,所述对所述编码特征在预设映射空间中进行向量量化操作,以获得量化特征之后,所述基于短文本的主题挖掘方法还包括:
对所述量化特征进行负例采样,以获得负例词汇;
所述根据所述待训练短文本与所述预测短文本之间的重构误差信息对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型,包括:
根据所述待训练短文本与所述预测短文本之间的重构误差信息、所述量化特征中的向量距离及所述负例词汇对待训练短文本主题挖掘模型进行训练,以获得训练后的预设短文本主题挖掘模型。
6.根据权利要求2至5中任一项所述的基于短文本的主题挖掘方法,其特征在于,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
对所述待训练短文本集合中的待训练短文本进行分词处理,以获得目标文本集合。
7.根据权利要求2至5中任一项所述的基于短文本的主题挖掘方法,其特征在于,所述对所述待训练短文本集合中的待训练短文本进行预处理,以获得目标文本集合,包括:
从所述待训练短文本集合中的待训练短文本中去除预设非法符号,以获得调整后的待训练短文本集合,并将调整后的待训练短文本集合记为目标文本集合。
8.一种基于短文本的主题挖掘系统,其特征在于,包括:
文本获取模块,用于获取待处理短文本;
主题挖掘模块,用于通过预设短文本主题挖掘模型提取所述待处理短文本中的主题分布信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述基于短文本的主题挖掘方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于短文本的主题挖掘方法的步骤。
CN202010256606.7A 2020-04-02 2020-04-02 基于短文本的主题挖掘方法、系统、设备及存储介质 Active CN111460105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256606.7A CN111460105B (zh) 2020-04-02 2020-04-02 基于短文本的主题挖掘方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256606.7A CN111460105B (zh) 2020-04-02 2020-04-02 基于短文本的主题挖掘方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111460105A true CN111460105A (zh) 2020-07-28
CN111460105B CN111460105B (zh) 2023-08-29

Family

ID=71684387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256606.7A Active CN111460105B (zh) 2020-04-02 2020-04-02 基于短文本的主题挖掘方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111460105B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180203848A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Author personality trait recognition from short texts with a deep compositional learning approach
CN108416032A (zh) * 2018-03-12 2018-08-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN110083676A (zh) * 2019-04-22 2019-08-02 东北大学 一种基于短文本的领域动态跟踪方法
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180203848A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Author personality trait recognition from short texts with a deep compositional learning approach
CN108416032A (zh) * 2018-03-12 2018-08-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置及存储介质
CN110083676A (zh) * 2019-04-22 2019-08-02 东北大学 一种基于短文本的领域动态跟踪方法
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨萌萌 等: "基于LDA主题模型的短文本分类" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111460105B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110263323B (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN109766432B (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN110852110B (zh) 目标语句提取方法、问题生成方法以及信息处理设备
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111368551A (zh) 一种确定事件主体的方法和装置
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN115130038A (zh) 网页分类方法及装置
CN114580444A (zh) 文本翻译模型的训练方法、设备及存储介质
CN111460105B (zh) 基于短文本的主题挖掘方法、系统、设备及存储介质
CN115525743B (zh) 基于自学习白化网络的人机交互方法及电子设备
CN110795531B (zh) 一种意图识别方法、装置及存储介质
CN112270184A (zh) 自然语言处理方法、装置及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN114428852A (zh) 基于bert预训练模型的中文文本摘要抽取方法及装置
Sharma et al. Language identification for hindi language transliterated text in roman script using generative adversarial networks
CN109902169B (zh) 基于电影字幕信息提升电影推荐系统性能的方法
CN112434143A (zh) 基于gru单元隐藏状态约束的对话方法、存储介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant