CN110162769B - 文本主题输出方法和装置、存储介质及电子装置 - Google Patents

文本主题输出方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110162769B
CN110162769B CN201810730735.8A CN201810730735A CN110162769B CN 110162769 B CN110162769 B CN 110162769B CN 201810730735 A CN201810730735 A CN 201810730735A CN 110162769 B CN110162769 B CN 110162769B
Authority
CN
China
Prior art keywords
target
word
topic
text
vector corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810730735.8A
Other languages
English (en)
Other versions
CN110162769A (zh
Inventor
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810730735.8A priority Critical patent/CN110162769B/zh
Publication of CN110162769A publication Critical patent/CN110162769A/zh
Application granted granted Critical
Publication of CN110162769B publication Critical patent/CN110162769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种文本主题输出方法和装置、存储介质及电子装置。其中,该方法包括:获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出用目标词语表示的目标主题。本发明解决了相关技术中文本主题的确定效率以及准确度都较低的技术问题。

Description

文本主题输出方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本主题输出方法和装置、存储介质及电子装置。
背景技术
文本主题模型(LDA)是用来在一系列文本中发现抽象主题的统计模型。假设一篇文本有一个或多个中心思想,那么一些特定词语会相对更频繁出现,通常对于一篇文章会包含多个主题,而且每个主题所占比例各不相同,因此文本主题模型基于数学框架来体现文本的这种特点。文本主题模型自动分析每个文本,统计文本内的词语,根据统计信息来断定当前文本含有哪些主题,以及每个主题所占比例多少,输出描述每个主题的一组词语。
文本主题模型输出一组词语(假设m个词语)来表示一个主题,对应关系为:
Topic_i=[word_1,word_2,word_3,...,word_m]
即使用m个词语表示第i个主题Topic_i,这样表示主题的方法存在解释性差、需人工释义等加工过程,才可以将各个主题含义提炼出来。而人工释义会引入人工判断偏差、多人观点不一、人力成本投入等影响结果效果的问题,这将会导致文本主题的确定效率以及准确度都较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本主题输出方法和装置、存储介质及电子装置,以至少解决相关技术中文本主题的确定效率以及准确度都较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本主题输出方法,包括:获取目标文本的目标主题,其中,所述目标主题用至少一个关键词表示;根据所述至少一个关键词中的每个关键词对应的词向量获取所述目标主题对应的主题向量,其中,所述词向量与所述主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离大于第一阈值;以及输出用所述目标词语表示的目标主题。
根据本发明实施例的一方面,还提供了一种文本主题输出装置,包括:第一获取单元,用于获取目标文本的目标主题,其中,所述目标主题用至少一个关键词表示;第二获取单元,用于根据所述至少一个关键词中的每个关键词对应的词向量获取所述目标主题对应的主题向量,其中,所述词向量与所述主题向量均为d维向量,d为大于或等于1的整数;第三获取单元,用于从词语表中获取目标词语,其中,所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离大于第一阈值;以及输出单元,用于输出用所述目标词语表示的目标主题。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行本发明实施例中任意一种文本主题输出装方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行本发明实施例中任意一种文本主题输出装方法。
在本发明实施例中,通过获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出用目标词语表示的目标主题,达到了快速准确输出文本主题的目的,从而实现了提高文本主题确定效率以及准确度的技术效果,进而解决了相关技术中文本主题的确定效率以及准确度都较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文本主题输出方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的文本主题输出方法的流程图;
图3是根据本发明实施例的一种可选的文本主题输出方法应用于文本推荐领域的流程图;
图4是根据本发明优选实施例的主题含义无监督学习流程的示意图;
图5是根据本发明实施例的一种可选的文本主题输出装置的示意图;以及
图6是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本主题输出方法。
可选地,在本实施例中,上述文本主题输出方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的文本主题输出方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的文本主题输出方法也可以是由安装在其上的客户端来执行。
可选地,服务器102执行本发明实施例的文本主题输出方法的过程可以描述为:服务器102获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;服务器102根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;服务器102从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;服务器102输出用目标词语表示的目标主题。
可选地,终端104或客户端执行本发明实施例的文本主题输出方法的过程可以描述为:终端104或客户端获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;终端104或客户端根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;终端104或客户端从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;终端104或客户端输出用目标词语表示的目标主题。
可选地,服务器102和终端104共同执行本发明实施例的文本主题输出方法的过程可以描述为:终端104接收文本主题输出请求;终端104将文本主题输出请求发送给服务器102;服务器102获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;服务器102根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;服务器102从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;服务器102将用目标词语表示的目标主题返回给终端104;终端104输出用目标词语表示的目标主题。
下面以终端104为执行主体为例对本发明实施例的文本主题输出方法进行详细说明。
图2是根据本发明实施例的一种可选的文本主题输出方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;
步骤S204,根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;
步骤S206,从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;
步骤S208,输出用目标词语表示的目标主题。
通过上述步骤S202至步骤S208,通过获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出用目标词语表示的目标主题,达到了快速准确输出文本主题的目的,从而实现了提高文本主题确定效率以及准确度的技术效果,进而解决了相关技术中文本主题的确定效率以及准确度都较低的技术问题。
在步骤S202提供的技术方案中,本发明实施例对目标文本的类型不做具体限定,例如目标文本可以为财经资讯、娱乐报道等。本发明实施例对目标文本的大小也不做具体限定,目标文本所包含的字符数可以根据实际需求设定或调整。可选地,目标文本中可以包括至少一个主题,其中,目标主题可以为至少一个主题中的任意一个。可选地,目标主题可以用至少一个关键词表示。例如,目标主题可以包括m个关键词,分别为:中国、集团、重组、神华、央企、合并、整合、石油、能源、上市公司、国电、改革、停牌、国资委,其中,m等于14。
可选地,本发明实施例可以使用文本主题模型LDA在全量文本库上训练主题,并将文本主题模型LDA结果得到的至少一个主题及每个主题的至少一个关键词对应存储,以便于快速查找目标文本的目标主题,以及表示目标主题的至少一个关键词。
需要说明的是,本发明实施例对使用文本主题模型LDA在全量文本库上训练主题所采用的技术手段不做具体限定。
在步骤S204提供的技术方案中,用于表示目标主题的至少一个关键词中的每个关键词均可以对应一个词向量,其中,词向量可以为一个d维向量,其中,d为大于或等于1的整数,此处对d不做具体限定,可以根据实际需求设定或调整。可选地,每个关键词对应的词向量可以以查找的方式从词语表中获得,其中,词语表中可以预先存储有大量词语以及词语对应的词向量。
可选地,本发明实施例中的词语表可以通过以下方式获取到:在获取目标文本的目标主题之前,可以使用神经网络模型训练词语对应的词向量;将词语对应的词向量存储在词语表中。可选地,使用神经网络模型训练词语对应的词向量可以为基于海量文本使用Word2Vec模型训练各个词语的词向量。
需要说明的是,本发明实施例对使用Word2Vec模型训练各个词语的词向量所采用的技术手段不做具体限定。
本发明实施例通过预先训练词语对应的词向量,并将其存储在词语表中,然后通过从词语表中查找的方式快速获取关键词对应的词向量,进而可以实现提高文本主题确定效率的目的。
在从词语表中获取到每个关键词对应的词向量之后,可以获取目标主题对应的主题向量,其中,主题向量也可以为一个d维向量。
可选地,根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量可以包括:获取至少一个关键词中的每个关键词对应的词向量;获取至少一个关键词对应的词向量在对应维度上的数值的平均值,并将平均值作为目标主题对应的主题向量在对应维度上的数值。
例如,假设目标主题可以用关键词1、关键词2、关键词3表示,且关键词1、关键词2、关键词3对应的词向量均为一个3维向量,分别为[0.124,0.323,-0.243]、[-0.329,0.463,0.123]、[-0.145,0.874,0.147],则目标主题对应的主题向量也为一个3维向量,即[0.124+(-0.329)+(-0.145)=-0.117,0.323+0.463+0.874=0.553,-0.243+0.123+0.147=0.009],也即[-0.117,0.553,0.009]。
在步骤S206提供的技术方案中,在获取到目标主题对应的主题向量之后,本发明实施例可以分别计算该目标主题对应的主题向量与词语表中词语对应的词向量之间的距离,也即计算向量之间的距离,然后选取与目标主题对应的主题向量之间的距离大于第一阈值的词语作为目标词语,其中,本发明实施例对第一阈值不做具体限定,第一阈值可以根据实际需求设定或调整。可选地,目标词语可以为一个,也可以为多个。
可选地,为了减少距离计算的工作量,本发明实施例可以先按照过滤条件从词语表中筛选出部分词语,然后再计算这部分词语对应的词向量与目标主题对应的主题向量之间的距离。可选地,过滤条件可以根据实际需求设定或调整,例如过滤条件可以是词性为名词,且属于文本关键词集合,其中,文本关键词集合包括目标文件中的关键词。此处需要说明的是,本发明实施例对从目标文本中提取关键词所采取的技术手段不做具体限定。
可选地,再从词语表中筛选出满足过滤条件的部分词语后,可以利用以下公式计算这部分词语对应的词向量与目标主题对应的主题向量之间的距离:
其中,sim(T,A)为上述部分词语对应的词向量与目标主题对应的主题向量之间的距离,T为目标主题对应的主题向量,A为上述部分词语对应的词向量,Ti为目标主题对应的主题向量在第i个维度上的数值,Ai为上述部分词语对应的词向量在第i个维度上的数值。
在计算得到部分词语对应的词向量与目标主题对应的主题向量之间的距离之后,选取其中距离较大的一个或者多个作为目标词语。
也就是说,从词语表中获取目标词语可以包括:从词语表中获取词性为名词、且属于文本关键词集合的目标词语,其中,文本关键词集合包括目标文本中的关键词。
可选地,目标词语对应的词向量与目标主题对应的主题向量之间的距离可以按照以下公式计算:
其中,sim(T,A)为目标词语对应的词向量与目标主题对应的主题向量之间的距离,T为目标主题对应的主题向量,A为目标词语对应的词向量,Ti为目标主题对应的主题向量在第i个维度上的数值,Ai为目标词语对应的词向量在第i个维度上的数值。
本发明实施例通过计算词语表中的词语对应的词向量与目标主题对应的主题向量之间的距离,并选取距离最近的一个或者多个目标词语,以提高目标词语与目标主题之间的关联性,进而使得用目标词语表示目标主题能够提高目标主题的准确度。
在步骤S208提供的技术方案中,在获取到目标词语之后,由于目标词语与目标主题具有关联性,因而可以用目标词语表示目标主题,并输出用目标词语表示的目标主题,相较于用文本主题模型确定的目标文本的目标主题而言,利用本发明实施例得到的用目标词语表示的目标主题更加准确。
本发明实施例的文本主题输出方法,能够实现快速准确的确定文本主题的目的,可以应用但并不仅限于文本推荐领域。下面将结合以下可选实施例对本发明实施例应用于文本推荐领域进行详细介绍。
作为一种可选的实施例,本发明实施例应用于文本推荐领域的具体流程可以如图3所示,可以包括以下步骤:
步骤S301,接收文本推荐请求,其中,文本推荐请求用于请求向目标帐号推荐文本;
步骤S302,获取目标帐号已阅读过的目标文本的目标主题,其中,目标主题用至少一个关键词表示;
步骤S303,根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;
步骤S304,从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;
步骤S305,输出用目标词语表示的目标主题;
步骤S306,向目标帐号推荐主题与目标词语相关联的文本。
该可选实施例可以基于目标帐号已阅读过的文本的主题,向目标帐号推荐与其相关联的文本,这样可以使得所推荐的文本能够更加容易被目标帐号所接受,进而实现提高推荐文本的准确度,提高用户体验的目的。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于分布式词嵌入的主题含义无监督学习方法。
首先,在对该优选实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
Word2Vec:即词嵌入或词向量,是一种使用神经网络训练词语分布式表征的算法模型。其中Skip-Gram模型根据中心词语预测上下文的词语,CBOW模型根据上下文的词语预测中心词语。所训练得到的词语分布式表征向量可用于语义相似、向量检索、词句分类等任务。
文本主题模型(LDA):即隐含狄利克雷分布,是一种文本主题模型,可以将文本集中每篇文本的主题以无监督学习的方式按照概率分布的形式给出,对于每个主题,用一组(多个)主题词语来表示。
本方法利用词嵌入的语义关联特性弥补文本主题模型不能明确输出主题含义的不足,从而完成对文本主题含义的机器判断和自动输出。通常,对文本抽取主题的统计模型将潜在相关的一组词分布作为一个主题的表达,基于这样的主题模型虽然可以应用于文本分类等任务,但在很多需要可解释性较强的场景中无法直接明确对应一组主题词的主题含义,例如目前往往使用人工释义的方法来归纳主题含义,这同时会带来人力成本的增加和人工判断的偏差。本方法使用分布式词嵌入构建主题模型的主题嵌入分布式表征,根据与之最匹配的合适词语描述来确定该主题含义,提供了一种机器输出主题含义的方法,减少了确定主题含义过程中人工参与的成本和影响,提升了主题含义提取的效率。
本方法结合分布式词嵌入对主题模型的主题词语进行进一步加工处理,表达成主题嵌入形式,再从词表中匹配最适合表达主题含义的词语来代表该主题,设计了一种使用机器判断主题含义的方法。
本方法通过Word2Vec模型对海量文本训练词表的分布式词向量,并使用LDA模型计算得到的每篇文本的主题及主题所对应的关键词,然后计算主题关键词的分布式主题向量,最后根据词表里与主题向量最匹配的名词词性的词语,来自动提取主题含义。
本方法应用于海量文本库基础上,使用Word2Vec模型训练文本库中出现过的所有词语的分布式词向量,并基于LDA算法训练每篇文本的主题,将各个主题的主题关键词的词向量构建成为主题向量后,再通过在词表中匹配与主题向量最接近的名词词语,作为该主题的主题含义,完成对文本主题含义的无监督学习。
本方法所用模型和算法的计算流程如图4所示:
①基于海量文本使用Word2Vec模型进行词嵌入训练,训练各个词语的分布式词向量,即将每个词语表示为一个d维的向量形式,d的值为参数可在训练过程中选择并调优。
②使用LDA主题模型在全量文本库上训练主题,将主题模型结果得到的n个主题及主题关键词存为对应表,每个主题由m个主题关键词构成。
③对每个主题的m个关键词查找各个词在词表中的词向量,一个主题m个关键词的每个词对应于d维的词向量。
④将m个主题关键词的d维词向量进行对应维度的累加求和再求平均(基于m个词),得到分布式主题向量,即每个主题表达为d维的词嵌入。
⑤对每个主题嵌入向量值,在词表中匹配与之距离最近的名词词语,作为该主题的主题含义。距离计算基于如下公式:
其中,T为主题向量,A为词库中每个词的词向量,两者维度相同为d。对于A的过滤条件为词性为名词,且属于文本关键词集合。
使用如上方法,可以对文本通过LDA模型生成n个主题的每个主题m个关键词进行词嵌入求和平均表示,并基于主题向量进行主题含义的提取,该方法解决了主题含义的预判问题,提升了主题含义解释的效率,减少了人工参与的程度,并避免人工释义判断过程的人为偏差。
该方法可应用于金融资讯推荐等场景。金融资讯推荐需要挖掘每篇财经资讯的主题含义,作为该篇文章的主题再用于推荐算法匹配所感兴趣的用户,从而实现资讯推荐的个性化服务。该方法应用在资讯推荐后端系统中,并作为推荐后端系统中间信息提供推荐算法使用。使用该方法可以将所得到的主题含义作为一维权重特征增加在推荐算法模型中,提升模型的准确度和泛化能力。
该方法还可应用于需要对主题关键词进行人工释义的场景,如提取关键主题词解释一篇文章的含义,或依据主题词解释用户对资讯的喜好等场景。使用基于分布式词嵌入的主题含义无监督学习方法可以增强推荐结果的可解释性。
例如:一个主题的m个关键词为:中国|集团|重组|神华|央企|合并|整合|石油|能源|上市公司|国电|改革|停牌|国资委,对应主题含义通过本方法可以得到为“国企改革”。
需要说明的是,本方法还可以根据实际需求应用在其他场景中,此处不再一一举例说明。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本主题输出方法的文本主题输出装置。图5是根据本发明实施例的一种可选的文本主题输出装置的示意图,如图5所示,该装置可以包括:
第一获取单元52,用于获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;第二获取单元54,用于根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;第三获取单元56,用于从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出单元58,用于输出用目标词语表示的目标主题。
需要说明的是,该实施例中的第一获取单元52可以用于执行本申请实施例中的步骤S202,该实施例中的第二获取单元54可以用于执行本申请实施例中的步骤S204,该实施例中的第三获取单元56可以用于执行本申请实施例中的步骤S206,该实施例中的输出单元58可以用于执行本申请实施例中的步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,第二获取单元54可以包括:第一获取模块,用于获取至少一个关键词中的每个关键词对应的词向量;第二获取模块,用于获取至少一个关键词对应的词向量在对应维度上的数值的平均值,并将平均值作为目标主题对应的主题向量在对应维度上的数值。
可选地,第三获取单元56可以包括:第三获取模块,用于从词语表中获取词性为名词、且属于文本关键词集合的目标词语,其中,文本关键词集合包括目标文本中的关键词。
可选地,第三获取单元56可以用于按照以下公式获取目标词语对应的词向量与目标主题对应的主题向量之间的距离:
其中,sim(T,A)为目标词语对应的词向量与目标主题对应的主题向量之间的距离,T为目标主题对应的主题向量,A为目标词语对应的词向量,Ti为目标主题对应的主题向量在第i个维度上的数值,Ai为目标词语对应的词向量在第i个维度上的数值。
可选地,该装置还可以包括:训练单元,用于在获取目标文本的目标主题之前,使用神经网络模型训练词语对应的词向量;存储单元,用于将词语对应的词向量存储在词语表中。
可选地,该装置还可以包括:接收单元,用于在获取目标文本的目标主题之前,接收文本推荐请求,其中,文本推荐请求用于请求向目标帐号推荐文本;第一获取单元52可以包括:第四获取模块,用于获取目标帐号已阅读过的目标文本的目标主题;该装置还可以包括:推荐单元,用于在输出用目标词语表示的目标主题之后,向目标帐号推荐主题与目标词语相关联的文本。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,可以解决了相关技术中文本主题的确定效率以及准确度都较低的技术问题,进而达到提高文本主题确定效率以及准确度的技术效果。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本主题输出方法的电子装置。
图6是根据本发明实施例的一种电子装置的结构框图,如图6所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器201、存储器203,其中,存储器203中可以存储有计算机程序,处理器201可以被设置为运行所述计算机程序以执行本发明实施例的文本主题输出方法。
其中,存储器203可用于存储计算机程序以及模块,如本发明实施例中的文本主题输出方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的计算机程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本主题输出方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可选地,如图6所示,该电子装置还可以包括:传输装置205以及输入输出设备207。其中,传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(Network InterfaceController,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可以包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
可选地,在本实施例中,上述存储器203可以用于存储计算机程序。
可选地,在本实施例中,上述处理器可以被设置为运行计算机程序,以执行以下步骤:获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出用目标词语表示的目标主题。
处理器201还用于执行下述步骤:获取至少一个关键词中的每个关键词对应的词向量;获取至少一个关键词对应的词向量在对应维度上的数值的平均值,并将平均值作为目标主题对应的主题向量在对应维度上的数值。
处理器201还用于执行下述步骤:从词语表中获取词性为名词、且属于文本关键词集合的目标词语,其中,文本关键词集合包括目标文本中的关键词。
处理器201还用于执行下述步骤:按照以下公式计算目标词语对应的词向量与目标主题对应的主题向量之间的距离: 其中,sim(T,A)为目标词语对应的词向量与目标主题对应的主题向量之间的距离,T为目标主题对应的主题向量,A为目标词语对应的词向量,Ti为目标主题对应的主题向量在第i个维度上的数值,Ai为目标词语对应的词向量在第i个维度上的数值。
处理器201还用于执行下述步骤:在获取目标文本的目标主题之前,使用神经网络模型训练词语对应的词向量;将词语对应的词向量存储在词语表中。
处理器201还用于执行下述步骤:在获取目标文本的目标主题之前,接收文本推荐请求,其中,文本推荐请求用于请求向目标帐号推荐文本;获取目标帐号已阅读过的目标文本的目标主题;在输出用目标词语表示的目标主题之后,向目标帐号推荐主题与目标词语相关联的文本。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
采用本发明实施例,提供了一种文本主题输出的方案。通过获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;以及输出用目标词语表示的目标主题,达到了快速准确输出文本主题的目的,从而实现了提高文本主题确定效率以及准确度的技术效果,进而解决了相关技术中文本主题的确定效率以及准确度都较低的技术问题。
根据本发明实施例的又一个方面,还提供了一种存储介质。该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述实施例中文本主题输出方法的步骤。
可选地,在本实施例中,存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标文本的目标主题,其中,目标主题用至少一个关键词表示;
S2,根据至少一个关键词中的每个关键词对应的词向量获取目标主题对应的主题向量,其中,词向量与主题向量均为d维向量,d为大于或等于1的整数;
S3,从词语表中获取目标词语,其中,目标词语对应的词向量与目标主题对应的主题向量之间的距离大于第一阈值;
S4,输出用目标词语表示的目标主题。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:获取至少一个关键词中的每个关键词对应的词向量;获取至少一个关键词对应的词向量在对应维度上的数值的平均值,并将平均值作为目标主题对应的主题向量在对应维度上的数值。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:从词语表中获取词性为名词、且属于文本关键词集合的目标词语,其中,文本关键词集合包括目标文本中的关键词。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:按照以下公式计算目标词语对应的词向量与目标主题对应的主题向量之间的距离:其中,sim(T,A)为目标词语对应的词向量与目标主题对应的主题向量之间的距离,T为目标主题对应的主题向量,A为目标词语对应的词向量,Ti为目标主题对应的主题向量在第i个维度上的数值,Ai为目标词语对应的词向量在第i个维度上的数值。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在获取目标文本的目标主题之前,使用神经网络模型训练词语对应的词向量;将词语对应的词向量存储在词语表中。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在获取目标文本的目标主题之前,接收文本推荐请求,其中,文本推荐请求用于请求向目标帐号推荐文本;获取目标帐号已阅读过的目标文本的目标主题;在输出用目标词语表示的目标主题之后,向目标帐号推荐主题与目标词语相关联的文本。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本主题输出方法,其特征在于,包括:
接收文本推荐请求,其中,所述文本推荐请求用于请求向目标帐号推荐文本;
获取所述目标帐号已阅读过的所述目标文本的所述目标主题,其中,所述目标主题用至少一个关键词表示;所述目标主题是基于文本主题模型LDA对所述目标文本进行计算得到的;
获取所述至少一个关键词中的每个关键词对应的词向量,其中,所述词向量与主题向量均为d维向量,d为大于或等于1的整数;
获取所述至少一个关键词对应的词向量在对应维度上的数值的平均值,并将所述平均值作为所述目标主题对应的主题向量在所述对应维度上的数值;
从预先存储有词语以及词语对应的词向量的词语表中筛选出部分词语,其中,所述部分词语的词性为名词,且属于文本关键词集合,所述文本关键词集合包括所述目标文本中的关键词;
从所述部分词语中获取与所述目标主题对应的主题向量之间距离最近的一个或多个目标词语;以及
输出用所述一个或多个目标词语表示的目标主题;
向所述目标帐号推荐主题与所述目标词语相关联的文本。
2.根据权利要求1所述的方法,其特征在于,所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离按照以下公式计算:
其中,sim(T,A)为所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离,T为所述目标主题对应的主题向量,A为所述目标词语对应的词向量,Ti为所述目标主题对应的主题向量在第i个维度上的数值,Ai为所述目标词语对应的词向量在第i个维度上的数值。
3.根据权利要求1所述的方法,其特征在于,在所述获取目标文本的目标主题之前,所述方法还包括:
使用神经网络模型训练词语对应的词向量;
将所述词语对应的词向量存储在所述词语表中。
4.根据权利要求3所述的方法,其特征在于,所述使用神经网络模型训练词语对应的词向量,包括:
基于海量文本使用Word2Vec模型训练各个词语的词向量。
5.一种文本主题输出装置,其特征在于,包括:
接收单元,用于接收文本推荐请求,其中,所述文本推荐请求用于请求向目标帐号推荐文本;
第一获取单元包括:第四获取模块,用于获取所述目标帐号已阅读过的所述目标文本的所述目标主题;其中,所述目标主题用至少一个关键词表示;所述目标主题是基于文本主题模型LDA对所述目标文本进行计算得到的;
第二获取单元包括:第一获取模块,用于获取所述至少一个关键词中的每个关键词对应的词向量;
第二获取模块,用于获取所述至少一个关键词对应的词向量在对应维度上的数值的平均值,并将所述平均值作为所述目标主题对应的主题向量在所述对应维度上的数值;其中,所述词向量与所述主题向量均为d维向量,d为大于或等于1的整数;
第三获取单元,用于从预先存储有词语以及词语对应的词向量的词语表中筛选出部分词语,其中,所述部分词语的词性为名词,且属于文本关键词集合,所述文本关键词集合包括所述目标文本中的关键词;从所述部分词语中获取与所述目标主题对应的主题向量之间距离最近的一个或多个目标词语;以及
输出单元,用于输出用所述一个或多个目标词语表示的目标主题;
推荐单元,用于向所述目标帐号推荐主题与所述目标词语相关联的文本。
6.根据权利要求5所述的装置,其特征在于,第三获取单元用于按照以下公式获取所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离:
其中,sim(T,A)为所述目标词语对应的词向量与所述目标主题对应的主题向量之间的距离,T为所述目标主题对应的主题向量,A为所述目标词语对应的词向量,Ti为所述目标主题对应的主题向量在第i个维度上的数值,Ai为所述目标词语对应的词向量在第i个维度上的数值。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
训练单元,用于在所述获取目标文本的目标主题之前,使用神经网络模型训练词语对应的词向量;
存储单元,用于将所述词语对应的词向量存储在所述词语表中。
8.根据权利要求7所述的装置,其特征在于,所述训练单元,还用于:
基于海量文本使用Word2Vec模型训练各个词语的词向量。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN201810730735.8A 2018-07-05 2018-07-05 文本主题输出方法和装置、存储介质及电子装置 Active CN110162769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810730735.8A CN110162769B (zh) 2018-07-05 2018-07-05 文本主题输出方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810730735.8A CN110162769B (zh) 2018-07-05 2018-07-05 文本主题输出方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110162769A CN110162769A (zh) 2019-08-23
CN110162769B true CN110162769B (zh) 2024-01-02

Family

ID=67644997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810730735.8A Active CN110162769B (zh) 2018-07-05 2018-07-05 文本主题输出方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110162769B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN110909550B (zh) * 2019-11-13 2023-11-03 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN111079010B (zh) * 2019-12-12 2023-03-31 国网四川省电力公司 一种数据处理方法、装置及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090929A (zh) * 2014-06-23 2014-10-08 吕志雪 一种个性化图片推荐方法及装置
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107133224A (zh) * 2017-04-25 2017-09-05 中国人民大学 一种基于主题词的语言生成方法
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090929A (zh) * 2014-06-23 2014-10-08 吕志雪 一种个性化图片推荐方法及装置
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107133224A (zh) * 2017-04-25 2017-09-05 中国人民大学 一种基于主题词的语言生成方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王伟,王洪伟著.《项目描述的文本特征与投资意愿 基于众筹市场的研究》.上海:同济大学出版社,2014,(第1版),第76-78页. *

Also Published As

Publication number Publication date
CN110162769A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN108269122B (zh) 广告的相似度处理方法和装置
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN103577452A (zh) 用于丰富网站内容的方法和装置、网站服务器
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
CN110414581B (zh) 图片检测方法和装置、存储介质及电子装置
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN109819002B (zh) 数据推送方法和装置、存储介质及电子装置
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
US20160132771A1 (en) Application Complexity Computation
CN113569018A (zh) 问答对挖掘方法及装置
CN115618121B (zh) 个性化资讯推荐方法、装置、设备及存储介质
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN116975262A (zh) 媒体资源标签的确定方法和装置、存储介质及电子设备
CN111126503B (zh) 一种训练样本的生成方法和装置
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant