CN114357278B - 一种话题推荐方法、装置及设备 - Google Patents
一种话题推荐方法、装置及设备 Download PDFInfo
- Publication number
- CN114357278B CN114357278B CN202011041019.2A CN202011041019A CN114357278B CN 114357278 B CN114357278 B CN 114357278B CN 202011041019 A CN202011041019 A CN 202011041019A CN 114357278 B CN114357278 B CN 114357278B
- Authority
- CN
- China
- Prior art keywords
- topic
- word
- word vector
- preset
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 309
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种话题推荐方法、装置及设备,所述方法包括:响应于信息发布编辑指令,显示信息发布编辑页面;监测信息发布编辑页面中输入的数据;当监测到输入的数据包括超链接时,提取超链接对应的文本信息中的关键词;获取关键词的词向量和预设话题词向量集合;基于关键词的词向量与预设话题词向量集合中每一话题词向量的相似度,从话题词向量集合对应的话题词中确定目标推荐话题;将目标推荐话题推送至信息发布编辑页面。利用本申请实施例提供的技术方案可以提高发布信息中话题标签的填写率以及填写的话题质量,使得填写的话题标签能够有效反应发布信息的主题内容,也为后续发布信息的整合监管提供有力的数据支持。
Description
技术领域
本申请涉及互联网通信技术领域,尤其涉及一种话题推荐方法、装置及设备。
背景技术
随着互联网技术的发展,大量社交平台也在不断的升级,除了可以发布一些图文信息之外,也提供了供个人用户随时分享日常的短视频等。为了加强对用户发布信息的过滤管控,改善信息环境以及对信息按照话题进行分组,发布者可以在发布的信息中添加话题标签(话题词)。
相关技术中,话题标签写不写以及写什么完全是发布者自己决定,常常出现一些信息没有打上任何话题标签,或者所打的话题标签过于随意,同一个内容的话题标签五花八门,导致系统中的话题信息质量差,无法有效反应发布信息的主题内容,也带来后续发布信息整合监管的困难。
发明内容
本申请提供了一种话题推荐方法、装置及设备,可以提高发布信息中话题标签的填写率以及填写的话题质量,使得填写的话题标签能够有效反应发布信息的主题内容,也为后续发布信息的整合监管提供有力的数据支持。
一方面,本申请提供了一种话题推荐方法,所述方法包括:
响应于信息发布编辑指令,显示信息发布编辑页面;
监测所述信息发布编辑页面中输入的数据;
当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;
获取所述关键词的词向量和预设话题词向量集合;
基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题;
将所述目标推荐话题推送至所述信息发布编辑页面。
另一方面提供了一种话题推荐装置,所述装置包括:
页面显示模块,用于响应于信息发布编辑指令,显示信息发布编辑页面;
输入数据监测模块,用于监测所述信息发布编辑页面中输入的数据;
关键词提取模块,用于当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;
词向量获取模块,用于获取所述关键词的词向量和预设话题词向量集合;
目标推荐话题确定模块,用于基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题;
目标推荐话题推送模块,用于将所述目标推荐话题推送至所述信息发布编辑页面。
另一方面提供了一种话题推荐设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的话题推荐方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的话题推荐方法。
本申请提供的话题推荐方法、装置及设备,具有如下技术效果:
本申请通过在用户进行信息发布的编辑过程中,对用户输入的数据进行监测,在监测到输入的数据包括超链接时,提取超链接对应的文本信息中的关键词;结合关键词的词向量和预设话题词向量集合中每一话题词向量的相似度,从话题词向量集合对应的话题词中选取符合用户发布信息主题内容的目标推荐话题,并推送目标推荐话题,进而提高发布信息中话题标签的填写率以及填写的话题质量,使得填写的话题标签能够有效反应发布信息的主题内容,也为后续发布信息的整合监管提供有力的数据支持。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种话题推荐方法的流程示意图;
图3是本申请提供的一种信息发布编辑页面的示意图;
图4是本申请实施例提供的一种在信息发布编辑页面中输入超链接后的示意图;
图5是本申请实施例提供的一种提取超链接对应的文本信息中的关键词的流程示意图;
图6是本申请实施例提供的一种基于预设关键词提取算法,从多个目标分词中提取关键词的流程示意图;
图7是本申请实施例提供的一种获取关键词的词向量和预设话题词向量集合的流程示意图;
图8是本申请实施例提供的一种在信息发布编辑页面显示话题推荐消息的示意图;
图9是本申请实施例提供的一种添加话题词后的信息发布编辑页面的流程示意图;
图10是本申请实施例提供的另一种在信息发布编辑页面显示话题推荐消息的示意图;
图11是本申请实施例提供另一种添加话题词后的信息发布编辑页面的流程示意图;
图12是本申请实施例提供的一种话题推荐装置的结构示意图;
图13是本申请实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案主要涉及自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
本说明书实施例中,服务器01可以用于预先训练目标词向量表示模型,以及为终端02提供后台支持。可选的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本说明书实施例中,终端02可以结合服务器01训练好的目标词向量表示模型,在用户进行信息发布过程中提供话题推荐服务。可选的,终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、车载终端、智能可穿戴设备等类型的实体设备。也可以包括运行与上述实体设备的软体,例如应用程序等。本说明书实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是一种话题推荐方法的应用环境,在实际应用中,目标词向量表示模型的训练,也可以在终端02上实现。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以下介绍本申请一种话题推荐方法,图2是本申请实施例提供的一种话题推荐方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,上述方法可以包括:
S201:响应于信息发布编辑指令,显示信息发布编辑页面。
在实际应用中,用户在发布一个信息(信息可以包括但不限于文本、语音、视频等)之前,需要先进行信息编辑。在一个具体的实施例中,用户可以在信息发布页面中触发信息发布编辑指令,以进入信息发布编辑页面进行信息发布编辑。
在一个具体的实施例中,如图3所示,图3是本申请提供的一种信息发布编辑页面的示意图,具体的,图3中,“AAA”为当前信息发布者(用户)的账号昵称,用户可以发布一个图片,并对发布的信息自主添加描述信息,也可以点击“#话题#”按钮进行话题标签(话题词)的输入,也可以点击“@提到”按钮@某账号,也可以通过点击“扩展链接”进行超链接的添加,相应的,在编辑完要发布的信息之后,可以点击“发布”按钮,触发信息的发布。
此外,需要说明的是,图3仅仅是一种息发布编辑页面的示例,在实际应用中,还可以有其他形式,例如还可以包括地理位置定位的触发区域等。
S203:监测所述信息发布编辑页面中输入的数据。
本说明书实施例中,用户在息发布编辑页面中进行编辑的过程中,终端可以监测信息发布编辑页面中输入的数据。
S205:当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词。
在一个具体的实施例中,如图4所示,图4是本申请实施例提供的一种在信息发布编辑页面中输入超链接后的示意图,用户输入超链接后,在信息发布编辑页面中可以显示该超链接对应的文本信息的标题“XXX的超模老妈”。
在一个可选的实施例中,如图5所示,提取所述超链接对应的文本信息中的关键词可以包括:
S2051:获取所述超链接对应的文本信息。
S2053:对所述超链接对应的文本信息进行分词处理,得到多个分词信息。
S2055:基于预设停用词词典对所述多个分词信息进行停用词筛选,得到多个目标分词。
S2057:基于预设关键词提取算法,从所述多个目标分词中提取所述关键词。
在实际应用中,会存在一些无意义停用词(如的,他,呢等),本说明书实施例中,可以先进行无意义停用词的筛选。
在一个具体的实施例中,当所述预设关键词提取算法为TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)模型时,如图6所示,基于预设关键词提取算法,从所述多个目标分词中提取所述关键词可以包括:
S601:获取所述多个目标分词在所述超链接对应的文本信息中的出现次数和所述超链接对应的文本信息中所有字词的出现次数之和;
S603:根据多个目标分词在所述超链接对应的文本信息中的出现次数和所述超链接对应的文本信息中所有字词的出现次数之和分别计算每个目标分词在所述超链接对应的文本信息中的词频;
S605:获取预设语料库中总文本信息的数量和所述多个目标分词在所述超链接对应的文本信息中的数量;
S607:根据预设语料库中总文本信息的数量和所述多个目标分词在所述超链接对应的文本信息中的数量分别计算每一目标分词的逆文本频率指数;
S609:根据每一目标分词的逆文本频率指数和对应的词频,确定每一目标分词在所述预设语料库中的权重;
S611:根据每一目标分词在所述预设语料库中的权重从所述多个目标分词中确定关键词。
在一个可选的实施例中,可以将权重大于一定阈值的目标分词作为超链接对应的文本信息中的关键词。可选的,也可以多个目标分词对应的权重进行降序排序,选取排序靠前的一定数量的目标分词作为超链接对应的文本信息中的关键词。具体的,这里的一定阈值和一定数量可以结合实际应用场景中对提取的关键词在相应文本信息中的重要程度需求进行设置。
此外,需要说明的是,本说明书实施例中预设关键词提取算法并不仅限于上述的TF-IDF模型,在实际应用中,还可以包括其他算法,例如text_rank(文本分级)模型等。
S207:获取所述关键词的词向量和预设话题词向量集合。
在一个具体的实施例中,如图7所示,获取所述关键词的词向量和预设话题词向量集合可以包括:
S2071:将所述关键词输入目标词向量表示模型,基于所述目标词向量表示模型确定所述关键词的词向量;
S2073:获取预设话题词集合;
S2075:将所述预设话题词集合中的话题词输入所述目标词向量表示模型,基于所述目标词向量表示模型确定预设话题词集合中的话题词的词向量,得到所述预设话题词向量集合。
其中,所述目标词向量表示模型为基于预设训练文本信息对预设词向量模型进行训练得到的,所述预设训练文本信息和所述预设话题词集合为同一系统中的数据。
本说明书实施例中,预设训练文本信息可以包括某一系统中(例如某一社交平台,相互关联的至少两个社交平台)大量已发布信息中的文本信息,预设话题词集合可以包括该系统中已发布的信息中的话题标签(即话题词),可选的,可以将系统中已发布信息中的话题词进行低频过滤后,生成预设话题词集合。
在实际应用中,出现频次较低的话题词(例如无意义的字母串)往往较为偏门,且质量一般不好(不能有效反应发布的信息的主题内容),本说明书实施例中,通过对已发布信息中大量话题词进行低频过滤,可以有效过滤一些无意义的话题词,进而提高整个系统的话题词质量。
可选的,在进行目标词向量表示模型训练过程中,可以将预设训练文本信息进行分词处理,将分词处理后的分次信息输入预设词向量模型进行训练,在训练过程中可以将每个词语映射成K维实数向量,得到目标词向量表示模型的同时可以得到表征词语之间的语义关联度的词向量的集合。以某一系统中的预设训练文本信息对预设词向量模型进行训练得到目标词向量表示模型,可以有效表征该系统中词语之间的语义关联度。可选的,后续,将关键词和预设话题词集合中的话题词输入该目标词向量表示模型,该目标词向量表示模型可以基于词向量的集合中的词向量确定关键词和预设话题词集合中的话题词的词向量。
本说明书实施例中预设词向量模型可以包括但不限于word2vec、BERT等模型。
S209:基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题。
本说明书实施例中,两个词向量间的相似度可以表征两个词向量对应的词之间语义的相似程度;具体的,两个词向量间的相似度越高两个词向量对应的词之间语义的相似程度越高;反之,两个词向量间的相似度越低两个词向量对应的词之间语义的相似程度越低。
可选的,本说明书实施例中,两个词向量间的相似度可以包括但不限于两个词向量见得余弦距离、欧式距离、曼哈顿距离。可选的,两个词向量间的相似度的数值范围可以从-1到1,其中,当两个词向量间的相似度为-1时,可以表征这两个词向量指向的方向正好截然相反,即两个词向量对应词间的语义正好相反。当两个词向量间的相似度为1时,可以表征这两个词向量指向是完全相同的,即两个词向量对应词间的语义正好相同。当个词向量间的相似度为0时,可以表征这两个词向量之间是独立的,即两个词向量对应词间的语义各自独立;相应的,两个词向量间的相似度在(-1,0),可以表征两个词向量间的相异性,两个词向量间的相似度在(0,1),可以表征两个词向量间的相似性。
在一个可选的实施例中,当所述超链接对应文本信息中的关键词包括一个关键词时,所述基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题可以包括:
计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中与所述一个关键词的相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中每一话题词向量与所述一个关键词的相似度进行降序排序;
选取排序在前预设数量个的相似度对应的话题词向量为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
在一个可选的实施例中,当所述超链接对应的文本信息中的关键词包括至少两个关键词时,所述基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题可以包括:
遍历所述至少两个关键词的词向量,在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中与遍历到的关键词的词向量相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
遍历所述至少两个关键词的词向量,在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
将遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度进行降序排序;
将与遍历到的关键词的词向量的相似度排序在前预设数量个的相似度对应的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
本说明书实施例中,预设阈值和预设数量可以结合实际应用场景中对语义相似性要求的高低来设定。在一个具体的实施例中,例如,预设阈值为0.7,预设数量为2。
S211:将所述目标推荐话题推送至所述信息发布编辑页面。
本说明书实施例中,将所述目标推荐话题推送至所述信息发布编辑页面可以包括:在所述信息发布编辑页面显示话题推荐消息,所述话题推荐消息携带有所述目标推荐话题。可选的,目标推荐话题可以包括一个或多个话题词。
在一个具体的实施例中,当目标推荐话题包括一个话题词时,上述方法还可以包括:响应于对所述话题词推荐消息的确认指令,将所述话题词写入所述信息发布编辑页面的预设话题输入区域。
本说明书实施例中,预设话题输入区域可以结合实际学习发布编辑界面的布局进行确定,可选的,预设话题输入区域为为添加描述信息的区域。
在一个具体的实施例中,如图8所示,图8是本申请实施例提供的一种在信息发布编辑页面显示话题推荐消息的示意图;从图8中可见,话题推荐消息中包括一个推荐的话题词,用户可以通过点击“确认”按钮,触发对话题词推荐消息的确认指令,将推荐的话题词“牛人”输入添加描述的区域。可选的,如图9所示,若用户点击“确认”按钮,可以在信息发布编辑页面的添加描述的区域(预设话题输入区域)显示推荐的话题词。可选的,若用户点击“取消”按钮,可以关闭话题推荐消息(消息框)。
在另一个具体的实施例中,当所述目标推荐话题包括至少两个话题词时,上述方法还可以包括:响应于对所述话题推荐消息中任一话题词的选取指令,将选取的话题词写入所述信息发布编辑页面的预设话题输入区域。
在一个具体的实施例中,如图10所示,图10是本申请实施例提供的另一种在信息发布编辑页面显示话题推荐消息的示意图;从图10中可见,话题推荐消息中包括两个推荐的话题词;可选的,若用户不需要选择推荐的话题词,可以点击关闭按钮“×”,以关闭话题推荐消息(消息框);可选的,用户也可以通过点击任一话题词所在区域,触发对所述话题推荐消息中任一话题词的选取指令。可选的,如图11所示,可以在信息发布编辑页面的添加描述的区域(预设话题输入区域)显示用户选择的话题词“牛人”。可选的,若用户需要继续选择话题词,可以再次点击推荐的话题词所在的区域。可选的,若用户不需要继续选择话题词,可以点击关闭按钮“×”,以关闭话题推荐消息(消息框)。
此外,需要说明书的是,在信息发布编辑页面和后续的发布的信息中,可以通过将话题词放在预设的符号间的方式来区分话题词和其他描述信息,例如上述图8-图11中“##”,当然在实际应用中还可以通过其他符号或方式来区分话题词和其他描述信息。
由以上本说明书实施例提供的技术方案可见,本说明书通过在用户进行信息发布的编辑过程中,对用户输入的数据进行监测,在监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;结合关键词的词向量和预设话题词向量集合中每一话题词向量的相似度,从话题词向量集合对应的话题词中选取符合用户发布信息主题内容的目标推荐话题,并推送目标推荐话题,进而提高发布信息中话题标签的填写率以及填写的话题质量,使得填写的话题标签能够有效反应发布信息的主题内容,也为后续发布信息的整合监管提供有力的数据支持。
本申请实施例还提供了一种话题推荐装置,如图12所示,所述装置包括:
页面显示模块1210,可以用于响应于信息发布编辑指令,显示信息发布编辑页面;
输入数据监测模块1220,可以用于监测所述信息发布编辑页面中输入的数据;
关键词提取模块1230,可以用于当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;
词向量获取模块1240,可以用于获取所述关键词的词向量和预设话题词向量集合;
目标推荐话题确定模块1250,可以用于基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题;
目标推荐话题推送模块1260,可以用于将所述目标推荐话题推送至所述信息发布编辑页面。
在一个可选的实施例中,所述目标推荐话题推送模块1260具体用于在所述信息发布编辑页面显示话题推荐消息,所述话题推荐消息携带有所述目标推荐话题。
在一个可选的实施例中,当所述目标推荐话题包括一个话题词时,所述装置还包括:
第一话题写入模块,用于响应于对所述话题词推荐消息的确认指令,将所述话题词写入所述信息发布编辑页面的预设话题输入区域。
在一个可选的实施例中,当所述目标推荐话题包括至少两个话题词时,所述装置还包括:
第二话题写入模块,用于响应于对所述话题推荐消息中任一话题词的选取指令,将选取的话题词写入所述信息发布编辑页面的预设话题输入区域。
在一个可选的实施例中,当所述超链接对应文本信息中的关键词包括一个关键词时,所述目标推荐话题确定模块1250包括:
第一相似度计算单元,用于计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
第一目标推荐话题向量确定单元,用于将所述话题词向量集合中与所述一个关键词的相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
第一目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
第二相似度计算单元,用于计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
第一相似度排序单元,用于将所述话题词向量集合中每一话题词向量与所述一个关键词的相似度进行降序排序;
第二目标推荐话题向量确定单元,用于选取排序在前预设数量个的相似度对应的话题词向量为目标推荐话题向量;
第二目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
在一个可选的实施例中,当所述超链接对应的文本信息中的关键词包括至少两个关键词时,所述目标推荐话题确定模块1250包括:
第一遍历单元,用于遍历所述至少两个关键词的词向量;
第三相似度计算单元,用于在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
第三目标推荐话题向量确定单元,用于将所述话题词向量集合中与遍历到的关键词的词向量相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
第三目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
第二遍历单元,用于遍历所述至少两个关键词的词向量;
第四相似度计算单元,用于在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
第二相似度排序单元,用于将遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度进行降序排序;
第四目标推荐话题向量确定单元,用于将与遍历到的关键词的词向量的相似度排序在前预设数量个的相似度对应的话题词向量作为目标推荐话题向量;
第四目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
可选的,所述词向量获取模型1240包括:
关键词的词向量确定单元,用于将所述关键词输入目标词向量表示模型,基于所述目标词向量表示模型确定所述关键词的词向量;
预设话题词集合获取单元,用于获取预设话题词集合;
预设话题词向量集合确定单元,用于将所述预设话题词集合中的话题词输入所述目标词向量表示模型,基于所述目标词向量表示模型确定预设话题词集合中的话题词的词向量,得到所述预设话题词向量集合;
其中,所述目标词向量表示模型为基于预设训练文本信息对预设词向量模型进行训练得到的,所述预设训练文本信息和所述预设话题词集合为同一系统中的数据。
在一个可选的实施例中,所述关键词提取模块1230可以包括:
文本信息获取单元,用于获取所述超链接对应的文本信息;
分词处理单元,用于对所述超链接对应的文本信息进行分词处理,得到多个分词信息;
停用词筛选单元,用于基于预设停用词词典对所述多个分词信息进行停用词筛选,得到多个目标分词;
关键词提取单元,用于基于预设关键词提取算法,从所述多个目标分词中提取所述关键词。
所述的装置实施例中的装置与方法实施例基于同样的申请构思。
本申请实施例提供了一种话题推荐设备,该话题推荐设备包括处理器和存储器,该存储器中存储有至少一条指令、或至少一段程序,该至少一条指令、或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的话题推荐方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在终端上为例,以运行在终端上为例,图13是本申请实施例提供的一种终端的结构示意图,如图13所示,该终端可以用于实施上述实施例中提供的信息交互方法。具体来讲:
所述终端可以包括RF(Radio Frequency,射频)电路1310、包括有一个或一个以上计算机可读存储介质的存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、WiFi(wireless fidelity,无线保真)模块1370、包括有一个或者一个以上处理核心的处理器1380、以及电源1390等部件。本领域技术人员可以理解,图13中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1380处理;另外,将涉及上行的数据发送给基站。通常,RF电路1310包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1310还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器1320可用于存储软件程序以及模块,处理器1380通过运行存储在存储器1320的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述终端的使用所创建的数据等。此外,存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1320还可以包括存储器控制器,以提供处理器1380和输入单元1330对存储器1320的访问。
输入单元1330可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1330可包括触敏表面1331以及其他输入设备1332。触敏表面1331,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1331上或在触敏表面1331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1331。除了触敏表面1331,输入单元1330还可以包括其他输入设备1332。具体地,其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1340可包括显示面板1341,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1341。进一步的,触敏表面1331可覆盖显示面板1341,当触敏表面1331检测到在其上或附近的触摸操作后,传送给处理器1380以确定触摸事件的类型,随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。其中,触敏表面1331与显示面板1341可以两个独立的部件来实现输入和输入功能,但是在某些实施例中,也可以将触敏表面1331与显示面板1341集成而实现输入和输出功能。
所述终端还可包括至少一种传感器1350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度,接近传感器可在所述终端移动到耳边时,关闭显示面板1341和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1360、扬声器1361,传声器1362可提供用户与所述终端之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出;另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出处理器1380处理后,经RF电路1310以发送给比如另一终端,或者将音频数据输出至存储器1320以便进一步处理。音频电路1360还可能包括耳塞插孔,以提供外设耳机与所述终端的通信。
WiFi属于短距离无线传输技术,所述终端通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370,但是可以理解的是,其并不属于所述终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1380是所述终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1320内的软件程序和/或模块,以及调用存储在存储器1320内的数据,执行所述终端的各种功能和处理数据,从而对终端进行整体检测。可选的,处理器1380可包括一个或多个处理核心;优选的,处理器1380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1380中。
所述终端还包括给各个部件供电的电源1390(比如电池),优选的,电源可以通过电源管理系统与处理器1380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1390还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,所述终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行本申请中方法实施例中的指令。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于设备之中以保存用于实现方法实施例中一种话题推荐方法相关的至少一条指令、或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的话题推荐方法。
本申请的的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的话题推荐方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的话题推荐方法、装置、设备或存储介质的实施例可见,本申请中通过在用户进行信息发布的编辑过程中,对用户输入的数据进行监测,在监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;结合关键词的词向量和预设话题词向量集合中每一话题词向量的相似度,从话题词向量集合对应的话题词中选取符合用户发布信息主题内容的目标推荐话题,并推送目标推荐话题,进而提高发布信息中话题标签的填写率以及填写的话题质量,使得填写的话题标签能够有效反应发布信息的主题内容,也为后续发布信息的整合监管提供有力的数据支持。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种话题推荐方法,其特征在于,所述方法包括:
响应于信息发布编辑指令,显示信息发布编辑页面;
监测所述信息发布编辑页面中输入的数据;
当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;
获取所述关键词的词向量和预设话题词向量集合;
基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题;
在所述信息发布编辑页面显示话题推荐消息,所述话题推荐消息携带有所述目标推荐话题;
当所述目标推荐话题包括一个话题词时,响应于对所述话题词推荐消息的确认指令,将所述话题词写入所述信息发布编辑页面的预设话题输入区域;
当所述目标推荐话题包括至少两个话题词时,响应于对所述话题推荐消息中任一话题词的选取指令,将选取的话题词写入所述信息发布编辑页面的预设话题输入区域。
2.根据权利要求1所述的方法,其特征在于,当所述超链接对应文本信息中的关键词包括一个关键词时,所述基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题包括:
计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中与所述一个关键词的相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中每一话题词向量与所述一个关键词的相似度进行降序排序;
选取排序在前预设数量个的相似度对应的话题词向量为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
3.根据权利要求1所述的方法,其特征在于,当所述超链接对应的文本信息中的关键词包括至少两个关键词时,所述基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题包括:
遍历所述至少两个关键词的词向量,在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
将所述话题词向量集合中与遍历到的关键词的词向量相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
遍历所述至少两个关键词的词向量,在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
将遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度进行降序排序;
将与遍历到的关键词的词向量的相似度排序在前预设数量个的相似度对应的话题词向量作为目标推荐话题向量;
将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
4.根据权利要求1所述的方法,其特征在于,所述获取所述关键词的词向量和预设话题词向量集合包括:
将所述关键词输入目标词向量表示模型,基于所述目标词向量表示模型确定所述关键词的词向量;
获取预设话题词集合;
将所述预设话题词集合中的话题词输入所述目标词向量表示模型,基于所述目标词向量表示模型确定预设话题词集合中的话题词的词向量,得到所述预设话题词向量集合;
其中,所述目标词向量表示模型为基于预设训练文本信息对预设词向量模型进行训练得到的,所述预设训练文本信息和所述预设话题词集合为同一系统中的数据。
5.根据权利要求1所述的方法,其特征在于,所述提取所述超链接对应的文本信息中的关键词包括:
获取所述超链接对应的文本信息;
对所述超链接对应的文本信息进行分词处理,得到多个分词信息;
基于预设停用词词典对所述多个分词信息进行停用词筛选,得到多个目标分词;
基于预设关键词提取算法,从所述多个目标分词中提取所述关键词。
6.一种话题推荐装置,其特征在于,所述装置包括:
页面显示模块,用于响应于信息发布编辑指令,显示信息发布编辑页面;
输入数据监测模块,用于监测所述信息发布编辑页面中输入的数据;
关键词提取模块,用于当监测到输入的数据包括超链接时,提取所述超链接对应的文本信息中的关键词;
词向量获取模块,用于获取所述关键词的词向量和预设话题词向量集合;
目标推荐话题确定模块,用于基于所述关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度,从所述话题词向量集合对应的话题词中确定目标推荐话题;
目标推荐话题推送模块,用于在所述信息发布编辑页面显示话题推荐消息,所述话题推荐消息携带有所述目标推荐话题;
当所述目标推荐话题包括一个话题词时,所述装置还包括:
第一话题写入模块,用于响应于对所述话题词推荐消息的确认指令,将所述话题词写入所述信息发布编辑页面的预设话题输入区域;
当所述目标推荐话题包括至少两个话题词时,所述装置还包括:
第二话题写入模块,用于响应于对所述话题推荐消息中任一话题词的选取指令,将选取的话题词写入所述信息发布编辑页面的预设话题输入区域。
7.根据权利要求6所述的装置,其特征在于,当所述超链接对应文本信息中的关键词包括一个关键词时,所述目标推荐话题确定模块包括:
第一相似度计算单元,用于计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
第一目标推荐话题向量确定单元,用于将所述话题词向量集合中与所述一个关键词的相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
第一目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
第二相似度计算单元,用于计算所述一个关键词的词向量与所述预设话题词向量集合中每一话题词向量的相似度;
第一相似度排序单元,用于将所述话题词向量集合中每一话题词向量与所述一个关键词的相似度进行降序排序;
第二目标推荐话题向量确定单元,用于选取排序在前预设数量个的相似度对应的话题词向量为目标推荐话题向量;
第二目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
8.根据权利要求6所述的装置,其特征在于,当所述超链接对应的文本信息中的关键词包括至少两个关键词时,所述目标推荐话题确定模块包括:
第一遍历单元,用于遍历所述至少两个关键词的词向量;
第三相似度计算单元,用于在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
第三目标推荐话题向量确定单元,用于将所述话题词向量集合中与遍历到的关键词的词向量相似度大于等于预设阈值的话题词向量作为目标推荐话题向量;
第三目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题;
或,
第二遍历单元,用于遍历所述至少两个关键词的词向量;
第四相似度计算单元,用于在遍历到每一关键词时,计算遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度;
第二相似度排序单元,用于将遍历到的关键词的词向量与所述话题词向量集合中每一话题词向量的相似度进行降序排序;
第四目标推荐话题向量确定单元,用于将与遍历到的关键词的词向量的相似度排序在前预设数量个的相似度对应的话题词向量作为目标推荐话题向量;
第四目标推荐话题确定单元,用于将所述目标推荐话题向量对应的话题词作为所述目标推荐话题。
9.根据权利要求6所述的装置,其特征在于,所述词向量获取模型包括:
关键词的词向量确定单元,用于将所述关键词输入目标词向量表示模型,基于所述目标词向量表示模型确定所述关键词的词向量;
预设话题词集合获取单元,用于获取预设话题词集合;
预设话题词向量集合确定单元,用于将所述预设话题词集合中的话题词输入所述目标词向量表示模型,基于所述目标词向量表示模型确定预设话题词集合中的话题词的词向量,得到所述预设话题词向量集合;
其中,所述目标词向量表示模型为基于预设训练文本信息对预设词向量模型进行训练得到的,所述预设训练文本信息和所述预设话题词集合为同一系统中的数据。
10.根据权利要求6所述的装置,其特征在于,所述关键词提取模块包括:
文本信息获取单元,用于获取所述超链接对应的文本信息;
分词处理单元,用于对所述超链接对应的文本信息进行分词处理,得到多个分词信息;
停用词筛选单元,用于基于预设停用词词典对所述多个分词信息进行停用词筛选,得到多个目标分词;
关键词提取单元,用于基于预设关键词提取算法,从所述多个目标分词中提取所述关键词。
11.一种话题推荐设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至5任一所述的话题推荐方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至5任一所述的话题推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011041019.2A CN114357278B (zh) | 2020-09-28 | 2020-09-28 | 一种话题推荐方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011041019.2A CN114357278B (zh) | 2020-09-28 | 2020-09-28 | 一种话题推荐方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357278A CN114357278A (zh) | 2022-04-15 |
CN114357278B true CN114357278B (zh) | 2024-03-19 |
Family
ID=81090342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011041019.2A Active CN114357278B (zh) | 2020-09-28 | 2020-09-28 | 一种话题推荐方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357278B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938477B (zh) * | 2022-06-23 | 2024-05-03 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN116992111B (zh) * | 2023-09-28 | 2023-12-26 | 中国科学技术信息研究所 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN117371440B (zh) * | 2023-12-05 | 2024-03-12 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186584A (zh) * | 2011-12-29 | 2013-07-03 | 腾讯科技(深圳)有限公司 | 微博话题发表方法及终端 |
CN103870461A (zh) * | 2012-12-10 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 主题推荐方法、装置和服务器 |
CN103970800A (zh) * | 2013-02-05 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 网页相关关键词的抽取处理方法和系统 |
CN106021398A (zh) * | 2016-05-12 | 2016-10-12 | 网易(杭州)网络有限公司 | 一种发布信息的方法和装置 |
WO2017020451A1 (zh) * | 2015-08-03 | 2017-02-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN107436877A (zh) * | 2016-05-25 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 热点话题推送方法和装置 |
CN108153749A (zh) * | 2016-12-02 | 2018-06-12 | 上海若友网络科技有限公司 | 消息推送方法、消息推送装置、消息推送系统、服务器和移动终端 |
CN110362737A (zh) * | 2018-04-08 | 2019-10-22 | 优视科技有限公司 | 推荐内容的推送方法、装置和服务器 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
CN111324725A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 一种话题获取方法、终端、计算机可读存储介质 |
CN111400517A (zh) * | 2020-03-20 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 信息推送、信息发布方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2638558C (en) * | 2008-08-08 | 2013-03-05 | Bloorview Kids Rehab | Topic word generation method and system |
US10489511B2 (en) * | 2018-03-01 | 2019-11-26 | Ink Content, Inc. | Content editing using AI-based content modeling |
CN109165344A (zh) * | 2018-08-06 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
-
2020
- 2020-09-28 CN CN202011041019.2A patent/CN114357278B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186584A (zh) * | 2011-12-29 | 2013-07-03 | 腾讯科技(深圳)有限公司 | 微博话题发表方法及终端 |
CN103870461A (zh) * | 2012-12-10 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 主题推荐方法、装置和服务器 |
CN103970800A (zh) * | 2013-02-05 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 网页相关关键词的抽取处理方法和系统 |
WO2017020451A1 (zh) * | 2015-08-03 | 2017-02-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN106021398A (zh) * | 2016-05-12 | 2016-10-12 | 网易(杭州)网络有限公司 | 一种发布信息的方法和装置 |
CN107436877A (zh) * | 2016-05-25 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 热点话题推送方法和装置 |
CN108153749A (zh) * | 2016-12-02 | 2018-06-12 | 上海若友网络科技有限公司 | 消息推送方法、消息推送装置、消息推送系统、服务器和移动终端 |
CN110362737A (zh) * | 2018-04-08 | 2019-10-22 | 优视科技有限公司 | 推荐内容的推送方法、装置和服务器 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
CN111324725A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 一种话题获取方法、终端、计算机可读存储介质 |
CN111400517A (zh) * | 2020-03-20 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 信息推送、信息发布方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于隐含语义分析的在线新闻话题发现方法;武高敏 等;《计算机技术与发展》;20160930;第26卷(第09期);1-7 * |
融合词向量与关键词提取的微博话题发现;王立平 等;《现代计算机》(第23期);第3-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114357278A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073605B (zh) | 一种业务数据的加载、推送、交互信息的生成方法和装置 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN110209810B (zh) | 相似文本识别方法以及装置 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN108121803A (zh) | 一种确定页面布局的方法和服务器 | |
CN111368525A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN113868427A (zh) | 一种数据处理方法、装置及电子设备 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
CN111580815A (zh) | 一种页面元素的编辑方法及相关设备 | |
CN104281610B (zh) | 过滤微博的方法和装置 | |
CN111314771B (zh) | 一种视频播放方法及相关设备 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN116933149A (zh) | 一种对象意图预测方法、装置、电子设备和存储介质 | |
CN112307198A (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN112270238A (zh) | 一种视频内容识别方法和相关装置 | |
CN116758362A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111611369A (zh) | 基于人工智能的交互方法和相关装置 | |
CN111428523B (zh) | 翻译语料生成方法、装置、计算机设备及存储介质 | |
CN110750193B (zh) | 一种基于人工智能的场景拓扑确定方法和装置 | |
CN114462539A (zh) | 一种内容分类模型的训练方法、内容分类的方法及装置 | |
CN115687745A (zh) | 多媒体数据推荐方法、装置、存储介质及计算机设备 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |