CN110609950B - 一种舆情系统搜索词推荐方法及系统 - Google Patents

一种舆情系统搜索词推荐方法及系统 Download PDF

Info

Publication number
CN110609950B
CN110609950B CN201910713283.7A CN201910713283A CN110609950B CN 110609950 B CN110609950 B CN 110609950B CN 201910713283 A CN201910713283 A CN 201910713283A CN 110609950 B CN110609950 B CN 110609950B
Authority
CN
China
Prior art keywords
word
user
public opinion
speech
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910713283.7A
Other languages
English (en)
Other versions
CN110609950A (zh
Inventor
刘鹍
李兆军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201910713283.7A priority Critical patent/CN110609950B/zh
Publication of CN110609950A publication Critical patent/CN110609950A/zh
Application granted granted Critical
Publication of CN110609950B publication Critical patent/CN110609950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提供一种舆情系统搜索词推荐方法及系统,均能够基于舆情分词词类映射表、获取目标舆情系统中每个用户各自感兴趣的词类,并可实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,对属于相同词类的目标搜索词分词进行热度排序,并能够依据目标用户对应的感兴趣的词类向目标用户推荐其感兴趣的词类中热度排行较高的目标搜索词分词。本发明用于增加用户体验以及提高推荐精度。

Description

一种舆情系统搜索词推荐方法及系统
技术领域
本发明属于机器学习和数据挖掘技术领域,具体涉及一种舆情系统搜索词推荐方法及系统。
背景技术
在舆情系统中,传统的搜索词推荐方法主要有基于热度排序的搜索词推荐技术、基于用户查询日志的搜索词推荐技术、基于搜索返回结果的搜索词推荐技术和基于用户行为的搜索词推荐技术。基于热度排序的搜索词推荐技术是最常见的一种方法,其根据一段时间内用户的搜索次数生成一个搜索热点排名列表展示给用户。基于用户查询日志的搜索词推荐技术,主要是提取用户以往搜索词中的特征词计算用户的相似度或是根据所提取的特征词对新的搜索词进行分类处理,之后给用户推荐搜索词。基于返回结果的搜索词推荐技术,主要是提取用户搜索后返回结果中的关键词,处理后作为新的搜索词推荐给用户。基于用户行为的搜索词推荐技术,主要是根据用户的行为特征进行搜索词推荐,比如页面停留时间、用户位置和用户习惯等。
然而在舆情系统中,因为舆情系统的用户远远少于普通的搜索引擎而且用户习惯不同,能够获得的用户查询日志和用户行为等数据非常少,所以基于用户查询日志和用户行为的推荐方法效果比较差。且使用基于返回结果的搜索词推荐技术,不能实现搜索词推荐的个性化,惊喜度和多样化也不好,不利于扩展用户的搜索范围。基于热度排序的搜索词推荐同样无法实现个性化推荐,对于使用系统时间较长的老用户推荐效果比较差。可见舆情系统中常用的各传统的搜索词推荐方法,推荐效果不太理想。
为此,本发明提供一种舆情系统搜索词推荐方法及系统,用于解决上述技术问题。
发明内容
针对现有技术的上述不足,本发明提供一种舆情系统搜索词推荐方法及系统,用于增加用户体验以及提高推荐精度。
第一方面,本发明提供一种舆情系统搜索词推荐方法,包括:
基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,基于上述得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
进一步地,所述舆情分词词类映射表的创建方法,包括:
获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
对上述获取到的舆情文本进行分词处理,得到对应的舆情分词;
对得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
采用聚类算法对得到的所有的词向量进行聚类,得到每个词向量所属的词类;
建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表。
进一步地,该舆情系统搜索词推荐方法还包括:定期更新所存储的舆情用户各自的感兴趣的词类的步骤。
进一步地,所述的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储,包括:
分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
查询所述的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
分别统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
依据计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
基于上述对应获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
依据所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并存储;
所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
进一步地,上述实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列,包括:
实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
对采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
查询所述的舆情分词词类映射表,确定每个目标搜索词分词所属的词类,记为目标词类;
对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
第二方面,本发明提供一种舆情系统搜索词推荐系统,包括:
存储单元,用于本系统的数据存储,包括存有预先建立的舆情分词词类映射表;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
兴趣词类获取单元,与所述的存储单元相连,用于采集并基于所采集的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类;
分词热度排序单元,与所述的存储单元相连,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,并用于基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
搜索词推荐单元,分别与兴趣词类获取单元及分词热度排序单元相连,用于获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,并用于基于分词热度排序单元得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
进一步地,该舆情系统搜索词推荐系统还包括用于建立所述的舆情分词词类映射表的映射表建立单元;所述的映射表建立单元包括:
舆情文本采集模块,用于获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
文本分词模块,与所述的舆情文本采集模块相连,用于对舆情文本采集模块获取到的舆情文本进行分词处理,得到对应的舆情分词;
训练词向量模块,与所述的文本分词模块相连,用于对文本分词模块得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
聚类模块,与所述的训练词向量模块相连,用于采用聚类算法对训练词向量模块得到的所有的词向量进行聚类,得到每个词向量所属的词类;
映射模块,与所述的聚类模块及所述的存储单元分别相连,用于建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表并存储。
进一步地,所述的兴趣词类获取单元,包括:
数据源获取模块,用于分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
数据源分词获取模块,与所述的数据源获取模块相连,用于对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
数据源分词词类获取模块,与所述的数据源分词获取模块及所述的存储单元分别相连,用于查询存储单元存储的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
权重计算模块,与所述的数据源分词词类获取模块相连,用于统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
第一词类评分模块,与所述的权重计算模块相连,用于依据权重计算模块计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
第二词类评分模块,与所述的第一词类评分模块相连,用于基于第一词类评分模块所获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
兴趣词类获取模块,与所述的第二词类评分模块和存储单元相连,用于依据第二词类评分模块所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并更新存储;所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
进一步地,所述的分词热度排序单元,包括:
目标词采集模块,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
目标词分词采集模块,与目标词采集模块相连,用于对目标词采集模块所采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
目标词分词词类获取模块,与所述的目标词分词采集模块及所述的存储单元分别相连,用于查询存储单元存储的舆情分词词类映射表,确定目标词分词采集模块所得到的每个目标搜索词分词所属的词类,记为目标词类;
目标词分词热度排序模块,与所述的目标词分词词类获取模块相连,用于对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
进一步地,该系统还包括兴趣词类更新单元;所述的兴趣词类更新单元与所述的兴趣词类获取单元相连,用于控制所述兴趣词类获取单元的定期执行。
本发明的有益效果在于:
本发明提供的舆情系统搜索词推荐方法及系统,均能够建立舆情分词词类映射表、获取目标舆情系统中每个用户各自感兴趣的词类,并可实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,并基于所建立的舆情分词词类映射表,对属于相同词类的目标搜索词分词进行热度排序,并能够依据目标用户对应的感兴趣的词类,向目标用户推荐其感兴趣的词类中热度排行较高的目标搜索词分词,可见本发明一方面将与用户点击行为相关的主题关键词作为搜索词推荐的一个因素,增加了用户的个性化推荐,缓解了数据稀疏问题,增加了用户体验;再一方面,本发明融合了现有技术中基于热度排序的推荐方法,将个性化推荐和基于热度排序的推荐相结合,在实现了个性化推荐的基础上保留了热点推荐的优势,提高了的推荐效果,一定程度上提高了推荐精度;另外,本发明采用了三种可用数据源,即用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,进一步增加了本发明推荐的用户个性化,不仅有助于进一步增加用户体验,还进一步提高了推荐的精度。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
图1是本发明一个实施例的方法的示意性流程图。
如图1所示,该方法100包括:
步骤110,基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
步骤120,实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
步骤130,获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,基于上述得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
使用时:一方面,基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储;另一方面,实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,并基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;之后,获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,基于上述得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词。可见本发明一方面将与用户点击行为相关的主题关键词作为搜索词推荐的一个因素,增加了用户的个性化推荐,缓解了数据稀疏问题,增加了用户体验;再一方面,本发明融合了现有技术中基于热度排序的推荐方法,将个性化推荐和基于热度排序的推荐相结合,在实现了个性化推荐的基础上保留了热点推荐的优势,提高了的推荐效果,一定程度上提高了推荐精度;另外,本发明采用了三种可用数据源,即用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,进一步增加了本发明推荐的用户个性化,不仅有助于进一步增加用户体验,还进一步提高了推荐的精度。
需要说明的是,上述″一方面″和″另一方面″两部分的内容既能同步进行,也能分开各自进行。
所述的舆情分词词类映射表,可在本方法100使用前预先建立完成,也可在本方法100使用时在所述的步骤110和步骤120开始之前建立完成。
可选地,作为本发明一个实施例,所述舆情分词词类映射表的创建方法,包括:
获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
对上述获取到的舆情文本进行分词处理,得到对应的舆情分词;
对得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
采用聚类算法对得到的所有的词向量进行聚类,得到每个词向量所属的词类;
建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表。
本发明通过词向量聚类的方式实现降维,缓解了数据稀疏的问题,一定程度上增加了推荐速率。
可选地,作为本发明一个实施例,该舆情系统搜索词推荐方法100还包括定期更新所存储的舆情用户各自的感兴趣的词类的步骤,该步骤用以在一定程度上提高本方法100的推荐精度,继而提高推荐效果。
可选地,作为本发明一个实施例,在步骤110中,所述的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储,包括:
分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
查询所述的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
分别统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
依据计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,基于公式②对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
Figure BDA0002154496490000131
式②中,F1、F2、F3、g1、g2、g3、g4均为实数,其中F1<F2<F3,g1<g2<g3<g4,Vij表示所述第i个用户对所述词类j的评分分数;
基于上述对应获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
依据所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并存储;
所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
可选地,作为本发明一个实施例,在步骤120中,所述的实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列,包括:
实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
对采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
查询所述的舆情分词词类映射表,确定每个目标搜索词分词所属的词类,记为目标词类;
对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
为了便于对本发明的理解,下面以本发明舆情系统搜索词推荐方法的原理,结合具体实施例中对舆情系统搜索词进行推荐的过程,对本发明提供的舆情系统搜索词推荐方法做进一步的描述。
具体的,所述舆情系统搜索词推荐方法包括:
s1、建立舆情分词词类映射表。之后执行步骤s12。
s11、获取预先准备好的舆情文本。
本实施例中以预先准备好的现有技术中的开源的微博数据源作为舆情文本。
另外,具体实现时,还可通过分布式网络爬虫从预设的数据渠道获取获取所需的舆情文本,所述的数据渠道包括但不限于微博、微信、论坛等,从上述数据渠道获取所述的舆情文本可包括微博博文、微信文章、论坛帖子等。
s12、对上述获取到的舆情文本进行分词处理,得到对应的舆情分词。之后执行s13。
所得到的所有的舆情分词,用于表征舆情文本。
s13、对得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量。之后执行s14。
词向量是一种词在计算机中的表示方式,是一种定长的、稠密的表示方式。经过词向量技术的转化,每个分词都变成了一个固定维数的向量,向量每个维度的数值都有特定的含义,能够包含更多的信息。不同词语的词向量之间的距离表示了词语在其语义上的相似程度,距离越近,相似度越大。在实施例中,采用word2vec对舆情分词进行训练得到每个舆情分词对应的词向量。
s14、采用k-means算法对得到的所有的词向量进行聚类,得到每个词向量所属的词类。之后执行s15。
s15、建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表。
比如舆情分词词类映射表中,有舆情分词m1,该舆情分词m1对应的词向量所属的词类为词类B(属于所述舆情分词词类映射表中的一个词类),则在该舆情分词词类映射表中有:舆情分词m1与词类B映射,二者相互对应。
s2、基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储,具体包括:
s21、分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词。之后执行s22。
所述的用户关注词,为舆情用户使用舆情系统前需要设置的感兴趣的领域,比如″学校″、″篮球″等,可直接从舆情系统中获取。
所述的用户搜索词,为舆情用户搜索其感兴趣的内容使用的搜索词,其在舆情系统中存储时往往与对应的搜索时间一并存储,也可直接从舆情系统中获取。
所述用户点击查看过的内容的主题关键词的获取方法为:
从舆情系统中采集舆情用户点击查看过的内容,记为舆情内容;所述用户点击查看过的内容为用户查看过的舆情文本(比如微博文本)的正文内容;
采用Te×tRank算法提取所述舆情内容的主题关键词。
主题关键词的使用,一定程度上增加了可用数据。
s22、对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词。之后执行s23。
各分词的获取,可采用现有技术中的分词工具进行。
s23、查询所述的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类。之后执行s24。
s24、分别统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
依据计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,基于公式②对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
Figure BDA0002154496490000181
式②中,F1、F2、F3均为实数,其中F1<F2<F3,Vij表示所述第i个用户对所述词类j的评分分数。
其中,具体实现时,可取a=5和b=1/2。
s26、基于s25中所获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数。之后执行s27。
s27、依据所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并存储。
具体地,在本实施例中,上述s27中所述的感兴趣的词类,可取词类排序列表中排在列表的前2个位置上的所有的词类。
其中需要说明的是,对于评分分数相同的分类,可随机排序;所述的协同过滤算法采用SVD算法。
s3、实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列,具体地:实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;对采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;查询所述的舆情分词词类映射表,确定每个目标搜索词分词所属的词类,记为目标词类;对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
比如舆情系统有2个舆情用户,即舆情用户A和舆情用户B,其中,对于舆情用户A:有2个目标搜索词,为目标搜索词1和目标搜索词2,其中所统计的目标搜索词1和目标搜索词2的使用频数依次为5次和3次,其中目标搜索词1经分词处理后得到分词1、分词2、分词3、分词4和分词5,目标搜索词2经分词处理后得到分词3、分词4和分词6,查询所述的舆情分词词类映射表,确定分词1、分词2、分词3和分词4均属于目标词类1,分词5和分词6属于目标词类2,目标词类1和目标词类2均为舆情分词词类映射表中的词类;对于舆情用户B:有1个目标搜索词,为目标搜索词3,其中所统计的目标搜索词3的使用频数为1次,其中目标搜索词3经分词处理后得到分词1,查询所述的舆情分词词类映射表,确定分词1属于目标词类1。之后基于统计的舆情用户A的目标搜索词1和目标搜索词2的使用频数、以及舆情用户B的目标搜索词3的使用频数,可得到分词1、分词2、分词3、分词4、分词5及分词6各自对应的使用频数依序为5+0+1、5+0+0、5+3+0、5+3+0、5+0+0、0+3+0,即分词1、分词2、分词3、分词4、分词5及分词6各自对应的使用频数依序为6、5、8、8、5、3。至此,可对应得到舆情用户A和舆情用户B二者对应的两个目标词类各自对应的所有的目标搜索词分词的热度排序,即得到目标词类1和目标词类2各自对应的所有的目标搜索词分词的热度排序:其中目标词类1对应的所有的目标搜索词分词的热度排序为:分词3、分词4、分词1、分词2(其中分词3、分词4的排序随机,分词1、分词2的排序随机);目标词类2对应的所有的目标搜索词分词的热度排序为:分词5、分词6。
之后执行s4。
s4、获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,基于上述得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词。其中此处d=2,还可依据经验取其他值。
假定上述目标词类1和2均属于舆情用户A与舆情用户B感兴趣的词类,此时若所述d取值为2,则分词3、分词4均属于目标词类1中热度排行较高的目标搜索词分词,分词5及分词6均属于目标词类2中热度排行较高的目标搜索词分词,此时目标词类1的分词3和分词4、以及目标词类2的分词5和分词6,均被推荐给舆情用户A,也均被推荐给舆情用户B。
需要说明的是,所述的时间长度阈值t1和时间长度阈值t2均可设置为24h,也可设置为其他任意所需的时间长度。
图2为本发明所述舆情系统搜索词推荐系统的一个实施例。该实施例中的系统与上述舆情系统搜索词推荐方法相对应。
如图2示,该系统200包括:
存储单元205,用于本系统200的数据存储,其内存有预先建立的舆情分词词类映射表;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
兴趣词类获取单元202,与所述的存储单元205相连,用于采集并基于所采集的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于存储单元205中存储的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类;
分词热度排序单元203,与所述的存储单元205相连,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,并用于基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于存储单元205中存储的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
搜索词推荐单元204,分别与兴趣词类获取单元202及分词热度排序单元203相连,用于获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,并用于基于分词热度排序单元得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
可优选地,参见图2,该舆情系统搜索词推荐系统200还包括用于建立所述的舆情分词词类映射表的映射表建立单元201。
所述的映射表建立单元201包括:
舆情文本采集模块2011,用于获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
文本分词模块2012,与所述的舆情文本采集模块2011相连,用于对舆情文本采集模块2011获取到的舆情文本进行分词处理,得到对应的舆情分词;
训练词向量模块2013,与所述的文本分词模块2012相连,用于对文本分词模块2012得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
聚类模块2014,与所述的训练词向量模块2013相连,用于采用聚类算法对训练词向量模块2013得到的所有的词向量进行聚类,得到每个词向量所属的词类;
映射模块2015,与所述的聚类模块2014以及所述的存储单元205相连,用于建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表并存储。
可优选地,所述的兴趣词类获取单元202,包括:
数据源获取模块2021,用于分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
数据源分词获取模块2022,与所述的数据源获取模块2021相连,用于对数据源获取模块2021采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
数据源分词词类获取模块2023,与所述的数据源分词获取模块2022及所述的存储单元205分别相连,用于查询存储单元205中存储的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
权重计算模块2024,与所述的数据源分词词类获取模块2023相连,用于统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
第一词类评分模块2025,与所述的权重计算模块2024相连,用于依据权重计算模块2024计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
第二词类评分模块2026,与所述的第一词类评分模块2025相连,用于基于第一词类评分模块2025所获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
兴趣词类获取模块2027,与所述的第二词类评分模块2026和存储单元205分别相连,用于依据第二词类评分模块2026所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并更新存储;所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
可优选地,所述的分词热度排序单元203,包括:
目标词采集模块2031,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
目标词分词采集模块2032,与目标词采集模块2031相连,用于对目标词采集模块2031所采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
目标词分词词类获取模块2033,与所述的目标词分词采集模块2032及所述的存储单元205分别相连,用于查询存储单元205中存储的舆情分词词类映射表,确定目标词分词采集模块2032所得到的每个目标搜索词分词所属的词类,记为目标词类;
目标词分词热度排序模块2034,与所述的目标词分词词类获取模块2033相连,用于对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
可优选地,该系统200还包括兴趣词类更新单元206;
所述的兴趣词类更新单元206与所述的兴趣词类获取单元202相连,用于控制所述兴趣词类获取单元202的定期执行。比如,通过兴趣词类更新单元206预先设定在每天凌晨00:00点开始执行更新,在每天达到凌晨00:00时,兴趣词类更新单元206便控制兴趣词类获取单元202的数据源获取模块2021重新开始采集数据源,最终通过兴趣词类获取模块2027完成对舆情系统中各舆情用户各自的感兴趣的词类的更新并存储。
其中,每更新一次,存储单元205中存储的舆情系统中各舆情用户各自的感兴趣的词类则被更新为最新的。
鉴于本实施例中的舆情系统搜索词推荐系统200,与上述舆情系统搜索词推荐方法100相对应,且该系统200的各组成部分及其工作过程已在上述舆情系统搜索词推荐方法100的实施例中进行了详细的描述,在此不再赘述。
另外,本系统200的实施例所能达到的技术效果可以参见上文中的描述,此处也不再赘述。
需要说明的是,本发明主要适用于所述舆情分词词类映射表中有足够多的舆情分词的情况;在具体实现时,若遇到上述舆情分词词类映射表中不存在的舆情分词及其对应的词类,删除该不存在于上述舆情分词词类映射表中的舆情分词即可。
本说明书中各个实施例之间相同相似的部分互相参见即可。
综上,本发明一方面通过词向量聚类的方式实现降维,从而极大缓解了数据稀疏的问题,一定程度上增加了推荐的速率;另一方面,将与用户点击行为相关的主题关键词作为搜索词推荐的一个因素,增加了用户个性化数据,进一步缓解了数据稀疏问题,增加了用户体验;再者,本发明融合了现有技术中基于热度排序的推荐方法,融合了个性化推荐和基于热度排序的推荐,在实现了个性化推荐的基础上保留了热点推荐的优势,提高了的推荐效果,一定程度上提高了推荐精度;再者,本发明采用了三种可用数据源,即用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,进一步增加了用户个性化数据,不仅有助于进一步增加用户体验,还进一步提高了推荐的精度。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种舆情系统搜索词推荐方法,其特征在于,包括:
基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,基于上述得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
2.根据权利要求1所述的舆情系统搜索词推荐方法,其特征在于,所述舆情分词词类映射表的创建方法,包括:
获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
对上述获取到的舆情文本进行分词处理,得到对应的舆情分词;
对得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
采用聚类算法对得到的所有的词向量进行聚类,得到每个词向量所属的词类;
建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表。
3.根据权利要求1所述的舆情系统搜索词推荐方法,其特征在于,该舆情系统搜索词推荐方法还包括:定期更新所存储的舆情用户各自的感兴趣的词类的步骤。
4.根据权利要求1所述的舆情系统搜索词推荐方法,其特征在于,所述的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于预先建立的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类并存储,包括:
分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
查询所述的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
分别统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
依据计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
基于上述对应获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
依据所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并存储;
所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
5.根据权利要求1所述的舆情系统搜索词推荐方法,其特征在于,所述的实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于所述的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列,包括:
实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
对采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
查询所述的舆情分词词类映射表,确定每个目标搜索词分词所属的词类,记为目标词类;
对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
6.一种舆情系统搜索词推荐系统,其特征在于,包括:
存储单元,用于本系统的数据存储,包括存有预先建立的舆情分词词类映射表;所述的舆情分词词类映射表中存有舆情分词及其所属的词类;
兴趣词类获取单元,与所述的存储单元相连,用于采集并基于所采集的基于舆情用户的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词,以及基于存储单元中存储的舆情分词词类映射表,获取舆情系统的各舆情用户各自的感兴趣的词类;
分词热度排序单元,与所述的存储单元相连,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,并用于基于所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词以及基于存储单元中存储的舆情分词词类映射表,对所采集的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词对应的所有的目标搜索词分词分别按词类分组并在组内进行各相关目标搜索词分词的热度排序,对应得到所述舆情分词词类映射表中每个词类当前各自所对应的目标搜索词分词热度排序序列;所述的目标舆情用户,为舆情系统的当前需要进行搜索词推荐的舆情用户;所述的目标搜索词分词,为目标舆情用户在预先设定的时间长度阈值t2内的用户搜索词的分词;
搜索词推荐单元,分别与兴趣词类获取单元及分词热度排序单元相连,用于获取各目标舆情用户在当前时刻各自对应的感兴趣的词类,并用于基于分词热度排序单元得到的各目标舆情用户各自对应的相应数量的搜索词分词热度排序序列,向各目标舆情用户分别推荐其各自感兴趣的词类中热度排在前d位的目标搜索词分词,其中d≥1。
7.根据权利要求6所述的舆情系统搜索词推荐系统,其特征在于,该舆情系统搜索词推荐系统还包括用于建立所述的舆情分词词类映射表的映射表建立单元;所述的映射表建立单元包括:
舆情文本采集模块,用于获取预先准备好的舆情文本或从互联网中获取所需的舆情文本;
文本分词模块,与所述的舆情文本采集模块相连,用于对舆情文本采集模块获取到的舆情文本进行分词处理,得到对应的舆情分词;
训练词向量模块,与所述的文本分词模块相连,用于对文本分词模块得到的所有的舆情分词进行训练,得到每个舆情分词对应的词向量;
聚类模块,与所述的训练词向量模块相连,用于采用聚类算法对训练词向量模块得到的所有的词向量进行聚类,得到每个词向量所属的词类;
映射模块,与所述的聚类模块及所述的存储单元分别相连,用于建立各所述舆情分词及其各自对应词向量所属的词类的映射表,得到所述的舆情分词词类映射表并存储。
8.根据权利要求6所述的舆情系统搜索词推荐系统,其特征在于,所述的兴趣词类获取单元,包括:
数据源获取模块,用于分类别且分用户地,采集舆情系统中各舆情用户在当前时刻往前第一预定时长t1内的用户关注词、用户搜索词以及用户点击查看过的内容的主题关键词;
数据源分词获取模块,与所述的数据源获取模块相连,用于对所采集到的每个舆情用户的用户关注词、用户搜索词及用户点击查看过的内容的主题关键词分别进行分词处理,分别得到每个舆情用户的:用户关注词的关注词分词、用户搜索词的搜索词分词、以及用户点击查看过的内容的主题关键词的主题关键词分词;
数据源分词词类获取模块,与所述的数据源分词获取模块及所述的存储单元分别相连,用于查询存储单元存储的舆情分词词类映射表,对应获取各舆情用户的每个关注词分词、每个搜索词分词、以及每个主题关键词分词各自所属的词类;
权重计算模块,与所述的数据源分词词类获取模块相连,用于统计每个舆情用户的关注词分词所对应的每个词类所对应的该用户的关注词分词的数量、统计舆情用户的搜索词分词所对应的每个词类所对应的该用户的搜索词分词的数量、以及统计舆情用户的主题关键词分词所对应的每个词类所对应的该用户的主题关键词分词的数量,分别依据以下公式①计算舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的各词类的权重:
wij=a×mij+nij+b×qij ①,
式①中i表示舆情系统的第i个用户,j表示所述第i个用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的任意一个词类j,i=1,2,3,…,wij表示上述第i个用户对上述词类j的权重,mij表示上述第i个用户的属于上述词类j的关注词分词的数量,nij表示上述第i个用户的属于上述词类j的搜索词分词的数量,qij表示上述第i个用户的属于上述词类j的主题关键词分词的数量,a和b均为常数,1<a≤5,0<b<1;
第一词类评分模块,与所述的权重计算模块相连,用于依据权重计算模块计算所得的舆情用户的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的词类的权重,对应获取各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数;
第二词类评分模块,与所述的第一词类评分模块相连,用于基于第一词类评分模块所获取的各舆情用户对其各自的用户关注词、用户搜索词和用户点击查看过的内容的主题关键词所对应的每个词类的评分分数,采用协同过滤算法,计算并得到上述各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数;
兴趣词类获取模块,与所述的第二词类评分模块和存储单元相连,用于依据第二词类评分模块所得到的各舆情用户分别对所述舆情分词词类映射表中的每一个词类的评分分数,分用户地且分别按照评分分数的降序顺序,对所述舆情分词词类映射表中的所有词类进行排序,得到舆情系统中各舆情用户各自对应的词类排序列表;基于所述的词类排序列表,得到舆情系统中各舆情用户各自的感兴趣的词类并更新存储;所述的感兴趣的词类,是指词类排序列表中排在列表的前p个位置上的所有的词类,p≥1。
9.根据权利要求6所述的舆情系统搜索词推荐系统,其特征在于,所述的分词热度排序单元,包括:
目标词采集模块,用于实时采集舆情系统的所有舆情用户在当前时刻往前第二预定时长t2内的用户搜索词,记为目标搜索词;
目标词分词采集模块,与目标词采集模块相连,用于对目标词采集模块所采集到的所有的目标搜索词进行分词处理,对应得到所有的分词,记为目标搜索词分词;
目标词分词词类获取模块,与所述的目标词分词采集模块及所述的存储单元分别相连,用于查询存储单元存储的舆情分词词类映射表,确定目标词分词采集模块所得到的每个目标搜索词分词所属的词类,记为目标词类;
目标词分词热度排序模块,与所述的目标词分词词类获取模块相连,用于对属于相同目标词类的所有的目标搜索词分词进行热度排序,对应得到各所述目标词类所对应的目标搜索词分词热度排序序列。
10.根据权利要求6或7或8或9所述的舆情系统搜索词推荐系统,其特征在于,该系统还包括兴趣词类更新单元;
所述的兴趣词类更新单元与所述的兴趣词类获取单元相连,用于控制所述兴趣词类获取单元的定期执行。
CN201910713283.7A 2019-08-02 2019-08-02 一种舆情系统搜索词推荐方法及系统 Active CN110609950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910713283.7A CN110609950B (zh) 2019-08-02 2019-08-02 一种舆情系统搜索词推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910713283.7A CN110609950B (zh) 2019-08-02 2019-08-02 一种舆情系统搜索词推荐方法及系统

Publications (2)

Publication Number Publication Date
CN110609950A CN110609950A (zh) 2019-12-24
CN110609950B true CN110609950B (zh) 2022-09-16

Family

ID=68890138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910713283.7A Active CN110609950B (zh) 2019-08-02 2019-08-02 一种舆情系统搜索词推荐方法及系统

Country Status (1)

Country Link
CN (1) CN110609950B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254746B (zh) * 2021-05-24 2023-07-18 华北科技学院(中国煤矿安全技术培训中心) 一种基于树莓派的网络舆情展现系统
CN113837842A (zh) * 2021-09-29 2021-12-24 浪潮卓数大数据产业发展有限公司 一种基于用户行为数据的商品推荐方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
WO2018023981A1 (zh) * 2016-08-03 2018-02-08 平安科技(深圳)有限公司 舆情分析方法、装置、设备及计算机可读存储介质
CN108346075A (zh) * 2017-01-24 2018-07-31 北京京东尚科信息技术有限公司 信息推荐方法和装置
CN109657116A (zh) * 2018-11-12 2019-04-19 平安科技(深圳)有限公司 一种舆情搜索方法、搜索装置、存储介质和终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
WO2017219696A1 (zh) * 2016-06-24 2017-12-28 中兴通讯股份有限公司 文本信息处理方法、装置及终端
WO2018023981A1 (zh) * 2016-08-03 2018-02-08 平安科技(深圳)有限公司 舆情分析方法、装置、设备及计算机可读存储介质
CN108346075A (zh) * 2017-01-24 2018-07-31 北京京东尚科信息技术有限公司 信息推荐方法和装置
CN109657116A (zh) * 2018-11-12 2019-04-19 平安科技(深圳)有限公司 一种舆情搜索方法、搜索装置、存储介质和终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于敏感词分析的高校舆情监控系统设计与实现;朱金山;《集宁师范学院学报》;20171120(第06期);全文 *
网络舆情热点话题聚类方法研究;张寿华等;《小型微型计算机系统》;20130315(第03期);全文 *

Also Published As

Publication number Publication date
CN110609950A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
Leung et al. Personalized web search with location preferences
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN105045875B (zh) 个性化信息检索方法及装置
CN103246670B (zh) 微博排序、搜索、展示方法和系统
CN101408897B (zh) 一种基于协作过滤的个性化查询扩展方法
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN104008106B (zh) 一种获取热点话题的方法及装置
CN103455487B (zh) 一种搜索词的提取方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107577759A (zh) 用户评论自动推荐方法
US20110093455A1 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN103235823A (zh) 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
CN108984711B (zh) 一种基于分层嵌入的个性化app推荐方法
CN110609950B (zh) 一种舆情系统搜索词推荐方法及系统
Jeon et al. Personalized Information Retrieval by Using Adaptive User Profiling and Collaborative Filtering.
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN111488453A (zh) 资源分级方法、装置、设备及存储介质
Luo et al. Product review information extraction based on adjective opinion words
CN109446399A (zh) 一种影视实体搜索方法
Ye et al. Feature extraction of travel destinations from online Chinese-language customer reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant