CN110580317B - 社交信息分析方法、装置、终端设备及存储介质 - Google Patents

社交信息分析方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN110580317B
CN110580317B CN201910807109.9A CN201910807109A CN110580317B CN 110580317 B CN110580317 B CN 110580317B CN 201910807109 A CN201910807109 A CN 201910807109A CN 110580317 B CN110580317 B CN 110580317B
Authority
CN
China
Prior art keywords
interest
user
forum
information
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910807109.9A
Other languages
English (en)
Other versions
CN110580317A (zh
Inventor
陈浙良
黄浩
卢燉煜
卢则强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Saikerui Information Technology Co ltd
Original Assignee
Wuhan Saikerui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Saikerui Information Technology Co ltd filed Critical Wuhan Saikerui Information Technology Co ltd
Priority to CN201910807109.9A priority Critical patent/CN110580317B/zh
Publication of CN110580317A publication Critical patent/CN110580317A/zh
Application granted granted Critical
Publication of CN110580317B publication Critical patent/CN110580317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种社交信息分析方法、装置、终端设备及存储介质。包括:获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,建立比重值算法,通过比重值算法计算用户社交网站浏览记录中各个兴趣论坛名称的比重值,并根据比重值确定用户的偏好兴趣论坛,获取网络上社交网站中同一兴趣论坛中不同版块的名称,获取用户在偏好兴趣论坛中的各个兴趣词的词频,建立信息熵算法,根据用户在偏好兴趣论坛中的各个兴趣词的词频计算信息熵,根据该信息熵确定用户的兴趣,并对用户推送对应的资讯,本发明通过比重值算法先确定用户的兴趣论坛,先缩小用户的兴趣范围,然后通过信息熵算法精确对用户的兴趣进行锁定,节省了时间,大大提高了工作效率。

Description

社交信息分析方法、装置、终端设备及存储介质
技术领域
本发明涉及社交信息领域,尤其涉及一种社交信息分析方法、装置、终端设备及存储介质。
背景技术
现代的社会是一个高速发展的社会,科技信息的发展越来越发达,信息与信息之间的传递也越来越快捷、方便,在人工智能引领时代发展的阶段,各行各业都需要通过不同的领域对用户的需求进行分析,用来对自身的产品做进一步推广,特别是对于社交媒体,社交媒体中往往存在大量的用户数据,用户的兴趣论坛往往可以提现一个用户的喜好与需求,现有的社交媒体都是根据用户的兴趣论坛来推送相关的资讯,因为兴趣论坛中包含的兴趣有很多,所以推送的资讯往往范围过大,用户从中查找自己需要的东西往往要耗费大量的时间,所以,如何对用户的社交信息进行分析,确定用户的兴趣论坛以及兴趣,精确的对用户推送资讯,成为各社交媒体平台亟待解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种社交信息分析方法、装置、终端设备及存储介质,旨在解决现有技术无法确定用户的兴趣论坛以及兴趣,精确的对用户推送资讯的技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种社交信息分析方法,所述社交信息分析方法包括以下步骤:
S1,获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
S2,建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,根据用户社交网站浏览记录中各个兴趣论坛名称的比重值的大小确定用户的偏好兴趣论坛;
S3,获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
S4,设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
在以上技术方案的基础上,优选的,还包括以下步骤,设定预设时间,获取用户社交网站浏览记录、用户社交网站浏览记录对应的时间以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,将用户社交网站浏览记录对应的时间与预设时间进行比较,当用户社交网站浏览记录对应的时间大于预设时间时,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;当用户社交网站浏览记录对应的时间小于预设时间时,将该时间对应的用户社交网站浏览记录删除。
在以上技术方案的基础上,优选的,还包括以下步骤,建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,将各个兴趣论坛名称的比重值两两进行比较,筛选出最大比重值对应的兴趣论坛名称,并将该兴趣论坛名称确定为用户的偏好兴趣论坛。
在以上技术方案的基础上,优选的,比重值算法为:
Figure GDA0003310912830000031
其中,p代表用户社交网站浏览记录中各个兴趣论坛名称的比重值,ni代表用户社交网站浏览记录中各个兴趣论坛名称出现频率,∑ni代表代表用户社交网站浏览记录中所有兴趣论坛名称出现总频率,i代表用户社交网站浏览记录中各个兴趣论坛名称的个数。
在以上技术方案的基础上,优选的,还包括以下步骤,获取网络社交网站不同的评论文本信息中的评论无效词以及网络上同一兴趣论坛中各个兴趣词,所述评论无效词包括:转发动态、已关注以及加一,根据网络无效词建立无效词查找表,获取用户在偏好兴趣论坛对应的评论文本信息,根据无效词查找表对该兴趣论坛对应的评论文本信息进行查找,当该兴趣论坛对应的评论文本信息中存在无效词查找表中的无效词时,删除该兴趣论坛对应的评论文本信息;当该兴趣论坛对应的评论文本信息中不存在无效词查找表中的无效词时,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频。
在以上技术方案的基础上,优选的,还包括以下步骤,设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的兴趣词的信息熵与预设信息熵进行比较,当用户评论信息主题中出现的兴趣词的信息熵大于预设信息熵时,将该用户评论信息主题中出现的兴趣词作为用户的兴趣偏好,并推送对应的资讯;当用户评论信息主题中出现的兴趣词的信息熵小于预设信息熵时,将该用户评论信息主题中出现的兴趣词删除。
在以上技术方案的基础上,优选的,信息熵算法为:
Figure GDA0003310912830000041
其中,H(U)代表用户评论信息主题中出现的各个兴趣词的信息熵,p代表用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频,n代表用户评论信息主题中出现的兴趣词的总数。
更进一步优选的,所述社交信息分析装置包括:
第一获取模块,用于获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
确定模块,用于建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,根据用户社交网站浏览记录中各个兴趣论坛名称的比重值的大小确定用户的偏好兴趣论坛;
第二获取模块,用于获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
推送模块,用于建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
第二方面,所述社交信息分析方法还包括一种终端设备,所述终端设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的社交信息分析方法程序,所述社交信息分析方法程序配置为实现如上文所述的社交信息分析方法的步骤。
第三方面,所述社交信息分析方法还包括一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有社交信息分析方法程序,所述社交信息分析方法程序被处理器执行时实现如上文所述的社交信息分析方法的步骤。
本发明的一种社交信息分析方法相对于现有技术具有以下有益效果:
(1)通过比重值算法对用户社交网站浏览记录中各个兴趣论坛名称的比重值进行计算,可以根据数值很直观看到用户对于社交网站中各个兴趣论坛的比重值,根据这个比重值可以缩小用户的兴趣范围,有助于工作人员减小工作量,提高工作效率;
(2)通过信息熵算法来计算用户在偏好兴趣论坛中各个关键词的信息熵,根据信息熵可以精确对用户的兴趣进行确定,并对用户进行精准的资讯的推送,通过信息熵可以高效、快捷的确定用户真正的兴趣,避免了在推送资讯时,需要推送大量的资讯而对用户造成不佳体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图;
图2为本发明社交信息分析方法第一实施例的流程示意图;
图3为本发明社交信息分析方法第一实施例的功能模块示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,在实际应用中终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及社交信息分析方法程序。
在图1所示的终端设备中,网络接口1004主要用于建立终端设备与存储社交信息分析方法系统中所需的所有数据的服务器的通信连接;用户接口1003主要用于与用户进行数据交互;本发明社交信息分析方法设备中的处理器1001、存储器1005可以设置在社交信息分析方法设备中,所述社交信息分析方法设备通过处理器1001调用存储器1005中存储的社交信息分析方法程序,并执行本发明实施提供的社交信息分析方法。
结合图2,图2为本发明社交信息分析方法第一实施例的流程示意图。
本实施例中,所述社交信息分析方法包括以下步骤:
S10:获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率。
应当理解的是,本实施中,会预先设定一个时间,这个时间是一个浏览时间记录,然后会获取用户社交网站浏览记录、用户社交网站浏览记录对应的时间以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,将用户浏览兴趣论坛的时间与预设的时间进行比较,当用户浏览生活论坛的时间大于预设的时间时,表示用户最近对生活论坛感兴趣,对生活论坛的名称进行标记;当用户浏览购物论坛的时间小于预设的时间时,表示用户之前对生活论坛感兴趣,设定时间的目的是为了筛选出用户最近感兴趣的兴趣论坛,当出现多个用户感兴趣的兴趣论坛时,就需要对用户在偏好兴趣论坛名称的比重值就行计算,来确定用户真正感兴趣的论坛,这样可以筛选出一部分旧数据,避免分析过程中,因为数据过多,导致资源占用过多。
S20:建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,根据用户社交网站浏览记录中各个兴趣论坛名称的比重值的大小确定用户的偏好兴趣论坛。
应当理解的是,本实施例中,建立比重值算法,同时会获取用户网站浏览记录中,各个兴趣论坛的名称出现的频率,根据名称出现的频率可以计算出各个兴趣论坛名称的比重值,此时,可以通过对各个兴趣论坛名称的比重值进行分析,比重值越大表示用户浏览这个兴趣论坛的次数越大,用户对于这个兴趣论坛更加偏好,比重值越小表示用户浏览这个兴趣论坛的次数越少,通过比重值算法,可以缩小用户的兴趣圈子,有助于后期对用户的兴趣进行锁定。
应当理解的是,所述比重值算法为:
Figure GDA0003310912830000071
其中,p代表用户社交网站浏览记录中各个兴趣论坛名称的比重值,ni代表用户社交网站浏览记录中各个兴趣论坛名称出现频率,∑ni代表代表用户社交网站浏览记录中所有兴趣论坛名称出现总频率,i代表用户社交网站浏览记录中各个兴趣论坛名称的个数。
S30:获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频。
应当理解的是,本实施例中,还会对用户在论坛中无效的评论进行筛选,所述评论无效词包括:转发动态、已关注以及加一,通过对用户在论坛中无效的评论进行筛选,可以增加用户社交信息分析的精确度。
应当理解的是,本实施例中,在获取了评论无效词之后,会根据评论无效词对用户在社交网站中的评论文本信息进行标记,当用户的评论文本信息中出现了评论无效词时,就删除该评论文本信息,重新对下一条评论文本信息进行标记,当发现该评论文本信息中不存在评论无效词时,则对评论文本信息中的兴趣词进行标记,获取评论信息文本中兴趣词的词频。
S40:设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
应当理解的是,本实施例中,会预先设定一个信息熵,然后会建立信息熵算法,并计算用户评论信息文本中各个兴趣词的信息熵,然后将各个兴趣词的信息熵与预设信息熵进行比较,当兴趣词的信息熵小于预设信息熵时,表示该兴趣词不是用户真正的喜好兴趣,并重新选择兴趣词进行比较;当兴趣词的信息熵大于预设信息熵时,表示该兴趣词在用户的喜好兴趣范围之类,当存在多个大于预设信息熵的兴趣词时,将这些兴趣词的信息熵两两进行比较,选出信息熵最大的兴趣词,作为用户的兴趣偏好,通过这种方式,可以直观的对用户社交信息进行分析,确定用户的兴趣范围,精确对用户推送资讯,不仅节省了大量的资源,同时也避免了推送的资讯过多导致用户体感变差。
应当理解的是,所述信息熵算法为:
Figure GDA0003310912830000091
其中,H(U)代表用户评论信息主题中出现的各个兴趣词的信息熵,p代表用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频,n代表用户评论信息主题中出现的兴趣词的总数。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例通过获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,建立比重值算法,通过比重值算法计算用户社交网站浏览记录中各个兴趣论坛名称的比重值,并根据比重值确定用户的偏好兴趣论坛,获取网络上社交网站中同一兴趣论坛中不同版块的名称,获取用户在偏好兴趣论坛中的各个兴趣词的词频,建立信息熵算法,根据用户在偏好兴趣论坛中的各个兴趣词的词频计算信息熵,根据该信息熵确定用户的兴趣,并对用户推送对应的资讯,本实施例通过比重值算法先确定用户的兴趣论坛,先缩小用户的兴趣范围,然后通过信息熵算法精确对用户的兴趣进行锁定,节省了时间,大大提高了工作效率。
此外,本发明实施例还提出一种社交信息分析装置。如图3所示,该社交信息分析方法装置包括:第一获取模块10、确定模块20、第二获取模块30、推送模块40。
第一获取模块10,用于获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
确定模块20,用于建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,根据用户社交网站浏览记录中各个兴趣论坛名称的比重值的大小确定用户的偏好兴趣论坛;
第二获取模块30,用于获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
推送模块40,用于建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的社交信息分析方法,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有社交信息分析方法程序,所述社交信息分析方法程序被处理器执行时实现如下操作:
S1,获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
S2,建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,根据用户社交网站浏览记录中各个兴趣论坛名称的比重值的大小确定用户的偏好兴趣论坛;
S3,获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
S4,设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
设定预设时间,获取用户社交网站浏览记录、用户社交网站浏览记录对应的时间以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,将用户社交网站浏览记录对应的时间与预设时间进行比较,当用户社交网站浏览记录对应的时间大于预设时间时,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;当用户社交网站浏览记录对应的时间小于预设时间时,将该时间对应的用户社交网站浏览记录删除。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,将各个兴趣论坛名称的比重值两两进行比较,筛选出最大比重值对应的兴趣论坛名称,并将该兴趣论坛名称确定为用户的偏好兴趣论坛。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
比重值算法为:
Figure GDA0003310912830000121
其中,p代表用户社交网站浏览记录中各个兴趣论坛名称的比重值,ni代表用户社交网站浏览记录中各个兴趣论坛名称出现频率,∑ni代表代表用户社交网站浏览记录中所有兴趣论坛名称出现总频率,i代表用户社交网站浏览记录中各个兴趣论坛名称的个数。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
获取网络社交网站不同的评论文本信息中的评论无效词以及网络上同一兴趣论坛中各个兴趣词,所述评论无效词包括:转发动态、已关注以及加一,根据网络无效词建立无效词查找表,获取用户在偏好兴趣论坛对应的评论文本信息,根据无效词查找表对该兴趣论坛对应的评论文本信息进行查找,当该兴趣论坛对应的评论文本信息中存在无效词查找表中的无效词时,删除该兴趣论坛对应的评论文本信息;当该兴趣论坛对应的评论文本信息中不存在无效词查找表中的无效词时,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的兴趣词的信息熵与预设信息熵进行比较,当用户评论信息主题中出现的兴趣词的信息熵大于预设信息熵时,将该用户评论信息主题中出现的兴趣词作为用户的兴趣偏好,并推送对应的资讯;当用户评论信息主题中出现的兴趣词的信息熵小于预设信息熵时,将该用户评论信息主题中出现的兴趣词删除。
进一步地,所述社交信息分析方法程序被处理器执行时还实现如下操作:
信息熵算法为:
Figure GDA0003310912830000131
其中,H(U)代表用户评论信息主题中出现的各个兴趣词的信息熵,p代表用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频,n代表用户评论信息主题中出现的兴趣词的总数。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种社交信息分析方法,其特征在于:
S1,获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
S2,建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,将各个兴趣论坛名称的比重值两两进行比较,筛选出最大比重值对应的兴趣论坛名称,并将该兴趣论坛名称确定为用户的偏好兴趣论坛;
比重值算法为:
Figure FDA0003310912820000011
其中,p代表用户社交网站浏览记录中各个兴趣论坛名称的比重值,ni代表用户社交网站浏览记录中各个兴趣论坛名称出现频率,∑ni代表代表用户社交网站浏览记录中所有兴趣论坛名称出现总频率,i代表用户社交网站浏览记录中各个兴趣论坛名称的个数;
S3,获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
S4,设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
2.如权利要求1所述的社交信息分析方法,其特征在于:步骤S1中,还包括以下步骤,设定预设时间,获取用户社交网站浏览记录、用户社交网站浏览记录对应的时间以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,将用户社交网站浏览记录对应的时间与预设时间进行比较,当用户社交网站浏览记录对应的时间大于预设时间时,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;当用户社交网站浏览记录对应的时间小于预设时间时,将该时间对应的用户社交网站浏览记录删除。
3.如权利要求1所述的社交信息分析方法,其特征在于:步骤S3中,还包括以下步骤,获取网络社交网站不同的评论文本信息中的评论无效词以及网络上同一兴趣论坛中各个兴趣词,所述评论无效词包括:转发动态、已关注以及加一,根据网络无效词建立无效词查找表,获取用户在偏好兴趣论坛对应的评论文本信息,根据无效词查找表对该兴趣论坛对应的评论文本信息进行查找,当该兴趣论坛对应的评论文本信息中存在无效词查找表中的无效词时,删除该兴趣论坛对应的评论文本信息;当该兴趣论坛对应的评论文本信息中不存在无效词查找表中的无效词时,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频。
4.如权利要求1所述的社交信息分析方法,其特征在于:步骤S4中,还包括以下步骤,设定预设信息熵,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的兴趣词的信息熵与预设信息熵进行比较,当用户评论信息主题中出现的兴趣词的信息熵大于预设信息熵时,将该用户评论信息主题中出现的兴趣词作为用户的兴趣偏好,并推送对应的资讯;当用户评论信息主题中出现的兴趣词的信息熵小于预设信息熵时,将该用户评论信息主题中出现的兴趣词删除。
5.如权利要求3或4所述的社交信息分析方法,其特征在于:信息熵算法为:
Figure FDA0003310912820000031
其中,H(U)代表用户评论信息主题中出现的各个兴趣词的信息熵,p代表用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频,n代表用户评论信息主题中出现的兴趣词的总数。
6.一种社交信息分析装置,其特征在于,所述社交信息分析装置包括:
第一获取模块,获取用户社交网站浏览记录以及网络上社交网站中不同兴趣论坛的名称,所述社交网站中不同兴趣论坛的名称包括:生活、购物、娱乐以及游戏,根据网络上不同的兴趣论坛名称对用户社交网站浏览记录中出现的兴趣论坛名称进行标记,获取用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率;
确定模块,建立比重值算法,通过比重值算法,根据用户社交网站浏览记录中已标记的各个兴趣论坛名称的出现频率计算该用户社交网站浏览记录中对应的各个兴趣论坛名称的比重值,将各个兴趣论坛名称的比重值两两进行比较,筛选出最大比重值对应的兴趣论坛名称,并将该兴趣论坛名称确定为用户的偏好兴趣论坛;
比重值算法为:
Figure FDA0003310912820000032
其中,p代表用户社交网站浏览记录中各个兴趣论坛名称的比重值,ni代表用户社交网站浏览记录中各个兴趣论坛名称出现频率,∑ni代表代表用户社交网站浏览记录中所有兴趣论坛名称出现总频率,i代表用户社交网站浏览记录中各个兴趣论坛名称的个数;
第二获取模块,获取网络上社交网站中同一兴趣论坛中不同版块的名称,将社交网站中同一兴趣论坛中不同版块的名称作为兴趣词,所述社交网站中同一论坛中不同版块的名称包括:房产、音乐、八卦以及财经,获取用户在偏好兴趣论坛中的评论信息主题,根据网络上同一兴趣论坛中各个兴趣词对用户在偏好兴趣论坛中的评论信息主题中出现的兴趣词进行标记,获取用户在偏好兴趣论坛中的评论信息主题中已标记的各个兴趣词的词频;
推送模块,建立信息熵算法,通过信息熵算法,根据用户在偏好兴趣论坛中的评论信息主题中各个兴趣词的词频计算评论信息主题中出现的各个兴趣词的信息熵,将用户评论信息主题中出现的各个兴趣词的信息熵与预设信息熵进行比较,根据比较结果确定用户的兴趣,并对用户推送对应的资讯。
7.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的社交信息分析方法程序,所述社交信息分析方法程序配置为实现如权利要求1至5任一项所述的社交信息分析方法的步骤。
8.一种存储介质,其特征在于,所述存储介质为计算机存储介质,所述计算机存储介质上存储有社交信息分析方法程序,所述社交信息分析方法程序被处理器执行时实现如权利要求1至5任一项所述的社交信息分析方法的步骤。
CN201910807109.9A 2019-08-29 2019-08-29 社交信息分析方法、装置、终端设备及存储介质 Active CN110580317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910807109.9A CN110580317B (zh) 2019-08-29 2019-08-29 社交信息分析方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910807109.9A CN110580317B (zh) 2019-08-29 2019-08-29 社交信息分析方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN110580317A CN110580317A (zh) 2019-12-17
CN110580317B true CN110580317B (zh) 2022-02-22

Family

ID=68812435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910807109.9A Active CN110580317B (zh) 2019-08-29 2019-08-29 社交信息分析方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN110580317B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328862A (zh) * 2020-12-24 2021-02-05 黑龙江省网络空间研究中心 一种数据隐私信息检测系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
CN104063476A (zh) * 2014-06-30 2014-09-24 北京奇虎科技有限公司 基于社交网络的内容推荐方法和系统
CN104216965A (zh) * 2014-08-21 2014-12-17 北京金山安全软件有限公司 信息推荐方法和装置
CN104281669A (zh) * 2014-09-28 2015-01-14 西安电子科技大学 社交网络用户影响数值的评估方法和装置
CN104462336A (zh) * 2014-12-03 2015-03-25 北京国双科技有限公司 信息推送方法和装置
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
US9195753B1 (en) * 2007-12-28 2015-11-24 Amazon Technologies Inc. Displaying interest information
CN105243144A (zh) * 2015-10-15 2016-01-13 桂林电子科技大学 一种兴趣标签的推荐方法及装置
CN105354339A (zh) * 2015-12-15 2016-02-24 成都陌云科技有限公司 基于上下文的内容个性化提供方法
CN106339421A (zh) * 2016-08-15 2017-01-18 北京集奥聚合科技有限公司 一种用户浏览行为的兴趣挖掘方法
CN107562939A (zh) * 2017-09-21 2018-01-09 深圳市傲天科技股份有限公司 垂直领域新闻推荐方法、装置及可读储存介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9172762B2 (en) * 2011-01-20 2015-10-27 Linkedin Corporation Methods and systems for recommending a context based on content interaction

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195753B1 (en) * 2007-12-28 2015-11-24 Amazon Technologies Inc. Displaying interest information
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
CN104063476A (zh) * 2014-06-30 2014-09-24 北京奇虎科技有限公司 基于社交网络的内容推荐方法和系统
CN104216965A (zh) * 2014-08-21 2014-12-17 北京金山安全软件有限公司 信息推荐方法和装置
CN104281669A (zh) * 2014-09-28 2015-01-14 西安电子科技大学 社交网络用户影响数值的评估方法和装置
CN104462336A (zh) * 2014-12-03 2015-03-25 北京国双科技有限公司 信息推送方法和装置
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
CN105243144A (zh) * 2015-10-15 2016-01-13 桂林电子科技大学 一种兴趣标签的推荐方法及装置
CN105354339A (zh) * 2015-12-15 2016-02-24 成都陌云科技有限公司 基于上下文的内容个性化提供方法
CN106339421A (zh) * 2016-08-15 2017-01-18 北京集奥聚合科技有限公司 一种用户浏览行为的兴趣挖掘方法
CN107562939A (zh) * 2017-09-21 2018-01-09 深圳市傲天科技股份有限公司 垂直领域新闻推荐方法、装置及可读储存介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于商品属性的电子商务推荐系统研究;胡新明;《中国优秀博硕士学位论文全文数据库(博士)经济与管理科学辑》;20130715(第7期);全文 *

Also Published As

Publication number Publication date
CN110580317A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN104899220B (zh) 应用程序推荐方法和系统
CN106874253A (zh) 识别敏感信息的方法及装置
US20080270549A1 (en) Extracting link spam using random walks and spam seeds
US20130198240A1 (en) Social Network Analysis
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
US8639559B2 (en) Brand analysis using interactions with search result items
CN108319628B (zh) 一种用户兴趣确定方法及装置
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
US10250550B2 (en) Social message monitoring method and apparatus
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
US9020962B2 (en) Interest expansion using a taxonomy
CN115048571A (zh) 一种基于云平台的在线教育推荐管理系统
CN113807926A (zh) 推荐信息生成方法、装置、电子设备和计算机可读介质
CN110580317B (zh) 社交信息分析方法、装置、终端设备及存储介质
CN115687810A (zh) 网页搜索方法、装置及相关设备
CN112836126A (zh) 基于知识图谱的推荐方法、装置、电子设备及存储介质
CN110737691B (zh) 用于处理访问行为数据的方法和装置
CN113076395B (zh) 语义模型训练、搜索显示方法、装置、设备及存储介质
CN110674330B (zh) 表情管理的方法、装置、电子设备及存储介质
CN110717109B (zh) 推荐数据的方法、装置、电子设备及存储介质
CN113420042A (zh) 基于演示文稿的数据统计方法、装置、设备及存储介质
CN111970327A (zh) 一种基于大数据处理的新闻传播方法及系统
CN111523027A (zh) 基于区块链技术的数据新闻自动撰写机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant