CN109462635B - 一种信息推送方法、计算机可读存储介质及服务器 - Google Patents

一种信息推送方法、计算机可读存储介质及服务器 Download PDF

Info

Publication number
CN109462635B
CN109462635B CN201811119749.2A CN201811119749A CN109462635B CN 109462635 B CN109462635 B CN 109462635B CN 201811119749 A CN201811119749 A CN 201811119749A CN 109462635 B CN109462635 B CN 109462635B
Authority
CN
China
Prior art keywords
information
user
categories
category
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811119749.2A
Other languages
English (en)
Other versions
CN109462635A (zh
Inventor
刘金满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811119749.2A priority Critical patent/CN109462635B/zh
Publication of CN109462635A publication Critical patent/CN109462635A/zh
Application granted granted Critical
Publication of CN109462635B publication Critical patent/CN109462635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Abstract

本发明属于计算机技术领域,尤其涉及一种基于大数据分析的信息推送方法、计算机可读存储介质及服务器。所述方法接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;接收第二用户通过终端设备发布的共享信息集合,所述第二用户的行业标签与所述第一用户的行业标签相同;将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;选取匹配度最高的前P个信息类别作为优选信息类别,并推送至所述第一用户的终端设备。通过这样的方式,屏蔽掉了用户不感兴趣的信息,只将用户感兴趣的本行业的信息推送给用户,大大提高了用户的使用体验。

Description

一种信息推送方法、计算机可读存储介质及服务器
技术领域
本发明属于计算机技术领域,尤其涉及一种信息推送方法、计算机可读存储介质及服务器。
背景技术
随着移动互联网技术的飞速发展,网络上的信息呈现出了几何增长的态势,用户为了更好的了解行业信息,需要及时的获取与自身行业相关的信息,但这些信息往往会淹没在海量的网络信息中,用户没有时间和精力从各种推送信息中筛选出符合自身行业相关的信息。
发明内容
有鉴于此,本发明实施例提供了一种信息推送方法、计算机可读存储介质及服务器,以解决现有技术中用户没有时间和精力从各种推送信息中筛选出符合自身行业相关的信息的问题。
本发明实施例的第一方面提供了一种信息推送方法,可以包括:
接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;
选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备,其中,P为正整数。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;
选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备,其中,P为正整数。
本发明实施例的第三方面提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;
选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备,其中,P为正整数。
本发明实施例与现有技术相比存在的有益效果是:在本发明实施例中,用户进行注册时均选择了自己的行业标签,在进行信息推送时,将用户发布的信息只在行业标签相同的用户间进行推送,在此基础上,将各条信息按照关键词划分为各个信息类别,仅将与用户之间的匹配度最高的前若干个信息类别的信息推送给用户,通过这样的方式,屏蔽掉了用户不感兴趣的信息,只将用户感兴趣的本行业的信息推送给用户,大大提高了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种信息推送方法的一个实施例流程图;
图2为将共享信息集合中的各条信息按照关键词划分为各个信息类别的示意流程图;
图3为分别计算第一用户与各个信息类别之间的匹配度的示意流程图;
图4为确定优选信息类别的个数的示意流程图;
图5为本发明实施例中一种信息推送装置的一个实施例结构图;
图6为本发明实施例中一种服务器的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种信息推送方法的一个实施例可以包括:
步骤S101、接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签。
在本实施例中,通过应用程序(APP)的形式为用户提供了信息分享的平台。用户通过手机、平板电脑等终端设备在该应用程序上进行注册时,需要在应用程序中给出的选项框中勾选自己的行业标签,这些行业标签包括但不限于:金融、建筑、教育、电子数码、零售、咨询服务等等。在用户勾选完行业标签后,其终端设备会向服务器发送注册指令,在该注册指令中携带了用户的行业标签。服务器在接收到注册指令后,即可从该注册指令中提取用户的行业标签。
步骤S102、接收第二用户通过终端设备发布的共享信息集合。
所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同。
在本实施例中,具有同一个行业标签的用户会形成一个信息共享圈,仅会为用户推送该信息共享圈内的其它用户发布的信息,而屏蔽掉其它行业标签的用户发布的信息。例如,若用户勾选自己的行业标签为金融,则在其后续的使用过程中,仅会为其推送金融信息共享圈内的其它用户发布的信息,从而大大减少了无用信息对其的干扰。
步骤S103、将所述共享信息集合中的各条信息按照关键词划分为各个信息类别。
如图2所示,步骤S103具体可以包括如下过程:
步骤S1031、确定与各个信息类别分别对应的关键词集合,并分别计算每个关键词集合中的各个关键词的分类辨识度。
虽然通过行业标签已对信息进行了筛选,但同一行业标签下的信息也是各种各样的,例如,仅就金融信息共享圈中用户发布的信息而言,可以将其划分为政策解读、管理经验分享、营销技巧、产品推介等等类别。
首先,对预设的语料库中的各条语料进行切词处理,得到各个词语。
所述语料库中包括与各个信息类别分别对应的语料子库。其中,各个语料子库可以根据对大规模的历史推送信息的大数据统计得到。例如,可以从该历史推送信息中选取所有的政策解读类别的信息,然后将这些信息构造为与政策解读类别对应的语料子库。
切词处理是指将一条语料切分成一个一个单独的词语,在本实施例中,可以根据通用词典对语料进行切分,保证分出的词语都是正常词汇,如词语不在词典内则分出单字。当前后方向都可以成词时,例如“要求神”,会根据统计词频的大小划分,如“要求”词频高则分出“要求/神”,如“求神”词频高则分出“要/求神”。
然后,分别统计各个词语在各个语料子库中出现的频次,并根据下式分别计算各个词语的分类辨识度:
Figure BDA0001810561660000051
其中,w为词语的序号,1≤w≤WordNum,WordNum为词语的总数目,FreqSeqw为第w个词语在各个语料子库中出现的频次序列,且FreqSeqw=[Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum],Freqw,c为第w个词语在与第c个信息类别对应的语料子库中出现的频次,FreqSeq′w为从FreqSeqw中去除掉最大取值后剩余的序列,即:FreqSeq′w=FreqSeqw-MAX(FreqSeqw),MAX为求最大值函数,ClassDegw为第w个词语的分类辨识度。
接着,选取分类辨识度大于预设的辨识度阈值的词语作为关键词,且该关键词对应于FreqSeqw取得最大值时对应的信息类别。
所述辨识度阈值可以根据实际情况进行设置,例如,可以将其设置为5、10、20或者其它取值。
可以根据下式确定与各个关键词分别对应的信息类别:
TgtKwSetw=argmax(FreqSeqw)=argmax(Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum)
其中,TgtKwSetw为与第w个关键词对应的信息类别的序号。
例如,“法规”这一词语在政策解读语料子库中出现的频次为1000次,在管理经验分享语料子库中出现的频次为20次,在营销技巧子库中出现的频次为10次,在产品推介子库中出现的频次为5次,则其分类辨识度为:
Figure BDA0001810561660000061
其分类辨识度大于辨识度阈值,则可将其确定为关键词,由于其在政策解读语料子库中出现的频次最多,则可确定其为与政策解读这一信息类别对应的关键词。
最后,将各个与第c个信息类别对应的关键词构造为与第c个信息类别对应的关键词集合,如下表所示:
信息类别 关键词集合
类别1 集合1={关键词1、关键词2、关键词3}
类别2 集合2={关键词4、关键词5、关键词6}
类别3 集合3={关键词7、关键词8}
…… ……
…… ……
步骤S1032、分别统计各个关键词在各条信息中出现的频次。
步骤S1033、分别计算所述共享信息集合中的各条信息属于各个信息类别的概率值。
例如,可以根据下式分别计算所述共享信息集合中的各条信息属于各个信息类别的概率值:
Figure BDA0001810561660000062
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,kn为关键词的序号,1≤kn≤KwNumc,KwNumc为与第c个信息类别对应的关键词集合中的关键词总数,MsgKWNumc,kn,m为与第c个信息类别对应的关键词集合中的第kn个关键词在第m条信息中出现的频次,ClassDegc,kn为与第c个信息类别对应的关键词集合中的第kn个关键词的分类辨识度,Probabilityc,m为所述共享信息集合中的第m条信息属于第c个信息类别的概率值。
步骤S1034、将所述共享信息集合中的各条信息分别划分到概率值最高的信息类别中。
例如,可以按照下式将所述共享信息集合中的各条信息分别划分到概率值最高的信息类别中:
TargetClassm=argmax(Probability1,m,Probability2,m,...,Probabilityc,m,,...,ProbabilityClassNum,m)
其中,argmax为最大自变量函数,TargetClassm为所述共享信息集合中的第m条信息划分到的信息类别的序号。
步骤S104、分别计算所述第一用户与各个信息类别之间的匹配度。
如图3所示,步骤S104具体可以包括如下过程:
步骤S1041、从预设的数据库中查询所述第一用户在预设的统计时间段内的历史反馈记录。
所述统计时间段可以根据实际情况进行设置,例如,可以将其设置为1周、2周、1个月、2个月或者其它取值。
步骤S1042、将所述统计时间段划分为T个子时段。
其中,T为正整数。T的取值可以根据实际情况进行设置,例如,可以将其设置为2、5、10或者其它取值。需要注意的是,T的取值越大,则计算结果精确度越高,但是耗费的资源也越多,反之,T的取值越小,则计算结果精确度越低,但是耗费的资源也越少。
步骤S1043、从所述历史反馈记录中分别提取在各个子时段内所述第一用户对各个信息类别的历史信息的反馈结果,并根据所述反馈结果计算各条历史信息的得分。
对每条信息而言,所述反馈结果可以包括:
(1)信息阅读程度,取值为用户阅读的信息篇幅与该信息总篇幅的比值,最低为0,即未点击过该信息,最高为100%,即完整阅读该信息;
(2)是否对该信息点赞;
(3)是否对该信息进行过投票;
(4)是否对该信息进行过转发;
(5)对该信息的喜恶倾向,若用户对该信息点击过“感兴趣”的选项,则说明该用户对该信息较为喜好,若用户对该信息点击过“不感兴趣”的选项,则说明该用户对该信息较为厌恶。
具体地,可以根据下式计算该信息的得分:
InfoScore=DepthScore+ThumbUpScore+VoteScore+FwScore+SentiScore
其中,若用户未点开过信息,则DepthScore=0,若用户点开过信息,则DepthScore=1,若查看到信息至少30%处,则DepthScore=2,若用户查看到信息至少50%处,则DepthScore=3,若用户查看到信息100%处,则DepthScore=4;
若用户对该信息进行过点赞,则ThumbUpScore=1,否则,ThumbUpScore=0;
若用户对该信息进行过投票,则VoteScore=5,否则,VoteScore=0;
若用户对该信息进行过转发,则FwScore=5,否则,FwScore=0;
若用户对该信息点击过“感兴趣”的选项,则SentiScore=8,若用户对该信息点击过“不感兴趣”的选项,则SentiScore=-8,否则,SentiScore=0。
步骤S1044、分别计算所述第一用户与各个信息类别之间的匹配度。
例如,可以根据下式分别计算所述第一用户与各个信息类别之间的匹配度:
Figure BDA0001810561660000081
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,t为子时段的序号,1≤t≤T,n为信息的序号,1≤n≤Nc,t,Nc,t为所述第一用户在第t个子时段内接收到的第c个信息类别的信息的总次数,InfoScorec,t,n为第t个子时段内第c个信息类别的第n条信息的得分,exp为自然指数函数,MatchDegc为所述第一用户与第c个信息类别之间的匹配度。
进一步地,考虑到所述第一用户在初始状态下并没有任何历史数据,在这种情况下,可以根据与其关系紧密的好友的历史数据推测其偏好。
对于所述第一用户的好友的确定可以通过获取其终端设备上的通讯记录来完成,统计所述第一用户与各个联系人的联系频率,将联系频率最高的前FN个联系人确定为其好友,FN为正数,在应用程序的注册记录中查询这些好友(一般通过手机号查询),并获取其历史数据。
最后,根据下式分别计算所述第一用户与各个信息类别之间的匹配度:
Figure BDA0001810561660000091
其中,f为所述第一用户的好友的序号,1≤f≤FN,FdWtf为第f个好友的权重系数,且
Figure BDA0001810561660000092
ContNumf为在通讯记录中所述第一用户与第f个好友联系的次数,n为信息的序号,1≤n≤Nf,c,t,Nf,c,t为所述第一用户的第f个好友在第t个子时段内接收到的第c个信息类别的信息的总次数,InfoScoref,c,t,n为根据所述第一用户的第f个好友的反馈结果确定出的其在第t个子时段内接收到的第c个信息类别的第n条信息的得分。
步骤S105、选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备。
其中,P为正整数。P的取值可以根据实际情况进行设置,例如,可以将其设置为1、2、3、5或者其它取值。
优选地,优选信息类别的个数P的取值还可以根据如图4所示的过程进行确定:
步骤S1051、构造匹配度序列。
例如,可以将各个信息类别按照匹配度从大到小的顺序依次排列为如下的序列:
{MatchDeg1、MatchDeg2、……、MatchDegks、……、MatchDegClassNum}
其中,ks为匹配度按照从大到小的顺序依次排列的序号,1≤ks≤ClassNum,ClassNum为信息类别的总数目,MatchDegks为排序在第ks位的匹配度。
步骤S1052、确定候选信息类别的个数。
例如,可以将满足下式的KN的取值确定为候选信息类别的个数:
Figure BDA0001810561660000101
其中,DegThresh为预设的匹配度阈值,DegThresh的具体取值可以根据实际情况进行设置,例如,可以将其设置为80%、85%、90%或者其它取值。
步骤S1053、确定优选信息类别的个数。
例如,可以将满足下式的P的取值确定为优选信息类别的个数:
P=max(MinNum,min(KN,MaxNum))
其中,MaxNum=ceil(WeightMax×ClassNum),MinNum=ceil(WeightMin×ClassNum),ceil为向上取整函数,WeightMax、WeightMin均为预设的比例系数,且0<WeightMin<WeightMax<1,min为求最小值函数,max为求最大值函数。
最终将前P个信息类别确定为需要分享给所述第一用户的优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备。
综上所述,在本发明实施例中,用户进行注册时均选择了自己的行业标签,在进行信息推送时,将用户发布的信息只在行业标签相同的用户间进行推送,在此基础上,将各条信息按照关键词划分为各个信息类别,仅将与用户之间的匹配度最高的前若干个信息类别的信息推送给用户,通过这样的方式,屏蔽掉了用户不感兴趣的信息,只将用户感兴趣的本行业的信息推送给用户,大大提高了用户的使用体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种信息推送方法,图5示出了本发明实施例提供的一种信息推送装置的一个实施例结构图。
本实施例中,一种信息推送装置可以包括:
行业标签提取模块501,用于接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
共享信息接收模块502,用于接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
信息类别划分模块503,用于将所述共享信息集合中的各条信息按照关键词划分为各个信息类别;
匹配度计算模块504,用于分别计算所述第一用户与各个信息类别之间的匹配度;
优选信息类别选取模块505,用于选取匹配度最高的前P个信息类别作为优选信息类别,其中,P为正整数;
信息推送模块506,用于将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备。
进一步地,所述匹配度计算模块可以包括:
历史反馈记录查询单元,用于从预设的数据库中查询所述第一用户在预设的统计时间段内的历史反馈记录;
子时段划分单元,用于将所述统计时间段划分为T个子时段,其中,T为正整数;
得分计算单元,用于从所述历史反馈记录中分别提取在各个子时段内所述第一用户对各个信息类别的历史信息的反馈结果,并根据所述反馈结果计算各条历史信息的得分;
匹配度计算单元,用于根据下式分别计算所述第一用户与各个信息类别之间的匹配度:
Figure BDA0001810561660000121
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,t为子时段的序号,1≤t≤T,n为信息的序号,1≤n≤Nc,t,Nc,t为所述第一用户在第t个子时段内接收到的第c个信息类别的信息的总次数,InfoScorec,t,n为第t个子时段内第c个信息类别的第n条信息的得分,exp为自然指数函数,MatchDegc为所述第一用户与第c个信息类别之间的匹配度。
进一步地,所述优选信息类别选取模块可以包括:
匹配度序列排列单元,用于将各个信息类别按照匹配度从大到小的顺序依次排列为如下的序列:
{MatchDeg1、MatchDeg2、……、MatchDegks、……、MatchDegClassNum}
其中,ks为匹配度按照从大到小的顺序依次排列的序号,1≤ks≤ClassNum,ClassNum为信息类别的总数目,MatchDegks为排序在第ks位的匹配度;
候选类别个数确定单元,用于将满足下式的KN的取值确定为候选信息类别的个数:
Figure BDA0001810561660000131
其中,DegThresh为预设的匹配度阈值;
优选类别个数确定单元,用于将满足下式的P的取值确定为优选信息类别的个数:
P=max(MinNum,min(KN,MaxNum))
其中,MaxNum=ceil(WeightMax×ClassNum),MinNum=ceil(WeightMin×ClassNum),ceil为向上取整函数,WeightMax、WeightMin均为预设的比例系数,且0<WeightMin<WeightMax<1,min为求最小值函数,max为求最大值函数。
进一步地,所述信息类别划分模块可以包括:
分类辨识度计算单元,用于确定与各个信息类别分别对应的关键词集合,并分别计算每个关键词集合中的各个关键词的分类辨识度;
频次统计单元,用于分别统计各个关键词在各条信息中出现的频次;
概率值计算单元,用于根据下式分别计算所述共享信息集合中的各条信息属于各个信息类别的概率值:
Figure BDA0001810561660000132
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,kn为关键词的序号,1≤kn≤KwNumc,KwNumc为与第c个信息类别对应的关键词集合中的关键词总数,MsgKWNumc,kn,m为与第c个信息类别对应的关键词集合中的第kn个关键词在第m条信息中出现的频次,ClassDegc,kn为与第c个信息类别对应的关键词集合中的第kn个关键词的分类辨识度,Probabilityc,m为所述共享信息集合中的第m条信息属于第c个信息类别的概率值;
信息划分单元,用于按照下式将所述共享信息集合中的各条信息分别划分到概率值最高的信息类别中:
TargetClassm=argmax(Probability1,m,Probability2,m,...,Probabilityc,m,,...,ProbabilityClassNum,m)其中,argmax为最大自变量函数,TargetClassm为所述共享信息集合中的第m条信息划分到的信息类别的序号。
进一步地,所述分类辨识度计算单元可以包括:
切词处理子单元,用于对预设的语料库中的各条语料进行切词处理,得到各个词语,所述语料库中包括与各个信息类别分别对应的语料子库;
词语频次统计子单元,用于分别统计各个词语在各个语料子库中出现的频次;
分类辨识度计算子单元,用于根据下式分别计算各个词语的分类辨识度:
Figure BDA0001810561660000141
其中,w为词语的序号,1≤w≤WordNum,WordNum为词语的总数目,FreqSeqw为第w个词语在各个语料子库中出现的频次序列,且FreqSeqw=[Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum],Freqw,c为第w个词语在与第c个信息类别对应的语料子库中出现的频次,FreqSeq′w为从FreqSeqw中去除掉最大取值后剩余的序列,即:FreqSeq′w=FreqSeqw-MAX(FreqSeqw),MAX为求最大值函数,ClassDegw为第w个词语的分类辨识度;
关键词选取子单元,用于选取分类辨识度大于预设的辨识度阈值的词语作为关键词,并根据下式确定与各个关键词分别对应的信息类别:
TgtKwSetw=argmax(FreqSeqw)=argmax(Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum)
其中,TgtKwSetw为与第w个关键词对应的信息类别的序号;
关键词集合构造子单元,用于将各个与第c个信息类别对应的关键词构造为与第c个信息类别对应的关键词集合。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图6示出了本发明实施例提供的一种服务器的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述服务器6可以包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62,例如执行上述的信息推送方法的计算机可读指令。所述处理器60执行所述计算机可读指令62时实现上述各个信息推送方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至506的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述服务器6中的执行过程。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述服务器6的内部存储单元,例如服务器6的硬盘或内存。所述存储器61也可以是所述服务器6的外部存储设备,例如所述服务器6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述服务器6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述服务器6所需的其它指令和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种信息推送方法,其特征在于,包括:
接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;
选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备,其中,P为正整数;
所述分别计算所述第一用户与各个信息类别之间的匹配度包括:
从预设的数据库中查询所述第一用户在预设的统计时间段内的历史反馈记录;
将所述统计时间段划分为T个子时段,其中,T为正整数;
从所述历史反馈记录中分别提取在各个子时段内所述第一用户对各个信息类别的历史信息的反馈结果,并根据所述反馈结果计算各条历史信息的得分;
根据下式分别计算所述第一用户与各个信息类别之间的匹配度:
Figure FDA0003305341410000011
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,t为子时段的序号,1≤t≤T,n为信息的序号,1≤n≤Nc,t,Nc,t为所述第一用户在第t个子时段内接收到的第c个信息类别的信息的总次数,InfoScorec,t,n为第t个子时段内第c个信息类别的第n条信息的得分,exp为自然指数函数,MatchDegc为所述第一用户与第c个信息类别之间的匹配度。
2.根据权利要求1所述的信息推送方法,其特征在于,所述选取匹配度最高的前P个信息类别作为优选信息类别包括:
将各个信息类别按照匹配度从大到小的顺序依次排列为如下的序列:
{MatchDeg1、MatchDeg2、……、MatchDegks、……、MatchDegClassNum}
其中,ks为匹配度按照从大到小的顺序依次排列的序号,1≤ks≤ClassNum,ClassNum为信息类别的总数目,MatchDegks为排序在第ks位的匹配度;
将满足下式的KN的取值确定为候选信息类别的个数:
Figure FDA0003305341410000021
其中,DegThresh为预设的匹配度阈值;
将满足下式的P的取值确定为优选信息类别的个数:
P=max(MinNum,min(KN,MaxNum))
其中,MaxNum=ceil(WeightMax×ClassNum),MinNum=ceil(WeightMin×ClassNum),ceil为向上取整函数,WeightMax、WeightMin均为预设的比例系数,且0<WeightMin<WeightMax<1,min为求最小值函数,max为求最大值函数。
3.根据权利要求1所述的信息推送方法,其特征在于,所述将所述共享信息集合中的各条信息按照关键词划分为各个信息类别包括:
确定与各个信息类别分别对应的关键词集合,并分别计算每个关键词集合中的各个关键词的分类辨识度;
分别统计各个关键词在各条信息中出现的频次;
根据下式分别计算所述共享信息集合中的各条信息属于各个信息类别的概率值:
Figure FDA0003305341410000031
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,kn为关键词的序号,1≤kn≤KwNumc,KwNumc为与第c个信息类别对应的关键词集合中的关键词总数,MsgKWNumc,kn,m为与第c个信息类别对应的关键词集合中的第kn个关键词在第m条信息中出现的频次,ClassDegc,kn为与第c个信息类别对应的关键词集合中的第kn个关键词的分类辨识度,Probabilityc,m为所述共享信息集合中的第m条信息属于第c个信息类别的概率值;
按照下式将所述共享信息集合中的各条信息分别划分到概率值最高的信息类别中:
TargetClassm=argmax(Probability1,m,Probability2,m,...,Probabilityc,m,,...,ProbabilityClassNum,m)
其中,argmax为最大自变量函数,TargetClassm为所述共享信息集合中的第m条信息划分到的信息类别的序号。
4.根据权利要求3所述的信息推送方法,其特征在于,所述确定与各个信息类别分别对应的关键词集合,并分别计算每个关键词集合中的各个关键词的分类辨识度包括:
对预设的语料库中的各条语料进行切词处理,得到各个词语,所述语料库中包括与各个信息类别分别对应的语料子库;
分别统计各个词语在各个语料子库中出现的频次;
根据下式分别计算各个词语的分类辨识度:
Figure FDA0003305341410000032
其中,w为词语的序号,1≤w≤WordNum,WordNum为词语的总数目,FreqSeqw为第w个词语在各个语料子库中出现的频次序列,且FreqSeqw=[Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum],Freqw,c为第w个词语在与第c个信息类别对应的语料子库中出现的频次,FreqSeq′w为从FreqSeqw中去除掉最大取值后剩余的序列,即:FreqSeq′w=FreqSeqw-MAX(FreqSeqw),MAX为求最大值函数,ClassDegw为第w个词语的分类辨识度;
选取分类辨识度大于预设的辨识度阈值的词语作为关键词,并根据下式确定与各个关键词分别对应的信息类别:
TgtKwSetw=argmax(FreqSeqw)=argmax(Freqw,1,Freqw,2,......,Freqw,c,......,Freqw,ClassNum)
其中,TgtKwSetw为与第w个关键词对应的信息类别的序号;
将各个与第c个信息类别对应的关键词构造为与第c个信息类别对应的关键词集合。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的信息推送方法的步骤。
6.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
接收第一用户通过终端设备发送的注册指令,并从所述注册指令中提取所述第一用户的行业标签;
接收第二用户通过终端设备发布的共享信息集合,所述第二用户为除所述第一用户之外的其他用户,且所述第二用户的行业标签与所述第一用户的行业标签相同;
将所述共享信息集合中的各条信息按照关键词划分为各个信息类别,并分别计算所述第一用户与各个信息类别之间的匹配度;
选取匹配度最高的前P个信息类别作为优选信息类别,并将所述共享信息集合中信息类别为所述优选信息类别的信息推送至所述第一用户的终端设备,其中,P为正整数;
所述分别计算所述第一用户与各个信息类别之间的匹配度包括:
从预设的数据库中查询所述第一用户在预设的统计时间段内的历史反馈记录;
将所述统计时间段划分为T个子时段,其中,T为正整数;
从所述历史反馈记录中分别提取在各个子时段内所述第一用户对各个信息类别的历史信息的反馈结果,并根据所述反馈结果计算各条历史信息的得分;
根据下式分别计算所述第一用户与各个信息类别之间的匹配度:
Figure FDA0003305341410000051
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,t为子时段的序号,1≤t≤T,n为信息的序号,1≤n≤Nc,t,Nc,t为所述第一用户在第t个子时段内接收到的第c个信息类别的信息的总次数,InfoScorec,t,n为第t个子时段内第c个信息类别的第n条信息的得分,exp为自然指数函数,MatchDegc为所述第一用户与第c个信息类别之间的匹配度。
7.根据权利要求6所述的服务器,其特征在于,所述选取匹配度最高的前P个信息类别作为优选信息类别包括:
将各个信息类别按照匹配度从大到小的顺序依次排列为如下的序列:
{MatchDeg1、MatchDeg2、……、MatchDegks、……、MatchDegClassNum}
其中,ks为匹配度按照从大到小的顺序依次排列的序号,1≤ks≤ClassNum,ClassNum为信息类别的总数目,MatchDegks为排序在第ks位的匹配度;
将满足下式的KN的取值确定为候选信息类别的个数:
Figure FDA0003305341410000052
其中,DegThresh为预设的匹配度阈值;
将满足下式的P的取值确定为优选信息类别的个数:
P=max(MinNum,min(KN,MaxNum))
其中,MaxNum=ceil(WeightMax×ClassNum),MinNum=ceil(WeightMin×ClassNum),ceil为向上取整函数,WeightMax、WeightMin均为预设的比例系数,且0<WeightMin<WeightMax<1,min为求最小值函数,max为求最大值函数。
8.根据权利要求6所述的服务器,其特征在于,所述将所述共享信息集合中的各条信息按照关键词划分为各个信息类别包括:
确定与各个信息类别分别对应的关键词集合,并分别计算每个关键词集合中的各个关键词的分类辨识度;
分别统计各个关键词在各条信息中出现的频次;
根据下式分别计算所述共享信息集合中的各条信息属于各个信息类别的概率值:
Figure FDA0003305341410000061
其中,c为信息类别的序号,1≤c≤ClassNum,ClassNum为信息类别的总数,kn为关键词的序号,1≤kn≤KwNumc,KwNumc为与第c个信息类别对应的关键词集合中的关键词总数,MsgKWNumc,kn,m为与第c个信息类别对应的关键词集合中的第kn个关键词在第m条信息中出现的频次,ClassDegc,kn为与第c个信息类别对应的关键词集合中的第kn个关键词的分类辨识度,Probabilityc,m为所述共享信息集合中的第m条信息属于第c个信息类别的概率值;
按照下式将所述共享信息集合中的各条信息分别划分到概率值最高的信息类别中:
TargetClassm=argmax(Probability1,m,Probability2,m,...,Probabilityc,m,,...,ProbabilityClassNum,m)
其中,argmax为最大自变量函数,TargetClassm为所述共享信息集合中的第m条信息划分到的信息类别的序号。
CN201811119749.2A 2018-09-25 2018-09-25 一种信息推送方法、计算机可读存储介质及服务器 Active CN109462635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811119749.2A CN109462635B (zh) 2018-09-25 2018-09-25 一种信息推送方法、计算机可读存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811119749.2A CN109462635B (zh) 2018-09-25 2018-09-25 一种信息推送方法、计算机可读存储介质及服务器

Publications (2)

Publication Number Publication Date
CN109462635A CN109462635A (zh) 2019-03-12
CN109462635B true CN109462635B (zh) 2021-11-19

Family

ID=65606980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811119749.2A Active CN109462635B (zh) 2018-09-25 2018-09-25 一种信息推送方法、计算机可读存储介质及服务器

Country Status (1)

Country Link
CN (1) CN109462635B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992719B (zh) * 2019-04-02 2021-06-25 北京字节跳动网络技术有限公司 用于确定推送优先级信息的方法和装置
CN110209904B (zh) * 2019-05-31 2022-02-11 深圳市云歌人工智能技术有限公司 信息的分类方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001067351A1 (en) * 2000-03-09 2001-09-13 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN106021586A (zh) * 2016-06-06 2016-10-12 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN106383894A (zh) * 2016-09-23 2017-02-08 深圳市由心网络科技有限公司 一种企业供需信息匹配方法和装置
CN106919587A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索系统及方法
CN106919576A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 利用二级类目下的关键词库搜索应用程序的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001067351A1 (en) * 2000-03-09 2001-09-13 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN106919587A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索系统及方法
CN106919576A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 利用二级类目下的关键词库搜索应用程序的方法及装置
CN106021586A (zh) * 2016-06-06 2016-10-12 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN106383894A (zh) * 2016-09-23 2017-02-08 深圳市由心网络科技有限公司 一种企业供需信息匹配方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于智能Agent的科技文献快速协作推送机制;徐小龙等;《计算机科学》;20110415(第04期);全文 *
搜索引擎系统中的Web个性化信息推荐技术;李树青等;《情报杂志》;20060918(第09期);全文 *

Also Published As

Publication number Publication date
CN109462635A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN108170692B (zh) 一种热点事件信息处理方法和装置
US10459971B2 (en) Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN110162695B (zh) 一种信息推送的方法及设备
CN110119877B (zh) 一种目标员工的选取方法及设备
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
US20190065550A1 (en) Query optimizer for combined structured and unstructured data records
CN112148843A (zh) 文本处理方法、装置、终端设备和存储介质
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN114398473A (zh) 企业画像生成方法、装置、服务器及存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN109783175B (zh) 应用程序图标管理方法、装置、可读存储介质及终端设备
WO2018044955A1 (en) Systems and methods for measuring collected content significance
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN111738754A (zh) 对象推荐方法及装置、存储介质、计算机设备
CN111160699A (zh) 一种专家推荐方法及系统
WO2022257455A1 (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN106446696A (zh) 一种信息处理方法及电子设备
CN114357184A (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN112115237A (zh) 烟草科技文献数据推荐模型的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant