CN103064842A - 信息订阅处理装置和信息订阅处理方法 - Google Patents

信息订阅处理装置和信息订阅处理方法 Download PDF

Info

Publication number
CN103064842A
CN103064842A CN2011103195506A CN201110319550A CN103064842A CN 103064842 A CN103064842 A CN 103064842A CN 2011103195506 A CN2011103195506 A CN 2011103195506A CN 201110319550 A CN201110319550 A CN 201110319550A CN 103064842 A CN103064842 A CN 103064842A
Authority
CN
China
Prior art keywords
keyword
information
clause
information content
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103195506A
Other languages
English (en)
Other versions
CN103064842B (zh
Inventor
许欢庆
史献忠
吴尉林
郭永福
陈沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wyatt Network Technology Co. Ltd.
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201110319550.6A priority Critical patent/CN103064842B/zh
Publication of CN103064842A publication Critical patent/CN103064842A/zh
Application granted granted Critical
Publication of CN103064842B publication Critical patent/CN103064842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种信息订阅处理装置和一种信息订阅处理方法,其中,信息订阅处理装置300包括:分词处理模块302,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;索引管理模块304,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;匹配处理模块306,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过本发明,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。

Description

信息订阅处理装置和信息订阅处理方法
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种信息订阅处理装置和一种信息订阅处理方法。
背景技术
在这个信息爆炸的年代,人们获取资讯信息的方式也发生着悄然的变化,由原来的漫无目的网上冲浪浏览模式,到现在普遍通过搜索引擎来搜索的方式来获取信息。
随着移动互联网的高速发展和便携式的移动设备逐渐普及,具有个性化的信息推送模式开始逐渐受到用户的青睐,信息订阅服务就是一种采用信息推送的方式,根据用户自定义的订阅信息向固定的用户群体推送信息包括:资讯信息,博客或微博,新闻组的讨论邮件等内容的一种互联网服务。
传统的信息订阅服务通过邮件系统,将新发布的资讯信息,博客及微博内容或者讨论邮件等订阅内容发送给订阅的用户,用户再通过邮件客户端,比如:Outlook,Foxmail等,将订阅内容接收到本地进行浏览。
现有的信息订阅服务大都借鉴了搜索引擎中的关键词搜索方式,对传统的订阅方式做了进一步的改进,用户通过向订阅服务提供关键词订阅信息,再由订阅服务通过关键词搜索方法为用户过滤出其关心的订阅内容,最后将滤出的订阅内容推送给用户进行浏览。
传统的信息订阅服务系统组成结构,如图1所示,分别由:信息订阅客户端102和信息订阅服务端104组成,其中信息订阅服务端102,如图2所示,由订阅信息处理服务模块202,信息内容推送服务模块204和信息内容搜索服务模块206组成。
信息订阅客户端102:用户通过客户端向信息订阅服务提交关键词订阅信息,来限定信息内容的范围;用户通过客户端来浏览阅读已匹配到的信息内容。
信息订阅服务端104:为客户端提供交互操作接口,存储用户提交的关键词订阅信息,并持续不断的去匹配发布的更新信息内容,将匹配结果推送给订阅用户客户端。
目前,信息内容索引服务模块206中的订阅信息处理大都采用定期逐个的遍历存储于服务端的用户关键词订阅信息来获取最新的用户订阅内容,即通过用户提交的关键词订阅信息来搜索信息内容搜索服务获取搜索结果,将获取的搜索结果通过订阅信息处理服务模块202传输到信息内容推送服务模块204,由信息内容推送服务模块204对比本次结果和上次结果获得更新的信息内容,推送给用户客户端查看。
目前的技术方案中,存在一种互联网上实现资讯订阅的方法及系统,其中采用的订阅信息匹配方式就是建立资讯信息搜索服务,并逐个将用户的订阅关键信息发送到资讯信息搜索服务器进行搜索获取搜索结果,并将结果推送给用户查看。
随着用户数的逐渐增加,当用户数达到一定的量的情况下,采用定期搜索信息内容的方式会存在一下问题:
1,订阅服务在判断用户所指定关键词信息所覆盖的内容变化时,需要做大量的不必要的关键词搜索造成资源浪费。
2,订阅服务对大量用户提交的关键词信息逐个进行关键词搜索,在硬件资源有限的情况下耗时巨大,造成不必要的系统延迟。
3,采用定期搜索信息内容的方式,无法实现实时信息内容更新,因为当有实时增量信息内容发布时总是需要一个时间间隔来做下次搜索。
因此,需要一种新的用于信息订阅的处理方式,能够即时且准确地为用户提供所需的信息,同时不需要进行大量的关键词搜索,以免造成大量的资源和时间浪费。
发明内容
本发明所要解决的技术问题在于,提供一种新的用于信息订阅的处理方式,能够即时且准确地为用户提供所需的信息,同时不需要进行大量的关键词搜索,以免造成大量的资源和时间浪费。
有鉴于此,本发明提供一种信息订阅处理装置,包括:分词处理模块,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;索引管理模块,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;匹配处理模块,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过该技术方案,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
在上述技术方案中,优选地,所述分词处理模块将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;所述索引管理模块建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。通过该技术方案,保证可以将关键词订阅信息顺利进行处理。
在上述技术方案中,优选地,所述分词处理模块在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块直接将所述用户的标识添加到所述已存在的关联关系中。通过该技术方案,对已存在的子句则不需分词,提高了处理效率,节省了资源。
在上述技术方案中,优选地,所述匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。通过该技术方案,可以准确地匹配出用户所需的信息内容。
在上述技术方案中,优选地,还包括:信息监控模块,监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,通知所述分词处理模块和匹配管理模块,进行所述信息内容的推送。通过该技术方案,保证能够即时响应内容更新,为用户提供所需内容。
本发明还提供一种信息订阅处理方法,包括:步骤402,分词处理模块对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词;步骤404,索引管理模块为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;步骤406,所述分词处理模块对更新的信息内容进行分词,得到所述信息内容中的关键词;步骤408,匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过该技术方案,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
在上述技术方案中,优选地,所述步骤402具体包括:所述分词处理模块将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;所述步骤404具体包括:所述索引管理模块建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。通过该技术方案,保证可以将关键词订阅信息顺利进行处理。
在上述技术方案中,优选地,所述步骤402还包括:所述分词处理模块在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块直接将所述用户的标识添加到所述已存在的关联关系中。通过该技术方案,对已存在的子句则不需分词,提高了处理效率,节省了资源。
在上述技术方案中,优选地,所述步骤408具体包括:所述匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。通过该技术方案,可以准确地匹配出用户所需的信息内容。
在上述技术方案中,优选地,在所述步骤406之前,还包括:信息监控模块监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,进入所述步骤406。通过该技术方案,保证能够即时响应内容更新,为用户提供所需内容。
通过以上技术方案,可以实现一种信息订阅处理装置和一种信息订阅处理方法,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,能够即时且准确地为用户提供所需的信息,同时不需要进行大量的关键词搜索,以免造成大量的资源和时间浪费。
附图说明
图1是现有技术的信息订阅服务系统的结构示意图;
图2是现有技术的信息订阅服务端的结构示意图;
图3是根据本发明的一个实施例的信息订阅处理装置的框图;
图4是根据本发明的一个实施例的信息订阅处理方法的流程图;
图5是根据本发明的一个实施例的信息订阅服务系统的结构示意图;
图6是根据本发明的一个实施例的订阅信息匹配服务模块的示意图;
图7是根据本发明的一个实施例的信息订阅处理方法生成的字节对照表的结构示意图;
图8是根据本发明的一个实施例的信息订阅处理方法生成的倒排索引的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图3是根据本发明的一个实施例的信息订阅处理装置的框图。
如图3所示,本发明提供一种信息订阅处理装置300,包括:分词处理模块302,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;索引管理模块304,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;匹配处理模块306,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过该技术方案,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
在上述技术方案中,所述分词处理模块302将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;所述索引管理模块304建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。通过该技术方案,保证可以能将关键词订阅信息顺利进行处理。
在上述技术方案中,所述分词处理模块302在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块304直接将所述用户的标识添加到所述已存在的关联关系中。通过该技术方案,对已存在的子句则不需分词,提高了处理效率,节省了资源。
在上述技术方案中,所述匹配处理模块306将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。通过该技术方案,可以准确地匹配出用户所需的信息内容。
在上述技术方案中,还包括:信息监控模块308,监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,通知所述分词处理模块302、所述索引管理模块304和匹配管理模块306,进行所述信息内容的推送。通过该技术方案,保证能够即时响应内容更新,为用户提供所需内容。
图4是根据本发明的一个实施例的信息订阅处理方法的流程图。
如图4所示,本发明还提供一种信息订阅处理方法,包括:步骤402,分词处理模块对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词;步骤404,索引管理模块为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;步骤406,所述分词处理模块对更新的信息内容进行分词,得到所述信息内容中的关键词;步骤408,匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。通过该技术方案,对关键词订阅信息建立倒排索引,并进行倒排索引关键词与新增内容关键词的匹配,以获取用户所需的内容,该方式结果准确,效率极高。
在上述技术方案中,所述步骤402具体包括:所述分词处理模块将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;所述步骤404具体包括:所述索引管理模块建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。通过该技术方案,保证可以能将关键词订阅信息顺利进行处理。
在上述技术方案中,所述步骤402还包括:所述分词处理模块在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块直接将所述用户的标识添加到所述已存在的关联关系中。通过该技术方案,对已存在的子句则不需分词,提高了处理效率,节省了资源。
在上述技术方案中,所述步骤408具体包括:所述匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。通过该技术方案,可以准确地匹配出用户所需的信息内容。
在上述技术方案中,在所述步骤406之前,还包括:信息监控模块监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,进入所述步骤406。通过该技术方案,保证能够即时响应内容更新,为用户提供所需内容。
以下详细说明本发明的技术方案。
通常在信息订阅服务中采用了搜索引擎中非常有效率的倒排索引结构,对订阅的信息内容建立倒排索引结构,来解决信息内容匹配的问题。对于信息订阅服务中的实时增量信息内容为了更有效率的匹配用户所提交的关键词订阅信息,本发明的实施例中,提出了一种信息订阅处理方案,通过对用户提供的关键词订阅信息建立倒排索引结构,来快速的匹配与增量信息内容相关的关键词订阅信息,并实时分发给提交该关键词订阅信息的用户。
本实施例中的信息订阅处理方法,应用于图5所示的信息订阅服务系统,其组成结构分别由:信息订阅客户端102和信息订阅服务端502组成,其中信息订阅服务端相对图1所示的服务端有所差别,分别由,如图6所示,由订阅信息处理服务模块602,信息内容推送服务模块604,信息内容搜索服务模块606和订阅信息匹配服务模块608组成。
本实施例中的信息订阅服务系统与传统的信息订阅服务系统的区别是:增加订阅信息匹配服务模块608,而订阅信息处理服务模块602只对用户首次提交关键词订阅信息时保持与传统方式一致,即在用户提交关键词订阅信息时向信息内容搜索服务模块606搜索订阅内容,并将获得的订阅内容作为用户订阅内容的初始化结果发送并存储到信息内容推送服务模块604中;对于用户订阅信息内容更新检测订阅信息处理服务模块602不再负责定期的扫描每个用户的关键词订阅信息来搜索信息内容搜索服务获取信息内容更新,该部分工作交由订阅信息匹配服务模块608来完成。
订阅信息匹配服务模块608是建立根据本发明实施例的订阅信息处理方法,在订阅信息倒排索引库基础上对输入的增量更新信息内容匹配相关的关键词订阅信息的服务模块,以下内容介绍了根据本发明实施例的订阅信息处理方法,来实现订阅信息倒排索引库的结构和创建过程,以及增量更新信息内容如何匹配关键词订阅信息。
在信息订阅服务中关键词订阅信息采用复杂的布尔逻辑来表述,关键词订阅信息倒排索引库并非直接对关键词订阅信息创建倒排索引,而是将复杂的布尔逻辑表达式转换成析取范式,将析取范式拆分成多个子句,最终建立子句与用户的关键词订阅信息对照表和拆分后的子句倒排索引。例如对用户提交的关键词订阅信息“(北京大学‖!香港大学)&&图书馆”转化为析取范式“(北京大学&&图书馆)‖(!香港大学&&图书馆)”,转化后的析取范式被分割成两个子句,即:“北京大学&&图书馆”和“!香港大学&&图书馆”,对拆分后的子句逐个判断其是否在子句对照表中存在,,如图7所示,若存在则直接将该用户信息插入到子句对照表中,若不存在则对子句进行分词,统计子句中的非取非关键词元素的个数,并将该子句信息插入到子句对照表中,并为新插入的子句分配一个增量的ID即CID,子句对照表中的每个子句信息节点都有一个三元组,即CID,关键词元素个数和子句所属用户列表,如:子句1“北京大学&&图书馆”和子句2“!香港大学&&图书馆”分词处理后变成“北京 大学&&图书馆”和“!香港 大学&&图书馆”,假如用户信息用USERID来表示的话,子句1的子句信息为(1,3,USERID),子句2的子句信息为(2,1,USERID),子句1中有3个关键词,子句2中有两个取非关键词和1个关键词,取非关键词不计算在关键词个数中。接下来逐个对每个子句建立关键词到CID的倒排信息,如:从句2“!香港 大学&&图书馆”,建立的倒排信息为:(香港,2,1,
Figure BSA00000594923600091
),(大学,2,1,
Figure BSA00000594923600092
),(图书馆,2,1,∈),其中每个倒排信息都有一个四元组,即由分词后的关键词,CID,关键词在子句中的频率即词频和词的属性(其中
Figure BSA00000594923600093
表示子句不包含该关键词,∈表示子句包含该关键词)组成,将创建的倒排信息插入到,如图8所示,关键词订阅信息倒排索引中,最终子句1和子句2创建的子句对照表和倒排索引如表1和表2所示。
(1,3,USERID) (2,1,USERID)
表1
Figure BSA00000594923600101
表2
由于插入到关键词订阅信息倒排索引中的每个子句的CID都是增量分配的,这就保证倒排列表中的CID列表是递增有序的,符合倒排索引结构特征。
在创建完成的关键词订阅信息倒排索引后,当有增量更新的信息内容时,对更新信息内容进行分词,统计并移除分词后的信息内容中的重复的关键词,同时可视相关性权重计算方法记录每个关键词出现的频率,位置等信息,本实施例中,以BM25权重计算方法为例只记录了关键词出现的频率信息,最终生成一个关键词列表(关键词,词频,附属属性),关键词列表中的每个节点都包含关键词本身,关键词在信息内容中的出现频率即词频和附属属性(包括:关键词在文档中的位置信息或关键词的字体大小等),如:“中国国家图书馆旧称北京图书馆”在分词后变为“中国 国家 图书馆 旧称 北京 图书馆”,生成的关键词列表为:(中国,1,NIL),(国家,1,NIL),(图书馆,2,NIL),(旧称,1,NIL),(北京,1,NIL),逐个遍历关键词列表中的节点在关键词订阅信息倒排索引中查找对应的关键词倒排列表,若没有命中关键词倒排列表则判断没有用户订阅该信息内容,若存在关键词信息倒排表,则对命中的所有关键词倒排表求并集,在求并集时若所命中的CID的关键词个数小于子句对照表中CID包含的关键词个数则判定为不命中,否则计算该命中的子句与信息内容的相关性权重,根据子句对照表中CID中所包含的用户列表,将该信息内容推送给信息内容推送服务,继续计算下一个命中的CID,如:“中国 国家 图书馆 旧称 北京 图书馆”命中订阅信息倒排索引中的“北京”和“图书馆”在关键词倒排表求并集时,第一个命中的是子句1,而命中的子句1的关键词个数小于子句对照表中的子句1包含的关键词个数3,计算下一个并集结果即从句2,子句2的关键词个数与子句对照表中子句2包含的关键词个数相同,本实施例中,以BM25权重计算方法为例计算子句与信息内容的相关性权重,推送信息内容并结束匹配过程。
综上所述,根据本发明的技术方案,可以实现一种信息订阅处理装置和一种信息订阅处理方法,通过对用户提交的订阅关键词信息创建倒排索引,来提高订阅服务在处理实时更新的增量信息内容时的效率和速度,避免订阅服务在检测用户的订阅内容是否更新时对每个用户提交的关键词信息进行低效率的全遍历式搜索。
本发明的技术方案,在相同的硬件资源条件下本发明具有更好的扩展性,可容纳更多的用户数或用户提交的订阅关键词信息,同时也避免了订阅内容更新时须要搜索信息内容搜索服务的情况。对于实时更新的增量信息内容能够达到实时推送给用户的效果,避免了定期搜索信息内容搜索服务时的不必要延迟情况。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息订阅处理装置,其特征在于,包括:
分词处理模块,对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词,对更新的信息内容进行分词,得到所述信息内容中的关键词;
索引管理模块,为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;
匹配处理模块,将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。
2.根据权利要求1所述的信息订阅处理装置,其特征在于,所述分词处理模块将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;
所述索引管理模块建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。
3.根据权利要求2所述的信息订阅处理装置,其特征在于,所述分词处理模块在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块直接将所述用户的标识添加到所述已存在的关联关系中。
4.根据权利要求2所述的信息订阅处理装置,其特征在于,所述匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。
5.根据权利要求1至4中任一项所述的信息订阅处理装置,其特征在于,还包括:
信息监控模块,监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,通知所述分词处理模块、索引管理模块和匹配管理模块,进行所述信息内容的推送。
6.一种信息订阅处理方法,其特征在于,包括:
步骤402,分词处理模块对来自用户的关键词订阅信息进行分词,得到所述关键词订阅信息中的关键词;
步骤404,索引管理模块为关键词订阅信息建立倒排索引,其中,所述倒排索引包括所述关键词订阅信息中的关键词;
步骤406,所述分词处理模块对更新的信息内容进行分词,得到所述信息内容中的关键词;
步骤408,匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配,并根据匹配结果,判断是否将所述信息内容推送给所述用户。
7.根据权利要求6所述的信息订阅处理方法,其特征在于,所述步骤402具体包括:
所述分词处理模块将所述关键词订阅信息转化为析取范式,将所述析取范式拆分为子句,对所述子句进行分词得到所述子句中的关键词;
所述步骤404具体包括:
所述索引管理模块建立所述倒排索引,所述倒排索引包括所述子句中的关键词和所述子句的标识,并记录关联关系,所述关联关系包括所述子句的标识和所述用户的标识。
8.根据权利要求7所述的信息订阅处理方法,其特征在于,所述步骤402还包括:
所述分词处理模块在已存在包括所述子句的关联关系时,不对所述子句进行分词,由所述索引管理模块直接将所述用户的标识添加到所述已存在的关联关系中。
9.根据权利要求7所述的信息订阅处理方法,其特征在于,所述步骤408具体包括:
所述匹配处理模块将所述倒排索引中的关键词与所述信息内容中的关键词进行匹配后,如果所述信息内容中属于所述子句的关键词的个数不小于所述子句中全部关键词的个数,则计算所述子句与所述信息内容的相关性,并根据所述相关性判断是否将所述信息内容推送给所述用户。
10.根据权利要求6至9中任一项所述的信息订阅处理方法,其特征在于,在所述步骤406之前,还包括:
信息监控模块监控是否存在更新的所述信息内容,并在存在更新的所述信息内容时,进入所述步骤406。
CN201110319550.6A 2011-10-20 2011-10-20 信息订阅处理装置和信息订阅处理方法 Active CN103064842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110319550.6A CN103064842B (zh) 2011-10-20 2011-10-20 信息订阅处理装置和信息订阅处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110319550.6A CN103064842B (zh) 2011-10-20 2011-10-20 信息订阅处理装置和信息订阅处理方法

Publications (2)

Publication Number Publication Date
CN103064842A true CN103064842A (zh) 2013-04-24
CN103064842B CN103064842B (zh) 2016-01-20

Family

ID=48107472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110319550.6A Active CN103064842B (zh) 2011-10-20 2011-10-20 信息订阅处理装置和信息订阅处理方法

Country Status (1)

Country Link
CN (1) CN103064842B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618410A (zh) * 2013-11-04 2015-05-13 腾讯科技(北京)有限公司 资源推送方法和装置
CN105701142A (zh) * 2015-11-26 2016-06-22 中国传媒大学 一种基于关键字的三维模型检索方法
CN105786950A (zh) * 2015-12-30 2016-07-20 北京锐安科技有限公司 一种处理数据的方法及装置
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
WO2017148323A1 (zh) * 2016-03-01 2017-09-08 广州神马移动信息科技有限公司 用于内容文档排序的方法及装置
CN107657067A (zh) * 2017-11-14 2018-02-02 国网山东省电力公司电力科学研究院 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN109902123A (zh) * 2019-03-01 2019-06-18 中汇信息技术(上海)有限公司 可视区域数据更新方法和系统
CN110162673A (zh) * 2019-05-27 2019-08-23 上海吉江数据技术有限公司 信息变动监控系统、方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040167864A1 (en) * 2003-02-24 2004-08-26 The Boeing Company Indexing profile for efficient and scalable XML based publish and subscribe system
CN101228521A (zh) * 2004-03-15 2008-07-23 雅虎公司 个性化门户与web内容聚合的集成
CN101262494A (zh) * 2008-01-23 2008-09-10 华为技术有限公司 对发布信息进行处理的方法、客户端、服务器和系统
CN101751434A (zh) * 2008-12-16 2010-06-23 北大方正集团有限公司 一种元搜索引擎的排名方法及元搜索引擎
CN101917456A (zh) * 2010-07-06 2010-12-15 杭州热点信息技术有限公司 一种内容聚合无线发布系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040167864A1 (en) * 2003-02-24 2004-08-26 The Boeing Company Indexing profile for efficient and scalable XML based publish and subscribe system
CN101228521A (zh) * 2004-03-15 2008-07-23 雅虎公司 个性化门户与web内容聚合的集成
CN101262494A (zh) * 2008-01-23 2008-09-10 华为技术有限公司 对发布信息进行处理的方法、客户端、服务器和系统
CN101751434A (zh) * 2008-12-16 2010-06-23 北大方正集团有限公司 一种元搜索引擎的排名方法及元搜索引擎
CN101917456A (zh) * 2010-07-06 2010-12-15 杭州热点信息技术有限公司 一种内容聚合无线发布系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618410A (zh) * 2013-11-04 2015-05-13 腾讯科技(北京)有限公司 资源推送方法和装置
CN104618410B (zh) * 2013-11-04 2019-06-07 腾讯科技(北京)有限公司 资源推送方法和装置
CN105701142A (zh) * 2015-11-26 2016-06-22 中国传媒大学 一种基于关键字的三维模型检索方法
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN105786950A (zh) * 2015-12-30 2016-07-20 北京锐安科技有限公司 一种处理数据的方法及装置
WO2017148323A1 (zh) * 2016-03-01 2017-09-08 广州神马移动信息科技有限公司 用于内容文档排序的方法及装置
CN107657067A (zh) * 2017-11-14 2018-02-02 国网山东省电力公司电力科学研究院 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN107657067B (zh) * 2017-11-14 2021-03-19 国网山东省电力公司电力科学研究院 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN109902123A (zh) * 2019-03-01 2019-06-18 中汇信息技术(上海)有限公司 可视区域数据更新方法和系统
CN110162673A (zh) * 2019-05-27 2019-08-23 上海吉江数据技术有限公司 信息变动监控系统、方法及装置

Also Published As

Publication number Publication date
CN103064842B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN103064842B (zh) 信息订阅处理装置和信息订阅处理方法
Li et al. Filtering out the noise in short text topic modeling
Gollapalli et al. Extracting keyphrases from research papers using citation networks
Ozertem et al. Learning to suggest: a machine learning framework for ranking query suggestions
JP2018507473A (ja) パーソナルコンテンツアイテム検索システム及び方法
US10606853B2 (en) Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials
CN102368262A (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
Li et al. Bursty event detection from microblog: a distributed and incremental approach
CN103631803A (zh) 基于输入行为的进行广告定向的方法、装置及服务器
CN102722501A (zh) 搜索引擎及其实现方法
CN102236710A (zh) 一种用于在查询结果中展现新闻信息的方法与设备
CN102737021A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN105787066A (zh) 基于全量分析的数字内容分发系统
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN111125297B (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
CN1845134B (zh) 基于计算机网络的防转载或/和反剽窃监控方法
CN104217026A (zh) 一种基于图模型的中文微博客倾向性检索方法
CN103559264B (zh) 一种微件数据及时更新的方法和装置
Zeng et al. Scientific and Technological News Recommendation Based on Knowledge Graph with User Perception
Jiang et al. A semantic-based approach to service clustering from service documents
CN112883143A (zh) 一种基于Elasticsearch的数字展会搜索方法与系统
Zeng et al. Term extraction and correlation analysis based on massive scientific and technical literature
CN108345605B (zh) 一种文本搜索方法及装置
CN108960949A (zh) 一种跨境电商商务大数据决策的智能系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160531

Address after: 100191 Beijing, Xueyuan Road, No. 51, the first to enjoy science and technology building, room 0902, No.

Patentee after: Beijing Zhongsou Network Technology Co,Ltd

Patentee after: Beijing Wyatt Network Technology Co. Ltd.

Address before: 100191 Beijing, Xueyuan Road, No. 51, the first to enjoy science and technology building, room 0902, No.

Patentee before: Beijing Zhongsou Network Technology Co,Ltd

TR01 Transfer of patent right

Effective date of registration: 20170427

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Co-patentee after: Beijing Wyatt Network Technology Co. Ltd.

Patentee after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: 100191 Beijing, Xueyuan Road, No. 51, the first to enjoy science and technology building, room 0902, No.

Co-patentee before: Beijing Wyatt Network Technology Co. Ltd.

Patentee before: Beijing Zhongsou Network Technology Co,Ltd

TR01 Transfer of patent right