CN104636386A - 信息监控方法及装置 - Google Patents

信息监控方法及装置 Download PDF

Info

Publication number
CN104636386A
CN104636386A CN201310568031.2A CN201310568031A CN104636386A CN 104636386 A CN104636386 A CN 104636386A CN 201310568031 A CN201310568031 A CN 201310568031A CN 104636386 A CN104636386 A CN 104636386A
Authority
CN
China
Prior art keywords
raw data
data
monitoring
described raw
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310568031.2A
Other languages
English (en)
Inventor
李正兵
邵刚
游源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310568031.2A priority Critical patent/CN104636386A/zh
Publication of CN104636386A publication Critical patent/CN104636386A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息监控方法及装置。涉及通信技术领域,在为用户监控网络信息的过程中,能够较快的为用户查找相关信息,而且能够有效节省系统资源。该方法包括:从数据源获取原始数据,并确定原始数据的情感倾向;根据原始数据的情感倾向,对原始数据进行划分得到原始数据的类型;确定原始数据包含的监控关键字;根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的原始数据的用户;向关注同一类型的原始数据的用户发送同一类型的原始数据或者同一类型的原始数据相关信息。主要用于信息监控,尤其用于网络信息监控。

Description

信息监控方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种信息监控方法及装置。
背景技术
舆论情况简称“舆情”,由于互联网传播信息可以不受地域、时间的限制,且传播速度之快、影响力之大,因此,互联网所反映的舆情不容忽视。如何第一时间获取网络舆情,特别是负面信息,已经成为越来越多企业、政府关注的问题。
目前,用于监控网络舆情的网络舆情监控系统,该系统采用搜索订阅的方法为用户收集网络舆情,具体监控过程包括以下两个步骤:第一步、网络舆情监控系统接收用户提交的订阅关键字,该订阅关键字可以包括订阅方式、订阅内容等。其中,订阅方式可以指定向用户发送相关内容的时间;第二步、网络舆情监控系统利用搜索引擎依据用户提交的订阅关键字从网络中获取相关文档,并按照订阅关键字中的订阅方式将获取到的相关文档发送给用户。
但是在实际应用中,监控系统在监控网络舆情时往往会遇到如下问题:
由于网络上的舆情数据量极大,并且其中很多都是具有突发性特征的数据,这就需要监控系统及时分析处理舆情数据。但是由于目前监控系统的硬件性能限制,索引文档的能力会小于接收数据的能力,经常出现监控系统无法及时处理舆情数据的情况,使得无法及时将收集到的舆情数据返回给用户。
这样会降低用户获取自己关注负面信息的实时性,导致用户依据关键字查询舆情相关数据的时候,也无法及时获取所需的舆情数据。
发明内容
本发明的实施例提供一种信息监控方法及装置,提高用户获取自己关注负面信息的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种信息监控方法,包括:
从数据源获取原始数据,并确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立;
根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型;
确定所述原始数据包含的监控关键字;
根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
结合第一方面,在第一方面的第一种可能的实现方式中,还包括:
接收用户输入的第二监控条件;
解析出所述第二监控条件中的监控关键字;
根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
结合第一方面以及第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述监控条件存储在监控条件索引中,所述方法还包括:将所述第二监控条件加入所述监控条件索引。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述数据索引包括实时数据索引和非实时数据索引,所述方法还包括:
若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引;否则,将所述原始数据加入所述非实时数据索引。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,还包括:在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;
若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
所述将所述原始数据加入所述实时数据索引为:若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
结合第一方面的第三种以及第四种可能的实现方式,在第一方面的第五种可能的实现方式中,在所述将所述原始数据加入所述实时数据索引之前,所述方法还包括:
若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
所述将所述原始数据加入所述实时数据索引为:若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
结合第一方面的第二种至第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述原始数据携带情感倾向标识,所述确定所述原始数据的情感倾向为:根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
结合第一方面的第二种至第六种可能的实现方式,在所述将所述原始数据加入所述数据索引之前,所述方法还包括:
检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同;
若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
所述将所述原始数据加入所述数据索引为:若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。
结合第一方面的第一种至第七种可能的实现方式,在第一方面的第八种可能的实现方式中,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,所述根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户包括:
根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
根据所述子监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
结合第一方面的第一种至第八种可能的实现方式,在第一方面的第九种可能的实现方式中,在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,所述方法还包括:
判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知;
若所述第二监控条件指定向用户发送监控结果的方式为实时通知,所述方法还包括:
向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
结合第一方面至第九种可能的实现方式,所述根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户包括:
查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;
根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
结合第一方面的第一种至第十种可能的实现方式,在第一方面的第十一种可能的实现方式中,在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,还包括:
扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
结合第一方面的第一种至第十一种可能的实现方式,在第一方面的第十二种可能的实现方式中,在所述将所述原始数据加入所述数据索引之前,还包括:
检查所述原始数据是否被获取过;
所述将所述原始数据加入所述数据索引为:若所述原始数据没有被获取过,则将所述原始数据加入所述数据索引。
结合第一方面至第十二种可能的实现方式,在第一方面的第十三种可能的实现方式中,在向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息之前,还包括:
检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据;
所述向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项为:若没有向关注同一类型的所述原始数据的用户发送过所述原始数据,则向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
结合第一方面至第十三种可能的实现方式,在第一方面的第十四种可能的实现方式中,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
第二方面,本发明实施例提供了一种信息监控装置,包括:
数据采集单元,用于从数据源获取原始数据;
情感分析单元,用于确定所述原始数据的情感倾向,并根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型,所述情感倾向包括正面、负面或中立;
数据分析单元,用于确定所述原始数据包含的监控关键字;
数据匹配单元,用于根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
服务分发单元,用于向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
结合第二方面,在第二方面的第一种可能的实现方式中,还包括:
监控条件接收单元,用于接收用户输入的第二监控条件,并将所述第二监控条件发送给监控条件分析单元;
所述监控条件分析单元,用于接收所述监控条件接收单元发送的所述第二监控条件,解析出所述第二监控条件中的监控关键字,将解析出的监控关键字发送给监控条件匹配单元;
所述监控条件匹配单元,用于根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
所述服务分发单元,还用于将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
结合第二方面以及第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述监控条件存储在监控条件索引中,所述装置还包括:
监控条件添加单元,用于将所述第二监控条件加入所述监控条件索引。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述数据索引包括实时数据索引和非实时数据索引,所述装置还包括数据添加单元,用于将所述原始数据加入所述数据索引;
所述数据添加单元包括:
实时添加子单元,用于若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引;
非实时添加子单元,用于若所述原始数据没有情感倾向,则将所述原始数据加入所述非实时数据索引。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,还包括:
第一判断单元,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;
所述非实时添加子单元,还用于若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元,还用于若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
结合第二方面的第三种以及第四种可能的实现方式,在第二方面的第五种可能的实现方式中,还包括:
第二判断单元,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据内容是否为热点信息,若是,则向所述实时添加子单元发送添加指示,否则,向所述非实时添加子单元发送添加指示;
所述非实时添加子单元,还用于若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元,还用于若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
结合第二方面的第二种至第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述原始数据携带情感倾向标识,所述情感分析单元确定所述原始数据的情感倾向为:所述情感分析单元根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
结合第二方面的第二种至第六种可能的实现方式,在第二方面的第七种可能的实现方式中,比较单元,用于在所述将所述原始数据加入所述数据索引之前,检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则向硬盘添加单元发送添加指示,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则向所述数据添加单元发送添加指示;
硬盘添加单元,用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
所述数据添加单元,还用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。
结合第二方面的第一种至第七种可能的实现方式,在第二方面的第八种可能的实现方式中,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,所述数据匹配单元包括:
第一确定子单元,用于根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
所述第一查找子单元,用于接收所述第一确定子单元发送的子监控条件集合后,并根据所述子监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
结合第二方面的第一种至第八种可能的实现方式,在第二方面的第九种可能的实现方式中,还包括:
第三判断单元,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知,若所述第二监控条件指定向用户发送监控结果的方式为实时通知,则向所述服务分发单元发送指示;
所述服务分发单元,还用于在接收到所述第三判断单元发送的指示后,向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
结合第二方面至第九种可能的实现方式,在第二方面的第十种可能的实现方式中,所述数据匹配单元包括:
第二查找子单元,用于查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;
所述第二确定子单元,用于根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
结合第二方面的第一种至第十种可能的实现方式,在第二方面的第十一种可能的实现方式中,还包括:
扩展单元,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
结合第二方面的第一种至第十一种可能的实现方式,在第二方面的第十二种可能的实现方式中,还包括:
第一检查单元,用于在所述将所述原始数据加入所述数据索引之前,检查所述原始数据是否被获取过,若否,向所述数据添加单元发送添加指示;
所述数据添加单元,用于若所述原始数据没有被获取过,则将所述原始数据加入所述数据索引。
结合第二方面至第十二种可能的实现方式,在第二方面的第十三种可能的实现方式中,还包括:
第二检查单元,用于在向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息之前,检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据,若否,则向所述服务分发单元发送操作指示;
所述服务分发单元向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项为:所述服务分发单元在接收到所述第二检查单元发送的操作指示后,向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
结合第二方面至第十三种可能的实现方式,在第二方面的第十四种可能的实现方式中,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
本发明实施例提供的信息监控方法及装置,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信息监控方法的流程图;
图2为本发明实施例提供的信息监控系统结构示意图;
图3为本发明实施例中设定监控条件的流程图;
图4为本发明实施例中监控信息输入界面示意图;
图5为本发明实施例中信息处理过程流程图;
图6为本发明实施例中实时数据索引中的数据确定流程图;
图7为本发明实施例中信息浏览流程图;
图8为本发明实施例中第一部分、第二部分、第三部分一种执行流程图;
图9为本发明实施例提供的一种信息监控装置结构图;
图10为本发明实施例提供的另一种信息监控装置结构图;
图11为图10对应实施例中数据添加单元的结构示意图;
图12为图10对应实施例中监控条件匹配单元的结构示意图;
图13为图10对应实施例中数据匹配单元的结构示意图;
图14为图10对应实施例中数据添加单元的结构示意图;
图15为本发明实施例提供的一种信息监控服务器的结构示意图;
图16为本发明实施例提供的一种信息监控客户端的结构图;
图17为本发明实施例提供的一种信息监控终端的结构图;
图18为本发明实施例提供的信息监控设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而是非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信息监控方法,如图1所示,包括:
101、从数据源获取原始数据,并确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立;
数据源本发明实施例不做限定,可以是网络,也可以是指定数据库等能够获取所需数据的地方。指定数据库中的数据来源本发明实施例也不做限定,可以来自网络也可以来自其它数据源。
获取原始数据的方式本发明实施例不做限定,如,可以采用以下两种方式:
第一种方式、利用爬虫从数据源获取原始数据;
第二种方式、利用协议(如PubSubHubbub协议或与外部数据源的私有协议)实时从数据源获取原始数据。
可选的,还可以确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立。
文章可以具有情感倾向,除了可以描述为正面、负面或中立以外,还可以描述为褒义、贬义、中立等。对于情感倾向的描述方式本发明实施例不做限定。
102、根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型。
103、确定所述原始数据包含的监控关键字;
可以根据监控条件确定所述原始数据包含的监控关键字,监控条件的来源本发明实施例不做限定,可以是用户提供的,也可以是预先设定的,也可以是其它能够得到监控条件的方式。每个监控条件均包括监控关键字,本发明实施例将监控条件中包含的所有监控关键字称为监控关键字。
步骤103可以通过以下方式实现:对所述原始数据进行切词,将切词后的所述原始数据和监控条件的所有监控关键字进行比对,找出所述原始数据中包含的所有监控关键字。
其中,对原始数据进行切词的具体实施方式可以有多种,例如:可以根据原始数据的语种,按照预先存储的词库对原始数据的问题部分进行切割并获得单词、短语、词条等;再例如:可以按照文字之间的标点对原始数据进行分割得到各个短句。
104、根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系。
也可以根据监控条件、所述原始数据的情感倾向、原始数据包含的监控关键字确定关注同一类型的所述原始数据的用户。
监控条件还包括监控关键字与用户的对应关系,在确定的原始数据的监控关键字后,进而根据监控关键字与用户的对应关系查找关注同一类型的所述原始数据的用户。
105、向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
本发明实施例对所述原始数据相关信息包含的内容不做限定,可以是实际需要的任何信息,比如所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
本发明实施例提供的信息监控方法,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
作为上述实施例的一种改进,本发明实施例提供另一种信息监控方法,该方法的实现基于如图2所示的信息监控系统,该系统包括:信息监控客户端、信息监控服务器。该方法可以分成设定监控条件、信息处理、信息浏览三个部分,为了更清楚的介绍本实施例所述方法,现将该方法按照上述三个部分分别进行描述。
第一部分、设定监控条件,如图3所示,该部分包括:
301、信息监控服务器接收用户输入的第二监控条件;
信息监控服务器上可以设有监控条件数据库,监控条件数据库用于存储监控条件。信息监控服务器接收第二监控条件,第二监控条件可以由服务器管理员通过修改监控条件数据库进行输入,也可以是用户通过信息监控客户端输入的。
下面对用户通过信息监控客户端输入第二监控条件进行详细说明,过程如下:用户启动信息监控客户端,打开监控信息输入界面,用户通过监控信息输入界面设定监控条件,信息监控客户端将用户设定的监控条件发送给信息监控服务器,该信息监控客户端可以安装在用户的计算机上。
以将本实施例所述方法应用于舆情信息监控为例,具体说明用户通过信息监控客户端输入第二监控条件的过程,该应用中,信息监控系统具体为舆情信息监控系统,信息监控客户端具体为舆情信息监控客户端,信息监控服务器具体为舆情信息监控服务器。
该应用中,用户希望能够实时监控姓名为“张山”、地域为“北京”、关键字组合为“A政府OR B大学”的负面信息。如图4所示,用户通过监控信息输入界面输入监控条件,舆情信息监控客户端向舆情信息监控服务器发送的内容可以如表1所示:
                       表1
表1中,
Userid:表示用户登录舆情监控服务器所需要的账户,这里为“user123”;
Name:表示需要监测的人名或者企业名,这里为布尔查询“张山OR李四”;
Keyworkds:表示需要监测的关键字,这里为“政府”;
Location:表示需要监测的地域,这里为“北京”;
Sentiment:表示需要接收的情感文档类别,这里为“负面”;
notification_type:表示获取舆情信息的通知方式,这里为“实时通知”,表示实时接收舆情信息;
notification_address:表示服务器如果发现符合用户设定的搜索条件的文档后,发送通知给客户端的地址,这里为http://10.1.1.2:12345/abc/。
302、信息监控服务器解析出所述第二监控条件中的监控关键字;
信息监控服务器解析所述第二监控条件,获取所述第二监控条件中的监控关键字。对于图4中所示第二监控条件,信息监控服务器解析出的监控关键字为:“张山”、“北京”、“A政府OR B大学”和“负面”。
303、信息监控服务器扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字可以是监控关键字的下位概念,或者,所述子监控关键字也可以是监控关键字的同义词,或者,所述子监控关键字还可以是监控关键字的近义词;
以对监控条件(张山,A政府OR B大学,北京,负面,实时通知)进行扩展为例,针对location字段,利用地理信息库对用户的location信息进行扩展,扩展后的监控条件可以为(张山,A政府OR B大学,北京OR东城区OR西城区,负面,实时通知),其中东城区和西城区都属于北京的一部分,这样如果文档中仅仅包括东城区,但是不包括北京,也赢过在监控范围内,进一步保证监控范围的全面和准确。本发明实施例对于地域的扩展只是一个示例,对于其它监控关键字同样可以进行扩展,扩展方式参照地域扩展方式,本发明实施例不进行赘述。
优选的,在执行步骤304之前,本实施例还可以执行以下304a的操作:
304a、将布尔表示的监控条件转化成析取范式表示的监控条件。
具体的,为了方便后续文档级别匹配,需要对用户输入的布尔监控条件进行转换,将其转化为析取范式DNF(disjunctive normal form),本实施例中将用户的监控条件user123_900150983cd24fb(张山,A政府OR B大学,北京,负面,实时通知)转化为user123_900150983cd24fb_1(张山,A政府,北京,负面,实时通知)∪user123_900150983cd24fb_2(张山,B大学,北京,负面,实时通知)。
304a的执行不限于在步骤304之前执行,也可以在本发明实施例中其它时间段执行。
304、信息监控服务器将所述第二监控条件加入所述监控条件索引。
为了便于查找,提高查找效率,所述监控条件、第二监控条件可以存储在监控条件索引中,所述监控条件索引可以为倒排索引。
将用户的监控条件建立倒排索引,具体的,舆情信息监控服务器在收到用户的监控条件后,建立监控条件倒排索引过程如下:
首先,对用户的监控条件进行转换,具体过程包括:为用户的监控条件设定监控条件ID,其中,监控条件ID可以是用户ID和其余监控关键字(name,keywords,location,sentiment)的hash值,表示方式为:userid+hash(name,keywords,location,sentiment)),如经过转换后的值为:user123_900150983cd24fb(其中user123表示用户的ID号,900150983cd24fb表示hash值)。
其次,对转换后的监控条件建立倒排索引。具体过程包括:对各个监控关键字的值利用简单的分词器进行分词,如可以使用lucene中的SimpleAnalyzer分词器,这样有利于保存用户输入的信息,同时将切出的词加入监控词库。需要说明的是,对于监控关键字不需要进行再次切词,如对“A政府”这个词,即使词库没有“A政府”这个词,也不将输入的“A政府”切为“A”和“政府”两个词,而是直接将“A政府”加入监控词库,这样便于后续文档切词时,能够准确匹配用户的监控条件。同理,对待监控关键字姓名,如“张山”,也不用切成“张”和“山”,而应直接认为“张山”是一个词,同时将“张山”加入监控词库。针对切词后的监控关键字,如果没有指定语法关系,默认语法为“和”(AND)。
再次,为了方便后续数据级别匹配,还可以对用户输入的布尔监控条件进行进一步转换,将第二监控条件由布尔方式转化为析取范式DNF(disjunctivenormal form),如将用户的监控条件user123_900150983cd24fb(张山,A政府OR B大学,北京,负面,实时通知)转化为user123_900150983cd24fb_1(张山,A政府,北京,负面,实时通知)∪user123_900150983cd24fb_2(张山,B大学,北京,负面,实时通知)的形式。
最后,将转换后的监控条件user123_900150983cd24fb_1和user123_900150983cd24fb_2建立“监控条件倒排索引”。其中,user123_900150983cd24fb_1和user123_900150983cd24fb_2为监控条件ID,张山、A政府、北京、负面、实时通知、B大学为监控关键字;建立完成的“监控条件倒排索引”形式如表2所示:
                    表2监控条件倒排索引
进一步的,为了能够准确的匹配监控条件,还需要同时记录下每个监控条件中监控关键字的数量。具体的,user123_900150983cd24fb_1和user123_900150983cd24fb_2将在索引中保存数字5,表示这两个监控条件中监控关键字的数量都是5。监控条件user456_e2fc714c4727ee9(李四,实时通知,负面,B大学)对应的数字为4,表示该监控条件监控关键字的数量是4。记录结果如表3所示。
监控条件ID 关键字数量
user123_900150983cd24fb_1 5
user123_900150983cd24fb_2 5
user456_e2fc714c4727ee9 4
                  表3监控条件关键字词数
305、信息监控服务器按照指定监控关键字将第二监控条件索引拆分成多个子监控条件索引。
计算监控条件的监控关键字个数、监控条件ID,通常需要保存到内存中,为了防止后续由于监控条件过多,而导致信息监控服务器匹配数据和监控条件时内存不足的问题,可以按照一定规则对“监控条件倒排索引”进行拆分,具体的,如可以针对地域字段进行拆分,按照省或者市进行拆分。拆分结果是将地域为“北京”所有的监控条件建立一个“监控条件倒排索引”,将地域为“江苏”所有的监控条件建立一个“监控条件倒排索引”。按照地域拆分后,如表4所示,可以将子监控条件索引按照地域进行命名,监控条件中的地域属性可以不用包含在“监控条件倒排索引”中,同时监控条件对应的监控词数也可以不包含地域属性。本发明实施例对于子监控条件索引的命名方式不做限定,可以是本领域技术人员所熟知的任何方式。
如上述监控条件user123_900150983cd24fb按照地域划分后,且在倒排索引中去掉地域属性,地域相关索引依据的监控条件修改为user123_900150983cd24fb_new1(张山,A政府,负面,实时通知)∪user123_900150983cd24fb_new2(张山,B大学,负面,实时通知),拆分出的子监控条件倒排索引如表4所示:
           表4地域属性为北京的子监控条件倒排索引
舆情信息监控服务器记录下表4中的子监控条件倒排索引每个监控条件对应的监控关键字的个数,如表5所示:
             表5监控条件地域属性为北京关键字数
当监控条件按照地域进行拆分后,在新来一个数据时,若该数据是一篇文档,舆情信息监控服务器首先分析出该文档中包含的监控关键字中的地域属性,其次,查找该地域对应的子监控条件倒排所以,从该子监控条件倒排索引中查找对应的用户,能够有效的提高查找效率。
可选的,舆情信息监控服务器分析地域属性的方法包括:舆情信息监控服务器维护一个地理词库,里面包括能收集到的所有的城市、省份等地理名称,还维护一个各层级间地理名称之间的映射关系,从映射关系中可以知道北京包括东城区和西城区,东城区和西城区属于北京。依据地理词库,获取文档中的地域属性词,依据地域属性词、切分粒度确定需要查询的索引。如果文档中出现东城区,依据地理词库得知东城区属于北京,因此从北京对应的子监控建条件倒排索引中获取该文档对应的用户。
如果分析不出地理位置属性,则舆情信息监控服务器将文档的监控关键字列表和每个子监控条件倒排索引中的所有监控关键字分别进行匹配,并收集各个子监控条件倒排索引返回的符合条件的用户。
监控条件索引拆分的方式有多种,如,舆情信息监控服务器可以按照情感切分“监控条件倒排索引”,即监控条件按照情感信息正面、负面、中性分别建立“子监控条件倒排索引”,舆情信息监控服务器还可以按照通知方式切分“监控条件倒排索引”,即将监控条件按照是否通知的方式实时通知、非实时通知分别建立“子监控条件倒排索引”,当然也可以按照情感、地域、通知方式的组合拆分“监控条件倒排索引”,再将维度的值进行组合,每个不同的组合建立一个“子监控条件倒排索引”。如可以将包含“负面,实时通知,北京”的所有监控条件建立一个子监控条件倒排索引,包含“正面,实时通知,上海”的所有监控条件建立一个子监控条件倒排索引。上述仅介绍了按地域对监控条件倒排索引进行拆分的具体方法,按照其它监控关键字对监控条件倒排索引进行拆分的方法与按地域拆分类似,可类推,本发明实施例不赘述。
通过拆分“监控条件倒排索引”,可以确保即使在海量用户监控条件的情况下,也能高效的查找数据对应的用户。
上述步骤303、步骤305均为可选步骤,与其它步骤之间的执行顺序不限于本实施例所记载的顺序,在具体实施过程中,可以根据实际需要进行调整。
为了给用户提供更加准确、更加全面的信息,如图3中虚线部分所示,第一部分还可以包含以下步骤:
306、根据数据索引确定与所述第二监控条件中的监控关键字对应的数据。
其中,数据索引包括所述监控关键字和数据的对应关系。
307、信息监控服务器将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
本发明实施例对数据相关信息不做限定,可以是实际实施所需的任何信息,如数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
信息监控服务器在接收到用户监控条件后,将查询数据索引,数据索引包括实时数据索引和非实时数据所索引,并将查询的结果按照用户请求的情感倾向进行分类,确定每类返回的数据的数量,然后将指定数量的数据信息发送给客户端。
数据信息的具体内容本发明实施例不做限定,可以是所需的任意信息,如,可以包括数据的url、数据的标题、数据的时间、数据的的情感倾向、数据的内容、数据的内容摘要、热度信息中的一项或者多项。其中,热度信息可以包括该文档被人浏览的次数、该文档对应用户的粉丝数等。
第二部分、信息处理,如图5所示,该部分包括:
501、信息监控服务器接收数据获取通知。
外部数据源有新数据时,可以采用google Pubsubhubbub协议将数据通知到信息监控系统,具体利用sentiment扩展字段将数据传送给信息监控服务器。信息监控服务器接收数据获取通知。
502、从数据源获取原始数据,并确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立;
数据源、获取原始数据的方式如图1对应实施例中所述,本发明实施例不做过多说明。
信息监控服务器在接收到数据获取通知后,从数据源获取原始数据,不会做无效的获取操作,有效的利用了系统资源。
为了充分利用外部数据源自身能力,可以要求外部数据源直接提供文档的情感信息,让所述原始数据携带情感倾向标识。这样可以避免舆情监控服务器由于自身情感词库能力的限制而导致的误判断。
当要求外部数据源提供情感信息时,具体实现如表6所示,舆情信息监控系统提供一个模板,该模板说明了外部数据源如果提供情感的schema(模式)。
                          表6
信息监控服务器对收集来的原始数据进行预处理,利用预订的模式将其转化为结构化数据,便于后续处理。具体处理过程可以为本领域技术人员所熟知的任意方式,本发明实施例不做限定。
503、信息监控服务器根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型,同时确定所述原始数据包含的监控关键字;
信息监控服务器可以根据监控条件确定所述原始数据包含的监控关键字,监控条件的来源、内容如图1对应实施例中所述,本发明实施例不做过多说明。若监控条件是用户提供的,具体可参见本实施例第一部分记载的内容。步骤503实现的方式如图1对应实施例中所述,本发明实施例不做过多说明。
504、信息监控服务器分析所述原始数据的情感倾向。
发明人发现现有技术中的搜索引擎在从网络中获取相关内容时,是不考虑用户特殊需求的,即不考虑获取内容的情感倾向,致使用户经常收到自己不需要的内容。比如,对于禽流感事件,用户需要获取关于禽流感事件的负面信息,用户提交关键字“上午8:00、禽流感”,搜索引擎根据上述关键字从网络中获取关于禽流感的所有相关内容,包括记载有正面信息的内容和记载有负面信息内容,并在每天上午8:00将获取的全部内容发送给用户,而实际上,用户并不需要关于禽流感的正面信息,给用户造成很大的麻烦。
本发明实施例以原始数据是文档为例进行说明,其它数据类似,首先,对接收到的文档进行情感分析,确定所接收文档的情感倾向,如果外部数据源提供文档情感信息,则利用外部数据源的情感信息;如果外部数据源没有提供文档情感信息,则依据情感词库对文档进行切词,利用情感模型实时分析得出文档情感倾向(如,正面、负面、中性),本发明实施例中情感倾向的描述方式不做限定,可以是本领域技术人员认为合适的各种方式。
情感模型分析文档情感倾向的方式如下:首先,准备一批具有情感倾向标注的文档,情感倾向包括正面、负面和中性;其次,利用这批文档构建情感词空间,情感词空间用于比对文档的情感倾向,构建情感词空间的算法可以用信息增益算法。取信息增益最大的n个词做为特征向量,将有情感倾向标注的文档按照情感词空间进行切词,利用svm算法训练出模型,信息增益算法、svm算法为本领域技术人员所熟知的一种算法,本发明实施例不做赘述。最后,实时得出情感的方式为:对接收的文档依据构建好的情感词空间进行切词,利用svm算法以及训练好的模型得出其该文档的情感倾向(正面、负面、中性)。
优选的,原始数据可以携带情感倾向标识,为了节省系统运行资源,信息监控服务器可以直接根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
505、信息监控服务器检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同;
若原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则执行步骤506和507,若原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则执行步骤507。
506、信息监控服务器将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
如果外部数据源提供的情感倾向描述方式与信息监控服务器描述方法不一致,在对获取的数据进行处理前,需要将其转化为信息监控系统内部情感描述方式。
进一步,信息监控服务器对获取的数据进行情感分析,确定该数据的情感倾向,若信息监控服务器端分析出的情感倾向与外部数据源得出的情感倾向不同,则信息监控服务器将其放到硬盘中,便于人工查看。
如果外部数据源给出的数据的情感倾向与人工判断的结果不同,则对该数据进行标注,标注人工判断的该数据的情感倾向,以此做为评价数据源情感评价质量的依据。评分可以用如下公式计算:评分=该数据源提供的情感倾向错误的数据的数量/该数据源提供的总的数据数量。
若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。比如:所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则说明信息监控服务器情感分析的不准,则可以将该数据加入语料库,便于后续更新情感分析模型,提高信息监控服务器情感分析的准确性。例如:由于表示用户的情感方式有多种,“正面、负面、中性”这几个词在一些情况下不能满足用户的需求,比如用户可以把情感用“正面、负面、中性、悲伤”等关键词表示。经常会出现用于表示情感的关键词不够丰富的问题。针对这种情况,可以收集每一类文档的语料,并对其进行标注,并可以更新至语料库中。
外部数据源提供信息时,除了情感信息外,还可以包括文章的热度信息,如文章的浏览次数、该文章作者的粉丝数等。
507、信息监控服务器将所述原始数据加入数据索引。
优选的,所述数据索引包括实时数据索引和非实时数据索引,步骤507可以包括:
若所述原始数据的情感倾向是正面或负面,则判断所述原始数据是否包含所述第一监控条件中的监控关键字;
若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
508、信息监控服务器根据第一监控条件、所述原始数据的情感倾向、原始数据包含的监控关键字确定关注同一类型的所述原始数据的用户;
监控条件还包括监控关键字与用户的对应关系,进而信息监控服务器可以根据监控关键字与用户的对应关系查找关注同一类型的所述原始数据的用户。
具体的,信息监控服务器依据情感倾向、文档中包括的监控关键字找出符合条件的用户,其步骤包括:
第一步、信息监控服务器依据监控词库对文档进行切词,找出文档中包含的监控关键字列表,并将文档的情感加入文档监控关键字列表中。
举例说明,如果有一篇文档,经过情感分析后,得出其情感倾向为负面,经过切词后,包含的监控关键字有“张山、A政府、北京、李四”,最终文档监控关键字列表中的数据为“张山、A政府、北京、实时通知、李四、负面”,其中“实时通知”和“负面”为情感分析模块依据分析结果加上的。
第二步、信息监控服务器找出与文档匹配的监控条件。
查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
具体的,以文档监控关键字列表中的每个监控关键字为单位,从监控条件倒排索引中获取每个监控关键字对应的监控条件列表,遍历监控条件列表中的每个监控条件ID,如果监控条件ID出现一次,则给监控条件ID计数加1,则该监控条件ID计数增加1,这样,遍历文档中包含的监控关键字所对应的每个监控条件列表后,每个监控条件都有一个数字与其对应,该数字表示该监控条件中的监控关键字在文档监控关键字列表中出现的次数。如果该数字与建立索引时保存的监控条件的监控关键字个数一致,则表示该监控条件与被查文档匹配。
按照上述算法,依据表3和表4的数据,文档监控关键字列表“张山、A政府、北京、实时通知、李四、负面”对应的监控条件中,监控条件user123_900150983cd24fb_1对应的数字为5,监控条件user123_900150983cd24fb_2对应的数字为4,监控条件user456_e2fc714c4727ee9对应的数字为3,因此只有监控条件user123_900150983cd24fb_1满足需求,监控条件user123_900150983cd24fb_2(监控条件索引中保存的数字为5)和监控条件user456_e2fc714c4727ee9(监控条件索引中保存的数字为4)不满足先前建立索引时保存的监控关键字数量,因此不满足需求。
第三步、信息监控服务器依据监控条件中所述监控关键字与用户的对应关系、所述原始数据的情感倾向、原始数据包含的监控关键字找出对应的用户。
在监控条件索引中监控条件user123_900150983cd24fb_1和用户user123对应,且只有监控条件user123_900150983cd24fb_1满足要求,因此,符合条件的用户只有user123。
如果监控条件user123_900150983cd24fb_1和user123_900150983cd24fb_2都满足需求,则为了避免重复发送,节约系统资源,需要进行去重,只记录user123用户1次,即只将该文档的相关信息发送给user123用户一次。
进一步可选的,
确保即使在海量用户监控条件的情况下,也能高效的查找数据对应的用户,信息监控服务器根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,还需要从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。具体包括以下两个步骤:
第一步、根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
第二步、根据所述监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
为了避免重复发送,进一步的,信息监控服务器还需检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据;
若没有向关注同一类型的所述原始数据的用户发送过所述原始数据,则信息监控服务器向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
进一步的,第三步还可以包括以下步骤:
第一步、信息监控服务器判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知;
第二步、若所述第二监控条件指定向用户发送监控结果的方式为实时通知,则信息监控服务器根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系。否则,对于用户在设定监控条件时,没有指定“实时通知”的情况,执行图5所示流程。
进一步可选的,信息监控服务器检查所述原始数据是否被获取过;
若所述原始数据没有被获取过,则信息监控服务器将所述原始数据加入所述数据索引。
具体的,信息监控服务器可以通过以下方式检查所述原始数据是否被获取过,包括:
首先、信息监控服务器获取文档的内容,并计算内容的hash值。
其次、信息监控服务器判断数据库中hash值是否存在,如果不存在,则将此hash值保存到数据库中;如果存在,说明该文档已经被处理过,同时将该hash值对应的数字增加1。数据库可以用nosql数据库,如hbase。
信息监控服务器以文档的hash值为键,保存接收过该文档的用户。信息监控服务器匹配到符合条件的用户后,过滤掉已经接收过该文档的用户。这样可以避免相同内容的文档被用户接收多次。
信息监控服务器可以依据文档对应的接收用户列表、文档hash值,将后台针对该文档的情感分析结果发送给对应的信息监控客户端。如将相同文档接收到的次数发送给信息监控客户端。
优选的,所述实时数据索引存储在内存中,所述非实时数据索引存储在硬盘中。
进一步,如图6所示,实时数据索引中的数据可以通过以下方式确定:
判断所述原始数据是否具有情感倾向。
若所述原始数据的情感倾向是正面或负面,则判断所述原始数据是否包含所述第一监控条件中的监控关键字;
若所述原始数据包含所述第一监控条件中的监控关键字,则判断所述原始数据内容是否为热点信息。
若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
若所述原始数据不包含第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
若所述原始数据不具有情感倾向,则将所述原始数据加入所述非实时数据索引。将所述原始数据存储在硬盘中的非实时索引数据区;每隔固定时间将所述非实时索引数据区中的所述原始数据加入所述非实时数据索引。
本发明实施例仅示出了上述三个判断过程的一种执行方式,对上述三个判断过程的执行顺序本发明实施例不做限定,可以根据实际情况进行调整。
具体的,可以使用以下方法建立实时据索引:
1、新添加的数据进入内存索引;
2、当内存索引到达一定的大小的时候,建一个新的空的内存索引,用于索引新的数据,同时将先前的接收数据额内存索引放到待合并内存索引链表中;
3、每隔一定的时刻,将待合并内存索引链表中的索引写入一个新的硬盘索引中去;
4、硬盘索引很多,所以,每隔一定的时刻,将硬盘索引合并成一个大的索引。
可以使用以下方法建立非实时据索引:
建立非实时倒排索引的方式为:
1、将新加的文档放入硬盘中;
2、每隔一段时间启动程序分析硬盘中的数据,并将其建立成增量索引,为了提高索引的效率,可以采用并行的算法,如map/reduce;
3、每隔一段时间,将增量索引与先前的旧索引进行合并。
509、向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
510、信息监控服务器接收用户反馈信息。
信息监控服务器接收用户的反馈信息,如点击时间,并将其保存,便于后续进行分析。
用户也可以将情感标注是否正确的信息反馈给服务器。
进一步可选的,如图5中虚线部分所示,上述第二部分还可以包括以下步骤:
511、判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知。
若所述第二监控条件指定向用户发送监控结果的方式为实时通知,执行步骤512,否则,流程结束,等待用户点击浏览相关数据。
512、向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
为了便于客户及时收到相关数据,可以在向用户发送了数据后,及时给用户发送提示消息,如可以通过短信的方式通知用户。
第三部分、信息浏览,如图7所示,该部分包括:
701、用户打开舆情信息监控客户端,通过舆情信息监控客户端浏览相关信息。
信息监控客户端将接收到的结果展示给用户。
702、舆情信息监控客户端提供按时间排序、按情感信息(如正面、负面)排序的规则。
703、用户点击浏览舆情信息。
本实施例提供的信息监控方法,信息监控服务器从数据源获取原始数据;根据监控条件确定所述原始数据包含的监控关键字;根据监控条件查找关注同一类型的所述原始数据的用户,所述监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。无需针对每个监控条件进行数据搜索,在为用户监控网络信息的过程中,能够较快的为用户查找相关信息,而且能够有效节省系统资源。
而且,信息监控服务器在获取数据后,直接查找关注该数据的用户,并将该数据及先关信息发送给该用户,使用户能够在第一时间收到自己关注的信息,进而采取相应的措施,降低危机解除成本。
进一步的,还使有情感的数据优先建立索引,便于用户在第一时间依据搜索条件获取有情感的信息,如负面信息。使有情感的数据优先建立索引,便于降低实时系统对内存的要求,进而降低舆情信息监控系统成本。
更进一步的,还能够集成外部数据源情感分析能力,降低舆情信息监控系统的分析负担,节约系统软件、硬件资源。
由于搜索引擎根据用户的订阅进行搜索,而在用户提交订阅关键字时,相关舆论往往已经传播很久了,因此,订阅的实时性不能满足用户的需求,使用户在应对突发事件时变得被动。
图8示出了上述第一部分、第二部分、第三部分重要步骤实施的一种情况,本发明实施例,对第一部分、第二部分、第三部分的执行顺序可以与本说明说中记载不同的情况,各个部分的步骤之间的顺序在执行时,也会存在与本说明书记载的不同的情况,本发明实施不做限定,在实际实施过程中,可以根据实际情况进行调整。
为了配合上述信息监控方法的实施,本发明实施例提供了一种信息监控装置,如图9所示,包括:
数据采集单元91,用于从数据源获取原始数据;
情感分析单元92,用于确定所述原始数据的情感倾向,并根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型,所述情感倾向包括正面、负面或中立;
数据分析单元93,用于确定所述原始数据包含的监控关键字;
数据匹配单元94,用于根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
服务分发单元95,用于向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
本实施例提供的信息监控装置,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
作为上述实施例的一种改进,本发明实施例提供另一种信息监控装置,如图10所示,包括:
数据采集单元101,用于从数据源获取原始数据;
情感分析单元102,用于确定所述原始数据的情感倾向,并根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型,所述情感倾向包括正面、负面或中立;
数据分析单元103,用于确定所述原始数据包含的监控关键字;
数据匹配单元104,用于根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
所述服务分发单元105,用于向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
优选的,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
进一步可选的,还包括:
监控条件接收单元106,用于接收用户输入的第二监控条件,并将所述第二监控条件发送给监控条件分析单元107;
所述监控条件分析单元107,用于接收所述监控条件接收单元发送的所述第二监控条件,解析出所述第二监控条件中的监控关键字,将解析出的监控关键字发送给监控条件匹配单元108;
所述监控条件匹配单元108,还用于根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
所述服务分发单元105,还用于将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
优选的,所述监控条件分析单元107包括:
转换子单元,用于将第二监控条件转化成析取范式的监控条件。
所述监控条件匹配单元108,用于接收所述监控条件分析单元107发送的监控关键字,根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系,将确定的数据、该数据相关信息中的至少一项发送给服务分发单元105;
所述服务分发单元105,还用于接收所述监控条件匹配单元108发送的数据、该数据相关信息中的至少一项,将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
进一步可选的,还包括:
数据添加单元109,用于将所述原始数据加入所述数据索引。
进一步可选的,所述监控条件存储在监控条件索引中,所述装置还包括:
监控条件添加单元1010,用于将所述第二监控条件加入所述监控条件索引。
进一步可选的,所述数据索引包括实时数据索引和非实时数据索引,如图11所示,所述数据添加单元109包括:
实时添加子单元1091,用于若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引;
非实时添加子单元1092,用于若所述原始数据没有情感倾向,则将所述原始数据加入所述非实时数据索引。
进一步可选的,还包括:
第一判断单元1011,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;
所述非实时添加子单元1092,还用于若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元1091,还用于若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
进一步可选的,还包括:
第二判断单元1012,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据内容是否为热点信息,若是,则向所述实时添加子单元发送添加指示,否则,向所述非实时添加子单元发送添加指示;
所述非实时添加子单元1092,还用于若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元1091,还用于若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
优选的,所述原始数据携带情感倾向标识,所述情感分析单元确定所述原始数据的情感倾向为:所述情感分析单元根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
进一步可选的,还包括:
比较单元1013,在所述将所述原始数据加入所述数据索引之前,检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则向硬盘添加单元1014发送添加指示,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则向所述数据添加单元109发送添加指示;
所述硬盘添加单元1014,用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
所述数据添加单元109,还用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。
进一步可选的,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,如图12所示,所述监控条件匹配单元108包括:
第一确定子单元1081,用于根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
其中,子监控条件集合中可以是子监控条件索引的名称标签等可以用于标识子监控条件索引的信息。
所述第一查找子单元1082,用于接收所述第一确定子单元发送的子监控条件集合后,并根据所述子监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
进一步可选的,还包括:
第三判断单元1015,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知,若所述第二监控条件指定向用户发送监控结果的方式为实时通知,则向所述服务分发单元105发送指示;
所述服务分发单元105,还用于在接收到所述第三判断单元发送的指示后,向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
进一步可选的,如图13所示,所述数据匹配单元104还包括:
第二查找子单元1041,用于查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;
所述第二确定子单元1042,用于根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
进一步可选的,还包括:
扩展单元1016,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
所述数据分析单元103根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
进一步可选的,还包括:
第一检查单元1017,用于在所述将所述原始数据加入所述数据索引之前,检查所述原始数据是否被获取过,若否,向所述数据添加单元109发送添加指示;
所述数据添加单元109,用于若所述原始数据没有被获取过,则将所述原始数据加入所述数据索引。
进一步可选的,还包括:
第二检查单元1018,用于在向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息之前,检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据,若否,则向所述服务分发单元105发送操作指示;
所述服务分发单元105向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项为:所述服务分发单元在接收到所述第二检查单元发送的操作指示后,向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
进一步可选的,还包括:
用户信息接收单元1019,用于接收用户反馈信息。
进一步可选的,所述实时数据索引存储在内存中,所述非实时数据索引存储在硬盘中。
进一步可选的,如图14所示,所述数据添加单元109还包括:
存储子单元1093,用于将所述原始数据存储在硬盘中的非实时索引数据区;
添加子单元1094,用于每隔固定时间将所述非实时索引数据区中的所述原始数据加入所述非实时数据索引。
进一步可选的,还包括:
通知接收单元1020,用于接收数据获取通知。
本实施例提供的信息监控装置,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
本发明实施例提供了一种信息监控服务器,如图15所示,信息监控装置161为上述实施例中所述的信息监控装置,还包括数据传输接口162和数据库163,
其中,所述数据库163,用于存储数据;
所述数据传输接口162,用于数据传输;
所述信息监控装置161通过所述数据传输接口162收发各种数据和消息,使用所述数据库163存储各种数据。
本实施例提供的信息监控服务器,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
本发明实施例提供了一种信息监控客户端,如图16所示,包括:监控条件输入单元171、所述数据发送单元172、数据监控条件接收单元173。
其中,监控条件输入单元171,用于接收第二监控条件,并将所述监控条件发送给数据发送单元172;
所述数据发送单元172,用于接收所述监控条件输入单元171发送的所述监控条件,并将所述监控条件发送给上述实施例记载的任一项所述的信息监控装置;
数据监控条件接收单元173,用于接收所述信息监控装置发送的数据。
本实施例提供的信息监控客户端,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
本发明实施例提供了一种信息监控终端,如图17所示,包括浏览器181、硬盘182和上述实施例记载的信息监控客户端,
其中,所述浏览器181,用于浏览所述信息监控客户端发送的数据;
所述硬盘182,用于存储所述信息监控客户端发送的数据。
本实施例提供的信息监控终端,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
本发明实施例提供了一种信息监控系统,如图2所示,包括上述实施例记载的信息监控服务器191和上述实施例记载的信息监控终端192。
本实施例提供的信息监控系统,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
本发明实施例提供了一种信息监控设备,如图18所示,包括:接收器191、处理器192、发射器193和存储器194。
其中,处理器192,用于从数据源获取原始数据,并确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立;根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型;确定所述原始数据包含的监控关键字;根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系。
发射器193,用于向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
进一步可选的,
接收器191,用于接收用户输入的第二监控条件。
并将所述第二监控条件发送给监控条件分析单元106;
处理器192还用于解析出所述第二监控条件中的监控关键字;根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
发射器193,还用于将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
进一步可选的,处理器192,还用于将所述监控条件转化成符合析取范式的监控条件。
进一步可选的,处理器192,还用于将所述原始数据加入所述数据索引。
进一步可选的,处理器192,还用于将所述第二监控条件加入所述监控条件索引。
进一步可选的,所述数据索引包括实时数据索引和非实时数据索引。
处理器192,还用于若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引,用于若所述原始数据没有情感倾向,则将所述原始数据加入所述非实时数据索引。
进一步可选的,处理器192,还用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
其中,所述将所述原始数据加入所述实时数据索引可以实现为:若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引;
进一步可选的,处理器192,还用于判断所述原始数据内容是否为热点信息,若是,则将所述原始数据加入所述实时数据索引,否则,将所述原始数据加入所述非实时数据索引;
优选的,所述原始数据携带情感倾向标识,所述情感分析单元确定所述原始数据的情感倾向为:所述情感分析单元根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
进一步可选的,处理器192,还用于分析所述原始数据的情感倾向。
进一步可选的,处理器192,还用于检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据加入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入数据索引;
进一步可选的,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,处理器192,还用于根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合,根据所述监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
进一步可选的,处理器192,还用于判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知,若所述第二监控条件指定向用户发送监控结果的方式为实时通知,则所述发射器193还用于向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
进一步可选的,处理器192,还用于查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
进一步可选的,处理器192,还用于扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
处理器192,用于根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:处理器192根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
进一步可选的,处理器192,还用于检查所述原始数据是否被获取过,若否,将所述原始数据加入所述数据索引。
进一步可选的,处理器192,还用于检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据,若否,则向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
进一步可选的,还包括:
接收器191,用于接收用户反馈信息。
进一步可选的,所述实时数据索引存储在内存中,所述非实时数据索引存储在硬盘中。还包括:
存储器194,用于将所述原始数据存储在硬盘中的非实时索引数据区;
处理器192,还用于每隔固定时间将所述非实时索引数据区中的所述原始数据加入所述非实时数据索引。
进一步可选的,接收器191,还用于接收数据获取通知。
优选的,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
本实施例提供的信息监控系统,在针对原始数据划分了情感倾向后,只需针对用户所需的一种情感倾向下的数据进行搜索,比如只针对在划分出负面、正面或是中立后,只针对其中的一种进行搜索。避免了现有技术中针对每个监控条件进行数据搜索,减少了所需搜索的数据量,从而能够较快的为用户查找相关信息,以便于提高用户获取自己所关注的情感倾向下的数据的实时性,使得用户在依据关键字查询舆情相关数据的时候,能够及时获取所需的舆情数据。
综上,本发明实施例提供的信息监控系统,(如用于网络舆情监控,也可称为网络舆情信息监测系统)用于监控互联网所反映的舆情,该系统对海量网络舆论信息进行实时的自动监视、采集、分析、汇总,从网络舆论信息中识别出指定的关键信息,并及时通知相关人员,从而使相关人员能够第一时间应急响应负面信息、正确舆论导向、及收集网友意见,为危机公关或品牌形象营销提供数据依靠。
针对希望实时性获取情感信息(尤其是负面信息)的用户,系统首先分析数据的情感倾向,然后在对数据建立索引之前,查找关注该数据的用户,进而将用户关注的信息实时发送给用户。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (30)

1.一种信息监控装置,其特征在于,包括:
数据采集单元,用于从数据源获取原始数据;
情感分析单元,用于确定所述原始数据的情感倾向,并根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型,所述情感倾向包括正面、负面或中立;
数据分析单元,用于确定所述原始数据包含的监控关键字;
数据匹配单元,用于根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
服务分发单元,用于向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
2.根据权利要求1所述的装置,其特征在于,还包括:
监控条件接收单元,用于接收用户输入的第二监控条件,并将所述第二监控条件发送给监控条件分析单元;
所述监控条件分析单元,用于接收所述监控条件接收单元发送的所述第二监控条件,解析出所述第二监控条件中的监控关键字,将解析出的监控关键字发送给监控条件匹配单元;
所述监控条件匹配单元,用于根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
所述服务分发单元,还用于将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
3.根据权利要求1或2所述的装置,其特征在于,所述监控条件存储在监控条件索引中,所述装置还包括:
监控条件添加单元,用于将所述第二监控条件加入所述监控条件索引。
4.根据权利要求3所述的装置,其特征在于,所述数据索引包括实时数据索引和非实时数据索引,所述装置还包括数据添加单元,用于将所述原始数据加入所述数据索引;
所述数据添加单元包括:
实时添加子单元,用于若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引;
非实时添加子单元,用于若所述原始数据没有情感倾向,则将所述原始数据加入所述非实时数据索引。
5.根据权利要求4所述的装置,其特征在于,还包括:
第一判断单元,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;
所述非实时添加子单元,还用于若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元,还用于若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
6.根据权利要求4或5所述的装置,其特征在于,还包括:
第二判断单元,用于在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据内容是否为热点信息,若是,则向所述实时添加子单元发送添加指示,否则,向所述非实时添加子单元发送添加指示;
所述非实时添加子单元,还用于若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
所述实时添加子单元,还用于若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
7.根据权利要求3-6任一项所述的装置,其特征在于,所述原始数据携带情感倾向标识,所述情感分析单元确定所述原始数据的情感倾向为:所述情感分析单元根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
8.根据权利要求3-7任一项所述的装置,其特征在于,还包括:
比较单元,用于在所述将所述原始数据加入所述数据索引之前,检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则向硬盘添加单元发送添加指示,若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则向所述数据添加单元发送添加指示;
硬盘添加单元,用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
所述数据添加单元,还用于若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。
9.根据权利要求2-8任一项所述的装置,其特征在于,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,所述数据匹配单元包括:
第一确定子单元,用于根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
所述第一查找子单元,用于接收所述第一确定子单元发送的子监控条件集合后,并根据所述子监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
10.根据权利要求2-9任一项所述的装置,其特征在于,还包括:
第三判断单元,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知,若所述第二监控条件指定向用户发送监控结果的方式为实时通知,则向所述服务分发单元发送指示;
所述服务分发单元,还用于在接收到所述第三判断单元发送的指示后,向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
11.根据权利要求1-10任一项所述的装置,其特征在于,所述数据匹配单元包括:
第二查找子单元,用于查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;
所述第二确定子单元,用于根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
12.根据权利要求2-11任一项所述的装置,其特征在于,还包括:
扩展单元,用于在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
13.根据权利要求2-12任一项所述的装置,其特征在于,还包括:
第一检查单元,用于在所述将所述原始数据加入所述数据索引之前,检查所述原始数据是否被获取过,若否,向所述数据添加单元发送添加指示;
所述数据添加单元,用于若所述原始数据没有被获取过,则将所述原始数据加入所述数据索引。
14.根据权利要求1-13所述的装置,其特征在于,还包括:
第二检查单元,用于在向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息之前,检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据,若否,则向所述服务分发单元发送操作指示;
所述服务分发单元向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项为:所述服务分发单元在接收到所述第二检查单元发送的操作指示后,向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
15.根据权利要求1-14任一项所述的装置,其特征在于,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
16.一种信息监控方法,其特征在于,包括:
从数据源获取原始数据,并确定所述原始数据的情感倾向,所述情感倾向包括正面、负面或中立;
根据所述原始数据的情感倾向,对所述原始数据进行划分,并得到所述原始数据的类型;
确定所述原始数据包含的监控关键字;
根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户,第一监控条件包括所述监控关键字和所述监控关键字与用户的对应关系;
向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息。
17.根据权利要求16所述的方法,其特征在于,还包括:
接收用户输入的第二监控条件;
解析出所述第二监控条件中的监控关键字;
根据数据索引确定与所述第二监控条件中的监控关键字对应的数据,所述数据索引包括所述监控关键字和数据的对应关系;
将确定的数据、该数据相关信息中的至少一项发送给所述第二监控条件中的监控关键字对应的用户。
18.根据权利要求16或17所述的方法,其特征在于,所述监控条件存储在监控条件索引中,所述方法还包括:
将所述第二监控条件加入所述监控条件索引。
19.根据权利要求18所述的方法,其特征在于,所述数据索引包括实时数据索引和非实时数据索引,所述方法还包括:
若所述原始数据的情感倾向是正面或负面,则将所述原始数据加入所述实时数据索引;
否则,将所述原始数据加入所述非实时数据索引。
20.根据权利要求19所述的方法,其特征在于,还包括:
在所述将所述原始数据加入所述实时数据索引之前,判断所述原始数据是否包含所述第一监控条件中的监控关键字;
若所述原始数据不包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述非实时数据索引;
所述将所述原始数据加入所述实时数据索引为:若所述原始数据包含所述第一监控条件中的监控关键字,则将所述原始数据加入所述实时数据索引。
21.根据权利要求19或20所述的方法,其特征在于,在所述将所述原始数据加入所述实时数据索引之前,所述方法还包括:
若所述原始数据内容是非热点信息,则将所述原始数据加入所述非实时数据索引;
所述将所述原始数据加入所述实时数据索引为:若所述原始数据内容是热点信息,则将所述原始数据加入所述实时数据索引。
22.根据权利要求18-21任一项所述的方法,其特征在于,所述原始数据携带情感倾向标识,所述确定所述原始数据的情感倾向为:根据所述原始数据携带的情感倾向标识确定所述原始数据的情感倾向。
23.根据权利要求18-22任一项所述的方法,其特征在于,在所述将所述原始数据加入所述数据索引之前,所述方法还包括:
检测所得所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向是否相同;
若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向不同,则将所述原始数据放入硬盘中的情感鉴定区,便于人工鉴定所述原始数据的情感;
所述将所述原始数据加入所述数据索引为:若所述原始数据的情感倾向和所述原始数据携带情感倾向标识表示的情感倾向相同,则将所述原始数据加入所述数据索引。
24.根据权利要求17-23任一项所述的方法,其特征在于,所述监控条件索引按照指定监控关键字被拆分成多个子监控条件索引,所述根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户包括:
根据所述原始数据包含的监控关键字确定所述原始数据对应的子监控条件索引,从所述子监控条件索引中查找和所述原始数据对应的子监控条件集合;
根据所述子监控条件集合从所述子监控条件索引中查找关注同一类型的所述原始数据的用户。
25.根据权利要求17-24任一项所述的方法,其特征在于,在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,所述方法还包括:
判断所述第二监控条件是否指定向用户发送监控结果的方式为实时通知;
若所述第二监控条件指定向用户发送监控结果的方式为实时通知,所述方法还包括:
向关注同一类型的所述原始数据的用户发送提示消息,所述提示消息用于提示用户接收数据。
26.根据权利要求16-25任一项所述的方法,其特征在于,所述根据第一监控条件、原始数据包含的监控关键字,确定关注同一类型的所述原始数据的用户包括:
查找监控关键字全部被所述原始数据涵盖,且情感倾向和所述原始数据的情感倾向相同的目标监控条件;
根据监控条件中所述监控关键字与用户的对应关系确定所述目标监控条件对应的用户。
27.根据权利要求17-26任一项所述的方法,其特征在于,在所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据之前,还包括:
扩展出所述第二监控条件中的监控关键字的子监控关键字,所述子监控关键字是监控关键字的下位概念,或者,所述子监控关键字是监控关键字的同义词,或者,所述子监控关键字是监控关键字的近义词;
所述根据数据索引确定与所述第二监控条件中的监控关键字对应的数据为:根据数据索引确定与所述第二监控条件中的监控关键字和子监控关键字对应的数据。
28.根据权利要求17-27任一项所述的方法,其特征在于,在所述将所述原始数据加入所述数据索引之前,还包括:
检查所述原始数据是否被获取过;
所述将所述原始数据加入所述数据索引为:若所述原始数据没有被获取过,则将所述原始数据加入所述数据索引。
29.根据权利要求16-28所述的方法,其特征在于,在向关注同一类型的所述原始数据的用户发送所述同一类型的所述原始数据或者所述同一类型的所述原始数据相关信息之前,还包括:
检查是否向关注同一类型的所述原始数据的用户发送过所述原始数据;
所述向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项为:若没有向关注同一类型的所述原始数据的用户发送过所述原始数据,则向关注同一类型的所述原始数据的用户发送所述原始数据、该原始数据相关信息中的至少一项。
30.根据权利要求16-29任一项所述的方法,其特征在于,所述原始数据相关信息包括时间、URL、访问次数、标题、摘要、作者中的至少一项。
CN201310568031.2A 2013-11-14 2013-11-14 信息监控方法及装置 Pending CN104636386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310568031.2A CN104636386A (zh) 2013-11-14 2013-11-14 信息监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310568031.2A CN104636386A (zh) 2013-11-14 2013-11-14 信息监控方法及装置

Publications (1)

Publication Number Publication Date
CN104636386A true CN104636386A (zh) 2015-05-20

Family

ID=53215149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310568031.2A Pending CN104636386A (zh) 2013-11-14 2013-11-14 信息监控方法及装置

Country Status (1)

Country Link
CN (1) CN104636386A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445773A (zh) * 2015-08-13 2017-02-22 阿里巴巴集团控股有限公司 一种网络信息反馈的监控方法和装置
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107544988A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种获取舆情数据的方法和装置
CN107918778A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
WO2019000304A1 (zh) * 2017-06-29 2019-01-03 麦格创科技(深圳)有限公司 舆情监控方法及系统
CN109635276A (zh) * 2018-11-12 2019-04-16 厦门市美亚柏科信息股份有限公司 一种信息匹配方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915297B2 (en) * 2002-05-21 2005-07-05 Bridgewell, Inc. Automatic knowledge management system
CN101296154A (zh) * 2007-04-28 2008-10-29 上海盛大网络发展有限公司 自动答疑系统
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN103268350A (zh) * 2013-05-29 2013-08-28 安徽雷越网络科技有限公司 一种互联网舆情信息监测系统及监测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915297B2 (en) * 2002-05-21 2005-07-05 Bridgewell, Inc. Automatic knowledge management system
CN101296154A (zh) * 2007-04-28 2008-10-29 上海盛大网络发展有限公司 自动答疑系统
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN103268350A (zh) * 2013-05-29 2013-08-28 安徽雷越网络科技有限公司 一种互联网舆情信息监测系统及监测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445773A (zh) * 2015-08-13 2017-02-22 阿里巴巴集团控股有限公司 一种网络信息反馈的监控方法和装置
CN107544988A (zh) * 2016-06-27 2018-01-05 百度在线网络技术(北京)有限公司 一种获取舆情数据的方法和装置
CN107918778A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
CN107918778B (zh) * 2016-10-11 2022-03-15 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
WO2019000304A1 (zh) * 2017-06-29 2019-01-03 麦格创科技(深圳)有限公司 舆情监控方法及系统
CN109635276A (zh) * 2018-11-12 2019-04-16 厦门市美亚柏科信息股份有限公司 一种信息匹配方法及终端

Similar Documents

Publication Publication Date Title
Rusyn et al. Model and architecture for virtual library information system
CA3116778C (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN104636386A (zh) 信息监控方法及装置
CN107729336A (zh) 数据处理方法、设备及系统
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
Psomakelis et al. Big IoT and social networking data for smart cities: Algorithmic improvements on Big Data Analysis in the context of RADICAL city applications
CN103186662A (zh) 一种动态舆情关键词抽取系统和方法
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
CN103559258A (zh) 基于云计算的网页排序方法
CN102955802A (zh) 从数据报表中获取数据的方法和装置
CN112015918A (zh) 数据处理方法及装置
WO2015084757A1 (en) Systems and methods for processing data stored in a database
KR102413961B1 (ko) Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법
CN104156359A (zh) 内链信息推荐方法及装置
CN104965894A (zh) 一种用于idc有害信息监测平台的数据分析系统
CN105512270B (zh) 一种确定相关对象的方法和装置
CN113392212A (zh) 一种服务知识图谱构建方法、装置、电子设备及存储介质
Wu et al. Sub-event discovery and retrieval during natural hazards on social media data
CN116226494A (zh) 一种用于信息搜索的爬虫系统及方法
CN101763391A (zh) 分布式网络站点及其信息搜索方法及系统
CN105159899B (zh) 一种搜索的方法和装置
Oramas Harvesting and structuring social data in music information retrieval
Li et al. Research on hot news discovery model based on user interest and topic discovery
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150520