CN105302844A - 互联网监测方法、装置及系统 - Google Patents

互联网监测方法、装置及系统 Download PDF

Info

Publication number
CN105302844A
CN105302844A CN201410377901.2A CN201410377901A CN105302844A CN 105302844 A CN105302844 A CN 105302844A CN 201410377901 A CN201410377901 A CN 201410377901A CN 105302844 A CN105302844 A CN 105302844A
Authority
CN
China
Prior art keywords
label
relevant information
predefined
statistics
monitoring objective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410377901.2A
Other languages
English (en)
Other versions
CN105302844B (zh
Inventor
樊中一
陈妍
梁璟彪
骆玘
黄利贤
吕虹
刘敏
温春龙
黎博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410377901.2A priority Critical patent/CN105302844B/zh
Publication of CN105302844A publication Critical patent/CN105302844A/zh
Application granted granted Critical
Publication of CN105302844B publication Critical patent/CN105302844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种互联网监测方法,包括:根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息;建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及统计所述标签与所述信息之间的关联关系。上述方法及装置可以互联网监测的检索效率。此外,本发明还提供一种互联网监测装置及系统。

Description

互联网监测方法、装置及系统
技术领域
本发明涉及数据分析技术,特别涉及一种互联网监测方法及装置。
背景技术
现在的网络技术发展越来越快,越来越多的网络用户们会在网络平台如博客、微博、论坛、社交网络上表达自己对各种事件、产品、服务、人物的意见与看法。对于某个被评价的对象而言,一个网络用户的意见可能过于主观而并不可信,对于相关方来说并不具有参考价值,然而,当采集的样本足够多的时候,分析结果就代表着公众对该对象的平均评价。从统计学意见上来说,合理的统计结果是可信而具有参考价值的,这些统计结果可以用于提升或者改善产品或者服务的依据。因此,有必要在互联网上监测网络用户对于某款产品或者服务的评价。
发明内容
有鉴于此,本发明提供一种互联网监测方法及装置,其可以提升网络监测的处理效率。
一种互联网监测方法,包括:根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息;建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及统计所述标签与所述信息之间的关联关系。
一种互联网监测装置,包括:信息抓取模块,用于根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息;模型建立模块,用于建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;检索模块,用于将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及统计模块,用于统计所述标签与所述信息之间的关联关系。
一种互联网监测系数,包括:信息抓取服务器、数据库及监测服务器;
所述信息抓取服务器用于:根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息,及将所述相关的信息存储在所述数据库内;
所述监测服务器用于:建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及统计所述标签与所述信息之间的关联关系。
根据上述的技术方案,通过监测目标的描述模型的树型结构,采用节点的标签对相关信息进行反向检索,可以迅速的对相关信息把描述的问题进行定位,无须对相关信息进行效率较低的语义分析,提升了互联网监测的检索效率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为第一实施例提供的互联网监测系统的架构示意图。
图2为图的互联网监测系统中监测服务器30的模块图。
图3为第二实施例提供的互联网监测方法的流程图。
图4为第二实施例的方法中采用的描述模型的示意图。
图5为第三实施例提供的互联网监测方法的流程图。
图6为第四实施例提供的互联网监测方法的流程图。
图7为第五实施例提供的互联网监测方法的流程图。
图8为第五实施例提供的互联网监测方法的部分流程图。
图9为第六实施例提供的互联网监测方法的流程图。
图10为第七实施例提供的互联网监测方法的流程图。
图11为第八实施例提供的互联网监测方法的流程图。
图12为第九实施例提供的互联网监测方法的流程图。
图13为第十实施例提供的互联网监测方法的流程图。
图14为第十一实施例提供的互联网监测装置的模块图。
图15为第十二实施例提供的互联网监测装置的模块图。
图16为第十三实施例提供的互联网监测装置的模块图。
图17为第十四实施例提供的互联网监测装置的模块图。
图18为第十五实施例提供的互联网监测装置的模块图。
图19为第十六实施例提供的互联网监测装置的模块图。
图20为第十七实施例提供的互联网监测装置的模块图。
图21为第十八实施例提供的互联网监测装置的模块图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
参阅图1,其为本发明第一实施例提供的互联网监测系统的架构示意图。如图1所示,互联网监测系统100包括信息抓取服务器10、数据库20、以及监测服务器30。
信息抓取服务器10用于根据指定的监测目标的关键字从互联网中抓取内容,并将抓取的内容存储在数据库20中,监测服务器30对存储在数据库20中的信息进行数据分析,并根据分析结果对监测目标在互联网中的评论进行监控,在满足预定的条件时发出警告信息。
上述的监测目标的具体实例包括但并不限于:有形的产品如手机、电器或者汽车,无形的产品例如游戏、音乐、动画、互联网服务,品牌,人物,等一切可以通过文字、语言等方式描述的对象。
上述的信息的具体实施包括但并不限于:文本、语音、及视频。所述信息在互联网中以各种格式的文档、数据流进行传输,在数据库20中抓取的信息也按照预定的格式进行存储。在一个具体的实例中,数据库20例如是mysql数据库。
信息抓取服务器10可以按照网络爬虫的方式从整个互联网中爬取信息。可以理解,由于互联网信息量的增长,这种方式具有较低的效率,而且时效性较低。为了提升数据抓取的效率,可以预先设定要进行信息爬取的目标网站。目标网站到的可包括用户比较频繁在其上发布对于监测目标相关的信息的网站,其具体实施包括但并不限于社交网络网站、购物网站、具有特定主题的网络社区网站、应用程序下载网站等。
可以理解,网站的网络服务具体是由服务器提供的。如图1所示,互联网中具有社交网络服务器401、购物网站服务器402、网络社区服务器403、应用程序下载服务器404。社交网络服务器401例如可提供社交网络服务,购物服务器402可提供网络购物以及商品评价服务,网络社区服务器403用于提供针对某个特定主题的网络社区服务,例如,游戏论坛、产品论坛等。应用程序下载服务器404用于提供桌面计算机应用程序或者移动终端应用程序下载及评论的服务。
信息抓取服务器10每间隔一段时间执行一次数据抓取的动作,抓取上一次数据抓取到当前时间之间产生的新数据。所有抓取的数据都被累积存储在数据库20中。
参阅图2,其为上述的监测服务器30的结构框图。如图2所示,监测服务器30包括:存储器102、处理器104、存储控制器106、外设接口108、以及网络模块110。可以理解,图2所示的结构仅为示意,其并不对监测服务器30的结构造成限定。例如,监测服务器30还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器102可用于存储软件程序以及模块,如本发明实施例中的即使通讯会话的方法及装置对应的程序指令/模块,处理器104通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。
存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器102可进一步包括相对于处理器106远程设置的存储器,这些远程存储器可以通过网络连接至监测服务器30。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
外设接口108将各种输入/输入装置耦合至处理器106。处理器106运行存储器102内的各种软件、指令电子终端100执行各种功能以及进行数据处理。在一些实施例中,外设接口108、处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
网络模块110用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中,上述网络信号为有线网络信号。此时,网络模块110可包括处理器、随机存储器、转换器、晶体振荡器等元件。
上述的软件程序以及模块包括:操作系统122以及监测模块124。操作系统122其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。监测模块124用于对存储在数据库20中的内容进行数据分析,并根据分析结果对监测目标在互联网中的评论进行监控,在满足预定的条件时发出警告信息,其具体工作过程将结合更加详细的实施例描述如下。
参阅图3,其为第二实施例提供的互联网监测方法的流程图。如图3所示,本实施例的方法包括以下步骤:
步骤S101,根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息。
例如,监测目标可以是某款具体的产品,则关键字可为该产品的产品名称、产品型号等。监测目标也可以是虚拟的产品或者服务,例如智能手机的应用程序或者在线的音乐播放服务,则关键字可以为该产品或者服务的名称,如果是应用程序,还可包括版本号。可以理解,一个监测对象可以具有多个关键字,而关键字之间的可以采用各种逻辑操作符连接。监测目标以及相应的关键字可以是由用户设定的,设定可以存储在配置文件或者数据库中。
如图1所示,信息抓取服务器10根据配置文件或者数据库中存储的设定,获取监测目标的关键字,然后开始在互联网中检索监测目标的相关信息。具体的检索可包括以下方式,例如,对于具有关键字检索功能的网站,可以将关键字提交给网站并抓取所有命中的检索结果;又例如,对于不提供关键字检索功能的网站,可以从给定的该网站的入口页面开始爬取所有页面,分析获取的页面是否与监测目标的关键字匹配,若两者匹配则存取该页面中与监测目标相关的信息;又例如,对于提供用于进行信息检索的应用程序编程接口(API)的网站,可以直接调用相应的API抓取监测目标的相关信息。例如,微博网站http://t.qq.com就提供关键字检索API,但只限于返回1000条以内的记录。因此,可以通过每次调用限制查询时间段来使每次返回的数量在1000以内。
在抓取相关的信息后,可以将其处理成预定的格式,并将其存储在文件或者数据库中。可以理解,初步抓取的信息可能存在重复的情形,而部分信息可能属于无效信息。因此,在抓相关的信息后,还可进行数据的筛选步骤。
在一个具体的实例中,去除重复文本可以按以下方式进行:对于能够获取信息发布用户名称的信息,相同的内容只算一条有效信息;对于部分网站内获取的信息,若内容相同或者相似的信息的数目大于阈值时认定其为广告或纯分享类的信息,此种信息不予保留。
在一个具体的实例中,去除无效信息可以按以下方式中的一种或多种进行:对文本内容进行排序,格式错乱的文本可以进行删除;维护一个无效用户(例如各商家的官方社交网络账号、通过行为识别得到的非真实网络用户等)列表,这些用户发表的信息全部当作无效信息处理;通过主题词提取发现信息主题与监测目标完全不相关的的信息当作无效信息处理;维护一个关键字黑名单,对于包含该黑名单中任一关键字的信息当作无效信息处理;对于提供非模糊搜索的网站返回的结果,进行关键字完整匹配检索,而删除其他模糊搜索得到的信息。
步骤S102,建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签。
在一个实施例中,监测目标是一款视频播放应用程序(XX视频产品)。参阅图4,其为该监测目标的描述模型的示意图。描述模型为3级的树型结构,每一级具有一个或多个节点,每个节点具有一个或多个子节点。每个节点具有一个或多个标签。例如,二级节点401就具有两个标签死机与黑屏;而节点402具有两个标签升级与安装。可以理解,同一节点多个标签发生在两个标签都是常用词但实质描述的是同一个问题的情形,例如,死机与黑屏描述都是同一类型的问题,只是表达方式不同;而升级与安装是高度相关的。
可以理解,图4所示的描述模型中,每个标签就是用户在面临具体的问题时常采用的关键字。因此,根据图4的描述模型,如果在监测目标相关的一条信息中检索到一个标签,则根据命中的标签可以迅速对该条信息进行问题定位。描述模型中,级别越高的标签(如第一级L1的标签)所描述的问题宽泛,级别越低的标签(如第二级L2的标签)所描述的问题越具体。也就是说,根据描述模型的树型结构,可以迅速的将一条信息进行聚类。例如,若一条信息中具有闪退、死机/黑屏、播放速度卡、升级/安装等关键字,则该条信息就可以分类为描述的是XX视频产品的性能问题。
此外,值得注意的是,描述模型中,同一个标签可以赋予给不同的结点。也就是说,一个关键字所述的问题可以同时定至不同的问题上。例如,标签“闪退”在图4中是标签“性能”的字标签,但是标签“闪退”也可以被分类功能问题,也就是也可以作为标签“功能”的字标签。
步骤S103,将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果。
上述的至少一个标签是指从描述模型中选取的要进行监测的标签,其可以包括所有节点的标签,也可以包括部分的标签。
存储所述至少一个标签与所述相关信息的匹配检索结果是指采用合适的方式来存储标签的匹配检索结果。例如,可以采用一个合适的结构体(如数组、对象、字符串等)来存储所述的至少一个标签中所有与某条信息匹配的标签的标识,并将此结构体与该条信息进行关联存储。
步骤S104,统计所述标签与所述相关信息之间的关联关系。
例如,统计一个时间段内所有相关信息的总数,步骤S103中所述的至少一个标签中每个标签的命中次数,上述的命中次数与所有相关信息的总数的比例等等。
根据本实施例的方法,通过监测目标的描述模型的树型结构,采用节点的标签对相关信息进行反向检索,可以迅速的对相关信息把描述的问题进行定位,无须对相关信息进行效率较低的语义分析,提升了互联网监测的检索效率。
参阅图5,其为第三实施例提供的互联网监测方法的流程图。本实施例的方法与图3所示的方法相似,其不同之处在于,在步骤S102之后还包括:步骤S105,给描述模型的标签设定优先级。
在一个具体的实例中,可以给每个标签或者说对应的节点赋予优先级,还可以给部分标签(例如第二级L2的标签)或者说对应的节点赋予优先级。例如,优先级可以为分高、中、低三级。如此,步骤S103中所述的至少一个标签就可以选择优先级超过预定值的标签。例如,选取优先级为高级的标签。
而优先级的设定可以参考标签所对应的问题相对于用户的重要性来说。例如,对于一款应用程序,闪退、死机/黑屏、播放速度卡、安全等问题会严重用户使用,因此可以赋予最高的优先级;而安装、活动等问题影响相对较小,可以赋予相对较低的优先级。当然,设定优先级的标准并不限于这样,在具体使用时可以根据具体的需要,采用任意合适的标准来确认标签的优先级。
根据本实施例的方法,通过给标签设置优先级,可以实现对相关信息的多层次过滤,减少非相关问题对监测过程的干扰。
参阅图6,其为第四实施例提供的互联网监测方法的流程图。本实施例的方法与图5所示的方法相似,其不同之处在于,在步骤S105之后还包括:步骤S106,给描述模型的标签设定情感倾向性标记。
在一个具体的实例中,可以给每个标签或者说对应的节点赋予情感倾向性标记,还可以给部分标签(例如第二级L2与第三级L3的标签)或者说对应的节点赋予优先级。
在一个具体的实例中,情感倾向性标记可以分为正面、负面、中性三种。如此步骤S103中所述的至少一个标签就可以选择某一个或者多个情感倾向性标记对应的标签。
根据本实施例的方法,通过情感倾向性标记,可以迅速的通过标签的匹配检索直接判断该信息对于监测目标的情感倾向,而无须再通过进行文本识别、语义分析的方式获取信息对于监测目标的情感倾向,从而可以提升互联监测时的检索效率。
参阅图7,其为第五实施例提供的互联网监测方法的流程图。本实施例的方法与图3所示的方法相似,其不同之处在于,在步骤S104之后还包括步骤S107,输出统计结果。
具体地,参阅图8,步骤S107包括以下步骤:
步骤S201,获取所述监测目标的监测结果输出规则,所述监测结果输出规则包括至少一个分类,每个分类对应所述描述模型的中的至少一个标签。
例如,从配置文件或者数据库中读取与某个监测目标对应的监测结果输出规则。监测结果输出规则可以包括多个分类,而每个分类可以对应于描述模型中的至少一个标签。
在一个具体的实例中,监测结果输出规则包括以下分类:1、功能故障,2、安全隐私,3、支付问题,4、性能。而每个分类可以具有一个或者多个标签,例如,分类4就可包括图4所示的所有二级及三级标签。
步骤S202,根据每个分类所包括的标签对标签的匹配检索结果进行聚类。
例如,参阅图4,标签“闪退”与“播放速度卡”都属于分类4的标签,因此所有匹配检索到“闪退”与“播放速度卡”的相关信息的数量都可记入分类4的匹配检索结果中。
步骤S203,将每个分类的标签匹配检索统计结果发送给预定义的第一联系人或联系人组。
经过步骤S202,根据不同分类对标签的检索结果进行了聚类,然后可将聚类结果进行具体的输出。可以理解,一般来说,互联网监测是由专门设置的服务器进行,相关的人员并不会直接得到统计结果。因此,在步骤S203中,可以将监测的统计结果发送给预定义的第一联系人或者联系人组。具体地,可以采用邮件、即时通讯消息、移动通信的短消息等方式进行发送。
根据本实施例的方法,可以根据监测结果的输出规则对标签的检索结果进行聚类处理,进而生成预定格式的统计结果发送给相关的联系人或者联系人组,方便用户查阅监测结果。
参阅图9,其为第六实施例提供的互联网监测方法的流程图。本实施例的方法与图7所示的方法相似,其不同之处在于,还包括步骤S108:在预定的时间段内若所述相关信息的数量小于预设的阈值d,根据所述统计结果以及预定义的第一规则计算第一风险系数;若所述第一风险系数大于或等于预定义的第一风险阈值m才进行所述输出统计结果的步骤。
上述的相关信息的数量阈值d可以是预先设定好的。以图4所示的XX视频产品为例,d其可以通过以下方式获取:抽取过去一个长时间段(例如3年)中该监测目标的所有相关信息,计算每天的平均信息量。此外还可对前半年每5分钟爬取一次的数据进行统计。发现一般情况下该监测目标的热度每5分钟在40条左右,一天高峰基本不超过100条。热点事件下监测目标的5分钟热度则可以达到500条。因此,阈值d就可以设定为100或者更高的值。
上述的第一规则是指第一风险系数的计算公式。一般来说,可以主要考虑数量以及比例。二级标签根据其描述的问题的对于用户使用上的影响程度分为两类,高风险问题与低风险问题,例如,在性能下的用不了与登陆不上,在帐号安全中的帐号安全、支付与支付安全问题均属于需要关注的高风险问题,对于高风险问题,给予其一个相对高的权重。例如,在本实施例中,对于高风险问题,其权重可以确定为2-5,而具体的数值可以根据具体情形由维护人员调整。而对于低风险问题,可给予其一个较低的权重,例如1。每个问题的权重可以用t表示,而每个问题的风险度可以采用一个数值表达,例如可以用q表示,因此,对于一个问题,其风险程度可以用t*q表示。
在一个具体的实例中,第一风险系数可根据以下公式计算:
Σ j = k - i k ( t j * q j ) / Σ i = 1 k ( t i * q i )
其中,k表示描述模型中二级标签(L2)的总数,i表示低风险问题的总数,1≤j≤k,0≤i≤k,tj表示序号为j的问题的权重,而qj表示序号为j的问题的风险度。
第一风险阈值例如可以确定为50%。
根据本实施例的方法,通过设定相关信息的阈值d以及第一风险阈值m使得在检测到真正具有风险的前提下才向预定的联系人或联系人组输出监测结果,可以避免过多的监测消息干扰到用户,而使监测消息失去了警告的价值。
参阅图10,其为第七实施例提供的互联网监测方法的流程图。本实施例的方法与图7所示的方法相似,其不同之处在于,还包括步骤S109:若所述相关文档的数量大于预设的阈值d,根据所述统计结果以及预定义的第二规则计算第二风险系数;若所述第二风险系数大于或等于预定义的第二风险阈值n才进行所述输出统计结果的步骤。
上述的第二规则是指第二风险系数的计算公式。一般来说,可以主要考虑数量以及比例。不同于第一风险系数的地方在于,第二风险系数的计算需要考虑产品的热度问题是否超过阈值,需要在计算公式中引入热度变化的涨幅。例如,在一个具体的实例中,第二风险系数可根据以下公式计算:
Σ j = k - i k ( t j * q j ) / Σ i = 1 k ( t i * q i ) * ( p h / p h - 1 )
其中,p表示产品热度(例如可以采用有效评论量来表达),h为当次计算的时间段,h-1表示上一个时间段,因此ph/ph-1表示产品热度的涨幅。
当产品热度涨幅ph/ph-1大于1的时候,由于产品热度上升,放大了风险系数,当本次热度有所回落,但是回落不够多的情况下仍然在有风险的范围内,直到跌幅明显,因此,第二风险阈值可以确定为低于第一风险阈值的数值。在一个具体的实例中,第二风险阈值例如可以确定为30%。
根据本实施例的方法,通过设定相关信息的阈值d以及第二风险阈值n使得在检测到真正具有风险的前提下才向预定的联系人或联系人组输出监测结果,可以避免过多的监测消息干扰到用户,而使监测消息失去了警告的价值。
参阅图11,其为第八实施例提供的互联网监测方法的流程图。本实施例的方法与图10所示的方法相似,其不同之处在于,还包括以下步骤:
步骤S110:若所述第二风险系数小于预定义的第二风险阈值m则获取热点词汇。
上述的热点词汇是指各机构或者网站发布的根据用户的点击、搜索、讨论内容统计的当前热点流行词汇,这些热点词汇反应了当前最流行的事件与话题。步骤S110中,可以从这些机构或者网站的相关网页中抓取发布的热点词汇。
步骤S111:将所述热点词汇与所述相关信息进行匹配检索以获取所述监测目标与所述热点词汇之间的相关性。
步骤S112:当所述相关性超过预定义的第三风险阈值时将所述相关性发送给预定义的第二联系人或联系人组。
步骤S111的目的在于判断相关信息是否与当前的热点词汇之间存在相关性,如果监测目标与当前的热点话题或者事件相互关联,则监测目标的相关信息的数量在将来可能呈现出爆发性的增长,因此,当检测到监测目标与热点词汇之间的相关性超过预定值时,需要将其视为重点风险发送给相关人员。
根据本实施例的方法,除了对监测目标的相关信息进行标签反向检索,还判断其与当前热点事件、话题的相关性,可以提前预防与监测目标的相关信息呈现爆发式增长。
参阅图12,其为第九实施例提供的互联网监测方法的流程图。本实施例的方法与图3所示的方法相似,其不同之处在于,还包括以下步骤:步骤S113,将描述模型内每个标签的统计结果发送给第三联系人或者联系人组。
例如,在当前的统计周期内,计算每个标签命中的相关信息的数量,因此,在完成计算后,相当于给图4所示的描述模型中的每个标签添加了一个匹配数量,这些数量的分布反应出监测目标的问题的分布,可以将其提供给相关的人员,例如产品开发人员参考。
根据本实施例的方法,根据相关信息的匹配检索结果,而得到了监测目标的问题分布图。
参阅图13,其为第十实施例提供的互联网监测方法的流程图。本实施例的方法包括以下步骤:
步骤S101,根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息。在步骤S101之后,还可以进行去除重复数据以及无效数据的步骤,然后根据建立的描述模型的标签者反向检索。
在完成标签的匹配检索后根据检索结果进行统计,即执行步骤S104。在完成统计之后可执行步骤S113,将描述模型内每个标签的统计结果发送给第三联系人或者联系人组。另一方面,还可判断在当前的统计时间段内相关信息的数量是否大于或等d;若是,则执行步骤S108;否则执行步骤S109。
在步骤S108与步骤S109中分别根据不同的规则计算第一风险系数与第二风险系数。在步骤S108后,若第一风险系数小于第一风险阈值m则流程结束;若第一风险系数大于或等第一风险阈值m则执行步骤S107。在步骤S109后,若第二风险系数大于或等第二风险阈值n则执行步骤S108;否则执行步骤S111,进行相关信息与当前热点词汇之间的相关性。
在步骤S111后,若相关信息与当前热点词汇之间的相关性大于预定阈值则输出结果至第二联系人或联系人组。
根据本实施例的方法,通过描述模型的标签进行关键字检索可以迅速的将相关信息所描述的问题进行定位,而根据统计结果的不同,可以分别将统计结果输出给相对应的用户,提升了互联网监测的检索效率,减少了用户了解当前互联网对于监测目标最新评价情况的时间。
参阅图14,其为第十一实施例提供的互联网监测装置的模块框图。本实施例的装置包括:信息抓取模块21、模型建立模块22、检索模块23、以及统计模块24。
信息抓取模块21用于根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息。
模型建立模块22用于建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签。
检索模块23用于将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果。
统计模块24用于统计所述标签与所述信息之间的关联关系。
根据本实施例的装置,通过监测目标的描述模型的树型结构,采用节点的标签对相关信息进行反向检索,可以迅速的对相关信息把描述的问题进行定位,无须对相关信息进行效率较低的语义分析,提升了互联网监测的检索效率。
参阅图15,其为第十二实施例提供的互联网监测装置的模块图。本实施例的装置与图14的装置相似,其不同之处在于,还包括输出模块25,用于:
获取所述监测目标的监测结果输出规则,所述监测结果输出规则包括至少一个分类,每个分类对应所述描述模型的中的至少一个标签;
根据每个分类所包括的标签对标签的匹配检索结果进行聚类;以及
将每个分类的标签匹配检索统计结果发送给预定义的第一联系人或联系人组。
根据本实施例的技术方案,可以根据监测结果的输出规则对标签的检索结果进行聚类处理,进而生成预定格式的统计结果发送给相关的联系人或者联系人组,方便用户查阅监测结果。
参阅图16,其为第十三实施例提供的互联网监测装置的模块图。本实施例的装置与图15的装置相似,其不同之处在于,还包括第一风险系数计算模块26,用于若所述相关信息的数量小于预设的阈值,则根据所述统计结果以及预定义的第一规则计算第一风险系数;若所述第一风险系数大于或等于预定义的第一风险阈值m才进行所述输出统计结果的步骤。
根据本实施例的技术方案,通过设定相关信息的阈值d以及第一风险阈值m使得在检测到真正具有风险的前提下才向预定的联系人或联系人组输出监测结果,可以避免过多的监测消息干扰到用户,而使监测消息失去了警告的价值。
参阅图17,其为第十四实施例提供的互联网监测装置的模块图。本实施例的装置与图15的装置相似,其不同之处在于,还包括第二风险系数计算模块27,用于若所述相关文档的数量大于预设的阈值,则根据所述统计结果以及预定义的第二规则计算第二风险系数;若所述第二风险系数大于或等于预定义的第二风险阈值m才进行所述输出统计结果的步骤。
根据本实施例的技术方案,通过设定相关信息的阈值d以及第二风险阈值n使得在检测到真正具有风险的前提下才向预定的联系人或联系人组输出监测结果,可以避免过多的监测消息干扰到用户,而使监测消息失去了警告的价值。
参阅图18,其为第十五实施例提供的互联网监测装置的模块图。本实施例的装置与图17的装置相似,其不同之处在于,还包括相关性处理模块28,用于:
若所述第二风险系数小于预定义的第二风险阈值m则获取热点词汇;
将所述热点词汇与所述相关信息进行匹配检索以获取所述监测目标与所述热点词汇之间的相关性;以及
当所述相关性超过预定义的第三风险阈值时将所述相关性发送给预定义的第二联系人或联系人组。
根据本实施例的技术方案,除了对监测目标的相关信息进行标签反向检索,还判断其与当前热点事件、话题的相关性,可以提前预防与监测目标的相关信息呈现爆发式增长。
参阅图19,其为第十六实施例提供的互联网监测装置的模块图。本实施例的装置与图14的装置相似,其不同之处在于还包括:优先级设定模块29,用于给描述模型的标签设定优先级;所述监测结果输出规则中每个标签的优先级超过预定值。
根据本实施例的方法,通过给标签设置优先级,可以实现对相关信息的多层次过滤,减少非相关问题对监测过程的干扰。
参阅图20,其为第十七实施例提供的互联网监测装置的模块图。本实施例的装置与图19的装置相似,其不同之处在于,还包括标记设定模块30,用于描述模型的标签设定情感倾向性标记;输出统计结果时根据所述用于标识情感倾向性的标记进行分类处理。
根据本实施例的方法,通过情感倾向性标记,可以迅速的通过标签的匹配检索直接判断该信息对于监测目标的情感倾向,而无须再通过进行文本识别、语义分析的方式获取信息对于监测目标的情感倾向,从而可以提升互联监测时的检索效率。
参阅图21,其为第十八实施例提供的互联网监测装置的模块图。本实施例的装置与图14的装置相似,其不同之处在于,还包括:模型定位模块31,用于将描述模型内每个标签的统计结果发送给第三联系人或者联系人组。
根据本实施例的技术这群,根据相关信息的匹配检索结果,而得到了监测目标的问题分布图。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (17)

1.一种互联网监测方法,其特征在于,包括:
根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息;
建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;
将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及
统计所述标签与所述信息之间的关联关系。
2.如权利要求1所述的方法,其特征在于,还包括输出统计结果的步骤,所述输出统计结果的步骤包括:
获取所述监测目标的监测结果输出规则,所述监测结果输出规则包括至少一个分类,每个分类对应所述描述模型的中的至少一个标签;
根据每个分类所包括的标签对标签的匹配检索结果进行聚类;以及
将每个分类的标签匹配检索统计结果发送给预定义的第一联系人或联系人组。
3.如权利要求2所述的方法,其特征在于,还包括:若所述相关信息的数量小于预设的阈值,则根据所述统计结果以及预定义的第一规则计算第一风险系数;
若所述第一风险系数大于或等于预定义的第一风险阈值m才进行所述输出统计结果的步骤。
4.如权利要求2所述的方法,其特征在于,还包括:若所述相关文档的数量大于预设的阈值,则根据所述统计结果以及预定义的第二规则计算第二风险系数;
若所述第二风险系数大于或等于预定义的第二风险阈值m才进行所述输出统计结果的步骤。
5.如权利要求4所述的方法,其特征在于,还包括:若所述第二风险系数小于预定义的第二风险阈值m则获取热点词汇;
将所述热点词汇与所述相关信息进行匹配检索以获取所述监测目标与所述热点词汇之间的相关性;以及
当所述相关性超过预定义的第三风险阈值时将所述相关性发送给预定义的第二联系人或联系人组。
6.如权利要求2所述的方法,其特征在于,给描述模型的标签设定优先级;
所述监测结果输出规则中每个标签的优先级超过预定值。
7.如权利要求2所述的方法,其特征在于,还包括:描述模型的标签设定情感倾向性标记;
输出统计结果时根据所述用于标识情感倾向性的标记进行分类处理。
8.如权利要求1所述的方法,其特征在于,还将描述模型内每个标签的统计结果发送给第三联系人或者联系人组。
9.一种互联网监测装置,其特征在于,包括:
信息抓取模块,用于根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息;
模型建立模块,用于建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;
检索模块,用于将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及
统计模块,用于统计所述标签与所述信息之间的关联关系。
10.如权利要求9所述的装置,其特征在于,还包括输出模块,用于:
获取所述监测目标的监测结果输出规则,所述监测结果输出规则包括至少一个分类,每个分类对应所述描述模型的中的至少一个标签;
根据每个分类所包括的标签对标签的匹配检索结果进行聚类;以及
将每个分类的标签匹配检索统计结果发送给预定义的第一联系人或联系人组。
11.如权利要求10所述的装置,其特征在于,还包括:第一风险系数计算模块,用于若所述相关信息的数量小于预设的阈值,则根据所述统计结果以及预定义的第一规则计算第一风险系数;
若所述第一风险系数大于或等于预定义的第一风险阈值m才进行所述输出统计结果的步骤。
12.如权利要求10所述的装置,其特征在于,还包括:第二风险系数计算模块,用于若所述相关文档的数量大于预设的阈值,则根据所述统计结果以及预定义的第二规则计算第二风险系数;
若所述第二风险系数大于或等于预定义的第二风险阈值m才进行所述输出统计结果的步骤。
13.如权利要求12所述的装置,其特征在于,还包括:相关性处理模块,用于:
若所述第二风险系数小于预定义的第二风险阈值m则获取热点词汇;
将所述热点词汇与所述相关信息进行匹配检索以获取所述监测目标与所述热点词汇之间的相关性;以及
当所述相关性超过预定义的第三风险阈值时将所述相关性发送给预定义的第二联系人或联系人组。
14.如权利要求10所述的装置,其特征在于,优先级设定模块,用于给描述模型的标签设定优先级;
所述监测结果输出规则中每个标签的优先级超过预定值。
15.如权利要求10所述的装置,其特征在于,还包括:标记设定模块,用于给描述模型的标签设定表征情感倾向性的标记;
输出统计结果时根据所述用于表征情感倾向性的标记进行分类处理。
16.如权利要求9所述的装置,其特征在于,还包括:模型定位模块,用于将描述模型内每个标签的统计结果发送给第三联系人或者联系人组。
17.一种互联网监测系数,其特征在于,包括:
信息抓取服务器、数据库及监测服务器;
所述信息抓取服务器用于:根据监测目标的关键字从互联网中检索网络用户发布的与所述监测目标的相关的信息,及将所述相关的信息存储在所述数据库内;
所述监测服务器用于:建立所述监测目标的描述模型,所述多级描述模型具有多级树型结构,且所述树型结构的每个节点具有相对应的至少一个标签;
将所述描述模型中的至少一个标签与所述监测目标的相关信息进行匹配检索,若两者相互匹配则存储所述至少一个标签与所述相关信息的匹配检索结果;以及
统计所述标签与所述信息之间的关联关系。
CN201410377901.2A 2014-08-01 2014-08-01 互联网监测方法、装置及系统 Active CN105302844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410377901.2A CN105302844B (zh) 2014-08-01 2014-08-01 互联网监测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410377901.2A CN105302844B (zh) 2014-08-01 2014-08-01 互联网监测方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105302844A true CN105302844A (zh) 2016-02-03
CN105302844B CN105302844B (zh) 2019-07-16

Family

ID=55200118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410377901.2A Active CN105302844B (zh) 2014-08-01 2014-08-01 互联网监测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105302844B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239452A (zh) * 2016-03-28 2017-10-10 腾讯科技(深圳)有限公司 一种策略调整的方法及装置
CN107292750A (zh) * 2016-04-01 2017-10-24 株式会社理光 社交网络的信息收集方法及信息收集装置
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN103488635A (zh) * 2012-06-11 2014-01-01 腾讯科技(深圳)有限公司 一种获取产品信息的方法及装置
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103186600A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网舆情的专题分析方法和装置
CN103488635A (zh) * 2012-06-11 2014-01-01 腾讯科技(深圳)有限公司 一种获取产品信息的方法及装置
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239452A (zh) * 2016-03-28 2017-10-10 腾讯科技(深圳)有限公司 一种策略调整的方法及装置
CN107292750A (zh) * 2016-04-01 2017-10-24 株式会社理光 社交网络的信息收集方法及信息收集装置
CN107292750B (zh) * 2016-04-01 2020-08-18 株式会社理光 社交网络的信息收集方法及信息收集装置
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Also Published As

Publication number Publication date
CN105302844B (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN111538931B (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
Adewole et al. SMSAD: a framework for spam message and spam account detection
CN108366045B (zh) 一种风控评分卡的设置方法和装置
Jr et al. Detection of human, legitimate bot, and malicious bot in online social networks based on wavelets
CN103853841A (zh) 一种社交网用户异常行为的分析方法
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN110020002A (zh) 事件处理方案的查询方法、装置、设备和计算机存储介质
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN108829715A (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN109034912B (zh) 一种具有受众筛选的电子商务运营的信息推送系统
CN113412607B (zh) 内容推送方法、装置、移动终端及存储介质
CN104462096B (zh) 舆情监测分析方法和装置
CN102315952A (zh) 一种用于社区网络中检测垃圾帖子的方法与设备
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN110457558A (zh) 网络水军的识别方法及装置、存储介质和处理器
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
CN105302844A (zh) 互联网监测方法、装置及系统
Zhang et al. NEIGHBORWATCHER: A Content-Agnostic Comment Spam Inference System.
US20240241752A1 (en) Risk profiling and rating of extended relationships using ontological databases
Dey et al. Literature survey on interplay of topics, information diffusion and connections on social networks
CN100555283C (zh) 一种直接针对用户的相关信息的发布方法和系统
CN112182390B (zh) 一种函件推送方法、装置、计算机设备及存储介质
CN112231700B (zh) 行为识别方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190805

Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.