CN108804501B

CN108804501B - 一种检测有效信息的方法及装置

Info

Publication number: CN108804501B
Application number: CN201810306512.9A
Authority: CN
Inventors: 林浩威; 刘水生; 马传雷; 胡珀
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2020-12-11
Anticipated expiration: 2038-04-08
Also published as: CN108804501A

Abstract

本发明实施例提供了一种检测有效信息的方法及装置，涉及互联网技术领域。该方法包括：通过从情报源获取情报消息，并根据分类模型确定情报消息的类型，然后根据情报消息的类型确定情报消息对应的关键词库，之后再将情报消息与关键词库中的关键词进行匹配，并根据情报消息与关键词库中的关键词的匹配程度确定情报消息是否为有效信息。本发明实施例中，通过分类模型对情报消息进行分类确定情报消息的类型，进一步将情报消息与其所属类型对应的关键词库中的关键词进行匹配，确定情报消息是否为有效信息，既提高了检测有效信息的准确性，也提高了检测有效信息的效率。

Description

一种检测有效信息的方法及装置

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种检测有效信息的方法及装置。

背景技术

随着互联网技术的发展，网络已经融入了人们生活的方方面面，同时，网络也成为了不良消息的传播渠道之一。对于企业来说，网络上的不良消息不但影响企业形象，同时影响企业效益。现有技术中，通过从网络中获取原始数据，从原始数据中筛选出企业相关的消息，再通过人工判决企业相关的消息中是否包含对企业造成不良影响的消息，然而，该方法过于依赖人工，导致效率和准确性低。

发明内容

本发明实施例提供了一种检测有效信息的方法及装置。

一方面，本发明实施例提供了一种检测有效信息的方法，该方法包括：从情报源获取情报消息；然后根据分类模型确定所述情报消息的类型；接着根据所述情报消息的类型确定所述情报消息对应的关键词库；将所述情报消息与所述关键词库中的关键词进行匹配；根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息。对于不同类型的情报消息，虽然包含相同的关键词，但是情报消息所代表的意义可能并不一样，故本发明实施例通过分类模型将情报消息进行分类后再与该类型对应的关键词库中的关键词进行匹配，能有效提高检测有效信息的准确率。

在一个可能的设计中，所述关键词库包括对象关键词和事件关键词；所述根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息，包括：判断所述情报消息中是否包含所述关键词库中的对象关键词和事件关键词；若是，则将所述情报消息确定为有效信息；否则，将所述情报消息确定为无效情报。由于根据用户需求在关键词库中设置对象关键词和事件关键词，将情报消息与关键词库中的对象关键词和事件关键词进行匹配后，故能确定出情报消息是否包含企业关注的对象和事件，进而确定情报消息是否为有效信息，从而提高检测有效信息的准确性。相较于通过人工判决确定有效信息的方法，本发明实施例中通过关键词匹配的方法提高了检测有效信息的效率。

在一个可能的设计中，所述关键词库包括对象关键词、事件关键词以及辅助关键词；所述根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息，具体可以是：判断所述情报消息中是否包含所述关键词库中的对象关键词和事件关键词；若是，则根据所述对象关键词的权值、所述事件关键词的权值和所述关键词库中所述情报消息对应的辅助关键词的权值确定所述情报消息的有效系数；根据所述情报消息的有效系数确定所述情报消息是否为有效信息；否则，将所述情报消息确定为无效情报。由于根据用户需求在关键词库中设置对象关键词和事件关键词，同时添加用于表示事件发生程度和可能性的辅助关键词，故在确定情报消息中包含对象关键词和事件关键词时，进一步结合对象关键词的权值、事件关键词的权值以及辅助关键词的权值判断情报消息是否为有效信息，从而进一步提高了检测有效信息的准确性。

在一个可能的设计中，所述根据所述情报消息的有效系数确定所述情报消息是否为有效信息，具体可以是：判断所述情报消息的有效系数是否大于预设阈值；若是，则将所述情报消息确定为有效信息，并根据所述情报消息的有效系数确定所述情报消息的情报等级；否则，将所述情报消息确定为无效情报。

在一个可能的设计中，可以对获取的情报消息分词后进行词频统计；通过词频统计确定高频词汇；根据所述高频词汇更新所述关键词库。通过对情报消息中的词语进行统计，实现对新词汇和热点词汇的感知。根据感知的新词汇和热点词汇更新关键词库，以使关键词库中的关键词能更全面，从而提高检测有效信息的准确性。

另一方面，本发明实施例提供了一种检测有效信息的装置，该装置包括获取模块、分类模块、关联模块、匹配模块以及处理模块。

获取模块用于从情报源获取情报消息。

分类模块用于根据分类模型确定所述情报消息的类型。

关联模块用于根据所述情报消息的类型确定所述情报消息对应的关键词库。

匹配模块用于将所述情报消息与所述关键词库中的关键词进行匹配。

处理模块用于根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息。

在一个可能的设计中，所述关键词库包括对象关键词和事件关键词。所述处理模块具体用于：

判断所述情报消息中是否包含所述关键词库中的对象关键词和事件关键词；

若是，则将所述情报消息确定为有效信息；

否则，将所述情报消息确定为无效情报。

在一个可能的设计中，所述关键词库包括对象关键词、事件关键词以及辅助关键词。

所述处理模块具体用于判断所述情报消息中是否包含所述关键词库中的对象关键词和事件关键词。

若是，则根据所述对象关键词的权值、所述事件关键词的权值和所述关键词库中所述情报消息对应的辅助关键词的权值确定所述情报消息的有效系数，根据所述情报消息的有效系数确定所述情报消息是否为有效信息。

否则，将所述情报消息确定为无效情报。

在一个可能的设计中，所述处理模块具体用于：

判断所述情报消息的有效系数是否大于预设阈值；

若是，则将所述情报消息确定为有效信息，并根据所述情报消息的有效系数确定所述情报消息的情报等级；

否则，将所述情报消息确定为无效情报。

在一个可能的设计中，该装置还包括更新模块。所述更新模块具体用于：

对获取的情报消息分词后进行词频统计；

通过词频统计确定高频词汇；

根据所述高频词汇更新所述关键词库。

另一方面，本发明实施例提供了一种终端设备，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述方面所述方法的步骤。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行上述方面所述方法的步骤。

本发明实施例提供的方案，通过从情报源获取情报消息，并根据分类模型确定情报消息的类型，然后根据报消息的类型确定情报消息对应的关键词库，之后再将情报消息与关键词库中的关键词进行匹配，并根据情报消息与关键词库中的关键词的匹配程度确定情报消息是否为有效信息。通过将情报消息进行分类后与所属类型对应的关键词库中的关键词进行匹配，确定情报消息是否为有效信息，既提高了检测有效信息的准确性，也提高了检测有效信息的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种系统架构图；

图1b为本发明实施例提供的一种服务器的结构示意图；

图2为本发明实施例提供的一种检测有效信息的方法的流程示意图；

图3为本发明实施例提供的一种添加情报源的方法的流程示意图；

图4为本发明实施例提供的一种抓取情报消息的方法的流程示意图；

图5为本发明实施例提供的一种抓取情报消息的方法的流程示意图；

图6为本发明实施例提供的一种分类模型训练方法的流程示意图；

图7为本发明实施例提供的一种检测有效信息的方法的流程示意图；

图8为本发明实施例提供的一种关键词库更新方法的流程示意图；

图9为本发明实施例提供的一种检测有效信息的装置的结构示意图；

图10为本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。为了方便理解，下面对本发明实施例中涉及的名词进行解释。

情报源：个人或企业在网络上发布消息的工具，比如网站、通讯软件等。

有效信息：把一则消息定义为“什么对象，发生了什么事情”，则有效信息就是指：我们关注的对象，发生了我们要关注的事件。

营销获利人群：专门选择互联网公司的营销、推广活动，以低成本甚至零成本换取高额奖励的人。

营销消息：营销获利人群从各大网贷平台、电子商城、银行、实体店等各渠道搜集的优惠促销活动、免费业务之类的消息。

营销群：营销获利人群发布营销消息的社交群，比如QQ群、微信群等等。

对象关键词：关键词库中表示关注的对象的关键词，对象可以是企业名称，比如腾讯、百度等，也可以是产品名称，比如微信、百度地图等。

事件关键词：关键词库中表示关注的事件的关键词。事件可以是病毒、漏洞、信息泄露、破解、BUG等。

辅助关键词：关键词库中用于表示事件发生的程度以及可能性的关键词，表示事件发生的程度的关键词可以是：较大、较小、重大、高危等。表示事件发生的程度的关键词可以是：肯定、可能、没有、不可能等。

图1a示例性示出了本发明实施例适用的一种系统架构示意图，如图1a所示，本发明实施例适用的系统架构包括至少一个终端110、服务器120和至少一个情报源设备130。

终端110是具有网页浏览的能力和APP安装能力的电子设备，该电子设备是智能手机、平板电脑或便携式个人计算机等等。

服务器120为检测有效信息的装置，通过将获取的情报消息与预设关键词库中的关键词进行匹配，从而判定情报消息是否为有效信息，之后再将有效信息推送至对应的终端110。终端110与服务器120之间通过有线或无线网络相连。服务器120是一台服务器、若干台服务器组成的服务器集群或云计算中心。

情报源设备130为检测有效信息的装置提供情报消息，可以是网站对应的服务器、APP对应的服务器等。服务器120与情报源设备130之间通过无线网络相连。

进一步地，在图1a所示的系统架构图中，服务器120的结构示意图如图 1b所示，该服务器120包括：数据抓取模块1201、数据解析模块1202、情报识别模块1203、宏观感知模块1204以及推送模块1205。用户通过终端110在网站上注册登录后，选择或输入自己关注的情报信息，其中情报信息至少包括情报消息的类型、关注的对象以及关注的事件，用户注册登录的网站为服务器 120提供的情报网站。之后终端110将用户选择或输入的情报信息发送至服务器120。服务器120在接收终端110发送的情报信息后，根据情报信息中用户关注的情报消息的类型确定对应的关键词库，然后根据情报信息中用户关注的对象和关注的事件更新关键词库，同时将关键词库中该用户对应的关键词与该用户进行关联标记。服务器120预先从情报源设备130获取情报消息作为训练样本训练得到情报消息的分类模型，同时针对不同类型的情报消息设置关键词库。服务器120在检测有效信息时，数据抓取模块1201从情报设备130对应的情报源中抓取情报消息，数据解析模块1202对抓取的情报消息进行解析后将情报消息保存至数据库。情报识别模块1203采用预先训练得到的分类模型确定数据库中情报消息的类型，将情报消息与所属类型对应的关键词库中的关键词进行匹配，根据匹配程度确定该情报消息是否为有效信息。情报识别模块 1203将有效信息发送至推送模块1205。推送模块1205确定关键词库中与该有效信息匹配的关键词，根据该关键词与用户的关联标记确定关注该有效信息的用户，然后将该有效信息推送至该用户对应的终端110，推送的频率和工具可以根据实际情况进行设置，比如微信推送、邮件推送、分级推送等。宏观感知模块1204对数据库中的情报消息分词后进行词频统计，通过词频统计确定高频词汇，然后根据高频词汇更新关键词库。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network， LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network， WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。

本发明各个实施例中，以检测有效信息的方法用于图1所示的服务器120 为例进行示意性说明。

请参考图2，其示出了本发明实施例提供的检测有效信息的方法的流程图，本实施例以该检测有效信息的方法用于图1所示系统架构为例进行说明，该方法包括：

步骤S201，从情报源获取情报消息。

具体地，情报源为个人或企业在网络上发布消息的工具，包括网页和APP 两种类型，网页类型的情报源可以是资讯网站、网页版微博、网页版论坛、网页版通讯软件等。APP类型的情报源可以是APP版微博、APP版论坛以及APP 版通讯软件等。情报消息可以是个人和企业发布在网页上的消息或者通讯软件中聊天记录等。

检测有效信息的装置中可以预先保存多个常用的情报源的基本信息，其中网页类型的情报源的基本信息包括：情报源名称、链接、简介、对应的解析器等。APP类型的情报源的基本信息包括：情报源名称、账号(群账号或个人账号)、简介、对应的破解算法等。后续情报网站的管理员或者普通用户可以新增情报源。以普通用户添加网页类型的情报源和APP类型的情报源为例进行说明。

普通用户添加网页类型的情报源的过程如图3所示，包括以下步骤：

步骤S301，普通用户在情报网站上填写需要添加的情报源的基本信息并提交至情报网站后台。

比如，普通用户填写的情报源的基本信息如表1所示：

表1

步骤S302，情报网站后台通过消息邮件通知管理员。

步骤S303，管理员对情报源的基本信息中的链接进行合法性审核并对链接合法的情报源进行可用性测试。

管理员获取表1中情报源的基本信息后，对表1中链接的合法性进行审核，若链接不合法，则向用户反馈“添加情报源失败”，否则向用户反馈“添加情报源成功”。进一步地，测试是否能从表1所示的情报源中抓取内容以及是否能通过表1中的解析器解析出从该情报源中抓取的内容，若能，则启用该情报源，否则新增解析器并重新进行可用性测试。

步骤S304，情报网站后台将可用的情报源发送至检测有效信息的装置。

步骤S305，检测有效信息的装置从情报源中检测出有效信息后推送至普通用户。

普通用户添加APP类型的情报源的过程：用户在情报网站上填写需要添加的情报源的基本信息，设定用户填写的情报源的基本信息如表2所示：

表2

情报源名称	群账号	简介	破解算法
				QQ	123456789	营销群	Cain&Abel

然后情报网站将表2的提交至检测有效信息的装置，情报网站同时通过消息邮件通知管理员。管理员获取表2中情报源的基本信息后，对表2中群账号的合法性以及真实性进行审核，若群账号不合法，则向用户反馈“添加情报源失败”。若链接合法，则使用模拟器启动QQ客户端，采用预先注册的QQ账号或新注册的QQ账号测试是否能添加表1中的营销群，若能，则向用户反馈“添加情报源成功”。

针对不同类型的情报源，从情报源中获取情报消息的方法也不相同。

在一种可能的实施方式中，当情报源为类型为网页时，比如咨询网站，采用网络爬虫抓取情报源的内容，如图4所示。具体包括以下步骤为：

步骤S401，网页数据抓取模块判断当前抓取内容的情报源是否为境外情报网站，若是，则执行步骤S402，否则执行步骤S403。

步骤S402，启动翻墙代理。

需要说明的是，本发明实施例中启动翻墙代理是为了提高访问境外合法情报网站的速度，而不是为了访问非法网站。

步骤S403，判断情报源是否需要登录，若是，则执行步骤S404，否则执行步骤S405。

步骤S404，带上请求header访问情报源。

步骤S405，直接访问情报源。

步骤S406，从情报源中抓取情报消息。

具体地，将待抓取的情报源的统一资源定位符(Uniform Resource Locator，简称URL)放入待抓取URL队列。从待抓取URL队列中依次取出待抓取的 URL，通过域名系统(Domain Name System，简称DNS)对待抓取的URL进行解析确定该URL对应的情报源设备的IP地址，然后从情报源设备中将该 URL对应的网页下载下来，存储进已下载网页库中，同时将该URL放进已抓取URL队列。可选地，网页数据抓取模块根据定时器记录的时间定期抓取情报源的情报消息，抓取情报消息的时间间隔根据实际情况进行设定。另外监控器实时监控网页数据抓取模块抓取情报消息的状态，在状态出现异常时，可触发告警等。

步骤S407，网页数据解析模块采用解析器对抓取的情报消息进行解析。

通过网络爬虫从网页上抓取的情报消息通常为html网页，需要进一步采用解析器对html网页进行解析。预先建立解析器库，在需要对抓取的情报消息进行解析时，从解析器库中获取解析器，解析器包括但不限于python、BeautifulSoup。下面以python解析器为例对网页解析过程进行说明，首先获取从情报源中抓取的html网页，从html网页中解析出该网页对应的文档对象模型(Document Object Model，简称DOM)树，然后利用DOM树中上下结构的标签形式，对DOM树的上下级的标签进行遍历并提取DOM树中的文本信息，提取的文本信息包括标题、内容、链接、来源、时间等。网页数据解析模块解析情报消息后，将解析后的情报消息保存至数据库。

在一种可能的实施方式中，当情报源的类型为APP时，比如QQ，采用模拟器批量挂机的方式获取情报源的情报消息，如图5所示，具体包括以下步骤为：

步骤S501，APP数据抓取模块开启模拟器。

模拟器可以是安卓模拟器、IOS模拟器等。

步骤S502，APP数据抓取模块采用模拟器批量登录APP。

具体地，预先注册多个APP的登录账号并将账号保存在账号库中，在模拟器上安装各情报源对应的APP，然后获取账号库中的APP账号批量登录情报源并添加情报群及参与群聊天。

步骤S503，APP数据抓取模块破解模拟器的本地数据库并读取情报消息。

步骤S504，APP数据破解模块采用破解算法对读取的情报消息进行破解。

具体地，预先建立破解算法库，在需要对读取的情报消息进行破解时，从破解算法库中获取破解算法，破解后的情报消息包括：发送人昵称、账号、群昵称、群账号、消息内容、时间等。APP数据破解模块破解情报消息后，将破解的情报消息保存至数据库。可选地，APP数据抓取模块根据定时器记录的时间定期抓取情报源的情报消息，抓取情报消息的时间间隔根据实际情况进行设定。另外监控器实时监控APP数据抓取模块抓取情报消息的状态，在状态出现异常时，可触发告警等。

可选地，从情报源中抓取内容并解析确定情报消息之后，在检测情报消息是否为有效信息之前，需要对情报消息进行预处理，因为从情报源中获取的原始的情报消息中存在的大量无价值或低价值的信息，会对后续有效信息的检测造成一定的干扰，比如表情、无意义符号、短链接、@信息等等。具体实施中，可以采用正则表达式对原始的情报消息进行过滤。

步骤S202，根据分类模型确定情报消息的类型。

可选地，分类模型可以通过以下方法建立，如图6所示，具体步骤为：

步骤S601，获取未分类的情报消息。

步骤S602，制定分类标准。

分类标准包括类型的数量以及各个类型的情报消息的特征。

步骤S603，人工根据分类标准对情报消息进行分类并对分类后的情报消息进行标记。

步骤S604，将标记后的情报消息分割为训练集和测试集。

步骤S605，选择机器学习算法。

步骤S606，采用机器学习算法对训练集进行训练确定分类模型。

步骤S607，采用测试集检验分类模型的准确性。

步骤S608，判断分类模型的准确性是否达标，若是，则执行步骤S609，否则执行步骤S605。

步骤S609，保存分类模型。

下面结合具体实施场景对上述分类模型建立方法进行说明。设定将情报消息分为“广告消息”、“营销消息”以及“漏洞消息”三个类型。从情报源获取 1000条情报消息，人工根据分类标准对获取的1000条情报消息进行分类。由于情报消息越多，利用情报消息训练得到的分类模型的准确性越高，然而，情报消息越多时，人工分类的成本也就越高，因此在训练分类模型时，需根据实际情况确定情报消息的数量。设定人工分类后400条情报消息为“广告消息”， 200条情报消息为“营销消息”，400条情报消息为“漏洞消息”。分别对分类后的情报消息进行标记，比如属于“广告消息”的情报消息标记为“广告消息”。然后将标记后的1000条情报消息随机分割为训练集和测试集，比如按照8:2 的比例将1000条情报消息随机分为训练集和测试集。接着采用机器学习算法对训练集中800条情报消息的标记进行学习，确定情报消息的分类模型。具体地，机器学习算法包括支持向量机(Support VectorMachine，简称SVM)、长短期记忆网络(Long Short-Term Memory，简称LSTM)等。在使用机器学习算法训练分类模型时，对应使用的训练工具包括sklearn、Tensorflow等。训练得到情报消息的分类模型后，采用分类模型对测试集中200条情报消息进行分类，然后将分类模型的分类结果与人工分类后的标记进行比较，确定分类模型的准确率。若准确率达标，则将训练获取的分类模型进行保存，否则选择另一种机器学习算法对训练集中的800条情报消息进行训练，直到训练得到的分类模型的准确率达标。

对于不同类型的情报消息，虽然包含相同的关键词，但是情报消息所代表的意义并不一样，比如，情报消息“微信曝远程任意代码执行漏洞”和情报消息“xx工具能快速发现并修补微信漏洞，如需要，请致电010-12345678”中均出现了“微信”以及“漏洞”这两个关键词，但是两者表达的意思并不相同。第一条情报消息为“漏洞消息”，表明微信出现了漏洞，需要将该情报消息发送至腾讯的相关部门，从而实现对微信漏洞的修补。第二条情报消息为“广告消息”，该广告目的在与出售微信漏洞的修补工具，针对该条情报消息，腾讯的相关部门需要判断该广告中所提到的工具是否对微信带来安全隐患，并进一步对该广告的发布者进行处理。由此可见，针对不同类型的情报消息，企业采用的应对方法并不相同。如果不对情报消息进行分类，直接将情报消息与关键词库中的关键词进行匹配，那么很有可能将上述两条情报消息都判定为“微信出现了漏洞”，影响有效信息检测的准确性。本发明实施例中的技术方案，将情报消息分类后再与对应的关键词库进行匹配，比如，针对情报消息“微信曝远程任意代码执行漏洞”和情报消息“xx工具能快速发现并修补微信漏洞，如需要，请致电010-12345678”，首先根据分类模型确定情报消息“微信曝远程任意代码执行漏洞”为漏洞消息，然后将该情报消息与漏洞消息对应的关键词库进行匹配，确定该情报消息是否为有效信息，若为有效信息，则推送至漏洞相关部门，以使漏洞相关部门对漏洞进行修补。根据分类模型确定情报消息“xx 工具能快速发现并修补微信漏洞，如需要，请致电010-12345678”为广告消息，然后将该情报消息与广告消息对应的关键词库进行匹配，确定该情报消息是否为有效信息，若为有效信息，则推送至广告相关部门，以使广告相关部门对该广告的内容进行核实并处理。通过将情报消息分类后再与对应的关键词库进行匹配，提高了检测有效信息的准确性。另外根据用户关注的情报消息的类型为用户推送对应的有效信息，提高了用户对突发事件的响应速度。

可选地，分类模型在投入使用后，管理员每隔一段时间管理员可以对分类模型的分类结果进行检查，一旦发现有分类错误的地方，即可进行人工调整。进一步地，也可以将人工调整的情报消息加入训练集中，重新训练模型，达到分类模型自动调优的功能。

步骤S203，根据情报消息的类型确定情报消息对应的关键词库。

针对不同类型的情报消息，预先设置对应的关键词库，关键词库中包含该类情报消息对应的关键词，关键词可以有管理员预先设置，后续接收到用户提交的情报信息后，根据用户提交的情报信息更新关键词库。比如某企业的产品 A需要做推广，推出注册领红包的活动，为了防止营销获利人群对推广活动带来的影响，在情报网站提交关注的情报信息，如表3所示：

表3

情报消息的类型	关注的对象	关注的事件
			营销消息	产品A	收益

检测有效信息的装置接收到表3中的情报信息后，判断“营销消息”对应的关键词库中是否包含关键词“产品A”和“收益”，若不包含，则将“产品 A”和“收益”添加至“营销消息”对应的关键词库，同时将“营销消息”对应的关键词库中“产品A”和“收益”与该企业进行关联标记，当检测到该企业产品A相关的营销消息时，及时推送至该企业。

步骤S204，将情报消息与关键词库中的关键词进行匹配。

步骤S205，根据情报消息与关键词库中的关键词的匹配程度确定情报消息是否为有效信息。

在一种可能的实施方式中，判断情报消息中是否包含关键词库中的至少一个关键词；若是，则将所述情报消息确定为有效信息；否则，将情报消息确定为无效情报。比如获取了情报消息“微信曝远程任意代码执行漏洞”和情报消息“xx网站出现漏洞”，通过分类模型确定上述两条情报消息均为“漏洞消息”。设定“漏洞消息”对应的关键词库中包含关键词“微信”和“漏洞”，将情报消息“微信曝远程任意代码执行漏洞”与“漏洞消息”对应的关键词库中的关键词进行匹配，得出情报消息“微信曝远程任意代码执行漏洞”为有效信息。将情报消息“xx网站出现漏洞”与“漏洞消息”对应的关键词库中的关键词进行匹配，得出情报消息确定“xx网站出现漏洞”为有效信息。

在一种可能的实施方式中，关键词库包括对象关键词和事件关键词。对象关键词用于表示用户关注的对象，可以是企业名称、产品名称等。事件关键词标识用户关注的事件，比如病毒、漏洞、信息泄露、破解、BUG等。判断情报消息中是否包含关键词库中的对象关键词和事件关键词；若是，则将所述情报消息确定为有效信息；否则，将所述情报消息确定为无效情报。比如获取情报消息“微信曝远程任意代码执行漏洞”和情报消息“xx网站出现漏洞”。通过分类模型确定上述两条情报消息均为“漏洞消息”。设定“漏洞消息”对应的关键词库中包含对象关键词“微信”以及事件关键词“漏洞”，将情报消息“微信曝远程任意代码执行漏洞”与“漏洞消息”对应的关键词库中的对象关键词和事件关键词进行匹配，得出情报消息“微信曝远程任意代码执行漏洞”为有效信息。将情报消息“xx网站出现漏洞”与“漏洞消息”对应的关键词库中的对象关键词和事件关键词进行匹配，得出情报消息“xx网站出现漏洞”为无效情报。由于根据用户需求在关键词库中设置对象关键词和事件关键词，将情报消息与关键词库中的对象关键词和事件关键词进行匹配后，故能确定出情报消息是否包含企业关注的对象和事件，进而确定情报消息是否为有效信息，从而提高检测有效信息的准确性。相较于通过人工判决确定有效信息的方法，本发明实施例中通过关键词匹配的方法提高了检测有效信息的效率。

在一种可能的实施方式中，关键词库包括对象关键词、事件关键词以及辅助关键词，其中辅助关键词用于表示事件发生的程度以及可能性，比如较大、较小、重大、高危、肯定、可能、没有、不可能等。预先设置关键词库中对象关键词的权值、事件关键词的权值以及辅助关键词的权值，其中对象关键词和事件关键词的权值均取正数。表示事件发生程度的关键词根据程度的高低设置不同的权值，比如辅助关键词“重大”的权值为8、辅助关键词“较大”的权值为6、辅助关键词“较小”的权值为4等。表示事件发生可能性的关键词根据可能性的高低设置不同的权值，其中表示不可能发生的事件的权值为负数，比如辅助关键词“肯定”的权值为8、辅助关键词“可能”的权值为4、辅助关键词“没有”的权值为-9等。根据情报消息与关键词库中的关键词的匹配程度确定情报消息是否为有效信息，具体包括以下步骤，如图7所示：

步骤S701，获取关键词库中的关键词以及对应的权值。

步骤S702，判断情报消息中是否包含关键词库中的对象关键词和事件关键词，若是，则执行步骤S703，否则执行步骤S708。

步骤S703，将对象关键词的权值和事件关键词的权值相加确定第一系数。

步骤S704，判断情报消息中是否包含关键词库中的辅助关键词，若是，则执行步骤S705，否则执行步骤S706。

步骤S705，将辅助关键词的权值和第一系数相加确定情报消息的有效系数。

步骤S706，将第一系数确定为情报消息的有效系数。

步骤S707，根据情报消息的有效系数确定情报消息是否为有效信息。

步骤S708，将情报消息确定为无效情报。

比如获取情报消息“产品A出现多个高危漏洞”、情报消息“网站B没有出现漏洞”以及情报消息“网站C出现漏洞”。通过分类模型确定上述三条情报消息均为“漏洞消息”。设定“漏洞消息”对应的关键词库中包含对象关键词“xx产品”和“xx网站”，“产品A”和“网站B”的权值均为4。“漏洞消息”对应的关键词库中包含事件关键词为“漏洞”，权值为4。“漏洞消息”对应的关键词库中包含辅助关键词“多个”、“高危”以及“没有”，其中，“多个”对应的权值为3、“高危”对应的权值为“5”、“没有”对应的权值为“-9”。

将情报消息“产品A出现多个高危漏洞”与“漏洞消息”对应的关键词库中的对象关键词和事件关键词进行匹配，得出情报消息“产品A出现多个高危漏洞”包含“漏洞消息”对应的关键词库中的对象关键词和事件关键词，则将情报消息“产品A出现多个高危漏洞”中包含的对象关键词“产品A”的权值、事件关键词“漏洞”的权值以及辅助关键词“多个”、“高危”的权值相加，得到该情报消息的有效系数为4+4+3+5＝16，然后根据有效系数确定该情报消息是否为有效信息。

将情报消息“网站B没有出现漏洞”与“漏洞消息”对应的关键词库中的对象关键词和事件关键词进行匹配，得出情报消息“网站B没有出现漏洞”包含“漏洞消息”对应的关键词库中的对象关键词和事件关键词，则将情报消息“网站B没有出现漏洞”中包含的对象关键词“网站B”的权值、事件关键词“漏洞”的权值以及辅助关键词“没有”的权值相加，得到该情报消息的有效系数为4+4-9＝-1，然后根据有效系数确定该情报消息是否为有效信息。

将情报消息“网站C出现漏洞”与“漏洞消息”对应的关键词库中的对象关键词和事件关键词进行匹配，得出情报消息“网站C出现漏洞”不包含“漏洞消息”对应的关键词库中的对象关键词，则将情报消息“网站C出现漏洞”确定为无效情报。由于根据用户需求在关键词库中设置对象关键词和事件关键词，同时添加用于表示事件发生程度和可能性的辅助关键词，故在确定情报消息中包含对象关键词和事件关键词时，进一步结合对象关键词的权值、事件关键词的权值以及辅助关键词的权值判断情报消息是否为有效信息，从而进一步提高了检测有效信息的准确性。

可选地，在确定情报消息的有效系数之后，判断情报消息的有效系数是否大于预设阈值，若是，则将情报消息确定为有效信息，并根据情报消息的有效系数确定情报消息的情报等级，否则，将情报消息确定为无效情报。预设阈值可以根据实际情况进行设置，比如设定预设阈值为0，情报消息“产品A出现多个高危漏洞”的有效系数为16，则将情报消息“产品A出现多个高危漏洞”确定为有效信息。情报消息“网站B没有出现漏洞”的有效系数为-1，则将情报消息“网站B没有出现漏洞”确定为无效情报。进一步地，根据有效信息“产品A出现多个高危漏洞”的有效系数可确定该情报消息的情报等级，比如将情报等级分为高、中、低三个等级，当有效信息的有效系数大于等于10时，对应的情报等级为高；当有效信息的有效系数大于等于5、小于10时，对应的情报等级为中；当有效信息的有效系数大于等于0、小于5时，对应的情报等级为低。由于有效信息“产品A出现多个高危漏洞”的有效系数为16，则该有效信息的情报等级为高。

可选地，检测到有效信息后，可以通过邮件、短信、即时通信软件等工具将有效信息推送至对应的用户。推送的频率可以是获取到有效信息后第一时间推送至对应的用户，也可以是定时推送，还可以是针对情报等级高的有效信息第一时间推送，针对情报等级低的有效信息定时推送。具体实施中，推送的工具以及推送的频率根据用户的选择进行设置，也可以由管理员根据经验预先进行设置。

图2所示的检测有效信息的方法，通过将情报消息与对应的关键词库中的关键词进行匹配后，确定情报消息是否为有效信息。但是，关键词库中的关键词是根据人工经验添加并更新的，一旦出现包含新词汇的情报消息，已有的关键词库将无法对此类情报消息进行感知。因此，为了实现对包含新词汇的情报消息进行感知，进一步提高检测有效信息的精度，需要对关键词库中的关键词实时更新，下面采用示意性的实施例进行说明。

请参考图8，其示出了本发明实施例提供的关键词库更新方法的流程图，本实施例以该关键词库更新方法用于图1所示系统架构为例进行说明，该方法包括：

步骤S801，对获取的情报消息分词后进行词频统计。

具体地，获取情报消息后，首先对情报消息进行预处理，去除无价值的数据。然后对情报消息进行分词，比如采用jieba分词工具对情报消息进行分词。分词后进一步去除情报消息中无价值的单词，比如停用词(啊、哎)、感叹词 (哎呀、唉)等。之后再将剩余的单词进行保存。当保存的单词达到一定数量时，对各单词进行词频统计。

步骤S802，通过词频统计确定高频词汇。

具体地，对各单词进行统计后，可以根据各单词的统计结果生成直观的统计图，比如热点图、曲线图。根据统计图可以直观的看出高频词汇，根据高频词汇可以看出当前的消息热点。

步骤S803，根据高频词汇更新关键词库。

如果统计确定的高频词汇已经存在于关键词库中，则可以忽略该高频词汇，如果统计确定的高频词汇并没有出现在关键词库中，则可以直接将高频词汇加入到关键词库中，也可以通过人工进一步判断高频词汇所代表的意义后，再确定是否将高频词汇加入到关键词库。由于当一个单词出现的频率激增时，可以认为该单词所代表的对象发生了某件事情，引发了热议。该单词可能是已有的词汇，也可能是新词汇，通过对情报消息中的词频波动进行监控后，更新关键词库，便于对包含新词汇的情报消息以及热点情报进行感知，进一步提高检测有效信息的精度。

基于相同的技术构思，本发明实施例提供了一种检测有效信息的装置，如图9所示，该检测有效信息的装置通过硬件或者软硬件的结合实现成为图1中服务器120的全部或者一部分。该装置900包括：获取模块910、分类模块920、关联模块930、匹配模块940、处理模块950和更新模块960。

获取模块910，用于从情报源获取情报消息；

分类模块920，用于根据分类模型确定所述情报消息的类型；

关联模块930，用于根据所述情报消息的类型确定所述情报消息对应的关键词库；

匹配模块940，用于将所述情报消息与所述关键词库中的关键词进行匹配；

处理模块950，用于根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息。

可选地，所述关键词库包括对象关键词和事件关键词；

所述处理模块950具体用于：

若是，则将所述情报消息确定为有效信息；

否则，将所述情报消息确定为无效情报。

可选地，所述关键词库包括对象关键词、事件关键词以及辅助关键词；

所述处理模块950具体用于：

判断所述情报消息中是否包含所述关键词库中的对象关键词和事件关键词；若是，则根据所述对象关键词的权值、所述事件关键词的权值和所述关键词库中所述情报消息对应的辅助关键词的权值确定所述情报消息的有效系数；根据所述情报消息的有效系数确定所述情报消息是否为有效信息；

否则，将所述情报消息确定为无效情报。

可选地，所述处理模块950具体用于：

判断所述情报消息的有效系数是否大于预设阈值；

否则，将所述情报消息确定为无效情报。

可选地，所述更新模块960具体用于：对获取的情报消息分词后进行词频统计；通过词频统计确定高频词汇；根据所述高频词汇更新所述关键词库。

本发明实施例提供了一种终端设备，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行检测有效信息的方法的步骤。如图10所示，为本发明实施例中所述的终端设备的硬件结构示意图，该终端设备具体可以为台式计算机、便携式计算机、智能手机、平板电脑等。具体地，该终端设备可以包括存储器1001、处理器1002及存储在存储器上的计算机程序，所述处理器1002执行所述程序时实现上述实施例中的任一检测有效信息的方法的步骤。其中，存储器1001可以包括只读存储器(ROM)和随机存取存储器 (RAM)，并向处理器1002提供存储器1001中存储的程序指令和数据。

进一步地，本申请实施例中所述的终端设备还可以包括输入装置1003以及输出装置1004等。输入装置1003可以包括键盘、鼠标、触摸屏等；输出装置1004可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)，触摸屏等。存储器1001，处理器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。处理器1002调用存储器1001存储的程序指令并按照获得的程序指令执行上述实施例提供的检测有效信息的方法。

本发明实施例还提供了一种计算机可读存储介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行检测有效信息的方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种检测有效信息的方法，其特征在于，包括：

从情报源获取情报消息，并采用正则表达式过滤所述情报消息中无效的信息；

根据分类模型确定所述情报消息的类型；

根据所述情报消息的类型确定所述情报消息对应的关键词库；

将所述情报消息与所述关键词库中的关键词进行匹配；

根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息。

2.如权利要求1所述的方法，其特征在于，所述关键词库包括对象关键词和事件关键词；

所述根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息，包括：

若是，则将所述情报消息确定为有效信息；

否则，将所述情报消息确定为无效情报。

3.如权利要求1所述的方法，其特征在于，所述关键词库包括对象关键词、事件关键词以及辅助关键词；

若是，则根据所述对象关键词的权值、所述事件关键词的权值和所述关键词库中所述情报消息对应的辅助关键词的权值确定所述情报消息的有效系数；根据所述情报消息的有效系数确定所述情报消息是否为有效信息；

否则，将所述情报消息确定为无效情报。

4.如权利要求3所述的方法，其特征在于，所述根据所述情报消息的有效系数确定所述情报消息是否为有效信息，包括：

判断所述情报消息的有效系数是否大于预设阈值；

否则，将所述情报消息确定为无效情报。

5.如权利要求1至4任一所述的方法，其特征在于，还包括：

对获取的情报消息分词后进行词频统计；

通过词频统计确定高频词汇；

根据所述高频词汇更新所述关键词库。

6.一种检测有效信息的装置，其特征在于，包括：

获取模块，用于从情报源获取情报消息，并采用正则表达式过滤所述情报消息中无效的信息；

分类模块，用于根据分类模型确定所述情报消息的类型；

关联模块，用于根据所述情报消息的类型确定所述情报消息对应的关键词库；

匹配模块，用于将所述情报消息与所述关键词库中的关键词进行匹配；

处理模块，用于根据所述情报消息与所述关键词库中的关键词的匹配程度确定所述情报消息是否为有效信息。

7.如权利要求6所述的装置，其特征在于，所述关键词库包括对象关键词和事件关键词；

所述处理模块具体用于：

若是，则将所述情报消息确定为有效信息；

否则，将所述情报消息确定为无效情报。

8.如权利要求6所述的装置，其特征在于，所述关键词库包括对象关键词、事件关键词以及辅助关键词；

所述处理模块具体用于：

否则，将所述情报消息确定为无效情报。

9.如权利要求8所述的装置，其特征在于，所述处理模块具体用于：

判断所述情报消息的有效系数是否大于预设阈值；

否则，将所述情报消息确定为无效情报。

10.如权利要求6至9任一所述的装置，其特征在于，还包括更新模块；

所述更新模块具体用于：对获取的情报消息分词后进行词频统计；通过词频统计确定高频词汇；根据所述高频词汇更新所述关键词库。

11.一种终端设备，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一权利要求所述方法的步骤。

12.一种计算机可读存储介质，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～5任一所述方法的步骤。