CN110472132A - 一种安全舆情信息的获取方法、装置及介质 - Google Patents

一种安全舆情信息的获取方法、装置及介质 Download PDF

Info

Publication number
CN110472132A
CN110472132A CN201910707554.8A CN201910707554A CN110472132A CN 110472132 A CN110472132 A CN 110472132A CN 201910707554 A CN201910707554 A CN 201910707554A CN 110472132 A CN110472132 A CN 110472132A
Authority
CN
China
Prior art keywords
target
participle
comparison result
public sentiment
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910707554.8A
Other languages
English (en)
Inventor
苏蒙
王俊豪
毕磊
申金娟
吴彬
郭晓龙
姜澎
于涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910707554.8A priority Critical patent/CN110472132A/zh
Publication of CN110472132A publication Critical patent/CN110472132A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种安全舆情信息的获取方法、装置及介质,方法包括:确定监控时间段和目标站点;根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;对所述第一初始舆情文本进行分词处理,得到第一分词集合;根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息。及时有效的感知突发热点安全舆情,减少人工成本。

Description

一种安全舆情信息的获取方法、装置及介质
技术领域
本发明涉及互联网通信技术领域,尤其涉及一种安全舆情信息的获取方法、装置及介质。
背景技术
随着信息技术的发展,网络已经成为民众表达观点和意愿的主流媒介。网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆情往往具有数量大、传播速度快和范围广的特点。
现有技术中,面对海量的舆情信息,常单靠人工的筛选来获得目标领域舆情信息。该方案存在下述问题:工作量大、人工成本高;获得目标领域舆情信息的时间滞后,容易遗漏热点舆情;人工筛选中个人感性判断居多,对目标领域舆情信息的筛选缺乏数据指导和理性判断。因此,需要提供获取目标领域舆情信息更高效、更准确可靠的方案。
发明内容
为了解决现有技术应用在获取目标领域舆情信息时,效率低、准确性差等问题,本发明提供了一种安全舆情信息的获取方法、装置及介质:
一方面,本发明提供了一种安全舆情信息的获取方法,所述方法包括:
确定监控时间段和目标站点;
根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
对所述第一初始舆情文本进行分词处理,得到第一分词集合;
根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
其中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的,所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。
另一方面提供了一种安全舆情信息的获取装置,所述装置包括:
确定模块:用于确定监控时间段和目标站点;
初始舆情文本获取模块:用于根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
分词模块:用于对所述第一初始舆情文本进行分词处理,得到第一分词集合;
目标分词得到模块:用于根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
比较模块:用于分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
安全舆情信息获取模块:用于当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
其中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的,所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。
另一方面提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的安全舆情信息的获取方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的安全舆情信息的获取方法。
本发明提供的一种安全舆情信息的获取方法、装置及介质,具有如下技术效果:
本发明能够及时有效的感知互联网安全领域的突发热点舆情信息,保证获取的舆情信息客观准确。同时,减少进行人工审核的工作量和成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种应用环境的示意图;
图2是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图;
图3也是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图;
图4也是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图;
图5也是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图;
图6也是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图;
图7是本发明实施例提供的一种安全舆情信息的获取装置的组成框图;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明实施例提供的一种应用环境的示意图,如图1所示,该应用环境中,服务器中的安全舆情信息的获取装置用于对互联网中的安全舆情信息进行自动化感知、获取。需要说明的是,图1仅仅是一种示例。
本说明书实施例中,所述服务器可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器可以包括有网络通信单元、处理器和存储器等等。
以下介绍本发明一种安全舆情信息的获取方法的具体实施例,图2是本发明实施例提供的一种安全舆情信息的获取方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201:确定监控时间段和目标站点
在本发明实施例中,互联网安全领域为与互联网上信息安全相关的领域。互联网安全领域可以指涉及到互联网上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论的领域。安全舆情信息为网络舆情中与互联网安全领域相关的内容。安全舆情信息可以包括网络舆情中与恶意软件、漏洞类安全、攻击类事件、敲诈勒索软件、钓鱼事件、IoT(Internet of Things,物联网)安全、数据泄露、挖矿、DDoS攻击(Distributed denialof service attack,分布式拒绝服务攻击)、spamme样本(垃圾邮件)、banker样本(银行木马)等相关的内容。
网络舆情主要通过新闻、BBS(Bulletin Board System,电子公告牌系统)论坛、博客、即时通信软件等渠道形成和传播,这些通道的承载体主要为动态网页,它们承载着松散的结构化信息。为从海量的网络舆情中获取安全舆情信息,可以为后续获取所述第一初始舆情文本确定目标站点。可以根据站点筛选信息,确定所述目标站点,所述站点筛选信息包括从站点所属领域(考虑与互联网安全领域的相关性)、站点访问热度、站点权威度组成的群组中选择的至少一个。对于目标站点的确定,可以帮助后续能够有效的从数量较多甚至海量的网络舆情文本中筛选得到具有针对性的第一初始舆情文本,进而可以在数量级别更小的第一初始舆情文本中进行具有突发属性的安全舆情信息的筛选。
对于监控时间段的确定,可以根据所述第二初始舆情文本与所述互联网安全领域的相关性,以及所述互联网安全领域的属性。所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。对于所述第二初始舆情文本与所述互联网安全领域的相关性,可以考虑从第二初始舆情文本中获取安全舆情信息是否具备预设的广度、精度及深度。在实际应用中,监控时间段可以为当前时间点之前的一段时间,比如可以取半小时,即从当前时间点(比如下午三点)之前开始向前推30分钟。历史时间段可以为当前时间点之前的一段时间,比如可以取5天,即从当前时间点(比如下午三点)之前开始向前推5天。对于监控时间段的时长和历史时间段的时长可以灵活设置。
S202:根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
在本发明实施例中,从目标站点获取得到第一初始舆情文本的方式,可以采用元搜索引擎技术(将从多个搜索引擎获得的检索结果进行收集和综合处理后,再以一定的格式返回最终结果),也可以采用网络爬虫来对网页内容进行抓取等。具体的,可以从目标站点爬取得到待处理舆情文本,再对所述待处理舆情文本进行网页去噪处理得到第一初始舆情文本。待处理舆情文本中可能包括多种类型的内容,通过网页去噪处理可以将如广告链接、网页结构信息、导航条、版权声明等噪声信息去掉。这样可以减少与网页主题内容相关性不大的内容存在于第一初始舆情文本中对后续舆情信息获得可能造成的干扰。
在一个具体的实施例中,如图3所示,所述根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本,包括:
S301:根据所述目标站点的业务属性,确定获取所述第一初始舆情文本的源数据格式属性;
所述目标站点的业务属性可以用于表征该网站的功能、用途、商业目的等与互联网安全领域的相关性。所述源数据格式属性包括从所述标题属性、摘要属性、正文属性组成的群组中选择的至少一个。当然,源数据格式属性也可以为全文属性。
当所述目标站点为安全报告网站时,安全报告网站的业务属性与互联网安全领域的相关性高,安全报告网站的网页内容往往也与互联网安全领域的相关性高。综合考虑上述网页内容的相关性、爬虫性能以及存储性能,基于安全报告网站,可以确定获取所述第一初始舆情文本的源数据格式属性为标题属性。同时,安全行业资讯的特殊性在于标题具有较强的代表性,分析资讯标题也能满足后续获取具有突发属性的安全舆情信息的需求。
当所述目标站点为社交网站时,社交网站的业务属性与互联网安全领域的相关性低,社交网站的网页内容往往也与互联网安全领域的相关性低,基于社交网站,可以确定获取所述第一初始舆情文本的源数据格式属性为全文属性。
S302:根据所述监控时间段和所述源数据格式属性,从所述目标站点获取得到所述第一初始舆情文本;
根据步骤S301中就源数据格式属性的确定,基于所述监控时间段,从所述目标站点获取得到所述第一初始舆情文本。
在从目标站点获取第一初始舆情文本时,考虑到了网站的网页内容全文对于筛选安全舆情信息的采样广度保证,以及爬取网站的信息流全文对于爬虫性能、存储性能的影响。当然,在不受限于爬虫性能、存储性能时,也可以对网页内容全文进行提取。
S203:对所述第一初始舆情文本进行分词处理,得到第一分词集合;
在本发明实施例中,可以根据所述第一初始舆情文本的主要语言类型,确定分词策略。比如,第一初始舆情文本的主要语言类型为中文,可以先对第一初始舆情文本中的非中文字符进行提取,这些非中文字符可以是DDoS、DNS(Domain Name System,域名系统)、.exe(可执行文件的扩展名)、TLS(Transport Layer Security,安全传输层协议)等与互联网安全领域具有相关性的名词;然后再对剩余的纯中文文本进行中文分词处理,可以将连续的中文字符序列按照某些特定的规范重新组合成词序列。进行中文分词处理可以采用基于词典的分词方式、基于语义的分词方式和基于统计的分词方式。比如,第一初始舆情文本的主要语言类型为英文,可以对于英文段落进行英文分词处理。
S204:根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
在本发明实施例中,如图4所示,所述根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域,包括:
S401:对所述第一分词集合进行指向所述互联网安全领域的过滤处理,得到至少一个中间分词;
首先,选取指向所述互联网安全领域的筛选信息,所述筛选信息包括从所述互联网安全领域关键词和互联网安全领域噪音词组成的群组中选择的至少一个。
互联网安全领域关键词可以为指向所述互联网安全领域的实体(实体指表示一个概念的基本单位;具体的,实体可以是具有可区别性且独立存在的特定对象,比如实体可以是人名、地名、机构名、日期、时间、百分数、货币等)。互联网安全领域关键词可以只由一个实体构成。互联网安全领域关键词也可以由至少两个实体以逻辑与(&&、and)的关系组成,比如可以选取“漏洞”、“挖坑”、“第三届&&互联网安全大会”、“Virus(病毒)”等作为互联网安全领域关键词。当然,可以根据后续就得到具有突发属性的安全舆情信息的反馈等,对互联网安全领域关键词进行更新。
对于互联网安全领域噪音词,可以选择一些敏感政治词汇作为互联网安全领域噪音词,可以选择一些色情类词汇作为互联网安全领域噪音词,可以选择非互联网安全领域的实体作为互联网安全领域噪音词。比如,可以选取生物领域的实体“碱基”、“脱氧核糖核酸”等作为互联网安全领域噪音词。
然后,根据所述筛选信息,从所述第一分词集合中筛选得到至少一个中间分词。基于互联网安全领域关键词,可以对所述第一分词集合作对应分词的提取处理。基于互联网安全领域噪音词,可以对所述第一分词集合作对应分词的排除处理。
确保能够有效获得中间分词,进而保证后续得到具有突发属性的安全舆情信息的准确性。在实际应用中,互联网安全领域资讯的标题具有一定的相似性,可以将该资讯的标题用作第一初始舆情文本,进行分词处理的对象也可以只针对该标题,这样可以在保证感知互联网安全领域的突发热点舆情信息的可靠度的同时提高感知效率。
S402:根据分词主题相似度,对至少一个所述中间分词进行聚类处理,得到至少一个所述目标分词;
可以首先获取每两个中间分词之间的相似度;然后,根据所述每两个中间分词之间的相似度对至少一个中间分词进行分类以生成多个聚类;再生成每个聚类的聚类描述信息。比如,“DDoS攻击”和“分布式拒绝服务攻击”基于分词主题相似度可以指向同一聚类。当然,根据不同的分词主题相似度阈值设置,“SYN Flood攻击(同步报文字段泛洪攻击)”也可以与“DDoS攻击”基于分词主题相似度可以指向同一聚类。
S403:统计各个所述目标分词的出现次数,得到每个所述目标分词对应的热度值;
可以将统计各个所述目标分词的出现次数,得到的每个所述目标分词对应的热度值作为统计结果存储于数据库中,统计结果中还可以记录有监控时间段对应的时间标识、目标站点的站点标识、贡献某一目标分词对应的热度值的源站点标识等。
比如,所述第一初始舆情文本的内容包括:“DNA测试服务甲公司9200余万用户的用户数据遭泄露;乙公司助力警方破获电脑挖矿大案;弹幕网站丙被攻击,泄露数千万条用户数据;丁公司摄像头存在一系列安全漏洞;A病毒最新变种袭击银行系统”。经分词处理以及指向互联网安全领域的过滤处理后,得到的目标分词可以有“泄露”、“电脑挖矿”、“攻击”、“数据”、“安全漏洞”、“病毒”以及“袭击”。当然,目标分词也可以包括其中的公司名称。进而,统计每个目标分词的出现次数,比如“泄露”出现了2次。
当然,在对目标分词进行出现次数统计时,可以设置站点维度。比如对于某目标分词,统计得到A站点子热度值、B站点子热度值和C站点子热度值。不同站点可以设置有相应的权重,设置时可以考虑站点的权威性(历史舆情信息中虚假信息的比重)。基于各站点子热度值和对应的权重,得到能够在一定程度上具有真实可靠性的热度值。
S205:分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
在本发明实施例中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的。对于第二初始舆情文本的获取过程,以及对于所述目标分词对应的热度值基线的得到过程,可以参考前述步骤S201-S204中的记载,这里不再赘述。
热度值基线的确定与历史时间段的时长有一定的关系。因此,在将热度值与对应的热度值基线进行比较时,可以采取不同的比较形式。当历史时间段的时长与监控时间段的时长相近甚至一致时,可以直接比较。当历史时间段包括监控时间段时,可以计算热度值与对应的热度值基线的比值,后续可以通过占比情况获取具有突发属性的安全舆情信息。当然,热度值基线也可以以单位时间出现次数的形式表达。
在一个具体的实施例中,如图5所示,所述分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果,包括:
S501:获取目标热度阈值;
目标热度阈值用于表征所述目标分词对应的热度值是否满足预设的热度属性。比如目标热度阈值可以设置为3次,当然目标热度阈值可以根据需求灵活设置。
S502:分别将每个所述目标分词对应的所述热度值与所述目标热度阈值进行比较,得到每个所述目标分词对应的第一比较结果;
比如目标分词A对应的热度值为20,目标分词B对应的热度值为1,目标分词C对应的热度值为5。分别将每个所述目标分词对应的所述热度值与所述目标热度阈值(比如3)进行比较,得到目标分词A对应的第一比较结果:20>3;目标分词B对应的第一比较结果:1<3;目标分词C对应的第一比较结果:5>3.
S503:当所述第一比较结果符合目标热度阈值的要求时,根据所述第一比较结果指向的所述目标分词,确定目标热度分词;
当所述第一比较结果符合目标热度阈值的要求(比如需要热度值大于3)时,可以将目标分词A(对应的热度值为20)、目标分词C(对应的热度值为5)作为目标热度分词。
S504:分别将每个所述目标热度分词对应的所述热度值与所述目标热度分词对应的所述热度值基线进行比较,得到每个所述目标热度分词对应的第二比较结果。
比如,当历史时间段的时长与监控时间段的时长相近甚至一致时,目标分词A对应的热度值基线为10,将热度值20与热度值基线10进行比较。目标分词C对应的热度值基线为15,将热度值5与热度值基线15进行比较,可以得到每个所述目标热度分词对应的第二比较结果。进而当所述第二比较结果符合所述目标突发阈值的要求时,根据所述第二比较结果指向的所述目标热度分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息。
进一步的,可以基于对应的所述目标分词,分别计算每个所述目标热度值与所述热度值基线之间的比值,得到对应的各个差异比值(第二比较结果的表现形式)。当历史时间段包括监控时间段时,目标分词A对应的热度值基线为30,目标分词C对应的热度值基线为10,相应的,目标分词A对应的差异比值为20/30,目标分词C对应的差异比值为5/10。
通过热度值与对应的热度值基线的比较可以反映对应的目标分词指向的热度属性与突发属性情况。
S206:当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
在一个具体的实施例中,所述目标突发阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值,当所述比较结果大于或等于所述第一阈值时,判定从所述第一舆情文本得到的所述安全舆情信息具有第一等级突发属性;当所述比较结果小于所述第一阈值,且所述比较结果大于或等于所述第二阈值时,判定从所述第一舆情文本得到的所述安全舆情信息具有第二等级突发属性;当所述比较结果小于所述第二阈值时,判定从所述第一舆情文本得到的所述安全舆情信息不具有突发属性。所述历史时间段包括所述监控时间段,比如,目标分词A对应的热度值为20、热度值基线为20,目标分词C对应的热度值为5、热度值基线为10,相应的,目标分词A对应的比较结果为20/20,目标分词C对应的比较结果为5/10。第一阈值(表征是否满足第一等级突发属性:高爆发)为80%,第二阈值(表征是否满足第二等级突发属性:中高爆发)中为60%。那么,目标分词A对应的比较结果满足第一等级突发属性,目标分词C对应的比较结果不满足第二等级突发属性。
当然,在实际应用中,对于第一阈值和第二阈值可以灵活设置。这样可以保证对突发热度舆情信息的有效监控,便于第一时间感知得到突然爆发的安全舆情。
在另一个具体的实施例中,首先,可以设置舆情类别以及每个所述舆情类别对应的特征条件。舆情类别可以包括漏洞类,勒索类,挖坑类等,比如漏洞类的特征条件可以包括“系统漏洞”、“安全漏洞”等类别词。然后,判断所述安全舆情信息是否满足所述特征条件,比如判断安全舆情信息中是否包含了对应的类别词。当所述安全舆情信息满足所述特征条件时,将所述安全舆情信息归类到与所述特征条件对应的所述舆情类别。对安全舆情信息进行归类,将具有同种特征的舆情信息划分为同一类,便于舆情信息以更细粒维度进行存储,进而能够帮助分析反馈以更新互联网安全领域关键词和互联网安全领域噪音词,使得获取具有突发属性的安全舆情信息的过程适应性更强。
在实际应用中,从所述第一初始舆情文本得到具有突发属性的安全舆情信息可以应用于安全资讯推送产品,或者后台告警产品供安全从业人士内部使用。当然,当接收到推送的具有突发属性的安全舆情信息时,相关业务人员还可以对此以人工方式做进一步的处理,减少错误发生,降低遗漏出现的概率。如图6所示,相关业务人员可以根据指向是否为安全资讯的标注以及等级标注进行审核。
由以上本说明书实施例提供的技术方案可见,本说明书实施例应用于获取安全舆情信息。获取初始舆情文本,进行针对互联网安全领域关键词的突发-热度属性维度的统计,进而得到具有突发属性的安全舆情信息。能够及时有效的感知互联网安全领域的突发热点舆情信息,保证获取的舆情信息客观准确。同时,减少进行人工审核的工作量和成本。
本发明实施例还提供了一种安全舆情信息的获取装置,如图7所示,所述装置包括:
确定模块710:用于确定监控时间段和目标站点;
初始舆情文本获取模块720:用于根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
分词模块730:用于对所述第一初始舆情文本进行分词处理,得到第一分词集合;
目标分词得到模块740:用于根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
比较模块750:用于分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
安全舆情信息获取模块760:用于当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
其中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的,所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。
需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的安全舆情信息的获取方法。
进一步地,图8示出了一种用于实现本发明实施例所提供的方法的电子设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置。如图8所示,设备80可以包括一个或多个(图中采用802a、802b,……,802n来示出)处理器802(处理器802可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器804、以及用于通信功能的传输装置806。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备80还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
应当注意到的是上述一个或多个处理器802和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到电子设备80(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器804可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器802通过运行存储在存储器84内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种安全舆情信息的获取方法。存储器804可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器804可进一步包括相对于处理器802远程设置的存储器,这些远程存储器可以通过网络连接至电子设备80。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备80的通信供应商提供的无线网络。在一个实例中,传输装置806包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置806可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与电子设备80(或移动设备)的用户界面进行交互。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种安全舆情信息的获取方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的安全舆情信息的获取方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种安全舆情信息的获取方法,其特征在于,所述方法包括:
确定监控时间段和目标站点;
根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
对所述第一初始舆情文本进行分词处理,得到第一分词集合;
根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
其中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的,所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。
2.根据权利要求1所述的方法,其特征在于,所述根据第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,包括:
对所述第一分词集合进行指向所述互联网安全领域的过滤处理,得到至少一个中间分词;
根据分词主题相似度,对至少一个所述中间分词进行聚类处理,得到至少一个所述目标分词;
统计各个所述目标分词的出现次数,得到每个所述目标分词对应的所述热度值。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一分词集合进行指向所述互联网安全领域的过滤处理,得到至少一个中间分词,包括:
选取指向所述互联网安全领域的领域筛选信息;
根据所述领域筛选信息,从所述第一分词集合中筛选得到至少一个所述中间分词;
其中,所述领域筛选信息包括从所述互联网安全领域关键词和互联网安全领域噪音词组成的群组中选择的至少一个。
4.根据权利要求1所述的方法,其特征在于:
所述分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果,包括:
获取目标热度阈值;
分别将每个所述目标分词对应的所述热度值与所述目标热度阈值进行比较,得到每个所述目标分词对应的第一比较结果;
当所述第一比较结果符合目标热度阈值的要求时,根据所述第一比较结果指向的所述目标分词,确定目标热度分词;
分别将每个所述目标热度分词对应的所述热度值与所述目标热度分词对应的所述热度值基线进行比较,得到每个所述目标热度分词对应的第二比较结果;
当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息,包括:
当所述第二比较结果符合所述目标突发阈值的要求时,根据所述第二比较结果指向的所述目标热度分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息。
5.根据权利要求1或4任一所述的方法,其特征在于,所述目标突发阈值包括第一阈值和第二阈值,所述当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息,包括:
当所述比较结果大于或等于所述第一阈值时,判定从所述第一舆情文本得到的所述安全舆情信息具有第一等级突发属性;
当所述比较结果小于所述第一阈值,且所述比较的结果大于或等于所述第二阈值时,判定从所述第一舆情文本得到的所述安全舆情信息具有第二等级突发属性;
当所述比较结果小于所述第二阈值时,判定从所述第一舆情文本得到的所述安全舆情信息不具有突发属性;
其中,所述第一阈值大于所述第二阈值,所述历史时间段包括所述监控时间段。
6.根据权利要求1所述的方法,其特征在于,所述根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本,包括:
根据所述目标站点的业务属性,确定获取所述第一初始舆情文本的源数据格式属性;
根据所述监控时间段和所述源数据格式属性,从所述目标站点获取得到所述第一初始舆情文本;
其中,所述源数据格式属性包括从所述标题属性、摘要属性、正文属性组成的群组中选择的至少一个。
7.根据权利要求1所述的方法,其特征在于,所述确定监控时间段和目标站点,包括:
根据所述第二初始舆情文本与所述互联网安全领域的相关性,以及所述互联网安全领域的属性,确定所述监控时间段;
根据站点筛选信息,确定所述目标站点;
其中,所述站点筛选信息包括从站点所属领域、站点访问热度、站点权威度组成的群组中选择的至少一个。
8.根据权利要求1所述的方法,其特征在于,所述当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息,还包括:
设置舆情类别以及每个所述舆情类别对应的特征条件;
判断所述安全舆情信息是否满足所述特征条件;
当所述安全舆情信息满足所述特征条件时,将所述安全舆情信息归类到与所述特征条件对应的所述舆情类别。
9.一种安全舆情信息的获取装置,其特征在于,所述装置包括:
确定模块:用于确定监控时间段和目标站点;
初始舆情文本获取模块:用于根据所述监控时间段,从所述目标站点获取得到第一初始舆情文本;
分词模块:用于对所述第一初始舆情文本进行分词处理,得到第一分词集合;
目标分词得到模块:用于根据所述第一分词集合,得到至少一个目标分词以及每个所述目标分词对应的热度值,所述目标分词指向互联网安全领域;
比较模块:用于分别将每个所述目标分词对应的所述热度值与所述目标分词对应的热度值基线进行比较,得到每个所述目标分词对应的比较结果;
安全舆情信息获取模块:用于当所述比较结果符合目标突发阈值的要求时,根据所述比较结果指向的所述目标分词,从所述第一初始舆情文本得到具有突发属性的安全舆情信息;
其中,所述目标分词对应的所述热度值基线为根据第二初始舆情文本对应的分词结果得到的,所述第二初始舆情文本为根据历史时间段从所述目标站点获取得到的。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-8任一所述的安全舆情信息的获取方法。
CN201910707554.8A 2019-08-01 2019-08-01 一种安全舆情信息的获取方法、装置及介质 Pending CN110472132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910707554.8A CN110472132A (zh) 2019-08-01 2019-08-01 一种安全舆情信息的获取方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910707554.8A CN110472132A (zh) 2019-08-01 2019-08-01 一种安全舆情信息的获取方法、装置及介质

Publications (1)

Publication Number Publication Date
CN110472132A true CN110472132A (zh) 2019-11-19

Family

ID=68508729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910707554.8A Pending CN110472132A (zh) 2019-08-01 2019-08-01 一种安全舆情信息的获取方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110472132A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782917A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 用于对金融处罚数据进行可视化分析的方法及装置
CN113590914A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 信息处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228467A1 (en) * 2004-01-06 2008-09-18 Neuric Technologies, Llc Natural language parsing method to provide conceptual flow
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN108874992A (zh) * 2018-06-12 2018-11-23 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228467A1 (en) * 2004-01-06 2008-09-18 Neuric Technologies, Llc Natural language parsing method to provide conceptual flow
CN108170692A (zh) * 2016-12-07 2018-06-15 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN108874992A (zh) * 2018-06-12 2018-11-23 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782917A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 用于对金融处罚数据进行可视化分析的方法及装置
CN113590914A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 信息处理方法、装置、电子设备和存储介质
CN113590914B (zh) * 2021-06-23 2024-02-20 北京百度网讯科技有限公司 信息处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Pacheco et al. Uncovering coordinated networks on social media: methods and case studies
Snyder et al. Fifteen minutes of unwanted fame: Detecting and characterizing doxing
Elmas et al. Ephemeral astroturfing attacks: The case of fake twitter trends
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Boididou et al. Challenges of computational verification in social multimedia
Yang et al. Analyzing spammers' social networks for fun and profit: a case study of cyber criminal ecosystem on twitter
Brynielsson et al. Analysis of weak signals for detecting lone wolf terrorists
Brynielsson et al. Harvesting and analysis of weak signals for detecting lone wolf terrorists
Rowe et al. Defending cyberspace with fake honeypots.
Lee et al. Detecting collective attention spam
US9563770B2 (en) Spammer group extraction apparatus and method
CN108573146A (zh) 一种恶意url检测方法及装置
Roberts et al. Intelligence-driven incident response: Outwitting the adversary
CN110149319A (zh) Apt组织的追踪方法及装置、存储介质、电子装置
CN110472132A (zh) 一种安全舆情信息的获取方法、装置及介质
CN110149318A (zh) 邮件元数据的处理方法及装置、存储介质、电子装置
Najafabadi et al. Hacktivism and distributed hashtag spoiling on Twitter: Tales of the# IranTalks
Karimi et al. Automated detection of doxing on twitter
Zhang et al. NEIGHBORWATCHER: A Content-Agnostic Comment Spam Inference System.
Singh et al. An analytical model for identifying suspected users on Twitter
Balogun et al. Criminal profiling in digital forensics: Assumptions, challenges and probable solution
Khan et al. The presence of Twitter bots and cyborgs in the# FeesMustFall campaign
Gilmary et al. Discovering social bots on Twitter: a thematic review
Oraegbunam The Nigerian police and problems of cybercrime investigation: need for adequate training
Phad et al. Detecting compromised high-profile accounts on social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination