CN115618857A - 威胁情报处理方法、威胁情报推送方法及装置 - Google Patents
威胁情报处理方法、威胁情报推送方法及装置 Download PDFInfo
- Publication number
- CN115618857A CN115618857A CN202211103993.6A CN202211103993A CN115618857A CN 115618857 A CN115618857 A CN 115618857A CN 202211103993 A CN202211103993 A CN 202211103993A CN 115618857 A CN115618857 A CN 115618857A
- Authority
- CN
- China
- Prior art keywords
- text
- initial
- abstract
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 230000010365 information processing Effects 0.000 title abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000010076 replication Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000003362 replicative effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 15
- 238000012795 verification Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种威胁情报处理方法、威胁情报推送方法及装置,属于数据处理技术领域。该方法在获得威胁情报的初始文本后,基于关键字标签在初始文本中提取有关键字的初始摘要文本,再查询关键字关联的外部知识,并在初始摘要文本与外部知识满足生成长度条件时,根据关键字、初始摘要文本与外部知识生成目标摘要文本,或不满足生成长度条件时,直接复制获得目标摘要文本。该方案中,提取初始摘要文本时保留关键信息,并扩充外部知识,避免了关键信息的遗漏和丢失,保证了威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件能够获得符合文本长度需求的目标摘要文本,保证了文本提取的效果;可自动化执行,耗时短、成本低、效率高。
Description
技术领域
本公开属于数据处理技术领域,具体涉及一种威胁情报处理方法、威胁情报推送方法及装置。
背景技术
威胁情报是与资产所面临的已有威胁或可能威胁有关的,基于证据的知识,其中包括上下文、机制、标识和可执行建议。通过威胁情报能够对威胁响应、威胁溯源、证据发现、攻击预测、处理决策和建立攻击图谱等主动防御手段提供信息支持,以提升网络安全的防护能力,降低网络攻击的影响。威胁情报可以包括结构化情报与非结构化情报,结构化情报可以通过字符串唯一标识;而非结构化情报通过文字化描述攻击事件,无法直接应用,通常需要进一步信息处理,以将其转化为可用的情报数据。
随着网络建设不断展开,网络攻击事件也愈发频繁活跃,威胁情报的数量、类型也日益增长。但是,针对非结构化的威胁情报,目前采用人工提取的方式进行处理,耗时长、成本高,且易遗漏重要信息;同时,非结构化的威胁情报也不同于常规文本,存在大量需要保留的关键词,一般文本处理方法可能导致威胁情报中关键信息丢失,影响威胁情报的可用性;而且,非结构化的威胁情报通常文体较长,已有的文本处理方法难以在保留关键信息的基础上有效缩短其文体,使得文体提取的效果差。
发明内容
本公开实施例的目的是发送一种威胁情报处理方法、威胁情报推送方法及装置,能够解决威胁情报处理中耗时长、成本高、文本提取效果差,易遗漏重要关键信息的问题。
为了解决上述技术问题,本公开是这样实现的:
第一方面,本公开提供了一种威胁情报处理方法,该方法可以包括:获取威胁情报的初始文本;基于关键字标签在初始文本中提取带有关键字的初始摘要文本;查询初始摘要文本中关键字关联的外部知识;在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本、外部知识生成目标摘要文本;在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,获得目标摘要文本。
可选地,基于关键字标签在初始文本中提取带有关键字的初始摘要文本,包括:计算关键字标签对初始文本的标签注意力,以及初始文本对关键字标签的文本注意力;根据标签注意力确定初始文本中包含关键字的句子,根据文本注意力确定句子的提取概率;在初始文本中提取包含关键字,且提取概率符合文本提取条件的句子,获得初始摘要文本。
可选地,根据关键字、初始摘要文本、外部知识生成目标摘要文本,包括:在关键字、初始摘要文本符合关键字复制条件的情况下,对关键字进行复制,关键字复制条件用于判断关键字在目标摘要文本生成过程中丢失的概率;在关键字、初始摘要文本不符合关键字复制条件的情况下,根据关键字、初始摘要文本、外部知识生成短文本;基于关键字和/或短文本获得目标摘要文本。
可选地,生成长度条件的判断过程如下所示:通过神经网络对初始摘要文本编码获得第一编码,并对外部知识编码获得第二编码;通过神经网络连接第一编码和第二编码获得第三编码,并对第三编码进行预测,获得第一预测结果;在第一预测结果为摘要复制结果的情况下,确定初始摘要文本与外部知识满足生成长度条件;在第一预测结果为摘要生成结果的情况下,确定初始摘要文本与外部知识不满足生成长度条件。
可选地,关键字复制条件的判断过程如下所示:通过神经网络对关键字进行编码,获得第四编码,并提取关键字对应的隐藏层状态;通过神经网络对第一编码、第四编码与隐藏层状态进行预测,获得第二预测结果;在第二预测结果大于关键字复制阈值的情况下,确定关键字、初始摘要文本符合关键字复制条件;在第二预测结果小于或等于关键字复制阈值的情况下,确定关键字、初始摘要文本不符合关键字复制条件。
可选地,获取威胁情报的初始文本,包括:对威胁情报进行预处理,获得初始文本,预处理包括格式标准化、关键信息提取、数据清洗中的一种以上。
第二方面,本公开还提供了一种威胁情报推送方法,该方法可以包括:获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,目标摘要文本采用前述第一方面的威胁情报处理方法获得,推送模板包括关键字标签对应的内容填充规则;基于目标摘要文本、内容填充规则填充推送模板,获得推送文本;通过推送需求对应的接口对推送文本进行推送。
可选地,通过推送需求对应的接口,对推送文本进行推送之前,还包括:对推送文本进行校验,校验包括完整性校验、词句错误校验、推送需求关联性校验中的一种以上。
第三方面,本公开实施例提供了一种威胁情报处理装置,该威胁情报处理装置可以包括:情报获取模块,用于获取威胁情报的初始文本;文本提取模块,用于基于关键字标签在初始文本中提取带有关键字的初始摘要文本;知识查询模块,用于查询初始摘要文本中关键字关联的外部知识;摘要生成模块,用于在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本、外部知识生成目标摘要文本;该摘要生成模块,还用于在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,获得目标摘要文本。
可选地,文本提取模块包括:注意力计算子模块,用于计算关键字标签对初始文本的标签注意力,以及初始文本对关键字标签的文本注意力;注意力应用子模块,用于根据标签注意力确定初始文本中包含关键字的句子,根据文本注意力确定句子的提取概率;初始文本提取子模块,用于在初始文本中提取包含关键字,且提取概率符合文本提取条件的句子,获得初始摘要文本。
可选地,摘要生成模块具体用于在关键字、初始摘要文本符合关键字复制条件的情况下,对关键字进行复制,关键字复制条件用于判断关键字在目标摘要文本生成过程中丢失的概率;或,摘要生成模块具体用于在关键字、初始摘要文本不符合关键字复制条件的情况下,根据关键字、初始摘要文本、外部知识生成短文本;基于关键字和/或短文本获得目标摘要文本。
可选地,该装置还可以包括:输入编码模块,用于通过神经网络对初始摘要文本编码获得第一编码,并对外部知识编码获得第二编码;编码预测模块,用于通过神经网络连接第一编码和第二编码获得第三编码,并对第三编码进行预测,获得第一预测结果;条件判断模块,用于在第一预测结果为摘要复制结果的情况下,确定初始摘要文本与外部知识满足生成长度条件;该条件判断模块,还用于在第一预测结果为摘要生成结果的情况下,确定初始摘要文本与外部知识不满足生成长度条件。
可选地,该输入编码模块,还用于通过神经网络对关键字进行编码,获得第四编码,并提取关键字对应的隐藏层状态;该编码预测模块,还用于通过神经网络对第一编码、第四编码与隐藏层状态进行预测,获得第二预测结果;该条件判断模块,还用于在第二预测结果大于关键字复制阈值的情况下,确定关键字、初始摘要文本符合关键字复制条件;该条件判断模块,还用于在第二预测结果小于或等于关键字复制阈值的情况下,确定关键字、初始摘要文本不符合关键字复制条件。
可选地,该情报获取模块,具体用于对威胁情报进行预处理,获得初始文本,预处理包括格式标准化、关键信息提取、数据清洗中的一种以上。
第四方面,本公开还提供了一种威胁情报推送装置,该威胁情报推送装置可以包括:摘要获取模块,用于获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,目标摘要文本采用前述第三方面的威胁情报处理装置获得,推送模板包括关键字标签对应的内容填充规则;模板填充模块,用于基于目标摘要文本、内容填充规则填充推送模板,获得推送文本;文本推送模块,用于通过推送需求对应的接口对推送文本进行推送。
可选地,该装置还包括文本校验模块,用于对推送文本进行校验,校验包括完整性校验、词句错误校验、推送需求关联性校验中的一种以上。
第五方面,本公开提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令,该程序或指令被该处理器执行时实现如第一方面的威胁情报处理方法,或第二方面的威胁情报推送方法的步骤。
第六方面,本公开提供了一种可读存储介质,可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的威胁情报处理方法,或第二方面的威胁情报推送方法的步骤。
第七方面,本公开提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,该处理器用于运行程序或指令,实现如第一方面的威胁情报处理方法,或第二方面的威胁情报推送方法的步骤。
第八方面,本公开提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如实现如第一方面的威胁情报处理方法,或第二方面的威胁情报推送方法的步骤。
本公开提供了一种威胁情报处理方法,在获得威胁情报的初始文本后,基于关键字标签在初始文本中提取带有关键字的初始摘要文本,再查询与关键字关联的外部知识,进而在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本以及外部知识生成目标摘要文本,或者在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,以获得目标摘要文本。该方案中,提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理,耗时短、成本低、效率高。
附图说明
图1为本公开实施例提供的威胁情报处理方法的步骤流程图之一;
图2为本公开实施例提供的威胁情报处理方法的步骤流程图之二;
图3为本公开实施例提供的基于深度学习模型提取初始摘要文本的流程示意图;
图4为本公开实施例提供的目标摘要文本生成模型的流程示意图;
图5为本公开实施例提供的威胁情报推送方法的步骤流程图;
图6为本公开实施例提供的一种威胁情报推送方法的实施架构流程图;
图7为本公开实施例提供的威胁情报处理装置的结构示意图;
图8为本公开实施例提供的威胁情报推送装置的结构示意图;
图9为本公开实施例提供的一种电子设备的结构示意图;
图10为本公开实施例提供的一种电子设备的硬件示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
值得指出的是,本公开实施例所指的威胁情报可以是包含多种类型,多个维度在内的情报知识,如可以包括漏洞情报、资产情报、IOC(indicator of compromise,威胁指示器)情报、事件情报等。在威胁情报中包含着攻击者、被攻击者、攻击方式、危害等级等丰富的上下文信息,对网络安全的建设和维护具有重要意义。
威胁情报可以采用属性进行分类以匹配其使用场景,可以包括基础类、资产类、漏洞类、事件类、IOC类以及攻击组织类。基础类包含网络中的常见对象,例如IP(InternetProtocol,互联网协议)地址、域名地址、邮箱地址、URL(Uniform Resource Locator,统一资源定位系统)地址以及证书等,每一种基础情报可以包含所使用的端口、所提供的服务类型、Whois信息(包括域名是否为注册域名,以及注册域名的详细信息)、IP地址所在的地理位置、域名地址所在的地理位置、URL地址所在的地理位置等;资产类包含网络中的物理设备、虚拟设备,例如主机、服务器、交换机、路由器等,该类威胁情报可以包括风险资产情报、资产变更情报和资产发现情报等;漏洞类包含网络中已有漏洞的相关信息,如漏洞的名称、描述、类型、影响、危害评分、实现原理以及补丁措施等;事件类指威胁网络安全的事件文本描述信息,如事件的类型、来源、发生时间、关联漏洞、攻击组织、后续影响等;IOC类用于描述对网络攻击的特征,可以是检测特征如攻击方的IP地址、域名地址、攻击文件的MD(Message Digest,信息摘要)5哈希值,或者可以是流量特征如攻击邮件所属邮箱等;攻击组织类可以包括实施攻击的威胁主体名称、身份等,以及被攻击的组织、机构、行业等。
其中,不同类威胁情报可以采用结构化或非结构化的格式采集、存储和维护。结构化的威胁情报可以包括基础类、漏洞类、IOC类、资产类等,能够通过字符串唯一标识的情报信息;非结构化的威胁情报可以包括事件类、攻击组织类等,通过文字化描述攻击事件的情报信息。可以看出,非结构化的威胁情报无法被直接使用,需要通过进一步处理分析提取所需的信息,进过梳理已生成可用的情报文本。
非结构的威胁情报文体通常较长、信息分散,因此需要对其进行信息提取便于后续的解析、存储、应用和推送等。已有的文本提取方法,在非结构化的威胁情报处理时易导致关键信息丢失,且生成文本也通常较长,提取效果较差;而人工提取耗时长、成本高,难以保证对威胁情报实时地处理,不能及时、高效地反馈威胁情报处理结果。
本公开实施例提供了一种威胁情报处理方法,在威胁情报中基于关键字标签提取包含关键字的初始摘要文本,并基于关键字查询关联的外部知识,以有效保留关键信息,并基于生成长度条件以确定对初始摘要文本、外部知识等进行复制,还是文本生成以获得目标摘要文本,有效控制目标摘要文本的文本长度,提升了对威胁情报的文本提取效果,有利于后续的文本解析、存储、应用和推送。
下面结合附图,通过具体的实施例及其应用场景对本公开实施例提供的信令互通进行详细地说明。
图1为本公开实施例提供的威胁情报处理方法的步骤流程图之一。如图1所示,该方法可以包括如下步骤101至步骤105。
步骤101、获取威胁情报的初始文本。
其中,威胁情报可以是文本化描述的非结构化情报信息,初始文本可以是直接采集威胁情报获得的文本数据,也可以基于数据处理、传输、存储和应用的需求,对采集的威胁情报经过预先处理后获得的文本数据。威胁情报可以是实时线上采集的情报信息;也可以预先采集威胁情报并存储,并在处理时从该数据库中获取威胁情报的初始文本。威胁情报的存储方式可以是采用结构化与非结构化的数据库,如Redis(Remote DictionaryServer,远程字典服务)、MySql(关系型数据库管理系统)、MongoDB(分布式文档存储数据库),也可以是大数据文件系统如HDFS(Hadoop Distributed File System,海杜普分布式文件系统)、Hive(基于Hadoop的数据仓库工具)等。
步骤102、基于关键字标签在初始文本中提取带有关键字的初始摘要文本。
其中,关键字标签可以根据威胁情报的处理、应用需求设置,用于识别、分类在初始文本中需要关注和保留的字符。关键字标签可以包括如情报源、漏洞(CommonVulnerabilities&Exposures,CVE)编号、影响版本、应对措施、危害等级、情报置信度等,关键字标签在初始文本中对应的字符可以被确定为关键字。在初始文本中,可以基于关键字标签确定关键字,并提取带有关键字的句子,在保留关键信息的基础上,获得粗粒度的初始摘要文本。
步骤103、查询初始摘要文本中关键字关联的外部知识。
其中,外部知识是待处理数据以外的信息。在本公开实施例中,可以是待处理的威胁情报以外的,网络安全领域的相关知识,外部知识的来源可以是威胁情报相关的结构化知识图谱、非结构化文本语料等。如,可以在威胁情报的IOC知识库中查询与关键字相关联的外部知识,IOC知识库中存储有攻击事件、攻击文件等对应的特征,可以用于检测、发现攻击方实施的攻击事件,以及被攻击事件影响的主机、文件等。通过查询关键字关联的外部知识,能够对关键字进行补全和补充,从而能够进一步保证初始摘要文本中对关键信息的保留。
步骤104、在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本、外部知识生成目标摘要文本。
步骤105、在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,获得目标摘要文本。
其中,生成长度条件用于判断在初始摘要文本、外部知识的基础上获得目标摘要文本时,对其中带有关键字的句子是直接复制,还是基于关键字、初始摘要文本和外部知识重新生成短文本的条件,生成长度条件内容可以包括对句子的文本长度限制。
在本公开实施例中,生成长度条件可以根据目标摘要文本的处理、传输、存储和应用要求设置,不同种类、用途的威胁情报其长度要求可能不同。其中,生成长度条件可以是预设文本长度,在获得初始摘要文本、外部知识后,可以连接初始摘要文本、外部知识,并根据连接后其文本长度、字符数量等确定摘要长度,从而通过比较其文本长度与预设文本长度确定是否满足生成长度条件;或者,也可以采用前馈神经网络对初始摘要文本与外部知识的文本长度是否满足生成长度条件进行预测,并基于预测结果执行获得目标摘要文本的操作。
在本公开实施例中,初始摘要文本与外部知识满足生成长度条件时,表示其文本长度可能超过实际需求,可以基于其关键字、初始摘要文本和外部知识生成目标摘要文本。该目标摘要文本的生成过程可以是基于关键字对初始摘要文本、外部知识进行短文本生成的过程,在保留关键信息的同时,缩减文本长度,使其符合威胁情报的摘要长度需求。在初始摘要文本与外部知识不满足生成长度条件时,表示其文本长度可能符合实际需求,可以直接复制其初始摘要文本与外部知识获得目标摘要文本。
在本公开的一方法实施例中,在生成目标摘要文本后,可以基于生成长度条件对生成的目标摘要文本进一步判断,以确定生成的目标摘要文本已符合实际需求;在生成的目标摘要文本也满足生成长度条件的情况下,可以进一步基于目标摘要文本进行短文本生成,循环上述步骤以最终获得文本长度符合实际需求的目标摘要文本。
本公开提供了一种威胁情报处理方法,在获得威胁情报的初始文本后,基于关键字标签在初始文本中提取带有关键字的初始摘要文本,再查询与关键字关联的外部知识,进而在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本以及外部知识生成目标摘要文本,或者在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,以获得目标摘要文本。该方案中,提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理,耗时短、成本低、效率高。
图2为本公开实施例提供的威胁情报处理方法的步骤流程图之二。如图2所示,该方法可以包括如下步骤201至步骤207。
步骤201、对威胁情报进行预处理,获得初始文本,预处理包括格式标准化、关键信息提取、数据清洗中的一种以上。
其中,在采集到威胁情报后,可以对其进行预处理以便后续流程中数据的存储、传输、提取和转化等。预处理可以包括格式标准化、关键信息提取、数据清洗等。格式标准化处理可以将多来源不同格式的同一格式的标准化格式,如可以是将不同格式的威胁情报转换为JSON(JavaScript Object Notation,JS对象简谱)格式;关键信息提取可以在威胁情报中提取所需的关键字以标识、分类不同威胁情报,如可以在威胁情报中提取攻击者IP、攻击类型、威胁等级等关键字,从而对应存储不同威胁情报,便于后续根据不同需求使用;数据清洗是对不同来源、良莠不齐的威胁情报进行字符删减、替换,以去除敏感词、停用词等,如在威胁情报中去除换行符“\n”,制表符“\t”,以使威胁情报的质量符合后续处理流程的要求。
步骤202、计算关键字标签对初始文本的标签注意力,以及初始文本对关键字标签的文本注意力。
在本公开的一方法实施例中,可以采用深度学习模型,基于关键字标签对初始文本进行粗粒度的关键词、关键句提取,获得初始摘要文本。其中,该深度学习模型可以采用注意力机制进行特征表示、权重计算等,对初始文本来说通过注意力机制增加关键字标签对提取文本的影响,以使关键字所在的句子被准确提取,避免关键信息的丢失;另一方面,对关键字标签来说,影响初始文本的关键字标签可以为其提供额外的语义信息,提升了基于关键字标签对初始文本中关键字确认的准确性。
图3为本公开实施例提供的基于深度学习模型提取初始摘要文本的流程示意图。如图3所示,通过标签编码器(Label encoder)对关键字标签集合(Label Set)L中每一关键字标签进行编码,获得标签编码,其中,关键字标签包括CVE编号(CVE number)、影响版本(Influence)、应对措施(Solution)、情报源(Info source)、危害等级(Score)等,设L={l1,l2 … lN};
该标签编码器由神经网络构成,可以包括RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long short-term memory,长短期记忆)、Bert(Bidirectional EncoderRepresentation from Transformers,Transformer的双向编码器表示)等,则通过标签编码器对关键字标签进行编码的过程如下公式(1)表示:
以及,通过文本编码器(Sentence encoder)对初始文本(Simple)S中每一句子(Sentence)进行编码,获得文本编码,设其中N为文本长度,对每一威胁情报的初始文本,根据标点符号切分单个句子sN;
文本编码器由神经网络构成,可以包括RNN、TextCNN(Text ConvolutionalNeural Network,文本卷积神经网络)、Bert等,则通过文本编码器对初始文本进行编码的过程如下公式(2)表示:
在此基础上,设置注意力层(Attention)通过点积的形式计算标签编码与文本编码的维度,以分别获得关键字标签对初始文本的标签注意力,以及初始文本对关键字标签的文本注意力,其中,标签注意力与文本注意力的输出维度不同。具体的,关键字标签对初始文本的标签注意力计算公式(3)如下所示:
初始文本对关键字标签的文本注意力计算公式(4)如下所示:
步骤203、根据标签注意力确定初始文本中包含关键字的句子,根据文本注意力确定句子的提取概率。
其中,根据标签注意力可以确定句子中字符与关键字标签的分属关系,从而在初始文本中确定包含关键字的句子。提取概率为在初始文本中提取句子获得初始摘要文本时,单个句子被提取的概率,每个句子的划分可以根据实际需求实现。由于文本注意力可以确定关键字标签对句子的影响,因此可以确定该句子与关键信息的关联程度,以进一步确定该句子的提取概率,通常关键字标签对句子的影响力越大,该句子与关键信息的关联程度越高,则其应被提取的概率越高。
如图3所示,在注意力机制下获得标签注意力与文本注意力后,将标签注意力的隐藏层状态(label hidden state)传递给全连接(Fully Connected,FC)层,并由全连接层通过如下公式(5)进行预测:
其中,softmax为分类函数;Wl、bl为待学习的网络参数;predictlabel为该字符所属关键字标签的概率,维度为关键字标签集合;
以及,将文本注意力的隐藏层状态传递给全连接层,并由全连接层通过如下公式(6)进行预测:
其中,softmax为分类函数;Ws、bs为待学习的网络参数;predictsentence为该句子的提取概率,predictsentence∈{0,1}。
在本公开的一方法实施例中,可以通过联合学习同时基于关键字标签进行关键字判断以及句子的提取概率训练,以在初始摘要文本中保留带有关键字的长句,获得符合后续处理流程要求的提取结果。
步骤204、在初始文本中提取包含关键字,且提取概率符合文本提取条件的句子,获得初始摘要文本。
其中,在初始文本中可以根据字符所属关键字标签的概率确定包含关键字的句子,以及根据提取概率确定句子是否应被提取,从而在初始文本中提取既包含关键字,且提取概率符合文本提取条件的句子,充分考关键字标签对文本的影响,以及文本所属关键字标签的概率为其提供的额外语义信息,能够更准确地保留关键信息,实现文本有效地提取。
步骤205、查询初始摘要文本中关键字关联的外部知识。
本公开实施例中,由于初始摘要文本中句子包含的关键字已通过前述步骤203至步骤204确认,如初始摘要文本中关键字包括漏洞编号、恶意IP等,因此可以基于关键字查询与该关键字相关联的外部知识,如同类型漏洞的漏洞编号,或该漏洞编号所指漏洞的详细信息,恶意IP关联的历史攻击事件,恶意IP的地理位置等。具体的,步骤205可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
步骤206、在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本、外部知识生成目标摘要文本。
步骤207、在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,获得目标摘要文本。
本公开实施例中,步骤206至步骤207可对应参照前述步骤104至步骤105的相关描述,为避免重复,在此不再赘述。
在本公开的一方法实施例中,由于从初始文本抽取获得的初始摘要文本中句子长度不均匀,且可能存在句子过长的风险,可以通过短文本生成对初始摘要文本进行转述,获得文本长度符合实际需求的目标摘要文本。具体的,可以采用encoder-decoder(编码-解码)模型进行生成长度条件的判断,进而实现短文本生成,其中,模型可以包括复制网络,在获得初始摘要文本、外部知识等的编码表示后,可以通过复制网络可以基于编码表示判断具体文本直接复制或是短文本生成。则该生成长度条件的判断过程如下步骤S11至S14所示。
步骤S11、通过神经网络对初始摘要文本编码获得第一编码,并对外部知识编码获得第二编码。
其中,以根据关键字在IOC知识库中获得外部知识为例,可以对初始摘要文本进行编码获得第一编码,并对外部知识进行编码获得第二编码,以形成适应后续处理流程需求的编码表示。
图4为本公开实施例提供的目标摘要文本生成模型的流程示意图,如图4所示,在编码器(encoder)中,对初始摘要文本采用如下公式(7)进行编码:
对外部知识采用如下公式(8)进行编码:
公式(8)中,K_encoder可以是文本类的编码神经网络,如RNN等;为外部知识的字符向量,如漏洞描述文本、恶意IP描述文本等的字符相邻;hknowledge为外部知识编码后的隐藏层状态,即第二编码。
步骤S12、通过神经网络连接第一编码和第二编码获得第三编码,并对第三编码进行预测,获得第一预测结果。
进一步的,第三编码可以是通过神经网络连接第一编码和第二编码后,获得的对初始摘要文本、外部知识合并的编码表示,通过神经网络对第三编码进行预测,从而获得的第一预测结果可以对初始摘要文本、外部知识合并后是否满足生成长度条件进行判断。
如图4所示,第一预测结果采用如下公式(9)计算得到:
公式(9)中,predictdup1为第一预测结果,predictsentence∈{0,1};Wd、bd为待学习的网络参数。
步骤S13、在第一预测结果为摘要复制结果的情况下,确定初始摘要文本与外部知识满足生成长度条件。
步骤S14、在第一预测结果为摘要生成结果的情况下,确定初始摘要文本与外部知识不满足生成长度条件。
其中,根据第一预测结果可以确定初始摘要文本与外部知识是否满足生成长度条件,进而执行后直接复制的操作,或进行短文本生成的操作。具体的,predictsentence∈{0,1}则“0”为摘要复制结果,“1”为“摘要生成结果”,进而在第一预测结果为“0”时,确定初始摘要文本、外部知识满足生成长度条件,执行步骤206;或,第一预测结果为“1”时,确定初始摘要文本、外部知识不满足生成长度条件,执行步骤207。
在本公开的一方法实施例中,步骤206中根据关键字、初始摘要文本、外部知识生成目标摘要文本,包括如下步骤S21至S23。
步骤S21、在关键字、初始摘要文本符合关键字复制条件的情况下,对关键字进行复制,关键字复制条件用于判断关键字在目标摘要文本生成过程中丢失的概率。
步骤S22、在关键字、初始摘要文本不符合关键字复制条件的情况下,根据关键字、初始摘要文本、外部知识生成短文本。
步骤S23、基于关键字和/或短文本获得目标摘要文本。
其中,在第一预测结果为摘要生成结果的情况下,可以进行短文本生成。由于在初始摘要文本提取的过程中确定了关键字,因此可以根据关键字在初始摘要文本中的状态确定是否需要对关键字进行复制,或是根据关键字、摘要文本、外部知识等进行短文本生成。关键字复制条件用于判断关键字在目标摘要文本生成过程中丢失的概率,由于关键字在短文本生成过程中可能不在词表中,进而导致目标摘要文本中关键字的丢失,因此通过判断复制关键字或者基于关键字进行短文本生成,可以在短文本生成过程中有效保留关键信息。
在本公开的一方法实施例中,基于上述步骤S11至S14,步骤S21至S23中关键字复制条件的判断过程如下步骤S31至S34所示。
步骤S31、通过神经网络对关键字进行编码,获得第四编码,并提取关键字对应的隐藏层状态。
步骤S32、通过神经网络对第一编码、第四编码与隐藏层状态进行预测,获得第二预测结果。
步骤S33、在第二预测结果大于关键字复制阈值的情况下,确定关键字、初始摘要文本符合关键字复制条件。
步骤S34、在第二预测结果小于或等于关键字复制阈值的情况下,确定关键字、初始摘要文本不符合关键字复制条件。
其中,可以采用关键字、外部知识与初始摘要文本的编码,以及上一时刻的隐藏层状态来预测关键字丢失的概率,关键字的编码用于使神经网络关注关键字本身。由于在初始摘要文本提取的过程中确定了关键字,因此可以对关键字进行编码获得第四编码,并通过标记关键字的起始、结束位置,提取关键字对应的隐藏层状态。在此基础上,将关键字的隐藏层状态引入关键字的第四编码,以及初始摘要文本的第一编码进行预测获得第二预测结果,并基于关键字复制阈值与第二预测结果的关系确定是否在短文本生成过程中复制关键字。关键字复制阈值可以根据实际需求设置,也可以设置为模型训练的超参数,在训练过程中学习调整。
如图4所示,通过如下公式(10)确定第二预测结果:
公式(10)中,predictdup2为第二预测结果;hlast为初始摘要文本的第一编码;hknowledge为外部知识的第二编码;为解码器上一时刻的隐藏层状态,即关键字的隐藏层状;Ws、bs为待学习的网络参数。
进一步的,在关键字复制阈值为0.5的基础上,当第二预测结果大于0.5时,可以认为关键字、初始摘要文本符合关键字复制条件,执行步骤S22;当第二预测结果小于或等于0.5时,可以认为关键字、初始摘要文本不符合关键字复制条件,执行该步骤S21。其中如图4所示,执行步骤S21时,通过如下公式(11)进行短文本生成:
公式(11)中,predictword为生成短文本的字符,Ws′、W′o、W′k、b′s为待学习的网络参数。
通过如图4所示的目标摘要文本生成模型,在初始摘要文本与外部知识满足文本长度的实际需求时,可以对其进行直接复制获得目标摘要文本;或者,在初始摘要文本与外部知识不满足文本长度的实际需求时,可以基于关键字、初始摘要文本与外部知识进行短文本生成,以避免摘要生成过程中关键字的丢失,获得文本长度满足实际需求,且包含关键信息的目标摘要文本。
本公开提供了一种威胁情报处理方法,在获得威胁情报的初始文本后,基于关键字标签在初始文本中提取带有关键字的初始摘要文本,再查询与关键字关联的外部知识,进而在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本以及外部知识生成目标摘要文本,或者在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,以获得目标摘要文本。该方案中,提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理,耗时短、成本低、效率高。
图5为本公开实施例提供的威胁情报推送方法的步骤流程图。如图5所示,该方法可以包括如下步骤501至步骤503。
步骤501、获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,目标摘要文本采用前述图1至图4任一所述的威胁情报处理方法获得,推送模板包括关键字标签对应的内容填充规则。
其中,目标摘要文本的获取方法可对应参照前述步骤101至步骤105,或步骤201至步骤207的相关描述,为避免重复,在此不再赘述。
在本公开实施例中,获得威胁情报对应的目标摘要文本时,还可以获取推送需求对应的推送模板,推送需求可以是需求方对威胁情报种类、内容、用途和形式等的需求。推送模板用于定义推送文本的形式,包括格式、内容等,推送模板可以预先根据不同类型威胁情报、不同用户推送需求等设置,如针对攻击组织、漏洞情报等可以设置不同内容的推送模板,针对邮件推送、短信推送、弹窗推送等可以设置不同形式的推送模板。推送模板中可以通过关键字标签定义对应的内容填充规则,如在推送模板中可以通过定义内容填充规则,定义填充关键字标签对应的关键字、关键字的关联知识、填充位置等。推送模板可以以槽值填充的方式,通过关键字标签设置不同槽,以便基于目标摘要文本进行关键字、相关知识填充。
如,漏洞情报模板如下所示:
标题:<title>
发布时间:<publish_time>
漏洞编号:<cve_number>
影响版本<influence>
应对措施:<solution>
摘要:<summary>
详细信息:<details>。
步骤502、基于目标摘要文本、内容填充规则填充推送模板,获得推送文本。
其中,可以基于内容填充规则,在推送模板中填充目标摘要文本的内容,基于不同的推送需求,同一目标摘要文本可以填充不同的推送模板,或者同一推送模板也可以由多个目标摘要文本填充,从而获得完整的推送文本。
步骤503、通过推送需求对应的接口对推送文本进行推送。
其中,推送需求还可以包括需求方对推送方式的需求。推送方式可以包括执行消息推送的接口,获得推送文本后可以通过消息推送的接口向需求方进行推送。基于需求方对推送方式的需求,接口可以包括社交平台的消息推送接口、电子邮箱的推送接口、公告接口等,本公开实施例对此不作具体限制。
在本公开的一方法实施例中,步骤503之前,还包括:
步骤S51、对推送文本进行校验,校验包括完整性校验、词句错误校验、推送需求关联性校验中的一种以上。
其中,在实际推送前,还可以对获得的推送文本进行校验,包括对推送文本的完整性校验、词句错误校验、推送需求关联性校验等,可以采用人工校验也可以采用机器校验。完整性校验可以是校验推送模板各填充槽是否已有填充内容;词句错误校验可以是校验推送模板中填充内容与填充槽是否对应;推送需求关联性校验可以是校验推送文本与推送需求所指示的威胁情报内容、用途和形式是否对应,具体可以根据实际需求设置校验标准与校验方式,本公开实施例对此不做具体限制。
图6还示出了本公开实施例提供的一种威胁情报推送方法的实施架构流程图。如图6所示,包括:
威胁情报存储层,可以对不同情报源的威胁情报进行采集并格式标准化处理后存储,如可以将采集到的威胁情报存储到云数据库1、消息队列、云数据库2中,其中,云数据库1可以是Redis数据库,消息队列可以基于CloudKafka构建,云数据库2可以是MySQL数据库;
初始文本输入层,可以对存储的威胁情报进行提取、清洗和分类,形成统一JSON格式,并提取关键信息,再基于关键信息进行分类获得初始文本,基于初始文本更便于存储和管理,并提高对不同推送需求获取对应威胁情报的效率;
初始摘要提取层,可以基于深度学习模型在初始文本中提取带有关键字的句子,获得初始摘要文本;
目标摘要生成层,可以获取初始摘要文本中的关键字获取关联的外部知识,并通过复制网络基于关键字、外部知识等,确定初始摘要文本中句子、关键字直接复制或进行短文本生成,以获得目标摘要文本;
推送模板填充层,可以在推送模板库中获取推送需求对应的推送模板,并基于目标摘要文本填充推送模板,获得推送文本;
威胁情报推送层,可以对推送文本进行审查、校验,在审查、校验通过的情况下,通过推送需求对应的接口向用户推送该推送文本。
本公开提供了一种威胁情报推送方法,可以获取威胁情报的目标摘要文本以及推送需求对应的推送模板,并基于目标摘要文本、内容填充规则填充推送模板以获得推送文本,该推送模板中包括关键字标签对应的内容填充规则,从而可以将推送文本通过推送需求对应的接口向需求方推送。其中,目标摘要文本获取过程中先在威胁情报的初始文本中提取初始摘要文本,而提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理以及推送,耗时短、成本低、效率高。
图7为本公开实施例提供的威胁情报处理装置700的结构示意图。如图7中所示,威胁情报处理装置700可以包括:情报获取模块701,用于获取威胁情报的初始文本;文本提取模块702,用于基于关键字标签在初始文本中提取带有关键字的初始摘要文本;知识查询模块703,用于查询初始摘要文本中关键字关联的外部知识;摘要生成模块704,用于在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本、外部知识生成目标摘要文本;该摘要生成模块704,还用于在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,获得目标摘要文本。
在本公开的一装置实施例中,文本提取模块702包括:注意力计算子模块,用于计算关键字标签对初始文本的标签注意力,以及初始文本对关键字标签的文本注意力;注意力应用子模块,用于根据标签注意力确定初始文本中包含关键字的句子,根据文本注意力确定句子的提取概率;初始文本提取子模块,用于在初始文本中提取包含关键字,且提取概率符合文本提取条件的句子,获得初始摘要文本。
在本公开的一装置实施例中,摘要生成模块704具体用于在关键字、初始摘要文本符合关键字复制条件的情况下,对关键字进行复制,关键字复制条件用于判断关键字在目标摘要文本生成过程中丢失的概率;或,摘要生成模块具体用于在关键字、初始摘要文本不符合关键字复制条件的情况下,根据关键字、初始摘要文本、外部知识生成短文本;基于关键字和/或短文本获得目标摘要文本。
在本公开的一装置实施例中,该装置还可以包括:输入编码模块,用于通过神经网络对初始摘要文本编码获得第一编码,并对外部知识编码获得第二编码;编码预测模块,用于通过神经网络连接第一编码和第二编码获得第三编码,并对第三编码进行预测,获得第一预测结果;条件判断模块,用于在第一预测结果为摘要复制结果的情况下,确定初始摘要文本与外部知识满足生成长度条件;该条件判断模块,还用于在第一预测结果为摘要生成结果的情况下,确定初始摘要文本与外部知识不满足生成长度条件。
在本公开的一装置实施例中,该输入编码模块,还用于通过神经网络对关键字进行编码,获得第四编码,并提取关键字对应的隐藏层状态;该编码预测模块,还用于通过神经网络对第一编码、第四编码与隐藏层状态进行预测,获得第二预测结果;该条件判断模块,还用于在第二预测结果大于关键字复制阈值的情况下,确定关键字、初始摘要文本符合关键字复制条件;该条件判断模块,还用于在第二预测结果小于或等于关键字复制阈值的情况下,确定关键字、初始摘要文本不符合关键字复制条件。
在本公开的一装置实施例中,该情报获取模块701,具体用于对威胁情报进行预处理,获得初始文本,预处理包括格式标准化、关键信息提取、数据清洗中的一种以上。
在本公开提供的威胁情报处理装置,在获得威胁情报的初始文本后,基于关键字标签在初始文本中提取带有关键字的初始摘要文本,再查询与关键字关联的外部知识,进而在初始摘要文本与外部知识满足生成长度条件的情况下,根据关键字、初始摘要文本以及外部知识生成目标摘要文本,或者在初始摘要文本与外部知识不满足生成长度条件的情况下,对初始摘要文本、外部知识进行复制,以获得目标摘要文本。该方案中,提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理,耗时短、成本低、效率高。
本公开实施例提供的威胁情报处理装置能够实现图1至图4方法实施例实现的各个过程,为避免重复,这里不再赘述。
图8为本公开实施例提供的威胁情报推送装置800的结构示意图。如图8中所示,威胁情报推送装置800可以包括:摘要获取模块801,用于获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,目标摘要文本采用前述第三方面的威胁情报处理装置获得,推送模板包括关键字标签对应的内容填充规则;模板填充模块802,用于基于目标摘要文本、内容填充规则填充推送模板,获得推送文本;文本推送模块803,用于通过推送需求对应的接口对推送文本进行推送。
在本公开的一装置实施例中,该装置还包括文本校验模块,用于对推送文本进行校验,校验包括完整性校验、词句错误校验、推送需求关联性校验中的一种以上。
在本公开提供的威胁情报推送装置,可以获取威胁情报的目标摘要文本以及推送需求对应的推送模板,并基于目标摘要文本、内容填充规则填充推送模板以获得推送文本,该推送模板中包括关键字标签对应的内容填充规则,从而可以将推送文本通过推送需求对应的接口向需求方推送。其中,目标摘要文本获取过程中先在威胁情报的初始文本中提取初始摘要文本,而提取初始摘要文本时基于关键字标签提取初始摘要文本,在粗粒度摘要中保留关键信息,并基于关键字扩充外部知识,避免了摘要文本生成过程中关键信息的遗漏和丢失,保证了处理后威胁情报的可用性;在目标摘要文本的生成过程中,基于生成长度条件对文本生成方式进行选择,能够获得符合文本长度需求的目标摘要文本,避免了提取文本过长的问题,保证了文本提取的效果;无需人工标注、提取,可自动化执行威胁情报的处理以及推送,耗时短、成本低、效率高。
本公开实施例提供的威胁情报处理装置能够实现图5方法实施例实现的各个过程,为避免重复,这里不再赘述。
图9为本公开实施例提供的一种电子设备900的结构示意图,如图9所示,该电子设备900可以包括处理器901,存储器902,存储在存储器902上并可在处理器901上运行的程序或指令,该程序或指令被处理器901执行时实现上述信令互通实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,图9示出的电子设备900仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图10为本公开实施例提供的一种电子设备1000的硬件示意图,如图10所示,电子设备1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在ROM(Read Only Memory,只读存储器,)1002中的程序或者从存储部分1008加载到RAM(RandomAccess Memory,随机访问存储器)1003中的程序而执行各种适当的动作和处理。在RAM1003中,还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。I/O(Input/Output,输入/输出)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如CRT(Cathode Ray Tube,阴极射线管)、LCD(Liquid Crystal Display,液晶显示器)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,无线网络)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU1001)执行时,执行本申请的系统中限定的各种功能。
本公开实施例还发送一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述信令互通实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
本公开实施例另发送了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述信令互通实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本公开实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上述的信令互通的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本公开实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,电子设备,空调器,或者网络设备等)执行本公开各个实施例的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。
Claims (12)
1.一种威胁情报处理方法,其特征在于,所述方法包括:
获取威胁情报的初始文本;
基于关键字标签在所述初始文本中提取带有关键字的初始摘要文本;
查询所述初始摘要文本中所述关键字关联的外部知识;
在所述初始摘要文本与所述外部知识满足生成长度条件的情况下,根据所述关键字、所述初始摘要文本、所述外部知识生成目标摘要文本;
在所述初始摘要文本与所述外部知识不满足生成长度条件的情况下,对所述初始摘要文本、所述外部知识进行复制,获得目标摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述基于关键字标签在所述初始文本中提取带有关键字的初始摘要文本,包括:
计算所述关键字标签对所述初始文本的标签注意力,以及所述初始文本对所述关键字标签的文本注意力;
根据所述标签注意力确定所述初始文本中包含关键字的句子,根据所述文本注意力确定所述句子的提取概率;
在所述初始文本中提取包含关键字,且所述提取概率符合文本提取条件的句子,获得所述初始摘要文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关键字、所述初始摘要文本、所述外部知识生成目标摘要文本,包括:
在所述关键字、所述初始摘要文本符合关键字复制条件的情况下,对所述关键字进行复制,所述关键字复制条件用于判断所述关键字在所述目标摘要文本生成过程中丢失的概率;
在所述关键字、所述初始摘要文本不符合关键字复制条件的情况下,根据所述关键字、所述初始摘要文本、所述外部知识生成短文本;
基于所述关键字和/或所述短文本获得所述目标摘要文本。
4.根据权利要求3所述的方法,其特征在于,所述生成长度条件的判断过程如下所示:
通过神经网络对所述初始摘要文本编码获得第一编码,并对所述外部知识编码获得第二编码;
通过所述神经网络连接所述第一编码和所述第二编码获得第三编码,并对所述第三编码进行预测,获得第一预测结果;
在所述第一预测结果为摘要复制结果的情况下,确定所述初始摘要文本与所述外部知识满足生成长度条件;
在所述第一预测结果为摘要生成结果的情况下,确定所述初始摘要文本与所述外部知识不满足生成长度条件。
5.根据权利要求4所述的方法,其特征在于,所述关键字复制条件的判断过程如下所示:
通过所述神经网络对所述关键字进行编码,获得第四编码,并提取所述关键字对应的隐藏层状态;
通过所述神经网络对所述第一编码、所述第四编码与所述隐藏层状态进行预测,获得第二预测结果;
在所述第二预测结果大于关键字复制阈值的情况下,确定所述关键字、所述初始摘要文本符合关键字复制条件;
在所述第二预测结果小于或等于关键字复制阈值的情况下,确定所述关键字、所述初始摘要文本不符合关键字复制条件。
6.根据权利要求1所述的方法,其特征在于,所述获取威胁情报的初始文本,包括:
对所述威胁情报进行预处理,获得初始文本,所述预处理包括格式标准化、关键信息提取、数据清洗中的一种以上。
7.一种威胁情报推送方法,其特征在于,所述方法包括:
获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,所述目标摘要文本采用前述权利要求1至6任一所述的威胁情报处理方法获得,所述推送模板包括关键字标签对应的内容填充规则;
基于所述目标摘要文本、所述内容填充规则填充所述推送模板,获得推送文本;
通过所述推送需求对应的接口对所述推送文本进行推送。
8.根据权利要求7所述的方法,其特征在于,所述通过所述推送需求对应的接口,对所述推送文本进行推送之前,还包括:
对所述推送文本进行校验,所述校验包括完整性校验、词句错误校验、推送需求关联性校验中的一种以上。
9.一种威胁情报处理装置,其特征在于,所述威胁情报处理装置包括:
情报获取模块,用于获取威胁情报的初始文本;
文本提取模块,用于基于关键字标签在所述初始文本中提取带有关键字的初始摘要文本;
知识查询模块,用于查询所述初始摘要文本中所述关键字关联的外部知识;
摘要生成模块,用于在所述初始摘要文本与所述外部知识满足生成长度条件的情况下,根据所述关键字、所述初始摘要文本、所述外部知识生成目标摘要文本;
所述摘要生成模块,还用于在所述初始摘要文本与所述外部知识不满足生成长度条件的情况下,对所述初始摘要文本、所述外部知识进行复制,获得目标摘要文本。
10.一种威胁情报推送装置,其特征在于,所述威胁情报推送装置包括:
摘要获取模块,用于获取威胁情报对应的目标摘要文本,以及推送需求对应的推送模板,所述目标摘要文本采用前述权利要求9所述的威胁情报处理装置获得,所述推送模板包括关键字标签对应的内容填充规则;
模板填充模块,用于基于所述目标摘要文本、所述内容填充规则填充所述推送模板,获得推送文本;
文本推送模块,用于通过所述推送需求对应的接口对所述推送文本进行推送。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的威胁情报处理方法,或如权利要求7至8中任一项所述的威胁情报推送方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的威胁情报处理方法,或如权利要求7至8中任一项所述的威胁情报推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211103993.6A CN115618857B (zh) | 2022-09-09 | 2022-09-09 | 威胁情报处理方法、威胁情报推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211103993.6A CN115618857B (zh) | 2022-09-09 | 2022-09-09 | 威胁情报处理方法、威胁情报推送方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618857A true CN115618857A (zh) | 2023-01-17 |
CN115618857B CN115618857B (zh) | 2024-03-01 |
Family
ID=84858900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211103993.6A Active CN115618857B (zh) | 2022-09-09 | 2022-09-09 | 威胁情报处理方法、威胁情报推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618857B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334382A (ja) * | 2003-05-02 | 2004-11-25 | Ricoh Co Ltd | 構造化文書要約装置、プログラムおよび記録媒体 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
US20200134091A1 (en) * | 2018-10-29 | 2020-04-30 | International Business Machines Corporation | Query-based extractive summarization |
CN112906385A (zh) * | 2021-05-06 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、计算机设备及存储介质 |
CN113282759A (zh) * | 2021-04-23 | 2021-08-20 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于威胁情报的网络安全知识图谱生成方法 |
CN113961923A (zh) * | 2021-10-29 | 2022-01-21 | 绿盟科技集团股份有限公司 | 一种威胁情报获取方法、装置、设备及存储介质 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
-
2022
- 2022-09-09 CN CN202211103993.6A patent/CN115618857B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334382A (ja) * | 2003-05-02 | 2004-11-25 | Ricoh Co Ltd | 構造化文書要約装置、プログラムおよび記録媒体 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
US20200134091A1 (en) * | 2018-10-29 | 2020-04-30 | International Business Machines Corporation | Query-based extractive summarization |
CN113282759A (zh) * | 2021-04-23 | 2021-08-20 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于威胁情报的网络安全知识图谱生成方法 |
CN112906385A (zh) * | 2021-05-06 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、计算机设备及存储介质 |
CN113961923A (zh) * | 2021-10-29 | 2022-01-21 | 绿盟科技集团股份有限公司 | 一种威胁情报获取方法、装置、设备及存储介质 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115618857B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230334254A1 (en) | Fact checking | |
Li et al. | Mining evidences for named entity disambiguation | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
US20220197923A1 (en) | Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
US20210073257A1 (en) | Logical document structure identification | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
US20160247092A1 (en) | Information processing apparatus, storage medium, and information processing method | |
CN112069498A (zh) | 一种sql注入检测模型构建方法及检测方法 | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN110855648A (zh) | 一种网络攻击的预警控制方法及装置 | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
CN112417887A (zh) | 敏感词句识别模型处理方法、及其相关设备 | |
Levy et al. | RoMA: A method for neural network robustness measurement and assessment | |
CN115544560A (zh) | 一种敏感信息的脱敏方法、装置、计算机设备及存储介质 | |
Alves et al. | Leveraging BERT's Power to Classify TTP from Unstructured Text | |
US11947901B2 (en) | Method and system for automated data curation | |
CN115618857B (zh) | 威胁情报处理方法、威胁情报推送方法及装置 | |
CN115344563A (zh) | 数据去重方法及装置、存储介质、电子设备 | |
CN114528908B (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN116467722B (zh) | 安全漏洞描述的生成方法、装置、介质和电子设备 | |
CN118313837B (zh) | 一种基于大数据的客户关系管理系统 | |
US20240152606A1 (en) | Label recommendation for cybersecurity content | |
CN116775889B (zh) | 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |