CN111538842B - 网络空间态势的智能感知和预测方法、装置和计算机设备 - Google Patents

网络空间态势的智能感知和预测方法、装置和计算机设备 Download PDF

Info

Publication number
CN111538842B
CN111538842B CN201911118612.XA CN201911118612A CN111538842B CN 111538842 B CN111538842 B CN 111538842B CN 201911118612 A CN201911118612 A CN 201911118612A CN 111538842 B CN111538842 B CN 111538842B
Authority
CN
China
Prior art keywords
entity
network space
network
knowledge graph
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911118612.XA
Other languages
English (en)
Other versions
CN111538842A (zh
Inventor
卢媛
孙锡洲
范春磊
冷小洁
栾卫平
徐康
杨尉
穆芮
顾建伟
荣俊兴
王伟
李维娜
周子程
张睿
杨冉昕
赵慧群
杨禹太
孔亮
杜廷文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911118612.XA priority Critical patent/CN111538842B/zh
Publication of CN111538842A publication Critical patent/CN111538842A/zh
Application granted granted Critical
Publication of CN111538842B publication Critical patent/CN111538842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络空间态势的智能感知和预测方法、装置和计算机设备,涉及网络安全技术领域。该方法通过抽取并表达网络空间实体概念以及实体概念间关系和属性,构建网络空间实体概念集合,并将多源异构原始数据与网络空间实体概念集合进行关联和融合,构建网络空间态势知识图谱,最后根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。实现了对网络空间多源异构数据的深层次信息的挖掘,进而实现了对网络总体运行态势的全面深入的分析预测。

Description

网络空间态势的智能感知和预测方法、装置和计算机设备
技术领域
本发明涉及网络安全技术领域,尤其涉及一种网络空间态势的智能感知和预测方法、装置和计算机设备。
背景技术
随着网络的飞速发展以及社会信息化程度的逐步提高,网络安全问题呈现出多元化、复杂化的趋势,攻击活动向大规模、协同化和多层次方向发展。人们不断地采用防火墙、入侵检测系统、漏洞扫描工具等各种安全设备来监控网络以抵御入侵。当然,这些产品分别在不同的侧面保护着网络系统。然而,各种安全设备相对独立的部署方式,产生了海量的事件报警,其中充斥着大量重复且不可靠的信息,甚至因此形成“报警洪泛”;同时,这些事件往往反映的是低级别的攻击行为,缺乏有效地融合与关联,使得管理员难以识别潜在的威胁,把握全局的安全状况。针对网络中多源异构安全设备的广泛应用及其产生的安全事件难以有效管理的现状,全方位全天候态势感知的概念被提出并成为网络安全管理领域备受关注的研究热点。态势感知是一种集多源数据采集、统一报警评估和事件相关性分析为一体的安全信息及事件管理技术。
目前,态势感知通常采用如下几个方法:
基于数学模型的方法是前期较为流行的技术,综合考察各项态势因子,构造明晰的数学函数来描述因子集合与态势的映射关系。这类方法的缺点主要是函数表达式的形式与参数的选择没有统一科学依据,往往需要依赖领域知识和专家经验,具有明显的主观性,而且态势评估通常使用自然语言来表述知识,难以转化为易于机器处理的形式。
基于知识推理的方法是2002年之后成为研究热点的技术,其基本思路是在已知经验知识、先验概率的前提下,根据实时监测的数据信息,通过一定的关系逐级推理得到对当前态势的判断。代表性的方法包括有模糊推理、贝叶斯网络、马尔可夫过程等,相比于数据模型方法,具有一定的智能性,但是需要建立维护大量的规则,且模型建立时仍然需要依赖主观经验。
基于模式匹配的方法在2005年之后兴起,其核心在于模式的建立过程。机器学习技术被引入使用,包括人工神经网络、聚类分析等,可以自动从历史数据中获得态势相关的知识。相比于前两种方法,摆脱了对主观性知识的依赖,相对科学、客观。
上述三类已有技术及方法仍然有一些不可忽视的缺陷,其中非常重要的一点就是对知识的表示不够全面,未能挖掘网络空间多源异构数据的深层次信息,所以无法对网络总体的运行态势进行全面深入的分析预测。
发明内容
本发明一方面提供了一种网络空间态势的智能感知和预测方法,包括如下步骤:
抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
获取网络空间多源异构原始数据;
依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。
优选地,所述从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性还包括步骤:
抽取所述实体对象时,获得所述实体对象的指称项;
根据所述实体对象的指称项,筛选出一组候选实体对象;
对所述候选实体对象进行相似度计算,根据计算结果确定正确的实体对象,并将所述指称项链接到所述正确的实体对象。
优选地,构建网络空间态势知识图谱之后,根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测之前,还包括步骤:对所述网络空间态势知识图谱进行向量化表示、时序增量描述、多目标间隐藏关系或新关系的挖掘。
优选地,所述抽取所述网络空间实体概念,包括:
从词法规则和词性特征的角度对数据进行处理,得到处理后的数据;
对所述处理后的数据进行分词,并对分词结果进行频数统计。
优选地,所述网络空间实体概念间关系,包括:分类关系和非分类关系,其中,所述分类关系包括上下位关系、并列关系,所述非分类关系为除去所述分类关系之外的其他关系,包括整体与部分关系、人与地点间的关联关系。
优选地,所述抽取所述网络空间实体概念间分类关系,包括:
当所述网络空间实体概念的数量小于设定值或异构原始数据为结构化数据时,人工手动抽取;
当所述网络空间实体概念的数量大于设定值或异构原始数据为非结构化数据或半结构化数据时,利用数据驱动法自动抽取;所述数据驱动法自动抽取具体包括:
所述网络空间实体概念并列关系相似度计算,用于考察任意给定的两个实体概念属于同一概念分类的测度,相似度越高,该两个实体概念属于同一语义类别测度越高;
所述网络空间实体概念上下位关系抽取,用于确定实体概念之间的隶属关系;
本体的生成,用于对各层次得到的实体概念进行聚类,并对实体概念进行语义类标定。
优选地,所述依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性,包括:
从网络通信数据中抽取通信双方、通信协议、数据量、应用类型的信息,并映射至实体对象,完成实体对象、对象关系及属性的抽取;
和/或
从半结构化的文本数据中抽取实体对象、对象关系及属性;
和/或
首先从自然语言描述的非结构化数据中提取语义信息,并融合至实体对象,然后采用机器学习方法抽取实体对象关联关系及属性信息。
优选地,所述对所述网络空间态势知识图谱进行向量化表示和时序增量描述包括:
将高维稀疏的所述网络空间态势知识图谱降维转化为低维稠密的所述网络空间态势知识图谱;
描述一个时间窗口内,所述网络空间态势知识图谱中实体对象以及实体对象间关系的变化。
本发明另一方面提供了一种网络空间态势的智能感知和预测装置,包括:
网络空间实体概念集合构建模块,用于抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
原始数据获取模块,用于获取网络空间多源异构原始数据;
数据融合模块,用于依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
网络空间态势知识图谱构建模块,用于根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
动态演化分析和预测模块,用于根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。
本发明第三方面提供了一种计算机设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
本发明的有益效果是:本发明提供的网络空间态势的智能感知和预测方法、装置和计算机设备,通过抽取并表达网络空间实体概念以及实体概念间关系和属性,构建网络空间实体概念集合,并将多源异构原始数据与网络空间实体概念集合进行关联和融合,构建网络空间态势知识图谱,最后根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。实现了对网络空间多源异构数据的深层次信息的挖掘,进而实现了对网络总体运行态势的全面深入的分析预测。
附图说明
图1为本发明所述网络空间态势的智能感知和预测方法流程示意图;
图2为本发明所述网络空间态势的智能感知和预测装置结构示意图。
具体实施方案
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的智能感知和预测方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种网络空间态势的智能感知和预测方法,包括如下步骤:
抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
获取网络空间多源异构原始数据;
依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。
网络空间中实体种类繁杂,数量众多,它们是网络空间态势的基本单元,如何刻画这些概念间关系,决定了能否有效感知和预测网络空间态势。本发明中,一方面对网络空间实体概念及其属性进行调研,形成常用概念集;另一方面通过合适的表达形式,描述表达这些概念间关系。其中,本体是对于共享概念体系的明确而又详细的说明,能够对特定领域中概念及其相互之间关系进行形式化表达。作为一个实施例,本发明采用基于本体的描述方法对实体概念间关系进行形式化表达。
本发明提供的上述方法中,构建网络空间实体概念集合之后,将其与网络空间数据融合和关联。在融合和关联过程中,不仅仅是从数据的格式出发,而是从网络空间数据的原始语义出发,完成融合和关联。
本发明中,网络空间多源异构原始数据包括结构化数据、半结构化数据和非结构化数据。
融合和关联过程包括:实体对象抽取、实体对象间关系抽取和实体对象属性抽取。
实体对象抽取,也称为命名实体识别(Named Entity Recognition,NER),是从原始数据集中自动识别出命名实体的过程,抽取的准确性和全面性,直接影响知识图谱的后续分析过程,因此可看作是信息抽取及概念融合中最为关键和基础的部分。对于网络空间异构数据而言,实体对象抽取方法可以根据具体的数据类型、格式及形态而有所不同。作为一个实施例比如:①二进制形式的数据,如原始数据包、恶意文件样本等,可以首先进行数据预处理,在实现语法解析及语义理解的基础上,再提取可映射的实体对象;②对于文本格式的数据,如设备日志、报警记录等,可以根据日志记录的规范说明采用规则匹配等方式快速定位实体对象的核心要素;③对于自然语言描述组成的数据,如威胁情报、漏洞信息等,可以综合运用自然语言处理、机器学习等相关技术,充分、准确挖掘其中包含的可抽取的实体对象信息。
实体对象抽取之后,可得到一系列离散的命名实体,为了得到更丰富的语义信息,以支持后续分析预测,再从相关数据中提取出实体对象间的关联关系,将实体对象相互连接起来,从而形成网状的知识结构,构成知识图谱的骨架。
从本质上说,关系抽取问题的核心是“实体对象-关系-实体对象”三元组模式的匹配及学习。与实体对象抽取一样,针对不同类型的数据,可以采用相适应的关系抽取方法。在实体对象间关系抽取中,作为一个实施例比如:①网络流量相关数据包含源主机至目标主机之间的通信关系,可以对广义的通信关系进行细化以提取更细粒度的关联关系;②审计、报警记录等文本信息数据,可以从文本中高效、精准地匹配实体对象间的关系;③漏洞描述、攻击案例等自然语言构成的数据,可以采用自然语言处理技术完成语义理解,进而提取出实体对象间的关系。
实体对象属性抽取主要是从多源异构数据中提取特定实体对象的各种属性信息,从而丰富实体对象的内涵,更完整刻画该实体对象,并为后续分析推理及预测过程中,新关系的发现提供基础。另外,实体对象与其属性之间可视为存在一种特殊的关系,因此属性抽取问题可在一定程度上转化为关系抽取问题。与一般关系抽取不同的是,每个特定的属性都有对应的具体取值,所以在属性抽取中包含属性名与属性值的对应关系提取。
网络空间态势感知是对已有数据的综合和归纳;网络空间态势预测是基于已有数据,对实体对象的状态做出新的判断。当前,有很多方法获取单个目标、多个目标或者特定群体的行为,但是,对于有复杂关系的多目标行为的分析和预测能力尚且不足,主要原因是实体间的关系往往淹没在海量异构的态势数据中,而如果在无法准确得知多目标之间关系的情况下,进行多目标行为的演化分析和预测,要么会因为关系错误或缺失,导致行为分析和预测出现偏差;要么会因为目标错误或缺失,导致分析和预测的关系出现错误。所以在目标确定的情况下,进行行为的分析和预测,主要任务是保证实体对象和实体对象间关系的准确性。
知识图谱是能够表示实体和实体间关系的图模型,而准确的实体间关系,恰好是多目标网络行为分析和预测的前提。如果将实体间行为,看作是实体间的关联关系,那么就可以基于知识图谱,完成对目标关系的预测,进而完成多目标行为的动态演化分析和预测。
将知识图谱应用于网络空间,从多源异构的数据中抽取丰富的实体对象及实体对象间关系,将全面的态势信息形成良好的结构组织,形成网络态势知识图谱,进而利用该网络态势知识图谱进行多目标行为的动态演化分析和预测,即可实现网络态势的智能感知与预测。
在本发明的一个优选实施例中,所述从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性还包括步骤:
抽取所述实体对象时,获得所述实体对象的指称项;
根据所述实体对象的指称项,筛选出一组候选实体对象;
对所述候选实体对象进行相似度计算,根据计算结果确定正确的实体对象,并将所述指称项链接到所述正确的实体对象。
网络空间多源异构原始数据的融合和关联过程要解决的问题是:如何在已有实体概念体系下,解析结构化、非结构化和半结构化数据,完成数据的融合和关联,为知识图谱的构建提供基础;网络空间实体对象链接过程要解决的问题是:在异构数据的融合和关联过程中,可能遇到的“同名不同义”和“同义不同名”的问题。
实体链接是将从本文中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象,据此去除信息抽取结果中的冗余和错误信息的操作。在异构数据源下进行数据融合所面临的一个重要问题是实体的名称指代不明确问题:即相同的名称可以指代不同的实体,不同的名称也可以指代相同的实体,即“同名不同义”和“同义不同名”的问题。
在实际应用过程中,实体链接的一般过程为:首先,根据给定的实体指称项,从知识库中选出一组候选实体对象,然后,通过相似度计算,将指称项链接到正确的实体对象。解决实体链接的两种主要的技术手段是实体消歧和共指消解。其中,实体消歧用来解决相同指称指代不同实体的问题,共指消解用来解决不同的指称指代相同实体的问题。通过这两种技术,可以去除网络空间态势知识图谱中的冗余和错误信息,从而得到高质量的网络空间态势知识图谱。
在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题,例如“attack”(攻击)在有的场景中代表着DDoS(Distributed denial of service,分布式拒绝服务)攻击,在有的场景中表示SQL注入攻击,在这种情况下,可以通过实体消歧的技术根据当前的语境准确建立实体链接,消除歧义。在实际使用过程中,实体消歧技术可以采用聚类方法,该方法以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。
在实际语言环境中,也经常会遇到“同义不同名”的问题。例如,“Firewall rule”和“Firewall policy”大部分情况下指的都是防火墙的策略,这两个指称项可能指向的是同一实体对象,其它的许多代词如“it”等,也可能指向该实体对象。使用共指消解技术可以将这些指称项关联到正确的实体对象。共指消解技术主要来自以句法分析为基础的自然语言处理领域;随着统计机器学习方法被引入该领域,将该问题转化为分类或者聚类问题。
本发明中,构建网络空间态势知识图谱之后,根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测之前,还包括步骤:对所述网络空间态势知识图谱进行向量化表示、时序增量描述、多目标间隐藏关系或新关系的挖掘。
上述方法中,利用网络空间态势知识图谱进行多目标行为动态演化分析和预测之前,首先还要解决网络态势知识图谱的向量化表示问题;其次,由于知识图谱是静态的,是对当前时刻知识的描述,所以,需要描述网络态势知识图谱的时序增量,以便实现对行为动态演化的描述,为研究行为的动态性提供技术支持;另外,基于已有的网络态势知识图谱,挖掘出多目标间的隐藏关系或新关系,以便完成多目标行为的演化分析和预测。
本发明实施例中,所述抽取所述网络空间实体概念,包括:
从词法规则和词性特征的角度对数据进行处理,得到处理后的数据;
对所述处理后的数据进行分词,并对分词结果进行频数统计。
实体概念抽取是从半结构化或非结构化的数据中抽取基本信息单元的过程。
本发明中,采用基于规则和统计相结合的概念抽取方法。基于规则的方法是从词法规则、词性特征的角度完成对数据特征的分析工作;基于统计的方法是先对处理后的数据进行分词,然后对分词结果进行频数统计,进而完成概念的抽取。这两种方法各有利弊,单纯使用基于规则的方法,会忽略掉词频对于概念抽取的影响;单纯考虑词频则会忽略掉语义等特征对概念抽取的影响,因此将基于规则与基于统计的方法结合起来,能够从词法特征、语义规则以及词频的角度完成对概念的抽取。这种首先采用基于规则的方法,其次采用基于统计的方法完成的概念抽取的方法,充分利用了规则与统计各自的优势。
本发明中,所述网络空间实体概念间关系,包括:分类关系和非分类关系,其中,所述分类关系包括上下位关系、并列关系,所述非分类关系为除去所述分类关系之外的其他关系,包括整体与部分关系、人与地点间的关联关系。
其中,所述抽取所述网络空间实体概念间分类关系,包括:
当所述网络空间实体概念的数量小于设定值或异构原始数据为结构化数据时,人工手动抽取;
当所述网络空间实体概念的数量大于设定值或异构原始数据为非结构化数据或半结构化数据时,利用数据驱动法自动抽取;所述数据驱动法自动抽取具体包括:
所述网络空间实体概念并列关系相似度计算,用于考察任意给定的两个实体概念属于同一概念分类的测度,相似度越高,该两个实体概念属于同一语义类别测度越高;
所述网络空间实体概念上下位关系抽取,用于确定实体概念之间的隶属关系;
本体的生成,用于对各层次得到的实体概念进行聚类,并对实体概念进行语义类标定。
本发明中,对于非分类关系的抽取,采用基于句法依存分析的方法完成对基本模板的抽取,然后根据提取得到的模板,使用基于bootstrapping(自举法)的方法完成对三元组模板的扩充,最后对态势数据的分词结果进行词的向量化表示,完成概念与概念间的相似度的计算,得到具有相似关系的概念集合。
本发明中,所述依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性,包括:
从网络通信数据中抽取通信双方、通信协议、数据量、应用类型的信息,并映射至实体对象,完成实体对象、对象关系及属性的抽取;
和/或
从半结构化的文本数据中抽取实体对象、对象关系及属性;
和/或
首先从自然语言描述的非结构化数据中提取语义信息,并融合至实体对象,然后采用机器学习方法抽取实体对象关联关系及属性信息。
网络通信数据是网络空间最主要和基础的数据之一,对其进行深度解析是洞悉真实、全面网络态势的前提,也是构建网络空间知识图谱的必要步骤。基于对通信数据的深度解析,从中提取出通信双方、通信协议、数据量、应用类型等信息,从而将相关信息抽取并映射至实体对象,实现实体对象、对象关系及属性的抽取。
系统日志、设备日志、审计记录、报警信息等数据主要以文本格式承载,通常呈现半结构化形态,是网络空间数据的重要组成部分,这些类型的数据,对于理解与把握网络空间总体态势具有不可忽视的作用。这类半结构化的文本格式数据具有一定的规范标准,使用基于预定义的规则与模式匹配的方式进行分析处理,实现快速精准定位实体对象,完成对象关系与属性抽取。
漏洞及脆弱性信息、恶意域名及IP地址等威胁情报数据是由自然语言描述的,往往以非结构化形态呈现,这类网络空间数据是掌握整体态势的必要辅助和重要补充。对于这类数据,可以采用自然语言处理技术提取语义层次的信息,再融合至网络空间的实体对象。构建有监督及无监督的机器学习模型,挖掘自然语言中的实体对象关联关系及属性信息,从而为知识图谱构建提供所需的相关信息。
本发明中,所述对所述网络空间态势知识图谱进行向量化表示包括:将高维稀疏的所述网络空间态势知识图谱降维转化为低维稠密的所述网络空间态势知识图谱。
网络态势知识图谱是一种图,能够清晰描述知识脉络。然而,计算机无法直接处理图,现有的机器学习算法也无法直接处理图,必须将图转化成一种特定的数据结构,才能交给计算机处理。现有机器学习算法的输入多为向量形式,因此,将网络态势知识图谱进行向量化表示,将高维稀疏的态势知识图谱进行降维,转化为低维稠密向量,为进行后续多目标行为分析和预测提供基础。
所述对所述网络空间态势知识图谱进行时序增量描述包括:描述一个时间窗口内,所述网络空间态势知识图谱中实体对象以及实体对象间关系的变化。
多目标的行为演化,强调行为的发生、发展和结果,强调行为的时序和动态性,属于动态态势。因此,需要按照时序将不同时刻的知识图谱排列起来,得到多目标行为动态演化的时序网络态势知识图谱群,基于这个时序网络态势知识图谱群,即可完成对多目标行为演化的分析和预测。
所述多目标间隐藏关系或新关系的挖掘包括:基于已有的所述网络空间态势知识图谱,采用表示学习方法,完成多目标间的隐藏关系或新关系的挖掘。
表示学习方法中以Trans家族算法(Trans、TransH、TransR、TransD等)最为突出。Trans家族算法又称为翻译模型,该模型中将知识库中实体间关系当做实体间的平移,并用向量表示,即关系可以看做是从头实体向量到尾实体向量的翻译。最基本的翻译模型参数较少,计算复杂度低,即使在大规模稀疏知识库上也同样具有较好的性能和可扩展性。
实施例二
如图2所示,本发明的另一方面,还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种网络空间态势的智能感知和预测装置,包括:
网络空间实体概念集合构建模块,用于抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
原始数据获取模块,用于获取网络空间多源异构原始数据;
数据融合模块,用于依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
网络空间态势知识图谱构建模块,用于根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
动态演化分析和预测模块,用于根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。
进一步地,所述数据融合模块还用于:
抽取所述实体对象时,获得所述实体对象的指称项;
根据所述实体对象的指称项,筛选出一组候选实体对象;
对所述候选实体对象进行相似度计算,根据计算结果确定正确的实体对象,并将所述指称项链接到所述正确的实体对象。
进一步地,所述装置还包括链接模块,用于在构建网络空间态势知识图谱之后,根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测之前,对所述网络空间态势知识图谱进行向量化表示、时序增量描述、多目标间隐藏关系或新关系的挖掘。
进一步地,所述抽取所述网络空间实体概念,包括:
从词法规则和词性特征的角度对数据进行处理,得到处理后的数据;
对所述处理后的数据进行分词,并对分词结果进行频数统计。
所述网络空间实体概念间关系,包括:分类关系和非分类关系,其中,所述分类关系包括上下位关系、并列关系,所述非分类关系为除去所述分类关系之外的其他关系,包括整体与部分关系、人与地点间的关联关系。
所述抽取所述网络空间实体概念间分类关系,包括:
当所述网络空间实体概念的数量小于设定值或异构原始数据为结构化数据时,人工手动抽取;
当所述网络空间实体概念的数量大于设定值或异构原始数据为非结构化数据或半结构化数据时,利用数据驱动法自动抽取;所述数据驱动法自动抽取具体包括:
所述网络空间实体概念并列关系相似度计算,用于考察任意给定的两个实体概念属于同一概念分类的测度,相似度越高,该两个实体概念属于同一语义类别测度越高;
所述网络空间实体概念上下位关系抽取,用于确定实体概念之间的隶属关系;
本体的生成,用于对各层次得到的实体概念进行聚类,并对实体概念进行语义类标定。
所述依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性,包括:
从网络通信数据中抽取通信双方、通信协议、数据量、应用类型的信息,并映射至实体对象,完成实体对象、对象关系及属性的抽取;
和/或
从半结构化的文本数据中抽取实体对象、对象关系及属性;
和/或
首先从自然语言描述的非结构化数据中提取语义信息,并融合至实体对象,然后采用机器学习方法抽取实体对象关联关系及属性信息。
所述对所述网络空间态势知识图谱进行向量化表示和时序增量描述包括:
将高维稀疏的所述网络空间态势知识图谱降维转化为低维稠密的所述网络空间态势知识图谱;
描述一个时间窗口内,所述网络空间态势知识图谱中实体对象以及实体对象间关系的变化。
该装置可通过上述实施例一提供的网络空间态势的智能感知和预测方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种计算机设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明提供的网络空间态势的智能感知和预测方法、装置和计算机设备,通过抽取并表达网络空间实体概念以及实体概念间关系和属性,构建网络空间实体概念集合,并将多源异构原始数据与网络空间实体概念集合进行关联和融合,构建网络空间态势知识图谱,最后根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测。实现了对网络空间多源异构数据的深层次信息的挖掘,进而实现了对网络总体运行态势的全面深入的分析预测。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种网络空间态势的智能感知和预测方法,其特征在于,包括如下步骤:
抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
获取网络空间多源异构原始数据;
依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测;
构建网络空间态势知识图谱之后,根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测之前,还包括步骤:
对所述网络空间态势知识图谱进行向量化表示、时序增量描述、多目标间隐藏关系或新关系的挖掘;
所述对所述网络空间态势知识图谱进行向量化表示和时序增量描述包括:
将高维稀疏的所述网络空间态势知识图谱降维转化为低维稠密的所述网络空间态势知识图谱;
描述一个时间窗口内,所述网络空间态势知识图谱中实体对象以及实体对象间关系的变化;按照时序将不同时刻的知识图谱排列起来,得到多目标行为动态演化的时序网络态势知识图谱群,基于这个时序网络态势知识图谱群,完成对多目标行为演化的分析和预测;
所述多目标间隐藏关系或新关系的挖掘包括:基于已有的所述网络空间态势知识图谱,采用表示学习方法,完成多目标间的隐藏关系或新关系的挖掘。
2.如权利要求1所述的网络空间态势的智能感知和预测方法,其特征在于,所述从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性还包括步骤:
抽取所述实体对象时,获得所述实体对象的指称项;
根据所述实体对象的指称项,筛选出一组候选实体对象;
对所述候选实体对象进行相似度计算,根据计算结果确定正确的实体对象,并将所述指称项链接到所述正确的实体对象。
3.如权利要求1所述的网络空间态势的智能感知和预测方法,其特征在于,所述抽取所述网络空间实体概念,包括:
从词法规则和词性特征的角度对数据进行处理,得到处理后的数据;
对所述处理后的数据进行分词,并对分词结果进行频数统计。
4.如权利要求1所述的网络空间态势的智能感知和预测方法,其特征在于,所述网络空间实体概念间关系,包括:分类关系和非分类关系,其中,所述分类关系包括上下位关系、并列关系,所述非分类关系为除去所述分类关系之外的其他关系,包括整体与部分关系、人与地点间的关联关系。
5.如权利要求4所述的网络空间态势的智能感知和预测方法,其特征在于,所述抽取所述网络空间实体概念间分类关系,包括:
当所述网络空间实体概念的数量小于设定值或异构原始数据为结构化数据时,人工手动抽取;
当所述网络空间实体概念的数量大于设定值或异构原始数据为非结构化数据或半结构化数据时,利用数据驱动法自动抽取;所述数据驱动法自动抽取具体包括:
所述网络空间实体概念并列关系相似度计算,用于考察任意给定的两个实体概念属于同一概念分类的测度,相似度越高,该两个实体概念属于同一语义类别测度越高;
所述网络空间实体概念上下位关系抽取,用于确定实体概念之间的隶属关系;
本体的生成,用于对各层次得到的实体概念进行聚类,并对实体概念进行语义类标定。
6.如权利要求1所述的网络空间态势的智能感知和预测方法,其特征在于,所述依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性,包括:
从网络通信数据中抽取通信双方、通信协议、数据量、应用类型的信息,并映射至实体对象,完成实体对象、对象关系及属性的抽取;
和/或
从半结构化的文本数据中抽取实体对象、对象关系及属性;
和/或
首先从自然语言描述的非结构化数据中提取语义信息,并融合至实体对象,然后采用机器学习方法抽取实体对象关联关系及属性信息。
7.一种网络空间态势的智能感知和预测装置,其特征在于,包括:
网络空间实体概念集合构建模块,用于抽取并表达网络空间实体概念以及所述网络空间实体概念间关系和属性,构建网络空间实体概念集合;
原始数据获取模块,用于获取网络空间多源异构原始数据;
数据融合模块,用于依据所述网络空间实体概念集合,从所述网络空间多源异构原始数据中,抽取实体对象以及所述实体对象间关系和属性;
网络空间态势知识图谱构建模块,用于根据所述实体对象以及所述实体对象间关系和属性,构建网络空间态势知识图谱;
动态演化分析和预测模块,用于根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测;构建网络空间态势知识图谱之后,根据所述网络空间态势知识图谱,进行多目标行为动态演化分析和预测之前,还包括步骤:对所述网络空间态势知识图谱进行向量化表示、时序增量描述、多目标间隐藏关系或新关系的挖掘;
所述对所述网络空间态势知识图谱进行向量化表示和时序增量描述包括:将高维稀疏的所述网络空间态势知识图谱降维转化为低维稠密的所述网络空间态势知识图谱;描述一个时间窗口内,所述网络空间态势知识图谱中实体对象以及实体对象间关系的变化;按照时序将不同时刻的知识图谱排列起来,得到多目标行为动态演化的时序网络态势知识图谱群,基于这个时序网络态势知识图谱群,完成对多目标行为演化的分析和预测;
所述多目标间隐藏关系或新关系的挖掘包括:基于已有的所述网络空间态势知识图谱,采用表示学习方法,完成多目标间的隐藏关系或新关系的挖掘。
8.一种计算机设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的方法。
CN201911118612.XA 2019-11-15 2019-11-15 网络空间态势的智能感知和预测方法、装置和计算机设备 Active CN111538842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911118612.XA CN111538842B (zh) 2019-11-15 2019-11-15 网络空间态势的智能感知和预测方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911118612.XA CN111538842B (zh) 2019-11-15 2019-11-15 网络空间态势的智能感知和预测方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111538842A CN111538842A (zh) 2020-08-14
CN111538842B true CN111538842B (zh) 2023-10-03

Family

ID=71972880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911118612.XA Active CN111538842B (zh) 2019-11-15 2019-11-15 网络空间态势的智能感知和预测方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111538842B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364137A (zh) * 2020-09-03 2021-02-12 中国人民解放军战略支援部队信息工程大学 一种空间目标态势的知识图谱构建方法
CN112258339A (zh) * 2020-09-29 2021-01-22 广东电力通信科技有限公司 一种基于电网系统技术的数据处理储备方法及系统
CN112561300A (zh) * 2020-12-10 2021-03-26 南京莱斯信息技术股份有限公司 一种基于人工智能的应急指挥辅助决策方法及系统
CN112822191B (zh) * 2021-01-06 2021-11-02 大连理工大学 一种网络化协同系统中多维数据安全性检测的方法
CN112883192B (zh) * 2021-02-09 2023-09-05 江苏名通信息科技有限公司 一种异构领域用户与资源关联挖掘方法及系统
CN113242236B (zh) * 2021-05-08 2022-09-16 国家计算机网络与信息安全管理中心 一种网络实体威胁图谱构建方法
CN113220911B (zh) * 2021-05-25 2024-02-02 中国农业科学院农业信息研究所 一种农业多源异构数据的分析与挖掘方法及其应用
CN113254674B (zh) * 2021-07-12 2021-11-30 深圳市永达电子信息股份有限公司 一种网络安全设备知识推理方法、装置、系统及存储介质
CN113642002B (zh) * 2021-07-28 2024-02-02 上海纽盾科技股份有限公司 用于云数据安全事件的快速定位态势感知方法及系统
CN113760996A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种数据整合方法及系统、设备和存储介质
CN114666228B (zh) * 2022-02-17 2023-04-07 四川九洲电器集团有限责任公司 一种网络空间目标模型构建方法、系统、终端及介质
CN117076592A (zh) * 2023-10-18 2023-11-17 中国科学院地理科学与资源研究所 一种网络空间地图的创建方法及相关设备
CN117972111A (zh) * 2024-02-26 2024-05-03 四川大学 一种基于在线图处理技术面向知识图谱的知识推理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147515A (zh) * 2017-03-21 2017-09-08 华南师范大学 一种基于mln的网络空间安全态势预测方法及系统
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107147515A (zh) * 2017-03-21 2017-09-08 华南师范大学 一种基于mln的网络空间安全态势预测方法及系统
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾焰等.一种构建网络安全知识图谱的实用方法.中国期刊全文数据库.2018,第59-67页. *

Also Published As

Publication number Publication date
CN111538842A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538842B (zh) 网络空间态势的智能感知和预测方法、装置和计算机设备
Fang et al. Phishing email detection using improved RCNN model with multilevel vectors and attention mechanism
US11893355B2 (en) Semantic map generation from natural-language-text documents
CA3021168C (en) Anticipatory cyber defense
CN109902297B (zh) 一种威胁情报生成方法及装置
CN109885698A (zh) 一种知识图谱构建方法及装置、电子设备
CN107783973A (zh) 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
US11977569B2 (en) Autonomous open schema construction from unstructured text
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
Perera et al. Cyberattack prediction through public text analysis and mini-theories
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
CN116756327B (zh) 基于知识推断的威胁情报关系抽取方法、装置和电子设备
Krishnamoorthy et al. A novel and secured email classification and emotion detection using hybrid deep neural network
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
Zhang et al. An automatic assessment method of cyber threat intelligence combined with ATT&CK matrix
Huang et al. Building Cybersecurity Ontology for Understanding and Reasoning Adversary Tactics and Techniques
Hassaoui et al. Unsupervised Clustering for a Comparative Methodology of Machine Learning Models to Detect Domain-Generated Algorithms Based on an Alphanumeric Features Analysis
Aliyu et al. Analysis of cyber bullying on Facebook using text mining
Ahmed et al. Semisupervised Federated Learning for Temporal News Hyperpatism Detection
Zhong et al. FLP: a feature‐based method for log parsing
CN115563296A (zh) 基于内容语义的融合检测方法和系统
Frank et al. Introduction to natural language processing (NLP) in cybersecurity
Qureshi et al. Detecting social polarization and radicalization
Zhao et al. Hot question prediction in Stack Overflow
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant