CN109885698A - 一种知识图谱构建方法及装置、电子设备 - Google Patents
一种知识图谱构建方法及装置、电子设备 Download PDFInfo
- Publication number
- CN109885698A CN109885698A CN201910112911.6A CN201910112911A CN109885698A CN 109885698 A CN109885698 A CN 109885698A CN 201910112911 A CN201910112911 A CN 201910112911A CN 109885698 A CN109885698 A CN 109885698A
- Authority
- CN
- China
- Prior art keywords
- entity
- industry control
- secure data
- extraction
- control secure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种知识图谱构建方法及装置,包括:从多种类型的数据源采集多种类型的工控安全数据;对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;对抽取出来的实体进行实体消歧处理;将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
Description
技术领域
本申请涉及工业控制(简称为工控)技术领域,尤其涉及一种面向工控安全的知识图谱构建方法及装置、电子设备。
背景技术
随着互联网与大数据产业的不断发展和完善,越来越多的行业加入到互联网的大军中来,信息互联、数据互通成为行业发展的趋势。与此同时,随着工业4.0概念的提出,工业信息化逐渐也成为企业所关注的方向。越来越多的工业厂商注重采集和获取整个生产活动中的所有数据,包括供应链、生产线以及用户端的各项内容,因而诞生了越来越多的便于数据采集和传输的物联网设备。
近年来接二连三发生的一件件工控物联网领域内的安全事件也在给我们不断地敲响着警钟,从Havex病毒(类似于震网病毒)对工业控制系统厂商发起的攻击,到W国东部的停电事件(BlackEnergy恶意软件),再到E区域能源公司遭受入侵事件(SFG恶意软件),以及最近的B国东部断网事件(Marai病毒),这些案例都在告诉我们工业物联网设备目前存在着极大的安全问题,而很多物联网设备都与能源、交通、金融等国家关键基础设施相关,所以其带来的安全威胁远比传统意义上的信息安全要大得多。工控安全事件由于其愈加增长的破坏力、组织性以及加重的趋势,致使工控安全威胁显得更加突出,因而如何有效地了解、反思并预防这些安全威胁,是工业大数据时代不可避免思考的一个问题。
发明内容
为解决上述技术问题,本申请实施例提供了一种面向工控安全的知识图谱构建方法及装置、电子设备。
本申请实施例提供的知识图谱构建方法,包括:
从多种类型的数据源采集多种类型的工控安全数据;
对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;
对抽取出来的实体进行实体消歧处理;
将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;
利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
本申请实施例提供的知识图谱构建装置,包括:
采集模块,用于从多种类型的数据源采集多种类型的工控安全数据;
抽取模块,用于对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;
消歧模块,用于对抽取出来的实体进行实体消歧处理;
搭建模块,用于将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;
推理模块,用于利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
本申请实施例提供的电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于与所述存储器通信以执行所述可执行指令从而完成上述的知识图谱构建方法的操作。
采用本申请实施例的上述技术方案,很好的实现了工控多源大数据的融合,将工控设备、厂商、漏洞、脚本等多类实体进行有机的结合,构建了一套可重用的知识库,为工控安全的分析和研究提供了很好的数据支撑和工具平台。
附图说明
图1为本申请实施例提供的知识图谱构建方法的流程示意图;
图2为本申请实施例提供的面向工控安全的知识图谱系统的原理图;
图3为本申请实施例提供的面向工控安全的知识图谱系统整体框架图;
图4为本申请实施例提供的多源数据采集的流程图;
图5为本申请实施例提供的知识抽取的流程图;
图6为本申请实施例提供的基于卷积神经网络的关系抽取的流程图;
图7为本申请实施例提供的基于卷积神经网络的消歧处理的流程图;
图8为本申请实施例提供的知识图谱构建装置的结构组成示意图;
图9为本发明实施例中电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
知识图谱技术越来越多的应用于人们的日常生活中,在搜索和问答领域散发出了了巨大的魅力。工业作为我们国家的基础产业,工业控制系统更是关乎到国计民生。如今工业控制系统在走向信息化、网络化、便捷化的过程中,也面临着数据量大,难以融合,形成一片又一片的数据孤岛,不能建立完整的知识体系等问题,这些问题甚至为我国的关键基础设施带来了隐患。面对着大量接入公网的工业控制设备和工业控制系统,如何实现大规模的数据整合,并从大量数据中抽取出有用的知识将成为工业发展道路上亟待解决的问题。
构建知识图谱主要包含实体抽取、关系抽取、实体消歧、知识推理等技术。学术界和产业界常用的实体抽取、关系抽取主要有以下几种方法:
方法1基于规则和模板的实体抽取方法:根据人工编写的名称规则和模板,并结合一定的启发式算法,实现从非结构化文本中进行命名实体的抽取。
方法2半监督的实体抽取方法:利用K最近邻(k-NearestNeighbor,KNN) 分类器对搜集到的文本进行预标记,获取到一些粗粒度的信息,然后使用条件随机场模型对文本生成连续的标签,进一步获取细粒度的信息。
方法3基于依存树核的关系抽取:利用支持向量机(Support Vector Machine,SVM)算法训练一个关系抽取的模型,然后利用依存树核的方法对关系进行分类。
方法4利用核方法进行关系抽取:在文本的浅层解析中定义一种核,并且设计一种高效的方法进行核的运算,将设计出来的核函数结合SVM算法和多层感知机算法进行使用,实现非结构化自然语言中的关系抽取。
上述技术存在的如下问题:
方法1的主要问题在于:第一,根据不同的领域,需要制定大量不同的规则或者模板,普适性不强,并且需要人工完成,制定规则模板的周期较长;第二,人工制定的规则模板不可能做到完全完备,不可避免地存在部分规则模板未被发现的情况,导致抽取的召回率较低;第三,制定好的规则模板不能保证在所有的情况下都适用,导致抽取的准确率较低。
方法2的主要问题在于:方法的准确率依赖于KNN分类的准确率以及条件随机场模型标记的准确率,而利用KNN分类器对文本标记的过程则对于数据文本的相关性要求较高,事实上针对工业控制安全领域,难以搜集到大量高相关的工控安全语料进行高质量的训练和标注。
方法3的主要问题在于:该方法首先利用SVM算法判断两个实体之间是否有关系,然后再对实体间的关系进行分类,但是在选取特征的过程中使用了较多的语法特征和统计特征,使用了较少的语义特征,使得算法的分类准确率较低。
方法4的主要问题在于虽然定义了新的核函数将特征映射到了高维空间,但是没有进行有效的特征工程实验,使得算法的准确率依然存在改进的空间。
针对当前工控知识图谱构建技术的不足,本申请专利主要解决了以下几点技术问题:
第一,构建了面向工控安全的知识图谱系统,解决了工业控制安全多源数据的难以融合的问题;
第二,以工控知识图谱为工具,实现工控知识可视化检索。
图1为本申请实施例提供的知识图谱构建方法的流程示意图,如图1所示,所述知识图谱构建方法包括以下步骤:
步骤101:从多种类型的数据源采集多种类型的工控安全数据。
本申请实施例设计并实现了可动态扩展、可重用且实时更新的高效数据爬虫工具,维护了一个不断迭代的工控安全高相关词典,能够从网络上公开的漏洞库、设备库、工控厂商官网、微博、论坛、微信公众号、博客等数据源采集大量包含工控安全高相关词典内所列关键词的数据,并存储至关系数据库。
步骤102:对所述工控安全数据进行实体抽取、关系抽取以及事件抽取。
本申请实施例中,所述工控安全数据具有两种类型,一类是结构化数据,另一类是非结构化数据。以下结合两种类型的数据对如何进行知识抽取进行描述。
1)实体抽取
1.1)对于属于结构化数据的工控安全数据,根据所述工控安全数据的字段名和规则进行实体抽取、关系抽取和属性抽取。
1.2)对于属于非结构化数据的工控安全数据,使用模板法或命名实体识别算法进行实体抽取;其中,
所述模板法包括:通过词性分析和关系关键词匹配,从语句中抽取实体;
所述命名实体识别算法包括:使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,得到粗粒度的实体;使用词向量 (Word2Vec)工具将所述粗粒度的实体转化为词向量,并筛选出工控高相关的实体的词向量;计算其他实体的词向量与所述工控高相关的实体的词向量的距离的均值,并迭代执行筛选工控高相关的实体的词向量的操作。
2)关系抽取
2.1)对于属于结构化数据的工控安全数据,按照定义的实体关系类别对所述工控安全数据进行抽取,得到实体间的关系以及部分实体的属性。
2.2)对于属于非结构化数据的工控安全数据,采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取。
进一步,使用Word2Vec工具将所述工控安全数据对应的所有训练语料中的词语进行向量化处理,并将每一个词汇转化为固定长度的词向量;
使用实体及其句式结构附近的词汇的词向量作为基本特征,将所述基本特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;
将所述特征向量经过不同卷积核的卷积运算后,得到目标特征集合,将所述目标特征集合应用于分类器中训练分类模型。
3)事件抽取
具体地,对所述工控安全数据进行事件识别和事件关键信息的提取。
这里,事件识别可以通过以下方式来实现:使用触发词词典对所述工控安全数据中的各个句子进行匹配,判断所述句子中是否描述了工控安全事件;其中,所述触发词词典包括事件核心词词典和/或事件相关词词典。
这里,事件关键信息可以通过以下方式来实现:当确认所述句子描述了一个工控安全事件后,按照预设规则从所述句子中抽取事件关键信息。
步骤103:对抽取出来的实体进行实体消歧处理。
本申请实施例中,对每一个待消歧的实体e,对于的候选实体集合为E={e1,e2,…,em};将所述e链接到所述E中的一个实体,从而将所述实体e划分为所述E中的一个类别。
步骤104:将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统。
步骤105:利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
以下结合具体应用场景对本申请实施例的技术方案做进一步详细描述。
图2为本申请实施例提供的面向工控安全的知识图谱系统的原理图,图3 为本申请实施例提供的面向工控安全的知识图谱系统整体框架图,如图2和图 3所示,本申请实施例的面向工控安全的知识图谱构建包括如下内容:
步骤一:工控安全多源异构数据的采集与过滤,设计并实现了可动态扩展、可重用且实时更新的高效数据爬虫工具,维护了一个不断迭代的工控安全高相关词典,能够从网络上公开的漏洞库、设备库、工控厂商官网、微博、论坛、微信公众号、博客等数据源采集大量包含工控安全高相关词典内所列关键词的数据,并存储至关系数据库,如图4所示。
步骤二:针对步骤一中所获取到的工控安全数据进行知识抽取,如图5所示。
(1)实体抽取
(一)对于结构化数据,直接根据其字段名和少量规则进行实体、关系和属性的抽取,具体地:
a)对于从设备库中获取到的设备数据,其在数据库中以结构化的方式存储,可以直接将一条设备信息作为一个设备实体;
b)对于从国家信息安全漏洞共享平台(China National VulnerabilityDatabase,CNVD)漏洞库中获取到的漏洞数据,其在数据库中同样以结构化的方式存储,也可以直接将一条漏洞信息作为一个漏洞实体;
c)对于厂商实体,则需要从设备实体的属性集合中进行抽取,在每一条设备信息中,都存在一个厂商字段,将这些厂商字段不重复的遍历一遍,即可得到厂商实体;
d)对于协议实体,与厂商实体类似,其作为设备实体的一个属性,同样需要通过字符串匹配的方式得到每一个设备对应的协议集合,将这些协议遍历一遍即可得到协议实体;
e)对于行业实体,需要从漏洞数据和厂商数据中获得,采用模式匹配的方法,通常有“A应用于B(行业)”这样的模式,从中即可提取出所有的行业实体。
f)对于其余可从结构化数据中直接抽取的实体,抽取的一般规则为直接从数据表项中抽取,以实体在数据库中的字段名作为其实体类别。
(二)对于非结构化数据,所使用的技术如下:
a)模板法:模板法是通过词性分析和关系关键词匹配,从语句中抽取实体的方法,模板法的算法流程如下所示。
b)命名实体识别算法:
对非结构化的设备文本、漏洞文本以及新闻文本等1000篇文本进行了分词和人工标注,标注出了包括设备、漏洞、行业、地点、时间、机构等在内的20 多个命名实体类型,使用NER工具和LTP工具对英文文本和中文文本分别进行模型的训练,最终得到了两个应用于工控领域的中英文分开的命名实体识别模型。
使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,能够自动抽取到一些粗粒度的实体。在获取到这些粗粒度的实体后,使用Word2Vec工具将实体名转化为词向量,并手工筛选出少量工控高相关的实体,通过这些已知高相关实体的词向量,计算其他实体的词向量与这些词向量的距离的均值,不断迭代从而从中选取更多的高相关实体。
(2)关系抽取
(一)对于结构化数据,可以直接按照定义的实体关系类别进行抽取,其中不仅包括了实体间的关系,也包括了部分实体的属性:
a)设备与厂商之间的关系,通过设备信息中的厂商字段即可建立两者之间的关系;
b)设备与协议之间的关系,通过字符串的分割和匹配,从文本中提取设备所使用的协议,并将设备实体与对应的协议实体建立关系;
c)设备与漏洞之间的关系,通过漏洞信息中的描述,可以抽取得到其影响的设备名称,即可对应为设备与漏洞之间的关系。
除了上述的实体关系抽取外,还有设备的若干属性也可以通过结构化的数据直接进行抽取,由于数据库中将每个设备的各项物理属性存为了参数字符串,因而需要通过字符串分割、字符串匹配等方式将字符串还原为参数项,并对应到各个设备实体中。
(二)对于非结构化数据,采用基于词向量的卷积神经网络的实体关系抽取方法,参照图6:
a)使用Google开源的Word2Vec工具将所有训练语料中的词语进行向量化处理,将每一个词汇都转化为固定长度的词向量
b)使用实体及其句式结构附近的词汇的词向量作为基本特征,将这些特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量
c)将这些特征向量经过不同卷积核的卷积运算后会提取到更多的特征,将最后生成的特征向量集合应用于分类器中,训练分类模型。
这里,用E1代表一个关系中的第一个实体,用E2代表该关系中的第二个实体,则具体的特征表如下表1所示:
编号 | 特征 |
F1 | E1的词向量 |
F2 | E1前第一个词的词向量 |
F3 | E1前第二个词的词向量 |
F4 | E1后第一个词的词向量 |
F5 | E1后第二个词的词向量 |
F6 | E2的词向量 |
F7 | E2前第一个词的词向量 |
F8 | E2前第二个词的词向量 |
F9 | E2后第一个词的词向量 |
F10 | E2后第二个词的词向量 |
表1
当经过卷积层提取出多样化的特征后,将这些特征展开铺平得到了一个完整的一维特征向量x,并选择Softmax分类器做最后的分类工作:
Z=soft max(Hx)
其中,Z是最终分类器输出的向量,代表类别的选择概率,H是转移矩阵。
词向量和卷积核和参数设置如表2所示,卷积神经网络以LeNet-5结构为基准进行调整,其结构如表2
所示。
表2
网络层级 | 输入大小 | 输出大小 |
Input | 10*160 | 40*40 |
Conv_1 | 40*40 | 6*36*36 |
Pool_1 | 6*36*36 | 6*18*18 |
Conv_2 | 6*18*18 | 16*14*14 |
Pool_2 | 16*14*14 | 16*7*7 |
Full | 784*1 | 120 |
Output | 120 | 42 |
表3
(3)事件抽取
事件抽取整体分为两个部分,分别为事件识别和事件关键信息提取。
(一)事件识别
事件识别部分使用了触发词词典的方式进行匹配。该部分包含了两个需要使用的词典,一个是事件核心词词典,一个是事件相关词词典。前者意味着该词语描述了事件的本身,所以意味着一个句子内必须包含该词典内的词语,且符合一定的要求,该句子才会被判定为一个工控安全事件;后者意味着这些词语只是工控安全事件相关的词语,并不对判定是否为工控安全事件起决定性的作用,因而一个句子内包含这些词语则只是说明该句子有可能描述了一个工控安全事件。
表4中列出了事件核心词词典和事件相关词词典的部分内容:
表4
事件核心词词典中的词语理应全部都是动词,但是事实上知道,汉语的词性有时并不是那么严格,例如“控制”一词在特定的语境下既可以做动词也可以做名词,所以常常会出现同一个词需要根据语境来判断该词的词性的现象,因而需要结合词性标注的结果进行分析,当一个句子中出现的事件核心词在该句中的词性为动词时,才会继续进行后续的判断,否则该句子不会被认为表示了一个工控安全事件。
与此同时,本算法减少了对于远离句子核心部分的词语的考量。考虑到当一个关键词出现在距离句子核心部分较远的地方时,很有可能此时句子所要表现的内容并不体现在关键词上,因而不能将此时出现的关键词作为事件判断的标志。本文使用依存句法分析中的依存距离来表示一句话中的不同词语在语法层面上的距离,而这一距离与普遍意义上理解的词语之间的距离相去甚远。知道每一个句子经过依存句法分析后都会有一个句法依存树,而依存距离则正是指两个词语在该树上的距离,也可以理解为从一个词语到达另一个词语需要经过的语法结构数目。比如对于一个句子“震惊!A国黑客将于7月6日对B国水利行业发动一场攻击。”来说,其中“发动”和“攻击”两个词之间,从日常的文本角度来看,其距离为3,但是事实上在该句的句法依存树上,两个词之间的距离只有1,因此“攻击”在该句子的句法依存树上与句子的核心词(依存树的根节点)“发动”之间的距离比看上去要离得更近。在这样的条件下,可以规定只有当事件的核心词距离句子的核心词的依存距离小于等于3时,该核心词才能视为有效,方可进行下一步的判断。另外,事件相关词词典中的词语仅用于协助判断句子是否描述了一个工控安全事件,即便这些词语距离句子的核心词再远,也不应影响对整个句子所作的判断。
(二)事件关键信息抽取
当从文本中确认获取到一个工控安全事件后,此时得到的事件信息是不完整的,仍缺少描述该时间最重要的若干属性,例如事情发生的事件、地点、组织、人物等。所以仍需要从句子中抽取出与该事件相关的一些其他信息,本文称之为事件关键信息或属性候选词。在这里,重点关注工控安全事件发生的时间和地点,组织和人物作为附加项,如果能够顺利提取出则更好。下面将介绍如何提取出一个事件的事件关键信息即属性候选词。
对于时间,本文只考虑两种时间,一种是精确到具体的年月日甚至具体到时分秒的绝对时间,例如“2018年5月4日”、“上午10点30分”、“00:00:00”等。另一种是对时间的简单指代,比如常用的“今天”,“明天”,“两个月前”等类似的表达方式。目前对于时间的抽取只考虑这两种简单的方式,其它的说法包括节日或者古语说法如“子时”等说法都不考虑在内。考虑到一个时间往往由多个短语构成,而不是独立的一个词或是一个短语,因而本文中使用正则匹配的方法来匹配简单的时间描述,因为命名实体识别的结果常常需要进一步的短语合并等工作。但是命名实体识别的结果同样可以与正则匹配的结果相结合,利用命名实体识别的结果来修正正则匹配的结果。
对于地点,利用LTP(一个哈工大开源的自然语言处理工具)抽取句子表示地点的词语,并且只考虑抽取到的所有表示地点的词语,即使是“这里”,“那里”这样的地点代词,也不去深究其指代的具体位置。LTP对于地点识别较为准确,能够识别出大多数村镇往上级别的行政区划,唯一的缺点就是对于人文或娱乐地点的识别不够准确,例如公园、餐厅等。
对于其他的事件属性,如人名或者机构名,利用句子中出现的与触发词相关的其他依存关系,结合词性标注和命名实体识别的结果,从中提取出具有动宾关系和定中关系的属性集合,进一步作为事件的属性标注。
当然,在进行关键信息提取过程中,不可避免地会出现在一个句子中能够提取出若干个相同种类的属性词的情况,例如在句子“A国黑客将于7月6日对B国水利行业发动一场大规模的DDOS攻击。”中,能够得到“A国”和“B 国”两个地点,而事实上这两个地点中只有“B国”代表了事件发生的地点,才能算作该事件的一个属性,因而需要增添一些筛选机制:
a)只有当提取出的关键词在满足以下三个条件之一的子树上时,才能判定为候选属性词:
I:子树以触发词为根节点;
II:子树以触发词的父节点为根节点;
III:子树以触发词的二级父结点为根节点;
b)考虑提取出的属性候选词到子树根节点的依存关系的类型,并做出如下四种限制(选取提取出的属性候选词中与根节点依存距离最近的词语作为属性候选词组的代表):
I)依存路径为“主谓”关系,如“A国报道称,B国已发生多起大规模停电事件”中的“B国”和“发生”;
II)依存路径为“动宾关系”,如“A国黑客攻击B国”中的“攻击”和“B国”;
III)依存路径为“动补—介宾关系”,如“大规模来自C国的DDOS攻击影响到B国东部的经济贸易”中的“影响”和“B国”;
IV)依存路径为“状中—介宾关系”,如“据多名C国留学生反映,在B国发生了大规模的停电事件”中的“B国”和“发生”;
c)如果通过上述筛选条件仍然存在多个同类型的属性候选词,则选取距离触发词依存距离最近的属性候选词作为该工控安全事件的属性。
步骤三:将步骤二中抽取出的实体进行实体消歧。
这里所用到的命名实体消歧算法,本质上是一个分类问题。对每一个待消歧的实体项e,其候选实体集合为E={e1,e2,…,em}。实体消歧的过程其实就是将待消歧的实体e链接到E中某个实体的过程,即将e划分为E中某个类别的过程,参照图7,具体所使用的算法流程如下所示:
(一)首先根据原始词语w,查询词向量表,得到每一个词的词向量Vw,Vw=Lw×iw,其中,Lw∈Rdw×|v|是词向量查找表,dw是词向量的维度,|V|是词典的大小;是指示向量,除了位w是1之外,其余的位全为0.
(二)根据待消歧实体e的上下文词语的词向量,构建e的词向量矩阵inconv
inconv={v1,v2,…vk},其中:inconv∈RK·dw,K是待消歧实体e上下文窗口的大小.
(三)将词向量矩阵输入到卷积神经网络Conv,得到输出:
OconvOconv=Wconv·inconv+bconv
其中,Wconv∈Rhl×K·dw,bconv∈Rhl,hl是卷积层输出的向量的长度。
(四)将卷积层的输出Oconv,输入全连接层HiddenLayer,得到实体表示 Vcontext:
Vcontext=Whidden·Oconv+bhidden
其中,Whidden∈Rh×k·numf,bhidden∈Rh,h是全连接层输出的向量的长度,numf是神经网络中的特征图的数量。
(五)计算候选实体集合E所有候选实体的语义表示,得到集合V:
V={V1,V2…,Vm}
(六)计算Vcontext与目标实体E中所有实体的余弦相似度,输出相似度最大的实体作为最终的目标实体e。
步骤四:将消歧后的实体、关系和属性存入图数据库中,搭建工控安全知识图谱系统,并利用关系图进行可视化展示,实现查询和智能问答功能;
步骤五:利用张量分解算法实现自动学习和推理能力,从现有图谱中挖掘潜在的有价值信息,并作为知识的一部分反馈存储在知识图谱之中。
图8为本申请实施例提供的知识图谱构建装置的结构组成示意图,如图8 所示,所述装置包括:
采集模块801,用于从多种类型的数据源采集多种类型的工控安全数据;
抽取模块802,用于对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;
消歧模块803,用于对抽取出来的实体进行实体消歧处理;
搭建模块804,用于将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;
推理模块805,用于利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
在一实施方式中,所述抽取模块802,用于:
对于属于结构化数据的工控安全数据,根据所述工控安全数据在数据库中的字段名和预设规则进行实体抽取、关系抽取和属性抽取。
在一实施方式中,所述抽取模块802,用于:
对于属于非结构化数据的工控安全数据,使用模板法和命名实体识别算法进行实体抽取;其中,
所述模板法包括:通过词性分析和关系关键词匹配,从语句中抽取实体;
所述命名实体识别算法包括:使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,得到粗粒度的实体;使用Word2Vec工具将所述粗粒度的实体转化为词向量,并筛选出工控高相关的实体的词向量;计算其他实体的词向量与所述工控高相关的实体的词向量的距离的均值,并迭代执行筛选工控高相关的实体的词向量的操作。
在一实施方式中,所述抽取模块802,用于:
对于属于结构化数据的工控安全数据,按照定义的实体关系类别对所述工控安全数据进行抽取,得到实体间的关系以及部分实体的属性。
在一实施方式中,所述抽取模块802,用于:
对于属于非结构化数据的工控安全数据,采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取。
在一实施方式中,所述抽取模块802,用于:
使用Word2Vec工具将所述工控安全数据对应的所有训练语料中的词语进行向量化处理,并将每一个词汇转化为固定长度的词向量;
使用实体及其句式结构附近的词汇的词向量作为基本特征,将所述基本特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;
将所述特征向量经过不同卷积核的卷积运算后,得到目标特征集合,将所述目标特征集合应用于分类器中训练分类模型。
在一实施方式中,所述抽取模块802,用于:
对所述工控安全数据进行事件识别和事件关键信息的提取。
在一实施方式中,所述抽取模块802,用于:
使用触发词词典对所述工控安全数据中的各个句子进行匹配,判断所述句子中是否描述了工控安全事件;
其中,所述触发词词典包括事件核心词词典和/或事件相关词词典。
在一实施方式中,所述抽取模块802,用于:当确认所述句子描述了一个工控安全事件后,按照预设规则从所述句子中抽取事件关键信息。
在一实施方式中,所述消歧模块803,用于:
对每一个待消歧的实体e,对于的候选实体集合为E={e1,e2,…,em};
将所述e链接到所述E中的一个实体,从而将所述实体e划分为所述E中的一个类别。
本领域技术人员应当理解,图8所示的知识图谱构建装置中的各模块的实现功能可参照前述知识图谱构建方法的相关描述而理解。图8所示的知识图谱构建装置中的各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例还提供了一种电子设备,例如可以是移动终端、个人计算机 (PC)、平板电脑、服务器等。图9为本申请实施例中电子设备一个应用实施例的结构示意图。下面参考图9,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备1500的结构示意图:如图9所示,电子设备1500包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)1501,和/或一个或多个图像处理器(GPU)1513等,处理器可以根据存储在只读存储器(ROM)1502中的可执行指令或者从存储部分 1508加载到随机访问存储器(RAM)1503中的可执行指令而执行各种适当的动作和处理。通信部1512可包括但不限于网卡,所述网卡可包括但不限于IB (Infiniband)网卡,处理器可与只读存储器1502和/或随机访问存储器1503中通信以执行可执行指令,通过总线1504与通信部1512相连、并经通信部1512 与其他目标设备通信,从而完成本申请实施例提供的任一方法对应的操作。
此外,在RAM 1503中,还可存储有装置操作所需的各种程序和数据。 CPU1501、ROM1502以及RAM1503通过总线1504彼此相连。在有RAM1503 的情况下,ROM1502为可选模块。RAM1503存储可执行指令,或在运行时向 ROM1502中写入可执行指令,可执行指令使处理器1501执行上述通信方法对应的操作。输入/输出(I/O)接口1505也连接至总线1504。通信部1512可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
需要说明的,如图9所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如 GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本申请公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本申请的方法中限定的上述功能。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置、系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本申请的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法、装置和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。
Claims (21)
1.一种知识图谱构建方法,其特征在于,所述方法包括:
从多种类型的数据源采集多种类型的工控安全数据;
对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;
对抽取出来的实体进行实体消歧处理;
将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;
利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
2.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行实体抽取,包括:
对于属于结构化数据的工控安全数据,根据所述工控安全数据在数据库中的的字段名和预设的规则进行实体抽取、关系抽取和属性抽取。
3.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行实体抽取,包括:
对于属于非结构化数据的工控安全数据,使用模板法和命名实体识别算法进行实体抽取;其中,
所述模板法包括:通过词性分析和关系关键词匹配,从语句中抽取实体;
所述命名实体识别算法包括:使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,得到粗粒度的实体;使用词向量Word2Vec工具将所述粗粒度的实体转化为词向量,并筛选出工控高相关的实体的词向量;计算其他实体的词向量与所述工控高相关的实体的词向量的距离的均值,并迭代执行筛选工控高相关的实体的词向量的操作。
4.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行关系抽取,包括:
对于属于结构化数据的工控安全数据,按照定义的实体关系类别对所述工控安全数据进行抽取,得到实体间的关系以及部分实体的属性。
5.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行关系抽取,包括:
对于属于非结构化数据的工控安全数据,采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取。
6.根据权利要求5所述的方法,其特征在于,所述采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取,包括:
使用Word2Vec工具将所述工控安全数据对应的所有训练语料中的词语进行向量化处理,并将每一个词汇转化为固定长度的词向量;
使用实体及其句式结构附近的词汇的词向量作为基本特征,将所述基本特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;
将所述特征向量经过不同卷积核的卷积运算后,得到目标特征集合,将所述目标特征集合应用于分类器中训练分类模型。
7.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行事件抽取,包括:
对所述工控安全数据进行事件识别和事件关键信息的提取。
8.根据权利要求7所述的方法,其特征在于,所述对所述工控安全数据进行事件识别,包括:
使用触发词词典对所述工控安全数据中的各个句子进行匹配,判断所述句子中是否描述了工控安全事件;
其中,所述触发词词典包括事件核心词词典和/或事件相关词词典。
9.根据权利要求8所述的方法,其特征在于,所述对所述工控安全数据进行事件关键信息的提取,包括:
当确认所述句子描述了一个工控安全事件后,按照预设规则从所述句子中抽取事件关键信息。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述对抽取出来的实体进行实体消歧处理,包括:
对每一个待消歧的实体e,对于的候选实体集合为E={e1,e2,…,em};
将所述e链接到所述E中的一个实体,从而将所述实体e划分为所述E中的一个类别。
11.一种知识图谱构建装置,其特征在于,所述装置包括:
采集模块,用于从多种类型的数据源采集多种类型的工控安全数据;
抽取模块,用于对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;
消歧模块,用于对抽取出来的实体进行实体消歧处理;
搭建模块,用于将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;
推理模块,用于利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。
12.根据权利要求11所述的装置,其特征在于,所述抽取模块,用于:
对于属于结构化数据的工控安全数据,根据所述工控安全数据在数据库中的字段名和预设规则进行实体抽取、关系抽取和属性抽取。
13.根据权利要求11所述的装置,其特征在于,所述抽取模块,用于:
对于属于非结构化数据的工控安全数据,使用模板法和命名实体识别算法进行实体抽取;其中,
所述模板法包括:通过词性分析和关系关键词匹配,从语句中抽取实体;
所述命名实体识别算法包括:使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,得到粗粒度的实体;使用Word2Vec工具将所述粗粒度的实体转化为词向量,并筛选出工控高相关的实体的词向量;计算其他实体的词向量与所述工控高相关的实体的词向量的距离的均值,并迭代执行筛选工控高相关的实体的词向量的操作。
14.根据权利要求11所述的装置,其特征在于,所述抽取模块,用于:
对于属于结构化数据的工控安全数据,按照定义的实体关系类别对所述工控安全数据进行抽取,得到实体间的关系以及部分实体的属性。
15.根据权利要求11所述的装置,其特征在于,所述抽取模块,用于:
对于属于非结构化数据的工控安全数据,采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取。
16.根据权利要求15所述的装置,其特征在于,所述抽取模块,用于:
使用Word2Vec工具将所述工控安全数据对应的所有训练语料中的词语进行向量化处理,并将每一个词汇转化为固定长度的词向量;
使用实体及其句式结构附近的词汇的词向量作为基本特征,将所述基本特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;
将所述特征向量经过不同卷积核的卷积运算后,得到目标特征集合,将所述目标特征集合应用于分类器中训练分类模型。
17.根据权利要求11所述的装置,其特征在于,所述抽取模块,用于:
对所述工控安全数据进行事件识别和事件关键信息的提取。
18.根据权利要求17所述的装置,其特征在于,所述抽取模块,用于:
使用触发词词典对所述工控安全数据中的各个句子进行匹配,判断所述句子中是否描述了工控安全事件;
其中,所述触发词词典包括事件核心词词典和事件相关词词典。
19.根据权利要求18所述的装置,其特征在于,所述抽取模块,用于:当确认所述句子描述了一个工控安全事件后,按照预设规则从所述句子中抽取事件关键信息。
20.根据权利要求11至19任一项所述的装置,其特征在于,所述消歧模块,用于:
对每一个待消歧的实体e,对于的候选实体集合为E={e1,e2,…,em};
将所述e链接到所述E中的一个实体,从而将所述实体e划分为所述E中的一个类别。
21.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至10任一所述的知识图谱构建方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910112911.6A CN109885698A (zh) | 2019-02-13 | 2019-02-13 | 一种知识图谱构建方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910112911.6A CN109885698A (zh) | 2019-02-13 | 2019-02-13 | 一种知识图谱构建方法及装置、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109885698A true CN109885698A (zh) | 2019-06-14 |
Family
ID=66928104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910112911.6A Pending CN109885698A (zh) | 2019-02-13 | 2019-02-13 | 一种知识图谱构建方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885698A (zh) |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275966A (zh) * | 2019-07-01 | 2019-09-24 | 科大讯飞(苏州)科技有限公司 | 一种知识抽取方法及装置 |
CN110287704A (zh) * | 2019-06-25 | 2019-09-27 | 北京中科微澜科技有限公司 | 一种基于漏洞图谱的漏洞软件依赖关系构建方法 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110399498A (zh) * | 2019-07-15 | 2019-11-01 | 上海交通大学 | 一种电力变压器运行规范知识图谱构建方法 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110543571A (zh) * | 2019-08-07 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 用于水利信息化的知识图谱构建方法以及装置 |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110674304A (zh) * | 2019-10-09 | 2020-01-10 | 北京明略软件系统有限公司 | 实体消歧方法、装置、可读存储介质及电子设备 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110727804A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 利用知识图谱处理维修案例的方法、装置及电子设备 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN111061882A (zh) * | 2019-08-19 | 2020-04-24 | 广州利科科技有限公司 | 一种知识图谱构建方法 |
CN111061814A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 一种建模分析方法、装置、电子设备及存储介质 |
CN111143578A (zh) * | 2019-12-30 | 2020-05-12 | 智慧神州(北京)科技有限公司 | 基于神经网络抽取事件关系的方法、装置和处理器 |
CN111159421A (zh) * | 2019-12-25 | 2020-05-15 | 中国建设银行股份有限公司 | 基于知识图谱的基金查询方法及装置 |
CN111159426A (zh) * | 2019-12-30 | 2020-05-15 | 武汉理工大学 | 一种基于图卷积神经网络的产业图谱融合方法 |
CN111309925A (zh) * | 2020-02-10 | 2020-06-19 | 同方知网(北京)技术有限公司 | 一种军事装备的知识图谱构建方法 |
CN111339311A (zh) * | 2019-12-30 | 2020-06-26 | 智慧神州(北京)科技有限公司 | 基于生成式网络抽取结构化事件的方法、装置与处理器 |
CN111400504A (zh) * | 2020-03-12 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 企业关键人的识别方法和装置 |
CN111488468A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
CN111585809A (zh) * | 2020-04-29 | 2020-08-25 | 北京润通丰华科技有限公司 | 一种利用大数据统计分析进行网络设备配置稽核的方法 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN111782824A (zh) * | 2020-08-14 | 2020-10-16 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112100324A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于贪婪实体链接的知识图谱自动校验迭代的方法 |
CN112395429A (zh) * | 2020-12-02 | 2021-02-23 | 上海三稻智能科技有限公司 | 基于图神经网络的hs编码判定、推送、应用方法、系统及存储介质 |
WO2021032002A1 (zh) * | 2019-08-20 | 2021-02-25 | 星环信息科技(上海)股份有限公司 | 基于异构分布式知识图谱的大数据处理方法、设备及介质 |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112671792A (zh) * | 2020-12-29 | 2021-04-16 | 西安电子科技大学 | 一种基于张量分解与知识图谱的网络事件提取方法及系统 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN112784057A (zh) * | 2021-01-11 | 2021-05-11 | 武汉大学 | 一种基于区域产业企业的三网产业图谱构建方法 |
CN113220996A (zh) * | 2021-05-10 | 2021-08-06 | 北京大学 | 基于知识图谱的科技服务推荐方法、装置、设备及存储介质 |
WO2021174871A1 (zh) * | 2020-09-01 | 2021-09-10 | 平安科技(深圳)有限公司 | 数据查询方法、系统、计算机设备及存储介质 |
CN113609309A (zh) * | 2021-08-16 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN114004230A (zh) * | 2021-09-23 | 2022-02-01 | 杭萧钢构股份有限公司 | 一种生产钢结构的工控调度方法和系统 |
WO2022048668A1 (zh) * | 2020-09-07 | 2022-03-10 | 中兴通讯股份有限公司 | 知识图谱构建方法和装置、检查方法、存储介质 |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
CN115525776A (zh) * | 2022-10-31 | 2022-12-27 | 中国电信股份有限公司 | 事件抽取模型训练方法、事件抽取方法以及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
US10102291B1 (en) * | 2015-07-06 | 2018-10-16 | Google Llc | Computerized systems and methods for building knowledge bases using context clouds |
CN109325129A (zh) * | 2018-06-08 | 2019-02-12 | 浙江捷尚人工智能研究发展有限公司 | 一种知识图谱推理方法、电子设备、存储介质及系统 |
-
2019
- 2019-02-13 CN CN201910112911.6A patent/CN109885698A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102291B1 (en) * | 2015-07-06 | 2018-10-16 | Google Llc | Computerized systems and methods for building knowledge bases using context clouds |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN109325129A (zh) * | 2018-06-08 | 2019-02-12 | 浙江捷尚人工智能研究发展有限公司 | 一种知识图谱推理方法、电子设备、存储介质及系统 |
Non-Patent Citations (2)
Title |
---|
刘峤,李杨,段宏,刘瑶,秦志光: "知识图谱构建技术综述", 《计算机研究与发展》 * |
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018 * |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287704B (zh) * | 2019-06-25 | 2021-03-26 | 北京中科微澜科技有限公司 | 一种基于漏洞图谱的漏洞软件依赖关系构建方法 |
CN110287704A (zh) * | 2019-06-25 | 2019-09-27 | 北京中科微澜科技有限公司 | 一种基于漏洞图谱的漏洞软件依赖关系构建方法 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110377753B (zh) * | 2019-07-01 | 2022-10-21 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110275966A (zh) * | 2019-07-01 | 2019-09-24 | 科大讯飞(苏州)科技有限公司 | 一种知识抽取方法及装置 |
CN110275966B (zh) * | 2019-07-01 | 2021-10-01 | 科大讯飞(苏州)科技有限公司 | 一种知识抽取方法及装置 |
CN110399498A (zh) * | 2019-07-15 | 2019-11-01 | 上海交通大学 | 一种电力变压器运行规范知识图谱构建方法 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110427623B (zh) * | 2019-07-24 | 2021-09-21 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110543571A (zh) * | 2019-08-07 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 用于水利信息化的知识图谱构建方法以及装置 |
CN111061882A (zh) * | 2019-08-19 | 2020-04-24 | 广州利科科技有限公司 | 一种知识图谱构建方法 |
WO2021032002A1 (zh) * | 2019-08-20 | 2021-02-25 | 星环信息科技(上海)股份有限公司 | 基于异构分布式知识图谱的大数据处理方法、设备及介质 |
CN110502645B (zh) * | 2019-08-28 | 2022-07-08 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110502645A (zh) * | 2019-08-28 | 2019-11-26 | 中国联合网络通信集团有限公司 | 信息查询方法及装置 |
CN110717049B (zh) * | 2019-08-29 | 2020-12-04 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN110659368A (zh) * | 2019-09-20 | 2020-01-07 | 北京明略软件系统有限公司 | 知识图谱构建方法、装置、电子设备及可读存储介质 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN110674304A (zh) * | 2019-10-09 | 2020-01-10 | 北京明略软件系统有限公司 | 实体消歧方法、装置、可读存储介质及电子设备 |
CN110727804A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 利用知识图谱处理维修案例的方法、装置及电子设备 |
CN111061814A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 一种建模分析方法、装置、电子设备及存储介质 |
CN111159421A (zh) * | 2019-12-25 | 2020-05-15 | 中国建设银行股份有限公司 | 基于知识图谱的基金查询方法及装置 |
CN111143578A (zh) * | 2019-12-30 | 2020-05-12 | 智慧神州(北京)科技有限公司 | 基于神经网络抽取事件关系的方法、装置和处理器 |
CN111143578B (zh) * | 2019-12-30 | 2023-12-22 | 北京因特睿软件有限公司 | 基于神经网络抽取事件关系的方法、装置和处理器 |
CN111159426A (zh) * | 2019-12-30 | 2020-05-15 | 武汉理工大学 | 一种基于图卷积神经网络的产业图谱融合方法 |
CN111159426B (zh) * | 2019-12-30 | 2023-04-18 | 武汉理工大学 | 一种基于图卷积神经网络的产业图谱融合方法 |
CN111339311A (zh) * | 2019-12-30 | 2020-06-26 | 智慧神州(北京)科技有限公司 | 基于生成式网络抽取结构化事件的方法、装置与处理器 |
CN111309925A (zh) * | 2020-02-10 | 2020-06-19 | 同方知网(北京)技术有限公司 | 一种军事装备的知识图谱构建方法 |
CN111309925B (zh) * | 2020-02-10 | 2023-06-30 | 同方知网数字出版技术股份有限公司 | 一种军事装备的知识图谱构建方法 |
CN111400504B (zh) * | 2020-03-12 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 企业关键人的识别方法和装置 |
CN111400504A (zh) * | 2020-03-12 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 企业关键人的识别方法和装置 |
CN111585809A (zh) * | 2020-04-29 | 2020-08-25 | 北京润通丰华科技有限公司 | 一种利用大数据统计分析进行网络设备配置稽核的方法 |
CN111488468A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
CN111488468B (zh) * | 2020-04-30 | 2021-12-14 | 北京建筑大学 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN111782800B (zh) * | 2020-06-30 | 2023-11-21 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN111782824B (zh) * | 2020-08-14 | 2024-04-19 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN111782824A (zh) * | 2020-08-14 | 2020-10-16 | 中国工商银行股份有限公司 | 信息查询方法、装置、系统和介质 |
CN112100324B (zh) * | 2020-08-28 | 2023-05-05 | 广州探迹科技有限公司 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
CN112100324A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于贪婪实体链接的知识图谱自动校验迭代的方法 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
WO2021174871A1 (zh) * | 2020-09-01 | 2021-09-10 | 平安科技(深圳)有限公司 | 数据查询方法、系统、计算机设备及存储介质 |
EP4155974A4 (en) * | 2020-09-07 | 2023-11-01 | ZTE Corporation | METHOD AND DEVICE FOR CONSTRUCTING A KNOWLEDGE GRAPH, TESTING METHOD AND STORAGE MEDIUM |
WO2022048668A1 (zh) * | 2020-09-07 | 2022-03-10 | 中兴通讯股份有限公司 | 知识图谱构建方法和装置、检查方法、存储介质 |
CN112395429A (zh) * | 2020-12-02 | 2021-02-23 | 上海三稻智能科技有限公司 | 基于图神经网络的hs编码判定、推送、应用方法、系统及存储介质 |
CN112712085A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨工业大学 | 一种提取多语言pdf文档中日期的方法 |
CN112671792A (zh) * | 2020-12-29 | 2021-04-16 | 西安电子科技大学 | 一种基于张量分解与知识图谱的网络事件提取方法及系统 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112784057B (zh) * | 2021-01-11 | 2022-05-13 | 武汉大学 | 一种基于区域产业企业的三网产业图谱构建方法 |
CN112784057A (zh) * | 2021-01-11 | 2021-05-11 | 武汉大学 | 一种基于区域产业企业的三网产业图谱构建方法 |
CN113220996A (zh) * | 2021-05-10 | 2021-08-06 | 北京大学 | 基于知识图谱的科技服务推荐方法、装置、设备及存储介质 |
CN113609309A (zh) * | 2021-08-16 | 2021-11-05 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN113609309B (zh) * | 2021-08-16 | 2024-02-06 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN114004230A (zh) * | 2021-09-23 | 2022-02-01 | 杭萧钢构股份有限公司 | 一种生产钢结构的工控调度方法和系统 |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
CN114742055B (zh) * | 2022-03-29 | 2024-06-14 | 北京感易智能科技有限公司 | 基于语义事件的海量多源异构数据处理方法及装置 |
CN115525776A (zh) * | 2022-10-31 | 2022-12-27 | 中国电信股份有限公司 | 事件抽取模型训练方法、事件抽取方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885698A (zh) | 一种知识图谱构建方法及装置、电子设备 | |
Qi et al. | Openhownet: An open sememe-based lexical knowledge base | |
Ilievski et al. | Cskg: The commonsense knowledge graph | |
US9361587B2 (en) | Authoring system for bayesian networks automatically extracted from text | |
US11138506B2 (en) | Abstraction and portability to intent recognition | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
US20220358379A1 (en) | System, apparatus and method of managing knowledge generated from technical data | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
Wu et al. | Aspect-context interactive attention representation for aspect-level sentiment classification | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
US11409959B2 (en) | Representation learning for tax rule bootstrapping | |
Li et al. | Effective representation for easy-first dependency parsing | |
Kong et al. | A deep paraphrase identification model interacting semantics with syntax | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220229987A1 (en) | System and method for repository-aware natural language understanding (nlu) using a lookup source framework | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
Al Islami et al. | Social Media Engineering for Issues Feature Extraction using Categorization Knowledge Modelling and Rule-based Sentiment Analysis | |
Shaila et al. | Textual and Visual Information Retrieval using Query Refinement and Pattern Analysis | |
Li et al. | DTGCN: a method combining dependency tree and graph convolutional networks for Chinese long-interval named entity relationship extraction | |
Chen et al. | [Retracted] The Application of Unsupervised Learning TF‐IDF Algorithm in Word Segmentation of Ideological and Political Education | |
Shi et al. | Word-level textual adversarial attacking based on genetic algorithm | |
Dong et al. | Application of feature extraction algorithm in the construction of interactive English Chinese translation mode | |
Lloréns et al. | Automatic generation of domain representations using thesaurus structures | |
Wang et al. | Event extraction via dmcnn in open domain public sentiment information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190614 |
|
RJ01 | Rejection of invention patent application after publication |