CN110598005A - 一种面向公共安全事件的多源异构数据知识图谱构建方法 - Google Patents
一种面向公共安全事件的多源异构数据知识图谱构建方法 Download PDFInfo
- Publication number
- CN110598005A CN110598005A CN201910842031.4A CN201910842031A CN110598005A CN 110598005 A CN110598005 A CN 110598005A CN 201910842031 A CN201910842031 A CN 201910842031A CN 110598005 A CN110598005 A CN 110598005A
- Authority
- CN
- China
- Prior art keywords
- data
- public safety
- entity
- knowledge graph
- safety event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 27
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向公共安全事件的多源异构数据知识图谱构建方法,与现有技术相比解决了公共安全事件涉及数据量太大难以归纳分析的缺陷。本发明包括以下步骤:基础数据的获取;对公共安全事件多源异构数据进行实体识别及关系抽取;构建公共安全事件骨干实体知识图谱;构建公共安全事件的多源异构数据知识图谱。本发明通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据支撑,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高。
Description
技术领域
本发明涉及数据语义分析技术领域,具体来说是一种面向公共安全事件的多源异构数据知识图谱构建方法。
背景技术
自2012年谷歌发布知识图谱以来,知识图谱一直因其强大的事件表达能力、关系联系能力、信息快速搜索能力和知识推理能力,被广泛应用于各种人工智能方向,例如问答机器人、智能搜索引擎等。知识图谱是语义网络和数据库的结合,由海量的三元组数据(实体,关系,实体)组成,实体与关系之间是有方向的,这种形式可以快速获取与事物相关的所有知识。
在公共安全领域,由于公共安全事件数据是从各个渠道获取,导致数据包含结构型数据、半结构化数据和非结构型数据,而且数据的质量不同,很难达到对公共安全事件的完好表达。
那么,如何将知识图谱应用于公共安全事件,以知识图谱强大的事件表达、关系互联以及知识推理能力实现公共安全事件的技术展示,已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中公共安全事件涉及数据量太大难以归纳分析的缺陷,提供一种面向公共安全事件的多源异构数据知识图谱构建方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
基础数据的获取:获取公共安全事件多源异构数据;
对公共安全事件多源异构数据进行实体识别及关系抽取;
构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
所述构建公共安全事件骨干实体知识图谱包括以下步骤:
根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
对非结构化数据进行实体关系提取,得到三元组数据;
将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
将每个实体映射到K维主题空间,用主题向量进行表示;
对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
所述的双向LSTM神经网络模型5层结构设置方法如下:
设定第一层为输入层:将句子输入到模型中;
设定第二层为Embedding层:将每个词映射到低维空间;
设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT,
其中dw为词向量的维度;
设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子将表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
有益效果
本发明的一种面向公共安全事件的多源异构数据知识图谱构建方法,与现有技术相比通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据支撑,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高;通过利用地理知识原理对公共安全事件的表达有一个完整的,包含时间和空间属性实体的构建知识图谱的方法,进一步完善知识图谱的准确;通过使用公共安全领域的专业知识来获得知识图谱,可以进行高效、准确的知识推理,进一步完善公共安全事件知识图谱的专业性。
本发明将公共安全事件的海量大数据变为三元组形式,对公共安全事件的表达得到提升,进一步利用知识图谱的知识推理能力,对公共安全事件进行分析判断。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
第一步,基础数据的获取:获取公共安全事件多源异构数据。
第二步,对公共安全事件多源异构数据进行实体识别及关系抽取。
利用获取到的公共安全事件多源异构数据,从中提取实体和关系,针对结构化的数据,通过建立数据库中概念和知识图谱中的本体的映射关系得到相关的规则抽取器进行抽取,对于半结构化数据则是建立相关模板抽取器进行抽取,而对于非结构化数据,则可以先根据结构化数据和半结构化数据所建立的知识图谱进行训练集的抽取,利用深度学习方法来训练出相应的公共安全知识表达抽取器。其具体步骤如下:
(1)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,这使得该模型对于公共安全领域极为敏感。因为bert在实体识别方面有下游接口,所以只要加入起始和结束的符号,对于最后BERT每个位置的输出都加入一个线性的分类器就可以了。不过在使用bert的时候,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分。
(2)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
双向LSTM神经网络模型5层结构设置方法如下:
A1)设定第一层为输入层:将句子输入到模型中;
A2)设定第二层为Embedding层:将每个词映射到低维空间;
A3)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
A31)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
A32)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
A33)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
A34)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
A35)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
A4)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT,
其中dw为词向量的维度;
A5)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
第三步,构建公共安全事件骨干实体知识图谱。根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱。其具体步骤如下:
(1)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体}。
对公共安全事件知识图谱进行构建,先构建公共安全事件的本体知识库,就是数据的模式信息。根据公共安全数据中的一些数据模式形式,提取本体知识,构建公共安全事件的本体库。通过公共安全事件的本体库,可以快速分析数据是否是关于公共安全事件。
(2)对结构化数据进行图映射或者D2R数据转换,得到三元组数据。
(3)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据。
(4)对非结构化数据进行实体关系提取,得到三元组数据。
(5)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体。
(6)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
第四步,构建公共安全事件的多源异构数据知识图谱。
根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。其具体步骤如下:
(1)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题。
(2)将每个实体映射到K维主题空间,用主题向量进行表示。
(3)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重。
(4)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,包括以下步骤:
11)基础数据的获取:获取公共安全事件多源异构数据;
12)对公共安全事件多源异构数据进行实体识别及关系抽取;
13)构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
14)构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
2.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
21)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
22)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
3.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件骨干实体知识图谱包括以下步骤:
31)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
32)对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
33)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
34)对非结构化数据进行实体关系提取,得到三元组数据;
35)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
36)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
4.根据权利要求1所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
41)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
42)将每个实体映射到K维主题空间,用主题向量进行表示;
43)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
44)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
5.根据权利要求2所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,所述的双向LSTM神经网络模型5层结构设置方法如下:
51)设定第一层为输入层:将句子输入到模型中;
52)设定第二层为Embedding层:将每个词映射到低维空间;
53)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
531)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
532)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
533)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
534)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
535)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
54)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT,
其中dw为词向量的维度;
55)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842031.4A CN110598005B (zh) | 2019-09-06 | 2019-09-06 | 一种面向公共安全事件的多源异构数据知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842031.4A CN110598005B (zh) | 2019-09-06 | 2019-09-06 | 一种面向公共安全事件的多源异构数据知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598005A true CN110598005A (zh) | 2019-12-20 |
CN110598005B CN110598005B (zh) | 2022-08-16 |
Family
ID=68857910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910842031.4A Expired - Fee Related CN110598005B (zh) | 2019-09-06 | 2019-09-06 | 一种面向公共安全事件的多源异构数据知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598005B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191462A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111611410A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 基于多层网络空间知识表示的知识处理方法和装置 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN111984770A (zh) * | 2020-07-17 | 2020-11-24 | 深思考人工智能科技(上海)有限公司 | 一种人机对话的方法及装置 |
CN112380355A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种时隙异构知识图谱的表示与存储方法 |
CN112487202A (zh) * | 2020-11-27 | 2021-03-12 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112800235A (zh) * | 2021-01-11 | 2021-05-14 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN113111180A (zh) * | 2021-03-22 | 2021-07-13 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN114722159A (zh) * | 2022-06-01 | 2022-07-08 | 中科航迈数控软件(深圳)有限公司 | 针对数控机床制造资源的多源异构数据处理方法及系统 |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
CN115391545A (zh) * | 2022-04-26 | 2022-11-25 | 航天宏图信息技术股份有限公司 | 一种面向多平台协同观测任务的知识图谱构建方法和装置 |
CN116304115A (zh) * | 2023-05-19 | 2023-06-23 | 中央军委后勤保障部信息中心 | 一种基于知识图谱的物资匹配替换方法和装置 |
CN117455745A (zh) * | 2023-12-26 | 2024-01-26 | 四川省大数据技术服务中心 | 基于多维融合数据分析的公共安全事件感知方法及系统 |
WO2024098517A1 (zh) * | 2022-11-07 | 2024-05-16 | 中电科大数据研究院有限公司 | 一种图谱数据的处理方法、装置以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
US20180314756A1 (en) * | 2017-04-26 | 2018-11-01 | Linkedln Corporation | Online social network member profile taxonomy |
EP3407209A1 (en) * | 2017-05-22 | 2018-11-28 | Fujitsu Limited | Apparatus and method for extracting and storing events from a plurality of heterogeneous sources |
CN109669994A (zh) * | 2018-12-21 | 2019-04-23 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN110008355A (zh) * | 2019-04-11 | 2019-07-12 | 华北科技学院 | 基于知识图谱的灾害场景信息融合方法及装置 |
CN110110093A (zh) * | 2019-04-08 | 2019-08-09 | 深圳众赢维融科技有限公司 | 一种基于知识图谱的识别方法、装置、电子设备及存储介质 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
-
2019
- 2019-09-06 CN CN201910842031.4A patent/CN110598005B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180314756A1 (en) * | 2017-04-26 | 2018-11-01 | Linkedln Corporation | Online social network member profile taxonomy |
EP3407209A1 (en) * | 2017-05-22 | 2018-11-28 | Fujitsu Limited | Apparatus and method for extracting and storing events from a plurality of heterogeneous sources |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN109669994A (zh) * | 2018-12-21 | 2019-04-23 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN110110093A (zh) * | 2019-04-08 | 2019-08-09 | 深圳众赢维融科技有限公司 | 一种基于知识图谱的识别方法、装置、电子设备及存储介质 |
CN110008355A (zh) * | 2019-04-11 | 2019-07-12 | 华北科技学院 | 基于知识图谱的灾害场景信息融合方法及装置 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
Non-Patent Citations (1)
Title |
---|
杨飘 等: "基于BERT嵌入的中文命名实体识别方法", 《计算机工程》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191462B (zh) * | 2019-12-30 | 2022-02-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111191462A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111428054B (zh) * | 2020-04-14 | 2022-11-01 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111611410B (zh) * | 2020-06-23 | 2024-01-12 | 中国人民解放军国防科技大学 | 基于多层网络空间知识表示的知识处理方法和装置 |
CN111611410A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 基于多层网络空间知识表示的知识处理方法和装置 |
CN111753024B (zh) * | 2020-06-24 | 2024-02-20 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN111984770A (zh) * | 2020-07-17 | 2020-11-24 | 深思考人工智能科技(上海)有限公司 | 一种人机对话的方法及装置 |
CN111984770B (zh) * | 2020-07-17 | 2023-10-20 | 深思考人工智能科技(上海)有限公司 | 一种人机对话的方法及装置 |
CN112380355A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种时隙异构知识图谱的表示与存储方法 |
CN112487202A (zh) * | 2020-11-27 | 2021-03-12 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112487202B (zh) * | 2020-11-27 | 2022-05-06 | 厦门理工学院 | 融合知识图谱与bert的中文医学命名实体识别方法、装置 |
CN112800235A (zh) * | 2021-01-11 | 2021-05-14 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN112800235B (zh) * | 2021-01-11 | 2023-10-31 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN113111180B (zh) * | 2021-03-22 | 2022-01-25 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN113111180A (zh) * | 2021-03-22 | 2021-07-13 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN114742055B (zh) * | 2022-03-29 | 2024-06-14 | 北京感易智能科技有限公司 | 基于语义事件的海量多源异构数据处理方法及装置 |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
CN115391545A (zh) * | 2022-04-26 | 2022-11-25 | 航天宏图信息技术股份有限公司 | 一种面向多平台协同观测任务的知识图谱构建方法和装置 |
CN114722159A (zh) * | 2022-06-01 | 2022-07-08 | 中科航迈数控软件(深圳)有限公司 | 针对数控机床制造资源的多源异构数据处理方法及系统 |
CN114722159B (zh) * | 2022-06-01 | 2022-08-23 | 中科航迈数控软件(深圳)有限公司 | 针对数控机床制造资源的多源异构数据处理方法及系统 |
WO2024098517A1 (zh) * | 2022-11-07 | 2024-05-16 | 中电科大数据研究院有限公司 | 一种图谱数据的处理方法、装置以及存储介质 |
CN116304115B (zh) * | 2023-05-19 | 2023-08-11 | 中央军委后勤保障部信息中心 | 一种基于知识图谱的物资匹配替换方法和装置 |
CN116304115A (zh) * | 2023-05-19 | 2023-06-23 | 中央军委后勤保障部信息中心 | 一种基于知识图谱的物资匹配替换方法和装置 |
CN117455745A (zh) * | 2023-12-26 | 2024-01-26 | 四川省大数据技术服务中心 | 基于多维融合数据分析的公共安全事件感知方法及系统 |
CN117455745B (zh) * | 2023-12-26 | 2024-03-19 | 四川省大数据技术服务中心 | 基于多维融合数据分析的公共安全事件感知方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110598005B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
Mou et al. | Natural language inference by tree-based convolution and heuristic matching | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN111931506A (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN110619121A (zh) | 基于改进深度残差网络和注意力机制的实体关系抽取方法 | |
CN113705218A (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN113705238A (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及模型 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
Rasool et al. | WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220816 |
|
CF01 | Termination of patent right due to non-payment of annual fee |