CN111753024B - 一种面向公共安全领域的多源异构数据实体对齐方法 - Google Patents
一种面向公共安全领域的多源异构数据实体对齐方法 Download PDFInfo
- Publication number
- CN111753024B CN111753024B CN202010587383.2A CN202010587383A CN111753024B CN 111753024 B CN111753024 B CN 111753024B CN 202010587383 A CN202010587383 A CN 202010587383A CN 111753024 B CN111753024 B CN 111753024B
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- data
- word
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 241001591024 Samea Species 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 5
- 238000007499 fusion processing Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向公共安全领域的多源异构数据实体对齐方法,属于数据融合处理领域。其包括以下步骤:获取公共安全领域多个系统基础数据;抽取多源异构数据实体及关系信息;提取实体属性信息为三元组形式;结合第三方知识库,计算实体属性权重大小;对实体属性信息进行词级别和句级别向量训练;获取实体关系邻接矩阵,使用图嵌入模型训练获得实体结构嵌入向量表示;通过实体名称进行初步实体对齐作为对齐种子;在属性权重约束下联合实体结构信息,计算实体相似度,通过SameAs进行相似实体链接。本发明不依赖于已对齐实体对种子,可以根据需求对齐两个或多个系统所需数据,能够实现公共安全领域不同部门、不同场景上数据的融合互通。
Description
技术领域
本发明涉及数据融合处理技术领域,具体来说是指一种面向公共安全领域的多源异构数据实体对齐方法。
背景技术
公共安全领域具有多样化场景服务,同时产生大量多源异构数据。融合公共安全领域数据应用在多个方面都具有重要意义,如防止事故灾难、预防自然灾害、辅助交通管理,打击违法犯罪等。由于公共安全数据的不同场景、不同部门存储,单一部门数据信息覆盖率低,无法支撑应用层操作;不同数据集间存在较大冗余性和差异性,但是系统间数据异构性强,不易于共享与集成。如何实现不同系统的知识融合,合理高效的使用数据是公共安全领域应用的迫切需求。其中,实体对齐是首要的关键技术。
实体对齐也叫实体匹配,用来协调不同数据源之间的差异,是判断相同或不同数据集中两个实体是否指向真实世界同一对象的处理过程,能够解决数据集中实体的复用问题,进而支持知识推理等上层应用。实体对齐最传统的方法是基于映射技术,该方法扩展性较差,而且只考虑一种类型的实体,不具备普遍适用性;基于属性相似度匹配方法,这些方法依赖实体的外部信息,如Wikipedia的链接,需要人工设计属性匹配规则,因此,该方法需要耗费大量人力,而且难以在多领域空间迁移;之后加入属性权重,但只考虑了属性范围,未考虑属性权重;基于聚类思想的方法,只考虑了属性值字符串层面的相似度,忽略了语义层面的信息;近年来,基于表示学习的实体对齐算法逐渐成为主流,这类方法将实体和关系映射到低维向量空间,但是仅对语义信息进行了建模,忽略了实体的属性等相关信息。
因此,现有技术中的实体对齐方法还有待改进,而且如何提高实体对齐精确度,并将其应用到公共安全领域,已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中公共安全领域数据量大难以高效利用的缺陷,提供一种面向公共安全领域的多源异构数据实体对齐方法。
为了实现上述目的,本发明采用的技术方案如下:
一种面向公共安全领域的多源异构数据实体对齐方法,包括以下步骤:
(1)获取公共安全多源异构数据,所述公共安全多源异构数据包括结构化数据、半结构化数据和非结构化数据;
(2)对公共安全多源异构数据进行实体识别及关系抽取,得到实体关系,每个实体关系表示为一个三元组形式;
(3)对公共安全多源异构数据进行属性信息提取,得到实体属性,每个实体属性表示为一个三元组形式;
(4)对步骤(3)得到的实体属性进行预处理,计算属性权重;
(5)训练一个知识库中实体属性的词向量,根据训练结果,得到其他知识库的词向量表示,进而得到数据集中属性值的句级别向量;
(6)获取邻接矩阵,使用只有前向传播的Att_GCN模型学习实体的结构信息,采用两层卷积结构的神经网络训练实体结构向量,并加入注意力机制加强训练结果的准确性;
(7)进行初步实体对齐并将结果作为对齐种子;
(8)计算实体距离打分函数;
(9)根据种子对齐训练实体对齐模型;
(10)连接对齐实体对,得到对齐结果。
进一步的,所述步骤(2)包括:
(201)使用双向长短期记忆网络加条件随机场模型对公共安全多源异构数据进行实体识别,具体方式为:
输入单词,使用word2vec中的skip-rgam模型生成字向量,经过BiLSTM层得到包含上下文信息的向量,再通过dropout层将向量的维度映射为维度为标签个数的向量;接入CRF层来进行标注,输出得分最高的标签序列,得到公共安全多源异构数据中多个实体的区分;
(202)对公共安全多源异构数据进行三元组(h,r,t)形式关系抽取,其中h、t分别为头实体和尾实体,r表示关系,具体方式为:
对于结构化数据,使用图映射或者D2R转换将链接数据或数据库存储数据转换为三元组数据;对于半结构化数据,采用模板抽取器抽取数据得到三元组数据;对非结构化数据,采用远程监督的PCNN加注意力机制模型进行关系抽取得到三元组数据,对多个句子数据经过PCNN处理后,使用注意力机制对新的句子进行加权处理,降低噪声数据的权重,得到关系抽取结果。
进一步的,所述步骤3中实体属性的三元组形式为(h,a,v),其中,h为头实体,a为属性类型,v为属性值;步骤(3)的具体方式为:
(301)利用步骤(2)的实体识别结果,使用Jieba分词对文本进行分词,统计动词列表和停用词列表,并标注每个词的类型,利用MetaPAD对海量数据进行模式抽取,并统计模式频次,作为候选属性词;
(302)将所有候选属性词生成词典,重新对初始语料进行分词,并将所有属性词类型标记为Attribute,进行第二次模式抽取,只取与Attribute类型词有关的模式,筛除其中的文本,作为属性值;对于属性值为句子的属性,直接截取相关语句作为属性值。
进一步的,所述步骤(4)的具体方式为:
(401)根据实体关系和实体属性建立第一知识库KB1,同时选取第三方知识库作为第二知识库KB2,将知识库中的数据表示为关系三元组Tr=(h,r,t)和属性三元组Ta=(h,a,v)两个集合;
(402)分别统计两个KB1和KB2的属性集合中各属性出现的次数,存储为二维矩阵,并将矩阵归一化;利用熵权法衡量每个属性分布,通过计算每个属性熵值与所有属性熵总和的比值获取权重值
进一步的,所述步骤5中,实体信息词级别和句级别向量的获取方式为:
采用word2vec中skip-gram模型同时训练不同知识库中实体信息词级别向量,获取生成词向量字典;同时,通过tf_idf模型获得每个单词在文中出现的频率,作为词权重值,结合词频生成属性值句向量集合。
进一步的,所述步骤(6)中,采用两层卷积结构的神经网络训练实体结构向量,并加入注意力机制加强训练结果的准确性的具体方式为:
(601)对实体节点和边进行编号,使用one-hot对实体进行编码,生成GCN的节点输入;
(602)采用注意力机制,根据邻居实体获得中心实体的特征向量,将其作为模型卷积层的输入;
(603)采用前向传播方式进行卷积运算,融合关系稀疏矩阵得到实体嵌入表示。
进一步的,所述步骤(7)中,初步实体对齐的方式为:根据实体名称向量,使用余弦相似度方法,将阈值设置为0.95到1之间,初步找到相同实体。
进一步的,所述步骤(8)的具体方式为:
(801)使用余弦相似度计算实体结构层的相似度:
f(x,y)=||x-y||
(802)使用欧式距离计算基于属性约束的实体属性层相似度距离:
(803)综合实体结构层面和属性层面相似度,得到实体距离打分函数:
其中,wk表示属性ak的约束权重,取值范围0~1,sim(ei,ak,ej)表示候选实体对的第ak个属性的属性值vi和vj相似度,函数f(x,y)=||x-y||表示实体结构相似度,dis(·)表示属性相似度距离,α是平衡两类嵌入重要性的超参数。
进一步的,所述步骤(9)的具体方式为:
将对齐种子作为正例,构造实体对负例,使用margin损失函数对模型进行训练,使正例与正例的距离小于正例与负例之间的距离。
进一步的,所述步骤(10)中,采用SameAs将已对齐的实体对进行连接,进而连接知识库KB1和KB2。
本发明的有益效果在于:
1、本发明与现有技术相比,直接采用属性三元组信息结合关系信息判断实体对齐,减少了数据预处理步骤,保证了数据质量完整性。
2、本发明通过信息熵计算属性权重参数,融合实体与关系特征生成实体嵌入向量,并采用余弦相似度和欧式距离相结合的方式,使得相似度高的实体更容易被计算出来,提高了实体对齐准确率。
附图说明
图1为本发明实施例中多源异构数据实体对齐方法的流程图。
图2为本发明实施例中多源异构数据实体对齐方法的具体流程示意图。
图3为本发明实施例中Att_GCN模型的原理示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体描述,以便本领域的技术人员更好地理解本发明。
一种面向公共安全领域的多源异构数据实体对齐方法,包括以下步骤:
步骤1,获取公共安全领域基础数据;
步骤2,针对公共安全领域多源异构数据抽取实体及关系信息:将获取的结构化数据、半结构化数据和非结构化数据分别进行实体识别及关系抽取得到三元组数据;
步骤3,公共安全领域数据属性信息提取:提取实体属性和属性值为三元组形式;
步骤4,实体属性权重获取:对公共安全领域数据实体属性信息进行预处理,计算属性权重;
步骤5,实体信息词级别和句级别向量获取:首先训练一知识库中实体属性信息词向量,根据已训练结果,得到其他知识库中的词向量表示,进而得到数据集中属性值句级别向量;
步骤6,获取邻接矩阵,只使用前向传播的Att_GCN算法学习实体结构信息;获取基于权重的实体属性向量表示;
步骤7,进行初步实体对齐并将结果作为对齐种子;
步骤8,计算实体距离打分函数:
步骤9,根据种子对齐训练实体对齐模型;
步骤10,连接对齐实体对,得到对齐结果。
对公共安全领域多源异构数据进行信息抽取,以三元组形式存储为小型知识库,有利于提高数据利用率,具体包括步骤2和步骤3:
所述步骤2中,获取实体关系三元组集合,包含:
(2.1)使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)加条件随机场(Conditional Random Fields,CRF)模型对公共安全多源异构数据进行实体识别:
输入单词,使用word2vec中的skip-rgam模型生成字向量,经过BiLSTM层得到包含上下文信息的向量,再通过dropout层将向量的维度映射为维度为标签个数的向量;接入CRF层来进行标注,输出得分最高的标签序列,得到公共安全多源异构数据中多个实体的区分;
(2.2)对公共安全领域多源异构数据进行三元组(h,r,t)形式关系抽取,其中h,t分别为头实体和尾实体,r表示关系:
对于结构化数据使用图映射或者D2R转换将链接数据或数据库存储数据转换为三元组数据;对于半结构化数据采用模板抽取器抽取数据得到三元组数据;对非结构化数据采用远程监督的PCNN(Piece-Wise-CNN)加注意力机制模型进行关系抽取得到三元组数据,对多个句子数据经过PCNN处理后,使用注意力机制对新的句子进行加权处理,降低噪声数据的权重,得到关系抽取结果。分段卷积神经网络模型将句子切分成三段,再进行特征提取,经过softmax层归一化后输出关系分类。
所述步骤3中,提取公共安全领域数据属性信息为三元组(h,a,v)形式,a表示属性类型,v为属性值:
采用MetaPAD(Meta Pattern Discovery)一种集成方法,首先利用步骤2中的命名实体识别结果,使用Jieba分词对文本进行精准的分词,统计动词列表和停用词列表,并标注每个词的类型,利用MetaPAD对海量数据进行模式抽取,并统计模式频次,作为候选属性词。
然后,将所有候选属性词生成词典,重新对初始语料进行分词,并将所有属性词标记类型为"Attribute",进行第二次模式抽取,只取与"Attribute"类型词有关的模式,筛除其中的文本,作为属性值。对于属性值为句子的属性,直接截取相关语句作为属性值。
融合公共安全领域所需数据KB1,并结合第三方知识库数据记做KB2,将数据表示为关系三元组Tr=(h,r,t)和属性三元组Ta=(h,a,v)两个集合,具体体现在步骤4~6。
进一步地所述步骤4,获取属性权重:
分别统计两个KB属性集合中各属性出现的次数,存储为二维矩阵,并将矩阵归一化;利用熵权法衡量每个属性分布,通过计算每个属性熵值与所有属性熵总和的比值获取权重值,记为
所述步骤5中,实体信息词级别和句级别向量获取:
采用word2vec中skip-gram模型同时训练不同知识库中实体信息词级别向量获取生成词向量字典;并通过tf_idf模型获得每个单词在文中出现的频率作为词权重值,结合词频生成属性值句向量集合。
所述步骤6,获取关系邻接矩阵,使用只有前向传播的Att_GCN模型;
采用两层卷积结构的神经网络训练实体结构向量,并加入注意力机制加强训练结果准确性,包含如下内容:
对实体节点和边进行编号,使用one-hot对实体进行编码生成GCN的节点输入;采用注意力机制根据邻居实体获得中心实体的特征向量,将其作为模型卷积层的输入;随后采用前向传播方式进行卷积运算,融合关系稀疏矩阵得到实体嵌入表示;
进一步地,卷积层输出的结果为实体结构嵌入矩阵,第i行即第i个实体的对应结构嵌入向量表示。
所述步骤7中,初步实体对齐并将结果作为对齐种子;
根据实体名称向量,使用余弦相似度方法,将阈值设置为0.95到1之间,初步找到相同实体,作为之后实体对齐训练数据;
所述步骤8中,计算实体距离打分函数:
使用余弦相似度计算实体结构层相似度斜体f(x,y)=||x-y||;
使用欧式距离计算基于属性约束的实体属性层相似度距离;
综合实体结构层面和属性层面相似度得到实体距离打分函数:
所述步骤9中,根据种子对齐训练实体对齐模型,包含如下步骤:
将对齐种子作为正例,构造实体对负例,使用margin损失函数对所有实体节点进行训练,使两个相似实体之间距离尽可能接近,正例和负例之间的距离尽可能大,即,使正例与正例的距离小于正例与负例之间的距离,输出结果为对齐实体对(ei,ej)。
所述步骤10中,将已对齐实体对之间用SameAs连接,进而连接两个知识库。
以下为一个更具体的例子:
如图1和2所示,一种面向公共安全领域的多源异构数据实体对齐方法,包括以下步骤:
步骤1,获取公共安全领域基础数据:公共安全领域多场景、多系统造成数据的多源异构特性,获取多源异构数据;
步骤2,针对公共安全领域多源异构数据抽取实体及关系信息。
对于结构化数据,使用图映射或者D2R转换将链接数据或数据库存储数据直接转换为三元组数据;对于半结构化数据,采用模板抽取器抽取数据得到三元组数据;对非结构化数据,先根据结构化和半结构化数据抽取的三元组作为训练接,采用深度学习方式进行关系抽取。其具体步骤如下:
(2.1)使用BiLSTM+CRF模型对公共安全多源异构数据进行实体识别:
由于公共安全领域数据的高度离散化,获取的整体文档信息较少,输入单词,使用word2vec中的skip-rgam模型生成字向量,经过BiLSTM层得到包含上下文信息的向量,再通过dropout层将向量的维度映射为维度为标签个数的向量;接入CRF层来进行标注,输出得分最高的标签序列,得到公共安全多源异构数据中多个实体的区分;
(2.2)对公共安全领域多源异构数据进行三元组(h,r,t)形式关系抽取,比如“一名叫XX的消防员”,抽取三元组为(消防员,名称,XX):
使用PCNN+Attention方法进行关系抽取,首先进行数据预处理,对句子中每个词距离实体(entity)的距离进行位置编码;切分句子,将一条文本数据在两个实体处切成三段;将切分的数据分别通过卷积层提取特征;进行分段最大池化,之后将三段最大池化结果拼接,得到当前滤波器的最终输出,最后经过softmax层输出,得到关系抽取结果。
步骤3,提取公共安全领域数据属性信息为三元组(h,a,v)形式,比如“8月25日北龙温泉酒店发生火灾”,抽取为(火灾,时间,8月25日):
采用MetaPAD方式,首先利用步骤2中的命名实体识别结果,使用Jieba分词对文本进行精准分词,统计动词列表和停用词列表,并标注每个词的类型,利用MetaPAD对海量数据进行pattern抽取,并统计pattern频次,作为候选属性词。
然后,将所有候选属性词生成词典,重新对初始语料进行分词,并将所有属性词标记类型为"Attribute",进行第二次pattern抽取,只取与"Attribute"类型词有关的pattern,筛除其中的文本,作为属性值。对于属性值为句子的属性,直接截取相关语句作为属性值。
步骤4,获取实体属性权重大小,包括以下步骤:
分别统计两个KB属性集合中各属性出现的次数,记做2×m维矩阵A=(aij)2×m,删除矩阵中数值为零的列,并将结果归一化为矩阵R=(rij)2×m,其中:
计算属性aj输出的熵ej,通过属性熵值计算权重向量wj,其中:
步骤5,实体信息词级别和句级别向量获取,具体步骤如下:
(5.1)使用skip-gram模型进行词向量编码;
采用word2vec中skip-gram模型对词向量编码。首先,基于句子构建词汇表,再对单词进行one-hot编码,记为xi,使用平均对数条件概率Pt最大化:
其中,c为训练样本窗口的大小;xt-j和xt+j为中心概念xt的前j个和后j个概念;T为训练句子中的概念总数。p(xt+j|xt)利用softmax函数定义:
式中,y'T x表示概念表中各个概念向量的转置;X表示概念总数。
通过实体语料训练,Skip-gram模型为实体信息中的每个单词生成对应的词向量;
(5.2)利用tf_idf模型获取属性值句向量;
计算某个词在文档中出现的次数,使用TF表示:
其中,ni,j是词在第j个文件中出现的次数,分母是第j个文件中所有词汇出现的次数总和;
进一步地,计算逆向文件频率IDF:
其中,|D|为语料库中的文件总数,也就是实体属性信息的总数,分母表示含有词ti文件的数目;
得到词频率为:
TF-IDF=TF*IDF
步骤6,如图3所示,采用两层结构的GCN神经网络加入注意力机制,根据输入的拓扑图计算获得各个节点的空间结构向量表示,具体步骤如下:
(6.1)首先对两个知识库中的关系进行消歧,将表述相同含义的关系进行统一;
(6.2)对两个知识库中关系三元组的实体和关系进行编号,保证唯一性;
(6.3)实体集合记做X={x1,x2,…,xN},使用步骤4中实体名称向量按照实体编号顺序生成N×100维实体输入矩阵Xi;
(6.4)对于两个知识库中的数据,将实体关系三元组以实体作为节点,对存在关系的两个实体添加边,得到空间结构拓扑图Gi,存储为N×N维的邻接矩阵形式Ai;
(6.5)构建实体关系矩阵,找到每个节点对应关系r,构建特征矩阵P,矩阵的行列是实体名称,值为关系类型;
(6.6)构建注意力层,计算节点i与节点j之间的相关度,对所有节点训练一个权重矩阵W,即为节点新的特征向量集。对每个节点实行自注意力机制,计算注意力系数,并经过LeakyReLU非线性转换:
其中a是内积操作,引入LeakyRELU是给所有负值赋予一个非零斜率;
引入softmax机制对所有邻居节点j进行正则化:
则αij是邻域节点j对i的影响程度。最后使用规范化权重系数αij计算节点i的前向隐藏状态:
Ni表示以实体节点i为中心的所有相邻实体集合,relu激活函数是将所有负值设为零;
(6.7)采用前向传播方式构建图卷积层,第l+i层节点i的前向卷积过程表示为:
其中,l是图卷积层序号l=1,2,…,n,是第l层节点i相邻实体集合的关系共享权重矩阵,这里将每个关系类型值的倒数作为关系权重大小,σ是非线性激活函数Relu;
卷积层输出的结果是大小为N×D的嵌入空间矩阵X′,其中第i行即第i个实体的对应结构嵌入表示;
(6.8)实体、关系特征融合得到最后的实体结构嵌入表示,将卷积层的输出结果融合节点i的关系集合r的关系稀疏矩阵Pi'r,得到节点i的前向隐性特征向量:
其中,表示关系稀疏矩阵与第l+1层卷积结果的矩阵乘法运算;
步骤7,实体向量表示为v,使用余弦相似度计算实体名称相似度,初步找到相同实体,作为之后训练实体对齐模型的对齐实体对正例;
步骤8,对于KB1中的实体ei和KB2中的实体ej,结合实体结构向量和属性向量设置打分函数:
式中,函数f(x,y)=||x-y||表示实体结构相似度,dis(·)表示属性相似度距离,α是平衡两类嵌入重要性的超参数。
这里的属性相似度距离是加入属性权重约束的相似度距离:
式中:wk表示属性ak的约束权重,取值范围0~1,sim(ei,ak,ej)表示候选实体对的第ak个属性的属性值vi和vj相似度,计算方式如下:
步骤9,采用margin损失函数进行实体对齐模型训练:
根据正对齐实体对构造负例,使用margin损失函数使得对齐的实体对之间的距离尽可能接近,正例和负例之间的距离尽可能大。损失函数定义为:
其中γ为超参数,E_表示E的负例对齐集,随机替换已对齐实体对(ei,ej)中的一个所得负例集。
步骤10,对已对齐实体对使用SameAs相连,得到最后结果,连接两个知识库。
本发明不依赖于已对齐实体对种子,且提高了实体对齐的准确率,可以根据需求对齐两个或多个系统所需数据,能够实现公共安全领域不同部门、不同场景上数据的融合互通。本发明将实体对齐技术充分应用于公共安全领域中,根据需求灵活链接两个或多个知识库,与现有技术相比解决了公共安全领域涉及的跨系统数据难以灵活共享的问题。
需要理解的是,上述对于本专利具体实施方式的叙述仅仅是为了便于本领域普通技术人员理解本专利方案而列举的示例性描述,并非暗示本专利的保护范围仅仅被限制在这些个例中。本领域普通技术人员完全可以在对本专利技术方案做出充分理解的前提下,以不付出任何创造性劳动的形式,通过对本专利所列举的各个例采取组合技术特征、替换部分技术特征、加入更多技术特征等等方式,得到更多的具体实施方式。所有这些具体实施方式均在本专利权利要求书的涵盖范围之内,因此,这些新的具体实施方式也应在本专利的保护范围之内。
Claims (2)
1.一种面向公共安全领域的多源异构数据实体对齐方法,其特征在于,包括以下步骤:
(1)获取公共安全多源异构数据,所述公共安全多源异构数据包括结构化数据、半结构化数据和非结构化数据;
(2)对公共安全多源异构数据进行实体识别及关系抽取,得到实体关系,每个实体关系表示为一个三元组形式;具体方式为:
(201)使用双向长短期记忆网络与条件随机场相结合的模型对公共安全多源异构数据进行实体识别,具体方式为:
输入单词,使用word2vec中的skip-rgam模型生成字向量,经过BiLSTM层得到包含上下文信息的向量,再通过dropout层将向量的维度映射为维度为标签个数的向量;接入CRF层来进行标注,输出得分最高的标签序列,得到公共安全多源异构数据中多个实体的区分;
(202)对公共安全多源异构数据进行三元组(h,r,t)形式关系抽取,其中h、t分别为头实体和尾实体,r表示关系,具体方式为:
对于结构化数据,使用图映射或者D2R转换将链接数据或数据库存储数据转换为三元组数据;对于半结构化数据,采用模板抽取器抽取数据得到三元组数据;对非结构化数据,采用远程监督的PCNN加注意力机制模型进行关系抽取得到三元组数据,对多个句子数据经过PCNN处理后,使用注意力机制对新的句子进行加权处理,降低噪声数据的权重,得到关系抽取结果;
(3)对公共安全多源异构数据进行属性信息提取,得到实体属性,每个实体属性表示为一个三元组形式;实体属性的三元组形式为(h,a,v),其中,h为头实体,a为属性类型,v为属性值;
步骤(3)的具体方式为:
(301)利用步骤(2)的实体识别结果,使用Jieba分词对文本进行分词,统计动词列表和停用词列表,并标注每个词的类型,利用MetaPAD对海量数据进行模式抽取,并统计模式频次,作为候选属性词;
(302)将所有候选属性词生成词典,重新对初始语料进行分词,并将所有属性词类型标记为Attribute,进行第二次模式抽取,只取与Attribute类型词有关的模式,筛除其中的文本,作为属性值;对于属性值为句子的属性,直接截取相关语句作为属性值;
(4)对步骤(3)得到的实体属性进行预处理,计算属性权重;具体方式为:
(401)根据实体关系和实体属性建立第一知识库KB1,同时选取第三方知识库作为第二知识库KB2,将知识库中的数据表示为关系三元组Tr=(h,r,t)和属性三元组Ta=(h,a,v)两个集合;其中h、t分别为头实体和尾实体,r表示关系,a为属性类型;
(402)分别统计两个KB1和KB2的属性集合中各属性出现的次数,存储为二维矩阵,并将矩阵归一化;利用熵权法衡量每个属性分布,通过计算每个属性熵值与所有属性熵总和的比值获取权重值
(5)训练一个知识库中实体属性的词向量,根据训练结果,得到其他知识库的词向量表示,进而得到数据集中属性值的句级别向量;实体信息词级别和句级别向量的获取方式为:
采用word2vec中skip-gram模型同时训练不同知识库中实体信息词级别向量,获取生成词向量字典;同时,通过tf_idf模型获得每个单词在文中出现的频率,作为词权重值,结合词频生成属性值句向量集合;
(6)获取实体关系邻接矩阵,使用只有前向传播的Att_GCN模型学习实体的结构信息,采用两层卷积结构的图神经网络训练实体结构向量,并加入注意力机制加强训练结果的准确性;具体方式为:
(601)对实体节点和边进行编号,使用one-hot对实体进行编码,生成GCN的节点输入;
(602)采用注意力机制,根据邻居实体获得中心实体的特征向量,将其作为模型卷积层的输入;
(603)采用前向传播方式进行卷积运算,融合关系稀疏矩阵得到实体嵌入表示;
(7)进行初步实体对齐并将结果作为对齐种子;初步实体对齐的方式为:根据实体名称向量,使用余弦相似度方法,将阈值设置为0.95到1之间,初步找到相同实体;
(8)计算实体距离打分函数;具体方式为:
(801)使用余弦相似度计算实体结构层的相似度:
f(x,y)=||x-y||
(802)使用欧式距离计算基于属性约束的实体属性层相似度距离:
(803)综合实体结构层面和属性层面相似度,得到实体距离打分函数:
其中,wk表示属性ak的约束权重,取值范围0~1,sim(ei,ak,ej)表示候选实体对的第ak个属性的属性值vi和vj相似度,函数f(x,y)=||x-y||表示实体结构相似度,dis(×)表示属性相似度距离,α是平衡两类嵌入重要性的超参数;
(9)根据种子对齐训练实体对齐模型;具体方式为:
将对齐种子作为正例,构造实体对负例,使用margin损失函数对模型进行训练,使正例与正例的距离小于正例与负例之间的距离;
(10)连接对齐实体对,得到对齐结果。
2.根据权利要求1所述的一种面向公共安全领域的多源异构数据实体对齐方法,其特征在于,所述步骤(10)中,采用SameAs将已对齐的实体对进行连接,进而连接知识库KB1和KB2;其中,KB1为根据实体关系和实体属性建立的知识库,KB2为第三方知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010587383.2A CN111753024B (zh) | 2020-06-24 | 2020-06-24 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010587383.2A CN111753024B (zh) | 2020-06-24 | 2020-06-24 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753024A CN111753024A (zh) | 2020-10-09 |
CN111753024B true CN111753024B (zh) | 2024-02-20 |
Family
ID=72678535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010587383.2A Active CN111753024B (zh) | 2020-06-24 | 2020-06-24 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753024B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464634B (zh) * | 2020-12-23 | 2023-09-05 | 中译语通科技股份有限公司 | 基于互信息熵的跨语言实体自动对齐方法及系统 |
CN113051500B (zh) * | 2021-03-25 | 2022-08-16 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113408625B (zh) * | 2021-06-22 | 2022-08-09 | 之江实验室 | 应用于无人系统的多源异构数据单帧融合与一致表征方法 |
CN113641826B (zh) * | 2021-06-29 | 2024-03-26 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN113505239B (zh) * | 2021-07-09 | 2022-10-28 | 吉林大学 | 一种结合图注意力和属性聚类的实体对齐方法 |
CN114661810B (zh) * | 2022-05-24 | 2022-08-16 | 国网浙江省电力有限公司杭州供电公司 | 轻量级多源异构数据融合方法及系统 |
CN115277116B (zh) * | 2022-07-06 | 2024-02-02 | 中能电力科技开发有限公司 | 网络隔离的方法、装置、存储介质及电子设备 |
CN115394435B (zh) * | 2022-09-09 | 2023-04-25 | 北京大学 | 基于深度学习的关键临床指标实体识别方法和系统 |
CN115329102B (zh) * | 2022-10-12 | 2023-02-03 | 北京道达天际科技股份有限公司 | 基于新闻知识图谱的知识表示学习方法 |
CN115795060B (zh) * | 2023-02-06 | 2023-04-28 | 吉奥时空信息技术股份有限公司 | 一种基于知识增强的实体对齐方法 |
CN116975032B (zh) * | 2023-07-14 | 2024-04-12 | 南京领行科技股份有限公司 | 数据对齐方法、系统和电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN110147451A (zh) * | 2019-05-10 | 2019-08-20 | 北京云知声信息技术有限公司 | 一种基于知识图谱的对话命令理解方法 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110413704A (zh) * | 2019-06-27 | 2019-11-05 | 浙江大学 | 基于加权邻居信息编码的实体对齐方法 |
CN110598005A (zh) * | 2019-09-06 | 2019-12-20 | 中科院合肥技术创新工程院 | 一种面向公共安全事件的多源异构数据知识图谱构建方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235633B2 (en) * | 2014-12-19 | 2019-03-19 | Medidata Solutions, Inc. | Method and system for linking heterogeneous data sources |
CN108280061B (zh) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2020
- 2020-06-24 CN CN202010587383.2A patent/CN111753024B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110147451A (zh) * | 2019-05-10 | 2019-08-20 | 北京云知声信息技术有限公司 | 一种基于知识图谱的对话命令理解方法 |
CN110413704A (zh) * | 2019-06-27 | 2019-11-05 | 浙江大学 | 基于加权邻居信息编码的实体对齐方法 |
CN110598005A (zh) * | 2019-09-06 | 2019-12-20 | 中科院合肥技术创新工程院 | 一种面向公共安全事件的多源异构数据知识图谱构建方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
自适应属性选择的实体对齐方法;苏佳林;王元卓;靳小龙;程学旗;;山东大学学报(工学版)(第01期);第14-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753024A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN114048350A (zh) | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN111930894A (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN114444516A (zh) | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 | |
Lai et al. | Transconv: Relationship embedding in social networks | |
Wang et al. | Self-information loss compensation learning for machine-generated text detection | |
CN116796744A (zh) | 一种基于深度学习的实体关系抽取方法及系统 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 | |
Oura et al. | Multimodal Deep Neural Network with Image Sequence Features for Video Captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |