CN116244448A - 基于多源数据信息的知识图谱构建方法、设备及系统 - Google Patents

基于多源数据信息的知识图谱构建方法、设备及系统 Download PDF

Info

Publication number
CN116244448A
CN116244448A CN202310165820.5A CN202310165820A CN116244448A CN 116244448 A CN116244448 A CN 116244448A CN 202310165820 A CN202310165820 A CN 202310165820A CN 116244448 A CN116244448 A CN 116244448A
Authority
CN
China
Prior art keywords
entity
knowledge
knowledge graph
source data
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310165820.5A
Other languages
English (en)
Inventor
王侃
宋丹
刘万里
孙文
刘禄波
吴超蓉
刘鑫
韩迎萍
李晨雨
谷裕
王媛媛
王爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202310165820.5A priority Critical patent/CN116244448A/zh
Publication of CN116244448A publication Critical patent/CN116244448A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多源数据信息的知识图谱构建方法、设备及系统,属于人工智能技术领域,包括步骤:S1,数据获取;S2,信息抽取;S3,知识融合;S4,知识存储。本发明以在获取的多源数据信息中实体冗余繁杂、事件类型多样的情况下,提升了知识融合准确率,完成知识图谱的构建。

Description

基于多源数据信息的知识图谱构建方法、设备及系统
技术领域
本发明涉及人工智能技术领域,更为具体的,涉及一种基于多源数据信息的知识图谱构建方法、设备及系统。
背景技术
知识图谱是指显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱结构化存储的特点使得其具有非常广阔的应用前景,随着知识图谱的兴起,数据库的存储方式进入了新的发展阶段。目标知识图谱已逐步被应用于搜索软件、电商软件等服务类软件中用于实现信息检索等,同时,还可应用于针对多种来源的复杂舆情信息的即时监测与报告生成等,并且能够带来巨大的经济价值。而知识图谱的构建作为知识图谱的重要步骤,需要不断地进行探索与实践。
关于知识图谱构建的研究,主要包括信息抽取、知识融合及知识加工等方面的研究,目前最大的知识图谱构建方面的障碍是机器在知识融合的实现中,准确率不高带来的知识图谱中冗余实体较多,增加数据存储所需资源。而知识图谱本身的特点被认为是下一代数据存储的重要方式,因此知识图谱构建也是人工智能中数据存储的重要研究领域。
由于知识图谱对数据存储应用的重要性,因此使得知识图谱构建方法的随着知识图谱的广泛推广过程中受到大量的关注。但是正因为多源数据中的实体存在冲突与歧义,因此构建的过程具有挑战性,知识图谱构建方法的进展都很慢。因而如何以更有效的方式将多源数据中的大量具有冲突与歧义的实体进行对齐,消岐等方式实现知识图谱的构建,提升实体消岐、实体对齐及指代消解的准确率,仍然是当前知识图谱构建过程中的难点问题。
近年来,知识融合方法从机器学习到深度学习在不断的进步,在性能与准确率上有着一定的准确率的提升。其中知识图谱构建过程中最重要的一步知识融合由实体对齐、实体消岐及指代消解构成。其中实体对齐方法分为两类,包括基于实例及其属性相似度的成对实体对齐以及在成对实体对齐基础上基于实例间相互关系的集体实体对齐;其中实体链接与消歧方法可以划分成基于机器学习的方法和基于深度学习的方法。
对于实体对齐而言:
传统基于实例及其属性相似度的实体对齐方法通常需要大量人工对数据进行标注或精心设计对齐特征。Yago3方法通过人工精心设计了对齐特征,使Wikipedia中的实体与已有YAGO中的实体实现对齐,并取得了较高的对齐准确率。Anguera等人手工去定义字母和音素之间的相似度。Tapaswi等人根据相同字符的外观定义视觉场景和句子之间的相似度来对齐电视节目和情节提要Bojanowski等人提出了一种类似于典型时间扭曲的方法,但也对其进行了扩展,利用现有的(弱)监督对齐数据进行模型训练。Plummer等人利用CCA找到了图像区域和短语之间的协调空间,用于对齐。基于网络语义标签的多源知识库实体对齐模型多种实体标签,实现中文实体对齐并取得了较高的准确率和召回率。基于实例及其属性相似度的实体对齐方法直观简单、可以实现较高的实体对齐效果,但是这类传统实体对齐方法依赖于大量先验知识,使用人工进行数据标注会造成时间的大量浪费和高昂的劳动力成本,同时,设计出的实体特征往往扩展性较差,不具备普遍适用性。
基于实例间作用关系的集体实体对齐方法是在成对实体对齐方法的基础上综合考虑实例间作用关系以计算相似度。Zhuang等人运用机器学习的方法对领域知识库进行粗粒度对齐,然后通过推理模型推测问题的答案,最后借助容错算法获取实体对齐结果。余传明等人针对知识融合中存在数据冗余与不一致的问题,以知识图谱为视角,提出基于深度学习的领域知识对齐模型。该模型使用多源异构与跨语言数集进行计算实验,实验表明该模型改善了实体对齐的效果,提升了领域知识的正确率与覆盖率。
近些年,也有一些方法专注于在不同知识图谱中使用异源、异构知识进行实体对齐。通过概念标注实现多源实体对齐的方法利用概念注释来丰富知识图谱中的内部链接,迭代预测新的多源知识对,使用这种迭代对齐的方法虽然可以达到较高的准确率,但常常需要消耗大量的训练时间。孔等人训练了一个马尔科夫随机场,将三维场景中的物体与文本描述中的名词和代词对齐。毛等人使用一个长短时记忆语言模型和一个卷积神经网络视觉模型来评估参考表达和图像中物体之间的匹配质量。朱等人通过训练一个卷积神经网络来测量场景和文本之间的相似性,将书籍与相应的电影/剧本进行对齐。于等人将这一模型扩展到包括相对外观和上下文信息,从而可以更好地在同一类型的物体之间消除歧义。胡等人使用一个基于长短时记忆网络的评分函数来寻找图像区域和它们的描述之间的相似性。随着知识表示学习方法的提出,MTransE方法直接使用已知的知识三元组实现英语-法语的多语言知识对齐。IPTransE方法使用共享参数实现知识嵌入,并使用一种软规则的方法实现实体对齐。HolisticEM方法只使用知识图谱中的结构化信息实现三元组知识的向量化表示,并迭代地实现多源实体对齐。JAPE方法在统一的语义空间中学习实体的嵌入以及不同知识图谱之间的关系。
对于实体链接与消歧方法而言:
在基于机器学习的方法中,实体消歧的核心是计算给定实体与待消歧实体之间的相似程度,在此基础上选择相似程度最大的实体作为目标实体。Milne等利用实体统计信息、名字统计信息进行目标实体消歧。韩等利用百科数据作为背景知识,通过百科知识辅助消歧。纪等提出了一种全局推理算法,以考虑文本中实体之间的相互关系来找到全局最优决策。另外,为解决语料标注问题,近年来已经开始研究高效的弱监督或无监督策略。申等对实体流行度、语义关联度等特征进行特征组合,利用最大间隔算法计算各个特征的权重,利用排序算法实现实体消歧。此外,Agichtein等提出的半监督算法、Etzioni等提出的远距离监督算法以及石等提出的基于海量数据冗余性的自学习方法也从一定程度上解决语料标注的问题。
传统的有监督机器学习算法需要大量的标注语料,本项目现有的标注语料难以满足实体消歧的需求。在基于深度学习的方法中,实体消歧的实质是构建三元组的统一表示,并对多源信息、多源文本之间的联系进行建模。深度学习方法通过将不同类型的信息映射到同一特征空间,并提出了高效的端到端训练算法,给上述任务提供了强有力的工具。Francis等在原有的神经网络语言模型的基础上,加入了卷积神经网络模型,较大程度上改进了实体消歧的效果。Ganea等提出多源异构证据的向量表示学习方法,对不同来源知识库中的知识进行统一空间的表示,进而完成实体消歧。Sil等提出对证据信息进行向量表示,基于表示向量学习不同证据之间的相似度,继而进行相似度融合,最终完成实体消歧。毛二松等人提出使用Skip-Gram模型进行词向量训练,并利用词向量进行相似度计算,实现实体链接与消歧。怀宝兴等人提出将消歧实体和待消歧实体上下文语境映射到同一个空间,基于概率空间模型,根据实体的空间向量进行消歧。冯冲等人利用Skip-Gram模型进行词向量训练,并基于微博的短文本特征提出语义分类的方法,完成实体消歧。
虽然上述这些方法在一定程度上提升了知识融合的效果,但大多数在处理人物之间的消岐表现更好,针对常见的事件知识之间的消岐算法并没有提供很好的解决效果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多源数据信息的知识图谱构建方法、设备及系统,提升了知识融合准确率,完成知识图谱的构建等。
本发明的目的是通过以下方案实现的:
一种基于多源数据信息的知识图谱构建方法,包括以下步骤:
S1,数据获取;
S2,信息抽取;
S3,知识融合,将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,包括指代消解、实体消歧、实体对齐;其中,指代消解用于针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用Span BERT模型进行处理;利用实体消歧针对一词多义现象,根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接;利用实体对齐针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余的情况,利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某设定的阈值则判断为相似实体;
S4,知识存储。
进一步地,在步骤S1中,所述数据获取,包括子步骤:
S11,判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是;
S12,在区分好网页类型后,判断网页请求方式,分为‘get’和‘post’两种方式;判断选取针对不同网页类型的相应爬虫算法获取数据;将获取到的数据,通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库;
S13,通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作。
进一步地,在步骤S2中,所述信息抽取,包括子步骤:使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。
进一步地,在步骤S3中,所述指代消解,具体包括子步骤:
S3a,将输入数据x通过词嵌入Embbeding模块,进行字节编码,段和位置信息的词嵌入,将所有x映射到一个公共特征空间;
S3b,将词嵌入后的数据送入到Span BERT预训练模型中;
S3c,根据指代消解任务,对模型进行微调Fine-Tuning,将原模型中使用CLS作为输出,改为代词和对应实体字节编码的输出,添加输出层,输出代词和实际对应的具体实体。
进一步地,在步骤S3中,所述实体对齐中,所述设定的阈值预先设置。
进一步地,在步骤S3中,所述实体消歧,包括子步骤:对于给定句子语境及相应的待消歧实体词,分别生成语境句子的向量表示,及候选概念的实体表示,然后使用余弦相似度的方式判断候选概念与语境的相似程度,从而完成实体消歧任务。
进一步地,在步骤S4中,所述知识存储,包括子步骤:基于Neo4j的知识图谱存储。
进一步地,所述使用N-Gram模型来进行信息抽取,具体包括子步骤:
利用jieba工具将句子中的动词、短语、名词提取出来,去掉噪声词,识别不能拆分的短语,将名词性词语或短语作为实体存储,动词或属性作为关系存储;
对封闭域中的事件抽取首先抽取表明事件类型的触发词,然后提取事件。
一种基于多源数据信息的知识图谱构建设备,该设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。
一种基于多源数据信息的知识图谱构建系统,包括如上所述的设备。
本发明的有益效果包括:
本发明提出了一种基于词性模板方式的信息抽取方案,通过构造事件三元组的成词词性模板,提升了非结构化文本数据的抽取准确率。
本发明对Bert的改进主要体现在对掩码mask方式的改进,丢弃NSP任务和增加SBO(Span Boundary Objective)任务,极大的提升了指代消解的准确率。
本发明在以在获取的多源数据信息中实体冗余繁杂、事件类型多样的情况下,通过该方法中提出的知识融合技术方案,提升了知识融合准确率,完成知识图谱的构建。
本发明通过数据获取与分词操作,初步得到所需数据,进一步由基于词性模板的信息抽取方案进行事件三元组的抽取。将三元组进行位置编码后送入改进后的Bert完成指代消解、实体消歧、实体对齐任务,进而完成多个知识库中知识的融合。本发明结合三种改进算法,实现从数据获取到知识存储的多个步骤的一体化部署,完成多源信息知识图谱的构建。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的实现总流程图;
图2为本发明实施例中指代消解模型图;
图3为本发明实施例中Neo4j知识存储图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明提供一种基于多源数据信息的知识图谱构建方法,包括如下步骤:
(1)数据获取
我们通过爬虫的方式获取网络开源数据,并进行简单分句处理后作为知识图谱构建过程中的数据来源,为后续进行信息抽取操作提供数据。
(2)信息抽取
我们使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。
(3)知识融合
将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要关键技术包含指代消解、实体消歧和实体对齐。
(3a)指代消解
针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体,本技术采用Span BERT模型,其由多层编码器堆叠而成。
(3b)实体消歧
针对一词多义现象,我们根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接。
(3c)实体对齐
针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余。我们利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某一个阈值则判断为相似实体。
(4)知识存储
Neo4j是目前比较热门的图数据库,具有免费开源且易部署的特点。
当前主流的依存句法的方式进行事件三元组抽取,其性能受限于依存句法性能的精度,但坦白的说,当前的依存句法分析器的性能并不是特别高,因此本发明技术方案提出了一种基于词性模板方式的信息抽取,其思想在于,通过构造事件三元组的成词词性模板,如一个典型的IP短语、NP短语、VP短语等,提升了非结构化文本数据的抽取准确率。
本发明实施例技术方案使用的spanbert模型进行指代消解,对Bert的改进主要体现在对掩码mask方式的改进,丢弃NSP任务和增加SBO(Span Boundary Objective)任务,极大的提升了指代消解的准确率。
需要说明的是,在本发明权利要求书中所限定的保护范围内,以下实施例均可以从上述具体实施方式中,例如公开的技术原理,公开的技术特征或隐含公开的技术特征等,以合乎逻辑的任何方式进行组合和/或扩展、替换。
如图1~图3所示,本发明的实现步骤如下:
步骤1,数据获取
我们通过爬虫的方式来获取网络开源数据,通过判断网页性态,选取合适爬虫方式,同时通过Python中re库中的正则表达式的方式进行简单分句处理,作为知识图谱构建过程中的数据来源,为后续进行信息抽取操作提供数据。
本步骤的具体实现如下:
3.1)爬虫获取数据
首先判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是。在区分好网页类型后,判断网页请求方式,主要分为‘get’和‘post’两种方式。通过判断选取合适爬虫算法,其中对数据获取操作常用的可分为re解析,Bs4解析,xpath解析,通过前期对爬虫技术的学习,xpath作为爬虫技术中最常用且最便捷高效的方式,且通用性强,不需要对每一个网址进行重新的代码书写,只需要更改相应参数即可。将获取到的数据,我们通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库。
3.2)分句处理
通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作。
步骤2,信息抽取
本发明使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。利用jieba工具将句子中的动词、短语、名词等提取出来,去掉噪声词,识别不能拆分的短语,将名词性词语或短语作为实体存储,动词或属性作为关系存储。封闭域中的事件抽取首先抽取表明事件类型的触发词,然后提取事件。
步骤3,知识融合
经由信息抽取之后的信息单元间的关系是扁平化的,缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片。知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要关键技术包含指代消解、实体消歧、实体对齐。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。知识融合旨在解决如何将关于同一个实体或概念的多源描述信息融合起来。
本步骤的具体实现如下:
3.1)指代消解
本技术所用Span BERT模型是多层编码器堆叠而成,具体预测流程为:
(1)将输入数据x通过Embbeding模块,进行token,segment和position的Embbeding,将所有x映射到一个公共特征空间。
(2)将Embbeding后的数据送入到Span BERT预训练模型中。
(3)根据特定的指代消解任务,对模型进行微调(Fine-Tuning),将原模型中使用CLS作为输出,改为代词和对应实体token的输出,添加输出层,输出代词和实际对应的具体实体。
3.2)实体对齐
实体对齐针对多个实体具有不同的名称,但实际是指向同一种事物,会出现实体的重复和冗余,我们利用Levenshtein距离和jacard距离来进行实体对齐。
Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
Figure BDA0004095898550000121
杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(JaccardIndex),是用来衡量两个集合相似度的一种指标,它被定义为两个集合交集的元素个数除以并集的元素个数。
Figure BDA0004095898550000122
杰卡德距离(Jaccard Distance)是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集,被定义为1减去Jaccard相似系数。
Figure BDA0004095898550000123
Levenshtein距离和jacard距离来判断实体间的相似度,相似度大于某一个阈值则判断为相似实体。如果实体相似,且关系一样直接删除;如果关系不一样,把关系拿出来迁移到任意一个实体上,然后在进行删除。可以根据实际情况,选择合适的阈值。
3.3)实体消歧
我们对于给定句子语境及相应的待消歧实体词,分别生成语境句子的向量表示,及候选概念的实体表示,然后使用余弦相似度的方式判断候选概念与语境的相似程度,从而完成实体消歧任务。其中,候选概念实体由中文百度百科多义项页面提供。
Figure BDA0004095898550000131
步骤4,基于Neo4j的知识图谱存储
相较于传统的关系型数据库,图数据库天生适合存储有复杂关联的数据,它将每一个实体表示为一个节点,而实体之间的关系表示为节点之间的边,实体/关系与包含的属性则类似于它们的Key/Value键值对。Neo4j是目前比较热门的图数据库,具有免费开源且易部署的特点。
下面结合仿真对本发明技术方案的效果做进一步的验证说明:
1.仿真实验条件:
本发明仿真实验中硬件平台:CPU型号为Intel(R)i9-7960X,GPU型号为GeForceRTX 3080Ti*1,显存10G,内存32G*8。
本发明仿真实验中软件平台:ubuntu 20.0LTS系统,Python 3.6,pytorch>=2.0。
本发明仿真实验所使用的数据集来自自建数据集。
2.仿真内容及其结果分析:
用本发明和自建数据集进行知识图谱构建中针对知识融合的计算结果如下表所示:
表1本发明知识融合结果
Figure BDA0004095898550000141
从表1可以看出,本发明的方法结合了指代消解、实体对齐、实体消岐的先进算法,获取了更好的知识图谱构建效果。因此证明本发明方法提出的知识图谱构建方法是更适合于实际应用场景的。
实施例1
一种基于多源数据信息的知识图谱构建方法,包括以下步骤:
S1,数据获取;
S2,信息抽取;
S3,知识融合,将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,包括指代消解、实体消歧、实体对齐;其中,指代消解用于针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用Span BERT模型进行处理;利用实体消歧针对一词多义现象,根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接;利用实体对齐针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余的情况,利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某设定的阈值则判断为相似实体;
S4,知识存储。
实施例2
在实施例1的基础上,在步骤S1中,所述数据获取,包括子步骤:
S11,判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是;
S12,在区分好网页类型后,判断网页请求方式,分为‘get’和‘post’两种方式;判断选取针对不同网页类型的相应爬虫算法获取数据;将获取到的数据,通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库;
S13,通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作。
实施例3
在实施例1的基础上,在步骤S2中,所述信息抽取,包括子步骤:使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。
实施例4
在实施例1的基础上,在步骤S3中,所述指代消解,具体包括子步骤:
S3a,将输入数据x通过词嵌入Embbeding模块,进行字节编码,段和位置信息的词嵌入,将所有x映射到一个公共特征空间;
S3b,将词嵌入后的数据送入到Span BERT预训练模型中;
S3c,根据指代消解任务,对模型进行微调Fine-Tuning,将原模型中使用CLS作为输出,改为代词和对应实体字节编码的输出,添加输出层,输出代词和实际对应的具体实体。
实施例5
在实施例1的基础上,在步骤S3中,所述实体对齐中,所述设定的阈值预先设置。
实施例6
在实施例1的基础上,在步骤S3中,所述实体消歧,包括子步骤:对于给定句子语境及相应的待消歧实体词,分别生成语境句子的向量表示,及候选概念的实体表示,然后使用余弦相似度的方式判断候选概念与语境的相似程度,从而完成实体消歧任务。
实施例7
在实施例1的基础上,在步骤S4中,所述知识存储,包括子步骤:基于Neo4j的知识图谱存储。
实施例8
在实施例3的基础上,所述使用N-Gram模型来进行信息抽取,具体包括子步骤:
利用jieba工具将句子中的动词、短语、名词提取出来,去掉噪声词,识别不能拆分的短语,将名词性词语或短语作为实体存储,动词或属性作为关系存储;
对封闭域中的事件抽取首先抽取表明事件类型的触发词,然后提取事件。
实施例9
一种基于多源数据信息的知识图谱构建设备,该设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如实施例1~实施例8任一项所述的方法。
实施例10
一种基于多源数据信息的知识图谱构建系统,包括如实施例9所述的设备。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本发明实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于多源数据信息的知识图谱构建方法,其特征在于,包括以下步骤:
S1,数据获取;
S2,信息抽取;
S3,知识融合,将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,包括指代消解、实体消歧、实体对齐;其中,指代消解用于针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用Span BERT模型进行处理;利用实体消歧针对一词多义现象,根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接;利用实体对齐针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余的情况,利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某设定的阈值则判断为相似实体;
S4,知识存储。
2.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S1中,所述数据获取,包括子步骤:
S11,判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是;
S12,在区分好网页类型后,判断网页请求方式,分为‘get’和‘post’两种方式;判断选取针对不同网页类型的相应爬虫算法获取数据;将获取到的数据,通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库;
S13,通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作。
3.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S2中,所述信息抽取,包括子步骤:使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。
4.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S3中,所述指代消解,具体包括子步骤:
S3a,将输入数据x通过词嵌入Embbeding模块,进行字节编码,段和位置信息的词嵌入,将所有x映射到一个公共特征空间;
S3b,将词嵌入后的数据送入到Span BERT预训练模型中;
S3c,根据指代消解任务,对模型进行微调Fine-Tuning,将原模型中使用CLS作为输出,改为代词和对应实体字节编码的输出,添加输出层,输出代词和实际对应的具体实体。
5.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S3中,所述实体对齐中,所述设定的阈值预先设置。
6.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S3中,所述实体消歧,包括子步骤:对于给定句子语境及相应的待消歧实体词,分别生成语境句子的向量表示,及候选概念的实体表示,然后使用余弦相似度的方式判断候选概念与语境的相似程度,从而完成实体消歧任务。
7.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S4中,所述知识存储,包括子步骤:基于Neo4j的知识图谱存储。
8.根据权利要求3所述的基于多源数据信息的知识图谱构建方法,其特征在于,所述使用N-Gram模型来进行信息抽取,具体包括子步骤:
利用jieba工具将句子中的动词、短语、名词提取出来,去掉噪声词,识别不能拆分的短语,将名词性词语或短语作为实体存储,动词或属性作为关系存储;
对封闭域中的事件抽取首先抽取表明事件类型的触发词,然后提取事件。
9.一种基于多源数据信息的知识图谱构建设备,其特征在于,该设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如权利要求1~8任一项所述的方法。
10.一种基于多源数据信息的知识图谱构建系统,其特征在于,包括如权利要求9所述的设备。
CN202310165820.5A 2023-02-24 2023-02-24 基于多源数据信息的知识图谱构建方法、设备及系统 Pending CN116244448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310165820.5A CN116244448A (zh) 2023-02-24 2023-02-24 基于多源数据信息的知识图谱构建方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310165820.5A CN116244448A (zh) 2023-02-24 2023-02-24 基于多源数据信息的知识图谱构建方法、设备及系统

Publications (1)

Publication Number Publication Date
CN116244448A true CN116244448A (zh) 2023-06-09

Family

ID=86634650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310165820.5A Pending CN116244448A (zh) 2023-02-24 2023-02-24 基于多源数据信息的知识图谱构建方法、设备及系统

Country Status (1)

Country Link
CN (1) CN116244448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662576A (zh) * 2023-07-26 2023-08-29 北京天云海数技术有限公司 一种安全漏洞与法律法规的关联方法及关联系统
CN117371534A (zh) * 2023-12-07 2024-01-09 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662576A (zh) * 2023-07-26 2023-08-29 北京天云海数技术有限公司 一种安全漏洞与法律法规的关联方法及关联系统
CN117371534A (zh) * 2023-12-07 2024-01-09 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统
CN117371534B (zh) * 2023-12-07 2024-02-27 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统

Similar Documents

Publication Publication Date Title
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
Song et al. Cross-language record linkage based on semantic matching of metadata
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
Tilak et al. Visual entity linking
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
Xu et al. Estimating similarity of rich internet pages using visual information
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination