CN115525768A - 一种领域知识图谱可视化构建方法及装置 - Google Patents
一种领域知识图谱可视化构建方法及装置 Download PDFInfo
- Publication number
- CN115525768A CN115525768A CN202211151564.6A CN202211151564A CN115525768A CN 115525768 A CN115525768 A CN 115525768A CN 202211151564 A CN202211151564 A CN 202211151564A CN 115525768 A CN115525768 A CN 115525768A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- domain
- information extraction
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能通用技术领域,公开了一种领域知识图谱可视化构建方法及装置,可用于针对特定领域多源异构数据进行知识图谱的自动化持续构建。所述构建方法包括:获取用于构建领域知识图谱的数据源;通过可视化方式建立数据源与领域本体模型的映射,生成信息抽取元模型;基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组;针对生成的领域知识图谱三元组,进行知识融合和存储,实现可视化的领域知识图谱持续构建。本发明通过可视化方式降低了领域知识图谱构建过程的技术复杂度,构建过程直观,能显著提高知识图谱的构建效率,同时具备灵活性和通用性,可应用于各个业务领域。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种领域知识图谱可视化构建方法及装置。
背景技术
随着以深度学习为代表的新一代人工智能技术的兴起,知识图谱技术逐渐在人工智能领域占据重要地位,得到了广泛的应用,并取得了显著成效。知识图谱是一种大型语义网络,刻画出客观世界中各种物理实体、属性及其语义关系。知识图谱也是客观世界中各种数据转换成主谓宾(Subject Predicate Object,SPO)三元组后的结构化知识关系图。
知识图谱构建是一个复杂的系统工程。对于特定领域知识图谱而言,其构建过程需要领域专家全面参与甚至主导,例如领域本体模型构建、数据标注等,同时知识图谱构建过程是技术密集型的,目前需要技术人员的深度支撑,从而当前领域知识图谱构建过程中技术人员和业务人员是紧耦合的。因此,构建出的领域知识图谱质量高低取决于领域专家、技术人员等多方人员之间的紧密协作程度,直接带来当前领域知识图谱构建过程复杂度高、灵活性弱、可扩展性差等问题。
发明内容
为了解决当前领域知识图谱构建过程复杂度高、灵活性弱、可扩展性差等问题,本发明公开了一种领域知识图谱可视化构建方法及装置,可以充分发挥领域专家的主导作用,大大降低知识图谱构建过程中领域专家、技术人员等多方人员之间的紧耦合性,显著提高领域知识图谱构建效率,缩短构建时间,具有构建过程直观、扩展性强等优点。
本发明提供了一种领域知识图谱可视化构建方法,步骤如下:
步骤S101、获取用于构建领域知识图谱的多源异构数据源;
步骤S102、通过可视化方式建立数据源与领域本体模型的映射,生成信息抽取元模型;
步骤S103、基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组;
步骤S104、针对生成的领域知识图谱三元组,进行知识融合和存储,实现可视化的领域知识图谱持续构建。
步骤S101具体包括:
根据特定领域业务场景,创建领域相关的业务概念(实体类型)和关系,生成领域本体模型,其中包含概念、属性类型以及概念之间的关系;
将数据源按特定领域业务场景进行分类,包含结构化数据和非结构化数据;
针对结构化数据源,依据领域本体模型进行数据预处理,将每一个业务概念表示成一类结构,该结构字段与领域本体模型中的一个概念及其属性逐一对应;将数据源中相关的一个或多个结构化数据表或文件预处理成前述结构;
针对非结构化数据,统一预处理成UTF-8编码的文本文件数据。
创建领域概念时,同步创建概念相关的自身属性类型。
步骤S102中,生成特定领域的信息抽取元模型的方法具体包括:
步骤S201、读取预先创建的领域本体模型,并可视化展现出其中的领域概念、属性以及各种关系;
步骤S202、读取用于构建领域知识图谱的数据源;
步骤S203、通过可视化方式将数据源中的实体、关系与领域本体模型中的概念、关系进行对应,具体包括:
针对特定领域预处理后的结构化数据,读取每一类实体对应的表或文件结构,通过可视化方式将结构中的字段与领域本体模型中的概念及其属性逐一对应,生成结构化数据信息抽取元模型;
针对特定领域预处理后的文本数据,从中选择一定数量的文本数据进行可视化序列标注,生成文本数据信息抽取元模型;基于领域本体模型,将文本数据中的实体序列标注为领域本体模型中对应的概念实体,将文本数据中的实体属性序列标注为领域本体模型中对应的概念实体属性,实体之间关系自动通过领域本体模型中对应的概念关系生成。
步骤S204、存储信息抽取元模型。
生成的每一种信息抽取元模型作用于具有相同结构的数据源。
步骤S103中,基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组的方法具体包括:
针对结构化数据源,通过解析前述生成的信息抽取元模型,信息抽取模型获取数据源字段与领域本体模型的映射关系,并根据映射关系从数据源中抽取数据生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
针对非结构化数据源,信息抽取模型从输入的文本数据中自动识别出特定领域的实体、属性以及关系,并依据所述信息抽取元模型,将抽取出的信息组合生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体)。
步骤S103中,针对特定领域文本数据的一种信息抽取模型可视化训练方法见图3,具体包括:
步骤S301、创建面向文本数据的信息抽取模型。
信息抽取模型为先实体抽取、后关系抽取的串行抽取模型或实体抽取、关系抽取融合的联合抽取模型。
步骤S302、基于标注的特定领域信息抽取数据集训练信息抽取模型。
基于通过可视化标注生成的文本数据信息抽取元模型,对选择的所述信息抽取模型进行训练,得到特定领域文本数据信息抽取模型。
步骤S303,发布特定领域文本数据信息抽取模型。
通过可视化方式从预先创建的信息抽取模型列表中选择用于特定领域文本数据的信息抽取模型。
步骤S104具体包括:
基于预先创建的领域本体模型,依据概念及其属性,通过可视化方式设置每种领域概念对应实体的融合规则;针对领域本体模型中的每个概念,选择用于知识融合的属性,并为每个属性取值设置相似度度量函数和相似度度量阈值;同一概念实体下的多个知识融合度量属性之间的关系为逻辑与关系。
知识融合模块读取知识融合规则,依据融合规则,计算实体或属性相似度,进行所述知识图谱三元组的知识融合处理;
针对所述知识融合后的知识图谱三元组,知识存储模块将其存储至相应的数据库;
针对特定领域持续产生的知识图谱数据源,信息抽取模块基于所述信息抽取元模型,对相同结构的数据源进行持续信息抽取,并生成领域知识图谱三元组。
本发明还提供了一种领域知识图谱可视化构建装置,包括:
数据源获取模块,用于持续获取特定领域中用于构建领域知识图谱的结构化数据和非结构化数据,并对数据源进行预处理操作。
数据映射模块,用于提供可视化的数据映射机制,将数据源中属于领域知识图谱中的实体、属性与预先创建的领域本体模型中的概念、属性进行对应。
信息抽取模块,用于持续自动地抽取特定领域数据源中的实体、属性及关系,并生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体)。
知识融合模块,用于提供可视化的领域知识图谱中相似实体的融合配置机制,并根据预先创建的融合规则计算待融合实体与实体、属性与属性之间的彼此相似度,实现知识融合操作。
知识存储模块,用于提供将领域知识图谱三元组进行持续持久化的机制。
可选的,所述数据源获取模块,包括:
领域本体模型创建单元,用于提供可视化机制建立特定领域中概念、属性及其关系模型;
结构化/半结构化数据预处理单元,针对特定领域原始结构化或半结构化数据,提供数据预处理操作实现数据结构语义与领域相关概念、属性及关系的对应。
非结构化数据预处理单元,提供抽取转换程序将文件存储格式统一为UTF-8编码的文本文件数据。
可选的,所述数据映射模块,包括:
结构化数据映射单元,用于提供可视化机制将表或文件等结构中数据列与领域本体模型中概念、属性进行对应。
文本数据映射单元,用于提供可视化机制将文本数据中的特定领域实体、属性与领域本体模型中概念、属性进行对应。
可选的,所述信息抽取模块,包括:
结构化数据抽取单元,用于依据信息抽取元模型将结构化数据转换为知识图谱三元组;
文本数据信息抽取模型训练单元,用于依据预先标注的序列文本数据训练用于从文本数据中自动抽取领域知识图谱三元组的信息抽取模型。
文本数据信息抽取单元,用于使用预先训练的信息抽取模型从持续输入的文本数据中自动抽取生成领域知识图谱三元组。
可选的,所述知识融合模块,包括:
实体融合单元,用于计算实体名以及相关属性值的相似度,根据实体融合规则,提供实体融合功能。
属性融合单元,用于根据实体相似度及属性关系,提供同一实体下属性融合功能。
本发明还提供了一种领域知识图谱可视化构建终端设备,至少包括一个处理器和存储器,以及存储在所述存储器中并能够在所述处理器上运行的多条计算机指令,所述处理器执行所述存储器中的计算机指令时实现上述领域知识图谱可视化构建方法。
本发明还提供了一种计算机可读存储介质,用于存储计算机可读指令,所述存储介质中存储的可读计算机指令被所述处理器加载执行时,实现上述领域知识图谱可视化构建方法。
本发明的有益效果是:
本发明具有以下优点:
(1)能够针对特定领域结构化、半结构化以及非结构化数据进行自动信息抽取,生成领域知识图谱三元组,实现领域知识图谱的持续构建,能够充分发挥领域专家主导作用,显著提升领域知识图谱构建效率,具有构建过程直观、灵活,可扩展强等特点;
(2)针对领域知识图谱构建过程进行了高度抽象和规范化,利用可视化人机交互方式,实现领域知识图谱的高效构建;
(3)本发明不限定于某个领域内的知识图谱构建,具有通用性及领域自适应性,能够适用于具有类似知识图谱构建需求的各个领域。
附图说明
图1是本发明实施例1中一种领域知识图谱可视化构建方法的流程图;
图2是本发明生成特定领域的信息抽取元模型的方法流程图;
图3是本发明针对特定领域文本数据的一种信息抽取模型可视化训练方法流程图;
图4是本发明针对领域知识图谱三元组进行知识融合的方法流程图;
图5是本发明实施例2中一种领域知识图谱可视化构建装置的结构示意图。
具体实施方式
本发明提供了一种面向特定领域的知识图谱可视化构建方法及装置,实现领域知识图谱构建过程的可视化自定义设置,能够自动持续地获取领域数据源,进行领域知识图谱三元组的持续生成、融合、更新及存储。通过本发明构建的领域知识图谱,可用于基于知识图谱的特定领域智能问答、精准检索、智能推理等应用。以下结合附图及实施例,对本发明的技术方案进行进一步详细说明。应当理解,此处描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例1、如图1所示,在本实施例中,本发明提供一种领域知识图谱可视化构建方法,具体包括:
步骤S101、获取用于构建领域知识图谱的多源异构数据源。
本发明所述领域并不限定于某一个特定领域,在本实施例中,以特定领域来解释本发明。
根据特定领域业务场景,创建领域相关的业务概念和关系,生成领域本体模型,其中包含领域概念、概念相关的自身属性以及概念之间的关系。领域本体的构建是一个系统工程,需要对特定领域有深入理解的领域专家参与。具体构建时,可使用已有的本体构建工具(如Protégé等),也可以自行开发可视化的领域专用本体构建工具。
针对特定领域用于构建知识图谱的数据源,根据领域本体模型,按特定领域业务场景进行分类,包含结构化数据和非结构化数据。
可选的,针对领域中的半结构化数据,可通过转换程序将其转化为相应的结构化数据。
针对结构化数据源,依据领域本体模型进行数据预处理,将属于某一个业务概念的数据源表示成一类结构,该结构字段与领域本体模型中的一个概念及其属性逐一对应,并将数据源中相关的一个或多个结构化数据表或文件预处理成前述结构。
特定领域中的非结构化数据可能以多种文件格式存储(如Word、PDF、文本文件等),可通过相应的抽取转换程序将文件存储格式统一为UTF-8编码的文本文件数据。
步骤S102、通过可视化方式建立数据源与领域本体模型的映射,生成信息抽取元模型。
步骤S103、基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组。
通过可视化方式为特定领域知识图谱数据源选择信息抽取模型,结合信息抽取元模型,信息抽取模型自动从数据源中抽取数据生成知识图谱三元组,具体包括:
针对结构化数据源,通过解析前述生成的信息抽取元模型,信息抽取模型获取数据源字段与领域本体模型的映射关系,并根据映射关系从数据源中抽取相应的列数据生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
针对非结构化数据源,信息抽取模型从输入的文本数据中自动识别出特定领域的实体、属性以及关系,并依据所述信息抽取元模型,将抽取出的信息组合生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体)。
所述创建的特定领域文本数据信息抽取模型训练完成后,将其发布成应用服务,并提供应用服务描述信息,以便领域知识图谱构建人员可通过可视化方式从预先创建训练好的信息抽取模型列表中选择用于特定领域文本数据的信息抽取模型。
步骤S104、针对生成的领域知识图谱三元组,进行知识融合和存储,实现可视化的领域知识图谱持续构建。
特定领域中用于构建知识图谱的数据可能会有多个来源,不同来源的数据彼此之间会存在重复或冲突的情况,因此在数据源生成领域知识图谱三元组后,需要进行知识融合操作后再进行知识存储。
可选的,针对特定领域持续产生的知识图谱数据源,信息抽取模块基于所述信息抽取元模型,对相同结构的数据源进行持续信息抽取,生成领域知识图谱三元组,并在知识融合操作后,知识存储模块将其存储至相应的数据库(例如关系数据库或图数据库)。
步骤S102中,生成特定领域的信息抽取元模型的方法见图2,具体步骤如下:
步骤S201、读取预先创建的领域本体模型,并可视化展现出其中的领域概念、属性以及各种关系。
步骤S202、读取用于构建领域知识图谱的数据源,并对数据进行可视化展现;针对结构化数据,可视化展现其中的数据结构列字段以及少量预览数据;针对文本数据,可视化展现具体的文本内容。
步骤S203、通过可视化方式将数据源中的实体、关系与领域本体模型中的概念、关系进行对应,具体包括:
针对特定领域预处理后的结构化数据,从每一类实体对应的表或文件结构中,通过可视化方式将结构中的字段与领域本体模型中的概念及其属性逐一对应,生成结构化数据信息抽取元模型。
针对特定领域预处理后的文本数据,从中选择一定数量的文本数据进行可视化序列标注,生成文本数据信息抽取元模型;基于领域本体模型,将文本数据中的实体序列标注为领域本体模型中对应的概念实体,将文本数据中的实体属性序列标注为领域本体模型中对应的概念实体属性,实体之间关系自动通过领域本体模型中对应的概念关系生成。
步骤S204、存储信息抽取元模型。
信息抽取元模型可以存储在数据库或文件(例如JSON文件)中。对于结构化数据,存储后的每一种信息抽取元模型作用于具有相同结构的数据源。对于文本数据,每一种信息抽取元模型与相应领域业务场景对应。
步骤S103中,针对特定领域文本数据的一种信息抽取模型可视化训练方法见图3,具体包括:
步骤S301、创建面向文本数据的信息抽取模型。
信息抽取模型为先实体抽取、后关系抽取的串行抽取模型或实体抽取、关系抽取融合的联合抽取模型,具体可以为:
基于Transformer的预训练语言模型BERT(Bidirectional EncoderRepresentation from Transformers)、图卷积神经网络GCN(Graph ConvolutionalNetwork)、双向长短时记忆网络BiLSTM(Bidirectional Long Short-Term Memory)、条件随机场CRF(Conditional Random Field)等模型以及组合模型(如BERT-BiLSTM-CRF)。每一种信息抽取模型都需提供实体(属性)抽取和关系抽取功能。
步骤S302、基于标注的特定领域信息抽取数据集训练信息抽取模型。
基于所述通过可视化标注生成的文本数据信息抽取元模型,即特定领域信息抽取标注数据集,将标注数据集划分为训练集、验证集和测试集,对创建的所述信息抽取模型进行训练,得到特定领域文本数据信息抽取模型。
步骤S303,发布特定领域文本数据信息抽取模型。
所述创建的特定领域文本数据信息抽取模型训练完成后,将其发布成应用服务,并提供应用服务描述信息,以便领域知识图谱构建人员可通过可视化方式从预先创建训练好的信息抽取模型列表中选择用于特定领域文本数据的信息抽取模型。
步骤S104中,针对领域知识图谱三元组进行知识融合的方法见图4,具体步骤包括:
步骤S401,创建领域知识图谱中知识融合规则。
基于预先创建的领域本体模型,依据概念及其属性,通过可视化方式设置每种领域概念对应实体的融合规则;针对领域本体模型中的每个概念,选择用于知识融合的属性,并为每个属性取值设置相似度度量函数(如余弦距离)和相似度度量阈值;同一概念实体下的多个知识融合度量属性之间的组合关系为逻辑与关系。
步骤S402,存储知识融合规则。
将通过可视化方式设置完成的知识融合规则作为领域本体模型的一部分进行存储。
步骤S403,实施知识融合。
知识融合模块读取知识融合规则,依据融合规则,计算实体或属性相似度,进行所述知识图谱三元组的知识融合处理。
可选的,针对特定领域持续产生的知识图谱数据源,信息抽取模块基于所述信息抽取元模型,对相同结构的数据源进行持续信息抽取,生成领域知识图谱三元组,并在知识融合操作后,知识存储模块将其存储至相应的数据库(例如关系数据库或图数据库)。
实施例2、与图1所示方法相对应,本发明实施例提供一种领域知识图谱可视化构建装置,如图5所示,包括:
数据源获取模块501,用于持续获取特定领域中用于构建领域知识图谱的结构化数据和非结构化数据,并对数据源进行预处理操作;
数据映射模块502,用于提供可视化的数据映射机制,将数据源中属于领域知识图谱中的实体、属性与预先创建的领域本体模型中的概念、属性进行对应;
信息抽取模块503,用于持续自动地抽取特定领域数据源中的实体、属性及关系,并生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
知识融合模块504,用于提供可视化的领域知识图谱中相似实体的融合配置机制,并根据预先创建的融合规则计算待融合实体与实体、属性与属性之间的彼此相似度,实现知识融合操作;
知识存储模块505,用于提供将领域知识图谱三元组进行持续持久化的机制。
可选的,所述数据源获取模块501包括:
领域本体模型创建单元5011,用于提供可视化机制建立特定领域中概念、属性及其关系模型;
结构化/半结构化数据预处理单元5012,针对特定领域原始结构化或半结构化数据,提供数据预处理操作实现数据结构语义与领域相关概念、属性及关系的对应;
非结构化数据预处理单元5013,提供抽取转换程序将文件存储格式统一为UTF-8编码的文本文件。
可选的,所述数据映射模块502包括:
结构化数据映射单元5021,用于提供可视化机制将表或文件等结构中数据列与领域本体模型中概念、属性进行对应;
文本数据映射单元5022,用于提供可视化机制将文本数据中的特定领域实体、属性与领域本体模型中概念、属性进行对应。
可选的,所述信息抽取模块503包括:
结构化数据抽取单元5031,用于依据信息抽取元模型将结构化数据转换为知识图谱三元组;
文本数据信息抽取模型训练单元5032,用于依据预先标注的序列文本数据训练用于从文本数据中自动抽取领域知识图谱三元组的信息抽取模型;
文本数据信息抽取单元5033,用于使用预先训练的信息抽取模型从持续输入的文本数据中自动抽取生成领域知识图谱三元组。
可选的,所述知识融合模块504包括:
实体融合单元5041,计算实体名以及相关属性值的相似度,根据实体融合规则,提供实体融合功能;
属性融合单元5042,根据实体相似度及属性关系,提供同一实体下属性融合功能。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明。实际应用时,可以根据具体需要将上述装置的内部结构划分成不同的功能单元或模块,以完成上述全部或部分功能。另外,实施例中各功能单元、模块的划分数量也可以根据实际应用需要而定,各功能单元、模块的名称是为了便于相互区分,并不用于限制本发明的保护范围。
实施例3、本发明实施例提供了一种领域知识图谱可视化构建终端设备,至少包括一个处理器和存储器,上述数据源获取、数据映射、信息抽取、知识融合、知识存储等程序模块存储在存储器中,由所述处理器执行所述存储器中的程序模块来实现上述任意方法实施例中的步骤。
实施例4、本发明实施例提供了一种计算机可读存储介质,其上存储数据源获取、数据映射、信息抽取、知识融合、知识存储等程序模块,以上程序模块被处理器执行时实现上述任意方法实施例中的步骤。
实施例5、本发明还提供了一种计算机软件系统,当在计算机终端设备上执行时,适用于如下特定领域知识图谱构建步骤:
持续获取特定领域中用于构建领域知识图谱的结构化数据和非结构化数据,并对数据源进行预处理操作;可选的,创建领域本体模型,建立特定领域中概念、属性及其关系模型;针对特定领域原始结构化或半结构化数据,提供数据预处理操作实现数据结构列字段与领域相关概念、属性及关系的对应;针对非结构化数据,通过抽取转换程序将文件存储格式统一为UTF-8编码的文本文件。
通过可视化的数据映射机制,将数据源中属于领域知识图谱中的实体、属性与预先创建的领域本体模型中的概念、属性进行对应;针对领域结构化数据,通过可视化机制将表或文件等结构中数据列与领域本体模型中概念、属性进行对应;针对非结构化数据,通过可视化机制将文本数据中的特定领域实体、属性与领域本体模型中概念、属性进行对应。
持续自动地抽取特定领域数据源中的实体、属性及关系,并生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);针对结构化数据,依据信息抽取元模型,信息抽取模块将结构化数据转换为知识图谱三元组;针对文本数据,依据预先标注的序列文本数据训练用于从文本数据中自动抽取领域知识图谱三元组的信息抽取模型,使用预先训练好的信息抽取模型从持续输入的文本数据中自动抽取生成领域知识图谱三元组。
通过可视化的领域知识图谱中相似实体或属性的融合配置机制,并根据预先创建的融合规则计算待融合实体与实体、属性与属性之间的彼此相似度,实现知识融合操作;计算实体名以及相关属性值的相似度,根据实体融合规则,进行实体融合;根据实体相似度及属性关系,进行属性融合;知识存储模块负责存储知识融合后的领域知识图谱三元组,实现领域知识图谱的持续增量更新。
以上所述实施例仅用于对本发明技术方案加以说明,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种领域知识图谱可视化构建方法,其特征在于,该方法步骤如下:
步骤S101、获取用于构建领域知识图谱的多源异构数据源;
步骤S102、通过可视化方式建立数据源与领域本体模型的映射,生成信息抽取元模型;
步骤S103、基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组;
步骤S104、针对生成的领域知识图谱三元组,进行知识融合和存储,实现可视化的领域知识图谱持续构建。
2.根据权利要求1所述的方法,其特征在于,步骤S101具体包括:
根据特定领域业务场景,创建领域相关的业务概念和关系,生成领域本体模型,其中包含概念、属性类型以及概念之间的关系;
将数据源按特定领域业务场景进行分类,包含结构化数据和非结构化数据;
针对结构化数据源,依据领域本体模型进行数据预处理,将每一个业务概念表示成一类结构,该结构字段与领域本体模型中的一个概念及其属性逐一对应;将数据源中相关的一个或多个结构化数据表或文件预处理成前述结构;
针对非结构化数据,统一预处理成UTF-8编码的文本文件数据;
创建领域概念时,同步创建概念相关的自身属性类型。
3.根据权利要求1所述的方法,其特征在于,步骤S102中,生成特定领域的信息抽取元模型的方法具体包括:
步骤S201、读取预先创建的领域本体模型,并可视化展现出其中的领域概念、属性以及各种关系;
步骤S202、读取用于构建领域知识图谱的数据源;
步骤S203、通过可视化方式将数据源中的实体、关系与领域本体模型中的概念、关系进行对应,具体包括:
针对特定领域预处理后的结构化数据,读取每一类实体对应的表或文件结构,通过可视化方式将结构中的字段与领域本体模型中的概念及其属性逐一对应,生成结构化数据信息抽取元模型;
针对特定领域预处理后的文本数据,从中选择一定数量的文本数据进行可视化序列标注,生成文本数据信息抽取元模型;基于领域本体模型,将文本数据中的实体序列标注为领域本体模型中对应的概念实体,将文本数据中的实体属性序列标注为领域本体模型中对应的概念实体属性,实体之间关系自动通过领域本体模型中对应的概念关系生成;
步骤S204、存储信息抽取元模型;
生成的每一种信息抽取元模型作用于具有相同结构的数据源。
4.根据权利要求1所述的方法,其特征在于,步骤S103中,基于信息抽取元模型,自动从数据源中抽取数据生成知识图谱三元组的方法具体包括:
针对结构化数据源,通过解析前述生成的信息抽取元模型,信息抽取模型获取数据源字段与领域本体模型的映射关系,并根据映射关系从数据源中抽取数据生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
针对非结构化数据源,信息抽取模型从输入的文本数据中自动识别出特定领域的实体、属性以及关系,并依据所述信息抽取元模型,将抽取出的信息组合生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
其中,针对特定领域文本数据的一种信息抽取模型可视化训练方法,具体包括:
步骤S301、创建面向文本数据的信息抽取模型;
信息抽取模型为先实体抽取、后关系抽取的串行抽取模型或实体抽取、关系抽取融合的联合抽取模型;
步骤S302、基于标注的特定领域信息抽取数据集训练信息抽取模型;
基于通过可视化标注生成的文本数据信息抽取元模型,对选择的所述信息抽取模型进行训练,得到特定领域文本数据信息抽取模型;
步骤S303,发布特定领域文本数据信息抽取模型;
通过可视化方式从预先创建的信息抽取模型列表中选择用于特定领域文本数据的信息抽取模型。
5.根据权利要求1所述的方法,其特征在于,步骤S104具体包括:
基于预先创建的领域本体模型,依据概念及其属性,通过可视化方式设置每种领域概念对应实体的融合规则;针对领域本体模型中的每个概念,选择用于知识融合的属性,并为每个属性取值设置相似度度量函数和相似度度量阈值;同一概念实体下的多个知识融合度量属性之间的关系为逻辑与关系;
知识融合模块读取知识融合规则,依据融合规则,计算实体或属性相似度,进行所述知识图谱三元组的知识融合处理;
针对所述知识融合后的知识图谱三元组,知识存储模块将其存储至相应的数据库;
针对特定领域持续产生的知识图谱数据源,信息抽取模块基于所述信息抽取元模型,对相同结构的数据源进行持续信息抽取,并生成领域知识图谱三元组。
6.一种领域知识图谱可视化构建装置,其特征在于,数据源获取模块,用于持续获取特定领域中用于构建领域知识图谱的结构化数据和非结构化数据,并对数据源进行预处理操作;
数据映射模块,用于提供可视化的数据映射机制,将数据源中属于领域知识图谱中的实体、属性与预先创建的领域本体模型中的概念、属性进行对应;
信息抽取模块,用于持续自动地抽取特定领域数据源中的实体、属性及关系,并生成领域知识图谱三元组(实体,关系,属性)或(实体,关系,实体);
知识融合模块,用于提供可视化的领域知识图谱中相似实体的融合配置机制,并根据预先创建的融合规则计算待融合实体与实体、属性与属性之间的彼此相似度,实现知识融合操作;
知识存储模块,用于提供将领域知识图谱三元组进行持续持久化的机制。
7.根据权利要求6所述的装置,其特征在于,所述数据源获取模块,包括:
领域本体模型创建单元,用于提供可视化机制建立特定领域中概念、属性及其关系模型;
结构化/半结构化数据预处理单元,针对特定领域原始结构化或半结构化数据,提供数据预处理操作实现数据结构语义与领域相关概念、属性及关系的对应;
非结构化数据预处理单元,提供抽取转换程序将文件存储格式统一为UTF-8编码的文本文件数据;
所述数据映射模块,包括:
结构化数据映射单元,用于提供可视化机制将表或文件结构中数据列与领域本体模型中概念、属性进行对应;
文本数据映射单元,用于提供可视化机制将文本数据中的特定领域实体、属性与领域本体模型中概念、属性进行对应;
所述信息抽取模块,包括:
结构化数据抽取单元,用于依据信息抽取元模型将结构化数据转换为知识图谱三元组;
文本数据信息抽取模型训练单元,用于依据预先标注的序列文本数据训练用于从文本数据中自动抽取领域知识图谱三元组的信息抽取模型;
文本数据信息抽取单元,用于使用预先训练的信息抽取模型从持续输入的文本数据中自动抽取生成领域知识图谱三元组;
所述知识融合模块,包括:
实体融合单元,用于计算实体名以及相关属性值的相似度,根据实体融合规则,提供实体融合功能;
属性融合单元,用于根据实体相似度及属性关系,提供同一实体下属性融合功能。
8.一种领域知识图谱可视化构建终端设备,其特征在于,至少包括一个处理器和存储器,以及存储在所述存储器中并能够在所述处理器上运行的多条计算机指令,所述处理器执行所述存储器中的计算机指令时实现如权利要求1-5中任一项所述领域知识图谱可视化构建方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机可读指令,所述存储介质中存储的可读计算机指令被所述处理器加载执行时,实现如权利要求1-5中任一项所述领域知识图谱可视化构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211151564.6A CN115525768A (zh) | 2022-09-21 | 2022-09-21 | 一种领域知识图谱可视化构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211151564.6A CN115525768A (zh) | 2022-09-21 | 2022-09-21 | 一种领域知识图谱可视化构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525768A true CN115525768A (zh) | 2022-12-27 |
Family
ID=84699267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211151564.6A Pending CN115525768A (zh) | 2022-09-21 | 2022-09-21 | 一种领域知识图谱可视化构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525768A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186359A (zh) * | 2023-05-04 | 2023-05-30 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
CN116204660A (zh) * | 2023-03-28 | 2023-06-02 | 北京航空航天大学 | 一种多源异构数据驱动的领域知识图谱构建系统方法 |
CN117973520A (zh) * | 2024-03-29 | 2024-05-03 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
CN118132765A (zh) * | 2024-04-02 | 2024-06-04 | 北京大数据先进技术研究院 | 一种基于数字对象知识图谱的泛在资源的发现方法和装置 |
CN118277638A (zh) * | 2024-05-29 | 2024-07-02 | 天津建设发展集团股份公司 | 企业信息管理方法及系统 |
-
2022
- 2022-09-21 CN CN202211151564.6A patent/CN115525768A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204660A (zh) * | 2023-03-28 | 2023-06-02 | 北京航空航天大学 | 一种多源异构数据驱动的领域知识图谱构建系统方法 |
CN116204660B (zh) * | 2023-03-28 | 2024-06-11 | 北京航空航天大学 | 一种多源异构数据驱动的领域知识图谱构建方法 |
CN116186359A (zh) * | 2023-05-04 | 2023-05-30 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
CN116186359B (zh) * | 2023-05-04 | 2023-09-01 | 安徽宝信信息科技有限公司 | 一种高校多源异构数据的集成管理方法、系统及存储介质 |
CN117973520A (zh) * | 2024-03-29 | 2024-05-03 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
CN117973520B (zh) * | 2024-03-29 | 2024-06-07 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
CN118132765A (zh) * | 2024-04-02 | 2024-06-04 | 北京大数据先进技术研究院 | 一种基于数字对象知识图谱的泛在资源的发现方法和装置 |
CN118277638A (zh) * | 2024-05-29 | 2024-07-02 | 天津建设发展集团股份公司 | 企业信息管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115525768A (zh) | 一种领域知识图谱可视化构建方法及装置 | |
CN110888943B (zh) | 基于微模板的法院裁判文书辅助生成的方法和系统 | |
CN109446221B (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN113220861B (zh) | 一种面向专业领域的知识图谱问答系统 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN118093621B (zh) | 结构化查询语言生成方法、装置、电子设备及存储介质 | |
CN112528001A (zh) | 一种信息查询方法、装置及电子设备 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
CN116541533A (zh) | 基于多源异构数据的风力发电机多模态工艺图谱建模方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN114417012A (zh) | 一种生成知识图谱的方法和电子设备 | |
CN112836013B (zh) | 一种数据标注的方法、装置、可读存储介质和电子设备 | |
CN114168615A (zh) | 自然语言查询智能变电站scd文件的方法及系统 | |
CN117932019A (zh) | 大语言模型的训练方法、装置、介质及电子设备 | |
CN117874181A (zh) | 基于大语言模型的智能问数看数方法、系统、设备和介质 | |
CN117421413A (zh) | 一种问答对生成方法、装置及电子设备 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
Yin | Fuzzy information recognition and translation processing in English interpretation based on a generalized maximum likelihood ratio algorithm | |
CN114428788B (zh) | 自然语言处理方法、装置、设备及存储介质 | |
CN115455937A (zh) | 一种基于句法结构和对比学习的否定分析方法 | |
CN114036268A (zh) | 基于意图门的任务型多轮对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |