CN111930856B - 领域知识图谱本体和数据的构建方法、装置和系统 - Google Patents

领域知识图谱本体和数据的构建方法、装置和系统 Download PDF

Info

Publication number
CN111930856B
CN111930856B CN202010639157.4A CN202010639157A CN111930856B CN 111930856 B CN111930856 B CN 111930856B CN 202010639157 A CN202010639157 A CN 202010639157A CN 111930856 B CN111930856 B CN 111930856B
Authority
CN
China
Prior art keywords
domain
relationship
target
entity
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010639157.4A
Other languages
English (en)
Other versions
CN111930856A (zh
Inventor
鄂海红
宋美娜
马超童
韩鹏昊
毕秋波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010639157.4A priority Critical patent/CN111930856B/zh
Publication of CN111930856A publication Critical patent/CN111930856A/zh
Application granted granted Critical
Publication of CN111930856B publication Critical patent/CN111930856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种领域知识图谱本体和数据的构建方法、装置和系统,其中,方法包括:确定目标领域,获取目标领域的领域知识库,根据领域知识库和目标设备发送的领域专家意见信息形成领域知识图谱本体雏形;确定概念和层级、概念的属性、概念间关系,生成领域本体知识表示;获取目标领域的目标文本,进行自动化实体抽取和关系抽取;获取分类失败的语料中的候选短语,计算候选短语的质量评分,将候选短语及对应的质量评分发送给目标设备,接收目标设备发送的经过领域专家筛选的目标短语添加到领域本体知识表示或领域实例库;获取分类成功的命名实体和关系实例,添加到领域实例库。由此,提高了知识图谱模式的精确性和精细度,实现生成高质量知识图谱。

Description

领域知识图谱本体和数据的构建方法、装置和系统
技术领域
本申请涉及信息技术和数据业务技术领域,尤其涉及一种领域知识图谱本体和数据的构建方法、装置和系统。
背景技术
随着大数据与人工智能的发展,知识图谱技术取得了显著的进步。构建高质量知识图谱的首要任务就是定义精确且精细的知识模式约束,即刻画出用于描述该领域基本认知框架的本体。相关的本体构建技术方案总体可以划分为两大类,分别是“自顶向下法”和“自底向上法”,但两者又各自存在一些问题。
自顶向下逐层定义的本体构建方法延续了传统知识工程的本体构建策略,主要采取手工的方式且对领域专家的依赖性较大,本体规模受限于时间和人力成本。以代表性工具Protege为例,繁多的操作面板和复杂的构建流程为用户带来了很大的负担,加大了在保证知识模式严格约束的前提下扩展本体规模的难度;尤其是该工具使用独立的功能模块分别管理领域内的全体对象属性(即关系)和数据属性,采取先创建属性、后选择定义域和值域的方式,虽然在一定程度上提高了系统的复用性,但不符合用户的认知习惯。
自底向上推理归纳的自动化本体构建方法是一种面向应用、数据驱动的做法。目前,多源异构的海量数据对自底向上构建本体和后续知识融合带来了极大挑战,为了保证数据采集、数据处理(即数据清洗和数据对齐)、全生命周期的数据存储和数据更新,现有的知识图谱构建平台大多数选择内部集成大数据处理模块。另外,还需要集成自然语言处理模块,用于完成“预处理—概念抽取—关系抽取—本体映射”等一系列本体构建的核心操作。采用此种自底向上推理归纳法构建领域知识图谱本体主要存在两方面问题:一是领域本体结构较为扁平化,即本体中的概念多以单个词的形式给出,无法通过多层级标签体系深入描述各概念在某一特定领域中的意义,也无法避免概念和属性的歧义现象;二是为知识图谱本体构建工具“捆绑”大数据能力和自然语言处理能力,不仅加重了系统开发、部署、运营的时间成本和人力成本,而且降低了ETL工具、AI模型等通用功能的利用率。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种领域知识图谱本体和数据的构建系统,一方面,解决知识图谱模式构建场景下单一构建方法的不足;另一方面,解决现有知识图谱本体构建工具冗余内嵌大数据工具和AI模型训练工具的问题。
本申请提出一种领域知识图谱本体和数据的构建方法。
本申请提出一种领域知识图谱本体和数据的构建装置。
本申请一方面实施例提出了一种领域知识图谱本体和数据的构建系统,包括:领域知识图谱本体和数据的构建装置、大数据平台和人工智能平台;
所述领域知识图谱本体和数据的构建装置创建模型训练任务,并将所述模型训练任务转发给所述大数据平台和人工智能平台;
所述大数据平台采集所述模型训练任务对应的数据集发送给所述人工智能平台;
所述人工智能平台根据所述数据集进行模型训练生成目标模型,并根据所述目标模型提供服务。
本申请另一方面实施例提出了一种领域知识图谱本体和数据的构建方法,包括:
确定目标领域,并获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形;
确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示;
获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对所述目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;
获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备;
接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库;
获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。
本申请又一方面实施例提出了一种领域知识图谱本体和数据的构建装置,包括:
确定模块,用于确定目标领域;
获取形成模块,用于获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形;
确定生成模块,用于确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示;
获取抽取模块,用于获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对所述目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;
获取发送模块,用于获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备;
接收添加模块,用于接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库;
处理模块,用于获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。
本申请实施例所提供的技术方案可以包含如下的有益效果:
通过确定目标领域,并获取与目标领域对应的领域知识库,根据领域知识库和目标设备发送的领域专家意见信息形成领域知识图谱本体雏形;确定概念和层级、概念的属性、概念间关系,生成领域本体知识表示;获取与目标领域对应的目标文本,对目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;获取分类失败的语料中的候选短语,并获取候选短语的统计指标特征,根据统计指标特征计算候选短语的质量评分,并将候选短语以及对应的质量评分发送给目标设备,再接收目标设备发送的经过领域专家筛选的目标短语,添加到领域本体知识表示或领域实例库;获取分类成功的命名实体和关系实例,通过筛选或直接添加到领域实例库。由此,提高了知识图谱模式的精确性和精细度,实现生成高质量知识图谱。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种领域知识图谱本体和数据的构建系统的流程示意图;
图2为本申请实施例所提供的基于大数据和AI开放平台的领域知识图谱本体和数据的构建系统示意图。
图3为本申请实施例所提供的一种领域知识图谱本体和数据的构建方法的流程示意图;
图4为本申请实施例所提供的一种“自顶向下为主、自底向上为辅”的领域知识图谱本体和数据的构建方法流程图;
图5为本申请实施例所提供的领域新词发现流程图;
图6为本申请实施例所提供的领域知识图谱本体结构多标签层次示意图;
图7为本申请实施例所提供的领域知识图谱本体结构的实体关系示意图;
图8为本申请实施例所提供的领域本体的扩展结构示意图;
图9为本申请实施例所提供的一种领域知识图谱本体和数据的构建装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述根据本申请实施例提出的领域知识图谱本体和数据的构建方法、装置和系统。
图1为本申请实施例所提供的一种领域知识图谱本体和数据的构建系统的流程示意图。
如图1所示,该领域知识图谱本体和数据的构建系统,包括:领域知识图谱本体和数据的构建装置100、大数据平台200和人工智能平台300。
其中,领域知识图谱本体和数据的构建装置100创建模型训练任务,并将模型训练任务转发给大数据平台200和人工智能平台300。
大数据平台200采集模型训练任务对应的数据集发送给人工智能平台300。
人工智能平台300根据数据集进行模型训练生成目标模型,并根据目标模型提供服务。
进一步地,在本申请实施例的一种可能的实现方式中,大数据平台200根据模型训练任务确定目标数据;从各个数据源采集目标数据,并进行数据处理和数据存储后生成数据集。
为了本领域更加清楚本申请领域知识图谱本体和数据的构建方法,如图2所示,图2为本申请实施例所提供的基于大数据和AI开放平台的领域知识图谱本体和数据的构建系统示意图。
其中,领域知识图谱本体和数据构建工具主要由领域本体构建、图数据库存储和本体可视化三大功能模块组成,其中独立运营的大数据平台和AI开放平台通过API为核心模块“领域本体构建”提供技术支持。
大数据平台承担了领域知识(结构化、半结构化、非结构化数据)的采集、处理、存储和更新的主要工作,通过API(应用程序接口)对自顶向下和自底向上的本体构建过程开放数据服务;同时,大数据平台在本体和数据构建工具的调度下,向AI开放平台提供数据集推送和下载服务。
AI开放平台承担了文本分类、实体抽取、概念抽取、关系抽取、联合抽取等知识图谱AI模型的训练、迭代任务,并对外提供运算服务。本体和数据构建工具将当前阶段的领域知识图谱本体转化为标注数据,与数据集一并提交到AI开放平台,训练领域专属AI模型并发布上线成为AI服务,之后通过调用API即可处理更多知识语料,从而促使领域知识图谱本体的演进。
图3为本申请实施例所提供的一种领域知识图谱本体和数据的构建方法的流程示意图。
具体的,领域知识图谱本体和数据的构建方法是一种基于独立运营的大数据平台和AI开放平台的“自顶向下为主、自底向上为辅”领域知识图谱本体和数据的构建方法。一方面,解决知识图谱模式构建场景下单一构建方法的不足(即单一手工构建方法操作复杂且本体规模受限,单一自动化构建方法难以形成约束严格的层次化分类标签,且容易造成本体结构扁平化);另一方面,解决现有知识图谱本体构建工具冗余内嵌大数据工具和AI模型训练工具的问题,以松耦合为设计原则,既保持了知识图谱本体构建工具的功能完备性,又使大数据平台和AI开放平台的通用计算能力得到充分发挥。最终,形成一套多层级标签体系、知识模式约束较为严格、对用户友好的领域知识图谱本体和数据构建系统。既充分发挥了领域专家知识与决策的重要作用,又顺应了大数据对知识图谱本体扩展的驱动力。
如图3所示,该领域知识图谱本体和数据的构建方法,包括:
步骤101,确定目标领域,并获取与目标领域对应的领域知识库,根据领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形。
步骤102,确定概念及其层级、概念的属性和概念间的关系,并根据上述已确定内容对领域知识图谱本体雏形进行处理,生成领域本体知识表示。
其中,可以根据应用需要选择目标领域,比如以科技咨询大数据领域作为目标领域、或者以医学领域作为目标领域等。
步骤103,获取与目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类。
其中,目标文本包括但不限于结构化文本、半结构化文本和非结构化文本中的一种或者多种,比如科技咨询大数据领域的企业子域数据库或技术子域的数据库。
步骤104,获取分类失败的语料中的候选短语,并获取候选短语的统计指标特征,根据统计指标特征计算候选短语的质量评分,并将候选短语以及对应的质量评分发送给目标设备。
步骤105,接收目标设备发送的经过领域专家筛选的目标短语,并将目标短语添加到领域本体知识表示或领域实例库。
步骤106,获取分类成功的命名实体和关系实例,通过筛选或直接添加到领域实例库。
在本申请的一个实施例中,将目标短语添加到领域本体知识表示,包括:确定候选短语为新标签,则确定新标签节点对应的父节点和子节点,将新标签节点添加到父节点和子节点之间;确定候选短语为新实体,则确定新实体节点对应的父节点,将新实体节点添加到父节点下面;确定候选短语为新关系,则确定关系主体和关系客体的对应节点,向领域本体知识表示中添加新的关系三元组。
在本申请的一个实施例中,设置目标领域为根节点,各级标签作为层次化的中间节点,以及各个实体作为叶子节点;每个节点设置有唯一标识符、节点特征、标签/实体概念名称和节点类型;设置描述实体属性的对象数组,由属性名和属性取值类型两个字段组成,该对象数组为实体概念层节点的特有属性,标签层节点默认此对象数组为空;设置多层级标签体系节点父子关系的对象数组,该对象数组为标签层节点的特有属性,实体概念层节点默认此对象数组为空;设置关系体系的三元组集合,从实体概念层节点(即多层级标签体系的叶子节点)中选取关系主体和关系客体,并建立一条由关系主体指向关系客体的有向边,该有向边的名称为关系类别,并设置描述实体关系属性的对象数组;根据上述设置获取领域本体知识表示。
图4为本申请实施例所提供的一种“自顶向下为主、自底向上为辅”的领域知识图谱本体和数据的构建方法流程图。
为了解决知识图谱领域单一本体构建方法的不足,即自动化本体构建方法容易造成本体结构扁平化,传统本体构建工具手工操作复杂,限制了知识图谱模式的演进规模等问题,提出一种“自顶向下为主、自底向上为辅”的领域知识图谱本体和数据的构建方法,通过自顶向下严格的多标签约束、概念定义约束和关系约束,并结合自底向上的数据驱动方式进一步扩展本体规模,提高了知识图谱模式的精确性和精细度,为后续生成高质量知识图谱打下基础。具体构建流程如图4所示:
根据上述设计思想实现的领域知识图谱本体和数据构建工具,具备通用性特征,各领域本体在存储空间中相互独立,因此构建本体的第一步是确定目标领域,此后再分两条线开展构建任务。
如图4所示,自顶向下的构建流程描述,为了构建出精确且精细的领域本体,离不开领域专家的积极干预,但这并不意味着盲目地开始手工构建,而是需要先根据领域知识库和领域专家意见形成领域本体雏形。
其中,领域知识库包括但不限于该领域的互联网知识库、百科网站、行业权威指南、元数据国家标准和关系型数据库等。例如,在线百科利用庞大的标签系统组织了该网站的全部实体,从标签系统中初步筛选出目标领域中高质量的概念及属性,并建立起概念的上下位关系,就形成了层次较为清晰、多标签的领域本体雏形。
进一步地,优化领域本体雏形,确定最终采用的概念及其上下位层级、概念的属性和概念之间的关系。最后,依照实际情况决定是否将其手工录入领域本体和数据构建工具,或者预处理为规定的JSON格式,再通过API一键导入,形成当前版本的领域本体知识表示。
通过可视化操作面板,可对本体知识结构中的概念及其层级关系进行归并调整。其中,多层级标签的概念体系以简洁直观的树型结构展示,本领域概念间的关系既可以通过单独的模块集中展示(推荐),也可以作为概念的对象属性存在于概念的属性列表中。需要说明,本申请的领域知识图谱本体和数据构建工具可以从用户的认知习惯出发,对概念属性的管理方法做出了改进,利用“多层级标签—概念—属性”的组织脉络使某一具体的属性专属于特定概念,从而加强了概念和属性的耦合度,符合用户的认知习惯。
本申请选取图数据库HugeGraph实现领域本体的存储任务,将多层级标签的概念体系和关系约束表示为有向图。至此,领域本体构建的自顶向下主线任务完成。
如图4所示,自底向上的构建流程描述,通过主线方法自顶向下构建的领域本体,已经可以达到一定规模并用于构建知识图谱的下一阶段。但是参照以往领域知识图谱构建经验,随着数据资源规模的扩大,此前定义的领域本体模型由于受规模限制,将逐渐不能满足知识抽取与知识融合的需求。
目前,多源、海量的领域数据资源经过整合,对领域知识图谱本体构建和图谱演进形成了强烈的数据驱动力。本申请的本体构建辅线任务——自底向上法,首先需要对领域现有的结构化/半结构化/非结构化文本进行自动化实体抽取(包含命名实体识别和实体分类两个步骤)和自动化关系抽取(包含关系实例抽取和关系分类两个步骤),或利用实体与关系联合抽取模型一次性完成上述四个步骤,再对未能准确识别实体类型和关系类型的文本执行新词发现操作,最后通过领域专家决策进一步扩展领域本体结构。数据驱动的自底向上方法充分利用大数据平台和AI开放平台提供的服务,促进现有本体结构的精细化,从而弥补自顶向下方法在规模扩展方面的不足。
本申请实施例中,命名实体识别(Named Entity Recognition,NER)主要任务是在输入的文本中定位到命名实体的边界,并将其分类到主线(自顶向下方法)定义好的类型集合。NER的输入是一个句子对应的单词序列S=<w1,w2,……,wN>,输出是一个三元组集合,每个三元组以<IS,IE,T>的形式表示S中的一个命名实体,其中IS和IE分别表示命名实体在S中的开始位置和结束位置,T是领域现有本体模型中的实体类型(即概念)。
本申请实施例中,分类成功(即被标注类型)的命名实体将被存入领域实例库缓存区,由知识库所有者决定最新识别的命名实体通过筛选后入库或直接入库,此处不再赘述。同时,设置自动化实体抽取模型的另一项输出,得到实体分类失败(即无法确定实体类型)的文本内容,作为新词发现阶段的语料。
本申请实施例中,关系抽取(Relation Extraction,RE)主要任务是从输入的自然语言语料中抽取出关系实例,并以三元组<arg1,rel,arg2>的形式输出,其中arg1为关系主体,rel为关系短语,arg2为关系客体。关系主体和关系客体一般为实体的名词短语,关系短语则对应领域知识图谱本体中预定义的关系类型。
本申请实施例中,分类成功(即被标注类型)的关系实例将被存入领域实例库缓存区,由知识库所有者决定最新识别的关系实例通过筛选后入库或直接入库,此处不再赘述。同时,设置自动化关系抽取模型的另一项输出,得到关系分类失败(即无法确定关系类型)的文本内容,作为新词发现阶段的语料。
本申请采用无监督方法完成领域新词发现任务,流程如图5所示。首先通过频繁模式挖掘得到上一步语料的候选短语(即高频且连续的N个字/词序列);其次,计算出每个候选短语的统计指标特征,例如TF-IDF(频率-逆文档频率)等;最后根据自定义的各统计指标权重,计算出每个候选短语的综合得分,并按照从高到低的顺序输出,交由领域专家处理。
经过领域专家决策,判定是否归纳高质量短语以扩展当前的领域本体结构,或者将未被模型正确识别的命名实体或关系实例由手工分类的方式加入领域实例库。至此,自底向上的辅线构建任务完成,由数据驱动领域本体模型的规模扩展及知识演进。
图6为本申请实施例所提供的领域知识图谱本体结构多标签层次示意图。
目前,在构建领域知识图谱的过程中,大多数自动化实体抽取模型将图谱本体的实体名称作为数据标注阶段的分类标签,AI(Artificial Intelligence,人工智能)模型识别命名实体后将其划分到单一类别。随着异构数据源的增加,数据的复杂性也不断增长,单标签分类方式忽视了实体粒度的差异,无法满足图谱应用阶段知识检索、知识推理等复杂需求。
本申请的最终目标是构建多层级标签体系的领域知识图谱模式约束,通过参考领域知识库和领域专家意见,尽可能实现细粒度的实体分类和定义,从而深入描述各实体概念在某一特定领域的意义,减少概念和属性的歧义现象,降低后续数据源扩张带来的本体大规模重构风险,为后续知识图谱的复杂应用打好模式基础。
为了突出多层级标签体系的设计原则,本申请选取树型结构存储领域知识图谱本体,根节点(即领域名称)和中间节点共同构成标签层,叶子节点构成实体概念层。如图6所示,以实体“中文专利”为例,展示了科技咨询大数据领域知识图谱本体的多标签层次结构。
图6中“科技咨询大数据领域”标签为根节点,“技术”标签、“专利”标签均为中间节点,根节点和中间节点共同构成了多层级标签层;“中文专利”为叶子节点,构成了实体概念层。
上述本体结构中,每个节点对象包含的属性含义如下:(1)id为多层级标签体系中各节点的唯一标识符;(2)describe为节点特征的简要描述;(3)label表示标签/实体概念名称;(4)type表示节点类型,其中“normal”代表标签层节点,“leaf”代表实体概念层节点;(5)properties为描述实体属性的对象数组,是实体概念层节点的特有属性(标签层节点默认此属性为空),数组的每一项由name和type两个字段组成,分别表示属性名和属性取值类型;(6)children为描述多层级标签体系节点父子关系(即上下位关系)的对象数组,是标签层节点的特有属性,实体概念层节点默认此属性为空。
本申请实施例中,领域知识图谱本体多标签体系结构的标准数据格式样例如下,通过扩展children和properties实现本体规模的演进。
Figure BDA0002570794790000091
图7为本申请实施例所提供的领域知识图谱本体结构的实体关系示意图。
本申请选取有向图结构,以直观体现领域知识图谱本体概念层的实体关系。如图7所示,以医学领域常用实体“药物”、“疾病”和“医学检查”为例,对领域实体关系进行描述。
实体关系的完整描述一般包含以下字段的信息:
(1)id为当前领域实体关系的唯一标识符;
(2)name为实体关系名称;
(3)source_label为起点实体名称;
(4)target_label为终点实体名称;
(5)properties为实体关系的属性集合,其中每一项属性通过name和type字段分别定义关系属性的名称和取值类型。
按照上述描述原则,实体关系的数据结构样例如下:
Figure BDA0002570794790000101
在本申请的一个实施例中,AI开放平台为领域知识图谱本体构建的自底向上阶段提供了模型和服务支撑。本体和数据构建工具模拟普通用户登录AI平台,权限认证通过后可直接调用API,完成“创建AI训练项目——配置标注数据/数据集——启动模型训练——AI服务发布上线——实体抽取——新词发现”等一系列操作。
其中,平台之间的交互接口设计如下:
Figure BDA0002570794790000111
本申请利用自顶向下构建过程形成的多层级标签的领域知识图谱模式约束,将其转化为自动化实体抽取阶段所需的预定义实体分类规则,以及自动化关系抽取阶段所需的预定义关系分类规则,从而完成结构化/半结构化/非结构化文本的实体分类任务和关系分类任务。按照事先约定的模型调用规则,实体分类阶段和关系分类阶段分类失败的语料文本将直接被AI开放平台提交至新词发现服务,服务执行完毕后将新词按照质量得分从高到低的顺序,向知识图谱本体和数据构建工具返回以下格式的数据:
Figure BDA0002570794790000121
在本申请的一个实施例中,确定候选短语为新标签,则确定新标签节点对应的父节点和子节点,将新标签节点添加到父节点和子节点之间;确定候选短语为新实体,则确定新实体节点对应的父节点,将新实体节点添加到父节点下面;确定候选短语为新关系,则确定关系主体和关系客体的对应节点,向领域本体知识表示中添加新的关系三元组。
具体地,领域专家对照现有的知识图谱本体结构,逐个判断新词所代表的实体类型或关系类型:
(1)对于本体中已定义类别但模型分类失败的新词,一键勾选其对应的实体类型名称或关系类型名称,将其加入领域实例的图数据库,并创建新的标注记录加入缓冲区;
(2)对于尚未定义实体类别的实体新词,首先需要明确其在领域知识图谱本体结构中的位置和上下位关系,之后引用现有的标签层节点,并在被引用的标签节点的最底层追加新的标签节点或实体概念节点,形成如图8所示的本体扩展结构,并将扩展记录加入缓冲区;
(3)对于尚未定义关系类型的关系新词,首先需要明确关系的起点实体和终点实体分别对应的实体类别,并确定两者在领域知识图谱本体结构中的位置,通过添加关系三元组,即<起点实体类型,关系类型,终点实体类型>,以及关系的属性集合,形成与图7所示格式一致的关系扩展结构,并将扩展记录加入缓冲区;
(4)舍弃无标注价值或扩展价值的新词,将缓冲区的标注任务补充提交至AI开放平台,本体扩展记录提交至知识图谱的图数据库,从而完成一次严格约束的自底向上领域本体规模迭代。
本申请实施例的领域知识图谱本体和数据的构建方法,通过确定目标领域,并获取与目标领域对应的目标文本;通过预设实体抽取模型对目标文本进行实体抽取,得到目标实体,以及对目标实体进行分类;通过预设关系抽取模型对目标文本进行关系抽取,得到目标关系实例,以及对目标关系实例进行分类;获取分类失败的候选短语,并获取候选短语的统计指标特征;根据统计指标特征计算候选短语的质量评分,将质量评分大于预设阈值的候选短语添加到领域实例库或领域本体表示。由此,形成一套多层级标签体系、知识模式约束较为严格、对用户友好的领域知识图谱本体和数据构建系统。
图9为本申请实施例所提供的一种领域知识图谱本体和数据的构建装置的结构示意图。
如图9所示,该装置包括:确定模块901、获取形成模块902、确定生成模块903、获取抽取模块904、获取发送模块905、接收添加模块906和处理模块907。
确定模块901,用于确定目标领域。
获取形成模块902,用于获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形。
确定生成模块903,用于确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示。
获取抽取模块904,用于获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类。
获取发送模块905,用于获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备。
接收添加模块906,用于接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库。
处理模块907,用于获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本申请实施例的领域知识图谱本体和数据的构建装置,通过确定目标领域,并获取与目标领域对应的领域知识库,根据领域知识库和目标设备发送的领域专家意见信息形成领域知识图谱本体雏形;确定概念和层级、概念的属性、概念间关系,生成领域本体知识表示;获取与目标领域对应的目标文本,对目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;获取分类失败的语料中的候选短语,并获取候选短语的统计指标特征,根据统计指标特征计算候选短语的质量评分,并将候选短语以及对应的质量评分发送给目标设备,再接收目标设备发送的经过领域专家筛选的目标短语,添加到领域本体知识表示或领域实例库;获取分类成功的命名实体和关系实例,通过筛选或直接添加到领域实例库。由此,提高了知识图谱模式的精确性和精细度,实现生成高质量知识图谱。
为了实现上述实施例,本申请实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述终端设备执行方法实施例所述的领域知识图谱本体和数据的构建方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种领域知识图谱本体和数据的构建方法,其特征在于,包括:
确定目标领域,并获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形;
确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示;
获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对所述目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;
获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备;
接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库;
获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。
2.如权利要求1所述的领域知识图谱本体和数据的构建方法,其特征在于,所述目标文本为:
结构化文本、半结构化文本和非结构化文本中的一种或者多种。
3.如权利要求1所述的领域知识图谱本体和数据的构建方法,其特征在于,所述将目标短语添加到所述领域本体知识表示,包括:
确定所述候选短语为新标签,则确定新标签节点对应的父节点和子节点,将所述新标签节点添加到父节点和子节点之间;
确定所述候选短语为新实体,则确定新实体节点对应的父节点,将所述新实体节点添加到父节点下面;
确定所述候选短语为新关系,则确定关系主体和关系客体的对应节点,向所述领域本体知识表示中添加新的关系三元组。
4.如权利要求1所述的领域知识图谱本体和数据的构建方法,其特征在于,所述确定概念及其层级,确定所述概念的属性和概念间关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示,包括:
设置所述目标领域为根节点,各级标签作为层次化的中间节点,以及各个实体作为叶子节点;
每个节点设置有唯一标识符、节点特征、标签/实体概念名称和节点类型;
设置描述实体属性的对象数组,由属性名和属性取值类型两个字段组成,该对象数组为实体概念层节点的特有属性,标签层节点默认此对象数组为空;
设置多层级标签体系节点父子关系的对象数组,该对象数组为标签层节点的特有属性,实体概念层节点默认此对象数组为空;
设置关系体系的三元组集合,从所述实体概念层节点中选取关系主体和关系客体,并建立一条由所述关系主体指向所述关系客体的有向边,并设置描述实体关系属性的对象数组,其中,所述有向边的名称为关系类别;
根据上述设置获取所述领域本体知识表示。
5.一种领域知识图谱本体和数据的构建装置,其特征在于,包括;
确定模块,用于确定目标领域;
获取形成模块,用于获取与所述目标领域对应的领域知识库,根据所述领域知识库和目标设备发送的领域专家意见信息形成多层级标签体系的领域知识图谱本体雏形;
确定生成模块,用于确定概念及其层级、概念的属性和概念间的关系,并根据所述概念、所述概念的属性、所述概念间关系以及所述层级,对所述领域知识图谱本体雏形进行处理,生成领域本体知识表示;
获取抽取模块,用于获取与所述目标领域对应的目标文本,通过预设实体抽取模型、关系抽取模型或联合抽取模型,对所述目标文本进行自动化实体抽取和关系抽取,分别识别出命名实体和关系实例,并进行分类;
获取发送模块,用于获取分类失败的语料中的候选短语,并获取所述候选短语的统计指标特征,根据所述统计指标特征计算所述候选短语的质量评分,并将所述候选短语以及对应的质量评分发送给目标设备;
接收添加模块,用于接收所述目标设备发送的经过领域专家筛选的目标短语,并将所述目标短语添加到所述领域本体知识表示或领域实例库;
处理模块,用于获取分类成功的命名实体和关系实例,通过筛选或直接添加到所述领域实例库。
6.如权利要求5所述的领域知识图谱本体和数据的构建装置,其特征在于,所述目标文本为:
结构化文本、半结构化文本和非结构化文本中的一种或者多种。
7.如权利要求5所述的领域知识图谱本体和数据的构建装置,其特征在于,所述接收添加模块,具体用于:
确定所述候选短语为新标签,则确定新标签节点对应的父节点和子节点,将所述新标签节点添加到父节点和子节点之间;
确定所述候选短语为新实体,则确定新实体节点对应的父节点,将所述新实体节点添加到父节点下面;
确定所述候选短语为新关系,则确定关系主体和关系客体的对应节点,向所述领域本体知识表示中添加新的关系三元组。
8.如权利要求5所述的领域知识图谱本体和数据的构建装置,其特征在于,确定生成模块,具体用于:
设置所述目标领域为根节点,各级标签作为层次化的中间节点,以及各个实体作为叶子节点;
每个节点设置有唯一标识符、节点特征、标签/实体概念名称和节点类型;
设置描述实体属性的对象数组,由属性名和属性取值类型两个字段组成,该对象数组为实体概念层节点的特有属性,标签层节点默认此对象数组为空;
设置多层级标签体系节点父子关系的对象数组,该对象数组为标签层节点的特有属性,实体概念层节点默认此对象数组为空;
设置关系体系的三元组集合,从所述实体概念层节点中选取关系主体和关系客体,并建立一条由所述关系主体指向所述关系客体的有向边,并设置描述实体关系属性的对象数组,其中,所述有向边的名称为关系类别;
根据上述设置获取所述领域本体知识表示。
9.一种领域知识图谱本体和数据的构建系统,其特征在于,包括:如权利要求5-8任一所述的领域知识图谱本体和数据的构建装置、大数据平台和人工智能平台;
所述领域知识图谱本体和数据的构建装置创建模型训练任务,并将所述模型训练任务转发给所述大数据平台和人工智能平台;
所述大数据平台采集所述模型训练任务对应的数据集发送给所述人工智能平台;
所述人工智能平台根据所述数据集进行模型训练生成目标模型,并根据所述目标模型提供服务。
10.如权利要求9所述的领域知识图谱本体和数据的构建系统,其特征在于,
所述大数据平台根据所述模型训练任务确定目标数据;
从各个数据源采集所述目标数据,并进行数据处理和数据存储后生成所述数据集。
CN202010639157.4A 2020-07-06 2020-07-06 领域知识图谱本体和数据的构建方法、装置和系统 Active CN111930856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639157.4A CN111930856B (zh) 2020-07-06 2020-07-06 领域知识图谱本体和数据的构建方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639157.4A CN111930856B (zh) 2020-07-06 2020-07-06 领域知识图谱本体和数据的构建方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111930856A CN111930856A (zh) 2020-11-13
CN111930856B true CN111930856B (zh) 2023-02-21

Family

ID=73312514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639157.4A Active CN111930856B (zh) 2020-07-06 2020-07-06 领域知识图谱本体和数据的构建方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111930856B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395391B (zh) * 2020-11-17 2023-11-03 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112417175A (zh) * 2020-12-07 2021-02-26 北京明略软件系统有限公司 面向维修工单的文档检索方法、系统、计算机及存储介质
CN112466463B (zh) * 2020-12-10 2023-08-18 求臻医学科技(浙江)有限公司 基于肿瘤精准诊疗知识图谱的智能解答系统
CN112699248B (zh) * 2020-12-24 2022-09-16 厦门市美亚柏科信息股份有限公司 一种知识本体构建方法、终端设备及存储介质
CN112765288A (zh) * 2021-02-05 2021-05-07 新华智云科技有限公司 知识图谱的构建方法及系统、信息查询方法及系统
CN113076396B (zh) * 2021-03-29 2023-05-16 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及系统
CN112948596B (zh) * 2021-04-01 2023-03-31 泰豪软件股份有限公司 知识图谱构建方法、装置、计算机设备及计算机存储介质
CN112966057B (zh) * 2021-04-22 2022-08-12 上海深杳智能科技有限公司 知识图谱构建方法、系统、信息处理系统、终端及介质
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113239130A (zh) * 2021-06-18 2021-08-10 广东博维创远科技有限公司 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质
CN113345430B (zh) * 2021-06-25 2024-05-10 上海适享文化传播有限公司 基于语音固定条件下多字段的查询方法
CN113609308B (zh) * 2021-08-12 2023-04-21 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN113792157B (zh) * 2021-09-14 2022-10-25 哈尔滨工业大学 一种面向领域机理知识库的构建方法
CN114036307B (zh) * 2021-09-17 2022-09-13 清华大学 一种知识图谱实体对齐方法及装置
CN113792123B (zh) * 2021-11-17 2022-02-15 广州极天信息技术股份有限公司 一种基于数据驱动的领域知识图谱构建方法及系统
CN114417012A (zh) * 2022-01-20 2022-04-29 上海弘玑信息技术有限公司 一种生成知识图谱的方法和电子设备
CN114444512B (zh) * 2022-01-24 2024-04-09 中科合肥智慧农业协同创新研究院 一种基于本体知识库的自然语言领域数据集自动标注方法
CN114780083B (zh) 2022-06-17 2022-10-18 之江实验室 一种知识图谱系统的可视化构建方法及装置
CN114861112B (zh) * 2022-07-05 2022-09-20 广州趣米网络科技有限公司 基于数据存取和大数据分类的信息分发方法及系统
CN115329612A (zh) * 2022-10-17 2022-11-11 中国电子科技集团公司信息科学研究院 信号处理异构集成微系统知识图谱构建方法及仿真方法
CN116069948B (zh) * 2023-01-17 2024-01-09 人民网股份有限公司 内容风控知识库构建方法、装置、设备及存储介质
CN116028610B (zh) * 2023-02-15 2023-06-09 北京邮电大学 一种超关系知识图谱上的n元复杂查询嵌入方法
CN116431835B (zh) * 2023-06-06 2023-09-15 中汽数据(天津)有限公司 汽车认证领域自动化知识图谱构建方法、设备和介质
CN117194677B (zh) * 2023-08-30 2024-04-26 武汉大学中南医院 一种临床实践指南本体的构建、扩展与评估方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY181677A (en) * 2014-05-05 2020-12-31 Mimos Berhad System and method for generating knowledge base automatically
CN107609052B (zh) * 2017-08-23 2019-09-24 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN110264336B (zh) * 2019-05-28 2020-09-22 浙江邦盛科技有限公司 一种基于大数据的智能案防系统
CN110795567A (zh) * 2019-09-29 2020-02-14 北京远舢智能科技有限公司 一种知识图谱平台
CN110968650A (zh) * 2019-10-30 2020-04-07 清华大学 基于医生协助的医疗领域知识图谱构建方法

Also Published As

Publication number Publication date
CN111930856A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111930856B (zh) 领域知识图谱本体和数据的构建方法、装置和系统
CN116628172B (zh) 基于知识图谱的政务服务领域多策略融合的对话方法
CN108345647B (zh) 基于Web的领域知识图谱构建系统及方法
CN112612902A (zh) 一种电网主设备的知识图谱构建方法及设备
KR100882582B1 (ko) 시맨틱 웹 기반 연구정보 서비스 시스템 및 그 방법
CN111597347B (zh) 知识嵌入的缺陷报告重构方法及装置
Li et al. Long-term knowledge evolution modeling for empirical engineering knowledge
CN112463980A (zh) 一种基于知识图谱的预案智能推荐方法
CN110941612A (zh) 基于关联数据的自治数据湖构建系统及方法
CN111444348A (zh) 知识图谱架构的构建与应用方法、系统及介质
CN114004581A (zh) 一种基于多维政务事项知识库的意图交互系统
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
Ross et al. A case-based reasoning system for conflict resolution: design and implementation
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
Haav An application of inductive concept analysis to construction of domain-specific ontologies
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
US11816770B2 (en) System for ontological graph creation via a user interface
CN115905554A (zh) 一种基于多学科分类的中文学术知识图谱构建方法
CN115204179A (zh) 基于电网公共数据模型的实体关系预测的方法及装置
CN114997154A (zh) 一种对话机器人语料自动构造方法及系统
JP6775740B1 (ja) 設計支援装置、設計支援方法及び設計支援プログラム
CN113434658A (zh) 火电机组运行问答生成方法、系统、设备及可读存储介质
CN113032353A (zh) 数据共享方法、系统、电子设备及介质
CN112132534B (zh) 一种武器装备全寿命周期综合保障数据的管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant