CN117573893A - 一种本体构建方法、装置及计算机可读介质 - Google Patents

一种本体构建方法、装置及计算机可读介质 Download PDF

Info

Publication number
CN117573893A
CN117573893A CN202410051685.6A CN202410051685A CN117573893A CN 117573893 A CN117573893 A CN 117573893A CN 202410051685 A CN202410051685 A CN 202410051685A CN 117573893 A CN117573893 A CN 117573893A
Authority
CN
China
Prior art keywords
target
ontology
concept
determining
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410051685.6A
Other languages
English (en)
Other versions
CN117573893B (zh
Inventor
马鹤桐
李姣
王序文
沈柳
吴萌
王嘉阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202410051685.6A priority Critical patent/CN117573893B/zh
Publication of CN117573893A publication Critical patent/CN117573893A/zh
Application granted granted Critical
Publication of CN117573893B publication Critical patent/CN117573893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种本体构建方法、装置及计算机可读介质,本申请通过采用适合的模型自动为待构建的目标本体进行主题范围锁定,并自动在所锁定的主题范围内,对待构建的目标本体进行概念等内容范围的确定,以及通过概念术语的自动映射实现术语扩充以替代人工的术语枚举,并进行优选术语的选取及相关术语排序等处理,实现了快速高效的自动化本体构建,克服了人工构建方式存在的效率低、准确率低、耗时长以及构建完成后不易进行动态调整等一系列缺陷,可以更好的协助调研人员快速理解所需领域的知识,同时可进一步提升研究人员的信息检索查全率与查准率,相应能够提升检索效率,便于定位到准确的目标信息与文献。

Description

一种本体构建方法、装置及计算机可读介质
技术领域
本申请属于自然语言处理与人工智能技术领域,尤其涉及一种本体构建方法、装置及计算机可读介质。
背景技术
本体是某一领域的概念的集合,是集成了多个高质量知识库的知识表达系统,可以展示概念、词汇、并延展关系与规则,通过其自有框架、核心概念及概念关系能够帮助调研人员快速理解该领域的知识获取,同时能够提升研究人员的信息检索查全率与查准率,从而提升检索效率,定位到准确的目标信息与文献。
已知技术中,构建本体的主流方法仍然是人工构建,如人工构建方法ontologydevelopment 101, 然而,人工构建方法对于人员的知识储备有较高要求,并需要人工耗费大量时间与精力进行领域调研、概念采集等流程,本体构建效率低、准确率低,无法快速高效地实现本体构建,除此之外,由于依赖人工操作,本体构建完成后也不容易进行动态调整。
发明内容
有鉴于此,本申请提供一种本体构建方法、装置及计算机可读介质,用于通过快速高效的自动化本体构建,克服人工本体构建方式存在的至少部分技术问题。
具体技术方案如下:
一种本体构建方法,包括:
从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求;
基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容;
从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围;
从所述候选内容中选取符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体;
对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
可选的,所述从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体,包括:
利用预先构建的主题预测模型对已知本体进行主题预测,得到已知本体的主题信息;
基于已知本体的主题信息,确定已知本体对应所述目标主题的概率;
从多个已知本体中确定对应所述目标主题的概率满足第一概率条件的已知本体,得到所述第一本体,并确定对应所述目标主题的概率满足第二概率条件的已知本体,得到所述第二本体;所述第一本体对应所述目标主题的概率高于所述第二本体对应所述目标主题的概率。
可选的,所述基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容,包括:
将所述第一本体的本体框架和内容,分别作为所述目标本体的主框架和候选内容。
可选的,所述从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,包括:
从多个已知知识图谱中,确定对应的主题信息与所述目标主题的相似度满足第一相似度条件的知识图谱,得到所述目标知识图谱。
可选的,所述基于所述目标知识图谱确定所述目标主题对应的特征空间范围,包括:
从所述目标知识图谱包含的概念中,确定所对应主题信息与所述目标主题的相似度满足第二相似度条件的目标概念;
将所述目标概念及所述目标概念的直连概念进行向量化表示,得到所述目标概念及所述目标概念的直连概念分别对应的多维特征向量;所述直连概念为所述目标知识图谱中所述目标概念所处节点的直系子节点中的概念;
基于所述目标概念及所述目标概念的直连概念分别对应的多维特征向量中,每维向量的最小值和最大值,构建每维向量对应的子特征空间范围;所述目标主题的特征空间范围包括各维向量分别对应的子特征空间范围。
可选的,所述候选内容包括候选概念,所述从所述候选内容中选取符合所述特征空间范围的目标内容,包括:
将每个候选概念进行向量化表示,得到每个候选概念的多维特征向量;
从各个候选概念中选取所对应的多维特征向量中每维向量处于相应子特征空间范围的目标概念,得到所述目标内容。
可选的,在对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体之后,还包括:
将所述目标本体中的概念在已有的概念术语集中进行映射,得到所述目标本体中的概念对应的同义术语;
基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展。
可选的,在基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展之后,还包括:
基于所述目标本体中概念的术语及同义术语分别在所属领域主题文本中对应的重要性统计信息,确定所述目标本体中的概念对应的满足优选条件的优选术语,并对所述概念的优选术语以外的剩余术语进行基于重要性统计信息的排序。
一种本体构建装置,包括:
第一确定模块,用于从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求;
第二确定模块,用于基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容;
第三确定模块,用于从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围;
选取模块,用于从所述候选内容中选取符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体;
本体融合模块,用于对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能用于实现如上文任一项所述的本体构建方法。
根据以上方案可知,本申请公开了一种本体构建方法、装置及计算机可读介质,所公开的方法、装置和计算机可读介质,通过从已知本体中确定与待构建的目标本体的目标主题满足第一相关条件的第一本体,和与目标主题满足第二相关条件的第二本体,并基于第一本体的本体框架和内容,确定目标本体的主框架及候选内容,实现了自动为待构建的目标本体进行主题范围锁定/圈定,所锁定的主题范围即为所述主框架表征的主题范围。并通过从已知知识图谱中确定与目标主题满足第三相关条件的目标知识图谱,基于目标知识图谱确定目标主题对应的特征空间范围,以及从所述候选内容中确定符合该特征空间范围的目标内容,提出并实现了自动为待构建的目标本体进行概念等内容范围的确定,在主题范围和概念等内容范围的自动确定基础上,得到由所述主框架和所述目标内容形成的主本体,之后进一步通过对所述主本体与所述第二本体进行本体融合处理,得到所需的目标本体,实现了目标本体的自动构建。
除此之外,还可以通过概念术语的自动映射实现对目标本体中概念的术语扩充,以替代人工的术语枚举,并可对目标本体中的概念进行自动的优选术语选取及相关术语排序。
从而,基于本申请,可实现快速高效的自动化本体构建,克服了人工构建方式存在的难度高、效率低、准确率低、耗时长以及构建完成后不易进行动态调整等一系列缺陷,且快速高效的自动化本体构建,可以更好的协助调研人员快速理解所需领域的知识,并能够进一步提升研究人员的信息检索查全率与查准率,从而提升检索效率,便于定位到准确的目标信息与文献。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的本体构建方法的一种流程示意图;
图2是本申请提供的本体构建方法的另一种流程示意图;
图3是本申请提供的本体构建方法的又一种流程示意图;
图4是本申请提供的本体构建装置的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开一种本体构建方法、装置及计算机可读介质,用于实现快速高效的自动化本体构建。
参见图1所示的本体构建方法流程图,本申请公开的本体构建方法,至少包括以下各处理步骤:
步骤101、从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求。
本体是某一领域的概念的集合,是集成了多个高质量知识库的知识表达系统,可以展示概念、词汇、并延展关系与规则,通过其自有框架、核心概念及概念关系能够帮助调研人员快速理解所需领域的知识获取。本体通常包括多个节点,各个节点分别对应但不限于语义类型、概念、关系、属性等信息,本体各个节点之间的关系、组织架构等形成本体的自有架构。
本体的本体信息,相应包括本体中各个节点的语义类型、概念、关系及相关属性等信息。语义类型可根据实际情况进行定义,比如一个概念肺栓塞,语义类型可以是疾病,可以是肺部疾病,也可以是并发症等。概念用于把所感知的事物的共同本质特点抽象出来加以概括,概念对应有相应的术语(即概念术语),具体为一些用于表达概念的术语词汇,比如,肺栓塞概念可以对应“肺栓塞”、“肺血栓栓塞”、“肺动脉血栓”、“肺动脉梗塞”、“肺血栓”等多个术语。关系是指在本体中已经存在的关联关系,比如本体中存在一类药物,其下面的所有概念都是具体的药物,而这些药物都对另外一个类别的一些疾病有治疗关系,那么这个治疗关系就是本体信息中的关系。属性可以包括但不限于定义、来源等相关信息。
主题是指一个本体的主题,即这个本体是关于什么的,比如脑卒中本体是关于脑卒中的所有概念的集合,那么它的主题可以是脑卒中。
对于所需领域待构建的目标本体,可选的,本申请实施例具体根据实际需求,确定并预置其在该领域所需的目标主题,目标主题可以包含想要构建的目标本体在所属领域(如医学领域)所需的若干主题词,主题词的数量可依需求而定,不作限制。
在预置目标本体的目标主题基础上,可选的,本步骤101具体可实现为:
11)利用预先构建的主题预测模型对已知本体进行主题预测,得到已知本体的主题信息。
其中,可以但不限于采用预先构建的LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型作为所述主题预测模型,对多个已知本体进行主题预测,得到每个已知本体的主题信息,已知本体的主题信息具体可以是已知本体对应的主题概率分布。
12)基于已知本体的主题信息,确定已知本体对应所述目标主题的概率。
在得到每个已知本体的主题信息后,可根据每个已知本体的主题信息与目标主题之间的相似度、和/或已知本体的主题信息对目标主题中各个主题词的覆盖情况等,确定每个已知本体对应所述目标主题的概率。
13)从多个已知本体中确定对应所述目标主题的概率满足第一概率条件的已知本体,得到所述第一本体,并确定对应所述目标主题的概率满足第二概率条件的已知本体,得到所述第二本体;所述第一本体对应所述目标主题的概率高于所述第二本体对应所述目标主题的概率。
第一相关条件包括第一概率条件,第二相关条件包括第二概率条件。
第一概率条件、第二概率条件,均用于对已知本体对应所述目标主题的概率进行要求/约束,其中,第一概率条件所要求的已知本体对应所述目标主题的概率,高于第二概率条件所要求的已知本体对应所述目标主题的概率。
示例性的,第一概率条件可以是:已知本体对应所述目标主题的概率达到第一概率值;第二概率条件可以是:已知本体对应所述目标主题的概率达到第二概率值。其中,第一概率值高于第二概率值。
但不限于此,在其它实施方式中,第一概率条件还可以是:为各个已知本体中对应所述目标主题的概率最高的本体;相应的,第二概率条件还可以是:为各个已知本体中对应所述目标主题的概率非最高但属于概率前top k高的本体,k为大于1的整数。
实际应用中,可优选采用上述的后一种实施方式,将各个已知本体中对应所述目标主题的概率最高的本体,确定为第一本体;将各个已知本体中对应所述目标主题的概率非最高但属于概率前top k高的本体,确定为第二本体。第二本体的数量可以为一个或多个,不限制。
步骤102、基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容。
在基于所述第一本体的本体框架和内容,确定目标本体的主框架和候选内容时,具体可复用第一本体的本体框架和内容,直接将第一本体的本体框架和内容分别作为目标本体的主框架和候选内容。
在其它实施方式中,也可以对第一本体的本体框架和内容,执行预设处理,并将第一本体预设处理后的本体框架和内容,分别作为目标本体的主框架和候选内容。
所述预设处理可以包括但不限于去停用词、去重等处理。
本申请实施例,通过从各个已知本体中确定与目标主题满足第一相关条件的第一本体(如对应目标主题的概率最高的已知本体),并通过直接复用第一本体的本体框架和内容或对其执行预设处理,得到待构建的目标本体的主框架和候选内容,实现了自动为待构建的目标本体进行主题范围锁定/圈定,无需人工为待构建的目标本体进行主题范围讨论及规划。
为待构建的目标本体所锁定/圈定的主题范围,即为所述主框架表征的主题范围。
例如,假设需构建一个脑卒中本体,那么目标主题可以设置为包括“脑卒中”,通过对医学领域多个已知本体进行基于LDA主题模型的主题预测,可得到每个已知本体的主题分布,基于对应的主题分布,确定各个已知本体对应目标主题“脑卒中”的概率值,并基于对应目标主题“脑卒中”的概率值进行筛选,选择对应脑卒中主题概率最高的已知本体作为第一本体,并采用其本体框架和内容,作为待构建的目标本体的主框架和候选内容,以此实现为待构建的目标本体自动进行主题范围锁定/圈定,不必人工进行主题范围的讨论及规划。
步骤103、从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围。
已知知识图谱,可以包括所需领域如医学领域中的多个预设知识图谱。
可选的,本步骤具体可从多个已知知识图谱中确定对应的主题信息与所述目标主题的相似度满足第一相似度条件的知识图谱,作为与目标主题满足第三相关条件的目标知识图谱。
进一步,可选的,具体可利用自然语言处理模型如bert,对目标主题的文本信息进行向量化,基于目标主题的向量化结果,确定每个已知知识图谱对应的主题信息与目标主题的相似度,并筛选与目标主题的相似度满足第一相似度条件的知识图谱,例如筛选与目标主题的相似度最高的知识图谱,作为目标知识图谱。
之后,继续基于目标知识图谱,确定所述目标主题对应的特征空间范围,其一示例性实现过程可以包括:
21)从目标知识图谱包含的概念中,确定所对应主题信息与所述目标主题的相似度满足第二相似度条件的目标概念。
可选的,具体可从目标知识图谱包含的概念中,选择所对应主题信息与所述目标主题相同,和/或所对应主题信息与所述目标主题的相似度达到设定数值的概念,作为满足所述第二相似度条件的目标概念。
22)将所述目标概念及所述目标概念的直连概念进行向量化表示,得到所述目标概念及所述目标概念的直连概念分别对应的多维特征向量;所述直连概念为所述目标知识图谱中所述目标概念所处节点的直系子节点中的概念。
可选的,具体可将从目标知识图谱中选择的与目标主题相同和/或相似度达到设定数值的目标概念,及其直接相连的子节点们(所有直系的子节点、孙子节点、直至叶子节点,语义类型应与该节点保持一致)中的概念(即直连概念),一并进行向量化表示。
23)基于所述目标概念及所述目标概念的直连概念分别对应的多维特征向量中,每维向量的最小值和最大值,构建每维向量对应的子特征空间范围;所述目标主题的特征空间范围包括各维向量分别对应的子特征空间范围。
在将目标概念及其直连概念一并进行向量化表示后,可综合所有目标概念及其直连概念的向量化表示(即多维特征向量),确定每维向量在所有目标概念及其直连概念的向量化表示中对应的最小值和最大值,并为每维向量构建对应于其最小值和最大值的子特征空间范围,子特征空间范围具体为该最小值到最大值之间。各维向量分别对应的子特征空间范围,构成目标主题的特征空间范围。
步骤104、从所述候选内容中确定符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体。
在确定出目标主题的特征空间范围后,具体可对所述主框架中的每个候选概念进行向量化表示,得到每个候选概念的多维特征向量,并从各个候选概念中选取所对应的多维特征向量中每维向量处于所对应的子特征空间范围的目标概念,作为所述目标内容。
也就是说,对选定的所述主框架中的每一个概念(候选概念)进行检测,如果其对应的多维特征向量在所设计的特征空间范围内,则将其作为目标概念进行保留,不在所设计的特征空间范围内则进行丢弃,从而得到目标本体对应的由所述主框架和所述目标概念等目标内容形成的主本体。
所对应主题符合所设定的主题范围(步骤102圈定的主题范围)要求,但概念不符合实际需要的情况较为多见。针对该情况,主流方法仍然是通过人工判断,对概念进行裁剪与编辑。
本申请在为待构建的目标本体自动圈定主题范围的基础上,通过确定目标主题对应所需的特征空间范围,并基于目标主题的特征空间范围对主框架中的概念进行筛选,进一步实现了自动确定概念范围,相应实现了对目标本体主框架中概念的按需裁剪。
比如脑卒中本体中包含了很多类,疾病、诊断、治疗、药物等,缺血性脑卒中是其疾病类别中一个概念,开颅手术是其治疗类别中的一个概念。如果想构建一个脑血管病的疾病本体(脑卒中是脑血管疾病中的一种),由于本体构建的目标只想要疾病本体,那么开颅手术这种治疗概念就不属于想要的内容,可通过上述对主框架中内容如概念的筛选,将其裁剪掉。
步骤105、对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
除了第一本体,本申请实施例还从多个已知本体中确定出了与目标主题满足第二相关条件的第二本体,例如多个已知本体中对应所述目标主题的概率非最高但属于概率前topk高的各个本体,这些第二本体同样可以为目标本体提供一些有价值的信息内容,且各个第二本体与第一本体由于均与目标主题具备较高相关性,很大概率存在相互之间有覆盖内容的情况,基于此,本实施例通过将所述主本体(通过对第一本体进行裁剪所得到)与第二本体进行本体融合处理,来得到目标本体,实现对目标本体的构建。
具体可以获取主本体及待融合的第二本体的本体信息,其中,本体信息包括但不限于本体中各个节点的语义类型、概念、关系、属性等相关信息。之后,通过将主本体与第二本体中的节点信息进行比对,确定第二本体中与主本体节点的语义类型、概念、关系或属性等相匹配的本体信息,例如,语义类型匹配、概念匹配或关系匹配等,并将第二本体中与主本体相应信息匹配的这些信息如概念、关系等,融合/扩增至主本体中,通过将不同本体进行全方位的数据融合,得到一个更综合的本体作为目标本体,避免所构建的目标本体遗落大量有价值的概念、关系、属性等本体信息。
主本体、第二本体之间概念、关系、属性等信息的匹配,可以是指,两本体之间的相应概念、关系、属性相同,或同义/近义,或具有满足要求的相似度,或第二本体中的相应信息属于主本体中对应信息(如关系)的外延等等,对于第二本体中与主本体相应信息相匹配的概念、关系、属性等信息,可通过将其扩增或关联至主本体的相应信息(如概念、属性、关系)位置,实现将第二本体这些信息向主本体进行融合,而对于第二本体中与主本体相应信息完全相同的概念、关系等信息,不必再重复性增添至主本体。
后续,可基于所构建的本体,展开所需应用。本体是一个领域的概念集合,科研人员或设备/系统等,可以通过本体的知识组织形式快速地了解到这个领域涵盖哪些方面的内容,并可以但不限于基于本体展开以下应用:
基于本体的检索:本体中会包含术语的不同表达,基于本体可以最大限度的帮助检索人员获得比较全面且精准的检索结果;
基于本体的实体识别:具体可基于本体在自由文本中进行实体识别,通过本体进行的实体识别准确度较高,高于目前的模型实体识别准确度,是完全可信任的,实体识别可以进一步作为很多算法模型训练或者实施的基础;
基于本体的文本分类:比如想找到一个治疗和康复主题的文章,则可以通过基于本体对文章摘要或全文的实体识别,找到在治疗和康复分支中比例较多的文章进行定位。
根据以上方案可知,本实施例的本体构建方法,通过从已知本体中确定与待构建的目标本体的目标主题满足第一相关条件的第一本体,和与目标主题满足第二相关条件的第二本体,并基于第一本体的本体框架和内容,确定目标本体的主框架及候选内容,实现了自动为待构建的目标本体进行主题范围锁定/圈定,所锁定的主题范围即为所述主框架表征的主题范围。并通过从已知知识图谱中确定与目标主题满足第三相关条件的目标知识图谱,基于目标知识图谱确定目标主题对应的特征空间范围,以及从所述候选内容中确定符合该特征空间范围的目标内容,提出并实现了自动为待构建的目标本体进行概念等内容范围的确定,在主题范围和概念等内容范围的自动确定基础上,得到由所述主框架和所述目标内容形成的主本体,之后进一步通过对所述主本体与所述第二本体进行本体融合处理,得到所需的目标本体,实现了目标本体的自动构建。
从而,基于本申请,可实现快速高效的自动化本体构建,克服了人工构建方式存在的难度高、效率低、准确率低、耗时长以及构建完成后不易进行动态调整等一系列缺陷,且快速高效的自动化本体构建,可以更好的协助调研人员快速理解所需领域的知识,并能够进一步提升研究人员的信息检索查全率与查准率,从而提升检索效率,便于定位到准确的目标信息与文献。
在一可选实施例中,参见图2所示的流程图,本申请公开的本体构建方法,在步骤105之后,还可以包括以下处理:
步骤106、将所述目标本体中的概念在已有的概念术语集中进行映射,得到所述目标本体中的概念对应的同义术语。
步骤107、基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展。
概念术语集可以是但不限于目前已有的大型术语库,如一体化语言体系UMLS、ICD-11、Snomed CT、HPO(人类表型本体)、CHPO(中文人类表型本体)等。
通过将目标本体中的概念,在一体化语言体系UMLS、ICD-11、Snomed CT、HPO(人类表型本体)、CHPO(中文人类表型本体)等大体量的权威词表进行映射,为目标本体中的概念得到更多的同义术语,并基于所得的同义术语,对目标本体中的概念进行术语扩展。同时,如果所采用的概念术语集涉及其它语种,还可以对目标本体进行概念语种扩展,从而本实施例进一步丰富了所构建的目标本体的概念术语和/或语种。
在一可选实施例中,参见图3所示的流程图,本申请公开的本体构建方法,在步骤107之后,还可以包括以下处理:
步骤108、基于目标本体中概念的术语及同义术语分别在所属领域主题文本中对应的重要性统计信息,确定所述目标本体中的概念对应的满足优选条件的优选术语,并对所述概念的优选术语以外的剩余术语进行基于重要性统计信息的排序。
所述重要性统计信息可以是但不限于TF-IDF词频,其中,TF-IDF(TermFrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,TF表示词频,IDF表示逆文本频率指数。
可选的,以所述重要性统计信息为TF-IDF词频为例,具体可对所属领域(如医学领域)中,已有的大量领域主题文本信息进行分词,基于分词结果,确定目标本体中概念的术语及其同义术语在这些文本中对应的TF-IDF词频,并将概念的各个术语按TF-IDF词频进行排序,如降序排序,从中选取词频最高/最靠前的术语,作为该概念的满足优选条件的优选术语,使得每个概念都有其最适合、使用场景最丰富/使用频率最高的术语作为其优选术语,优选术语以外的剩余术语的排序仍然保留,以便用户根据其排序,了解各个剩余术语的优选/非优选情况,至此,实现了快速高效且高质量、全面的自动化本体构建。
例如,经过本实施例的处理,肺栓塞概念中,优选术语是肺栓塞,非优选术语是肺血栓栓塞,肺动脉血栓,肺动脉梗塞,肺血栓等,并在本体中体现各个非优选术语的排序信息。
基于本实施例的处理,可实现为目标本体中的概念,确定其最适合、使用场景最丰富/使用频率最高的术语作为其优选术语,并为优选术语以外的各个术语进行了排序,便于用户针对概念的各个术语,了解其相对的优选/非优选情况,从而进一步提升了所构建的目标本体的信息全面性,可以协助调研人员快速、全面、深入地理解所对应领域的知识。
对应于上述的本体构建方法,本申请实施例还公开一种本体构建装置,参见图4示出的本体构建装置的结构示意图,该装置包括:
第一确定模块10,用于从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求;
第二确定模块20,用于基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容;
第三确定模块30,用于从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围;
选取模块40,用于从所述候选内容中选取符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体;
本体融合模块50,用于对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
在一可选实施方式中,第一确定模块10,具体用于:
利用预先构建的主题预测模型对已知本体进行主题预测,得到已知本体的主题信息;
基于已知本体的主题信息,确定已知本体对应所述目标主题的概率;
从多个已知本体中确定对应所述目标主题的概率满足第一概率条件的已知本体,得到所述第一本体,并确定对应所述目标主题的概率满足第二概率条件的已知本体,得到所述第二本体;所述第一本体对应所述目标主题的概率高于所述第二本体对应所述目标主题的概率。
在一可选实施方式中,第二确定模块20,具体用于:将所述第一本体的本体框架和内容,分别作为所述目标本体的主框架和候选内容。
在一可选实施方式中,第三确定模块30,在从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱时,具体用于:
从多个已知知识图谱中,确定对应的主题信息与所述目标主题的相似度满足第一相似度条件的知识图谱,得到所述目标知识图谱。
在一可选实施方式中,第三确定模块30,在基于所述目标知识图谱确定所述目标主题对应的特征空间范围时,具体用于:
从所述目标知识图谱包含的概念中,确定所对应主题信息与所述目标主题的相似度满足第二相似度条件的目标概念;
将所述目标概念及所述目标概念的直连概念进行向量化表示,得到所述目标概念及所述目标概念的直连概念分别对应的多维特征向量;所述直连概念为所述目标知识图谱中所述目标概念所处节点的直系子节点中的概念;
基于所述目标概念及所述目标概念的直连概念分别对应的多维特征向量中,每维向量的最小值和最大值,构建每维向量对应的子特征空间范围;所述目标主题的特征空间范围包括各维向量分别对应的子特征空间范围。
在一可选实施方式中,所述候选内容包括候选概念,选取模块40,具体用于:将每个候选概念进行向量化表示,得到每个候选概念的多维特征向量;从各个候选概念中选取所对应的多维特征向量中每维向量处于相应子特征空间范围的目标概念,得到所述目标内容。
在一可选实施方式中,上述装置还包括术语扩充模块,用于:
将所述目标本体中的概念在已有的概念术语集中进行映射,得到所述目标本体中的概念对应的同义术语;基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展。
在一可选实施方式中,上述装置还包括术语优选模块,用于:
基于所述目标本体中概念的术语及同义术语分别在所属领域主题文本中对应的重要性统计信息,确定所述目标本体中的概念对应的满足优选条件的优选术语,并对所述概念的优选术语以外的剩余术语进行基于重要性统计信息的排序。
对于本申请实施例公开的本体构建装置而言,由于其与上文方法实施例公开的本体构建方法相对应,所以描述的比较简单,相关相似之处请参见上文各方法实施例的说明即可,此处不再详述。
另外,本申请还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序包含用于执行如上文任一方法实施例公开的本体构建方法的程序代码。
在本申请的上下文中,计算机可读介质(机器可读介质)可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种本体构建方法,其特征在于,包括:
从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求;
基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容;
从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围;
从所述候选内容中选取符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体;
对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
2.根据权利要求1所述的本体构建方法,其特征在于,所述从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体,包括:
利用预先构建的主题预测模型对已知本体进行主题预测,得到已知本体的主题信息;
基于已知本体的主题信息,确定已知本体对应所述目标主题的概率;
从多个已知本体中确定对应所述目标主题的概率满足第一概率条件的已知本体,得到所述第一本体,并确定对应所述目标主题的概率满足第二概率条件的已知本体,得到所述第二本体;所述第一本体对应所述目标主题的概率高于所述第二本体对应所述目标主题的概率。
3.根据权利要求1所述的本体构建方法,其特征在于,所述基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容,包括:
将所述第一本体的本体框架和内容,分别作为所述目标本体的主框架和候选内容。
4.根据权利要求1所述的本体构建方法,其特征在于,所述从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,包括:
从多个已知知识图谱中,确定对应的主题信息与所述目标主题的相似度满足第一相似度条件的知识图谱,得到所述目标知识图谱。
5.根据权利要求1所述的本体构建方法,其特征在于,所述基于所述目标知识图谱确定所述目标主题对应的特征空间范围,包括:
从所述目标知识图谱包含的概念中,确定所对应主题信息与所述目标主题的相似度满足第二相似度条件的目标概念;
将所述目标概念及所述目标概念的直连概念进行向量化表示,得到所述目标概念及所述目标概念的直连概念分别对应的多维特征向量;所述直连概念为所述目标知识图谱中所述目标概念所处节点的直系子节点中的概念;
基于所述目标概念及所述目标概念的直连概念分别对应的多维特征向量中,每维向量的最小值和最大值,构建每维向量对应的子特征空间范围;所述目标主题的特征空间范围包括各维向量分别对应的子特征空间范围。
6.根据权利要求5所述的本体构建方法,其特征在于,所述候选内容包括候选概念,所述从所述候选内容中选取符合所述特征空间范围的目标内容,包括:
将每个候选概念进行向量化表示,得到每个候选概念的多维特征向量;
从各个候选概念中选取所对应的多维特征向量中每维向量均处于相应子特征空间范围的目标概念,得到所述目标内容。
7.根据权利要求1所述的本体构建方法,其特征在于,在对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体之后,还包括:
将所述目标本体中的概念在已有的概念术语集中进行映射,得到所述目标本体中的概念对应的同义术语;
基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展。
8.根据权利要求7所述的本体构建方法,其特征在于,在基于所述同义术语,对所述目标本体中的概念进行术语扩展和/或概念语种扩展之后,还包括:
基于所述目标本体中概念的术语及同义术语分别在所属领域主题文本中对应的重要性统计信息,确定所述目标本体中的概念对应的满足优选条件的优选术语,并对所述概念的优选术语以外的剩余术语进行基于重要性统计信息的排序。
9.一种本体构建装置,其特征在于,包括:
第一确定模块,用于从已知本体中确定与目标主题满足第一相关条件的第一本体和与所述目标主题满足第二相关条件的第二本体;所述目标主题为待构建的目标本体的主题,所述第一相关条件的相关性要求高于所述第二相关条件的相关性要求;
第二确定模块,用于基于所述第一本体的本体框架和内容,确定所述目标本体的主框架和候选内容;
第三确定模块,用于从已知知识图谱中确定与所述目标主题满足第三相关条件的目标知识图谱,基于所述目标知识图谱确定所述目标主题对应的特征空间范围;
选取模块,用于从所述候选内容中选取符合所述特征空间范围的目标内容,得到由所述主框架和所述目标内容形成的主本体;
本体融合模块,用于对所述主本体与所述第二本体进行本体融合处理,得到所述目标本体。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,能用于实现如权利要求1-8任一项所述的本体构建方法。
CN202410051685.6A 2024-01-15 2024-01-15 一种本体构建方法、装置及计算机可读介质 Active CN117573893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410051685.6A CN117573893B (zh) 2024-01-15 2024-01-15 一种本体构建方法、装置及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410051685.6A CN117573893B (zh) 2024-01-15 2024-01-15 一种本体构建方法、装置及计算机可读介质

Publications (2)

Publication Number Publication Date
CN117573893A true CN117573893A (zh) 2024-02-20
CN117573893B CN117573893B (zh) 2024-04-09

Family

ID=89892119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410051685.6A Active CN117573893B (zh) 2024-01-15 2024-01-15 一种本体构建方法、装置及计算机可读介质

Country Status (1)

Country Link
CN (1) CN117573893B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202526A1 (en) * 2010-02-12 2011-08-18 Korea Advanced Institute Of Science And Technology Semantic search system using semantic ranking scheme
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN114860916A (zh) * 2022-06-09 2022-08-05 国网冀北电力有限公司计量中心 知识检索方法及装置
CN117131932A (zh) * 2023-08-23 2023-11-28 中国地质大学(武汉) 基于主题模型的领域知识图谱本体半自动构建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202526A1 (en) * 2010-02-12 2011-08-18 Korea Advanced Institute Of Science And Technology Semantic search system using semantic ranking scheme
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN114595344A (zh) * 2022-05-09 2022-06-07 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN114860916A (zh) * 2022-06-09 2022-08-05 国网冀北电力有限公司计量中心 知识检索方法及装置
CN117131932A (zh) * 2023-08-23 2023-11-28 中国地质大学(武汉) 基于主题模型的领域知识图谱本体半自动构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘敏娟;张学福;: "基于科学知识图谱的作物学科热点主题分析", 农业展望, no. 06, 28 June 2016 (2016-06-28) *
唐钦能;高峰;王金平;: "知识地图相关概念辨析及其研究进展", 情报理论与实践, no. 01, 30 January 2011 (2011-01-30) *

Also Published As

Publication number Publication date
CN117573893B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US11386157B2 (en) Methods and apparatus to facilitate generation of database queries
US20080168070A1 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN106599037B (zh) 一种基于标签语义规范化推荐方法
CN111382276B (zh) 一种事件发展脉络图生成方法
CN112883201B (zh) 一种基于智慧社区大数据的知识图谱构建方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
Hu et al. A novel word embedding learning model using the dissociation between nouns and verbs
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
CN111274332A (zh) 一种基于知识图谱的专利智能检索方法及系统
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
Ma et al. Attention-guided deep graph neural network for longitudinal Alzheimer’s disease analysis
CN114997288A (zh) 一种设计资源关联方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114328799A (zh) 数据处理方法、装置以及计算机可读存储介质
US20230267338A1 (en) Keyword based open information extraction for fact-relevant knowledge graph creation and link prediction
Patel et al. A novel approach to discover ontology alignment
CN117573893B (zh) 一种本体构建方法、装置及计算机可读介质
CN113569018A (zh) 问答对挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant