CN116821354A

CN116821354A - 一种中医药知识图谱的构建方法

Info

Publication number: CN116821354A
Application number: CN202310464025.6A
Authority: CN
Inventors: 罗文华; 陈妮妮; 罗尔尧; 阮景; 陈桂菊
Original assignee: Zhejiang Pharmaceutical Vocational University
Current assignee: Zhejiang Pharmaceutical Vocational University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-09-29

Abstract

本发明属于医药知识图谱技术领域，公开了一种中医药知识图谱的构建方法。本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词，可以构建精确且全面的辨证检索模型，减少在辨证治疗时的模糊性，从而提高辨证检索的准确度和效率的同时，保证检索的查全率；同时，通过对医药数据进行挖掘方法构建中医药概念网络，挖掘中医药中的核心概念，方便清晰快速地理解文献的含义，更好地挖掘出中医药概念知识，不仅提高了中医药核心概念识别的准确率，而且是切合于中医药理论知识体系。

Description

一种中医药知识图谱的构建方法

技术领域

本发明属于医药知识图谱技术领域，尤其涉及一种中医药知识图谱的构建方法。

背景技术

传统医药，包括汉族中医药、民间医药和少数民族医药三个组成部分；民族地区有着独特的自然条件和生活习俗，长期实践形成了对某些疾病独特的治疗经验。如高寒地区专长于治疗风湿病，鄂伦春族对冻伤有独特治疗方法，草原游牧民族则善于治跌打损伤和脑震荡等。民族药的开发涉及的民族和地区十分广泛，产品剂型多种多样；然而，现有中医药知识图谱的构建方法中医药检索内容较少且查询得到的数据存在不准确的问题；同时，不能保证挖掘出的中医药概念准确性。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有中医药知识图谱的构建方法中医药检索内容较少且查询得到的数据存在不准确的问题。

(2)不能保证挖掘出的中医药概念准确性。

(3)不能准确抽取医药数据实体和属性信息。

发明内容

针对现有技术存在的问题，本发明提供了一种中医药知识图谱的构建方法。

本发明是这样实现的，一种中医药知识图谱的构建方法包括：

步骤一，通过检索程序对医药数据检索，获取中医药数据库中的医药数据；对医药数据进行挖掘；

所述中医药数据库创建方法：

在接收到请求指令的情况下调用预先存储的模板中医药数据库，其中，所述请求指令用于请求创建目标中医药数据库；

根据所述模板中医药数据库生成所述模板中医药数据库的创建脚本；

按照所述请求指令修改所述模板中医药数据库的创建脚本，得到所述目标中医药数据库的创建脚本；

以及执行所述目标中医药数据库的创建脚本，生成所述目标中医药数据库；

其中，按照所述请求指令修改所述模板中医药数据库的创建脚本包括：在获取模板中医药数据库的创建脚本中的第二中医药数据库标识之前；

先判断所述模板中医药数据库的创建脚本中是否包括中医药数据库标识，在判断出所述模板中医药数据库的创建脚本中包括中医药数据库标识的情况下，获取响应所述请求指令中的第一中医药数据库标识；

并获取所述模板中医药数据库的创建脚本中的第二中医药数据库标识，

其中，所述第一中医药数据库标识是要生成目标中医药数据库的名称，第二中医药数据库标识是所述模板中医药数据库的创建脚本的名称；

以及将所述第二中医药数据库标识替换为所述第一中医药数据库标识；

如果判断出所述模板中医药数据库的创建脚本中不包括中医药数据库标识，则直接将所述第一中医药数据库标识添加到所述目标中医药数据库的创建脚本中，得到所述目标中医药数据库的创建脚本；

其中，按照所述请求指令修改所述模板中医药数据库的创建脚本包括：对所述模板中医药数据库的创建脚本的属性信息进行修改；

步骤二，抽取医药数据实体和属性；设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示；基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答；

所述抽取医药数据实体和属性方法：

从医药数据库中提取医药数据实体和属性的目标医药数据集；

对所述目标医药数据集进行预处理；

根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性，得到医药数据实体和属性结果；

对所述医药数据实体和属性结果进行解释和评价，生成医药数据实体和属性报告；

所述根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性，得到医药数据实体和属性结果，包括：

对经过预处理的目标医药数据集进行关联分析，根据语义、语料库统计出关联信息内容，并进行分布式分类聚类，并对医药数据进行分布式分片计算，把结果汇总并进行并行处理；

同时将存储在医药数据库中一组医药数据对象的共同特点按照分类模式将其划分为不同的类；

并通过信息分类算法把医药数据库中的医药数据项映射到某个给定的类别，并把事件分类类型和特征进行分组，并进行多维度分析，统计出实质的信息医药数据。

进一步，所述对医药数据检索方法如下：

(1)获取待检索中医药的文本；将所述待检索中医药的文本输入到同义词标准数据库，得到待检索中医药的文本的关键词的属性类别；将所述属性类别输入到映射规则库，得到待检索中医药的文本的中医药数据检索结果。

进一步，所述待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。

进一步，所述待检索中医药的文本输入到同义词标准数据库，得到待检索中医药的文本的关键词的属性类别包括：

将所述待检索中医药的文本输入到同义词标准数据库，根据同义词标准数据库的同义词标准表，得到所述待检索中医药的文本的关键词；

根据所述关键词以及同义词标准数据库的多个子数据库，得到待检索中医药的文本的关键词的属性类别。

进一步，所述待检索中医药的文本输入到同义词标准数据库，根据同义词标准数据库的同义词标准表，得到所述待检索中医药的文本的关键词包括：

将所述待检索中医药的文本进行自动分词；

将分词后的文本与同义词标准数据库中预设的同义词标准表进行信息比对，得到所述待检索中医药的文本的关键词。

进一步，所述同义词标准数据库包括多条结构化信息；

其中，所述多条结构化信息中的每条结构化信息包括关键词的正名、关键词的异名以及关键词的属性类别；

其中，所述属性类别包括疾病类别、症状类别、证候类别、功效类别和方剂类别；

同义词标准数据库的多个子数据库包括疾病数据库、症状数据库、证候数据库、功效数据库和方剂数据库；

根据所述关键词以及同义词标准数据库的多个子数据库，得到待检索中医药的文本的关键词的属性类别包括：

对所述关键词按照属性类别进行分类；

将分类后的关键词分别输入到同义词标准数据库的子数据库中进行检索，得到待检索中医药的文本的关键词的属性类别。

进一步，所述映射规则库的构建过程包括：

获取语言变量的级数和映射规则的数目，根据所述语言变量的级数和映射规则的数目建立映射规则的形式；

获取疾病类别、症状类别、证候类别、治法类别以及方剂类别之间的映射关系；

根据所述映射规则的形式以及映射关系构建映射规则库；

将所述属性类别输入到映射规则库，得到待检索中医药的文本的中医药数据检索结果包括：

根据映射规则库的映射关系以及关键词分类的父子层级概念结构，构建基于辨证映射推理规则的索引；

根据所述属性类别以及基于辨证映射推理规则的索引，得到待检索中医药的文本的中医药数据检索结果；

其中，所述中医药数据检索结果包括基于待检索中医药的文本的疾病类别、症状类别、证候类别、治法类别以及方剂类别得到的药方建议。

进一步，所述对医药数据进行挖掘方法如下：

1)对中医药文献进行预处理，得到中医药数据源；在中医药数据源中提取中医药概念；在中医药数据源中提取中医药概念关系；

2)根据中医药概念和中医药概念关系，构建中医药概念网络，并根据中医药概念网络，得到中医药核心概念。

进一步，所述对中医药文献进行预处理，得到中医药数据源包括以下步骤：

通过UTF-8可变长度字符编码方式对中医药文献进行编码，得到中医药文献TXT文本文档；

遍历并删除中医药文献TXT文本文档中的空格及停用词，得到中医药数据源。

进一步，所述在中医药数据源中提取中医药概念包括以下步骤：

以句号及感叹号为分隔符对中医药数据源进行句子分割，得到分句数据源，所述分句数据源包含C个分割后的句子；

通过Word2Vec词向量转换模型对分句数据源进行向量转换，得到字向量句数据源，所述字向量句数据源包含C个字向量句子，且所述C个字向量句子与所述C个分割后的句子一一对应；

根据字向量句数据源，通过中医药概念提取模型提取中医药概念；所述中医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词，可以构建精确且全面的辨证检索模型，减少在辨证治疗时的模糊性，从而提高辨证检索的准确度和效率的同时，保证检索的查全率；同时，通过对医药数据进行挖掘方法构建中医药概念网络，挖掘中医药中的核心概念，方便清晰快速地理解文献的含义，更好地挖掘出中医药概念知识，不仅提高了中医药核心概念识别的准确率，而且是切合于中医药理论知识体系。

本发明通过抽取医药数据实体和属性方法对医药数据进行分布式医药数据挖掘，其主要是对医药数据进行web网页挖掘、语词特征、词义、意境偏差分析，对语词进行分词处理，结合意境对网页信息关联统计分析，分析出看似不统一、不连贯的词语、意境之间找出事件的语句的本质的联系，直接统计出看似不关联医药数据进行分析,准确得到医药数据实体和属性。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

附图说明

图1是本发明实施例提供的中医药知识图谱的构建方法流程图。

图2是本发明实施例提供的对医药数据检索方法流程图。

图3是本发明实施例提供的对医药数据进行挖掘方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明提供一种中医药知识图谱的构建方法包括以下步骤：

S101，通过检索程序对医药数据检索，获取中医药数据库中的医药数据；对医药数据进行挖掘；

所述中医药数据库创建方法：

S102，抽取医药数据实体和属性；设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示；基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答；

所述抽取医药数据实体和属性方法：

对所述目标医药数据集进行预处理；

如图2所示，本发明提供的对医药数据检索方法如下：

S201，获取待检索中医药的文本；将所述待检索中医药的文本输入到同义词标准数据库，得到待检索中医药的文本的关键词的属性类别；将所述属性类别输入到映射规则库，得到待检索中医药的文本的中医药数据检索结果。

本发明提供的待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。

本发明提供的将所述待检索中医药的文本输入到同义词标准数据库，得到待检索中医药的文本的关键词的属性类别包括：

本发明提供的将所述待检索中医药的文本输入到同义词标准数据库，根据同义词标准数据库的同义词标准表，得到所述待检索中医药的文本的关键词包括：

将所述待检索中医药的文本进行自动分词；

本发明提供的同义词标准数据库包括多条结构化信息；

对所述关键词按照属性类别进行分类；

本发明提供的映射规则库的构建过程包括：

根据所述映射规则的形式以及映射关系构建映射规则库；

如图3所示，本发明提供的对医药数据进行挖掘方法如下：

S301，对中医药文献进行预处理，得到中医药数据源；在中医药数据源中提取中医药概念；在中医药数据源中提取中医药概念关系；

S302，根据中医药概念和中医药概念关系，构建中医药概念网络，并根据中医药概念网络，得到中医药核心概念。

本发明提供的对中医药文献进行预处理，得到中医药数据源包括以下步骤：

本发明提供的在中医药数据源中提取中医药概念包括以下步骤：

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种中医药知识图谱的构建方法，其特征在于，所述中医药知识图谱的构建方法包括以下步骤：

所述中医药数据库创建方法：

所述抽取医药数据实体和属性方法：

对所述目标医药数据集进行预处理；

2.如权利要求1所述中医药知识图谱的构建方法，其特征在于，所述对医药数据检索方法如下：

3.如权利要求2所述中医药知识图谱的构建方法，其特征在于，所述待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。

4.如权利要求2所述中医药知识图谱的构建方法，其特征在于，所述待检索中医药的文本输入到同义词标准数据库，得到待检索中医药的文本的关键词的属性类别包括：

5.如权利要求2所述中医药知识图谱的构建方法，其特征在于，所述待检索中医药的文本输入到同义词标准数据库，根据同义词标准数据库的同义词标准表，得到所述待检索中医药的文本的关键词包括：

将所述待检索中医药的文本进行自动分词；

6.如权利要求2所述中医药知识图谱的构建方法，其特征在于，所述同义词标准数据库包括多条结构化信息；

对所述关键词按照属性类别进行分类；

7.如权利要求2所述中医药知识图谱的构建方法，其特征在于，所述映射规则库的构建过程包括：

根据所述映射规则的形式以及映射关系构建映射规则库；

8.如权利要求1所述中医药知识图谱的构建方法，其特征在于，所述对医药数据进行挖掘方法如下：

9.如权利要求8所述中医药知识图谱的构建方法，其特征在于，所述对中医药文献进行预处理，得到中医药数据源包括以下步骤：

10.如权利要求8所述中医药知识图谱的构建方法，其特征在于，所述在中医药数据源中提取中医药概念包括以下步骤：