CN116821354A - 一种中医药知识图谱的构建方法 - Google Patents
一种中医药知识图谱的构建方法 Download PDFInfo
- Publication number
- CN116821354A CN116821354A CN202310464025.6A CN202310464025A CN116821354A CN 116821354 A CN116821354 A CN 116821354A CN 202310464025 A CN202310464025 A CN 202310464025A CN 116821354 A CN116821354 A CN 116821354A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- traditional chinese
- database
- text
- medical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 295
- 238000010276 construction Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000013507 mapping Methods 0.000 claims abstract description 55
- 238000005065 mining Methods 0.000 claims abstract description 14
- 201000010099 disease Diseases 0.000 claims description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 208000024891 symptom Diseases 0.000 claims description 12
- 208000011580 syndromic disease Diseases 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000036651 mood Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 208000001034 Frostbite Diseases 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002552 dosage form Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229940124600 folk medicine Drugs 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000008736 traumatic injury Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Alternative & Traditional Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Pharmacology & Pharmacy (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于医药知识图谱技术领域,公开了一种中医药知识图谱的构建方法。本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词,可以构建精确且全面的辨证检索模型,减少在辨证治疗时的模糊性,从而提高辨证检索的准确度和效率的同时,保证检索的查全率;同时,通过对医药数据进行挖掘方法构建中医药概念网络,挖掘中医药中的核心概念,方便清晰快速地理解文献的含义,更好地挖掘出中医药概念知识,不仅提高了中医药核心概念识别的准确率,而且是切合于中医药理论知识体系。
Description
技术领域
本发明属于医药知识图谱技术领域,尤其涉及一种中医药知识图谱的构建方法。
背景技术
传统医药,包括汉族中医药、民间医药和少数民族医药三个组成部分;民族地区有着独特的自然条件和生活习俗,长期实践形成了对某些疾病独特的治疗经验。如高寒地区专长于治疗风湿病,鄂伦春族对冻伤有独特治疗方法,草原游牧民族则善于治跌打损伤和脑震荡等。民族药的开发涉及的民族和地区十分广泛,产品剂型多种多样;然而,现有中医药知识图谱的构建方法中医药检索内容较少且查询得到的数据存在不准确的问题;同时,不能保证挖掘出的中医药概念准确性。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有中医药知识图谱的构建方法中医药检索内容较少且查询得到的数据存在不准确的问题。
(2)不能保证挖掘出的中医药概念准确性。
(3)不能准确抽取医药数据实体和属性信息。
发明内容
针对现有技术存在的问题,本发明提供了一种中医药知识图谱的构建方法。
本发明是这样实现的,一种中医药知识图谱的构建方法包括:
步骤一,通过检索程序对医药数据检索,获取中医药数据库中的医药数据;对医药数据进行挖掘;
所述中医药数据库创建方法:
在接收到请求指令的情况下调用预先存储的模板中医药数据库,其中,所述请求指令用于请求创建目标中医药数据库;
根据所述模板中医药数据库生成所述模板中医药数据库的创建脚本;
按照所述请求指令修改所述模板中医药数据库的创建脚本,得到所述目标中医药数据库的创建脚本;
以及执行所述目标中医药数据库的创建脚本,生成所述目标中医药数据库;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:在获取模板中医药数据库的创建脚本中的第二中医药数据库标识之前;
先判断所述模板中医药数据库的创建脚本中是否包括中医药数据库标识,在判断出所述模板中医药数据库的创建脚本中包括中医药数据库标识的情况下,获取响应所述请求指令中的第一中医药数据库标识;
并获取所述模板中医药数据库的创建脚本中的第二中医药数据库标识,
其中,所述第一中医药数据库标识是要生成目标中医药数据库的名称,第二中医药数据库标识是所述模板中医药数据库的创建脚本的名称;
以及将所述第二中医药数据库标识替换为所述第一中医药数据库标识;
如果判断出所述模板中医药数据库的创建脚本中不包括中医药数据库标识,则直接将所述第一中医药数据库标识添加到所述目标中医药数据库的创建脚本中,得到所述目标中医药数据库的创建脚本;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:对所述模板中医药数据库的创建脚本的属性信息进行修改;
步骤二,抽取医药数据实体和属性;设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
所述抽取医药数据实体和属性方法:
从医药数据库中提取医药数据实体和属性的目标医药数据集;
对所述目标医药数据集进行预处理;
根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果;
对所述医药数据实体和属性结果进行解释和评价,生成医药数据实体和属性报告;
所述根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果,包括:
对经过预处理的目标医药数据集进行关联分析,根据语义、语料库统计出关联信息内容,并进行分布式分类聚类,并对医药数据进行分布式分片计算,把结果汇总并进行并行处理;
同时将存储在医药数据库中一组医药数据对象的共同特点按照分类模式将其划分为不同的类;
并通过信息分类算法把医药数据库中的医药数据项映射到某个给定的类别,并把事件分类类型和特征进行分组,并进行多维度分析,统计出实质的信息医药数据。
进一步,所述对医药数据检索方法如下:
(1)获取待检索中医药的文本;将所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别;将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果。
进一步,所述待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。
进一步,所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别包括:
将所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别。
进一步,所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词包括:
将所述待检索中医药的文本进行自动分词;
将分词后的文本与同义词标准数据库中预设的同义词标准表进行信息比对,得到所述待检索中医药的文本的关键词。
进一步,所述同义词标准数据库包括多条结构化信息;
其中,所述多条结构化信息中的每条结构化信息包括关键词的正名、关键词的异名以及关键词的属性类别;
其中,所述属性类别包括疾病类别、症状类别、证候类别、功效类别和方剂类别;
同义词标准数据库的多个子数据库包括疾病数据库、症状数据库、证候数据库、功效数据库和方剂数据库;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别包括:
对所述关键词按照属性类别进行分类;
将分类后的关键词分别输入到同义词标准数据库的子数据库中进行检索,得到待检索中医药的文本的关键词的属性类别。
进一步,所述映射规则库的构建过程包括:
获取语言变量的级数和映射规则的数目,根据所述语言变量的级数和映射规则的数目建立映射规则的形式;
获取疾病类别、症状类别、证候类别、治法类别以及方剂类别之间的映射关系;
根据所述映射规则的形式以及映射关系构建映射规则库;
将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果包括:
根据映射规则库的映射关系以及关键词分类的父子层级概念结构,构建基于辨证映射推理规则的索引;
根据所述属性类别以及基于辨证映射推理规则的索引,得到待检索中医药的文本的中医药数据检索结果;
其中,所述中医药数据检索结果包括基于待检索中医药的文本的疾病类别、症状类别、证候类别、治法类别以及方剂类别得到的药方建议。
进一步,所述对医药数据进行挖掘方法如下:
1)对中医药文献进行预处理,得到中医药数据源;在中医药数据源中提取中医药概念;在中医药数据源中提取中医药概念关系;
2)根据中医药概念和中医药概念关系,构建中医药概念网络,并根据中医药概念网络,得到中医药核心概念。
进一步,所述对中医药文献进行预处理,得到中医药数据源包括以下步骤:
通过UTF-8可变长度字符编码方式对中医药文献进行编码,得到中医药文献TXT文本文档;
遍历并删除中医药文献TXT文本文档中的空格及停用词,得到中医药数据源。
进一步,所述在中医药数据源中提取中医药概念包括以下步骤:
以句号及感叹号为分隔符对中医药数据源进行句子分割,得到分句数据源,所述分句数据源包含C个分割后的句子;
通过Word2Vec词向量转换模型对分句数据源进行向量转换,得到字向量句数据源,所述字向量句数据源包含C个字向量句子,且所述C个字向量句子与所述C个分割后的句子一一对应;
根据字向量句数据源,通过中医药概念提取模型提取中医药概念;所述中医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词,可以构建精确且全面的辨证检索模型,减少在辨证治疗时的模糊性,从而提高辨证检索的准确度和效率的同时,保证检索的查全率;同时,通过对医药数据进行挖掘方法构建中医药概念网络,挖掘中医药中的核心概念,方便清晰快速地理解文献的含义,更好地挖掘出中医药概念知识,不仅提高了中医药核心概念识别的准确率,而且是切合于中医药理论知识体系。
本发明通过抽取医药数据实体和属性方法对医药数据进行分布式医药数据挖掘,其主要是对医药数据进行web网页挖掘、语词特征、词义、意境偏差分析,对语词进行分词处理,结合意境对网页信息关联统计分析,分析出看似不统一、不连贯的词语、意境之间找出事件的语句的本质的联系,直接统计出看似不关联医药数据进行分析,准确得到医药数据实体和属性。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词,可以构建精确且全面的辨证检索模型,减少在辨证治疗时的模糊性,从而提高辨证检索的准确度和效率的同时,保证检索的查全率;同时,通过对医药数据进行挖掘方法构建中医药概念网络,挖掘中医药中的核心概念,方便清晰快速地理解文献的含义,更好地挖掘出中医药概念知识,不仅提高了中医药核心概念识别的准确率,而且是切合于中医药理论知识体系。
附图说明
图1是本发明实施例提供的中医药知识图谱的构建方法流程图。
图2是本发明实施例提供的对医药数据检索方法流程图。
图3是本发明实施例提供的对医药数据进行挖掘方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明提供一种中医药知识图谱的构建方法包括以下步骤:
S101,通过检索程序对医药数据检索,获取中医药数据库中的医药数据;对医药数据进行挖掘;
所述中医药数据库创建方法:
在接收到请求指令的情况下调用预先存储的模板中医药数据库,其中,所述请求指令用于请求创建目标中医药数据库;
根据所述模板中医药数据库生成所述模板中医药数据库的创建脚本;
按照所述请求指令修改所述模板中医药数据库的创建脚本,得到所述目标中医药数据库的创建脚本;
以及执行所述目标中医药数据库的创建脚本,生成所述目标中医药数据库;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:在获取模板中医药数据库的创建脚本中的第二中医药数据库标识之前;
先判断所述模板中医药数据库的创建脚本中是否包括中医药数据库标识,在判断出所述模板中医药数据库的创建脚本中包括中医药数据库标识的情况下,获取响应所述请求指令中的第一中医药数据库标识;
并获取所述模板中医药数据库的创建脚本中的第二中医药数据库标识,
其中,所述第一中医药数据库标识是要生成目标中医药数据库的名称,第二中医药数据库标识是所述模板中医药数据库的创建脚本的名称;
以及将所述第二中医药数据库标识替换为所述第一中医药数据库标识;
如果判断出所述模板中医药数据库的创建脚本中不包括中医药数据库标识,则直接将所述第一中医药数据库标识添加到所述目标中医药数据库的创建脚本中,得到所述目标中医药数据库的创建脚本;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:对所述模板中医药数据库的创建脚本的属性信息进行修改;
S102,抽取医药数据实体和属性;设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
所述抽取医药数据实体和属性方法:
从医药数据库中提取医药数据实体和属性的目标医药数据集;
对所述目标医药数据集进行预处理;
根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果;
对所述医药数据实体和属性结果进行解释和评价,生成医药数据实体和属性报告;
所述根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果,包括:
对经过预处理的目标医药数据集进行关联分析,根据语义、语料库统计出关联信息内容,并进行分布式分类聚类,并对医药数据进行分布式分片计算,把结果汇总并进行并行处理;
同时将存储在医药数据库中一组医药数据对象的共同特点按照分类模式将其划分为不同的类;
并通过信息分类算法把医药数据库中的医药数据项映射到某个给定的类别,并把事件分类类型和特征进行分组,并进行多维度分析,统计出实质的信息医药数据。
如图2所示,本发明提供的对医药数据检索方法如下:
S201,获取待检索中医药的文本;将所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别;将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果。
本发明提供的待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。
本发明提供的将所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别包括:
将所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别。
本发明提供的将所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词包括:
将所述待检索中医药的文本进行自动分词;
将分词后的文本与同义词标准数据库中预设的同义词标准表进行信息比对,得到所述待检索中医药的文本的关键词。
本发明提供的同义词标准数据库包括多条结构化信息;
其中,所述多条结构化信息中的每条结构化信息包括关键词的正名、关键词的异名以及关键词的属性类别;
其中,所述属性类别包括疾病类别、症状类别、证候类别、功效类别和方剂类别;
同义词标准数据库的多个子数据库包括疾病数据库、症状数据库、证候数据库、功效数据库和方剂数据库;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别包括:
对所述关键词按照属性类别进行分类;
将分类后的关键词分别输入到同义词标准数据库的子数据库中进行检索,得到待检索中医药的文本的关键词的属性类别。
本发明提供的映射规则库的构建过程包括:
获取语言变量的级数和映射规则的数目,根据所述语言变量的级数和映射规则的数目建立映射规则的形式;
获取疾病类别、症状类别、证候类别、治法类别以及方剂类别之间的映射关系;
根据所述映射规则的形式以及映射关系构建映射规则库;
将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果包括:
根据映射规则库的映射关系以及关键词分类的父子层级概念结构,构建基于辨证映射推理规则的索引;
根据所述属性类别以及基于辨证映射推理规则的索引,得到待检索中医药的文本的中医药数据检索结果;
其中,所述中医药数据检索结果包括基于待检索中医药的文本的疾病类别、症状类别、证候类别、治法类别以及方剂类别得到的药方建议。
如图3所示,本发明提供的对医药数据进行挖掘方法如下:
S301,对中医药文献进行预处理,得到中医药数据源;在中医药数据源中提取中医药概念;在中医药数据源中提取中医药概念关系;
S302,根据中医药概念和中医药概念关系,构建中医药概念网络,并根据中医药概念网络,得到中医药核心概念。
本发明提供的对中医药文献进行预处理,得到中医药数据源包括以下步骤:
通过UTF-8可变长度字符编码方式对中医药文献进行编码,得到中医药文献TXT文本文档;
遍历并删除中医药文献TXT文本文档中的空格及停用词,得到中医药数据源。
本发明提供的在中医药数据源中提取中医药概念包括以下步骤:
以句号及感叹号为分隔符对中医药数据源进行句子分割,得到分句数据源,所述分句数据源包含C个分割后的句子;
通过Word2Vec词向量转换模型对分句数据源进行向量转换,得到字向量句数据源,所述字向量句数据源包含C个字向量句子,且所述C个字向量句子与所述C个分割后的句子一一对应;
根据字向量句数据源,通过中医药概念提取模型提取中医药概念;所述中医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词,可以构建精确且全面的辨证检索模型,减少在辨证治疗时的模糊性,从而提高辨证检索的准确度和效率的同时,保证检索的查全率;同时,通过对医药数据进行挖掘方法构建中医药概念网络,挖掘中医药中的核心概念,方便清晰快速地理解文献的含义,更好地挖掘出中医药概念知识,不仅提高了中医药核心概念识别的准确率,而且是切合于中医药理论知识体系。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
本发明通过对医药数据检索方法依据检索关键词的类别基于辨证映射规则库检索得到其他类别的映射检索词,可以构建精确且全面的辨证检索模型,减少在辨证治疗时的模糊性,从而提高辨证检索的准确度和效率的同时,保证检索的查全率;同时,通过对医药数据进行挖掘方法构建中医药概念网络,挖掘中医药中的核心概念,方便清晰快速地理解文献的含义,更好地挖掘出中医药概念知识,不仅提高了中医药核心概念识别的准确率,而且是切合于中医药理论知识体系。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种中医药知识图谱的构建方法,其特征在于,所述中医药知识图谱的构建方法包括以下步骤:
步骤一,通过检索程序对医药数据检索,获取中医药数据库中的医药数据;对医药数据进行挖掘;
所述中医药数据库创建方法:
在接收到请求指令的情况下调用预先存储的模板中医药数据库,其中,所述请求指令用于请求创建目标中医药数据库;
根据所述模板中医药数据库生成所述模板中医药数据库的创建脚本;
按照所述请求指令修改所述模板中医药数据库的创建脚本,得到所述目标中医药数据库的创建脚本;
以及执行所述目标中医药数据库的创建脚本,生成所述目标中医药数据库;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:在获取模板中医药数据库的创建脚本中的第二中医药数据库标识之前;
先判断所述模板中医药数据库的创建脚本中是否包括中医药数据库标识,在判断出所述模板中医药数据库的创建脚本中包括中医药数据库标识的情况下,获取响应所述请求指令中的第一中医药数据库标识;
并获取所述模板中医药数据库的创建脚本中的第二中医药数据库标识,
其中,所述第一中医药数据库标识是要生成目标中医药数据库的名称,第二中医药数据库标识是所述模板中医药数据库的创建脚本的名称;
以及将所述第二中医药数据库标识替换为所述第一中医药数据库标识;
如果判断出所述模板中医药数据库的创建脚本中不包括中医药数据库标识,则直接将所述第一中医药数据库标识添加到所述目标中医药数据库的创建脚本中,得到所述目标中医药数据库的创建脚本;
其中,按照所述请求指令修改所述模板中医药数据库的创建脚本包括:对所述模板中医药数据库的创建脚本的属性信息进行修改;
步骤二,抽取医药数据实体和属性;设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
所述抽取医药数据实体和属性方法:
从医药数据库中提取医药数据实体和属性的目标医药数据集;
对所述目标医药数据集进行预处理;
根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果;
对所述医药数据实体和属性结果进行解释和评价,生成医药数据实体和属性报告;
所述根据医药数据的功能类型和医药数据特点对经过预处理的目标医药数据集进行医药数据实体和属性,得到医药数据实体和属性结果,包括:
对经过预处理的目标医药数据集进行关联分析,根据语义、语料库统计出关联信息内容,并进行分布式分类聚类,并对医药数据进行分布式分片计算,把结果汇总并进行并行处理;
同时将存储在医药数据库中一组医药数据对象的共同特点按照分类模式将其划分为不同的类;
并通过信息分类算法把医药数据库中的医药数据项映射到某个给定的类别,并把事件分类类型和特征进行分组,并进行多维度分析,统计出实质的信息医药数据。
2.如权利要求1所述中医药知识图谱的构建方法,其特征在于,所述对医药数据检索方法如下:
(1)获取待检索中医药的文本;将所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别;将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果。
3.如权利要求2所述中医药知识图谱的构建方法,其特征在于,所述待检索中医药的文本为专业的描述信息文本或非专业的描述信息文本。
4.如权利要求2所述中医药知识图谱的构建方法,其特征在于,所述待检索中医药的文本输入到同义词标准数据库,得到待检索中医药的文本的关键词的属性类别包括:
将所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别。
5.如权利要求2所述中医药知识图谱的构建方法,其特征在于,所述待检索中医药的文本输入到同义词标准数据库,根据同义词标准数据库的同义词标准表,得到所述待检索中医药的文本的关键词包括:
将所述待检索中医药的文本进行自动分词;
将分词后的文本与同义词标准数据库中预设的同义词标准表进行信息比对,得到所述待检索中医药的文本的关键词。
6.如权利要求2所述中医药知识图谱的构建方法,其特征在于,所述同义词标准数据库包括多条结构化信息;
其中,所述多条结构化信息中的每条结构化信息包括关键词的正名、关键词的异名以及关键词的属性类别;
其中,所述属性类别包括疾病类别、症状类别、证候类别、功效类别和方剂类别;
同义词标准数据库的多个子数据库包括疾病数据库、症状数据库、证候数据库、功效数据库和方剂数据库;
根据所述关键词以及同义词标准数据库的多个子数据库,得到待检索中医药的文本的关键词的属性类别包括:
对所述关键词按照属性类别进行分类;
将分类后的关键词分别输入到同义词标准数据库的子数据库中进行检索,得到待检索中医药的文本的关键词的属性类别。
7.如权利要求2所述中医药知识图谱的构建方法,其特征在于,所述映射规则库的构建过程包括:
获取语言变量的级数和映射规则的数目,根据所述语言变量的级数和映射规则的数目建立映射规则的形式;
获取疾病类别、症状类别、证候类别、治法类别以及方剂类别之间的映射关系;
根据所述映射规则的形式以及映射关系构建映射规则库;
将所述属性类别输入到映射规则库,得到待检索中医药的文本的中医药数据检索结果包括:
根据映射规则库的映射关系以及关键词分类的父子层级概念结构,构建基于辨证映射推理规则的索引;
根据所述属性类别以及基于辨证映射推理规则的索引,得到待检索中医药的文本的中医药数据检索结果;
其中,所述中医药数据检索结果包括基于待检索中医药的文本的疾病类别、症状类别、证候类别、治法类别以及方剂类别得到的药方建议。
8.如权利要求1所述中医药知识图谱的构建方法,其特征在于,所述对医药数据进行挖掘方法如下:
1)对中医药文献进行预处理,得到中医药数据源;在中医药数据源中提取中医药概念;在中医药数据源中提取中医药概念关系;
2)根据中医药概念和中医药概念关系,构建中医药概念网络,并根据中医药概念网络,得到中医药核心概念。
9.如权利要求8所述中医药知识图谱的构建方法,其特征在于,所述对中医药文献进行预处理,得到中医药数据源包括以下步骤:
通过UTF-8可变长度字符编码方式对中医药文献进行编码,得到中医药文献TXT文本文档;
遍历并删除中医药文献TXT文本文档中的空格及停用词,得到中医药数据源。
10.如权利要求8所述中医药知识图谱的构建方法,其特征在于,所述在中医药数据源中提取中医药概念包括以下步骤:
以句号及感叹号为分隔符对中医药数据源进行句子分割,得到分句数据源,所述分句数据源包含C个分割后的句子;
通过Word2Vec词向量转换模型对分句数据源进行向量转换,得到字向量句数据源,所述字向量句数据源包含C个字向量句子,且所述C个字向量句子与所述C个分割后的句子一一对应;
根据字向量句数据源,通过中医药概念提取模型提取中医药概念;所述中医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464025.6A CN116821354A (zh) | 2023-04-26 | 2023-04-26 | 一种中医药知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464025.6A CN116821354A (zh) | 2023-04-26 | 2023-04-26 | 一种中医药知识图谱的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821354A true CN116821354A (zh) | 2023-09-29 |
Family
ID=88122990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310464025.6A Pending CN116821354A (zh) | 2023-04-26 | 2023-04-26 | 一种中医药知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821354A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744784A (zh) * | 2024-02-04 | 2024-03-22 | 徐州医科大学 | 一种医学科研知识图谱构建与智能检索方法及系统 |
CN117785862A (zh) * | 2024-02-28 | 2024-03-29 | 天津大学 | 生物安全数据库提取验证方法和系统 |
-
2023
- 2023-04-26 CN CN202310464025.6A patent/CN116821354A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744784A (zh) * | 2024-02-04 | 2024-03-22 | 徐州医科大学 | 一种医学科研知识图谱构建与智能检索方法及系统 |
CN117744784B (zh) * | 2024-02-04 | 2024-04-30 | 徐州医科大学 | 一种医学科研知识图谱构建与智能检索方法及系统 |
CN117785862A (zh) * | 2024-02-28 | 2024-03-29 | 天津大学 | 生物安全数据库提取验证方法和系统 |
CN117785862B (zh) * | 2024-02-28 | 2024-05-03 | 天津大学 | 生物安全数据库提取验证方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Milosevic et al. | A framework for information extraction from tables in biomedical literature | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
Schwartz et al. | A comparison of several approximate algorithms for finding multiple (N-best) sentence hypotheses | |
CN116821354A (zh) | 一种中医药知识图谱的构建方法 | |
Khelif et al. | An Ontology-based Approach to Support Text Mining and Information Retrieval in the Biological Domain. | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
CN112417161B (zh) | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 | |
Sameen et al. | Measuring short text reuse for the Urdu language | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Nassif et al. | Automatically categorizing software technologies | |
Leventidis et al. | DomainNet: Homograph detection for data lake disambiguation | |
Liang et al. | KG4Py: A toolkit for generating Python knowledge graph and code semantic search | |
Chen et al. | A synergistic framework for geographic question answering | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
Karpagam et al. | A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet | |
Hovy et al. | Extending metadata definitions by automatically extracting and organizing glossary definitions | |
Mezentseva et al. | Optimization of analysis and minimization of information losses in text mining | |
Abad-Navarro et al. | Semankey: a semantics-driven approach for querying RDF repositories using keywords | |
Lin et al. | A rule based open information extraction method using cascaded finite-state transducer | |
Ganino et al. | Ontology population from raw text corpus for open-source intelligence | |
Lara-Clares et al. | A reproducible experimental survey on biomedical sentence similarity: A string-based method sets the state of the art | |
Nagar | Code Search Using Code2Seq | |
Arwan et al. | Query expansion using novel use case scenario relationship for finding feature location. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |