CN116340544B - 一种基于知识图谱的中医药古籍可视分析方法与系统 - Google Patents
一种基于知识图谱的中医药古籍可视分析方法与系统 Download PDFInfo
- Publication number
- CN116340544B CN116340544B CN202310358357.6A CN202310358357A CN116340544B CN 116340544 B CN116340544 B CN 116340544B CN 202310358357 A CN202310358357 A CN 202310358357A CN 116340544 B CN116340544 B CN 116340544B
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- ancient
- traditional chinese
- module
- book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 86
- 230000000007 visual effect Effects 0.000 title claims abstract description 65
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 239000000463 material Substances 0.000 claims abstract description 47
- 238000012800 visualization Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 22
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 16
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000002452 interceptive effect Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 208000024891 symptom Diseases 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007792 addition Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 229940126680 traditional chinese medicines Drugs 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 208000019693 Lung disease Diseases 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 229940126678 chinese medicines Drugs 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Toxicology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的中医药古籍可视分析方法和系统,所述方法包括以下步骤:对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;基于深度学习网络模型生成中医药古籍知识图谱;构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。本发明的方法和系统能够实现从古籍文本到古籍可视化的自动生成,帮助用户高效、细粒度、多角度地探索和挖掘古籍知识。
Description
技术领域
本发明涉及中医药古籍可视分析领域,具体涉及一种基于知识图谱的中医药古籍可视分析方法与系统。
技术背景
中医药古代典籍是中医药学的重要载体,对中医药学的传承和发展起着重要的作用。研究人员深入探索与分析分散在古籍中的知识需要花费大量的精力。近年来,中医药领域信息化程度不断提高,方便研究人员探索古籍中的知识。有不少工作通过HMM[参见:Lafferty J D,Mccallum A K,Pereira F.Conditional Random Fields:ProbabilisticModels for Segmenting and Labeling Sequence Data.2001.]、CRF[参见:Lafferty JD,Mccallum A K,Pereira F.Conditional Random Fields:Probabilistic Models forSegmenting and Labeling Sequence Data.2001.]、SVM[参见:Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and Other Kernel-basedLearning Methods:Preface[J].2000.]、ME[参见:Phillips S J,Anderson R P,SchapireR E.Maximum entropy modeling of species geographic distributions[J].Ecological Modelling,2006,190(3-4):231-259.]等统计学习方法对中医药古籍进行知识提取,促进中医医疗、疾病防治和中医保健养生等应用的发展。然而,目前还缺乏一个从中医药古籍文本到知识自动提取与存储,再到可视化的系统与分析方法论。
可视化能够以直观、交互的方式展示古籍中的海量、复杂、分散的数据,为用户提供了一种新颖的探索古籍知识的方式。然而,在中医药古籍领域,对于可视化表达模式和可视分析方法研究较少。目前中医药古籍的可视化往往只有知识图谱单个简单的视图,并且知识图谱可视化表达主要以节点链接图为主,可视分析手段多为查询、过滤的简单交互,并且依赖于已有的软件进行绘制,如CiteSpace或结合VOSviewer,或使用Neo4j图数据库集成的知识图谱可视化,
缺乏关联、预测、推理等复杂分析应用。
因此需要一个中医药古籍分析系统,实现从古籍文本到古籍可视化的自动生成,帮助用户高效、细粒度、多角度地探索和挖掘古籍知识,为中医药知识的传承和创新提供了一种新的思路。
发明内容
基于上述背景,本发明提出了一种基于知识图谱的中医药古籍可视分析方法与系统,具体包括如下的内容:
本发明的第一个方面提供了一种基于知识图谱的中医药古籍可视分析方法,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
S2、基于深度学习网络模型生成中医药古籍知识图谱;
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。
进一步的,步骤S1具体包括:
S11、对古籍文本中的停用字、繁体字进行转换,然后将古籍按文本结构切分成语义关联的结构化、半结构化短句集;
S12、使用模板规则以及人工标注的方法对所述短句集进行处理,最终得到命名实体识别训练数据集和关系抽取训练数据集。
进一步的,步骤S2具体包括:
S21、基于四库全书BERT、Bi-LSTM、CRF模型,搭建命名实体识别网络,并使用所述命名实体识别训练数据集对所述命名实体识别网络进行训练;
S22、基于四库全书BERT、增强PCNN模型,搭建关系抽取网络,并使用所述关系抽取训练数据集对所述关系抽取网络进行训练;
S23、使用所述命名实体识别网络和关系抽取网络对新输入的中医药古籍进行命名实体识别及关系抽取,分别得到实体集和RDF三元组;
S24、将所述实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。
进一步的,步骤S3具体包括:
S31、古籍知识图谱可视化:以不同类型的节点代表不同的实体,以边代表实体间的关系,将中医药古籍知识图谱进行可视化;
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类,以散点图中的点表示症状、以颜色表示症状的类别,对古籍中的症状进行可视化;
S33、药材可视化:显示药材的形态、主治、性效、用法、功效,并对配伍药材的适应症进行统计,绘制出适应症比例;
S34、药方可视化:显示选中药方的文本,显示药材关联性分析的结果,以词云可视化药方中的药材词频。
进一步的,步骤S4具体包括:
S41、对用户导入的中医药古籍进行古籍知识图谱生成;
S42、基于用户输入的查询症状和阈值,使用四库全书BERT模型对输入进行向量化,通过相似度计算,搜索相似度大于阈值的症状,将搜索结果通过柱状图和症状聚类视图进行显示;
S43、基于用户在症状聚类视图中圈选的症状点,在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示,并在药方视图中显示知识图谱中对应的药方;
S44、基于药方视图中的药方,对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度;
S44、在实体融合中,基于用户设置的实体相似性过滤阈值,对症状进行相似度计算,将大于过滤阈值的症状进行连接;根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,并对数据库中的信息进行相应地更新;
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新;
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
本发明的第二个方面提供了一种基于知识图谱的中医药古籍可视分析系统,用于实现如上述第一个方面所述的方法,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的GPU计算型服务器节点下,实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于云服务器节点;人机交互前端配置可视化交互页面,用于提供可视化服务。
进一步的,所述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态。
本发明的有益效果在于:
在工程上实现了在线中医药古籍知识图谱生成,改变了中医药古籍整理模式。以可视化形式展示中医药古籍中晦涩、抽象、分散的知识表达,帮助用户高效、细粒度、多角度地探索和挖掘其中的信息。
附图说明
图1为本发明中医药古籍可视分析方法实施例的流程示意图。
图2为本发明的中医药古籍可视分析方法实施例中命名实图识别使用的深度学习神经网络示意图。
图3为本发明的中医药古籍可视分析方法实施例中关系抽取使用的深度学习神经网络示意图。
图4为本发明的中医药古籍可视分析方法实施例中可视化系统总览图。
图5为本发明的中医药古籍可视分析方法实施例中实体融合示意图。
具体实施方案
为了进一步理解本发明,下面结合实施例对本发明优越实施方案进行描述,但是应当理解,这些描述只是为了进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本示出实施例中,一种基于知识图谱的中医药古籍可视分析方法,其流程图如图1所示,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集。
S2、基于深度学习网络模型,自动化生成中医药古籍知识图谱。
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化。
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。
在一示出实施例中,步骤S1中的具体过程为:
S11、对古籍文本中的停用字、繁体字进行转换,然后根据古籍文本卷、章、篇目、方剂或条码等结构,将长文段切分为语义相互关联并且适应四库全书BERT模型的输入长度要求的短句,得到短句集。
S12、通过药物名、病症名、药方名等词表进行匹配,提取S11短句集中的药方、药剂、病症、症状、四气、五味、主治功用等实体和属性。使用表1中的标志符号对提取到的实体进行标注,得到能用于训练的命名实体识别数据集,用于四库全书BERT预训练模型的微调训练。
标志 | 说明 |
B-Prescription | 方剂实体的首字 |
I-Prescription | 方剂实体的中间字 |
B-Syndrome | 病症实体的首字 |
I-Syndrome | 病症实体的中间字 |
B-Symptom | 症状实体的首字 |
I-Symptom | 症状实体的中间字 |
B-Drug | 药物实体的首字 |
I-Drug | 药物实体的中间字 |
O | 非实体 |
通过药物主治库、药物配伍库、病症库等进行匹配的方法,提取S11短句集中的实体的配伍、方证、治法、方效、症因5种关系,使用表2中的规则关系对短句进行标注,得到关系抽取训练数据集,用于增强PCNN训练。
表2
标志 | 说明 |
配伍关系 | <药物,配伍,药物> |
方证关系 | <药方,方证,病症> |
治法关系 | <药物,治法,药方> |
方效关系 | <药方,方效,症状> |
症因关系 | <病症,症因,症状> |
在一示出实施例中,步骤S2中的具体过程为:
S21、构造如图2所示的深度学习神经网络模型。首先,将命名实体识别数据集中的每个短句输入到四库全书BERT预训练模型中。BERT将短句中的每个字编码为词嵌入向量。接着,将词嵌入矩阵输入到Bi-LSTM层中,再通过一个线性层映射,得到每个字对应的实体识别类别的概率矩阵。最后,将Bi-LSTM层输出的类别的概率矩阵作为发射矩阵输入到CRF层。CRF层计算发射分数和转移分数,第i条路径得分Si。整个命名实体识别网络通过端到端训练,将误差反向传播,更新BERT、Bi-LSTM与CRF层中的参数,使得总分数∑Si与真实路径SrealPath的得分接近,损失函数入下:
S22、构造如图3所示的深度学习神经网络模型。首先,将关系抽取训练数据集中的每个短句输入到四库全书BERT预训练模型,将短句按字颗粒度进行编码,得到每个字的向量。接着,将短句的向量表达按字进行拼接,得到输入向量,作为增强PCNN的输入。将输入向量与卷积核进行卷积运算,得到特征图集合。接着,对特征图集合进行分段池化。最后,将池化的结果输入softmax分类器,得到输入短句x中两个实体为r关系的概率p(r|x;θ),θ为关系抽取网络的参数,则对数似然函数为:
其中T为短句总数量,短句x(i)两个实体的真实关系为y(i)。通过极大对数似然函数得到模型参数θ。
S23、对新的待分析的中医药古籍规范化和短句切分。短句输入到S21训练好的实体命名识别网络中,CRF层输出得分最高的标签序列即为识别的实体类别序列,得到实体集。
对同一个句子内所识别出的实体集进行规则关系抽取,在句子中共现的实体对如果满足预设的关系规则,则认为这一实体对为候选关系对。所有的候选关系对构成候选关系集,进入S22得到的网络中进行关系检验,输出候选关系集中实体对所属关系概率。若其概率高于阈值则判定关系成立,否则判定其关系不成立,得到RDF三元组。
S24、将实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。在一示出实施例中,步骤S3中的可视化系统构建如图4所示,具体过程为:
S31、古籍知识图谱可视化:使用节点链接图来表示知识图谱稀疏图,并采用力导向布局,将中医药古籍知识图谱进行可视化。以不同类型的节点代表不同的实体,其中圆形节点代表症状实体、正方形节点代表经方实体、菱形节点代表药材实体。链接图中的边表示实体之间的关系,其中经方节点有向指向症状节点,即该经方所治疗的症状,为药效关系,经方节点指向药材节点,为该经方使用的药材实体,为方效关系,同一经方包含的药材实体间双向链接,表示配伍关系。
链接图使用焦点上下文方法,兴趣节点在节点链接视图中以焦点形式展示,焦点节点排布在视图中央,非焦点节点散落在周围。用户可以点击两个非焦点实体链接的边可以让其隐藏。对于焦点的实体,可以点击显示其其他配伍、方效、方证关系。鼠标悬浮于节点上可以完整显示被缩略的实体信息。
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类。使用散点图,散点图中的每个点代表一种症状。对聚类的结果预先设置了包括小儿、眼科、产科、妇科、男科、肺系疾病、排泄疾病、肝胆内科等多种类别。点的颜色表示症状所属的类别。散点图会高亮用户搜索到的症状。散点图支持全选与点选,选中的点会在节点链接图中显示,并显示其相连的其他实体。
S33、药材可视化:对知识图谱中药材实体进行扩展,图文并茂地显示感兴趣药材的形态、气味、用法、功效等详细信息。而配伍关系表显示了配伍关系的其他药材,并且通过一个柱形比例图可视化了它们适用症状的类别比例,根据最大占比适用症状进行排序。
S34、药方可视化:以词云可视化药方中的药材词频。列出知识图谱视图中的所有药方名,当用于点击某一个药方时,显示药方的文本,在词云中对药方中的成分药材进行高亮,并且在显示药材关联性分析的结果。
在一示出实施例中,步骤S4中的具体过程为:
S41、用户可以在可视化系统工具栏,将待分析的古籍导入到系统中,系统根据训练好的模型,用S23的步骤过程,对用户导入的中医药古籍进行古籍知识图谱生成。导入完毕后,古籍的相关信息会显示在下方。
S42、工具栏为用户提供查询的接口,用户输入查询症状或药材,系统引入了模糊搜索的查询方法。系统预定义了若干查询模板,用户可以点击交互面板查询栏的实体选择面板,选择需要进行模糊查询匹配的预定义模板,模板包括以症状实体或药剂实体等为待匹配实体,查询实体的药效关系、配伍关系、方效关系等。
基于用户输入的查询症状和阈值,将实体名、实体属性等文本信息拼接后,通过四库全书BERT模型得到其语义向量,根据输入的文本长度不同,选择不同的BERT层输出,短语较多的药材实体、症状实体、气味属性使用BERT模型的第一层输出作为语义向量,药方等实体使用最后一层输出作为语义向量。通过向量相似度计算,搜索相似度大于阈值的症状。系统会在下方的柱状图将高于相关性阈值的匹配结果进行排序显示。
S43、基于用户在症状聚类视图中圈选的症状点,系统在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示。在药方视图中显示知识图谱中对应的药方。
S44、基于药方视图中的药方,系统使用Apriori算法对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度。
S44、在实体融合中,使用四库全书BERT模型对输入进行向量化,用BERT-whitening方法,将向量转移至低维均匀分散的向量空间。基于用户设置的实体相似性过滤阈值,系统使用症状向量的余弦相似度构建同义词字典,将大于过滤阈值的症状进行连接。根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,如图5所示,并对数据库中的信息进行相应地更新。
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新。
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
本发明的另一实施例还示出了一种基于知识图谱的中医药古籍可视分析系统,用于实现如上述实施例中所述的方法,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的GPU计算型服务器节点下,用于对对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于普通ESC云服务器节点,分别用于生成中医药古籍知识图谱以及进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;
人机交互前端配置可视化交互页面,用于提供可视化服务。
在实际部署时,上述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态,不间断的运行容器。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (5)
1.一种基于知识图谱的中医药古籍可视分析方法,其特征在于,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
S2、基于深度学习网络模型生成中医药古籍知识图谱;
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化,具体包括:
S31、古籍知识图谱可视化:以不同类型的节点代表不同的实体,以边代表实体间的关系,将中医药古籍知识图谱进行可视化;
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类,以散点图中的点表示症状、以颜色表示症状的类别,对古籍中的症状进行可视化;
S33、药材可视化:显示药材的形态、主治、性效、用法、功效,并对配伍药材的适应症进行统计,绘制出适应症比例;
S34、药方可视化:显示选中药方的文本,显示药材关联性分析的结果,以词云可视化药方中的药材词频;
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息,具体包括:
S41、对用户导入的中医药古籍进行古籍知识图谱生成;
S42、基于用户输入的查询症状和阈值,使用四库全书BERT模型对输入进行向量化,通过相似度计算,搜索相似度大于阈值的症状,将搜索结果通过柱状图和症状聚类视图进行显示;
S43、基于用户在症状聚类视图中圈选的症状点,在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示,并在药方视图中显示知识图谱中对应的药方;
S44、基于药方视图中的药方,对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度;
S44、在实体融合中,基于用户设置的实体相似性过滤阈值,对症状进行相似度计算,将大于过滤阈值的症状进行连接;根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,并对数据库中的信息进行相应地更新;
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新;
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
2.根据权利要求书1所述的基于知识图谱的中医药古籍可视分析方法,其特征在于,步骤S1具体包括:
S11、对古籍文本中的停用字、繁体字进行转换,然后将古籍按文本结构切分成语义关联的结构化、半结构化短句集;
S12、使用模板规则以及人工标注的方法对所述短句集进行处理,最终得到命名实体识别训练数据集和关系抽取训练数据集。
3.根据权利要求书1所述的基于知识图谱的中医药古籍可视分析方法,其特征在于,步骤S2具体包括:
S21、基于四库全书BERT、Bi-LSTM、CRF模型,搭建命名实体识别网络,并使用所述命名实体识别训练数据集对所述命名实体识别网络进行训练;
S22、基于四库全书BERT、增强PCNN模型,搭建关系抽取网络,并使用所述关系抽取训练数据集对所述关系抽取网络进行训练;
S23、使用所述命名实体识别网络和关系抽取网络对新输入的中医药古籍进行命名实体识别及关系抽取,分别得到实体集和RDF三元组;
S24、将所述实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。
4.一种基于知识图谱的中医药古籍可视分析系统,用于实现如权利要求1-3任一项所述的方法,其特征在于,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的 GPU 计算型服务器节点下,实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于云服务器节点;人机交互前端配置可视化交互页面,用于提供可视化服务。
5.根据权利要求书4所述的基于知识图谱的中医药古籍可视分析系统,其特征在于:所述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358357.6A CN116340544B (zh) | 2023-04-03 | 2023-04-03 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358357.6A CN116340544B (zh) | 2023-04-03 | 2023-04-03 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116340544A CN116340544A (zh) | 2023-06-27 |
CN116340544B true CN116340544B (zh) | 2024-02-23 |
Family
ID=86894799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310358357.6A Active CN116340544B (zh) | 2023-04-03 | 2023-04-03 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340544B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271796B (zh) * | 2023-09-20 | 2024-03-15 | 南京大经中医药信息技术有限公司 | 一种中医典籍知识库反馈修正方法及系统 |
CN118210960A (zh) * | 2023-12-13 | 2024-06-18 | 西湖大学 | 天然药材专域知识库的构建和使用方法 |
CN117829600A (zh) * | 2023-12-29 | 2024-04-05 | 浙江大学 | 基于交互可视分析的风险企业规则模型构建与查询方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN111046272A (zh) * | 2019-10-31 | 2020-04-21 | 九次方大数据信息集团有限公司 | 一种基于医疗知识图谱的智能问答系统 |
CN112735556A (zh) * | 2019-10-28 | 2021-04-30 | 北京中医药大学 | 一种用于诊治失眠病症的中医古籍数据处理方法 |
CN113488188A (zh) * | 2021-08-03 | 2021-10-08 | 浙江中医药大学 | 中医经方古籍知识图谱构建及证候挖掘系统 |
CN114860901A (zh) * | 2022-04-19 | 2022-08-05 | 上海安艺网络科技有限公司 | 一种基于古籍信息的知识图谱构建方法及问答系统 |
CN115148325A (zh) * | 2022-06-28 | 2022-10-04 | 北京京东拓先科技有限公司 | 处方信息处理方法、装置、设备和计算机可读介质 |
CN115186068A (zh) * | 2022-07-22 | 2022-10-14 | 平安科技(深圳)有限公司 | 基于知识图谱的症状问答方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180350144A1 (en) * | 2018-07-27 | 2018-12-06 | Yogesh Rathod | Generating, recording, simulating, displaying and sharing user related real world activities, actions, events, participations, transactions, status, experience, expressions, scenes, sharing, interactions with entities and associated plurality types of data in virtual world |
-
2023
- 2023-04-03 CN CN202310358357.6A patent/CN116340544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN112735556A (zh) * | 2019-10-28 | 2021-04-30 | 北京中医药大学 | 一种用于诊治失眠病症的中医古籍数据处理方法 |
CN111046272A (zh) * | 2019-10-31 | 2020-04-21 | 九次方大数据信息集团有限公司 | 一种基于医疗知识图谱的智能问答系统 |
CN113488188A (zh) * | 2021-08-03 | 2021-10-08 | 浙江中医药大学 | 中医经方古籍知识图谱构建及证候挖掘系统 |
CN114860901A (zh) * | 2022-04-19 | 2022-08-05 | 上海安艺网络科技有限公司 | 一种基于古籍信息的知识图谱构建方法及问答系统 |
CN115148325A (zh) * | 2022-06-28 | 2022-10-04 | 北京京东拓先科技有限公司 | 处方信息处理方法、装置、设备和计算机可读介质 |
CN115186068A (zh) * | 2022-07-22 | 2022-10-14 | 平安科技(深圳)有限公司 | 基于知识图谱的症状问答方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
A Finger-Worn Device for Exploring Chinese Printed Text With Using CNN Algorithm on a Micro IoT Processor;Yu-Sheng Su等;《IEEE Access 》;第7卷;第116529-116541页 * |
中医药知识图谱的构建与应用探讨;陶雨彤等;《北京中医药》;第41卷(第12期);第1387-1392页 * |
基于中医药知识图谱的智能问答技术研究;陈程等;《中国新通信》;第20卷(第02期);第204-207页 * |
基于古籍胸痹病机的知识图谱研究;叶斌等;《亚太传统医药》;第16卷(第07期);第153-155页 * |
知识图谱可视化综述;王勇超等;《计算机辅助设计与图形学学报》;第31卷(第10期);第1666-1676页 * |
突发性重大传染病的数据分析与建模研究;吴泓嘉;《中国优秀硕士学位论文全文数据库》;基础科学辑 A002-228 * |
Also Published As
Publication number | Publication date |
---|---|
CN116340544A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950285B (zh) | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 | |
CN111708874B (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
CN109299472B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN111259653B (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
Qiu et al. | Geoscience keyphrase extraction algorithm using enhanced word embedding | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN110121705A (zh) | 将语用学原理应用于与可视分析交互的系统和方法 | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
CN110612522B (zh) | 实体模型的建立 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
US11250212B2 (en) | System and method for interpreting contextual meaning of data | |
CN113590783B (zh) | 基于nlp自然语言处理的中医养生智能问答系统 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
Dessì et al. | A recommender system of medical reports leveraging cognitive computing and frame semantics | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
Liu et al. | A parallel computing-based deep attention model for named entity recognition | |
CN114153994A (zh) | 医保信息问答方法及装置 | |
CN112084312A (zh) | 一种基于知识图构建的智能客服系统 | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
CN112149411A (zh) | 一种抗生素临床使用领域本体构建方法 | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
Suresh et al. | Data mining and text mining—a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |