CN116340544A - 一种基于知识图谱的中医药古籍可视分析方法与系统 - Google Patents

一种基于知识图谱的中医药古籍可视分析方法与系统 Download PDF

Info

Publication number
CN116340544A
CN116340544A CN202310358357.6A CN202310358357A CN116340544A CN 116340544 A CN116340544 A CN 116340544A CN 202310358357 A CN202310358357 A CN 202310358357A CN 116340544 A CN116340544 A CN 116340544A
Authority
CN
China
Prior art keywords
chinese medicine
traditional chinese
ancient
module
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310358357.6A
Other languages
English (en)
Other versions
CN116340544B (zh
Inventor
吴泓嘉
张宏鑫
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310358357.6A priority Critical patent/CN116340544B/zh
Publication of CN116340544A publication Critical patent/CN116340544A/zh
Application granted granted Critical
Publication of CN116340544B publication Critical patent/CN116340544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱的中医药古籍可视分析方法和系统,所述方法包括以下步骤:对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;基于深度学习网络模型生成中医药古籍知识图谱;构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。本发明的方法和系统能够实现从古籍文本到古籍可视化的自动生成,帮助用户高效、细粒度、多角度地探索和挖掘古籍知识。

Description

一种基于知识图谱的中医药古籍可视分析方法与系统
技术领域
本发明涉及中医药古籍可视分析领域,具体涉及一种基于知识图谱的中医药古籍可视分析方法与系统。
技术背景
中医药古代典籍是中医药学的重要载体,对中医药学的传承和发展起着重要的作用。研究人员深入探索与分析分散在古籍中的知识需要花费大量的精力。近年来,中医药领域信息化程度不断提高,方便研究人员探索古籍中的知识。有不少工作通过HMM[参见:Lafferty J D,Mccallum A K,Pereira F.Conditional Random Fields:ProbabilisticModels for Segmenting and Labeling Sequence Data.2001.]、CRF[参见:Lafferty JD,Mccallum A K,Pereira F.Conditional Random Fields:Probabilistic Models forSegmenting and Labeling Sequence Data.2001.]、SVM[参见:Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and Other Kernel-basedLearning Methods:Preface[J].2000.]、ME[参见:Phillips S J,Anderson R P,SchapireR E.Maximum entropy modeling of species geographic distributions[J].Ecological Modelling,2006,190(3-4):231-259.]等统计学习方法对中医药古籍进行知识提取,促进中医医疗、疾病防治和中医保健养生等应用的发展。然而,目前还缺乏一个从中医药古籍文本到知识自动提取与存储,再到可视化的系统与分析方法论。
可视化能够以直观、交互的方式展示古籍中的海量、复杂、分散的数据,为用户提供了一种新颖的探索古籍知识的方式。然而,在中医药古籍领域,对于可视化表达模式和可视分析方法研究较少。目前中医药古籍的可视化往往只有知识图谱单个简单的视图,并且知识图谱可视化表达主要以节点链接图为主,可视分析手段多为查询、过滤的简单交互,并且依赖于已有的软件进行绘制,如CiteSpace或结合VOSviewer,或使用Neo4j图数据库集成的知识图谱可视化,
缺乏关联、预测、推理等复杂分析应用。
因此需要一个中医药古籍分析系统,实现从古籍文本到古籍可视化的自动生成,帮助用户高效、细粒度、多角度地探索和挖掘古籍知识,为中医药知识的传承和创新提供了一种新的思路。
发明内容
基于上述背景,本发明提出了一种基于知识图谱的中医药古籍可视分析方法与系统,具体包括如下的内容:
本发明的第一个方面提供了一种基于知识图谱的中医药古籍可视分析方法,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
S2、基于深度学习网络模型生成中医药古籍知识图谱;
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。
进一步的,步骤S1具体包括:
S11、对古籍文本中的停用字、繁体字进行转换,然后将古籍按文本结构切分成语义关联的结构化、半结构化短句集;
S12、使用模板规则以及人工标注的方法对所述短句集进行处理,最终得到命名实体识别训练数据集和关系抽取训练数据集。
进一步的,步骤S2具体包括:
S21、基于四库全书BERT、Bi-LSTM、CRF模型,搭建命名实体识别网络,并使用所述命名实体识别训练数据集对所述命名实体识别网络进行训练;
S22、基于四库全书BERT、增强PCNN模型,搭建关系抽取网络,并使用所述关系抽取训练数据集对所述关系抽取网络进行训练;
S23、使用所述命名实体识别网络和关系抽取网络对新输入的中医药古籍进行命名实体识别及关系抽取,分别得到实体集和RDF三元组;
S24、将所述实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。
进一步的,步骤S3具体包括:
S31、古籍知识图谱可视化:以不同类型的节点代表不同的实体,以边代表实体间的关系,将中医药古籍知识图谱进行可视化;
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类,以散点图中的点表示症状、以颜色表示症状的类别,对古籍中的症状进行可视化;
S33、药材可视化:显示药材的形态、主治、性效、用法、功效,并对配伍药材的适应症进行统计,绘制出适应症比例;
S34、药方可视化:显示选中药方的文本,显示药材关联性分析的结果,以词云可视化药方中的药材词频。
进一步的,步骤S4具体包括:
S41、对用户导入的中医药古籍进行古籍知识图谱生成;
S42、基于用户输入的查询症状和阈值,使用四库全书BERT模型对输入进行向量化,通过相似度计算,搜索相似度大于阈值的症状,将搜索结果通过柱状图和症状聚类视图进行显示;
S43、基于用户在症状聚类视图中圈选的症状点,在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示,并在药方视图中显示知识图谱中对应的药方;
S44、基于药方视图中的药方,对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度;
S44、在实体融合中,基于用户设置的实体相似性过滤阈值,对症状进行相似度计算,将大于过滤阈值的症状进行连接;根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,并对数据库中的信息进行相应地更新;
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新;
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
本发明的第二个方面提供了一种基于知识图谱的中医药古籍可视分析系统,用于实现如上述第一个方面所述的方法,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的GPU计算型服务器节点下,实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于云服务器节点;人机交互前端配置可视化交互页面,用于提供可视化服务。
进一步的,所述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态。
本发明的有益效果在于:
在工程上实现了在线中医药古籍知识图谱生成,改变了中医药古籍整理模式。以可视化形式展示中医药古籍中晦涩、抽象、分散的知识表达,帮助用户高效、细粒度、多角度地探索和挖掘其中的信息。
附图说明
图1为本发明中医药古籍可视分析方法实施例的流程示意图。
图2为本发明的中医药古籍可视分析方法实施例中命名实图识别使用的深度学习神经网络示意图。
图3为本发明的中医药古籍可视分析方法实施例中关系抽取使用的深度学习神经网络示意图。
图4为本发明的中医药古籍可视分析方法实施例中可视化系统总览图。
图5为本发明的中医药古籍可视分析方法实施例中实体融合示意图。
具体实施方案
为了进一步理解本发明,下面结合实施例对本发明优越实施方案进行描述,但是应当理解,这些描述只是为了进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本示出实施例中,一种基于知识图谱的中医药古籍可视分析方法,其流程图如图1所示,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集。
S2、基于深度学习网络模型,自动化生成中医药古籍知识图谱。
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化。
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。
在一示出实施例中,步骤S1中的具体过程为:
S11、对古籍文本中的停用字、繁体字进行转换,然后根据古籍文本卷、章、篇目、方剂或条码等结构,将长文段切分为语义相互关联并且适应四库全书BERT模型的输入长度要求的短句,得到短句集。
S12、通过药物名、病症名、药方名等词表进行匹配,提取S11短句集中的药方、药剂、病症、症状、四气、五味、主治功用等实体和属性。使用表1中的标志符号对提取到的实体进行标注,得到能用于训练的命名实体识别数据集,用于四库全书BERT预训练模型的微调训练。
标志 说明
B-Prescription 方剂实体的首字
I-Prescription 方剂实体的中间字
B-Syndrome 病症实体的首字
I-Syndrome 病症实体的中间字
B-Symptom 症状实体的首字
I-Symptom 症状实体的中间字
B-Drug 药物实体的首字
I-Drug 药物实体的中间字
O 非实体
通过药物主治库、药物配伍库、病症库等进行匹配的方法,提取S11短句集中的实体的配伍、方证、治法、方效、症因5种关系,使用表2中的规则关系对短句进行标注,得到关系抽取训练数据集,用于增强PCNN训练。
表2
标志 说明
配伍关系 <药物,配伍,药物>
方证关系 <药方,方证,病症>
治法关系 <药物,治法,药方>
方效关系 <药方,方效,症状>
症因关系 <病症,症因,症状>
在一示出实施例中,步骤S2中的具体过程为:
S21、构造如图2所示的深度学习神经网络模型。首先,将命名实体识别数据集中的每个短句输入到四库全书BERT预训练模型中。BERT将短句中的每个字编码为词嵌入向量。接着,将词嵌入矩阵输入到Bi-LSTM层中,再通过一个线性层映射,得到每个字对应的实体识别类别的概率矩阵。最后,将Bi-LSTM层输出的类别的概率矩阵作为发射矩阵输入到CRF层。CRF层计算发射分数和转移分数,第i条路径得分Si。整个命名实体识别网络通过端到端训练,将误差反向传播,更新BERT、Bi-LSTM与CRF层中的参数,使得总分数∑Si与真实路径SrealPath的得分接近,损失函数入下:
Figure SMS_1
S22、构造如图3所示的深度学习神经网络模型。首先,将关系抽取训练数据集中的每个短句输入到四库全书BERT预训练模型,将短句按字颗粒度进行编码,得到每个字的向量。接着,将短句的向量表达按字进行拼接,得到输入向量,作为增强PCNN的输入。将输入向量与卷积核进行卷积运算,得到特征图集合。接着,对特征图集合进行分段池化。最后,将池化的结果输入softmax分类器,得到输入短句x中两个实体为r关系的概率p(r|x;θ),θ为关系抽取网络的参数,则对数似然函数为:
Figure SMS_2
其中T为短句总数量,短句x(i)两个实体的真实关系为y(i)。通过极大对数似然函数得到模型参数θ。
S23、对新的待分析的中医药古籍规范化和短句切分。短句输入到S21训练好的实体命名识别网络中,CRF层输出得分最高的标签序列即为识别的实体类别序列,得到实体集。
对同一个句子内所识别出的实体集进行规则关系抽取,在句子中共现的实体对如果满足预设的关系规则,则认为这一实体对为候选关系对。所有的候选关系对构成候选关系集,进入S22得到的网络中进行关系检验,输出候选关系集中实体对所属关系概率。若其概率高于阈值则判定关系成立,否则判定其关系不成立,得到RDF三元组。
S24、将实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。在一示出实施例中,步骤S3中的可视化系统构建如图4所示,具体过程为:
S31、古籍知识图谱可视化:使用节点链接图来表示知识图谱稀疏图,并采用力导向布局,将中医药古籍知识图谱进行可视化。以不同类型的节点代表不同的实体,其中圆形节点代表症状实体、正方形节点代表经方实体、菱形节点代表药材实体。链接图中的边表示实体之间的关系,其中经方节点有向指向症状节点,即该经方所治疗的症状,为药效关系,经方节点指向药材节点,为该经方使用的药材实体,为方效关系,同一经方包含的药材实体间双向链接,表示配伍关系。
链接图使用焦点上下文方法,兴趣节点在节点链接视图中以焦点形式展示,焦点节点排布在视图中央,非焦点节点散落在周围。用户可以点击两个非焦点实体链接的边可以让其隐藏。对于焦点的实体,可以点击显示其其他配伍、方效、方证关系。鼠标悬浮于节点上可以完整显示被缩略的实体信息。
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类。使用散点图,散点图中的每个点代表一种症状。对聚类的结果预先设置了包括小儿、眼科、产科、妇科、男科、肺系疾病、排泄疾病、肝胆内科等多种类别。点的颜色表示症状所属的类别。散点图会高亮用户搜索到的症状。散点图支持全选与点选,选中的点会在节点链接图中显示,并显示其相连的其他实体。
S33、药材可视化:对知识图谱中药材实体进行扩展,图文并茂地显示感兴趣药材的形态、气味、用法、功效等详细信息。而配伍关系表显示了配伍关系的其他药材,并且通过一个柱形比例图可视化了它们适用症状的类别比例,根据最大占比适用症状进行排序。
S34、药方可视化:以词云可视化药方中的药材词频。列出知识图谱视图中的所有药方名,当用于点击某一个药方时,显示药方的文本,在词云中对药方中的成分药材进行高亮,并且在显示药材关联性分析的结果。
在一示出实施例中,步骤S4中的具体过程为:
S41、用户可以在可视化系统工具栏,将待分析的古籍导入到系统中,系统根据训练好的模型,用S23的步骤过程,对用户导入的中医药古籍进行古籍知识图谱生成。导入完毕后,古籍的相关信息会显示在下方。
S42、工具栏为用户提供查询的接口,用户输入查询症状或药材,系统引入了模糊搜索的查询方法。系统预定义了若干查询模板,用户可以点击交互面板查询栏的实体选择面板,选择需要进行模糊查询匹配的预定义模板,模板包括以症状实体或药剂实体等为待匹配实体,查询实体的药效关系、配伍关系、方效关系等。
基于用户输入的查询症状和阈值,将实体名、实体属性等文本信息拼接后,通过四库全书BERT模型得到其语义向量,根据输入的文本长度不同,选择不同的BERT层输出,短语较多的药材实体、症状实体、气味属性使用BERT模型的第一层输出作为语义向量,药方等实体使用最后一层输出作为语义向量。通过向量相似度计算,搜索相似度大于阈值的症状。系统会在下方的柱状图将高于相关性阈值的匹配结果进行排序显示。
S43、基于用户在症状聚类视图中圈选的症状点,系统在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示。在药方视图中显示知识图谱中对应的药方。
S44、基于药方视图中的药方,系统使用Apriori算法对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度。
S44、在实体融合中,使用四库全书BERT模型对输入进行向量化,用BERT-whitening方法,将向量转移至低维均匀分散的向量空间。基于用户设置的实体相似性过滤阈值,系统使用症状向量的余弦相似度构建同义词字典,将大于过滤阈值的症状进行连接。根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,如图5所示,并对数据库中的信息进行相应地更新。
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新。
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
本发明的另一实施例还示出了一种基于知识图谱的中医药古籍可视分析系统,用于实现如上述实施例中所述的方法,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的GPU计算型服务器节点下,用于对对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于普通ESC云服务器节点,分别用于生成中医药古籍知识图谱以及进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;
人机交互前端配置可视化交互页面,用于提供可视化服务。
在实际部署时,上述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态,不间断的运行容器。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种基于知识图谱的中医药古籍可视分析方法,其特征在于,包括以下步骤:
S1、对中医药古籍文本数据进行预处理,得到命名实体识别训练数据集和关系抽取训练数据集;
S2、基于深度学习网络模型生成中医药古籍知识图谱;
S3、构建中医药古籍可视化分析系统,进行古籍知识图谱可视化、症状聚类可视化、药材可视化和药方可视化;
S4、配置用户可视化交互式接口,基于所述中医药古籍可视化分析系统,根据用户输入信息反馈并展示可视化信息。
2.根据权利要求书1所述的基于知识图谱的中医药古籍可视分析方法,其特征在于,步骤S1具体包括:
S11、对古籍文本中的停用字、繁体字进行转换,然后将古籍按文本结构切分成语义关联的结构化、半结构化短句集;
S12、使用模板规则以及人工标注的方法对所述短句集进行处理,最终得到命名实体识别训练数据集和关系抽取训练数据集。
3.根据权利要求书1所述的基于知识图谱的中医药古籍可视分析方法,其特征在于,步骤S2具体包括:
S21、基于四库全书BERT、Bi-LSTM、CRF模型,搭建命名实体识别网络,并使用所述命名实体识别训练数据集对所述命名实体识别网络进行训练;
S22、基于四库全书BERT、增强PCNN模型,搭建关系抽取网络,并使用所述关系抽取训练数据集对所述关系抽取网络进行训练;
S23、使用所述命名实体识别网络和关系抽取网络对新输入的中医药古籍进行命名实体识别及关系抽取,分别得到实体集和RDF三元组;
S24、将所述实体集和RDF三元组存入Neo4j数据库,生成中医药古籍知识图谱。
4.根据权利要求书3所述的基于知识图谱的中医药古籍可视分析方法与系统,其特征在于,步骤S3具体包括:
S31、古籍知识图谱可视化:以不同类型的节点代表不同的实体,以边代表实体间的关系,将中医药古籍知识图谱进行可视化;
S32、症状聚类可视化:使用四库全书BERT模型对症状进行向量化,然后对向量进行降维和聚类,以散点图中的点表示症状、以颜色表示症状的类别,对古籍中的症状进行可视化;
S33、药材可视化:显示药材的形态、主治、性效、用法、功效,并对配伍药材的适应症进行统计,绘制出适应症比例;
S34、药方可视化:显示选中药方的文本,显示药材关联性分析的结果,以词云可视化药方中的药材词频。
5.根据权利要求书1所述的基于知识图谱的中医药古籍可视分析方法,其特征在于,步骤S4具体包括:
S41、对用户导入的中医药古籍进行古籍知识图谱生成;
S42、基于用户输入的查询症状和阈值,使用四库全书BERT模型对输入进行向量化,通过相似度计算,搜索相似度大于阈值的症状,将搜索结果通过柱状图和症状聚类视图进行显示;
S43、基于用户在症状聚类视图中圈选的症状点,在Neo4j数据库中查询相关的症状、药方、药材实体,以及实体之间关系,在知识图谱视图中进行显示,并在药方视图中显示知识图谱中对应的药方;
S44、基于药方视图中的药方,对所有药方中的药材进行关联性分析,计算并展示关联关系、支持度和置信度;
S44、在实体融合中,基于用户设置的实体相似性过滤阈值,对症状进行相似度计算,将大于过滤阈值的症状进行连接;根据用户选择的症状实体与设置的实体重命名,系统对的选中的症状实体进行融合,并对数据库中的信息进行相应地更新;
S45、基于用户对知识图谱进行的增、删、改,系统对数据库中的信息进行相应地更新;
S46、基于用户输入的药材描述,系统使用四库全书BERT模型对输入进行向量化,通过相似度计算,输出最佳匹配的药材,在药材视图显示。
6.一种基于知识图谱的中医药古籍可视分析系统,用于实现如权利要求1-5任一项所述的方法,其特征在于,包括:
中医药古籍可视化分析系统,其包括实体识别模块、关系抽取模块、实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块以及负载均衡模块;
以及人机交互前端;
其中,所述实体识别模块和关系抽取模块部署于异构计算的GPU计算型服务器节点下,实体融合模块、图数据库存储模块、聚类分析模块、可视化计算模块、模糊搜索模块、相似度计算模块、负载均衡模块部署于云服务器节点;人机交互前端配置可视化交互页面,用于提供可视化服务。
7.根据权利要求书6所述的基于知识图谱的中医药古籍可视分析系统,其特征在于:所述中医药古籍可视化分析系统的各个模块部署于不同的计算集群并发执行,并监控微服务状态。
CN202310358357.6A 2023-04-03 2023-04-03 一种基于知识图谱的中医药古籍可视分析方法与系统 Active CN116340544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310358357.6A CN116340544B (zh) 2023-04-03 2023-04-03 一种基于知识图谱的中医药古籍可视分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310358357.6A CN116340544B (zh) 2023-04-03 2023-04-03 一种基于知识图谱的中医药古籍可视分析方法与系统

Publications (2)

Publication Number Publication Date
CN116340544A true CN116340544A (zh) 2023-06-27
CN116340544B CN116340544B (zh) 2024-02-23

Family

ID=86894799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310358357.6A Active CN116340544B (zh) 2023-04-03 2023-04-03 一种基于知识图谱的中医药古籍可视分析方法与系统

Country Status (1)

Country Link
CN (1) CN116340544B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271796A (zh) * 2023-09-20 2023-12-22 南京大经中医药信息技术有限公司 一种中医典籍知识库反馈修正方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350144A1 (en) * 2018-07-27 2018-12-06 Yogesh Rathod Generating, recording, simulating, displaying and sharing user related real world activities, actions, events, participations, transactions, status, experience, expressions, scenes, sharing, interactions with entities and associated plurality types of data in virtual world
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN111046272A (zh) * 2019-10-31 2020-04-21 九次方大数据信息集团有限公司 一种基于医疗知识图谱的智能问答系统
CN112735556A (zh) * 2019-10-28 2021-04-30 北京中医药大学 一种用于诊治失眠病症的中医古籍数据处理方法
CN113488188A (zh) * 2021-08-03 2021-10-08 浙江中医药大学 中医经方古籍知识图谱构建及证候挖掘系统
CN114860901A (zh) * 2022-04-19 2022-08-05 上海安艺网络科技有限公司 一种基于古籍信息的知识图谱构建方法及问答系统
CN115148325A (zh) * 2022-06-28 2022-10-04 北京京东拓先科技有限公司 处方信息处理方法、装置、设备和计算机可读介质
CN115186068A (zh) * 2022-07-22 2022-10-14 平安科技(深圳)有限公司 基于知识图谱的症状问答方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350144A1 (en) * 2018-07-27 2018-12-06 Yogesh Rathod Generating, recording, simulating, displaying and sharing user related real world activities, actions, events, participations, transactions, status, experience, expressions, scenes, sharing, interactions with entities and associated plurality types of data in virtual world
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN112735556A (zh) * 2019-10-28 2021-04-30 北京中医药大学 一种用于诊治失眠病症的中医古籍数据处理方法
CN111046272A (zh) * 2019-10-31 2020-04-21 九次方大数据信息集团有限公司 一种基于医疗知识图谱的智能问答系统
CN113488188A (zh) * 2021-08-03 2021-10-08 浙江中医药大学 中医经方古籍知识图谱构建及证候挖掘系统
CN114860901A (zh) * 2022-04-19 2022-08-05 上海安艺网络科技有限公司 一种基于古籍信息的知识图谱构建方法及问答系统
CN115148325A (zh) * 2022-06-28 2022-10-04 北京京东拓先科技有限公司 处方信息处理方法、装置、设备和计算机可读介质
CN115186068A (zh) * 2022-07-22 2022-10-14 平安科技(深圳)有限公司 基于知识图谱的症状问答方法、装置、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YU-SHENG SU等: "A Finger-Worn Device for Exploring Chinese Printed Text With Using CNN Algorithm on a Micro IoT Processor", 《IEEE ACCESS 》, vol. 7, pages 116529 - 116541, XP011742792, DOI: 10.1109/ACCESS.2019.2936143 *
叶斌等: "基于古籍胸痹病机的知识图谱研究", 《亚太传统医药》, vol. 16, no. 07, pages 153 - 155 *
吴泓嘉: "突发性重大传染病的数据分析与建模研究", 《中国优秀硕士学位论文全文数据库》, pages 002 - 228 *
王勇超等: "知识图谱可视化综述", 《计算机辅助设计与图形学学报》, vol. 31, no. 10, pages 1666 - 1676 *
陈程等: "基于中医药知识图谱的智能问答技术研究", 《中国新通信》, vol. 20, no. 02, pages 204 - 207 *
陶雨彤等: "中医药知识图谱的构建与应用探讨", 《北京中医药》, vol. 41, no. 12, pages 1387 - 1392 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271796A (zh) * 2023-09-20 2023-12-22 南京大经中医药信息技术有限公司 一种中医典籍知识库反馈修正方法及系统
CN117271796B (zh) * 2023-09-20 2024-03-15 南京大经中医药信息技术有限公司 一种中医典籍知识库反馈修正方法及系统

Also Published As

Publication number Publication date
CN116340544B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN109299472B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111259653B (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
Qiu et al. Geoscience keyphrase extraction algorithm using enhanced word embedding
CN110121705A (zh) 将语用学原理应用于与可视分析交互的系统和方法
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
CN110612522B (zh) 实体模型的建立
CN111191048A (zh) 基于知识图谱的急诊问答系统构建方法
US11250212B2 (en) System and method for interpreting contextual meaning of data
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN113764112A (zh) 一种在线医疗问答方法
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
Dessì et al. A recommender system of medical reports leveraging cognitive computing and frame semantics
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN116340544B (zh) 一种基于知识图谱的中医药古籍可视分析方法与系统
Liu et al. A parallel computing-based deep attention model for named entity recognition
CN114153994A (zh) 医保信息问答方法及装置
Luo et al. nvBench: A large-scale synthesized dataset for cross-domain natural language to visualization task
Suresh et al. Data mining and text mining—a survey
Hong et al. BioPREP: deep learning-based predicate classification with SemMedDB
CN112084312A (zh) 一种基于知识图构建的智能客服系统
KR102198780B1 (ko) 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법
EP3443480A1 (en) Proximity search and navigation for functional information systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant