CN117408338B - 基于中国药典的中药饮片知识图谱的构建方法和系统 - Google Patents
基于中国药典的中药饮片知识图谱的构建方法和系统 Download PDFInfo
- Publication number
- CN117408338B CN117408338B CN202311719985.9A CN202311719985A CN117408338B CN 117408338 B CN117408338 B CN 117408338B CN 202311719985 A CN202311719985 A CN 202311719985A CN 117408338 B CN117408338 B CN 117408338B
- Authority
- CN
- China
- Prior art keywords
- information
- chinese medicine
- traditional chinese
- instance
- medicine decoction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010276 construction Methods 0.000 claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 239000000796 flavoring agent Substances 0.000 claims description 14
- 208000024891 symptom Diseases 0.000 claims description 13
- 238000003306 harvesting Methods 0.000 claims description 9
- 235000019634 flavors Nutrition 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 230000010415 tropism Effects 0.000 claims description 7
- 210000004072 lung Anatomy 0.000 claims description 6
- 239000004480 active ingredient Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000001988 toxicity Effects 0.000 claims description 5
- 231100000419 toxicity Toxicity 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 4
- 206010020772 Hypertension Diseases 0.000 claims description 3
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 210000000952 spleen Anatomy 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract description 3
- 241000411851 herbal medicine Species 0.000 abstract description 3
- 238000005215 recombination Methods 0.000 abstract description 2
- 230000006798 recombination Effects 0.000 abstract description 2
- 206010062717 Increased upper airway secretion Diseases 0.000 description 6
- 208000033809 Suppuration Diseases 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 208000026435 phlegm Diseases 0.000 description 6
- 206010068319 Oropharyngeal pain Diseases 0.000 description 5
- 201000007100 Pharyngitis Diseases 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 208000011580 syndromic disease Diseases 0.000 description 4
- 206010008479 Chest Pain Diseases 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 3
- 206010013952 Dysphonia Diseases 0.000 description 3
- 208000010473 Hoarseness Diseases 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 201000003453 lung abscess Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 210000002216 heart Anatomy 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005906 menstruation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及基于中国药典的中药饮片知识图谱的构建方法和系统;该构建方法包括:从中国药典文献中获取中药饮片信息;获取中药饮片的属性信息和实例信息;构建实例节点集;构建中药饮片本体‑实例分类概念结构层次;构建属性关系;采用可视化的形式输出中药饮片知识图谱模型。本发明提供的图谱能够简洁地反映中药饮片的相关信息以及不同种类中药饮片之间的关联信息,便于深层次地了解中药中隐藏的知识,同时,将计算机领域先进的本体理念引入到中药知识研究中,构建中药饮片本体,能够实现中药饮片信息的知识化重组,进而为中药领域的数据挖掘和知识发现提供数据基础。
Description
技术领域
本发明涉及医学大数据图谱技术领域,尤其涉及基于中国药典的中药饮片知识图谱的构建方法和系统。
背景技术
目前关于中药饮片的大多数知识及数据均是以书本、期刊文献或在网络上以半结构化或非结构化形式存储,缺乏较为直观的数据存储形式,较难在普通数据库中看出某几种中药饮片之间包括成分、产地、功效、性味归经等方面的联系,针对具体的研究目标并没有达成一致的解决方案,导致当前研究结果存在一定的差异,这在一定程度上限制了中医药领域知识的推广和利用。开放领域知识图谱大多是大规模的百科类知识库,缺乏限定领域的高质量知识图谱,特别是在中医药领域,迫切地需要知识图谱建模的策略和技术来实现多学科的深度融合。
目前主流的图数据库有美国Neo technology机构开发的Neo4j数据库、微软公司开发的Graph Engine数据库、北京大学开发的gstore数据库等。其中,目前最常用的图数据库是Neo4j,该图数据库是一个成熟的高性能图引擎,支持分布式处理,同时对Java平台具有较好的兼容性,该引擎具有成熟数据库的所有基本特性。为此,本发明提供基于中国药典的中药饮片知识图谱的构建方法,基于Neo4j图数据库存储知识图谱三元组数据,以中药饮片作为研究对象,通过结构化、多模态的形式展示数据,能够更直观地掌握中药性质及功能主治间的关系,进而发现隐含的中药饮片用药规律和特征。
为此,本发明提供了基于中国药典的中药饮片知识图谱的构建方法和系统。
发明内容
基于此,有必要针对上述技术问题,提供基于中国药典的中药饮片知识图谱的构建方法和系统。
为了实现上述目的,本发明提供了基于中国药典的中药饮片知识图谱的构建方法,包括以下步骤:
从中国药典文献中获取中药饮片信息;
基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集;
通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;
基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;
将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
具体的,所述中国药典文献为2020年版《中国药典》(一部)。
具体的,所述中药饮片信息包括中药饮片名称、适应症、证候、治疗作用、炮制品、禁忌、归经、毒性、五味、四气、类别、科属、药用部位、采收时间、用药剂量、贮藏方式和活性成分。
具体的,所述基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息,包括:
基于文本信息分布特性,根据符号特征和/或换行符分界线特征和/或关键词形式特征,采用Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息。
具体的,所述通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,包括:
基于NLP技术,对中药饮片的实例信息进行语义分析,通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,其中,实例节点集包括中药性能类实例节点集、临床发现类实例节点集和限定值类实例节点集。
具体的,所述数据属性表示实例信息与参数之间的关系,所述对象属性表示两个实例信息之间的关系。
具体的,所述将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行搜索,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型,包括:
将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过Neo4j图数据库的查询语言Cypher构造查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
本发明还提供了基于中国药典的中药饮片知识图谱的构建系统,包括:
数据获取模块,用于从中国药典文献中获取中药饮片信息;
文本属性拆分模块,用于基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
实例节点集构建模块,用于通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集;
结构层次构建模块,用于通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;
属性关系构建模块,用于基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;
可视化模块,用于将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述构建方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述构建方法的步骤。
本发明的优点及有益效果在于:
本发明提供的基于中国药典的中药饮片知识图谱的构建方法和系统,该构建方法针对2020年版《中国药典》(一部)中的中药饮片信息进行分析和挖掘,提取得到用于构建中药饮片知识图谱模型的基础数据,通过对知识图谱模型中的顶层架构进行划分,得到知识图谱模型的层级架构和各级节点之间的关系,并存储于Neo4j图数据库中,利用Neo4j图数据库根据知识图谱模型的层级架构和各级节点之间的关系,构建基于2020年版《中国药典》(一部)的中药饮片知识图谱,该图谱能够简洁地反映中药饮片的相关信息以及不同种类中药饮片之间的关联信息,便于深层次地了解中药中隐藏的知识,同时,将计算机领域先进的本体理念引入到中药知识研究中,构建中药饮片本体,能够实现中药饮片信息的知识化重组,进而为中药领域的数据挖掘和知识发现提供数据基础。
附图说明
图1为基于中国药典的中药饮片知识图谱的构建方法的流程图;
图2为基于中国药典的中药饮片知识图谱的构建系统的结构示意图;
图3为电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
图1为本发明实施例一提供的基于中国药典的中药饮片知识图谱的构建方法的流程图。
参考图1,该构建方法主要包括以下步骤:
S1、从中国药典文献中获取中药饮片信息。
在本实施例中,中国药典文献为2020年版《中国药典》(一部)。
在本实施例中,在中药饮片信息获取过程中,本发明采用手工录入的方式获取2020年版《中国药典》(一部)的中药饮片信息,其中,中药饮片信息包括但不限于:中药饮片名称、汉语拼音、拉丁名、适应症、证候、治疗作用、炮制品、禁忌、归经、毒性、五味、四气、类别、科属、药用部位、采收时间、用药剂量、贮藏方式、活性成分等。
S2、基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息。
在本实施例中,基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息,包括:
基于文本信息分布特性,根据符号特征和/或换行符分界线特征和/或关键词形式特征,采用Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息,例如中药饮片的名称、基源、性味归经、主治、用量、毒性等。
应当理解的是,文本信息分布特性取决于《中国药典》(一部)中涉及的中药饮片的正文内容,例如在《中国药典》(一部)中涉及的中药饮片的正文内容是按照药物自身的理化与生物学特性、来源以及贮藏等顺序进行设定的,属性信息之间具有明确的符号特征和/或换行符分界线特征,便于采用Excel文本分列技术对中药饮片信息中所包含的文本信息进行分列。
在本实施例中,例如每一种中药饮片的药品名称、性味归经、基源以及功能主治等内容均采用半结构化格式进行撰写,整体格式较为固定统一,句式具有明显的标志,如语句开头具有“【】”、“。”、“、”等符号特征,语句中具有“用于”、“归...经”等关键词形式可用于确定属性名称的位置切点。
在本实施例中,例如:包含有【功能主治】类的药典原文,其中,药典原文为:“宣肺,利咽,祛痰,排脓。用于咳嗽痰多,胸闷不畅,咽痛音哑,肺痈吐脓”,句号前面的内容属于中医治法属性信息,具体为:宣肺,利咽,祛痰,排脓,然后按照逗号分割得到“宣肺/利咽/祛痰/排脓”四个中医治法关系对应的实例信息;句号后面的内容属于中医疾病属性信息,具体为:咳嗽痰多,胸闷不畅,咽痛音哑,肺痈吐脓,然后按照逗号和关键词形式(如“用于”)分割得到“咳嗽痰多/胸闷不畅/咽痛音哑/肺痈吐脓”四组中医疾病关系对应的实例信息。
在本实施例中,例如:包含有【性味与归经】类的药典原文,其中,药典原文为:“咸,寒。归肝、心、肾经”,句号前面的内容属于四气五味属性信息,具体为:咸,寒,按照逗号分割,前面是五味,可以得到“咸”这个五味关系对应的实例信息和“寒”这个四气关系对应的实例信息;句号后面的内容属于归经,具体为:归肝、心、肾经,按照顿号分列,可以得到“肝/心/肾”三个归经关系对应的实例信息。
S3、通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集。
在本实施例中,通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,包括:
基于NLP技术,对中药饮片的实例信息进行语义分析,通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,其中,实例节点集包括中药性能类实例节点集、临床发现类实例节点集和限定值类实例节点集。
应当理解的是,实例信息是各类别概念的具体说明,是本体中最具体的存在,基于NLP技术,对中药饮片的实例信息进行语义分析,参考SNOMED CT概念模型构建实例节点集,将获取的实例信息通过Protégé批量上传添加至不同实例节点集中,各类别概念的部分实例设计如下:
(1)中药性能类实例节点集包括但不限于:四气的实例信息、五味的实例信息等,其中,四气的实例信息包括但不限于:热、寒、温等,五味的实例信息包括但不限于:甘、苦、咸等。
(2)临床发现类实例节点集包括但不限于:中医证候的实例信息、中医疾病的实例信息等,其中,中医证候的实例信息包括但不限于:肺热证、脾虚证等;中医疾病的实例信息包括但不限于:感冒、高血压等。
(3)限定值类实例节点集包括但不限于:采收时间的实例信息等,其中,采收时间的实例信息包括但不限于:春、夏、冬等。
S4、通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次。
应当理解的是,SNOMED CT概念模型具体为使用一组规则定义SNOMED CT中的概念,这些规则列出了允许的属性集和可应用于每种概念的值。《中国药典》(一部)中涉及的中药饮片的顶层概念分类可参考SNOMED CT概念模型,采用自上而下的方式按照具体的从属关系进行概念的层次划分。
S5、基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系。
在本实施例中,此处涉及的文本信息分布特性与前述步骤S2中的文本信息分布特性相同,在此不再进行赘述。
在本实施例中,对象属性表示属性值对应的概念或实例信息,用于描述两个实例信息之间的关系;以中药饮片“桔梗”举例,其对象属性关系有适应症、四气、五味、归经、治法、采收季节、证候、活性成分、用药剂量等。
在本实施例中,数据属性表示属性值对应的具体值(即具体的参数),用于描述实例信息与参数之间的关系;以中药饮片“桔梗”举例,其数据属性关系有汉语拼音、拉丁名以及药典页码。
S6、将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
在本实施例中,将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行搜索,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型,包括:
将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过Neo4j图数据库的查询语言Cypher构造查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
在本实施例中,符合条件的中药饮片知识图谱模型本质上是一种图数据,具有多种存储方式,本发明选取Neo4j图数据库作为知识存储方式,将Protégé中的属性关系和实例信息以RDF的存储格式导入Neo4j图数据库后,能够以可视化的形式展示2020年版《中国药典》(一部)中的中药饮片基础知识和用药规律指导;随后利用查询语言Cypher构造查询条件进行查询,便于后续查询操作,该查询语言Cypher构造的查询条件类似于SQL语句方式,进而可以得到各个实例信息及其之间的关系。
本实施例提供的基于中国药典的中药饮片知识图谱的构建方法,包括:从中国药典文献中获取中药饮片信息;基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集;通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型;该实施方法针对2020年版《中国药典》(一部)中的中药饮片信息进行分析和挖掘,提取得到用于构建中药饮片知识图谱模型的基础数据,通过对知识图谱模型中的顶层架构进行划分,得到知识图谱模型的层级架构和各级节点之间的关系,并存储于Neo4j图数据库中,利用Neo4j图数据库根据知识图谱模型的层级架构和各级节点之间的关系,构建基于2020年版《中国药典》(一部)的中药饮片知识图谱,该图谱能够简洁地反映中药饮片的相关信息以及不同种类中药饮片之间的关联信息,便于深层次地了解中药中隐藏的知识,同时,将计算机领域先进的本体理念引入到中药知识研究中,构建中药饮片本体,能够实现中药饮片信息的知识化重组,进而为中药领域的数据挖掘和知识发现提供数据基础。
实施例二
本实施例在上述实施例一的基础上,提供基于中国药典的中药饮片知识图谱的构建系统200,请参见图2,用于实现上述实施例一所述的基于中国药典的中药饮片知识图谱的构建方法的步骤,该系统200主要包括:数据获取模块210、文本属性拆分模块220、实例节点集构建模块230、结构层次构建模块240、属性关系构建模块250以及可视化模块260,其中,
数据获取模块210,用于从中国药典文献中获取中药饮片信息;
文本属性拆分模块220,用于基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
实例节点集构建模块230,用于通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集;
结构层次构建模块240,用于通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;
属性关系构建模块250,用于基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;
可视化模块260,用于将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
实施例三
本实施例在上述实施例一的基础上,还提供一种电子设备,请参见附图3,图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头等的输入装置306,包括例如液晶显示器(LCD)、扬声器等的输出装置307,包括例如磁带、硬盘等的存储装置308,以及通信装置309。通信装置309可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
实施例四
本实施例在上述实施例一的基础上,还提供计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述构建方法的步骤。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在本实施例中,客户端、服务器可以利用诸如HTTP(HyperTextTransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述装置中所包含的,也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取训练数据,将上述训练数据进行转化得到初始数据;基于上述初始数据确定初始规则库,并对上述初始规则库进行参数优化得到目标规则库;根据预设激活权重计算公式对上述目标规则库中的规则进行计算得到激活权重;根据测试数据和上述激活权重,确定异常信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取单元、规则确定单元权重计算单元和异常确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据获取单元还可以被描述为“获取训练数据的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
显然,本领域的技术人员应该明白,上述本发明的各步骤实施方式可以以不同于本发明的方式执行,模拟方法及实验设备包括但不限于上述说明。上述本发明的各步骤在某些情况下可以以不同于此处的顺序执行,上述所示或描述的步骤,可将它们分开执行。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.基于中国药典的中药饮片知识图谱的构建方法,其特征在于,包括以下步骤:
从中国药典文献中获取中药饮片信息;所述中国药典文献为2020年版《中国药典》(一部);采用手工录入的方式获取2020年版《中国药典》(一部)的中药饮片信息;所述中药饮片信息包括中药饮片名称、适应症、证候、治疗作用、炮制品、禁忌、归经、毒性、五味、四气、类别、科属、药用部位、采收时间、用药剂量、贮藏方式和活性成分;
基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
所述基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息,包括:
基于文本信息分布特性,根据符号特征和/或换行符分界线特征和/或关键词形式特征,采用Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
其中,文本信息分布特性由2020年版《中国药典》(一部)中涉及的中药饮片的正文内容决定,在2020年版《中国药典》(一部)中涉及的中药饮片的正文内容是按照药物自身的理化与生物学特性、来源以及贮藏顺序进行设定的,属性信息之间具有符号特征和/或换行符分界线特征;
通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集;
所述通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,包括:
基于NLP技术,对中药饮片的实例信息进行语义分析,通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,其中,实例节点集包括中药性能类实例节点集、临床发现类实例节点集和限定值类实例节点集;
中药性能类实例节点集包括四气的实例信息和五味的实例信息,其中,四气的实例信息包括热、寒和温,五味的实例信息包括甘、苦和咸;
临床发现类实例节点集包括中医证候的实例信息和中医疾病的实例信息,其中,中医证候的实例信息包括肺热证和脾虚证;中医疾病的实例信息包括感冒和高血压;
限定值类实例节点集包括采收时间的实例信息,其中,采收时间的实例信息包括春、夏和冬;
通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;
基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;
将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
2.根据权利要求1所述的基于中国药典的中药饮片知识图谱的构建方法,其特征在于,所述数据属性表示实例信息与参数之间的关系,所述对象属性表示两个实例信息之间的关系。
3.根据权利要求1所述的基于中国药典的中药饮片知识图谱的构建方法,其特征在于,所述将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行搜索,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型,包括:
将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过Neo4j图数据库的查询语言Cypher构造查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
4.基于中国药典的中药饮片知识图谱的构建系统,其特征在于,包括:
数据获取模块,用于从中国药典文献中获取中药饮片信息;采用手工录入的方式获取2020年版《中国药典》(一部)的中药饮片信息;所述中药饮片信息包括中药饮片名称、适应症、证候、治疗作用、炮制品、禁忌、归经、毒性、五味、四气、类别、科属、药用部位、采收时间、用药剂量、贮藏方式和活性成分;
文本属性拆分模块,用于基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
所述基于文本信息分布特性,通过Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息,包括:
基于文本信息分布特性,根据符号特征和/或换行符分界线特征和/或关键词形式特征,采用Excel文本分列技术对中药饮片信息中所包含的文本信息进行文本属性拆分,获取中药饮片的属性信息和实例信息;
其中,文本信息分布特性由2020年版《中国药典》(一部)中涉及的中药饮片的正文内容决定,在2020年版《中国药典》(一部)中涉及的中药饮片的正文内容是按照药物自身的理化与生物学特性、来源以及贮藏顺序进行设定的,属性信息之间具有符号特征和/或换行符分界线特征;
实例节点集构建模块,用于通过Protégé工具加载中药饮片的实例信息,参考SNOMEDCT概念模型构建实例节点集;
所述通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,包括:
基于NLP技术,对中药饮片的实例信息进行语义分析,通过Protégé工具加载中药饮片的实例信息,参考SNOMED CT概念模型构建实例节点集,其中,实例节点集包括中药性能类实例节点集、临床发现类实例节点集和限定值类实例节点集;
中药性能类实例节点集包括四气的实例信息和五味的实例信息,其中,四气的实例信息包括热、寒和温,五味的实例信息包括甘、苦和咸;
临床发现类实例节点集包括中医证候的实例信息和中医疾病的实例信息,其中,中医证候的实例信息包括肺热证和脾虚证;中医疾病的实例信息包括感冒和高血压;
限定值类实例节点集包括采收时间的实例信息,其中,采收时间的实例信息包括春、夏和冬;
结构层次构建模块,用于通过Protégé工具参考SNOMED CT概念模型构建中药饮片本体-实例分类概念结构层次;
属性关系构建模块,用于基于文本信息分布特性,加载中药饮片的实例信息中所包含的数据属性和对象属性,构建属性关系;
可视化模块,用于将Protégé工具中的实例信息和属性关系存储到Neo4j图数据库中,通过在Neo4j图数据库中输入查询条件进行查询,得到符合条件的中药饮片知识图谱模型,并采用可视化的形式输出中药饮片知识图谱模型。
5.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述构建方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311719985.9A CN117408338B (zh) | 2023-12-14 | 2023-12-14 | 基于中国药典的中药饮片知识图谱的构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311719985.9A CN117408338B (zh) | 2023-12-14 | 2023-12-14 | 基于中国药典的中药饮片知识图谱的构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117408338A CN117408338A (zh) | 2024-01-16 |
CN117408338B true CN117408338B (zh) | 2024-03-12 |
Family
ID=89489438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311719985.9A Active CN117408338B (zh) | 2023-12-14 | 2023-12-14 | 基于中国药典的中药饮片知识图谱的构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408338B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133861A (zh) * | 2014-07-16 | 2014-11-05 | 华南理工大学 | 一种智能解析excel格式国际机票运价单的方法 |
CN105320806A (zh) * | 2015-08-21 | 2016-02-10 | 中国核电工程有限公司 | PML结合Excel-VBA处理数据汇总核电工艺管道材料的方法 |
CN108694177A (zh) * | 2017-04-06 | 2018-10-23 | 北大方正集团有限公司 | 知识图谱构建方法及系统 |
CN108717422A (zh) * | 2018-04-23 | 2018-10-30 | 中国水产科学研究院渔业工程研究所 | 一种数据处理方法及装置 |
CN112464632A (zh) * | 2020-11-27 | 2021-03-09 | 四川科瑞软件有限责任公司 | 一种excel报表下的表格样式动态存储及转化方法 |
CN112635078A (zh) * | 2020-11-06 | 2021-04-09 | 辽宁工程技术大学 | 一种中医药知识图谱构建与可视化方法 |
CN113779265A (zh) * | 2021-09-06 | 2021-12-10 | 北京交通大学 | 药症关系网络构建与概念映射方法及系统 |
CN115270776A (zh) * | 2022-08-30 | 2022-11-01 | 陕西师范大学 | 一种领域知识库中的概念自动获取方法、系统、装置及介质 |
CN115618005A (zh) * | 2021-07-16 | 2023-01-17 | 中国传媒大学 | 一种传统藏医药知识图谱构建和补全方法 |
CN116092697A (zh) * | 2022-10-19 | 2023-05-09 | 北京邮电大学 | 基于三层超关系知识图谱模型的药物推荐方法及装置 |
CN116805013A (zh) * | 2023-06-27 | 2023-09-26 | 广州中医药大学(广州中医药研究院) | 一种基于知识图谱的中医药视频检索模型 |
CN117094393A (zh) * | 2023-09-11 | 2023-11-21 | 中国人民大学 | 一种本草纲目草部知识图谱的构建方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130096944A1 (en) * | 2011-10-13 | 2013-04-18 | The Board of Trustees of the Leland Stanford, Junior, University | Method and System for Ontology Based Analytics |
CN109522538B (zh) * | 2018-11-28 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 表格内容的自动分列方法、装置、设备及存储介质 |
WO2022087688A1 (en) * | 2020-11-02 | 2022-05-05 | The University Of Melbourne | System and method for text mining |
EP4068168A1 (en) * | 2021-03-29 | 2022-10-05 | Siemens Healthcare GmbH | System and methods for knowledge representation and reasoning in clinical procedures |
-
2023
- 2023-12-14 CN CN202311719985.9A patent/CN117408338B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133861A (zh) * | 2014-07-16 | 2014-11-05 | 华南理工大学 | 一种智能解析excel格式国际机票运价单的方法 |
CN105320806A (zh) * | 2015-08-21 | 2016-02-10 | 中国核电工程有限公司 | PML结合Excel-VBA处理数据汇总核电工艺管道材料的方法 |
CN108694177A (zh) * | 2017-04-06 | 2018-10-23 | 北大方正集团有限公司 | 知识图谱构建方法及系统 |
CN108717422A (zh) * | 2018-04-23 | 2018-10-30 | 中国水产科学研究院渔业工程研究所 | 一种数据处理方法及装置 |
CN112635078A (zh) * | 2020-11-06 | 2021-04-09 | 辽宁工程技术大学 | 一种中医药知识图谱构建与可视化方法 |
CN112464632A (zh) * | 2020-11-27 | 2021-03-09 | 四川科瑞软件有限责任公司 | 一种excel报表下的表格样式动态存储及转化方法 |
CN115618005A (zh) * | 2021-07-16 | 2023-01-17 | 中国传媒大学 | 一种传统藏医药知识图谱构建和补全方法 |
CN113779265A (zh) * | 2021-09-06 | 2021-12-10 | 北京交通大学 | 药症关系网络构建与概念映射方法及系统 |
CN115270776A (zh) * | 2022-08-30 | 2022-11-01 | 陕西师范大学 | 一种领域知识库中的概念自动获取方法、系统、装置及介质 |
CN116092697A (zh) * | 2022-10-19 | 2023-05-09 | 北京邮电大学 | 基于三层超关系知识图谱模型的药物推荐方法及装置 |
CN116805013A (zh) * | 2023-06-27 | 2023-09-26 | 广州中医药大学(广州中医药研究院) | 一种基于知识图谱的中医药视频检索模型 |
CN117094393A (zh) * | 2023-09-11 | 2023-11-21 | 中国人民大学 | 一种本草纲目草部知识图谱的构建方法及系统 |
Non-Patent Citations (4)
Title |
---|
Characteristics of Open Data CSV Files;Johann Mitlöhner et.al;《2016 2nd International Conference on Open and Big Data (OBD)》;20160922;1-9 * |
中医类流感知识图谱的构建;赵燕华 等;《 中华医学图书情报杂志》;20211201;第30卷(第5期);24-30 * |
国医大师周仲瑛辨治肺癌的中医药本体构建研究;王松 等;《 世界科学技术-中医药现代化》;20220601;第24卷(第2期);495-501 * |
基于本草纲目的中药知识图谱构建及应用研究;吴鸿;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20210215;第19-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117408338A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020147758A1 (zh) | 药品的推荐方法、装置、介质和电子设备 | |
CN108694177B (zh) | 知识图谱构建方法及系统 | |
Rovira et al. | Language bias in the Google Scholar ranking algorithm | |
Liu et al. | Author name disambiguation for p ub m ed | |
US11735320B2 (en) | Dynamic creation and manipulation of data visualizations | |
Uddin et al. | A framework to explore the knowledge structure of multidisciplinary research fields | |
CN111046272A (zh) | 一种基于医疗知识图谱的智能问答系统 | |
Vasconcellos-Silva et al. | Word frequency and content analysis approach to identify demand patterns in a virtual community of carriers of hepatitis C | |
Pan et al. | Using PhenX measures to identify opportunities for cross‐study analysis | |
US20180067986A1 (en) | Database model with improved storage and search string generation techniques | |
Unal et al. | Mapping the evidence‐based practice research field in nursing from 1995 to 2021: A bibliometric analysis | |
Zhang et al. | Data integration through ontology-based data access to support integrative data analysis: A case study of cancer survival | |
Kejriwal et al. | myDIG: Personalized illicit domain-specific knowledge discovery with no programming | |
CN116541411A (zh) | Sql语句获取方法、报表生成方法、装置、计算机设备及存储介质置 | |
Maghawry et al. | An automatic generation of heterogeneous knowledge graph for global disease support: A demonstration of a cancer use case | |
Sharma et al. | Subset, subquery and queryable-visualization in parametric big data model | |
Hazboun et al. | A Natural Language Interface to Relational Databases Using an Online Analytic Processing Hypercube | |
Ait-Mlouk et al. | Winfra: A web-based platform for semantic data retrieval and data analytics | |
Houssein et al. | Semantic protocol and resource description framework query language: a comprehensive review | |
CN118051598A (zh) | 药品知识问答方法、装置、电子设备及存储介质 | |
Zhao et al. | The construction of a TCM knowledge graph and application of potential knowledge discovery in diabetic kidney disease by integrating diagnosis and treatment guidelines and real-world clinical data | |
CN117408338B (zh) | 基于中国药典的中药饮片知识图谱的构建方法和系统 | |
Guendelman et al. | Exploring Google searches for out-of-clinic medication abortion in the United States during 2020: infodemiology approach using multiple samples | |
Fan et al. | EARS-DM: efficient auto correction retrieval scheme for data management in edge computing | |
Zheng et al. | COVID19-OBKG: an ontology-based knowledge graph and web service for COVID-19 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |