CN118210960B - 天然药材专域知识库的构建和使用方法 - Google Patents
天然药材专域知识库的构建和使用方法 Download PDFInfo
- Publication number
- CN118210960B CN118210960B CN202311710143.7A CN202311710143A CN118210960B CN 118210960 B CN118210960 B CN 118210960B CN 202311710143 A CN202311710143 A CN 202311710143A CN 118210960 B CN118210960 B CN 118210960B
- Authority
- CN
- China
- Prior art keywords
- medicinal material
- natural medicinal
- natural
- naming
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medicines Containing Plant Substances (AREA)
Abstract
本申请涉及一种天然药材专域知识库的构建和使用方法,包括基于各种天然药材的包括物种基源、药用部位和炮制方法在内的元素条目,经由人工录入或通过天然药材系统命名算法,来生成各种天然药材的天然药材系统命名,使得所述天然药材系统命名符合自定义天然药材系统命名规则,所述自定义天然药物系统命名规则至少要求天然药材系统命名体现该天然药材的物种基源、药用部位连同炮制方法;构建各种天然药材的结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本,由此生成天然药材专域知识库,并基于用户操作信息呈现天然药材专域知识库中与用户需求相匹配的内容。
Description
技术领域
本申请涉及天然药材信息处理与应用领域,尤其涉及一种天然药材专域知识库的构建和使用方法
背景技术
天然药材 (Natural Medicinal Material,NMM) 长期以来被公认为是一种强有力的治疗剂库,其重要性体现在它们所产生的化合物的多样性和生物学相关性上。这些化合物在应对各种病理条件方面起着关键作用,涵盖了从传染病到癌症的广泛范围,并继续作为新药物先导的丰富来源。此外,天然药材在全球范围内,如中国、印度和阿拉伯地区,都有着广泛的临床应用历史,证明了它们在全球医疗保健格局中持久的相关性。尽管它们对医疗保健做出了重大贡献,但由于天然药材自身的复杂性,例如即使物种基源和药用部位均相同,仅炮制方法不同,实际上也对应于不同的天然药材,然而由于其在名称上通常不进行严谨的区分,相应地,天然药材的相关的知识也未能按照与《中国药典(当前施行版本)》相一致的严谨的方式对应存储,因此当利用传统的互联网检索工具,或在现有的数据库中进行信息检索时,往往无法容易而精确地获取天然药材专业领域的准确、标准化且全面的专域知识。
在一些情况下,由于知识的混淆和不完整,还可能使检索者建立错误的认知,例如考虑术语“麻黄”,当试图利用互联网获取该术语的英文翻译,可能得到“Ma Huang”、“Ephedra”或“Ephedrae Herba”的翻译结果。然而,在《中国药典(2020年版)》中详细记载了术语“麻黄”是指源自几个不同物种的天然药材,具体包括Ephedra sinica(植物草麻黄)、Ephedra intermedia(植物中麻黄)或Ephedra equisetina(植物木贼麻黄)。尽管药典中有这种分类的变化,但现行的命名惯例往往倾向于将这些不同的物种归为“麻黄”的统称,因此其对应的英文翻译也未能体现这三种不同的“麻黄”。类似这种术语的不清晰、不精确所导致的知识获取不正确或不精确,对科学研究造成了很大的障碍,也必然会损害学术结论的可靠性和有效性,甚至阻碍该领域的研究进展。
目前现有技术中尚未发现能够对不同种类的天然药材进行系统化和标准化的命名,也未发现存储有标准化的天然药材知识的专域知识库,以及使得用户能够利用该专域知识库满足其准确而高效地获取天然药材领域相关知识的多角度、全方位的需求的方法。
发明内容
提供了本申请以解决现有技术中存在的上述问题。
需要一种天然药材专域知识库的构建和使用方法,能够更明确地区分不同种类的天然药材,并将天然药材专域知识进行标准化、结构化的存储,从而使得所构建的天然药材专域知识库能够从多种途径、多种应用角度、全方位地以更高的效率和准确度来满足使用者获取天然药材专域知识的需求。
根据本申请的第一方案,提供一种天然药材专域知识库的构建和使用方法,包括如下步骤:基于各种天然药材的包括物种基源、药用部位和炮制方法在内的元素条目,经由人工录入或通过天然药材系统命名算法,来生成各种天然药材的天然药材系统命名,使得所述然药材系统命名符合自定义天然药材系统命名规则,所述自定义天然药物系统命名规则至少要求天然药材系统命名体现该天然药材的物种基源、药用部位连同炮制方法;构建各种天然药材的结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本;基于所生成的各种天然药材的天然药材系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本,生成所述天然药材专域知识库;以及获取定义目标天然药材和使用需求的用户操作信息,以关联的方式呈现该目标天然药材的天然药材系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本中与所述使用需求匹配的内容。
根据本申请实施例的天然药材专域知识库的构建和使用方法,通过定义天然药材系统命名规则,并且在该规则的约束下生成的天然药材系统命名能够以更加标准化、结构化的方式体现该天然药材的物种基源、药用部位连同炮制方法等元素,因而能够更明确、更清晰、更可靠地以一致的标准区分不同种类的天然药材,同时,所构建的天然药材专域知识库中还存储有结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本等多种数据集,从而使得该天然药材专域知识库能够从多种途径、多种应用角度、全方位地以更便捷、更高效、更精准、更智能的方式满足使用者获取天然药材专域知识的需求,一定程度上打破了天然药材专域知识获取、学习和应用等方面的壁垒,能够显著促进天然药材专域知识的标准化管理和创新应用,进而助益天然药材学术研究、新药研发、临床应用和国际交流等方面的进展。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出根据本申请实施例的天然药材专域知识库的构建和使用方法的流程示意图。
图2(a)示出根据本申请实施例的农产天然药材的天然药材系统命名示例。
图2(b)示出根据本申请实施例的炮制天然药材的天然药材系统命名示例。
图2(c)示出根据本申请实施例的天然药材系统名的命名元素示意图。
图2(d)示出根据本申请实施例的ANMM和PNMM的天然药材系统名和天然药材通用名的命名示例。
图3(a)示出根据本申请实施例的用于构造天然药材系统命名的交互界面示意图。
图3(b)示出根据本申请实施例的用于构造天然药材系统命名的另一交互界面示意图。
图3(c)示出根据本申请实施例的带有知识页面摘要的交互界面示意图。
图3(d)示出根据本申请实施例的带有需注意项的交互界面示意图。
具体实施方式
为使本领域技术人员更好地理解本申请的技术方案,下面结合附图和具体实施方式对本申请作详细说明。下面结合附图和具体实施例对本申请的实施例作进一步详细描述,但不作为对本申请的限定。
本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。本申请中结合附图所描述的方法中各个步骤的执行顺序并不作为限定。只要不影响各个步骤之间的逻辑关系,可以将数个步骤整合为单个步骤,可以将单个步骤分解为多个步骤,也可以按照具体需求调换各个步骤的执行次序。
还应理解,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出根据本申请实施例的天然药材专域知识库的构建和使用方法的流程示意图。如图1所示,可以按照步骤101-步骤104来构建并使用天然药材专域知识库。
在步骤101中,首先可以基于各种天然药材的包括物种基源、药用部位和炮制方法在内的元素条目,经由人工录入或通过天然药材系统命名算法,来生成各种天然药材的系统命名(Systematic Nomenclature for Natural Medicinal Materials,SNNMM),使得各种天然药材的系统命名符合自定义天然药材系统命名规则,所述自定义天然药物系统命名规则至少要求天然药材的系统命名体现该天然药材的物种基源、药用部位连同炮制方法。
值得注意的是,在本申请中将天然药材划分为三个不同的类别,即:
原始天然药材(Raw NMM,RNMM):RNMM是指未经处理的NMM。当提及基于物种的天然药材时,RNMM指的是其天然状态下的物种。
农产NMM(Agricultural NMM,ANMM):这些NMM源自对RNMM的初级产地加工。ANMM通常作为农产品进行监管,而并不用于直接的临床使用、制剂生产或作为直接的用药成分。
炮制NMM(Processed NMM,PNMM):PNMM是在对ANMM进行特定炮制后得到的最终产品,通常作为药品进行监管。经批准后,PNMM有资格用于临床使用、制剂开发或作为用药成分。
在中国等国家和地区,由于ANMM和PNMM的不同应用方式,两者往往有不同的监管框架——前者属于农产品,后者属于药品。从历史上看,ANMM和它们衍生的PNMM通常共享相同的名称。例如,青蒿(Artemisia annual)地上部分的农产品和进一步加工的药用品都被称为“青蒿(Artemisiae annual Herba)”,这种命名的模糊性复杂化了NMM的管理。因此,在本申请中,特别是对于ANMM和PNMM,要求各种天然药材的系统命名至少体现该天然药材的物种基源、药用部位连同炮制方法,如此,可以有效减小NMM命名的模糊性,使得能够对药品进行更好地监管,同时也可以避免药品误用可能产生的不良后果。
上述天然药材系统命名规则为自定义的一系列用于生成正确的天然药材系统命名的要求,除要求天然药材系统命名中体现该天然药材的物种基源、药用部位连同炮制方法之外,还规定了诸如物种基源、药用部位、炮制方法等具体的命名规则和学术依据,各个元素所使用的标准语言、大小写是否敏感,必要时,还可以包括特定条件下天然药材系统命名的正确示范和错误示范等,在此不一一列举。
在步骤102中,可以构建各种天然药材的结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本。
其中,天然药材相关文本可以是各种权威的天然药材典籍和学术著作的文本或超文本资料的合集;天然药材的结构化且标准化的天然药材知识则可以基于上述来自各种权威的天然药材典籍和学术著作的天然药材相关信息,采用通用的或自定义的文档或超文档格式进行结构化和标准化之后而得到;天然药材专业扩展术语是为了满足天然药材知识的检索、翻译等专业应用需求,而在天然药材术语的基础上进行诸如共指词注释、多语言翻译等扩展而生成的;天然药材关系集合中的关系可以是与天然药材术语、实体等各种对象两两之间的任意关系,包括但不限于两个术语之间的同义词关系、包含关系等。
在步骤103中,基于所生成的各种天然药材的系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本,生成所述天然药材专域知识库。
仅作为示例,在构建根据本申请实施例的天然药材专域知识库时,例如可以采用兼具关系型数据库和非关系数据库的优点的MongoDB的文档型数据库,其能够支持整合和结构化多样化的数据集,包括但不限于上述各种天然药材的系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本等,各个数据集可以以不同的方式,例如从不同的入口,被用户独立地或彼此关联地检索和应用。
此外,为了保证数据的可靠性和准确性,这些数据集中的数据需经人工审核后才能作为标准的数据加入天然药材专域知识库。在另一些实施例中,例如还可以对审核人,以及审核所使用的原始参考文献进行记录和呈现,以保证录有所引。
在步骤104中,可以获取定义目标天然药材和使用需求的用户操作信息,以关联的方式呈现该目标天然药材的系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本中与所述使用需求匹配的内容。
具体地,上述定义目标天然药材和使用需求的用户操作信息例如可以是用户通过命名(Name)应用来为其所希望添加至天然药材专域知识库的新的目标天然药材进行系统命名,或者,也可以是用户在对话(Chat)应用界面中以交互式对话的方式获取关于目标天然药材的专域知识,或者,也可以是用户在翻译(Translate)应用界面中输入想要进行多语言翻译的包含目标天然药材的术语和/或目标天然药材相关的专域知识的术语或文本的翻译需求,等等,本申请对此不作具体限定。
根据本申请实施例的天然药材专域知识库的构建和使用方法,通过定义天然药材系统命名规则,并且在该规则的约束下生成的天然药材系统命名能够以更加标准化、结构化的方式体现该天然药材的物种基源、药用部位连同炮制方法等元素,因而能够更明确、更清晰、更可靠地以一致的标准区分不同种类的天然药材,同时,所构建的天然药材专域知识库中还存储有结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本等多种数据集,从而使得该天然药材专域知识库能够从多种途径、多种应用角度、全方位地以更便捷、更高效、更精准、更智能的方式满足使用者获取天然药材专域知识的需求,一定程度上打破了天然药材专域知识获取、学习和应用等方面的壁垒,能够显著促进天然药材专域知识的标准化管理和创新应用,进而可以促进天然药材学术研究、临床应用和国际交流等方面的进展。
在一些实施例中,天然药材系统命名具体可以由[天然药材ID,天然药材系统名,天然药材通用名]三元组构成,其中,天然药材ID(NMM ID)、天然药材系统名(NMMSystematic Name,NMMSN)和天然药材通用名(NMM Generic Name,NMMGN)均为全局唯一,以使得农产天然药材和衍生的炮制天然药材之间,以及采用不同炮制方式的炮制天然药材之间能够彼此区分。此外,农产天然药材的天然药材系统名至少包括物种基源和药用部位;炮制天然药材的天然药材系统名至少包括物种基源、药用部位和炮制方法;其中,所述物种基源用拉丁文表示,药用部位和炮制方法用英文表示。
如前所述,本申请中的天然药材系统命名主要针对ANMM和PNMM,图2(a)和图2(b)分别示出根据本申请实施例的农产天然药材和炮制天然药材的系统命名示例。如图2(a)所示,农产天然药材的NMM ID为NMM-0001,相对应的NMMSN为Artemisla annual Part-aerial,NMMSN-zh为黄花蒿地上部,NMMGN为Qing-hao,NMMGN-zh为青蒿,也即,[天然药材ID,天然药材系统名,天然药材通用名]三元组为[NMM-0001,Artemisla annual Part-aerial,Qing-hao]。如图2(b)所示,炮制天然药材的NMM ID为NMM-0002,相对应的NMMSN为Artemisla annual Part-aerial Segmented,NMMSN-zh为段制黄花蒿地上部,NMMGN为Qing-hao-duan,NMMGN-zh为青蒿段,也即,[天然药材ID,天然药材系统名,天然药材通用名]三元组为[NMM-0002,Artemisla annual Part-aerial Segmented,Qing-hao-duan]。从图2(a)和图2(b)可以看到,农产天然药材[NMM-0001,Artemisla annual Part-aerial,Qing-hao]和由其衍生的炮制天然药材[NMM-0002,Artemisla annual Part-aerialSegmented,Qing-hao-duan],两者的NMM ID、NMMSN和NMMGN均不相同,因此完全可以彼此区分,实际上,各种天然药材的三元组中的各个要素均为全局唯一的。
为更清楚地进行说明,图2(c)示出根据本申请实施例的天然药材系统名的命名元素示意图,图2(d)示出根据本申请实施例的ANMM和PNMM的天然药材系统名和天然药材通用名的命名示例。
在图2(c)中,La表示用拉丁文表示,En表示用英文表示。从图2(c)中可以看到,在农产天然药材的系统名中,至少包括物种基源和药用部位,在炮制天然药材的天然药材系统名中,至少包括物种基源、药用部位和炮制方法,并且物种基源用拉丁文表示。可选地,农产天然药材系统名和炮制天然药材系统名还可以包含各自的特殊描述,在包含特殊描述的情况下,农产天然药材系统名通常可以表示为[物种基源 药用部位 特殊描述],而炮制天然药材系统名则可以表示为[物种基源 药用部位 特殊描述 炮制方式]。对于一些天然药材,其须具有某种特有的性状特征或经过某些特殊的产地加工后方可入药,对于这些天然药材,可以使用英文形容词、形容词短语或同位语等来表示特殊描述部分。对于另一些天然药材,其需要特别明确道地产区时,可以使用地理名词作为特殊描述。中国产道地天然药材的产地名通常使用中华人民共和国省会名称的标准英文名,NMMSN-zh中使用“省会标准缩写+产”作为其中文对应词。在特殊描述部分还可以包含其他的补充信息,本申请在此不一一列举。
如图2(d)所示,以物种基源为Ephedra的天然药材为例,其物种基源可以是Ephedra sinica(植物草麻黄)、Ephedra intermedia(植物中麻黄)或Ephedra equisetina(植物木贼麻黄),其药用部位是Stem herbaceous(草质茎),但现行的命名惯例往往倾向于将基于这些不同物种的天然药材使用统称进行指代,例如中国药典将其统称为“EphedraeHerba(麻黄)”。利用本申请的天然药材系统命名法,能够将中国药典名统称为EphedraeHerba(麻黄)的天然药材根据其物种基源或药用部位,区分地识别为三种不同的天然药材,其系统名分别为:Ephedra sinica Stem-herbaceous(草麻黄草质茎)、Ephedraintermedia Stem-herbaceous(中麻黄草质茎)和Ephedra equisetina(木贼麻黄草质茎);其通用名分别为:Cao-ma-huang(草麻黄)、Zhong-ma-huang(中麻黄)、Mu-zei-ma-huang(木贼麻黄草质茎)。如图2(d)所示,以物种基源为Curcuma的天然药材为例,其药用部位可以是Rhizome(根茎)或Root tuber(块根),对于药用部位为Rhizome而言,包括Cleaned(净制)和Sliced(片制)两种炮制方式,而对于净制的炮制方式,还附有Freshly sliced(鲜切片)的特殊描述,由此,对于相同的物种基源,药用部位、特殊描述和炮制方式中的至少一者不相同,都会使得所生成的天然药材系统名彼此不同,由此使得即使物种基源和药用部位均相同,采用不同炮制方式的炮制天然药材之间也能够彼此区分。
如图2(d)所示,与天然药材系统名类似,各个天然药材通用名也是全局唯一,彼此不同的,因此,在构建好的天然药材专域知识库中,凭借[天然药材ID,天然药材系统名,天然药材通用名]三元组中的任意一项,均可以检索到唯一的天然药材。从如图2(d)中还可以看到,利用本申请的天然药材系统命名法,能够将中国药典名统称为Curcumae Rhizoma(莪术)实际上彼此不同的天然药材,根据其物种基源、药用部位或炮制方式,区分地识别为三种不同的天然药材,其天然药材通用名分别为:Wen-yu-jin-pian(温郁金片)、Guang-xi-e-zhu-pian(广西莪术片)和Dan-e-zhu-pian(单莪术片)。类似地,根据本申请实施例的天然药材系统命名法能够将中国药典名统称为Curcumae Radix(郁金)的天然药材识别为四种天然药材,其天然药材通用名分别为:Wen-yu-jin-gen-pian(温郁金根片)、Guang-xi-e-zhu-gen-pian(广西莪术根片)、Dan-e-zhu-gen-pian(单莪术根片)和Jiang-huang-gen-pian(姜黄根片)。
根据本申请实施例的天然药材专域知识库中的天然药材相关文本至少包括了《中国药典:2020年版:一部》,在《中国药典》版本更新的情况下,本申请的天然药材专域知识库也将随之更新,从而保证其中的天然药材相关文本能够包含《中国药典》的更新施行版本。
相应地,根据本申请实施例的天然药材专域知识库中的结构化且标准化的天然药材知识也可以通过对《中国药典:2020年版:一部》或《中国药典》的更新施行版本中的天然药材相关信息进行结构化和标准化而得到,并且涵盖《中国药典:2020年版:一部》或《中国药典》的更新施行版本中所有的天然药材。
由此,根据本申请实施例的天然药材系统命名法相对于从包括《中国药典》或其他现有的天然药材知识获取途径来说,能够利用[天然药材ID,天然药材系统名,天然药材通用名]三元组中的任一元素来更清晰地区分实际上为不同种类的天然药材,特别是能够避免上述相同药材名称实际上对应于多种不同的物种基源和/或炮制方式所可能带来的混淆,这对于中医药等相关领域的研究和天然药材的使用具有非常重要的意义,特别地,可以为本领域涉足不深的初级人员消除由天然药材名称而产生的壁垒。
下面结合图3(a)-图3(d),对天然药材系统命名的构造方法进行详细说明。
图3(a)示出根据本申请实施例的用于构造天然药材系统命名的交互界面示意图。如图3(a)所示,根据本申请实施例的天然药材专域知识库的构建和使用方法支持通过网站的网页与用户交互,并在网页的交互界面300上提供包括物种基源、药用部位、特殊描述和炮制方法在内的命名元素条目。在一些实施例中,还可以在交互界面300上为用户提供天然药材类型等条目,以供用户利用诸如下拉框等来指定天然药材所属类型,包括ANMM-Plant(农产天然药材-植物药)、ANMM-Animal(农产天然药材-动物药)、ANMM-Fungal(农产天然药材-真菌药)、ANMM-Algal(农产天然药材-藻类药)、PNMM(炮制天然药材)等,具体的天然药材类型的选项可以根据天然药材领域当前发展的实际情况来设定,本申请对此不做限定。
进一步地,可以基于交互界面300来接收用户填入的各个命名元素对应的元素信息,利用所述天然药材系统命名算法构造与各个命名元素对应的元素信息相匹配的天然药材系统命名。
图3(b)示出根据本申请实施例的用于构造天然药材系统命名的另一交互界面示意图,在图3(b)中,交互界面300中,接收用户输入各个命名元素信息的文本框可以为用户提供自动补全的备选项,以便于用户能够通过选择自动补全的备选项而减少手动输入的内容,从而更便捷而准确地录入其想要构建的天然药材系统命名的各个命名元素。
在一些实施例中,交互界面300所在的网页支持在不同的显示模式之间进行切换,除图3(a)和图3(b)示出的中文显示模式之外,还可以支持的显示模式例如至少可以包括英文显示模式、英中显示模式和中英显示模式等,也可以按需增加对其他语言和/或其他对照模式等显示模式,本申请对此不做限定。在不同的显示模式下,物种基源、药用部位、特殊描述、炮制方法、天然药材类型等显示条目将以不同的语言/多语言对照模式进行提示,如此,可以满足不同语言使用习惯的用户的需求。
值得注意的是,图3(a)-图3(d)所示的交互界面300可以是在初始构建阶段提供给天然药材专域知识库的建库人员使用,也可以是提供给诸如医药研究人员等天然药材专域知识库的使用者使用,使其能够尝试将由其发现的新的天然药材补充到天然药材专域知识库中。
在所述天然药材系统命名构造成功的情况下,可以在交互界面300上进一步向用户呈现天然药材信息输入框(未示出),附加地或可选地,还可以在所述天然药材系统命名对应的知识页面(未示出)上向用户呈现天然药材信息输入框,以便用户能够以文本方式或按照第一语法规则填入与所述天然药材系统命名相关联的天然药材信息,并在用户提交后,对该天然药材信息进行审核。其中,天然药材信息的内容不做限制,但在对用户提交的天然药材信息进行审核时,首先应检查该信息是否有天然药材专域知识库尚未收录的新的信息,如果有,则需要对新的信息是否有明确的参考依据,即是否有相关的可靠的文献引用进行确认。
在一些实施例中,用户提交的天然药材系统命名能够构造成功,但该天然药材系统命名已经包含在现有的天然药材专域知识库中,这种情况下可以执行如下操作:
首先,可以在所述交互界面300上向用户呈现与所述天然药材系统命名相关联的知识页面摘要,以便用户能够通过点击所述知识页面摘要来查看所述天然药材系统命名的详细信息。图3(c)示出根据本申请实施例的带有知识页面摘要的交互界面示意图。如图3(c)所示,用户可以通过点击知识页面摘要下方的“展开”,来调看所述天然药材系统命名及其对应的天然药材的详细信息。
在另一些实施例中,还可以在交互界面300上向用户呈现天然药材信息输入框(未示出)以便用户以文本方式或按照第一语法规则填入并提交与所述天然药材系统命名相关联的天然药材信息。进一步地,需要对用户提交的所述天然药材信息进行审核,从而始终保持天然药材专域知识库中的知识和信息的可信度和准确性。在通常情况下,对天然药材信息的审核需要人工的参与,也即,执行人工或半人工的审核。
在另一些实施例中,在确定所述天然药材系统命名尚未包含在所述天然药材专域知识库中,并且人工审核通过的情况下,将所述天然药材信息与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中。例如可以将所述天然药材信息转换为结构化且标准化的天然药材知识,将结构化且标准化的天然药材知识与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中。
更具体地,仅作为示例,可以将所述天然药材信息转换为自定义的多语言Markdown格式的天然药材知识,其中,所述多语言Markdown格式的天然药材知识中的天然药材专业扩展术语以其对应的共指主词进行共指注释。
多语言Markdown(Multilingual Markdown,MLMD)是一种全新的、自定义的、专为多语言文档设计的Markdown语法,其可以在一个单一的文档中并行组织和嵌入多种语言内容,以实现平行对比、统一管理和优化展示。这种方法不仅使文档的编写和编辑更为方便,还为处理和分析多语言数据提供了一种结构化方案。由于MLMD具有很好的泛用性,因此其不仅可以适应于天然药材专域知识网站的共指注释、切换显示中英/英中/中/英或其他多语言显示模式等需求,还可以被应用于其他应用场景,包括但不限于多语言内容管理、国际化和本地化项目管理、机器翻译,等等。MLMD具有完善的语法规则,在本申请中仅对其作为核心语法的共指注释进行举例说明。
共指注释语法的核心语言学原理是:共指一致。即,之所以我们能够理解语言中使用某个词语指称的某个固有概念或实体时,我们实际上是理解了该词语本质是对于某个固有概念或实体的共指。以如下句子(1)-句子(3)为例:
(1)神农被中国人认为是医药学的始祖。
(2)炎帝被中国人认为是医药学的始祖。
(3)Shennong is regarded as the founder of medicine and pharmacy byChinese people.
以上3句话,对于有一定背景知识的人而言,无论所使用的名词是“神农”、“炎帝”、亦或是“Shennong”,实际都能够理解其指向的是同一个历史人物,即“神农”。而对于不具有相关知识的人而言,他们可能会认为这是3个不同的概念。MLMD中特别设计的共指注释语法就是用来帮助使用者方便地在文本中标注共指关系,以便于人们的理解,或者在机器翻译和文本处理中,能够更好地让机器理解文本的含义。
MLMD中的共指注释具体语法如下:
采用[[]]双方括号注释语法。基本共指注释包含以下两种形式:
1.当一个词语和其指向一致时:[[词指向]]
2.当一个词语和其指向不一致时:[[词指向|词显示]]
按照上述语法,上述句子(1)-句子(3)可以被分别共指注释为:
(1)[[神农]]被中国人认为是医药学的始祖。
(2)[[神农|炎帝]]被中国人认为是医药学的始祖。
(3)[[神农|Shennong]] is regarded as the founder of medicine andpharmacy by Chinese people.
由此可见,神农充当了“神农”这一概念所指向的主词,而炎帝和Shennong则充当了“神农”这一概念的共指词,在这种情况下,可以将神农称为“神农”这一概念的所有共指词所对应的共指主词。通过上述共指注释,即使是不具有相关知识的人,也能够理解这三句话实际上是在讲同一个人,即“神农”。
在被转换为多语言Markdown格式的天然药材知识中,天然药材专业扩展术语也可以采用上述共指注释语法,以其对应的共指主词进行共指注释,例如以如下句子(4)和句子(5)为例:
(4)人工智能赋能传统[[中医药]]现代化。
(5)人工智能赋能[[中医药|传统中医药]]现代化。
由于传统中医药和中医药在上述句子(4)和句子(5)中的内涵本质是相同的,因此,可以将传统中医药共指至中医药,从而实现对天然药材专业扩展术语的统一标注。由此,在完成共指注释后,句子(4)在以HTML显示时,句子中的共指超链接词将为“传统中医药”,而其实际指向“中医药”的页面。
在另一些实施例中,当对与各个天然药材相对应的天然药材专业扩展术语进行注释时,其指向的共指主词为该天然药材的天然药材ID。仅作为示例,例如青蒿对应于NMM ID为NMM-0001的天然药材,因此可以对句子(6)中的青蒿进行共指注释,共指注释后转换为句子(7):
(6)青蒿是一种天然药材。
(7)[[NMM-0001|青蒿]]是一种天然药材。
此外,由于本申请实施例中的天然药材专业扩展术语本身包含天然药材术语在不同语言中的术语译法,因此,句子(6)进行共指注释之后,除了包含句子(7)之外,还可以包含句子(8):
(8)[[NMM-0001|Qing-hao]] is a kind of Natural Medicinal Material.
利用句子(7)和句子(8),同时满足了跨语言的共指一致和术语标准化需求。
由此可见,转换为自定义的多语言Markdown格式的天然药材知识由于其具有共指主词的共指注释,不仅使得信息检索具有更高的标准化程度,还提高了天然药材知识在研究和应用中的可访问性,由此进一步扩大了未来天然药材在临床应用和新药开发方面的潜能。
在其他一些实施例中,在确定所述天然药材系统命名已经包含在所述天然药材专域知识库中的情况下,进一步判断所述天然药材信息是否有所述天然药材专域知识库尚未收录的新信息,在所述尚未收录的新信息通过人工审核之后,将所述天然药材信息与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中。
对应地,在所述尚未收录的新信息未能通过人工审核的情况下,可以在所述交互界面上向用户提供审核意见,或者,在所述交互界面上向用户提供审核意见并将所述天然药材信息退回给用户,以便用户对所述天然药材信息进行修改后再次提交。
在根据本申请实施例的天然药材系统命名规则中包含至少一条生成需注意项的规则,例如,多物种基源命名规则和多药用部位命名规则等,当在所述天然药材系统命名构造成功,但其构造过程涉及相关的规则,因此包含了一条或多条需注意项的情况下,可以在交互界面300上向用户呈现所述需注意项。图3(d)示出根据本申请实施例的带有需注意项的交互界面示意图。如图3(d)所示,例如以警告“检测到多个物种基源”等方式向用户提示在天然药材系统命名过程中所遭遇的各条需注意项,需注意项呈现的方式和位置本申请不做具体限定,只要能够起到向用户提示相关信息的作用即可。
在一些实施例中,交互界面300所在的网页还提供收藏、下载和引用的选项,以便用户能够将所述网页上呈现的天然药材知识添加到所述用户的私有资料中,或者下载与所述天然药材知识相关联的原始数据,或者引用所述网页所呈现的天然药材知识的页面。
根据本申请实施例的天然药材专域知识库中天然药材关系集合中的天然药材关系可以表示为手动注释的[源对象(Source),关系(Relation),目标对象(Target)]三元组,其中,所述关系至少包括同义词关系、包含关系、派生/上级关系、派生/下级关系、同级关系中的一种。
仅作为示例,同义词关系例如包括:[传统中医药,Synonym(同义词),中医药];包含关系例如包括:[天然药材,包含,炮制天然药材];派生/上级关系例如包括:[青蒿,派生/上级,植物青蒿];派生/下级关系例如包括:[青蒿,派生/下级,青蒿段];同级关系例如包括:[人参根,同级,人参叶]。
此外,源对象和目标对象可以分别为不同语言的名词和术语等,例如,同义词关系还可以包括[天然药材,跨语言同义词,Natural Medicinal Material],等等。
在另一些实施例中,根据本申请实施例的天然药材专域知识库中还可以包括其他的数据集,本申请对此不做限定,只要其使用统一标准的NMM ID 、NMMSN和NMMGN,以及基于共指主词的注释方式即可,以便能够与现有的各个数据集统一管理、联合应用。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本申请的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本申请。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本申请的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本申请的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (16)
1.一种天然药材专域知识库的构建和使用方法,其特征在于,包括如下步骤:
基于各种天然药材的包括物种基源、药用部位和炮制方法在内的元素条目,经由人工录入或通过天然药材系统命名算法,来生成各种天然药材的天然药材系统命名,使得所述天然药材系统命名符合自定义天然药材系统命名规则,所述自定义天然药物系统命名规则至少要求天然药材系统命名体现该天然药材的物种基源、药用部位连同炮制方法,其中,所述天然药材系统命名由[天然药材ID,天然药材系统名,天然药材通用名]三元组构成,所述天然药材ID、所述天然药材系统名和所述天然药材通用名均为全局唯一,以使得农产天然药材和衍生的炮制天然药材之间,以及采用不同炮制方式的炮制天然药材之间能够彼此区分;农产天然药材的天然药材系统名至少包括物种基源和药用部位;炮制天然药材的天然药材系统名至少包括物种基源、药用部位和炮制方法,其中,所述物种基源用拉丁文表示;
构建各种天然药材的结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本;
基于所生成的各种天然药材的天然药材系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本,生成所述天然药材专域知识库;以及
获取定义目标天然药材和使用需求的用户操作信息,以关联的方式呈现该目标天然药材的天然药材系统命名、结构化且标准化的天然药材知识、天然药材专业扩展术语、天然药材关系集合和天然药材相关文本中与所述使用需求匹配的内容。
2.根据权利要求1所述的构建和使用方法,其特征在于,农产天然药材的天然药材系统名还包括特殊描述;炮制天然药材的天然药材系统名还包括特殊描述。
3.根据权利要求1或2所述的构建和使用方法,其特征在于,所述天然药材相关文本至少包括《中国药典:2020年版:一部》,或者《中国药典》的更新施行版本。
4.根据权利要求1或2所述的构建和使用方法,其特征在于,所述结构化且标准化的天然药材知识通过对《中国药典:2020年版:一部》或《中国药典》的更新施行版本中的天然药材相关信息进行结构化和标准化而得到,并且涵盖《中国药典:2020年版:一部》或《中国药典》的更新施行版本中所有的天然药材。
5.根据权利要求1或2所述的构建和使用方法,其特征在于,所述构建和使用方法进一步包括:
通过网站的网页与用户交互,并在网页的交互界面上提供包括物种基源、药用部位、特殊描述和炮制方法在内的命名元素条目;
接收用户填入的各个命名元素对应的元素信息,利用所述天然药材系统命名算法构造与各个命名元素对应的元素信息相匹配的天然药材系统命名。
6.根据权利要求5所述的构建和使用方法,其特征在于,所述网页支持在不同的显示模式之间进行切换,其中,所述显示模式至少包括中文显示模式、英文显示模式、英中显示模式和中英显示模式。
7.根据权利要求5所述的构建和使用方法,其特征在于,所述构建和使用方法进一步包括:
在所述天然药材系统命名构造成功的情况下,在所述交互界面上向用户呈现天然药材信息输入框以便用户以文本方式或按照第一语法规则填入并提交与所述天然药材系统命名相关联的天然药材信息;并且
对用户提交的所述天然药材信息进行审核。
8.根据权利要求5所述的构建和使用方法,其特征在于,所述构建和使用方法进一步包括,在所述天然药材系统命名构造成功并且已经包含在所述天然药材专域知识库中的情况下:
在所述交互界面上向用户呈现与所述天然药材系统命名相关联的知识页面摘要,以便用户能够通过点击所述知识页面摘要来查看所述天然药材系统命名的详细信息;
在所述交互界面上和/或在所述天然药材系统命名对应的知识页面上,向用户呈现天然药材信息输入框以便用户以文本方式或按照第一语法规则填入并提交与所述天然药材系统命名相关联的天然药材信息;并且
对用户提交的所述天然药材信息进行审核。
9.根据权利要求7或8所述的构建和使用方法,其特征在于,对用户提交的所述天然药材信息进行审核进一步包括:
在确定所述天然药材系统命名尚未包含在所述天然药材专域知识库中,并且人工审核通过的情况下,将所述天然药材信息与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中;或者
在确定所述天然药材系统命名已经包含在所述天然药材专域知识库中的情况下,判断所述天然药材信息是否有所述天然药材专域知识库尚未收录的新信息,在所述尚未收录的新信息通过人工审核之后,将所述天然药材信息与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中。
10.根据权利要求9所述的构建和使用方法,其特征在于,所述构建和使用方法进一步包括,在所述尚未收录的新信息未能通过人工审核的情况下;
在所述交互界面上向用户提供审核意见;或者
在所述交互界面上向用户提供审核意见并将所述天然药材信息退回给用户,以便用户对所述天然药材信息进行修改后再次提交。
11.根据权利要求9所述的构建和使用方法,其特征在于,将所述天然药材信息与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中进一步包括:
将所述天然药材信息转换为结构化且标准化的天然药材知识,将结构化且标准化的天然药材知识与所述天然药材系统命名相关联地收录到所述天然药材专域知识库中。
12.根据权利要求11所述的构建和使用方法,其特征在于,将所述天然药材信息转换为结构化且标准化的天然药材知识进一步包括:
将所述天然药材信息转换为自定义的多语言Markdown格式的天然药材知识,其中,所述多语言Markdown格式的天然药材知识中的天然药材专业扩展术语以其对应的共指主词进行共指注释。
13.根据权利要求12所述的构建和使用方法,其特征在于,与各个天然药材相对应的天然药材专业扩展术语的共指主词为该天然药材的天然药材ID。
14.根据权利要求6所述的构建和使用方法,其特征在于,所述天然药材系统命名规则包含至少一条生成需注意项的规则,所述构建和使用方法进一步包括:
在所述天然药材系统命名构造成功但包含需注意项的情况下,在所述交互界面上向用户呈现所述需注意项。
15.根据权利要求6所述的构建和使用方法,其特征在于,所述网页提供收藏、下载和引用的选项,以便用户能够将所述网页上呈现的天然药材知识添加到所述用户的私有资料中,或者下载与所述天然药材知识相关联的原始数据,或者引用所述网页所呈现的天然药材知识的页面。
16.根据权利要求1或2所述的构建和使用方法,其特征在于,所述天然药材关系集合中的天然药材关系表示为手动注释的[源对象,关系,目标对象]三元组,其中,所述关系至少包括同义词关系、包含关系、派生/上级关系、派生/下级关系、同级关系中的一种。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311710143.7A CN118210960B (zh) | 2023-12-13 | 2023-12-13 | 天然药材专域知识库的构建和使用方法 |
PCT/CN2024/087711 WO2025123545A1 (zh) | 2023-12-13 | 2024-04-15 | 天然药材专域知识库的构建和使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311710143.7A CN118210960B (zh) | 2023-12-13 | 2023-12-13 | 天然药材专域知识库的构建和使用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118210960A CN118210960A (zh) | 2024-06-18 |
CN118210960B true CN118210960B (zh) | 2024-10-18 |
Family
ID=91454400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311710143.7A Active CN118210960B (zh) | 2023-12-13 | 2023-12-13 | 天然药材专域知识库的构建和使用方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118210960B (zh) |
WO (1) | WO2025123545A1 (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902104A (zh) * | 2019-02-11 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于管理知识库的方法、装置、设备和介质 |
CN114328975A (zh) * | 2022-01-06 | 2022-04-12 | 北京迈迪培尔信息技术有限公司 | 一种药学知识图谱构建方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005621A1 (en) * | 2005-06-01 | 2007-01-04 | Lesh Kathryn A | Information system using healthcare ontology |
CN106709074A (zh) * | 2017-02-16 | 2017-05-24 | 安徽东曦电子科技有限公司 | 一种在线数字中药平台系统 |
CN114791955A (zh) * | 2022-04-20 | 2022-07-26 | 中国中医科学院中医药信息研究所 | 中医药文献语料库与知识库一体化系统 |
CN116340544B (zh) * | 2023-04-03 | 2024-02-23 | 浙江大学 | 一种基于知识图谱的中医药古籍可视分析方法与系统 |
CN116312915B (zh) * | 2023-05-19 | 2023-09-19 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
-
2023
- 2023-12-13 CN CN202311710143.7A patent/CN118210960B/zh active Active
-
2024
- 2024-04-15 WO PCT/CN2024/087711 patent/WO2025123545A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902104A (zh) * | 2019-02-11 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于管理知识库的方法、装置、设备和介质 |
CN114328975A (zh) * | 2022-01-06 | 2022-04-12 | 北京迈迪培尔信息技术有限公司 | 一种药学知识图谱构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2025123545A1 (zh) | 2025-06-19 |
CN118210960A (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020147758A1 (zh) | 药品的推荐方法、装置、介质和电子设备 | |
AU2012235939B2 (en) | Real-time automated interpretation of clinical narratives | |
Pathak et al. | Using RxNorm and NDF-RT to classify medication data extracted from electronic health records: experiences from the Rochester Epidemiology Project | |
Candela et al. | Migration of a library catalogue into RDA linked open data | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Li et al. | LTM-TCM: a comprehensive database for the linking of Traditional Chinese Medicine with modern medicine at molecular and phenotypic levels | |
Binding et al. | A study of semantic integration across archaeological data and reports in different languages | |
KR101799448B1 (ko) | 질의 응답형 질병분류코드 제공 시스템 | |
Kersloot et al. | De-novo FAIRification via an Electronic Data Capture system by automated transformation of filled electronic Case Report Forms into machine-readable data | |
Vezzani et al. | Methodology for the standardization of terminological resources: Design of TriMED database to support multi-register medical communication | |
Cimiano et al. | Linguistic linked data in digital humanities | |
Wang et al. | Toward a normalized clinical drug knowledge base in China—applying the RxNorm model to Chinese clinical drugs | |
Bensoussan et al. | Development of a Chinese herbal medicine toxicology database | |
Zhao et al. | Validation of an algorithm to evaluate the appropriateness of outpatient antibiotic prescribing using big data of Chinese diagnosis text | |
Campillos-Llanos | MedLexSp–a medical lexicon for Spanish medical natural language processing | |
Jonquet et al. | Roadmap for a Multilingual BioPortal. | |
CN118210960B (zh) | 天然药材专域知识库的构建和使用方法 | |
CN117648937B (zh) | 用于天然药材专域知识的翻译系统 | |
Yang et al. | ShennongAlpha: an AI-driven sharing and collaboration platform for intelligent curation, acquisition, and translation of natural medicinal material knowledge | |
CN117648424B (zh) | 用于获取天然药材专域知识的系统 | |
Quindroit et al. | Definition of a practical taxonomy for referencing data quality problems in health care databases | |
Kellmann et al. | Semi-automatic translation of medicine usage data (in Dutch, free-text) from Lifelines COVID-19 questionnaires to ATC codes | |
Zhu et al. | Disambiguation of PharmGKB drug–disease relations with NDF-RT and SPL | |
Good et al. | Modeling contested categorization in linguistic databases | |
Price | Multi-faceted alignment. Toward automatic detection of textual similarity in Gospel-derived texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |