CN111723570B - 药品知识图谱的构建方法、装置和计算机设备 - Google Patents

药品知识图谱的构建方法、装置和计算机设备 Download PDF

Info

Publication number
CN111723570B
CN111723570B CN202010518781.9A CN202010518781A CN111723570B CN 111723570 B CN111723570 B CN 111723570B CN 202010518781 A CN202010518781 A CN 202010518781A CN 111723570 B CN111723570 B CN 111723570B
Authority
CN
China
Prior art keywords
entity
medicine
disease
entity mention
mention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010518781.9A
Other languages
English (en)
Other versions
CN111723570A (zh
Inventor
何义龙
肖劲
朱威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010518781.9A priority Critical patent/CN111723570B/zh
Priority to PCT/CN2020/098805 priority patent/WO2021139101A1/zh
Publication of CN111723570A publication Critical patent/CN111723570A/zh
Application granted granted Critical
Publication of CN111723570B publication Critical patent/CN111723570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及医疗领域,揭示了药品知识图谱的构建方法,包括:将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,指定样本包括药品说明书文本;获取各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;将各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,对应输入各章节分别对应的序列标注模型中,以抽取各章节分别包括的实体提及;根据预设规则对各章节分别对应的实体提及进行数据处理,得到待链接实体提及;将各待链接实体提及链接到候选疾病实体提及上,并根据指定样本中各待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成药品知识图谱。

Description

药品知识图谱的构建方法、装置和计算机设备
技术领域
本申请涉及到医疗领域,特别是涉及到药品知识图谱的构建方法、装置和计算机设备。
背景技术
知识图谱是人工智能技术的重要组成部分,是对知识的一种结构化表示和建模。药品知识图谱则是从海量的医疗数据中构建与药品相关的知识图谱,抽取以药品为核心的各种医学实体提及以及各实体提及之间的关系,作为医疗领域人工智能的外部知识,在智能问答,辅助诊断,药品百科等领域都有着关键的作用。中文因为没有天然的分隔符号、语法复杂且同义词众多,数据结构化的难度很大,影响了知识图谱的构建,而且现在绝大多数的数据都是来源于文献,但抽出的知识偏离辅助诊断,虽然药品说明书数据权威且有利于辅助诊断,但因为没有统一的写作规范,抽取难度较大,目前还未有以药品说明书为数据基准构建药品知识图谱的方法。
发明内容
本申请的主要目的为提供药品知识图谱的构建方法,旨在解决没有以药品说明书为数据基准构建的药品知识图谱的技术问题。
本申请提出一种药品知识图谱的构建方法,包括:
将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
优选地,所述获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量的步骤,包括:
将各所述章节分别对应的文本进行预处理,得到预处理后的文本;
将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;
将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
优选地,所述将各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各章节分别对应的序列标注模型中,抽取各章节分别包括的实体提及的步骤,包括:
将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;
将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
优选地,根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:
将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;
判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;
若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;
若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;
根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
优选地,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:
根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;
判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;
若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;
将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
优选地,药品相互作用章节的实体提及包括药品实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:
将所述药品相互作用章节对应的所有药品实体提及构建成字典树;
根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;
分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;
将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
优选地,所述实体提及包括用药属性实体提及,根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:
判断各所述用药属性实体提及是否存在预设的正则表达式;
若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;
判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;
若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
本申请还提供了一种药品知识图谱的构建装置,包括:
划分模块,用于将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
获取模块,用于获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
拼接模块,用于将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
数据处理模块,用于根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
链接模块,用于将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请将药品说明书分为三个章节分别训练序列标注模型,以进行实体提及的识别、提取和链接,且在实体提及的抽取过程中,通过添加lexicon特征向量和/或softword特征向量,并将lexicon特征向量和/或softword特征向量与字向量拼接,形成序列标注模型的输入量,提高实体提及的抽取效果,实现了以样品说明书为数据基准,准确抽取实体提及的技术方案,节省了大量人工成本,提高了药品知识图谱的构建效率和精准度。
附图说明
图1本申请一实施例的药品知识图谱的构建方法流程示意图;
图2本申请一实施例的药品知识图谱的构建装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的药品知识图谱的构建方法,包括:
S1:将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
上述字符关键字包括多个关键字形成的关键字组合体,包括但不限于“药品和疾病”、“药品作用”、“药品用法”等。上述关键字可通过统计药品说明书数据库中的药品说明书文本得到,且根据组合概率,统计出各章节对应的关键字组合体。比如药品和疾病关系章节对应的关键字组合体为“药品和疾病”、“药品、疾病”、“药品和疾病关系”等。识别到药品和疾病关系章节对应的关键字组合体,则为药品和疾病关系章节的开始,当识别到药品相互作用章节或药品用法用量章节对应的关键字组合体时,则以药品相互作用章节或药品用法用量章节对应的关键字组合体之前的句号,为药品和疾病关系章节的结束。其他章节的划分方法相类似,不赘述。
S2:获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
上述的字向量通过机器学习模型获得,机器学习模型包括但不限于Bert模型或word2vec。softword特征向量是nlp任务中常用的特征向量,可理解为软词边界。softword特征是基于Jieba分词,将各字符按分词标签BMES分成四类,B表示这个字是词的开始Begin,M表示词的中间Middle,E表示词的结尾End,S表示单字成词。lexicon特征向量是通过长期维护的医疗词典中包含的特征向量,将各字符分别对应为11类词中的一类。lexicon是基于外部词典的最长匹配,将各字符分为11类,即否定词,分型,人群,前缀,并列,疾病,后缀,方位,身体部位,互斥词,无关词。上述lexicon特征向量和/或softword特征向量,均是从不同分词角度补充字符的词级别信息,提升实体提及的识别效果。
S3:将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
本申请通过每个字符对应的字向量,拼接该字符的lexicon特征向量,和/或拼接该字符的softword特征向量,形成该字符输入到序列标注模型的输入向量。上述lexicon特征向量和softword特征向量可任意选择其一,或两者都选,根据模型系统能支撑的计算量设计。若计算能力允许,同时选择lexicon特征向量和softword特征向量,以增加字符的词级别信息。拼接时,字向量、lexicon特征向量和softword特征向量之间的排序不做限定。章节内容中的各个字符,按照其在药品说明书文本中的原始排序,依次向序列标注模型输入各字符的输入向量,以抽取各章节分别包括的实体提及。
S4:根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
上述预设规则包括通过实体提及过程中的数据过滤方式、子句切分方式等,以通过预设规则提高获取待链接实体提及的进准度。防止通过序列标注模型进行抽取实体提及,出现错误抽取的实体提及的情况。比如,A疾病不适用B药品,若不经过合理的数据过滤,则抽取的实体提及为“A疾病”、“B药品”,则将疾病和药品的关联关系混淆,通过抽取实体提及建立各药品相关的知识图谱会将构建错误。
S5:将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
本实施例通过将药品说明书的各章节,分别单独进行序列标注模型的训练,使各章节分别对应的序列标注模型的针对性更强,各章节分别对应的序列标注模型仅专注学习该章节特有的上下文信息关联关系,提升各章节的实体提及的抽取效果。上述序列标注模型包括Bilstm+crf模型,通过各章节对应的序列标注模型分别从药品说明书的对应章节内提取到实体提及,并通过实体提及链接技术将提取到的实体提及链接到疾病实体提及上,形成与该疾病实体提及相关的药品知识图谱。上述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节。上述药品和疾病关系章节包括适应症、禁忌症和不良反应等内容;药品相互作用章节包括药物之间的相互作用关系的内容,药物需要标准化到ATC(Anatomical Therapeutic Chemical,解剖学治疗学及化学分类系统,简称ATC),ATC是世界卫生组织对药品的官方分类系统。商品名层级药品和用药信息的关系从药品用法用量章节提取。本申请将药品说明书分为三个章节分别训练序列标注模型,以进行实体提及的识别、提取和链接,且在实体提及的抽取过程中,通过添加lexicon特征向量和/或softword特征向量,并将lexicon特征向量和/或softword特征向量与字向量拼接,形成序列标注模型的输入量,提高实体提及的抽取效果,实现了以样品说明书为数据基准,准确抽取实体提及的技术方案,节省了大量人工成本,提高了药品知识图谱的构建效率和精准度。
进一步地,获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量的步骤S2,包括:
S21:将各所述章节分别对应的文本进行预处理,得到预处理后的文本;
上述预处理包括对各章节的文字内容进行断句、分词,以及去除无意义词汇。上述无意义词汇包括助词、语气叹词等。
S22:将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;
S22:将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
本实施例的softword特征向量,为在现有字符级别的实体提及识别的基础上,添加了词级别的分词信息,使序列标注模型的可利用信息增多,提高抽取实体提及的判断精准度。上述的lexicon特征充分利用了开发的医疗领域的词典,相比于直接在源数据上的爬虫训练,信息更精准贴切,提高实体提及的抽取效果。上述两个特征分别经过对应的映射层,映射为低维softword特征向量和/或lexicon特征向量,然后再与字向量拼接作为序列标注模型的输入特征。中文实体提及识别任务中的字向量都是基于字符级别的,所以缺少了词级别的信息,通过加入softword特征向量和/或lexicon特征向量补充词级别的信息。本申请通过在字向量中拼接了softword特征向量和/或lexicon特征向量,补充了词级别的信息,使实体提及的抽取精准度提升了1%。具体方法如下,以“季节性鼻炎”为例。softword特征中,分词结果可以得到“季节性鼻炎”中的五个字符对应的softword特征属于“BMEBE”。lexicon特征中,“季节性”各字符均属于分型,“鼻炎”各字符均属于疾病,即“季节性鼻炎”中的五个字符对应的lexicon特征属于“分型分型分型疾病疾病”。然后将“季节性鼻炎”对应的softword特征和lexicon特征分别映射到低维空间,分别对应得到softword特征向量和lexicon特征向量,然后再跟word2vec输出的“季节性鼻炎”对应的字向量进行拼接,得到序列标注模型的输入向量序列。
进一步地,所述将各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各章节分别对应的序列标注模型中,抽取各章节分别包括的实体提及的步骤S3,包括:
S31:将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;
S32:将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
上述第一模型、第二模型和第三模型均为序列标注模型,均为BiLSTM+CRF模型结构,因为训练数据不同,上述第一模型、第二模型和第三模型的参数不同,训练数据为各章节对应的文本,使各章节的序列标注模型更有针对性,提高识别、标注的准确度。通过将药品和疾病关系章节中,同一指定字符对应的lexicon特征向量和/或softword特征向量、字向量依次拼接成指定字符对应的输入向量。并根据指定字符对应的输入向量的形成过程,按照各字符在原文本中的排布次序,一一形成各字符分别对应的输入向量,继而得到药品和疾病关系章节所有字符对应的第一输入向量。药品相互作用章节所有字符对应的第二输入向量,以及药品用法用量章节所有字符对应的第三输入向量的形成过程,与第一输入向量相似,不赘述。通过增加代表各字符的词级别信息的lexicon特征向量和/或softword特征向量,丰富实体提及的上下文关联信息,使抽取效果更精准。上述拼接过程可理解为向量(a,b)、向量(c,d)和向量(e,f)依次拼接后形成向量(a,b,c,d,e,f)的过程。
药品说明书文本中的适应症、禁忌症、不良反应,是通用名层级药品和疾病之间的关系。药品和疾病之间的关系,通过药品和疾病关系章节所有字符对应的第一输入向量、药品相互作用章节所有字符对应的第二输入向量和药品用法用量章节所有字符对应的第三输入向量,对应的标注序列信息表示药品和疾病之间的关系。药品说明书文本通常是计算机无法理解的非结构化文本,例如“阿卡波糖片用于治疗糖尿病”,“阿卡波糖片的主治功能是糖尿病”等等,这些文本可以得到药品阿卡波糖片和疾病糖尿病之间的关系是适应症。本申请的知识图谱将其表示为计算机可以解读的结构化的三元组形式(阿卡波糖片,适应症,糖尿病)。具体实现过程是将结构化的三元组形式存于neo4j图数据库中,以便于查询和推理。禁忌症和不良反应的处理过程同上述适应症的处理过程类似,不同的是禁忌症表示患者患有某种疾病时不能吃某种药品,不良反应表示吃了某种药品后会引起某种疾病。传统的知识图谱构建方法是先用实体提及识别模型得到文本中的所有实体提及,再使用关系抽取模型得到各实体提及之间的关系,但是药品说明书文本是半结构化的文本,每个章节下疾病和药品的关联关系具有一致性。比如,主治功能这一章节中出现的疾病几乎都是适应症,所以只需要通过实体提及识别模型识别出该章节的疾病实体提及,就可以建立药品到疾病的适应症关系,禁忌症和不良反应作类似处理。上述各章节通过序列标注模型抽取实体提及的过程相似,使用序列标注模型结合抽取规则的方法,从对应章节中抽取实体提及,并使用现有的实体提及链接技术将各实体提及链接到疾病实体提及。举例地,对于盐酸二甲双胍缓释片的主治功能章节中,存在文本记载:“盐酸二甲双胍缓释片适用于,单用饮食和运动治疗不能获得良好控制的2型糖尿病患者”,可以抽取到疾病实体提及为“2型糖尿病”,该疾病实体提及和盐酸二甲双胍缓释片药品实体提及是适应症的关系。不同药品说明书文本,对相同的疾病实体提及的提及方式可能多种多样,例如“2型糖尿病”还可以写为“II型糖尿病”,“二型糖尿病”等,需要使用实体提及链接技术都对应到标准名称“2型糖尿病”上,以便于计算机可以解读上述不同表述方式的疾病实体提及均属于同一种疾病。
进一步地,根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤S4,包括:
S41:将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;
S42:判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;
S43:若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;
S44:若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;
S45:根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
本实施例通过预先形成的预设关键词表格,对存在实体提及的各子句进行过滤处理,以降低通过序列标注模型提及实体提及的计算量以及干扰度。上述的预设关键词表格通过汇总与当前抽取的实体提及无关联关系的无关实体提及得到。举例地,药品说明书中出现“本品可以治疗糖尿病,但不适用于糖尿病伴酮酸中毒”,此时糖尿病伴酮酸中毒就不是适应症,属于无关实体提及。本申请通过汇总表达无关联关系的关键词,进行无关实体提及的识别。上述无关联关系的关键词,例如包括但不限于“不适用于”,“不能治疗”等。本申请通过将句子按逗号等停顿标点分成更细的子句,方便识别。如果无关联关系的关键词和实体提及处于同一个子句,就认为该子句中的实体提及是无关实体提及。例如适应症章节中出现“不适用于脑膜炎奈瑟菌感染的治疗”,则脑膜炎奈瑟菌感染与该药品并非适应症关系,脑膜炎奈瑟菌感染为无关实体提及,应当删除。
进一步地,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤S45之后,包括:
S46:根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;
S47:判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;
S48:若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;
S49:将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
本实施例将药品和疾病关系章节过滤后的各子句,通过适应症章节、禁忌症章节和不良反应章节中对应的疾病实体提及,根据前缀词典分别匹配对应的身体部位和疾病分型,来判断疾病实体提及中是否存在并列的情况,以免影响后续疾病实体提及的准确链接。当存在并列关系的两个或两个以上的疾病实体提及时,本实施例通过拆分疾病实体提及的方法,满足每个疾病实体提及对应一个身体部位和一个疾病分型,以确保后续疾病实体提及的准确链接。举例地,身体部位记载为“下呼吸道和泌尿系统感染”,可拆分为下呼吸道感染、泌尿系统感染;疾病分型记载为“1型和2型糖尿病”,可拆分为1型糖尿病、2型糖尿病。上述前缀词典通过统计各疾病分型和身体部位的对应关系形成,前缀词典中疾病分型和身体部位呈一一对应关系。
进一步地,药品相互作用章节的实体提及包括药品实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤S45之后,包括:
S451:将所述药品相互作用章节对应的所有药品实体提及构建成字典树;
S452:根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;
S453:分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;
S454:将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
在药物相互作用章节中的药品实体提及的抽取当中,使用了将已抽取的药品实体提及构建的字典树,并到药品说明书文本中找回的方法,提升了抽取的药品实体提及的召回率。利用抽取的所有药品实体提及构建成字典树,字典树是一种通用的数据结构,用于加快最长匹配的速度,采用最长匹配的策略在全量数据上匹配药品实体提及,最长匹配策略是指在药品说明书文本中寻找字典中最长的词。例如文本“盐酸二甲双胍适用于2型糖尿病”,字典中同时存在“二甲双胍”和“盐酸二甲双胍”两个词条,这里就用长度最长的“盐酸二甲双胍”作为该文本所抽取得到的药品实体提及,以提升召回率。抽取的药品实体提及若为该药品本身,则需要删除。将抽出的药品实体提及与该药的通用名或商品名计算相似度,删除相似度高于预设阈值的药品实体提及。例如,对于药品盐酸二甲双胍缓释片的药品相互作用章节中,会出现类似于“呋塞米增加二甲双胍血清和全血药物浓度”,此处如果抽取的药品实体提及为二甲双胍,则二甲双胍实际指的就是本药品本身,所以不能建立二甲双胍和盐酸二甲双胍缓释片的相互作用关系。上述的相似度计算公式为:
Figure BDA0002531128290000131
其中lcs表示两个词条的最大公共子序列的长度,max_len表示最大的词条长度,min_len表示最小的词条长度,当lcs和max_len比值大于0.5,并且lcs和min_len比值大于0.95时,认为两词条是相似的。
进一步地,所述将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中的步骤S454,包括:
S4541:将各所述药品实体提及分别匹配成化学成分信息和药品类别信息;
S4542:根据各所述药品实体提及分别对应的化学成分信息和药品类别信息,将各所述药品实体提及分别对应到相应的ATC编码中。
抽取的药品实体提及分别匹配成化学成分信息和类别信息两类,并分别对应到ATC上,无法对应到ATC的部分信息则作为ATC的节点补充,成为独立节点。若药品实体提及和ATC编码对应的中文名称相似,就认为该药品实体提及对应到了相应的ATC编码,以方便查找或应用形成的药品知识图谱。
进一步地,所述实体提及包括用药属性实体提及,根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤S4,包括:
S401:判断各所述用药属性实体提及是否存在预设的正则表达式;
S402:若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;
S403:判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;
S404:若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
用法用量是商品名层级药品与用药属性的关系,用药属性含有给药剂量,给药频率,疗程,用药方法,疾病,人群六个属性。正则表达式抽取过程,举例如下表1,给药剂量、给药频率、疗程、用药方法,这四个属性也使用正则表达式抽取,人群和疾病这两个属性则使用外部词典基于最长匹配抽取。上述外部词典包括疾病词典和人群词典,疾病词典是前文抽取出的疾病实体提及整理所得的词典,人群词典是业务领域内长期维护积累的人群信息词典。通过最长匹配策略抽取第二属性的过程,和抽取药品实体提及是相类似的,通过上述外部词典构建字典树抽取,不赘述。由于同一种药品针对于不同适应症或人群的用法用量是不同的,所以需要根据疾病和人群这两个属性,对抽取的所有属性分组,组合成一个用药属性实体提及。如果一个句子中出现了所用的六个属性,则将这些属性组合在一起。属性分组的策略是同一个句子中同时出现了上述六个属性,就将此六个属性分到一个属性组。
表1
Pattern Description Example
一[次日][num]+片 给药剂量,[num]表示整数或小数 一次一粒
一日[0-9]+次 给药频率 一日3次
疗程[0-9]+[日天] 疗程 连续10天
[口嚼吞泡饮]服 用药方法 饭后口服
静脉.{0,2}注射 用药方法 静脉内注射140mgI/ml
参照图2,本申请一实施例的药品知识图谱的构建装置,包括:
划分模块1,用于将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
上述字符关键字包括多个关键字形成的关键字组合体,包括但不限于“药品和疾病”、“药品作用”、“药品用法”等。上述关键字可通过统计药品说明书数据库中的药品说明书文本得到,且根据组合概率,统计出各章节对应的关键字组合体。比如药品和疾病关系章节对应的关键字组合体为“药品和疾病”、“药品、疾病”、“药品和疾病关系”等。识别到药品和疾病关系章节对应的关键字组合体,则为药品和疾病关系章节的开始,当识别到药品相互作用章节或药品用法用量章节对应的关键字组合体时,则以药品相互作用章节或药品用法用量章节对应的关键字组合体之前的句号,为药品和疾病关系章节的结束。其他章节的划分方法相类似,不赘述。
获取模块2,用于获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
上述的字向量通过机器学习模型获得,机器学习模型包括但不限于Bert模型或word2vec。softword特征向量是nlp任务中常用的特征向量,可理解为软词边界。softword特征是基于Jieba分词,将各字符按分词标签BMES分成四类,B表示这个字是词的开始Begin,M表示词的中间Middle,E表示词的结尾End,S表示单字成词。lexicon特征向量是通过长期维护的医疗词典中包含的特征向量,将各字符分别对应为11类词中的一类。lexicon是基于外部词典的最长匹配,将各字符分为11类,即否定词,分型,人群,前缀,并列,疾病,后缀,方位,身体部位,互斥词,无关词。上述lexicon特征向量和/或softword特征向量,均是从不同分词角度补充字符的词级别信息,提升实体提及的识别效果。
拼接模块3,用于将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
本申请通过每个字符对应的字向量,拼接该字符的lexicon特征向量,和/或拼接该字符的softword特征向量,形成该字符输入到序列标注模型的输入向量。上述lexicon特征向量和softword特征向量可任意选择其一,或两者都选,根据模型系统能支撑的计算量设计。若计算能力允许,同时选择lexicon特征向量和softword特征向量,以增加字符的词级别信息。拼接时,字向量、lexicon特征向量和softword特征向量之间的排序不做限定。章节内容中的各个字符,按照其在药品说明书文本中的原始排序,依次向序列标注模型输入各字符的输入向量,以抽取各章节分别包括的实体提及。
数据处理模块4,用于根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
上述预设规则包括通过实体提及过程中的数据过滤方式、子句切分方式等,以通过预设规则提高获取待链接实体提及的进准度。防止通过序列标注模型进行抽取实体提及,出现错误抽取的实体提及的情况。比如,A疾病不适用B药品,若不经过合理的数据过滤,则抽取的实体提及为“A疾病”、“B药品”,则将疾病和药品的关联关系混淆,通过抽取实体提及建立各药品相关的知识图谱会将构建错误。
链接模块5,用于将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
本实施例通过将药品说明书的各章节,分别单独进行序列标注模型的训练,使各章节分别对应的序列标注模型的针对性更强,各章节分别对应的序列标注模型仅专注学习该章节特有的上下文信息关联关系,提升各章节的实体提及的抽取效果。上述序列标注模型包括Bilstm+crf模型,通过各章节对应的序列标注模型分别从药品说明书的对应章节内提取到实体提及,并通过实体提及链接技术将提取到的实体提及链接到疾病实体提及上,形成与该疾病实体提及相关的药品知识图谱。上述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节。上述药品和疾病关系章节包括适应症、禁忌症和不良反应等内容;药品相互作用章节包括药物之间的相互作用关系的内容,药物需要标准化到ATC(Anatomical Therapeutic Chemical,解剖学治疗学及化学分类系统,简称ATC),ATC是世界卫生组织对药品的官方分类系统。商品名层级药品和用药信息的关系从药品用法用量章节提取。本申请将药品说明书分为三个章节分别训练序列标注模型,以进行实体提及的识别、提取和链接,且在实体提及的抽取过程中,通过添加lexicon特征向量和/或softword特征向量,并将lexicon特征向量和/或softword特征向量与字向量拼接,形成序列标注模型的输入量,提高实体提及的抽取效果,实现了以样品说明书为数据基准,准确抽取实体提及的技术方案,节省了大量人工成本,提高了药品知识图谱的构建效率和精准度。
进一步地,获取模块2,包括:
预处理单元,用于将各所述章节分别对应的文本进行预处理,得到预处理后的文本;
上述预处理包括对各章节的文字内容进行断句、分词,以及去除无意义词汇。上述无意义词汇包括助词、语气叹词等。
学习单元,用于将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;
标注单元,用于将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
本实施例的softword特征向量,为在现有字符级别的实体提及识别的基础上,添加了词级别的分词信息,使序列标注模型的可利用信息增多,提高抽取实体提及的判断精准度。上述的lexicon特征充分利用了开发的医疗领域的词典,相比于直接在源数据上的爬虫训练,信息更精准贴切,提高实体提及的抽取效果。上述两个特征分别经过对应的映射层,映射为低维softword特征向量和/或lexicon特征向量,然后再与字向量拼接作为序列标注模型的输入特征。中文实体提及识别任务中的字向量都是基于字符级别的,所以缺少了词级别的信息,通过加入softword特征向量和/或lexicon特征向量补充词级别的信息。本申请通过在字向量中拼接了softword特征向量和/或lexicon特征向量,补充了词级别的信息,使实体提及的抽取精准度提升了1%。具体方法如下,以“季节性鼻炎”为例。softword特征中,分词结果可以得到“季节性鼻炎”中的五个字符对应的softword特征属于“BMEBE”。lexicon特征中,“季节性”各字符均属于分型,“鼻炎”各字符均属于疾病,即“季节性鼻炎”中的五个字符对应的lexicon特征属于“分型分型分型疾病疾病”。然后将“季节性鼻炎”对应的softword特征和lexicon特征分别映射到低维空间,分别对应得到softword特征向量和lexicon特征向量,然后再跟word2vec输出的“季节性鼻炎”对应的字向量进行拼接,得到序列标注模型的输入向量序列。
进一步地,拼接模块3,包括:
拼接单元,用于将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;
输入单元,用于将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
上述第一模型、第二模型和第三模型均为序列标注模型,均为BiLSTM+CRF模型结构,因为训练数据不同,上述第一模型、第二模型和第三模型的参数不同,训练数据为各章节对应的文本,使各章节的序列标注模型更有针对性,提高识别、标注的准确度。通过将药品和疾病关系章节中,同一指定字符对应的lexicon特征向量和/或softword特征向量、字向量依次拼接成指定字符对应的输入向量。并根据指定字符对应的输入向量的形成过程,按照各字符在原文本中的排布次序,一一形成各字符分别对应的输入向量,继而得到药品和疾病关系章节所有字符对应的第一输入向量,药品相互作用章节所有字符对应的第二输入向量,以及药品用法用量章节所有字符对应的第三输入向量的形成过程,与第一输入向量相似,不赘述。通过增加代表各字符的词级别信息的lexicon特征向量和/或softword特征向量,丰富实体提及的上下文关联信息,使抽取效果更精准。上述拼接过程可理解为向量(a,b)、向量(c,d)和向量(e,f)依次拼接后形成向量(a,b,c,d,e,f)的过程。
药品说明书文本中的适应症、禁忌症、不良反应,是通用名层级药品和疾病之间的关系。药品和疾病之间的关系,通过药品和疾病关系章节所有字符对应的第一输入向量、药品相互作用章节所有字符对应的第二输入向量和药品用法用量章节所有字符对应的第三输入向量,对应的标注序列信息表示药品和疾病之间的关系。药品说明书文本通常是计算机无法理解的非结构化文本,例如“阿卡波糖片用于治疗糖尿病”,“阿卡波糖片的主治功能是糖尿病”等等,这些文本可以得到药品阿卡波糖片和疾病糖尿病之间的关系是适应症。本申请的知识图谱将其表示为计算机可以解读的结构化的三元组形式(阿卡波糖片,适应症,糖尿病)。具体实现过程是将结构化的三元组形式存于neo4j图数据库中,以便于查询和推理。禁忌症和不良反应的处理过程同上述适应症的处理过程类似,不同的是禁忌症表示患者患有某种疾病时不能吃某种药品,不良反应表示吃了某种药品后会引起某种疾病。传统的知识图谱构建方法是先用实体提及识别模型得到文本中的所有实体提及,再使用关系抽取模型得到各实体提及之间的关系,但是药品说明书文本是半结构化的文本,每个章节下疾病和药品的关联关系具有一致性。比如,主治功能这一章节中出现的疾病几乎都是适应症,所以只需要通过实体提及识别模型识别出该章节的疾病实体提及,就可以建立药品到疾病的适应症关系,禁忌症和不良反应作类似处理。上述各章节通过序列标注模型抽取实体提及的过程相似,使用序列标注模型结合抽取规则的方法,从对应章节中抽取实体提及,并使用现有的实体提及链接技术将各实体提及链接到疾病实体提及。举例地,对于盐酸二甲双胍缓释片的主治功能章节中,存在文本记载:“盐酸二甲双胍缓释片适用于,单用饮食和运动治疗不能获得良好控制的2型糖尿病患者”,可以抽取到疾病实体提及为“2型糖尿病”,该疾病实体提及和盐酸二甲双胍缓释片药品实体提及是适应症的关系。不同药品说明书文本对相同的疾病实体提及的提及方式可能多种多样,例如“2型糖尿病”还可以写为“II型糖尿病”,“二型糖尿病”等,需要使用实体提及链接技术都对应到标准名称“2型糖尿病”上,以便于计算机可以解读上述不同表述方式的疾病实体提及均属于同一种疾病。
进一步地,数据处理模块4,包括:
第一拆分单元,用于将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;
第一判断单元,用于判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;
第一调用单元,用于若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;
删除单元,用于若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;
过滤单元,用于根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
本实施例通过预先形成的预设关键词表格,对存在实体提及的各子句进行过滤处理,以降低通过序列标注模型提及实体提及的计算量以及干扰度。上述的预设关键词表格通过汇总与当前抽取的实体提及无关联关系的无关实体提及得到。举例地,药品说明书中出现“本品可以治疗糖尿病,但不适用于糖尿病伴酮酸中毒”,此时糖尿病伴酮酸中毒就不是适应症,属于无关实体提及。本申请通过汇总表达无关联关系的关键词,进行无关实体提及的识别。上述无关联关系的关键词,例如包括但不限于“不适用于”,“不能治疗”等。本申请通过将句子按逗号等停顿标点分成更细的子句,方便识别。如果无关联关系的关键词和实体提及处于同一个子句,就认为该子句中的实体提及是无关实体提及。例如适应症章节中出现“不适用于脑膜炎奈瑟菌感染的治疗”,则脑膜炎奈瑟菌感染与该药品并非适应症关系,脑膜炎奈瑟菌感染为无关实体提及,应当删除。
进一步地,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,数据处理模块4,包括:
第一匹配单元,用于根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;
第二判断单元,用于判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;
判定单元,用于若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;
第二拆分单元,用于将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
本实施例将药品和疾病关系章节过滤后的各子句,通过适应症章节、禁忌症章节和不良反应章节中对应的疾病实体提及,根据前缀词典分别匹配对应的身体部位和疾病分型,来判断疾病实体提及中是否存在并列的情况,以免影响后续疾病实体提及的准确链接。当存在并列关系的两个或两个以上的疾病实体提及时,本实施例通过拆分疾病实体提及的方法,满足每个疾病实体提及对应一个身体部位和一个疾病分型,以确保后续疾病实体提及的准确链接。举例地,身体部位记载为“下呼吸道和泌尿系统感染”,可拆分为下呼吸道感染、泌尿系统感染;疾病分型记载为“1型和2型糖尿病”,可拆分为1型糖尿病、2型糖尿病。上述前缀词典通过统计各疾病分型和身体部位的对应关系形成,前缀词典中疾病分型和身体部位呈一一对应关系。
进一步地,药品相互作用章节的实体提及包括药品实体提及,数据处理模块4,包括:
构建单元,用于将所述药品相互作用章节对应的所有药品实体提及构建成字典树;
第二匹配单元,用于根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;
计算单元,用于分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;
添加单元,用于将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
在药物相互作用章节中的药品实体提及的抽取当中,使用了将已抽取的药品实体提及构建的字典树,并到药品说明书文本中找回的方法,提升了抽取的药品实体提及的召回率。利用抽取的所有药品实体提及构建成字典树,字典树是一种通用的数据结构,用于加快最长匹配的速度,采用最长匹配的策略在全量数据上匹配药品实体提及,最长匹配策略是指在药品说明书文本中寻找字典中最长的词。例如文本“盐酸二甲双胍适用于2型糖尿病”,字典中同时存在“二甲双胍”和“盐酸二甲双胍”两个词条,这里就用长度最长的“盐酸二甲双胍”作为该文本所抽取得到的药品实体提及,以提升召回率。抽取的药品实体提及若为该药品本身,则需要删除。将抽出的药品实体提及与该药的通用名或商品名计算相似度,删除相似度高于预设阈值的药品实体提及。例如,对于药品盐酸二甲双胍缓释片的药品相互作用章节中,会出现类似于“呋塞米增加二甲双胍血清和全血药物浓度”,此处如果抽取的药品实体提及为二甲双胍,则二甲双胍实际指的就是本药品本身,所以不能建立二甲双胍和盐酸二甲双胍缓释片的相互作用关系,上述的相似度计算公式为:
Figure BDA0002531128290000221
其中lcs表示两个词条的最大公共子序列的长度,max_len表示最大的词条长度,min_len表示最小的词条长度,当lcs和max_len比值大于0.5,并且lcs和min_len比值大于0.95时,认为两词条是相似的。
进一步地,添加单元,包括:
匹配子单元,用于将各所述药品实体提及分别匹配成化学成分信息和药品类别信息;
对应子单元,用于根据各所述药品实体提及分别对应的化学成分信息和药品类别信息,将各所述药品实体提及分别对应到相应的ATC编码中。
抽取的药品实体提及分别匹配成化学成分信息和类别信息两类,并分别对应到ATC上,无法对应到ATC的部分信息则作为ATC的节点补充,成为独立节点。若药品实体提及和ATC编码对应的中文名称相似,就认为该药品实体提及对应到了相应的ATC编码,以方便查找或应用形成的药品知识图谱。
进一步地,所述实体提及包括用药属性实体提及,数据处理模块4,包括:
第三判断单元,用于判断各所述用药属性实体提及是否存在预设的正则表达式;
第二调用单元,用于若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;
第四判断单元,用于判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;
组合单元,用于若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
用法用量是商品名层级药品与用药属性的关系,用药属性含有给药剂量,给药频率,疗程,用药方法,疾病,人群六个属性。正则表达式抽取过程,举例如下表1,给药剂量、给药频率、疗程、用药方法这四个属性也使用正则表达式抽取,人群和疾病这两个属性则使用外部词典基于最长匹配抽取。上述外部词典包括疾病词典和人群词典,疾病词典是前文抽取出的疾病实体提及整理所得的词典,人群词典是业务领域内长期维护积累的人群信息词典。通过最长匹配策略抽取第二属性的过程,和抽取药品实体提及是相类似的,通过上述外部词典构建字典树抽取,不赘述。由于同一种药品针对于不同适应症或人群的用法用量是不同的,所以需要根据疾病和人群这两个属性,对抽取的所有属性分组,组合成一个用药属性实体提及。如果一个句子中出现了所用的六个属性,则将这些属性组合在一起。属性分组的策略是同一个句子中同时出现了上述六个属性,就将此六个属性分到一个属性组。
表1
Pattern Description Example
一[次日][num]+片 给药剂量,[num]表示整数或小数 一次一粒
一日[0-9]+次 给药频率 一日3次
疗程[0-9]+[日天] 疗程 连续10天
[口嚼吞泡饮]服 用药方法 饭后口服
静脉.{0,2}注射 用药方法 静脉内注射140mgI/ml
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线链接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储药品知识图谱的构建过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络链接通信。该计算机程序被处理器执行时以实现药品知识图谱的构建方法。
上述处理器执行上述药品知识图谱的构建方法,包括:将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
上述计算机设备,将药品说明书分为三个章节分别训练序列标注模型,以进行实体提及的识别、提取和链接,且在实体提及的抽取过程中,通过添加lexicon特征向量和/或softword特征向量,并将lexicon特征向量和/或softword特征向量与字向量拼接,形成序列标注模型的输入量,提高实体提及的抽取效果,实现了以样品说明书为数据基准,准确抽取实体提及的技术方案,节省了大量人工成本,提高了药品知识图谱的构建效率和精准度。
在一个实施例中,上述处理器获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量的步骤,包括:将各所述章节分别对应的文本进行预处理,得到预处理后的文本;将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
在一个实施例中,上述处理器将各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各章节分别对应的序列标注模型中,抽取各章节分别包括的实体提及的步骤,包括:将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
在一个实施例中,上述处理器根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
在一个实施例中,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,上述处理器根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
在一个实施例中,药品相互作用章节的实体提及包括药品实体提及,上述处理器根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:将所述药品相互作用章节对应的所有药品实体提及构建成字典树;根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
在一个实施例中,所述实体提及包括用药属性实体提及,上述处理器根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:判断各所述用药属性实体提及是否存在预设的正则表达式;若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现药品知识图谱的构建方法,包括:将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱。
上述计算机可读存储介质,将药品说明书分为三个章节分别训练序列标注模型,以进行实体提及的识别、提取和链接,且在实体提及的抽取过程中,通过添加lexicon特征向量和/或softword特征向量,并将lexicon特征向量和/或softword特征向量与字向量拼接,形成序列标注模型的输入量,提高实体提及的抽取效果,实现了以样品说明书为数据基准,准确抽取实体提及的技术方案,节省了大量人工成本,提高了药品知识图谱的构建效率和精准度。
在一个实施例中,上述处理器获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量的步骤,包括:将各所述章节分别对应的文本进行预处理,得到预处理后的文本;将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
在一个实施例中,上述处理器将各章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各章节分别对应的序列标注模型中,抽取各章节分别包括的实体提及的步骤,包括:将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
在一个实施例中,上述处理器根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
在一个实施例中,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,上述处理器根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
在一个实施例中,药品相互作用章节的实体提及包括药品实体提及,上述处理器根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:将所述药品相互作用章节对应的所有药品实体提及构建成字典树;根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
在一个实施例中,所述实体提及包括用药属性实体提及,上述处理器根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:判断各所述用药属性实体提及是否存在预设的正则表达式;若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种药品知识图谱的构建方法,其特征在于,包括:
将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱;
根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:
将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;
判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;
若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;
若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;
根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
2.根据权利要求1所述的药品知识图谱的构建方法,其特征在于,所述获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量的步骤,包括:
将各所述章节分别对应的文本进行预处理,得到预处理后的文本;
将所述预处理后的文本输入word2vec进行无监督学习,获得所述预处理后的文本中的各字符分别对应的字向量;
将所述预处理后的文本中的各字符,依据Jieba分词中的分词标签分别对应标注各字符所属分词类别的softword特征,并通过softword映射矩阵,得到所述预处理后的文本中的各字符分别对应的softword特征向量;和/或将所述预处理后的文本中的各字符,依据预创建的医疗词典中的类词信息,分别对应标注各字符所属类词信息的lexicon特征,并通过lexicon映射矩阵,得到所述预处理后的文本中的各字符分别对应的lexicon特征向量。
3.根据权利要求1所述的药品知识图谱的构建方法,其特征在于,所述将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各章节分别对应的序列标注模型中,抽取各章节分别包括的实体提及的步骤,包括:
将指定字符对应的所述lexicon特征向量和/或softword特征向量、字向量依次拼接,形成所述指定字符对应的输入向量,以分别得到所述药品和疾病关系章节对应的第一输入向量、所述药品相互作用章节对应的第二输入向量和所述药品用法用量章节对应的第三输入向量;
将所述第一输入向量输入药品和疾病关系章节对应的第一模型,将所述第二输入向量输入药品相互作用章节对应的第二模型,将所述第三输入向量输入药品用法用量章节对应的第三模型,以得到各所述章节分别对应的实体提及,其中,所述第一模型、第二模型和第三模型的模型结构相同、模型参数不同。
4.根据权利要求1所述的药品知识图谱的构建方法,其特征在于,所述药品和疾病关系章节包括适应症章节、禁忌症章节和不良反应章节,所述实体提及包括疾病实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:
根据前缀词典为所述适应症章节、禁忌症章节和不良反应章节中分别对应的疾病实体提及,匹配对应的身体部位和疾病分型;
判断匹配的身体部位的数量或匹配的疾病分型的数量,是否大于两个;
若大于两个,则判定匹配的身体部位的数量或匹配的疾病分型的数量大于两个的指定疾病实体提及,存在并列关系;
将所述指定疾病实体提及拆分成多个疾病实体提及,以满足每个疾病实体提及对应一个身体部位和一个疾病分型。
5.根据权利要求1所述的药品知识图谱的构建方法,其特征在于,药品相互作用章节的实体提及包括药品实体提及,所述根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及的步骤之后,包括:
将所述药品相互作用章节对应的所有药品实体提及构建成字典树;
根据所述字典树采用最长匹配策略,在所述药品相互作用章节对应的文本中,匹配新药品实体提及;
分别计算所述新药品实体提及与所述字典树中的药品实体提及的相似度;
将相似度满足预设要求的新药品实体提及,添加至所述药品相互作用章节对应的所有药品实体提及中。
6.根据权利要求1所述的药品知识图谱的构建方法,其特征在于,所述实体提及包括用药属性实体提及,根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:
判断各所述用药属性实体提及是否存在预设的正则表达式;
若存在预设的正则表达式,则调用对应的正则表达式在所述药品用法用量章节中的文本中抽取对应的第一属性,否则调用预设字典树基于最长匹配抽取第二属性;
判断所有所述第一属性的类型和所有所述第二属性的类型,是否包含于同一个自然句子中;
若包含于同一个自然句子中,则按照预设属性分组进行属性组合,形成所述用药属性实体提及。
7.一种药品知识图谱的构建装置,其特征在于,包括:
划分模块,用于将构建药品知识图谱的指定样本,分别按照字符关键字进行章节划分,其中,所述指定样本包括药品说明书文本,包含于构建药品知识图谱的所有文本中,所述章节包括药品和疾病关系章节、药品相互作用章节和药品用法用量章节;
获取模块,用于获取各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量;
拼接模块,用于将各所述章节分别包括的字向量,以及lexicon特征向量和/或softword特征向量拼接后,一一对应输入各所述章节分别对应的序列标注模型中,以抽取各所述章节分别包括的实体提及;
数据处理模块,用于根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及;
链接模块,用于将各所述待链接实体提及链接到候选疾病实体提及上,并根据所述指定样本中各所述待链接实体提及的链接过程,将构建药品知识图谱的所有文本分别对应的待链接实体提及均链接到候选疾病实体提及上,形成所述药品知识图谱;
根据预设规则对各所述章节分别对应的实体提及进行数据处理,得到待链接实体提及的步骤,包括:
拆分模块,用于将各章节对应的文本中的句子,按照停顿标点符号,拆分成依次排列的各子句;
第一判断模块,用于判断第一子句中是否包括实体提及,其中,所述第一子句包含于所有子句中;
第二判断模块,用于若第一子句中包括实体提及,则调用预设关键词表格,并判断所述第一子句中是否包括所述预设关键词表格中的关键字,其中,所述预设关键词表格通过汇总无关实体提及得到;
删除模块,用于若所述第一子句中包括所述预设关键词表格中的关键字,则删除所述第一子句中包括的无关实体提及,否则保留;
过滤模块,用于根据所述第一子句中的实体提及的过滤过程,过滤各所述章节分别对应文本中的所有子句,得到各所述章节分别对应的待链接实体提及。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010518781.9A 2020-06-09 2020-06-09 药品知识图谱的构建方法、装置和计算机设备 Active CN111723570B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010518781.9A CN111723570B (zh) 2020-06-09 2020-06-09 药品知识图谱的构建方法、装置和计算机设备
PCT/CN2020/098805 WO2021139101A1 (zh) 2020-06-09 2020-06-29 药品知识图谱的构建方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010518781.9A CN111723570B (zh) 2020-06-09 2020-06-09 药品知识图谱的构建方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111723570A CN111723570A (zh) 2020-09-29
CN111723570B true CN111723570B (zh) 2023-04-28

Family

ID=72566278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010518781.9A Active CN111723570B (zh) 2020-06-09 2020-06-09 药品知识图谱的构建方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111723570B (zh)
WO (1) WO2021139101A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199493B (zh) * 2020-10-16 2024-06-21 深圳平安智慧医健科技有限公司 用药准确性确定方法、装置、电子设备及存储介质
CN111950303B (zh) * 2020-10-19 2021-01-08 平安科技(深圳)有限公司 医疗文本翻译方法、装置及存储介质
CN112687403B (zh) * 2021-01-08 2022-12-02 拉扎斯网络科技(上海)有限公司 药品词典的生成及药品搜索方法及装置
CN113535981A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 一种公告内容分析方法、系统、电子设备及存储介质
CN114005507A (zh) * 2021-09-23 2022-02-01 厦门大学 一种基于知识图谱的临床用药风险评估方法和系统
CN115757827A (zh) * 2022-11-21 2023-03-07 开普云信息科技股份有限公司 专利文本的知识图谱创建方法、装置、存储介质及设备
CN115859987B (zh) * 2023-01-19 2023-06-16 阿里健康科技(中国)有限公司 实体提及识别模块及其链接方法、设备和介质
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377755A (zh) * 2019-07-03 2019-10-25 江苏省人民医院(南京医科大学第一附属医院) 基于药品说明书的合理用药知识图谱构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169078A (zh) * 2017-05-10 2017-09-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
CN110008959A (zh) * 2019-03-26 2019-07-12 北京博瑞彤芸文化传播股份有限公司 一种医学数据处理方法及系统
CN110390021A (zh) * 2019-06-13 2019-10-29 平安科技(深圳)有限公司 药品知识图谱构建方法、装置、计算机设备及存储介质
CN110569366B (zh) * 2019-09-09 2023-05-23 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN111028952B (zh) * 2019-11-27 2023-08-04 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN111221979B (zh) * 2019-12-31 2021-05-28 北京左医健康技术有限公司 药品知识图谱构建方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377755A (zh) * 2019-07-03 2019-10-25 江苏省人民医院(南京医科大学第一附属医院) 基于药品说明书的合理用药知识图谱构建方法

Also Published As

Publication number Publication date
CN111723570A (zh) 2020-09-29
WO2021139101A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111723570B (zh) 药品知识图谱的构建方法、装置和计算机设备
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
Alicante et al. Unsupervised entity and relation extraction from clinical records in Italian
CN111708874A (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN110377755A (zh) 基于药品说明书的合理用药知识图谱构建方法
CN110032648A (zh) 一种基于医学领域实体的病历结构化解析方法
CN112035637A (zh) 医学领域意图识别方法、装置、设备及存储介质
CN111639190A (zh) 医疗知识图谱构建方法
CN111048167B (zh) 一种层级式病例结构化方法及系统
CN113707297A (zh) 医疗数据的处理方法、装置、设备及存储介质
Friedman et al. Natural language and text processing in biomedicine
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN109657158A (zh) 一种基于社交网络数据的药品不良事件信息提取方法
CN112149411B (zh) 一种抗生素临床使用领域本体构建方法
CN113764112A (zh) 一种在线医疗问答方法
CN116805013A (zh) 一种基于知识图谱的中医药视频检索模型
Hu et al. A novel neural network model fusion approach for improving medical named entity recognition in online health expert question-answering services
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
JP4661415B2 (ja) 表現ゆれ処理システム
Grouin et al. Optimizing annotation efforts to build reliable annotated corpora for training statistical models
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Kocijan et al. Building Croatian medical dictionary from medical corpus
CN113744891B (zh) 一种药品知识图谱表示学习方法
CN111180076B (zh) 一种基于多层语义分析的医疗信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033522

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant