CN110569343A - 一种基于问答的临床文本结构化的方法 - Google Patents

一种基于问答的临床文本结构化的方法 Download PDF

Info

Publication number
CN110569343A
CN110569343A CN201910757519.7A CN201910757519A CN110569343A CN 110569343 A CN110569343 A CN 110569343A CN 201910757519 A CN201910757519 A CN 201910757519A CN 110569343 A CN110569343 A CN 110569343A
Authority
CN
China
Prior art keywords
words
text
clinical
answer
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910757519.7A
Other languages
English (en)
Other versions
CN110569343B (zh
Inventor
翟洁
邱家辉
叶琪
薛魁
阮彤
周扬名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910757519.7A priority Critical patent/CN110569343B/zh
Publication of CN110569343A publication Critical patent/CN110569343A/zh
Application granted granted Critical
Publication of CN110569343B publication Critical patent/CN110569343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于问答的临床文本结构化方法,包括以下步骤:首先,将临床文本X和查询文本Q集成输入到采用预训练语言模型BERT训练,输出对应X和Q的上下文表征向量Vs;将结果输入到临床命名实体识别模型,输出命名实体信息和标注序列Int和Inq;然后,将标注序列Int、Inq集成为命名实体信息In,然后将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi;最后,利用Hi计算回答Q在X中的开始、结束位置索引值,得到答案文本。本发明实验结果表明基于问答的临床文本结构化方法在EM评分和F1评分方面明显优于BERT‑Base方法。

Description

一种基于问答的临床文本结构化的方法
技术领域
本发明涉及临床文本结构化技术领域,更为具体地,尤其涉及一种基于问答的临床文本结构化方法。
背景技术
电子健康记录(EHR)是以个人健康、保健和治疗为中心的数字记录,EHR系统可以让医疗保健变得更为智能、安全、高效。从电子健康记录中提取大量医疗研究数据的过程中,临床文本结构化是至关重要的一环。临床文本基本是自然语言文本,是非结构化的数据,需要对文本进行预处理,从中提取患者症状、疾病、检验、检查等数据,得到结构化的数据。文本结构化后的数据可有助于生物医学的系统研发和科学研究。临床文本中数据的人工抽取费时费力,因此数据的自动抽取成为研究热点。
目前临床文本结构化的自动化方法有如下几种:1)基于规则和字典的临床文本结构化方法;2)端到端的临床文本结构化方法;3)工作流式的临床文本结构化方法。基于规则和字典的抽取方法需要大量人工制定的抽取规则,代价较高。端到端的临床文本结构化方法解决了该问题,但仍有如下两个问题亟待解决:1) 不同的临床文本结构化任务的数据输出格式不统一。例如从文本中提取分类信息或其他特定信息、依据文本中信息推导出对应信息等诸如此类的临床文本结构化任务,要分别为每个任务构建相应的模型,每个模型均需要大量对应的标注数据及不同的输出格式。2)为了训练神经网络,需要标注大量数据,耗费人力。工作流式的临床文本结构化方法将完整的处理过程分解为多个步骤,提高了临床文本结构化的性能,然而随着流水线的深度增加,错误传播的几率也更大。
发明内容
本发明为解决上述技术问题,提供一种基于问答的临床文本结构化方法。将一般的临床文本结构化任务转换为从临床段落文本中抽取和问题最相关答案的任务。其特征在于,包括以下步骤:
A1,将临床文本X和查询文本Q集成输入到上下文表征模型,上下文表征模型采用预训练语言模型BERT,输出对应临床文本X和查询文本Q的上下文表征向量Vs
A2,将临床文本X和查询文本Q分别输入临床命名实体识别模型,输出命名实体信息,并分别得到具有BIEOS标注机制的 one-hot实体信息的标注序列Int和Inq
A3,将标注序列Int、Inq集成为命名实体信息In,然后将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi
A4,利用Hi计算回答查询文本Q在临床文本X中的开始、结束位置索引值,得到答案文本,即结构化后的结果。
优选地,在所述步骤A1中,对于临床文本X和查询文本Q 的输入形式为’[CLS]Q[SEP]X[SEP]’,查询文本Q和临床文本X的二进制位置编码分别为0和1,输入中的每个中文字均映射为一个预训练的特征向量ei,,位置编码和掩码矩阵自动构建,生成绝对的位置信息,并消除零填充的影响,最后由BERT-Base模型生成关于临床文本X和查询文本Q信息的上下文表征向量Vs
优选地,在所述步骤A2中,将临床文本X和查询文本Q 分别输入到临床命名实体识别模型,临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型,选用语料库进行训练,得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot 实体信息的标注序列Int和Inq
优选地,在所述步骤A3中,采用两个阶段对信息进行集成,第一阶段将命名实体信息Int、Inq集成为In,第二阶段将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi,其中,
第一阶段的集成采用转换的方法,利用多头自注意力机制为 Int、Inq编码,集成的表示为:
In=[Attention1(Wq1Q′,Wk1K,Wv1V);
...;Attentionh(Q′,K,V)]Wo
其中h是头的数目,Wo表示投影到连接矩阵的维度,Attention的表示如下:
第二阶段的集成采用连接的方法,集成的表示如下:
Hi=[In;Vs]。
优选地,在所述步骤A4中,利用集成的表示Hi去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值,将该计算问题转换为分类问题,即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置,利用前馈网络精简和计算每个字Hf的评分,维度为<ls,2>,即表示每个字对应的概率得分,其中ls表示输入序列的长度,
Hf=FFN(Hi)
然后对两个维度分别进行SoftMax计算,得到概率表示。loss 函数的计算过程定义如下,
其中,Os=softmax(permute(Hf)0)表示每个字是答案起始字的概率评分,,Oe=softmax(permute(Hf)1)表示每个字是答案结尾字的概率评分,ys和ye表示正确答案的概率评分,分别表示每个字在临床文本X中作为答案起始和终止位置的概率,最后得到答案文本,即结构化后的结果。
优选地,基于问答的临床文本结构化方法,其特征在于,所述方法还包括:利用两阶段训练机制加速训练的过程,第一阶段直接把BERT模型向最终问题做适配,训练得到微调后的BERT 权重。第二阶段把实体信息引入模型,同时加载一阶段训练好的参数,再训练得到最终的模型。
优选地,在所述步骤A2中,其特征在于,所述方法还包括:选用的语料库包括:具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。
本发明的基于问答的临床文本结构化方法,主要贡献点为:
1)创建了基于问答的临床文本结构化方法,统一了多个临床文本结构化任务的输出格式,得到可共享的数据集,从而解决了数据短缺的问题,实现了全面改善,同时该方法的深度远低于流水线方法的深度,错误传播的几率也随之降低;
2)本发明将临床命名实体信息和预训练的语言模型集成在一起,并提出了两阶段训练机制以加速训练过程,实验结果表明基于问答的临床文本结构化方法的EM(问答完全匹配)评分和 F1评分达到91.84分和93.75分,相比于BERT-Base方法结果提高了5.64分和3.69分。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面,其中,
图1示出本发明基于问答的临床文本结构化方法的示意性流程图;
图2示出本发明基于问答的临床文本结构化方法实施例;
图3示出本发明基于问答的临床文本结构化方法的示意性架构图。
具体实施方式
为了使本申请所揭示的技术内容更加详尽与完备,可参照附图以及本发明的下述具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。
请参考图1,图1为本申请实施例提供的一种基于问答的临床文本结构化方法的示意性流程图,如图1所示,本申请实施例提供的一种基于问答的临床文本结构化方法可以包括以下步骤:
A1,基于问答的临床文本结构化方法通过上下文表征模型获取对应临床文本和查询文本的上下文表征向量。
将临床文本X和查询文本Q集成输入到上下文表征模型,上下文表征模型采用预训练语言模型BERT,输出对应临床文本X和查询文本Q的上下文表征向量Vs
A2,基于问答的临床文本结构化方法获取对应临床文本和查询文本的命名实体信息的标注序列。
将临床文本X和查询文本Q分别输入临床命名实体识别模型,输出命名实体信息,并分别得到具有BIEOS标注机制的one-hot 实体信息的标注序列Int和Inq
A3,基于问答的临床文本结构化方法将上下文表征信息和命名实体信息进行集成。
将标注序列Int、Inq集成为命名实体信息In,然后将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi
A4,基于问答的临床文本结构化方法获取答案文本,即结构化后的结果。
利用Hi计算回答查询文本Q在临床文本X中的开始、结束位置索引值,得到答案文本,即结构化后的结果。
请参考图2,图2示出本发明基于问答的临床文本结构化方法实施例。
在该实施例中,临床文本X为“远端胃切除标本:小弯长 11.5cm,大弯长17.0cm。距上切端6.0cm、下切端8.0cm”,问题Q为“上切缘距离?”,答案V来自于文本X中索引位置32-37的子串“6.0cm”;
在上述实施例中,设段落文本为X=<x1,x2,...,xn>,基于问答的临床文本结构化方法将临床文本结构化问题看作依据段落文本X中内容得到一对值<Q,V>,Q表示查询的问题,V表示查询的结果,首先,找到和问题Q相关的文本X;然后,通过BERT 转换模型从段落文本X中生成最终的答案V;答案V是文本X中与问题相关的文本<xi,xi+1,xi+2 ...,xj>(1<=i<j<=n)。
请参考图3,图3示出本发明基于问答的临床文本结构化方法的示意性架构图。其中,基于问答的临床文本结构化方法的架构包括:
1)临床文本和查询文本的上下文表征
对于临床文本X和查询文本Q的输入形式为’[CLS]Q[SEP]X [SEP]’,查询文本Q和临床文本X的二进制位置编码分别为0和1,输入中的每个中文字均映射为一个预训练的特征向量ei,,位置编码和掩码矩阵自动构建,生成绝对的位置信息,并消除零填充的影响,最后由BERT-Base模型生成关于临床文本X和查询文本Q 信息的上下文表征向量Vs
2)临床命名实体信息
将临床文本X和查询文本Q分别输入到临床命名实体识别模型,临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型,选用语料库进行训练,得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot实体信息的标注序列Int和 Inq。一个实施例如表I所示,“远端胃切除”标注为“手术”,“11.5”标注为数字,“cm”标注为单位。命名实体标注序列构成的形式是one-hot类型。X和Q的命名实体标注序列分别表示为Int和Inq
选用的语料库包括:具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。
表I命名实体特征标注示例
3)集成的方法
采用两个阶段对信息进行集成,第一阶段将命名实体信息 Int、Inq集成为In,第二阶段将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi,其中,
第一阶段的集成采用转换的方法,利用多头自注意力机制为 Int、Inq编码,集成的表示为:
In=[Attention1(Wq1Q′,Wk1K,Wv1V);
...;Attentionh(Q′,K,V)]Wo
其中h是头的数目,Wo表示投影到连接矩阵的维度,Attention的表示如下:
第二阶段的集成采用连接的方法,集成的表示如下:
Hi=[In;Vs]。
4)关于答案文本的预测
利用集成的表示Hi去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值,将该计算问题转换为分类问题,即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置,利用前馈网络精简和计算每个字Hf的评分,维度为<ls,2>,即表示每个字对应的概率得分,其中ls表示输入序列的长度,
Hf=FFN(Hi)
然后对两个维度分别进行SoftMax计算,得到概率表示。loss 函数的计算过程定义如下,
其中,Os=softmax(permute(Hf)0)表示每个字是答案起始字的概率评分,Oe=softmax(permute(Hf)1)表示每个字是答案结尾字的概率评分,ys和ye表示正确答案的概率评分,分别表示每个字在临床文本X中作为答案起始和终止位置的概率,最后得到答案文本,即结构化后的结果。
5)两阶段训练机制
利用两阶段训练机制加速训练的过程,第一阶段直接把 BERT模型向最终问题做适配,训练得到微调后的BERT权重。第二阶段把实体信息引入模型,同时加载一阶段训练好的参数,再训练得到最终的模型。
具体的实施例:
1)数据集
本发明的数据集来源于瑞金医院胃肠外科。数据集包含17,833 个句子,826,987个字符和2,714个问答对。不同类型实体的详细统计数据列于表II中。
表II不同类型实体的统计数据
2)实验设置
本发明利用带有TensorFlow后端的Keras库,每个模型在单个NVIDIA GeForce GTX1080 Ti GPU上运行。模型由Adam优化算法训练,学习速率设置为5×10-5,其它参数与默认设置相同。批量大小设置为3或4。
3)基于问答的临床文本结构化方法与BERT-Base方法的比较
目前在问答领域BERT-Base方法的性能是最优的,因此将本发明提出的QA-临床文本结构化方法与BERT-Base方法进行了实验对比。实验结果如表III所示(注:EM表示问答完全匹配)。从实验结果得知:基于问答的临床文本结构化方法的性能优于 BERT-Base方法。
表III基于问答的临床文本结构化方法与 BERT-Base方法的比较结果
消融分析
为了分析本发明提出的基于问答的临床文本结构化方法中关键部件的影响,进行了消融分析。分析结果如表IV所示。由分析结果可知:实体命名信息与两阶段训练机制同时利用,效果最优。
表IV关键部件的影响
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思来做出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims (7)

1.一种基于问答的临床文本结构化方法,其特征在于,包括以下步骤:
A1,将临床文本X和查询文本Q集成输入到上下文表征模型,上下文表征模型采用预训练语言模型BERT,输出对应临床文本X和查询文本Q的上下文表征向量Vs
A2,将临床文本X和查询文本Q分别输入临床命名实体识别模型,输出命名实体信息,并分别得到具有BIEOS标注机制的one-hot实体信息的标注序列Int和Inq
A3,将标注序列Int、Inq集成为命名实体信息In,然后将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi
A4,利用Hi计算回答查询文本Q在临床文本X中的开始、结束位置索引值,得到答案文本,即结构化后的结果。
2.根据权利要求1所述的一种基于问答的临床文本结构化方法,其特征在于:在所述步骤A1中,对于临床文本X和查询文本Q的输入形式为’[CLS]Q[SEP]X[SEP]’,查询文本Q和临床文本X的二进制位置编码分别为0和1,输入中的每个中文字均映射为一个预训练的特征向量ei,,位置编码和掩码矩阵自动构建,生成绝对的位置信息,并消除零填充的影响,最后由BERT-Base模型生成关于临床文本X和查询文本Q信息的上下文表征向量Vs
3.根据权利要求1所述的一种基于问答的临床文本结构化方法,其特征在于:在所述步骤A2中,将临床文本X和查询文本Q分别输入到临床命名实体识别模型,临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型,选用语料库进行训练,得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot实体信息的标注序列Int和Inq
4.根据权利要求1所述的一种基于问答的临床文本结构化方法,其特征在于:在所述步骤A3中,采用两个阶段对信息进行集成,第一阶段将命名实体信息Int、Inq集成为In,第二阶段将隐藏的上下文表征信息Vs和命名实体信息In集成为Hi,其中,
第一阶段的集成采用转换的方法,应用多头自注意力机制为Int、Inq编码,集成的表示为:
In=[Attention1(Wq1Q′,Wk1K,Wv1V);
...;Attentionh(Q′,K,V)]Wo
其中h是头的数目,Wo表示投影到连接矩阵的维度,Attention的表示如下:
第二阶段的集成采用连接的方法,集成的表示如下:
Hi=[In;Vs]。
5.根据权利要求1所述的一种基于问答的临床文本结构化方法,其特征在于:在所述步骤A4中,利用集成的表示Hi去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值,将该计算问题转换为分类问题,即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置,应用前馈网络精简和计算每个字Hf的评分,维度为<ls,2>,即表示每个字对应的概率得分,其中ls表示输入序列的长度,
Hf=FFN(Hi)
然后对两个维度分别进行SoftMax计算,得到概率表示。loss函数的计算过程定义如下,
其中,Os=softmax(permute(Hf)0)表示每个字是答案起始字的概率评分,,Oe=softmax(permute(Hf)1)表示每个字是答案结尾字的概率评分,ys和ye表示正确答案的概率评分,分别表示每个字在临床文本X中作为答案起始和终止位置的概率,最后得到答案文本,即结构化后的结果。
6.根据权利要求1所述的一种基于问答的临床文本结构化方法,其特征在于,所述方法还包括:应用两阶段训练机制加速训练的过程,第一阶段直接把BERT模型向最终问题做适配,训练得到微调后的BERT权重;第二阶段把实体信息引入模型,同时加载一阶段训练好的参数,再训练得到最终的模型。
7.根据权利要求3所述的一种基于问答的临床文本结构化方法,其特征在于,选用的语料库包括:具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。
CN201910757519.7A 2019-08-16 2019-08-16 一种基于问答的临床文本结构化方法 Active CN110569343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910757519.7A CN110569343B (zh) 2019-08-16 2019-08-16 一种基于问答的临床文本结构化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757519.7A CN110569343B (zh) 2019-08-16 2019-08-16 一种基于问答的临床文本结构化方法

Publications (2)

Publication Number Publication Date
CN110569343A true CN110569343A (zh) 2019-12-13
CN110569343B CN110569343B (zh) 2023-05-09

Family

ID=68775638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757519.7A Active CN110569343B (zh) 2019-08-16 2019-08-16 一种基于问答的临床文本结构化方法

Country Status (1)

Country Link
CN (1) CN110569343B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428005A (zh) * 2020-04-12 2020-07-17 中信银行股份有限公司 标准问答对确定方法、装置及电子设备
CN112446914A (zh) * 2020-12-04 2021-03-05 中国矿业大学(北京) 一种放顶煤过程中的煤矸石质量计算方法及系统
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN113420160A (zh) * 2021-06-24 2021-09-21 竹间智能科技(上海)有限公司 数据处理方法和设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及系统
US20170351677A1 (en) * 2016-06-03 2017-12-07 International Business Machines Corporation Generating Answer Variants Based on Tables of a Corpus
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
CN109493956A (zh) * 2018-10-15 2019-03-19 海口市人民医院(中南大学湘雅医学院附属海口医院) 一种导诊方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及系统
US20170351677A1 (en) * 2016-06-03 2017-12-07 International Business Machines Corporation Generating Answer Variants Based on Tables of a Corpus
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
CN109493956A (zh) * 2018-10-15 2019-03-19 海口市人民医院(中南大学湘雅医学院附属海口医院) 一种导诊方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙健 等: "中文电子病历文本中的时间识别算法研究", 《山西大学学报(自然科学版)》 *
王祺 等: "基于循环胶囊网络的临床语义关系识别研究", 《广西师范大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113032469B (zh) * 2019-12-24 2024-02-20 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN111428005A (zh) * 2020-04-12 2020-07-17 中信银行股份有限公司 标准问答对确定方法、装置及电子设备
CN112446914A (zh) * 2020-12-04 2021-03-05 中国矿业大学(北京) 一种放顶煤过程中的煤矸石质量计算方法及系统
CN112446914B (zh) * 2020-12-04 2023-08-15 中国矿业大学(北京) 一种放顶煤过程中的煤矸石质量计算方法及系统
CN113420160A (zh) * 2021-06-24 2021-09-21 竹间智能科技(上海)有限公司 数据处理方法和设备
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110569343B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110569343B (zh) 一种基于问答的临床文本结构化方法
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN111897967A (zh) 一种基于知识图谱和社交媒体的医疗问诊推荐方法
CN110110059B (zh) 一种基于深度学习的医疗对话系统意图识别分类方法
CN113724882B (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
US20140040312A1 (en) Systems and methods for storage of declarative knowledge accessible by natural language in a computer capable of appropriately responding
Yang et al. Enhancing phenotype recognition in clinical notes using large language models: PhenoBCBERT and PhenoGPT
CN111048167A (zh) 一种层级式病例结构化方法及系统
CN112420191A (zh) 一种中医辅助决策系统及方法
CN112949308A (zh) 基于功能结构的中文电子病历命名实体识别方法及系统
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN111259111A (zh) 基于病历的辅助决策方法、装置、电子设备和存储介质
Akhtyamova et al. Adverse drug extraction in twitter data using convolutional neural network
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN117854748A (zh) 一种基于知识图谱和生成式大模型的问诊方法及系统
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
CN116092699A (zh) 一种基于预训练模型的癌症问答交互方法
CN118364088A (zh) 基于rag和llm技术的医学文献智能问答系统和方法
CN118013021A (zh) 基于大语言模型的医药解答方法、装置、设备及介质
CN117708306A (zh) 基于层进式问答结构的医学问答架构生成方法及系统
Liu et al. Cross-document attention-based gated fusion network for automated medical licensing exam
CN116453674A (zh) 一种智慧医疗系统
CN113408277A (zh) 一种基于电子病历文本的可迁移语言模型
CN113674866A (zh) 一种面向医疗文本的预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant