CN114582448A - 基于预训练语言模型的疫情病例信息抽取框架构建方法 - Google Patents

基于预训练语言模型的疫情病例信息抽取框架构建方法 Download PDF

Info

Publication number
CN114582448A
CN114582448A CN202210010887.7A CN202210010887A CN114582448A CN 114582448 A CN114582448 A CN 114582448A CN 202210010887 A CN202210010887 A CN 202210010887A CN 114582448 A CN114582448 A CN 114582448A
Authority
CN
China
Prior art keywords
case
text
language model
labeling
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210010887.7A
Other languages
English (en)
Inventor
孙媛媛
王治政
王卓越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210010887.7A priority Critical patent/CN114582448A/zh
Publication of CN114582448A publication Critical patent/CN114582448A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pathology (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出基于预训练语言模型的疫情病例信息抽取框架构建方法,集成了命名实体识别网络和蕴含式类别预测网络的疫情病例信息抽取框架,本发明设计了一种感染病例的数据标注规则,提出一种基于预训练语言模型的信息抽取框架自动提取病例中的核心要素,其中,命名实体识别网络能准确地识别病例文本中的命名实体,定位病例传播路径的关键信息,蕴含式病例类别预测网络能够高效预测蕴含式类别,判断病例传播途径的主要形式,框架实现了病例文本的结构化表示,以进一步辅助疾病防控专家制定新型冠状病毒传播的干预措施。

Description

基于预训练语言模型的疫情病例信息抽取框架构建方法
技术领域
本发明属于文本信息提取技术领域。涉及一种疫情病例信息抽取框架构建方法,更具体地说,涉及一种基于预训练语言模型的集成了命名实体识别网络和蕴含式类别预测网络的疫情病例信息抽取框架构建方法。
背景技术
新型冠状病毒(COVID-19)的爆发已经成为全世界共同面临的突发公共卫生事件,以文本形式公开新型冠状病毒感染病例在全世界范围内逐渐普遍。从海量的公开数据中快速提取有效信息有助于控制疾病传播和协调应急响应。但是仅依靠领域专家进行病例文本的实时分析是十分低效和耗时的,无法保障疾病防控和干预措施的时效性。
随着深度神经网络的崛起,人工智能技术不断进步。预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)的提出进一步推动了自然语言处理技术的发展,BERT通过在大量无标注文本上进行无监督训练来学习通用的、具有上下文特征的文本表示,并且在问答、机器翻译等十一项自然语言处理任务上取得了大幅度的性能提升。自然语言处理技术在信息抽取任务上的应用为提取病例文本中的关键事实提供了自动化识别模式。命名实体识别和文本分类是信息抽取的主要技术手段,深度学习模型能够从标注数据中学习适合病例信息抽取的参数,从而提取出新病例中的结构化事实。
深度神经网络是一种数据驱动的特征学习模式,其性能极大程度依赖于数据的规模和标注质量。数据的标注成本对于任何领域而言都是极为巨大的,尤其涉及新型冠状病毒传播这样的全新研究领域,数据标注的程式化和规范化尤为重要。此外,深度神经网络通常采用端到端的处理方式,对于某个具体任务而言通常具有很高的性能,但是模型不够灵活,可扩展性较差,从而不能完全适应于多方位的病例信息场景。
发明内容
为了克服现有技术中存在的不足,本发明针对新型冠状病毒感染病例的特殊性设计了一种数据标注规则,定义了11种细粒度命名实体和6种蕴含式类别来刻画病例文本的关键信息,并提供一种基于预训练语言模型的疫情病例信息抽取框架以自动提取病例信息中的核心要素。该框架使用预训练语言模型编码病例文本,获得病例文本向量表示。随后使用两种不同的神经网络结构分别对病例中的命名实体和蕴含式类别进行识别和分类,实现病例文本的结构化表示。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:基于预训练语言模型的疫情病例信息抽取框架构建方法,包括步骤如下:
步骤1,对原始疫情病例数据进行标注:分为命名实体标注和蕴含式类别标注;其中,所述的命名实体标注指构建命名实体类型,包括感染者的基本信息相关、病征时间相关、行动轨迹相关和医疗机构相关,使用专有符号对所述的实体类型进行再标注,并制定标注范式和标注最小粒度,使用“BIO”标注方法对实体进行标注;所述的蕴含式类别标注指将涉及具体场景的编码方式进行整合和类别再标注,形成多种蕴含式类别;将命名实体标注数据和全部蕴含式类别数据按比例划分为训练集、验证集和测试集;
步骤2,使用预训练语言模型编码病历文本,输出病例文本对应的词向量和句向量;
步骤3,采用双向长短期记忆网络LSTM和条件随机场CRF构建命名实体识别网络,基于步骤2输出的病例文本的词向量,判断病例文本中每个字所属的正确标签,实体识别网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试;
步骤4,采样全连接神经网络构建蕴含式类别预测网络,基于步骤2输出的病例文本的句向量,预测出该文本对应的正确蕴含式类别,蕴含式类别预测网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试。
进一步地,所述步骤1中,构建命名实体类型包括11种细粒度命名实体分别为:年龄、性别、起始地、中转地、目的地、抵达目的地时间、隔离时间、发病时间、就诊时间、就诊及收治医院、确诊时间。
进一步地,所述步骤1中,构建包括命名实体类型的命名实体识别标注体系,如表1所示:
表1.命名实体识别标注体系
Figure BDA0003457304100000031
其中,【】表示病例文本中提及类别再标注一列中的标签;XX场所表示病例文本中提及的中转地的名称;XX医院表示病例文本中提及的就诊及收治医院的名称。
进一步地,所述步骤1中,所述蕴含式类别为6种,包括感染场所、接触地点事件、接触人群、隔离地点、发现方式、病情程度。
进一步地,所述步骤1中,构建包括蕴含式类别的蕴含式类别标注体系,如表2所示:
表2.蕴含式类别标注体系
Figure BDA0003457304100000041
其中,NA表示病例文本中未提及该类别信息;返回人员*表示除疫情发生地以外的返回人员。
进一步地,步骤1中,所述命名实体标注的具体步骤为:
(a)采用人工粗标的方式对病例中的实体进行标注,得到粗标注数据;
(b)统计粗标注数据中不同命名实体类型的标签分布,为减少人工标注量,使用标签同分布的采样方式选取部分病例文本进行后续的精标注,同分布采样的损失函数如公式(1)所示,随机进行多轮的采样,计算同分布采样损失,选取损失最小的一轮采样样本作为最终的精标注样本;
Figure BDA0003457304100000051
其中L为标签的总数量,
Figure BDA0003457304100000052
Figure BDA0003457304100000053
分别表示粗标数据中第i个标签的个数和采样数据中第i个标签的个数;
(c)对采样的病例文本进行精标注,即在粗标注数据的基础上将病例文本中不属于选定实体范围的字段标注为其他实体类,包括其他时间、其他地点和其他机构三类;
进一步地,步骤2中,所述的预训练语言模型为BERT。
进一步地,步骤2中,使用预训练语言模型BERT编码病历文本;模型初始输入为病例文本集合C={c1,c,…cm…,cM},cm表示第m个病例文本,其中m∈M;病例文本c表示成词的集合c={w1,w2,…wn…,wN},wn表示病例文本中第n个字符,其中n∈N;预训练语言模型的输入向量En由字嵌入向量、分段嵌入向量和位置编码向量组合而成;其中,字嵌入向量是每个字符wn从嵌入矩阵取得的嵌入向量,其中[CLS]、[SEP]符号分别标识病例文本的开头和结尾;分段嵌入向量标识病例文本对的编号;位置编码向量标识每个单词的位置信息;
预训练语言模型对文本的向量转化过程用公式(2)概括,
Xn=Pre_trained(En,θ) (2)
其中n∈N、
Figure BDA0003457304100000054
θ为预训练语言模型的参数集合;当Xn取文本中每个字符所对应的实数向量时,预训练语言模型的输出为病例文本中的词向量;当Xn取[CLS]句子起始符所对应的实数向量时,预训练语言模型的输出为病例文本中的句向量。
进一步地,步骤3中,采用双向LSTM和CRF构建命名实体识别网络,具体包括以下步骤:
(a)基于预训练语言模型输出的词向量
Figure BDA0003457304100000061
采用双向LSTM学习实体间的长距离依赖信息,通过公式(3)进行描述,
Figure BDA0003457304100000062
其中,hn为经过双向LSTM编码后的向量输出;
(b)在双向LSTM之后增加一个CRF层以更好地学习命名实体标签之间存在的依赖关系,CRF层以双向LSTM的输出hn为输入学习标签路径的概率分布;对于给定输入c={c1,c2,…,cN},其标签序列的概率y={l1,l2,…ln…,lN}由公式(4)表示,
Figure BDA0003457304100000063
其中y′为任意可能标签序列,
Figure BDA0003457304100000064
Figure BDA0003457304100000065
是模型中可训练的参数;
(c)对于给定的M个训练样本
Figure BDA0003457304100000066
命名实体识别网络通过公式(5)所描述的损失函数计算网络的损失,通过最小化该损失函数优化命名实体识别网络;
Figure BDA0003457304100000067
进一步地,步骤4,基于全连接神经网络构建蕴含式类别预测网络,具体包括以下步骤:
(a)给定经过预训练语言模型编码的句向量,通过一个全连接神经网络进行非线性变换以提取文本特征,再经过softmax分类器获得病例文本的蕴含式类别标签;
(b)对于给定的M个病例文本
Figure BDA0003457304100000071
和病例文本的类别
Figure BDA0003457304100000072
蕴含式类别预测网络通过公式(6)所描述的损失函数计算网络的损失,通过最小化该损失函数优化蕴含式类别预测网络,
Figure BDA0003457304100000073
其中i表示第i个训练病例文本,
Figure BDA0003457304100000074
表示模型预测的类别,y表示病例文本的真实类别。
本发明有益效果是:本发明设计了一种疫情感染病例数据标注规则,提出一种基于预训练语言模型的信息抽取框架自动提取病例中的核心要素,其中,命名实体识别网络能准确地识别病例文本中的命名实体,定位病例传播路径的关键信息,蕴含式病例类别预测网络能够高效预测蕴含式类别,判断病例传播途径的主要形式,实现了病例文本的结构化表示,以进一步辅助疾病防控专家制定新型冠状病毒传播的干预措施。
附图说明
图1是本发明实施例新冠肺炎病例文本信息抽取步骤流程图。
图2是本发明实施例模型框架图。
图3是本发明实施例命名实体识别结果。柱状图展示了模型对9类命名实体的识别精确率、召回率和F值。精确率用黑线三角标示,召回率用灰线菱形标示,柱状长度表示F值。扇形面积图展示了病例文本中每类细粒度命名实体的标签数量。
图4是本发明实施例蕴含式类别预测结果。
图5是本发明实施例9种细粒度命名实体在粗标注(R.A)和精标注(F.A)条件下的F值对比图。图中柱状图表示精标注下的F值,折线图表示粗标注下的F值。折线图上的方形低于柱高说明粗标注的F值低于精标注F值。
具体实施方式
下面结合附图对本发明作进一步说明。
如图2所示,本发明实施例模型框架图中,标注数据包括命名实体标注和蕴含式类别标注两种形式。“B-”表示一个命名实体的开始位置,“I-”表示命名实体的中间位置。新冠疫情病例信息抽取框架COVID-19-CCIE由预训练语言模型、命名实体识别网络和蕴含式类别预测网络构成。
1、预训练语言模型中输入是病例文本中的每个单词,[CLS]标识句子的开始,[SEP]标识不同句子之间的分隔符;“T”表示Transformer,其内部结构如子图(a)所示。(a)中的⊕表示向量拼接操作。
2、命名实体识别网络由双向LSTM和CRF构成,“L”表示LSTM,其内部结构图如子图(b)表示。(b)中的
Figure BDA0003457304100000082
表示向量拼接,
Figure BDA0003457304100000081
表示向量的元素对位乘操作。σ为sigmoid函数,tanh表示激活函数,xt和ht分别为LSTM的输入和输出。
3、蕴含式类别预测网络由全连接神经网络构成,[CLS]向量为句向量。
4、模型评估包括命名实体识别评估和蕴含式类别预测评估。评估方式均为分析模型的输出结果与黄金标注之间的误差。
如图1所示,一种基于预训练语言模型的集成了命名实体识别网络和蕴含式类别预测网络的疫情病例信息抽取框架构建方法,包括以下步骤:
步骤1、以信息抽取技术的数据需求为导向,设计一套面向新型冠状病毒感染病例的标注规则,包括命名实体和蕴含式类别两种标注体系,具体包括以下子步骤:
(a)以信息抽取技术的数据需求为导向,设计一套面向新型冠状病毒感染病例的标注规则,包括命名实体和蕴含式类别两种标注体系,命名实体标注体系涵盖11种细粒度的命名实体类型,相应专有符号、标注范式、标注最小粒度如表1所示。为了让信息抽取模型聚焦于关键特征,将地点类别QSL、MDL的标注最小粒度限定为“市”,将时间类别的标注最小粒度限定为“日”。采用“BIO”标注方法对实体进行标注,具体地,对于实体起始位置的字符,标注为“B-L”,对于实体中间位置字符,标注为“I-L”,对于实体结束位置的字符,标注为“O-L”,其中L为实体所属类别的再标注标签;
(b)对于蕴含式类别标注体系,将涉及的具体场景编码方式进行整合,将语义相似的具体场景归为一类,最后整合成6种蕴含式类别,如表3所示;
表3.本实施例蕴含式类别标注体系
Figure BDA0003457304100000091
Figure BDA0003457304100000101
其中,NA表示病例文本中未提及该类别信息;返回人员*表示除疫情发生地以外的返回人员。
步骤2、对原始疫情病例数据进行处理和标注。依据步骤1的标注规则,通过粗标注、精标注两步对病例文本进行命名实体标注;通过文本匹配的方式进行蕴含式类别标注,构建病历信息抽取数据集;将精标注的少量命名实体数据和全部蕴含式类别数据按一定比例划分为训练集、验证集和测试集,得到新冠疫情病例抽取框架COVID-19-CCIE所需的信息抽取数据集;
命名实体标注具体包括以下子步骤:
(a)根据表1规则,采用人工粗标的方式对病例中的实体进行标注,得到粗标注数据;
(b)统计粗标注数据中9种命名实体的标签分布,为减少人工标注量,使用标签同分布的采样方式选取约12%的病例文本进行后续的精标注,同分布采样的损失函数如上述公式(1),随机进行100轮采样,计算同分布采样损失,选取损失最小的一轮采样样本作为最终的精标注样本;
(c)对采样的病例文本进行精标注,即在粗标注数据的基础上将病例文本中不属于选定实体范围的字段标注为其他实体类,包括其他时间(OTT)、其他地点(OTL)和其他机构(OTI)三类;
上述蕴含式类别标注,依据表3构造一个词汇表来存储所有蕴含式类别标签和该标签下的所有场景,通过文本匹配的方式将每一个病例文本与词汇表中的所有场景进行匹配,以确定感染病例所属的类别标签。
步骤3、使用预训练语言模型BERT编码病历文本,获得能够表达长距离语义信息的词向量。模型初始输入为病例文本集合C={c1,c,…cm…,cM},cm表示第m个病例文本,其中m∈M;病例文本c表示成词的集合c={w1,w2,…wn…,wN},wn表示病例文本中第n个字符,其中n∈N;预训练语言模型的输入向量En由字嵌入向量、分段嵌入向量和位置编码向量组合而成;其中,字嵌入向量是每个字符wn从嵌入矩阵取得的嵌入向量,其中[CLS]、[SEP]符号分别标识病例文本的开头和结尾;分段嵌入向量标识病例文本对的编号;位置编码向量标识每个单词的位置信息。预训练语言模型对文本的向量转化过程可以用公式(2)。当Xn取文本中每个字符所对应的实数向量时,预训练语言模型的输出为病例文本中的词向量。当Xn取[CLS]句子起始符所对应的实数向量时,预训练语言模型的输出为病例文本中的句向量。
步骤4、采用双向LSTM和CRF构建命名实体识别网络,该网络目标是对于病例文本中任意给定的词,判断出这个词所属的正确标签,具体包括以下子步骤:
(a)基于预训练语言模型输出的向量
Figure BDA0003457304100000111
采用双向LSTM学习实体间的长距离依赖信息,通过公式(3)进行描述;
(b)在双向LSTM之后增加一个CRF层以更好地学习命名实体标签之间存在的依赖关系,CRF层以双向LSTM的输出hn为输入来学习标签路径的概率分布。对于给定输入c={c1,c2,...,cN},其标签序列的概率y={l1,l2,…,lN}由公式(4)表示。
(c)对于给定的M个训练样本
Figure BDA0003457304100000112
命名实体识别网络通过公式(5)所描述的损失函数计算网络的损失,通过最小化该损失函数优化命名实体识别网络。
步骤5、基于全连接神经网络构建蕴含式类别预测网络,其目标是对于一个完整的病例文本s,预测出该文本对应的正确类别,具体包括以下子步骤:
(a)给定经过预训练语言模型编码的句向量,通过一个全连接神经网络进行非线性变换以提取文本特征,再经过softmax分类器获得病例文本的蕴含式类别标签;
(b)对于给定的M个病例文本
Figure BDA0003457304100000121
和病例文本的类别
Figure BDA0003457304100000122
蕴含式类别预测网络通过公式(6)所描述的损失函数计算网络的损失,通过最小化该损失函数优化蕴含式类别预测网络。
步骤6、对疫情病例信息抽取框架进行评估,分别针对命名实体识别和蕴含式类别预测两种不同的任务评估框架的信息抽取效果。
为了检验本发明的有效性,本发明在10017份感染者病例上进行了实验,对于命名实体识别任务,在1200份精标注病例中选取1000份作为该任务的训练集,其余200份中选取100份作为验证集、100份作为测试集,在测试集上评估模型效果;对于蕴含式类别预测任务,选取全部的10017份感染者病例并以8:1:1的比例划分为训练集、验证集和测试集,在测试集上评估模型效果。针对命名实体识别和蕴含式类别预测两种不同的任务,使用两套不同的评价体系来评估模型效果,对于命名实体识别任务,评估指标为精确率(Precision)、召回率(Recall)和F值(F-value),如公式(7)所示,
Figure BDA0003457304100000123
Figure BDA0003457304100000124
Figure BDA0003457304100000125
其中TP表示将正样本预测正确的数量,FP表示将正样本预测错误的数量,FN表示将负样本预测错误的数量,F值是精确率和召回率的谐波均值;
对于蕴含式类别预测任务,使用准确率(Acc.),宏F值(macro-F)和加权F值(weighted-F)来评估,如公式(8)所示,
Figure BDA0003457304100000126
Figure BDA0003457304100000127
Figure BDA0003457304100000131
其中m表示测试集中的样本数量,K表示样本标签类型的数量。Fi表示每一类标签的F值。Wi表示每一类标签的权重,这里使用每一类标签的样本数量作为计算加权F值的权重。
使用基于预训练语言模型的疫情病例信息抽取框架对11种细粒度的命名实体进行识别,其中年龄(AGE)和性别(GED)两种细粒度命名实体在病例文本中的描述非常规范且固定,因此使用正则式规则匹配方法进行提取,准确率可达100%。模型对其余9种细粒度的命名实体识别结果如图3所示,9类细粒度命名实体识别的平均F值为81.004%。抵达目的地时间(MDT),发病时间(FBT),确诊时间(QZT),目的地(MDL)和就诊及收治医院(ZSI)这五类实体的识别结果高于平均F值。其中ZSI类实体的F值达到最高的95.9%。同时,模型对于描述粒度更具体的中转地(ZZL)和数量占比不足5%的隔离地点(GLT)的识别率也能取得较高的F值。
使用基于预训练语言模型的疫情病例信息抽取框架对病例文本的蕴含式类别进行预测,模型对6种蕴含式类别的分类结果如图4所示,可以看出,基于预训练语言模型的疫情病例信息抽取框架对6种蕴含式类别的分类准确率(Acc.)均达到80%以上,从而说明模型能够准确的根据病例文本内容判断其所属的标签,从而明确感染者在病发周期内的接触对象以及当前的生命体征表现。宏F值(macro-F)反映了模型在不同标签中的分类性能,可以看到基于预训练语言模型的疫情病例信息抽取框架在标签种类较多且分布极不平衡的接触地点事件(Event)类中的性能依然是具有竞争力的。但是低于其他5种蕴含式类别的分类结果,这主要是因为在Event类别中,标签数量过少的Event_travel和Event_hospital的分类结果较低,从而影响了整体的宏F值。为此,我们引入加权F值来平衡样本数量对宏F值的影响。加权F值(weighted-F)的评估结果与准确率基本一致。综合图4中的结果可以证明,在不同的蕴含式类别中,基于预训练语言模型的疫情病例信息抽取框架模型能够根据不同的标签学习病例文本的语义特征,较好地实现蕴含式类别预测。
此外,本发明还使用基于预训练语言模型的疫情病例信息抽取框架分别在粗标注数据集和精标注数据集上进行实验,对比结果如图5所示,可以看出,在9种细粒度命名实体的对比中,精标注的结果优于粗标注结果,尤其是ZSI实体的F值提升了118%。实验结果证明了本发明提出的面向新型冠状病毒感染病例的标注规则适合于人工智能技术在病例文本信息抽取中的应用。

Claims (10)

1.基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,包括步骤如下:
步骤1,对原始疫情病例数据进行标注:分为命名实体标注和蕴含式类别标注;其中,所述的命名实体标注指构建命名实体类型,包括感染者的基本信息相关、病征时间相关、行动轨迹相关和医疗机构相关,使用专有符号对所述的实体类型进行再标注,并制定标注范式和标注最小粒度,如表1所示;所述的蕴含式类别标注指将涉及具体场景的编码方式进行整合和类别再标注,形成多种蕴含式类别,如表2所示;将命名实体标注数据和全部蕴含式类别数据按比例划分为训练集、验证集和测试集;
步骤2,使用预训练语言模型编码病历文本,输出病例文本对应的词向量和句向量;
步骤3,采用双向长短期记忆网络LSTM和条件随机场CRF构建命名实体识别网络,基于步骤2输出的病例文本的词向量,判断病例文本中每个字所属的正确标签,实体识别网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试;
步骤4,采样全连接神经网络构建蕴含式类别预测网络,基于步骤2输出的病例文本的句向量,预测出该文本对应的正确蕴含式类别,蕴含式类别预测网络在相应训练集上训练网络参数,在验证集和测试集上对识别效果进行验证和测试。
2.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤1中,构建命名实体类型包括年龄、性别、起始地、中转地、目的地、抵达目的地时间、隔离时间、发病时间、就诊时间、就诊及收治医院、确诊时间。
3.根据权利要求2所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤1中,构建包括命名实体类型的命名实体识别标注体系,如表1所示:
表1.命名实体识别标注体系
Figure FDA0003457304090000021
其中,【】表示病例文本中提及类别再标注一列中的标签;XX场所表示病例文本中提及的中转地的名称;XX医院表示病例文本中提及的就诊及收治医院的名称。
4.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤1中,所述蕴含式类别包括感染场所、接触地点事件、接触人群、隔离地点、发现方式、病情程度。
5.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤1中,构建包括蕴含式类别的蕴含式类别标注体系,如表2所示:
表2.蕴含式类别标注体系
Figure FDA0003457304090000031
其中,NA表示病例文本中未提及该类别信息;返回人员*表示除疫情发生地以外的返回人员。
6.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤1中,所述命名实体标注的具体步骤为:
(a)采用人工粗标的方式对病例中的实体进行标注,得到粗标注数据;
(b)统计粗标注数据中不同命名实体类型的标签分布,使用标签同分布的采样方式选取部分病例文本进行后续的精标注,同分布采样的损失函数如公式(1)所示,随机进行多轮的采样,计算同分布采样损失,选取损失最小的一轮采样样本作为最终的精标注样本;
Figure FDA0003457304090000041
其中L为标签的总数量,
Figure FDA0003457304090000042
Figure FDA0003457304090000043
分别表示粗标数据中第i个标签的个数和采样数据中第i个标签的个数;
(c)对采样的病例文本进行精标注,即在粗标注数据的基础上将病例文本中不属于选定实体范围的字段标注为其他实体类,包括其他时间、其他地点和其他机构三类。
7.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤2中,所述的预训练语言模型为BERT。
8.根据权利要求5所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤2中,使用预训练语言模型BERT编码病历文本;模型初始输入为病例文本集合C={c1,c,…cm…,cM},cm表示第m个病例文本,其中m∈M;病例文本c表示成词的集合c={w1,w2,…wn…,wN},wn表示病例文本中第n个字符,其中n∈N;预训练语言模型的输入向量En由字嵌入向量、分段嵌入向量和位置编码向量组合而成;其中,字嵌入向量是每个字符wn从嵌入矩阵取得的嵌入向量,其中[CLS]、[SEP]符号分别标识病例文本的开头和结尾;分段嵌入向量标识病例文本对的编号;位置编码向量标识每个单词的位置信息;
预训练语言模型对文本的向量转化过程用公式(2)概括,
Xn=Pre_trained(En,θ) (2)
其中n∈N、
Figure FDA0003457304090000051
θ为预训练语言模型的参数集合;当Xn取文本中每个字符所对应的实数向量时,预训练语言模型的输出为病例文本中的词向量;当Xn取[CLS]句子起始符所对应的实数向量时,预训练语言模型的输出为病例文本中的句向量。
9.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤3中,采用双向LSTM和CRF构建命名实体识别网络,具体包括以下步骤:
(a)基于预训练语言模型输出的词向量
Figure FDA0003457304090000052
采用双向LSTM学习实体间的长距离依赖信息,通过公式(3)进行描述,
Figure FDA0003457304090000053
其中,hn为经过双向LSTM编码后的向量输出;
(b)CRF层以双向LSTM的输出hn为输入学习标签路径的概率分布;对于给定输入c={c1,c2,…,cN},其标签序列的概率y={l1,l2,…ln…,lN}由公式(4)表示,
Figure FDA0003457304090000054
其中y′为任意可能标签序列,
Figure FDA0003457304090000055
Figure FDA0003457304090000056
是模型中可训练的参数;
(c)对于给定的M个训练样本
Figure FDA0003457304090000057
命名实体识别网络通过公式(5)所描述的损失函数计算网络的损失,通过最小化该损失函数优化命名实体识别网络;
Figure FDA0003457304090000061
10.根据权利要求1所述的基于预训练语言模型的疫情病例信息抽取框架构建方法,其特征在于,步骤4,基于全连接神经网络构建蕴含式类别预测网络,具体包括以下步骤:
(a)给定经过预训练语言模型编码的句向量,通过一个全连接神经网络进行非线性变换以提取文本特征,再经过softmax分类器获得病例文本的蕴含式类别标签;
(b)对于给定的M个病例文本
Figure FDA0003457304090000062
和病例文本的类别
Figure FDA0003457304090000063
蕴含式类别预测网络通过公式(6)所描述的损失函数计算网络的损失,通过最小化该损失函数优化蕴含式类别预测网络,
Figure FDA0003457304090000064
其中i表示第i个训练病例文本,
Figure FDA0003457304090000065
表示模型预测的类别,y表示病例文本的真实类别。
CN202210010887.7A 2022-01-05 2022-01-05 基于预训练语言模型的疫情病例信息抽取框架构建方法 Pending CN114582448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210010887.7A CN114582448A (zh) 2022-01-05 2022-01-05 基于预训练语言模型的疫情病例信息抽取框架构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210010887.7A CN114582448A (zh) 2022-01-05 2022-01-05 基于预训练语言模型的疫情病例信息抽取框架构建方法

Publications (1)

Publication Number Publication Date
CN114582448A true CN114582448A (zh) 2022-06-03

Family

ID=81771139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210010887.7A Pending CN114582448A (zh) 2022-01-05 2022-01-05 基于预训练语言模型的疫情病例信息抽取框架构建方法

Country Status (1)

Country Link
CN (1) CN114582448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171835A (zh) * 2022-09-02 2022-10-11 北京智源人工智能研究院 病例结构化模型训练方法、装置和病例结构化方法
CN115713083A (zh) * 2022-11-23 2023-02-24 重庆邮电大学 一种中医药文本关键信息的智能抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171835A (zh) * 2022-09-02 2022-10-11 北京智源人工智能研究院 病例结构化模型训练方法、装置和病例结构化方法
CN115171835B (zh) * 2022-09-02 2022-12-23 北京智源人工智能研究院 病例结构化模型训练方法、装置和病例结构化方法
CN115713083A (zh) * 2022-11-23 2023-02-24 重庆邮电大学 一种中医药文本关键信息的智能抽取方法
CN115713083B (zh) * 2022-11-23 2023-12-15 北京约来健康科技有限公司 一种中医药文本关键信息的智能抽取方法

Similar Documents

Publication Publication Date Title
Kim et al. Efficient dialogue state tracking by selectively overwriting memory
CN111581396B (zh) 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112699682B (zh) 一种基于可组合弱认证器的命名实体识别方法和装置
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN111626764A (zh) 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115495552A (zh) 基于双通道语义增强的多轮对话回复生成方法及终端设备
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
CN114548106A (zh) 一种基于albert的科协活动命名实体识别的方法
CN113159945A (zh) 一种基于多任务自监督学习的股票涨跌预测方法
CN117390506A (zh) 一种基于网格编码与TextRCNN的船舶路径分类方法
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN115422388A (zh) 一种视觉对话方法及系统
CN114841148A (zh) 文本识别模型训练方法、模型训练装置、电子设备
Xin et al. Automatic annotation of text classification data set in specific field using named entity recognition
CN113064967A (zh) 基于深度迁移网络的投诉举报可信度分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination