CN115935914A - 一种入院记录缺失文本补充方法 - Google Patents

一种入院记录缺失文本补充方法 Download PDF

Info

Publication number
CN115935914A
CN115935914A CN202211373172.4A CN202211373172A CN115935914A CN 115935914 A CN115935914 A CN 115935914A CN 202211373172 A CN202211373172 A CN 202211373172A CN 115935914 A CN115935914 A CN 115935914A
Authority
CN
China
Prior art keywords
text
missing
character
admission record
admission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211373172.4A
Other languages
English (en)
Inventor
张伯政
寇燕明
张述睿
吴军
高希余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Zhongyang Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyang Health Technology Group Co ltd filed Critical Zhongyang Health Technology Group Co ltd
Priority to CN202211373172.4A priority Critical patent/CN115935914A/zh
Publication of CN115935914A publication Critical patent/CN115935914A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Machine Translation (AREA)

Abstract

一种入院记录缺失文本补充方法,解决了文本序列中存在较长文本缺失,无法定点补充的问题,又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题,提高了医生对入院记录缺失文本补充的效率,极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置,缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证,将缺失文本位置误检的数据过滤掉一部分,进一步提高了入院记录缺失文本补充的准确率。

Description

一种入院记录缺失文本补充方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种入院记录缺失文本补充方法。
背景技术
电子病历的应用,为医生书写病历节省了大量的宝贵时间,同时医生在入院记录的书写过程会因为打字错误或者套用电子病历模板而引起一些病历出现缺失文本的情况,导致一些重要的指标没有在电子病历中呈现。这些缺失文本的存在会导致入院记录的书写质量低下,甚至引发一些医患纠纷。由于医院中每天产生数以千计的入院记录,医生除了书写入院记录之外还有大量的工作,所以没有大量的时间对书写的入院记录进行一遍一遍的查看修改。利用人工智能技术对入院记录中存在的缺失文本的位置自动检测和自动补充是提高入院记录书写质量和减轻医生修改入院记录负担的最有效的途径之一。
基于有监督学习的方式,需要人工对入院记录出现的缺失文本的位置进行标注,然而医学领域文本数据的标注对标注人员的素质要求较高,这就会导致时间和人力成本较高昂。在通用领域常常会BERT模型检测缺失字的位置,然后通过对缺失字的位置设置mask标签来对相应位置的缺失字的进行填充。但是入院记录作为医院中的大病历,要求覆盖内容比较全面,因此入院记录的文本长度较长,存在大量大于1000字的单段文本。而BERT模型适用的文本长度不能超过512字,Transformer模型随着文本的长度增长计算量指数级增大。使用文本槽填充的方式需要对缺失字的位置添加占位符,这需要提前获取到缺失字的字数,按照字数创建相关数量的占位符来对文本进行填充,这对于缺失单字的文本填充效果还好,但是对于入院记录中缺失文本较长的文本,识别的效果和填充准确率很低。虽然使用传统的序列到序列模型,给定存在缺失文本的入院记录,来生成一段正确的入院记录文本可以来实现对入院记录缺失文本的补充,但是一段入院记录中存在缺失文本的字数相较于整个病历文本的字数很少,采用上述方式会造成大量的计算资源浪费,也会导致补充后的入院记录和之前的入院记录存在较大的差异,达不到对于缺失文本的位置定点补充的效果。因此入院记录中缺失文本补充的问题,利用常规的补充方式不能很好的解决。
发明内容
本发明为了克服以上技术的不足,提供了一种可以更好的识别与补充入院记录中的缺失文本的方法。
本发明克服其技术问题所采用的技术方案是:
一种入院记录缺失文本补充方法,包括如下步骤:
a)建立入院记录文本数据集;
b)对入院记录文本数据集进行数据预处理操作,利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本,根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本;
c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型,得到入院记录缺失文本位置识别训练样本中文本的标签序列,通过损失函数训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型;
d)建立缺失文本补充模型;
e)计算损失函数,利用损失函数训练缺失文本补充模型;得到训练后的缺失文本补充模型;
f)接收输入入院记录数据,对该入院记录数据进行预处理操作;
g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中,输出入院记录数据的文本标签序列;
h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中,输出得到g个补充的缺失文本序列。
优选的,步骤a)中入院记录文本数据集包括:医院各个科室产生的入院记录文本,所述入院记录文本的内容包括:主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。
进一步的,步骤b)包括如下步骤:
b-1)以入院记录文本数据集中的段落为单位构建样本,对样本中前后的空格进行删除,对样本中连续的多个空格替换成单一空格,完成入院记录文本数据集的预处理操作;
b-2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括:因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失,对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除,然后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,完成入院记录缺失文本位置识别训练样本的建立;
b-3)步骤b-2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由字和标点构成的字符,将所有删除的j个字符构成目标序列文本,将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。优选的,步骤b-2)中的语义分隔符为句号或逗号。
进一步的,步骤c)包括如下步骤:
c-1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量,利用m×n的矩阵表示输入的样本,m为入院记录缺失文本位置识别训练样本中字的个数;
c-2)将m×n的矩阵输入到Longformer模型中,输出得到状态s,通过公式
Figure BDA0003924106070000031
计算得到输入的样本中每个字作为正样本的概率值P,式中e为自然常数,W为权重矩阵,b为偏置向量,P={p1,p2,...,pi,...,pm},pi为第i个字的预测为正样本的概率值,i∈{1,2,...,m};
c-3)通过公式
Figure BDA0003924106070000041
计算得到入院记录缺失文本位置识别训练样本中第i个字的标签Ei,α为判定标签为1的阈值,0<α<1,得到入院记录缺失文本位置识别训练样本中文本的标签序列E,E={E1,E2,...,Ei,...,Em};
c-4)通过公式
Figure BDA0003924106070000042
计算得到损失函数L,yi为第i个字的类别,正类别定义为1,负类别定义为0,t为负样本对整体损失的贡献比率,0<t<1;
c-5)利用损失函数L采用随机梯度下降法训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型。
进一步的,步骤d)包括如下步骤:
d-1)建立由编码器和解码器组成的缺失文本补充模型,所述编码器由双向长短期记忆神经网络BiLSTM构成,所述解码器由长短期记忆神经网络LSTM构成;
d-2)缺失文本补充模型训练样本中每一个字映射成一个n维的实数向量,利用矩阵I1表示缺失文本补充模型训练样本,
Figure BDA0003924106070000043
Figure BDA0003924106070000044
为实数空间,将入院记录缺失文本位置识别训练样本中第i个字的标签Ei映射成一个n维的实数向量,利用矩阵I2表示缺失文本补充模型训练样本的缺失的字的标签,
Figure BDA0003924106070000045
通过公式I=I1+I2计算得到模型输入数据I,将模型的输入数据I输入到编码器中,输出得到状态张量G,
Figure BDA0003924106070000046
L为缺失文本补充模型训练样本的长度,h为隐藏层的维度;
d-3)设定一个起始符<start>作为预测补充文本序列的第一个字,将起始符<start>的字向量C<start>及状态张量G中最后一维的张量GL输入到解码器中,计算得到第一个字的状态向量H1
Figure BDA0003924106070000047
其中
Figure BDA0003924106070000048
Figure BDA0003924106070000049
d-4)通过公式
Figure BDA0003924106070000051
计算得到第一个字的状态向量H1与状态张量G的连接矩阵Q,其中
Figure BDA0003924106070000052
为向量首尾相连操作,Gi为状态张量G中第i个一维的张量,i∈{1,2,...,L},
Figure BDA0003924106070000053
d-5)通过公式β=G*softmax(V*MLP1(Q)T)计算得到解码器生成的文字与输入的缺失文本补充模型训练样本的关系权重值β,式中V为参数矩阵,
Figure BDA0003924106070000054
softmax(·)为归一化函数,MLP1(·)为线性变化操作,连接矩阵Q通过线性变化操作将其维度从2h变换为h,T为矩阵转置,
Figure BDA0003924106070000055
d-6)通过公式
Figure BDA0003924106070000056
计算得到解码器解码的第一个字的概率向量WP1,式中MLP2(·)为线性变化操作,
Figure BDA0003924106070000057
通过线性变化操作将其维度从h变换为s,s为字表的长度;
d-7)获取概率向量WP1中概率最大的值的位置在字表中所对应的文字w1作为生成的第一个字;
d-8)将文字w1对应的字向量
Figure BDA0003924106070000058
和第一个字的状态向量H1输入到解码器中,重复执行步骤d-3)至步骤d-8)计算得到下一个字的状态向量H2和生成的文字w2
d-9)将文字w2替代步骤d-7)中的文字w1,重复执行步骤d-7)至d-8)直至生成文字wk作为终止符号<end>,k∈{1,2,...,l},l为生成的文本的长度,完成缺失文本的补充,得到补充的缺失文本序列{w1,w2,...,wl-1}。
进一步的,步骤e)包括如下步骤:
e-1)通过公式
Figure BDA0003924106070000059
计算得到损失函数Loss,式中yki为符号函数,如生成的第k个文字等于字表中的第i个字,则yki取1,如生成的第k个文字不等于字表中的第i个字,则yki取0,WPki为生成的第k个文字预测为字表中第i个字的概率;
e-2)利用损失函数Loss采用梯度下降法训练缺失文本补充模型。
优选的,c-3)中α取值为0.5。
本发明的有益效果是:解决了文本序列中存在较长文本缺失,无法定点补充的问题,又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题,提高了医生对入院记录缺失文本补充的效率,极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置,缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证,将缺失文本位置误检的数据过滤掉一部分,进一步提高了入院记录缺失文本补充的准确率。
具体实施方式
下面对本发明做进一步说明。
一种入院记录缺失文本补充方法,包括如下步骤:
a)建立入院记录文本数据集。
b)对入院记录文本数据集进行数据预处理操作,利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本,根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本。
c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型,得到入院记录缺失文本位置识别训练样本中文本的标签序列,通过损失函数训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型。
d)建立缺失文本补充模型。
e)计算损失函数,利用损失函数训练缺失文本补充模型;得到训练后的缺失文本补充模型。
f)接收输入入院记录数据,对该入院记录数据进行预处理操作,数据包括数据预处理后的按照段落切分的入院记录文本数据。
g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中,输出入院记录数据的文本标签序列。文本识别标签如表1所示:
表1缺失文本位置识别模型结果
Figure BDA0003924106070000061
Figure BDA0003924106070000071
h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中,输出得到g个补充的缺失文本序列。若候选方案中排名第一的不为空,则返回g个填充方案供用户自我选择进行对缺失位置的文本进行填充,否则表示疑似缺失的位置在识别时可能存在错误识别,不返回指定位置的填充方案。
解决了文本序列中存在较长文本缺失,无法定点补充的问题,又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题,提高了医生对入院记录缺失文本补充的效率,极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置,缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证,将缺失文本位置误检的数据过滤掉一部分,进一步提高了入院记录缺失文本补充的准确率。
实施例1:
步骤a)中入院记录文本数据集包括:医院各个科室产生的入院记录文本,所述入院记录文本的内容包括:主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。
实施例2:
步骤b)包括如下步骤:
b-1)因为入院记录中的段落之间是相互独立的,因此以入院记录文本数据集中的段落为单位构建样本,对样本中前后的空格进行删除,对样本中连续的多个空格替换成单一空格,完成入院记录文本数据集的预处理操作。
b-2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括:因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失,对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除,然后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,完成入院记录缺失文本位置识别训练样本的建立。如下表所示:
Figure BDA0003924106070000081
b-3)步骤b-2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由字和标点构成的字符,将所有删除的j个字符构成目标序列文本,将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。对于一个样本S={w1,w2,w3…,wi-1,wi,wi+1…,wm},其中wm(m=1,2,3,…)表示一个字符,若删掉的序列为{wi-2,wi-1,wi,wi+1},则{wi-2,wi-1,wi,wi+1}为目标序列文本。每一条训练样本由删掉文字后的文本、文本标签和目标序列文本。
实施例3:
步骤b-2)中的语义分隔符为句号或逗号。
实施例4:
步骤c)包括如下步骤:
c-1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量,利用m×n的矩阵表示输入的样本,m为入院记录缺失文本位置识别训练样本中字的个数。
c-2)将m×n的矩阵输入到Longformer模型中,Longformer模型为本发明的缺失文本位置识别模型,输出得到状态s,通过公式
Figure BDA0003924106070000091
计算得到输入的样本中每个字作为正样本的概率值P,式中e为自然常数,W为权重矩阵,b为偏置向量,P={p1,p2,…,pi,…,pm},pi为第i个字的预测为正样本的概率值,i∈{1,2,…,m}。
c-3)通过公式
Figure BDA0003924106070000092
计算得到入院记录缺失文本位置识别训练样本中第i个字的标签Ei,α为判定标签为1的阈值,0<α<1,得到入院记录缺失文本位置识别训练样本中文本的标签序列E,E={E1,E2,…,Ei,…,Em}。
c-4)通过公式
Figure BDA0003924106070000093
计算得到损失函数L,yi为第i个字的类别,正类别定义为1,负类别定义为0,t为负样本对整体损失的贡献比率,0<t<1,需要根据负样本中存在正样本的情况来进行设定,这里的log的底数为e。
c-5)利用损失函数L采用随机梯度下降法训练缺失文本位置识别模型,直到模型的损失L不再随着训练次数的增多而变小,表示模型已经收敛,即可停止训练,得到训练后的基于Longformer缺失文本位置识别模型。
实施例5:
步骤d)包括如下步骤:
d-1)建立由编码器和解码器组成的缺失文本补充模型,所述编码器由双向长短期记忆神经网络BiLSTM构成,所述解码器由长短期记忆神经网络LSTM构成。
d-2)缺失文本补充模型训练样本中每一个字映射成一个n维的实数向量,利用矩阵I1表示缺失文本补充模型训练样本,
Figure BDA0003924106070000101
Figure BDA0003924106070000102
为实数空间,将入院记录缺失文本位置识别训练样本中第i个字的标签Ei映射成一个n维的实数向量,利用矩阵I2表示缺失文本补充模型训练样本的缺失的字的标签,
Figure BDA0003924106070000103
通过公式I=I1+I2计算得到模型输入数据I,将模型的输入数据I输入到编码器中,输出得到状态张量G,
Figure BDA0003924106070000104
L为缺失文本补充模型训练样本的长度,h为隐藏层的维度。
d-3)设定一个起始符<start>作为预测补充文本序列的第一个字,将起始符<start>的字向量C<start>及状态张量G中最后一维的张量GL输入到解码器中,计算得到第一个字的状态向量H1
Figure BDA0003924106070000105
其中
Figure BDA0003924106070000106
Figure BDA0003924106070000107
d-4)通过公式
Figure BDA0003924106070000108
计算得到第一个字的状态向量H1与状态张量G的连接矩阵Q,其中
Figure BDA0003924106070000109
为向量首尾相连操作,Gi为状态张量G中第i个一维的张量,i∈{1,2,…,L},
Figure BDA00039241060700001010
d-5)通过公式β=G*softmax(V*MLP1(Q)T)计算得到解码器生成的文字与输入的缺失文本补充模型训练样本的关系权重值β,式中V为参数矩阵,
Figure BDA00039241060700001011
softmax(·)为归一化函数,MLP1(·)为线性变化操作,连接矩阵Q通过线性变化操作将其维度从2h变换为h,T为矩阵转置,
Figure BDA0003924106070000111
d-6)通过公式
Figure BDA0003924106070000112
计算得到解码器解码的第一个字的概率向量WP1,式中MLP2(·)为线性变化操作,
Figure BDA0003924106070000113
通过线性变化操作将其维度从h变换为s,s为字表的长度。
d-7)获取概率向量WP1中概率最大的值的位置在字表中所对应的文字w1作为生成的第一个字。
d-8)将文字w1对应的字向量
Figure BDA0003924106070000114
和第一个字的状态向量H1输入到解码器中,重复执行步骤d-3)至步骤d-8)计算得到下一个字的状态向量H2和生成的文字w2
d-9)将文字w2替代步骤d-7)中的文字w1,重复执行步骤d-7)至d-8)直至生成文字wk作为终止符号<end>,k∈{1,2,...,l},l为生成的文本的长度,完成缺失文本的补充,得到补充的缺失文本序列{w1,w2,...,wl-1}。
实施例6:
步骤e)包括如下步骤:
e-1)通过公式
Figure BDA0003924106070000115
计算得到损失函数Loss,式中yki为符号函数,如生成的第k个文字等于字表中的第i个字,则yki取1,如生成的第k个文字不等于字表中的第i个字,则yki取0,WPki为生成的第k个文字预测为字表中第i个字的概率。
e-2)利用损失函数Loss采用梯度下降法训练缺失文本补充模型,直到缺失文本补充模型的损失Loss不再随着训练次数的增加而变小,表示模型已经收敛,即可停止训练。
实施例7:
c-3)中α取值为0.5。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种入院记录缺失文本补充方法,其特征在于,包括如下步骤:
a)建立入院记录文本数据集;
b)对入院记录文本数据集进行数据预处理操作,利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本,根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本;
c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型,得到入院记录缺失文本位置识别训练样本中文本的标签序列,通过损失函数训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型;
d)建立缺失文本补充模型;
e)计算损失函数,利用损失函数训练缺失文本补充模型;得到训练后的缺失文本补充模型;
f)接收输入入院记录数据,对该入院记录数据进行预处理操作;
g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中,输出入院记录数据的文本标签序列;
h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中,输出得到g个补充的缺失文本序列。
2.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤a)中入院记录文本数据集包括:医院各个科室产生的入院记录文本,所述入院记录文本的内容包括:主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。
3.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤b)包括如下步骤:
b-1)以入院记录文本数据集中的段落为单位构建样本,对样本中前后的空格进行删除,对样本中连续的多个空格替换成单一空格,完成入院记录文本数据集的预处理操作;
b-2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括:因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失,对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除,然后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,完成入院记录缺失文本位置识别训练样本的建立;
b-3)步骤b-2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由字和标点构成的字符,将所有删除的j个字符构成目标序列文本,将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。
4.根据权利要求3所述的入院记录缺失文本补充方法,其特征在于:步骤b-2)中的语义分隔符为句号或逗号。
5.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤c)包括如下步骤:
c-1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量,利用m×n的矩阵表示输入的样本,m为入院记录缺失文本位置识别训练样本中字的个数;
c-2)将m×n的矩阵输入到Longformer模型中,输出得到状态s,通过公式
Figure FDA0003924106060000021
计算得到输入的样本中每个字作为正样本的概率值P,式中e为自然常数,W为权重矩阵,b为偏置向量,P={p1,p2,...,pi,...,pm},pi为第i个字的预测为正样本的概率值,i∈{1,2,...,m};
c-3)通过公式
Figure FDA0003924106060000031
计算得到入院记录缺失文本位置识别训练样本中第i个字的标签Ei,α为判定标签为1的阈值,0<α<1,得到入院记录缺失文本位置识别训练样本中文本的标签序列E,E={E1,E2,...,Ei,...,Em};
c-4)通过公式
Figure FDA0003924106060000032
计算得到损失函数L,yi为第i个字的类别,正类别定义为1,负类别定义为0,t为负样本对整体损失的贡献比率,0<t<1;
c-5)利用损失函数L采用随机梯度下降法训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型。
6.根据权利要求5所述的入院记录缺失文本补充方法,其特征在于,步骤d)包括如下步骤:
d-1)建立由编码器和解码器组成的缺失文本补充模型,所述编码器由双向长短期记忆神经网络BiLSTM构成,所述解码器由长短期记忆神经网络LSTM构成;
d-2)缺失文本补充模型训练样本中每一个字映射成一个n维的实数向量,利用矩阵I1表示缺失文本补充模型训练样本,
Figure FDA0003924106060000033
Figure FDA0003924106060000034
为实数空间,将入院记录缺失文本位置识别训练样本中第i个字的标签Ei映射成一个n维的实数向量,利用矩阵I2表示缺失文本补充模型训练样本的缺失的字的标签,
Figure FDA0003924106060000035
通过公式I=I1+I2计算得到模型输入数据I,将模型的输入数据I输入到编码器中,输出得到状态张量G,
Figure FDA0003924106060000036
L为缺失文本补充模型训练样本的长度,h为隐藏层的维度;
d-3)设定一个起始符<start>作为预测补充文本序列的第一个字,将起始符<start>的字向量C<start>及状态张量G中最后一维的张量GL输入到解码器中,计算得到第一个字的状态向量H1
Figure FDA0003924106060000037
其中
Figure FDA0003924106060000038
Figure FDA0003924106060000041
d-4)通过公式
Figure FDA0003924106060000042
计算得到第一个字的状态向量H1与状态张量G的连接矩阵Q,其中
Figure FDA00039241060600000410
为向量首尾相连操作,Gi为状态张量G中第i个一维的张量,i∈{1,2,...,L},
Figure FDA0003924106060000043
d-5)通过公式β=G*softmax(V*MLP1(Q)T)计算得到解码器生成的文字与输入的缺失文本补充模型训练样本的关系权重值β,式中V为参数矩阵,
Figure FDA0003924106060000044
softmax(·)为归一化函数,MLP1(·)为线性变化操作,连接矩阵Q通过线性变化操作将其维度从2h变换为h,T为矩阵转置,
Figure FDA0003924106060000045
d-6)通过公式
Figure FDA0003924106060000046
计算得到解码器解码的第一个字的概率向量WP1,式中MLP2(·)为线性变化操作,
Figure FDA0003924106060000047
通过线性变化操作将其维度从h变换为s,s为字表的长度;
d-7)获取概率向量WP1中概率最大的值的位置在字表中所对应的文字w1作为生成的第一个字;
d-8)将文字w1对应的字向量
Figure FDA0003924106060000048
和第一个字的状态向量H1输入到解码器中,重复执行步骤d-3)至步骤d-8)计算得到下一个字的状态向量H2和生成的文字w2
d-9)将文字w2替代步骤d-7)中的文字w1,重复执行步骤d-7)至d-8)直至生成文字wk作为终止符号<end>,k∈{1,2,...,l},l为生成的文本的长度,完成缺失文本的补充,得到补充的缺失文本序列{w1,w2,...,wl-1}。
7.根据权利要求6所述的入院记录缺失文本补充方法,其特征在于,步骤e)包括如下步骤:
e-1)通过公式
Figure FDA0003924106060000049
计算得到损失函数Loss,式中yki为符号函数,如生成的第k个文字等于字表中的第i个字,则yki取1,如生成的第k个文字不等于字表中的第i个字,则yki取0,WPki为生成的第k个文字预测为字表中第i个字的概率;
e-2)利用损失函数Loss采用梯度下降法训练缺失文本补充模型。
8.根据权利要求5所述的入院记录缺失文本补充方法,其特征在于:c-3)中α取值为0.5。
CN202211373172.4A 2022-11-03 2022-11-03 一种入院记录缺失文本补充方法 Pending CN115935914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211373172.4A CN115935914A (zh) 2022-11-03 2022-11-03 一种入院记录缺失文本补充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211373172.4A CN115935914A (zh) 2022-11-03 2022-11-03 一种入院记录缺失文本补充方法

Publications (1)

Publication Number Publication Date
CN115935914A true CN115935914A (zh) 2023-04-07

Family

ID=86556497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211373172.4A Pending CN115935914A (zh) 2022-11-03 2022-11-03 一种入院记录缺失文本补充方法

Country Status (1)

Country Link
CN (1) CN115935914A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227433A (zh) * 2023-05-09 2023-06-06 武汉纺织大学 基于医学知识注入提示的少样本icd编码方法和系统
CN117116476A (zh) * 2023-07-04 2023-11-24 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227433A (zh) * 2023-05-09 2023-06-06 武汉纺织大学 基于医学知识注入提示的少样本icd编码方法和系统
CN116227433B (zh) * 2023-05-09 2023-07-04 武汉纺织大学 基于医学知识注入提示的少样本icd编码方法和系统
CN117116476A (zh) * 2023-07-04 2023-11-24 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质
CN117116476B (zh) * 2023-07-04 2023-12-19 中国医学科学院阜外医院 下游任务预测方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11568143B2 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN115935914A (zh) 一种入院记录缺失文本补充方法
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN112686044B (zh) 一种基于语言模型的医疗实体零样本分类方法
CN110265098A (zh) 一种病例管理方法、装置、计算机设备及可读存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN115392256A (zh) 一种基于语义分割的药物不良事件关系抽取方法
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN108984159B (zh) 一种基于马尔可夫语言模型的缩略词组扩展方法
CN111563380A (zh) 一种命名实体识别方法及其装置
CN116150361A (zh) 一种财务报表附注的事件抽取方法、系统及存储介质
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Quirós et al. From HMMs to RNNs: computer-assisted transcription of a handwritten notarial records collection
CN111695054A (zh) 文本处理方法及设备、信息抽取方法及系统、介质
CN112732863B (zh) 电子病历标准化切分方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN116415562B (zh) 用于解析金融数据的方法、设备和介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination