CN115935914A

CN115935914A - 一种入院记录缺失文本补充方法

Info

Publication number: CN115935914A
Application number: CN202211373172.4A
Authority: CN
Inventors: 张伯政; 寇燕明; 张述睿; 吴军; 高希余
Original assignee: Zhongyang Health Technology Group Co ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-04-07

Abstract

一种入院记录缺失文本补充方法，解决了文本序列中存在较长文本缺失，无法定点补充的问题，又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题，提高了医生对入院记录缺失文本补充的效率，极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置，缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证，将缺失文本位置误检的数据过滤掉一部分，进一步提高了入院记录缺失文本补充的准确率。

Description

一种入院记录缺失文本补充方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种入院记录缺失文本补充方法。

背景技术

电子病历的应用，为医生书写病历节省了大量的宝贵时间，同时医生在入院记录的书写过程会因为打字错误或者套用电子病历模板而引起一些病历出现缺失文本的情况，导致一些重要的指标没有在电子病历中呈现。这些缺失文本的存在会导致入院记录的书写质量低下，甚至引发一些医患纠纷。由于医院中每天产生数以千计的入院记录，医生除了书写入院记录之外还有大量的工作，所以没有大量的时间对书写的入院记录进行一遍一遍的查看修改。利用人工智能技术对入院记录中存在的缺失文本的位置自动检测和自动补充是提高入院记录书写质量和减轻医生修改入院记录负担的最有效的途径之一。

基于有监督学习的方式，需要人工对入院记录出现的缺失文本的位置进行标注，然而医学领域文本数据的标注对标注人员的素质要求较高，这就会导致时间和人力成本较高昂。在通用领域常常会BERT模型检测缺失字的位置，然后通过对缺失字的位置设置mask标签来对相应位置的缺失字的进行填充。但是入院记录作为医院中的大病历，要求覆盖内容比较全面，因此入院记录的文本长度较长，存在大量大于1000字的单段文本。而BERT模型适用的文本长度不能超过512字，Transformer模型随着文本的长度增长计算量指数级增大。使用文本槽填充的方式需要对缺失字的位置添加占位符，这需要提前获取到缺失字的字数，按照字数创建相关数量的占位符来对文本进行填充，这对于缺失单字的文本填充效果还好，但是对于入院记录中缺失文本较长的文本，识别的效果和填充准确率很低。虽然使用传统的序列到序列模型，给定存在缺失文本的入院记录，来生成一段正确的入院记录文本可以来实现对入院记录缺失文本的补充，但是一段入院记录中存在缺失文本的字数相较于整个病历文本的字数很少，采用上述方式会造成大量的计算资源浪费，也会导致补充后的入院记录和之前的入院记录存在较大的差异，达不到对于缺失文本的位置定点补充的效果。因此入院记录中缺失文本补充的问题，利用常规的补充方式不能很好的解决。

发明内容

本发明为了克服以上技术的不足，提供了一种可以更好的识别与补充入院记录中的缺失文本的方法。

本发明克服其技术问题所采用的技术方案是：

一种入院记录缺失文本补充方法，包括如下步骤：

a)建立入院记录文本数据集；

b)对入院记录文本数据集进行数据预处理操作，利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本，根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本；

c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型，得到入院记录缺失文本位置识别训练样本中文本的标签序列，通过损失函数训练缺失文本位置识别模型，得到训练后的缺失文本位置识别模型；

d)建立缺失文本补充模型；

e)计算损失函数，利用损失函数训练缺失文本补充模型；得到训练后的缺失文本补充模型；

f)接收输入入院记录数据，对该入院记录数据进行预处理操作；

g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中，输出入院记录数据的文本标签序列；

h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中，输出得到g个补充的缺失文本序列。

优选的，步骤a)中入院记录文本数据集包括：医院各个科室产生的入院记录文本，所述入院记录文本的内容包括：主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。

进一步的，步骤b)包括如下步骤：

b-1)以入院记录文本数据集中的段落为单位构建样本，对样本中前后的空格进行删除，对样本中连续的多个空格替换成单一空格，完成入院记录文本数据集的预处理操作；

b-2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括：因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失，对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除，然后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除，删除后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容，删除后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，完成入院记录缺失文本位置识别训练样本的建立；

b-3)步骤b-2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由字和标点构成的字符，将所有删除的j个字符构成目标序列文本，将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。优选的，步骤b-2)中的语义分隔符为句号或逗号。

进一步的，步骤c)包括如下步骤：

c-1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量，利用m×n的矩阵表示输入的样本，m为入院记录缺失文本位置识别训练样本中字的个数；

c-2)将m×n的矩阵输入到Longformer模型中，输出得到状态s，通过公式

计算得到输入的样本中每个字作为正样本的概率值P，式中e为自然常数，W为权重矩阵，b为偏置向量，P＝{p₁,p₂,...,p_i,...,p_m}，p_i为第i个字的预测为正样本的概率值，i∈{1,2,...,m}；

c-3)通过公式

计算得到入院记录缺失文本位置识别训练样本中第i个字的标签E_i，α为判定标签为1的阈值，0＜α＜1，得到入院记录缺失文本位置识别训练样本中文本的标签序列E，E＝{E₁,E₂,...,E_i,...,E_m}；

c-4)通过公式

计算得到损失函数L，y_i为第i个字的类别，正类别定义为1，负类别定义为0，t为负样本对整体损失的贡献比率，0＜t＜1；

c-5)利用损失函数L采用随机梯度下降法训练缺失文本位置识别模型，得到训练后的缺失文本位置识别模型。

进一步的，步骤d)包括如下步骤：

d-1)建立由编码器和解码器组成的缺失文本补充模型，所述编码器由双向长短期记忆神经网络BiLSTM构成，所述解码器由长短期记忆神经网络LSTM构成；

d-2)缺失文本补充模型训练样本中每一个字映射成一个n维的实数向量，利用矩阵I₁表示缺失文本补充模型训练样本，

为实数空间，将入院记录缺失文本位置识别训练样本中第i个字的标签E_i映射成一个n维的实数向量，利用矩阵I₂表示缺失文本补充模型训练样本的缺失的字的标签，

通过公式I＝I₁+I₂计算得到模型输入数据I，将模型的输入数据I输入到编码器中，输出得到状态张量G，

L为缺失文本补充模型训练样本的长度，h为隐藏层的维度；

d-3)设定一个起始符＜start＞作为预测补充文本序列的第一个字，将起始符＜start＞的字向量C_＜start＞及状态张量G中最后一维的张量G_L输入到解码器中，计算得到第一个字的状态向量H₁，

其中

d-4)通过公式

计算得到第一个字的状态向量H₁与状态张量G的连接矩阵Q，其中

为向量首尾相连操作，G_i为状态张量G中第i个一维的张量，i∈{1,2,...,L}，

d-5)通过公式β＝G*softmax(V*MLP₁(Q)^T)计算得到解码器生成的文字与输入的缺失文本补充模型训练样本的关系权重值β，式中V为参数矩阵，

softmax(·)为归一化函数，MLP₁(·)为线性变化操作，连接矩阵Q通过线性变化操作将其维度从2h变换为h，T为矩阵转置，

d-6)通过公式

计算得到解码器解码的第一个字的概率向量WP₁，式中MLP₂(·)为线性变化操作，

通过线性变化操作将其维度从h变换为s，s为字表的长度；

d-7)获取概率向量WP₁中概率最大的值的位置在字表中所对应的文字w₁作为生成的第一个字；

d-8)将文字w₁对应的字向量

和第一个字的状态向量H₁输入到解码器中，重复执行步骤d-3)至步骤d-8)计算得到下一个字的状态向量H₂和生成的文字w₂；

d-9)将文字w₂替代步骤d-7)中的文字w₁，重复执行步骤d-7)至d-8)直至生成文字w_k作为终止符号＜end＞，k∈{1,2,...,l}，l为生成的文本的长度，完成缺失文本的补充，得到补充的缺失文本序列{w₁,w₂,...,w_l-1}。

进一步的，步骤e)包括如下步骤：

e-1)通过公式

计算得到损失函数Loss，式中y_ki为符号函数，如生成的第k个文字等于字表中的第i个字，则y_ki取1，如生成的第k个文字不等于字表中的第i个字，则y_ki取0，WP_ki为生成的第k个文字预测为字表中第i个字的概率；

e-2)利用损失函数Loss采用梯度下降法训练缺失文本补充模型。

优选的，c-3)中α取值为0.5。

本发明的有益效果是：解决了文本序列中存在较长文本缺失，无法定点补充的问题，又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题，提高了医生对入院记录缺失文本补充的效率，极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置，缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证，将缺失文本位置误检的数据过滤掉一部分，进一步提高了入院记录缺失文本补充的准确率。

具体实施方式

下面对本发明做进一步说明。

一种入院记录缺失文本补充方法，包括如下步骤：

a)建立入院记录文本数据集。

b)对入院记录文本数据集进行数据预处理操作，利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本，根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本。

c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型，得到入院记录缺失文本位置识别训练样本中文本的标签序列，通过损失函数训练缺失文本位置识别模型，得到训练后的缺失文本位置识别模型。

d)建立缺失文本补充模型。

e)计算损失函数，利用损失函数训练缺失文本补充模型；得到训练后的缺失文本补充模型。

f)接收输入入院记录数据，对该入院记录数据进行预处理操作，数据包括数据预处理后的按照段落切分的入院记录文本数据。

g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中，输出入院记录数据的文本标签序列。文本识别标签如表1所示：

表1缺失文本位置识别模型结果

h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中，输出得到g个补充的缺失文本序列。若候选方案中排名第一的不为空，则返回g个填充方案供用户自我选择进行对缺失位置的文本进行填充，否则表示疑似缺失的位置在识别时可能存在错误识别，不返回指定位置的填充方案。

解决了文本序列中存在较长文本缺失，无法定点补充的问题，又解决了序列到序列模型长文本解码消耗计算资源大的问题。解决了医生因打字或者引用模板的原因引起的入院记录文本缺失问题，提高了医生对入院记录缺失文本补充的效率，极大提高了医生书写入院记录的质量。通过缺失文本位置识别模型识别文本中存在缺失文本的位置，缺失文本补充模型针对存在的缺失文本给出修改方案的方式进行相互验证，将缺失文本位置误检的数据过滤掉一部分，进一步提高了入院记录缺失文本补充的准确率。

实施例1：

步骤a)中入院记录文本数据集包括：医院各个科室产生的入院记录文本，所述入院记录文本的内容包括：主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。

实施例2：

步骤b)包括如下步骤：

b-1)因为入院记录中的段落之间是相互独立的，因此以入院记录文本数据集中的段落为单位构建样本，对样本中前后的空格进行删除，对样本中连续的多个空格替换成单一空格，完成入院记录文本数据集的预处理操作。

b-2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括：因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失，对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除，然后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除，删除后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容，删除后对预处理后的入院记录文本数据集中的文本序列构建标签，如果文字的前一个位置或后一个位置存在缺失文本，则该文字的标签为1，如果文字的前一个位置或后一个位置不存在缺失文本，则该文字的标签为0，完成入院记录缺失文本位置识别训练样本的建立。如下表所示：

b-3)步骤b-2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由字和标点构成的字符，将所有删除的j个字符构成目标序列文本，将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。对于一个样本S＝{w₁,w₂,w₃…,w_i-1,w_i,w_i+1…,w_m}，其中w_m(m＝1,2,3,…)表示一个字符，若删掉的序列为{w_i-2,w_i-1,w_i,w_i+1}，则{w_i-2,w_i-1,w_i,w_i+1}为目标序列文本。每一条训练样本由删掉文字后的文本、文本标签和目标序列文本。

实施例3：

步骤b-2)中的语义分隔符为句号或逗号。

实施例4：

步骤c)包括如下步骤：

c-1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量，利用m×n的矩阵表示输入的样本，m为入院记录缺失文本位置识别训练样本中字的个数。

c-2)将m×n的矩阵输入到Longformer模型中，Longformer模型为本发明的缺失文本位置识别模型，输出得到状态s，通过公式

计算得到输入的样本中每个字作为正样本的概率值P，式中e为自然常数，W为权重矩阵，b为偏置向量，P＝{p₁,p₂,…,p_i,…,p_m}，p_i为第i个字的预测为正样本的概率值，i∈{1,2,…,m}。

c-3)通过公式

计算得到入院记录缺失文本位置识别训练样本中第i个字的标签E_i，α为判定标签为1的阈值，0＜α＜1，得到入院记录缺失文本位置识别训练样本中文本的标签序列E，E＝{E₁,E₂,…,E_i,…,E_m}。

c-4)通过公式

计算得到损失函数L，y_i为第i个字的类别，正类别定义为1，负类别定义为0，t为负样本对整体损失的贡献比率，0＜t＜1,需要根据负样本中存在正样本的情况来进行设定，这里的log的底数为e。

c-5)利用损失函数L采用随机梯度下降法训练缺失文本位置识别模型，直到模型的损失L不再随着训练次数的增多而变小，表示模型已经收敛，即可停止训练，得到训练后的基于Longformer缺失文本位置识别模型。

实施例5：

步骤d)包括如下步骤：

d-1)建立由编码器和解码器组成的缺失文本补充模型，所述编码器由双向长短期记忆神经网络BiLSTM构成，所述解码器由长短期记忆神经网络LSTM构成。

L为缺失文本补充模型训练样本的长度，h为隐藏层的维度。

其中

d-4)通过公式

为向量首尾相连操作，G_i为状态张量G中第i个一维的张量，i∈{1,2,…,L}，

d-6)通过公式

通过线性变化操作将其维度从h变换为s，s为字表的长度。

d-7)获取概率向量WP₁中概率最大的值的位置在字表中所对应的文字w₁作为生成的第一个字。

d-8)将文字w₁对应的字向量

和第一个字的状态向量H₁输入到解码器中，重复执行步骤d-3)至步骤d-8)计算得到下一个字的状态向量H₂和生成的文字w₂。

实施例6：

步骤e)包括如下步骤：

e-1)通过公式

计算得到损失函数Loss，式中y_ki为符号函数，如生成的第k个文字等于字表中的第i个字，则y_ki取1，如生成的第k个文字不等于字表中的第i个字，则y_ki取0，WP_ki为生成的第k个文字预测为字表中第i个字的概率。

e-2)利用损失函数Loss采用梯度下降法训练缺失文本补充模型，直到缺失文本补充模型的损失Loss不再随着训练次数的增加而变小，表示模型已经收敛，即可停止训练。

实施例7：

c-3)中α取值为0.5。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。