CN116110047A

CN116110047A - 基于ocr-ner的结构化电子病历构建方法和系统

Info

Publication number: CN116110047A
Application number: CN202310158087.4A
Authority: CN
Inventors: 吕青; 张思洲; 刘德建; 宿启晨; 徐浩
Original assignee: Sichuan Ruying Technology Co ltd; West China Hospital of Sichuan University
Current assignee: Sichuan Ruying Technology Co ltd; West China Hospital of Sichuan University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-05-12

Abstract

本发明属于医疗文本处理技术领域，具体涉及一种基于OCR‑NER的结构化电子病历构建方法和系统。本发明的方法包括如下步骤：步骤1，输入电子病历图像，进行预处理；步骤2，对预处理后的电子病历图像进行OCR检测和识别，提取病历文本数据；步骤3，采用BERT模型对提取到的文本数据执行文本纠错；步骤4，对纠错后的文本数据分别做词、段和位置的Embedding，得到词Embedding、段Embedding和位置Embedding；步骤5，采用BERT‑CRF模型进行特征提取，预测，生成每一个文字的标签值，计算损失并输出结果。本发明进一步提供了实现上述方法的系统。本发明可对图像格式的电子病历进行结构化处理，为后续的患者随访和医疗服务带来更多便利，具有很好的应用前景。

Description

基于OCR-NER的结构化电子病历构建方法和系统

技术领域

本发明属于医疗文本处理技术领域，具体涉及一种基于OCR-NER的结构化电子病历构建方法和系统。

背景技术

电子病历由于快捷、易于存储和管理的特点被广泛的应用于当前的医疗行业。现阶段大多数的医学病历报告是以非结构化的形式保存，其中包含大量未被利用的病历记录和专业知识。利用自然语言处理(NLP)可以充分的挖掘非结构化报告中包含的蕴藏的知识，提取关键信息并构建结构化病历报告，对提升医疗系统服务质量有非常重要的意义。

结构化电子病历是指从医生描述的自然语言文本抽取出多个关键字段，对医疗文本进行结构化提取，进而提高医护人员查阅病历的效率。命名实体识别(NER)作为NLP的一个基础任务，用于从电子病历中提取实体类别，并将结果进一步应用于后续智能化医疗服务。基于NER的结构化电子病历能够自动化地提取医疗文本数据中的关键信息，但这种方法处理的形式仅仅局限于文本格式。目前，医疗行业中，还有大量的电子病历是以图像格式进行保存的，现有的NER方法不能从电子病历图像中自动提取文本信息。

OCR文字识别是指通过检查待提取资料中包含的文字字符，对文本资料进行扫描后对图像文件进行分析处理。中国发明专利申请“CN202210645155.5一种基于OCR与NER技术的主数据智能识别方法”构建了一种利用OCR从图像中提取文字，并使用NER技术对提取到的文字进行结构化的技术方案。然而，电子病历的形式多种多样，并且很多医学专用名词在OCR过程中会被错误的识别为常用词，难以仅仅通过分词+匹配的方式有效提取。

发明内容

针对现有技术的上述问题，本发明提供一种基于OCR-NER的结构化电子病历构建方法和系统，目的在于实现将电子病历图像转化为格式化电子病历的目的。

一种基于OCR-NER的结构化电子病历构建方法，包括如下步骤：

步骤1，输入电子病历图像，进行预处理；

步骤2，对预处理后的电子病历图像进行OCR检测和识别，提取病历文本数据；

步骤3，采用BERT模型对提取到的文本数据执行文本纠错；

步骤4，对纠错后的文本数据分别做词、段和位置的Embedding，得到词Embedding、段Embedding和位置Embedding；

步骤5，采用BERT-CRF模型进行特征提取，预测，生成每一个文字的标签值，计算损失并输出结果。

优选的，步骤1中，所述预处理的过程包括如下方法中的至少一种：

(1)采用非局部均值滤波降噪算法去除图像中的椒盐噪声；

(2)采用自适应阈值算法进行图像二值化处理。

优选的，所述非局部均值滤波降噪算法的计算公式如下：

其中，v表示噪声图像，NLmeans[v]表示恢复图像，w(i,j)表示当前像素i和其余像素j的相似程度，a是高斯核的标准差，Z(i)为像素i归一化常数，v(N_i)和v(N_j)分别为像素i、j的强度灰度向量。

优选的，所述自适应阈值算法的计算公式如下：

I(x，y)＝f(x，y)+I(x-1，y)+I(x，y-1)-I(x-1，y-1)

其中，I(x,y)表示坐标(x,y)处的积分值计算，

表示两个对角点像素之和的计算，(x₁,y₁)和(x₂,y₂)分别为两个对角点的坐标。

优选的，步骤2中，所述OCR检测和识别的具体步骤包括：

步骤2.1采用可微二值化算法，根据DB二值图拓展标签生成，形成文本框；

步骤2.2，对所述文本框内的文本信息，采用卷积循环神经网络生成对应的预测标签序列。

优选的，步骤2.2中，所述卷积循环神经网络选自CRNN识别算法。

优选的，在训练所述BERT-CRF模型的过程中，训练数据采用采用BIO标记方式进行标签类别标注。

本发明还提供一种用于实现上述基于OCR-NER的结构化电子病历构建方法的系统，包括：

数据预处理模块，用于进行电子病历图像的预处理；

OCR检测与识别模块，用于对预处理后的电子病历图像进行OCR检测和识别，提取病历文本数据；

文本纠错模块，用于采用BERT模型对提取到的文本数据执行文本纠错；

Embedding模块，用于对纠错后的文本数据分别做词、段和位置的Embedding，得到词Embedding、段Embedding和位置Embedding；

CRF预测模块，用于采用BERT-CRF模型进行特征提取，预测，生成每一个文字的标签值，计算损失并输出结果。

优选的，还包括：

数据标记模块，用于在模型训练过程中标记文本纠错后的数据类别标签；

模型训练模块，用于将标记后的数据送入BERT-CRF模型中进行训练。

本发明还提供一种计算机可读存储介质，其上存储有用于实现上述基于OCR-NER的结构化电子病历构建方法的计算机程序。

本发明通过结合OCR与NER，可以很方便的从原始电子病历图像中提取文本信息。为了解决医学专用名词在OCR过程中会被错误的识别为常用词，难以仅仅通过分词+匹配的方式有效提取的问题。本发明同时结合文本纠错方案进一步提升识别结果准确率，通过利用训练后的模型提取出病历报告中的实体关系并构建结构化电子病历，推动智能化医疗服务的发展。

显然，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为本发明实施例1的流程图；

图2为本发明实施例1中用于OCR检测的DB模型结构图；

图3为本发明实施例1中用于OCR识别的CRNN模型结构图；

图4为本发明实施例1中用于文本纠错的Bert模型结构图；

图5为本发明实施例1中用于命名实体识别的Bert-CRF模型结构图；

图6为本发明实施例1的预测结果的示例图。

具体实施方式

需要特别说明的是，实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法，以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。

实施例1基于OCR-NER的结构化电子病历构建方法和系统

本实施例的系统包括：

数据预处理模块，用于进行电子病历图像的预处理；

为了训练模型，还包括：

在上述系统中进行结构化电子病历构建的方法如图1所示，具体包括如下步骤：

步骤一：对于800份人工采集的电子病历报告，由于受拍摄环境和图像噪声的影响，采集到的电子病历图像的质量较低，图像中可能包含部分椒盐噪声，这在一定程度上影响了后续的OCR检测与识别精度。因此采用非局部均值滤波降噪算法来去除图像中的椒盐噪声。其计算公式为：

对去噪后的图像，采用自适应阈值算法，通过计算图像的一个小区域的局部阈值进行二值化处理，以减少光、影对OCR的负面影响。其计算公式如下：

I(x，y)＝f(x，y)+I(x-1，y)+I(x，y-1)-I(x-1，y-1)

其中，I(x,y)表示坐标(x,y)处的积分值计算，

步骤二：对预处理后的电子病历图像首先利用DB检测算法(算法的模型结构如图2所示)进行OCR文本检测。首先将待检测的电子病历图像送入DB检测网络，该检测算法首先利用特征金字塔结构进行多尺度的图像特征融合，融合后的特征分别产生预测图和阈值图，再将两个特征图做可微分二值化操作得到文字区域的二分图，最后利用OpenCV的轮廓检测功能提取二分图中的文字区域信息。对检测到的区域信息，利用CRNN识别算法(算法的模型结构如图3所示)进行OCR识别。该识别算法同时兼顾卷积神经网络(CNN)和循环神经网络(RNN)的优势，首先接收检测到的文本区域信息作为模型的输入，然后利用CNN提取电子病历图像中的特征信息并转换为特征序列的形式，再将特征序列通过RNN对每一帧进行预测，最后经过转换层得到最终的预测序列。

步骤三：由于电子病历图像成像条件的影响，采用OCR技术提取出的文本信息存在部分错误识别问题。为了缓解这个问题带来的影响，采用文本纠错方案对OCR的识别结果执行进一步的纠错操作。具体的，首先将提取到的病历文本信息做Embedding处理。由于提取到的文本信息是按规则排序的，不需要对下一个句子进行预测，因此在输入端去掉了Segment Embedding，仅保留了Token Embedding和Position Embedding。然后，将经过Embedding处理后的数据输入至预训练的Bert(模型结构如图4所示)进行模型微调，将识别错误的医学用语修正为正确的词汇。模型经过微调后，将提取到的病历文本信息传入模型并返回正确的预测token。最后通过简单的预测后处理得到纠错后的病历文本信息。

步骤四：采用BIO标注方式对纠错后的病历文本数据进行标注。该标注方式中B标签表示命名实体的开始，I标签表示命名实体的中间或结尾，O标签表示非实体类别，具体来说，对于“叶状肿瘤”一词，该词对应的标签为疾病诊断，对于第一个字符“叶”，将其标注为B-疾病诊断，而对于“状”、“肿”、“瘤”这三个中间字符，将它们都标注为I-疾病诊断。

步骤五：对于标注后的病历文本数据，首先将文本中的每一个字符传入TokenEmbedding层进行转换，将每个字符转换成固定维度的向量。另外，引入PositionEmbedding和Segment Embedding分别编码不同字符的位置信息和不同句子的向量表示。

步骤六：利用Bert-CRF对标注后的文本进行模型训练。其中Bert模型通过多层的双向Transformer作为编码器来提取文本特征，利用Transfomer的自注意力机制来建模全局上下文信息，以建立字符与字符之间的联系。具体如图5所示，将经过Embedding转换后的字符向量，段向量和位置向量结合后输入到预训练的Bert模型中，在模型编码器部分，利用多层双向Transformer提取向量序列中的特征信息。在Transformer中，编码器中的句子首先经过一个自注意力层来学习不同句子之间的关系，之后传入前馈神经网络层进行处理。这个特征提取过程中的某一个编码器的处理过程(实验中设置了12个编码器层)。实验中Bert模型使用Adam优化器，网络层数被设置为12，网络中的隐藏层维度为768，学习率被设置为5e-5，每次训练的批处理量batch_size为16。

步骤七：对于Bert模型预测的字符类别标签概率，利用CRF来建立标签之间的约束关系。CRF接收Bert模型输出的状态分数、类别真实标签作为输入，通过学习一个转移分数矩阵，利用viterbi算法代替softmax分类器，寻找隐含状态序列并预测出每个字符对应的标签概率。

步骤八：通过损失函数进行前向计算并输出最终预测结果。

所述结果值为每个字符对应的类别标签，对于“叶状肿瘤”一词，经过模型后输出的结果为：叶B-疾病诊断；状I-疾病诊断；肿I-疾病诊断；瘤I-疾病诊断。

由此观测出输出结果“叶状肿瘤”一词为疾病诊断类型。该方法最终预测效果如附图6所示，模型的最终预期训练效果可以准确地判断医疗电子病历报告的实体类型和标签类型。

由于目前没有标准术语来规范结构化电子病历的内容，难以通过标准化的方式编写报告，也无法满足前结构化病历报告的标准。因此，本发明提供的电子病历内容的结构化方法和系统将为后续的患者随访和医疗服务带来更多便利。