CN113392844A

CN113392844A - 一种基于深度学习的医用胶片上文字信息的识别方法

Info

Publication number: CN113392844A
Application number: CN202110661076.9A
Authority: CN
Inventors: 黄志伟; 林金朝; 庞宇; 王慧倩; 杨宏志
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-14

Abstract

本发明涉及一种基于深度学习的医用胶片上文字信息的识别方法，属于医学影像处理技术领域。该方法包括：S1：将待识别文字信息的胶片图像输入到特征提取网络，获取含有文字多尺度的特征图；S2：将步骤S1获取的特征图输入到多方向窗口提取网络中，得到建议框；S3：利用改进的建议框旋转模块处理步骤S2的建议框，得到文本检测结果；S4：将步骤S3的文本检测结果输入到编解码文字识别模块中，得到胶片上对应的文字识别结果。本发明实现了医用胶片上文字信息自动识别，直接输出医用胶片上对应的中英文文字信息，无需人为修正和验证，效率高，准确率也有保障。

Description

一种基于深度学习的医用胶片上文字信息的识别方法

技术领域

本发明属于医学影像处理技术领域，涉及一种基于深度学习的医用胶片上文字信息自动识别的方法。

背景技术

病人在医院放射科做完影像技术检查后，影像医生阅片做出诊断结果，通过分别打印医用胶片和诊断报告交给病人保管。但是由于医用胶片上文字信息字体很小，对比度不高，医技人员在为病人整理医用胶片和诊断报告进行装袋时要核对两者的信息是否对应统一，需要非常认真仔细导致效率低下，延长了病人等待时间，还很容易出现人为错误。

目前已有的医学影像文字信息识别方法主要依靠手工标记获取文字特征，需要建立文字大样本数据库，包括文字定位、预处理、识别、修正和验证等步骤，所需环节比较繁琐，需要操作者人为缩小识别范围，对文字进行修正和验证，人工工作量依然较大，也存在人为差错的概率。

因此，亟需一种能够自动识别医用胶片上文字信息的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的医用胶片上文字信息的识别方法，采用深度学习的方法，大大简化了人工标记文字特征的繁琐环节，尤其中英文文字信息特征区别较大的情况下，深度学习可以实现自动提取医用胶片上两种文字的特征，直接实现从胶片图像作为输入，而中英文文字信息作为输出，识别效率和准确率都极大提高。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的医用胶片上文字信息的识别方法，具体包括以下步骤：

S1：将待识别文字信息的胶片图像输入到特征提取网络，获取含有文字多尺度的特征图；

S2：将步骤S1获取的特征图输入到多方向窗口提取网络中，得到建议框；

S3：利用改进的建议框旋转模块处理步骤S2的建议框，得到文本检测结果；

S4：将步骤S3的文本检测结果输入到编解码文字识别模块中，得到胶片上对应的文字识别结果。

进一步，步骤S1中，利用特征提取网络获取含有文字多尺度的特征图的具体步骤为：首先通过两层卷积操作提取简单的特征图，然后将特征图中的特征向量输入到金字塔循环网络，通过循环卷积可不断提取文字的高层语义信息和底层边界定位信息，将金字塔网络提取的特征输入到Def-Incept模块，利用可变形卷积能提取医用胶片中不规则形状的文字特征，最后将多层特征融合，生成含有文字多尺度特征的特征图。

进一步，步骤S2中，利用多方向窗口提取网络得到建议框的具体步骤为：首先在步骤S1的特征图上的每个特征点生成多个不同长宽比的锚框，然后通过不同尺寸的锚框获得对应原始感受野的候选锚框，最后通过候选锚框的坐标修正和得分排序，选择得分高的候选锚框作为建议框。

进一步，步骤S3中，利用改进的建议框旋转模块得到文本检测结果的具体步骤为：对步骤S2的建议框旋转一定角度，得到倾斜的文本建议框，然后将这些文本建议框与训练集标注的真实标签进行交并比IOU重合度计算，最后通过Fast RCNN模块对建议框筛选，采用非极大值抑制方法选择得分最高的建议框作为文本检测结果。

进一步，步骤S4中，利用编解码文字识别模块得到胶片上对应的文字识别结果的具体步骤为：采用基于密集连接网络和两层BLSTM的方法提取文字特征，生成具备字符上下文特征关系的特征向量序列，并采用注意力机制对编码的特征向量进行加权，更准确地利用字符相关信息，最后通过一层LSTM，利用前一时刻的输出和当前时刻的输入共同决定当前时刻的文字识别结果；最终输出胶片对应的文字识别结果。

本发明的有益效果在于：本发明通过直接拍照或输入医用胶片图像，利用深度学习方法实现医用胶片上文字信息自动识别，直接输出医用胶片上对应的中英文文字信息，无需人为修正和验证，效率高，准确率也有保障。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于深度学习的医用胶片上文字信息的识别方法流程图；

图2为本发明基于深度学习的医用胶片上文字信息的识别方法的结构框图；

图3为本实施例中选取的一张完整胶片图像；

图4为对图3选择的建议框示意图；

图5为对图3选择的文本检测结果示意图；

图6为从图3中识别出文字的结果示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图6，本发明优选了一种基于深度学习的医用胶片上文字信息的识别方法，具体包括以下步骤：

步骤一：从一张完整的胶片图像上选取要识别文字信息的其中一角，如图3所示。

步骤二：将待识别文字信息的胶片图像输入到特征提取网络。首先通过两层卷积操作提取简单的特征图，然后将特征图中的特征向量输入到金字塔循环网络，通过循环卷积可不断提取文字的高层语义信息和底层边界定位信息，将金字塔网络提取的特征输入到Def-Incept模块，利用可变形卷积能提取医用胶片中不规则形状的文字特征，最后将多层特征融合，生成含有文字多尺度特征的特征图，作为步骤三的输入。

步骤三：将胶片文字信息输入到多方向窗口提取网络。首先在特征图上的每个特征点生成11个不同长宽比的锚框，然后通过不同尺寸的检测框获得对应原始感受野的候选锚框，最后通过候选锚框的坐标修正和得分排序，选择得分高的候选锚框作为建议框，如图4所示。

步骤四：将未水平的胶片图像输入到改进的建议框旋转模块。通过本模块对步骤三的建议框旋转一定角度，得到倾斜的文本建议框，然后将这些建议框与训练集标注的真实标签进行交并比IOU重合度计算，最后通过Fast RCNN模块对建议框筛选，采用非极大值抑制方法选择得分最高的建议框作为文本检测结果，如图5所示。

步骤五：将胶片文本检测结果输入到编解码文字识别模块。本模块采用基于密集连接网络和两层BLSTM的方法提取文字特征，生成具备字符上下文特征关系的特征向量序列，并采用注意力机制对编码的特征向量进行加权，更准确地利用字符相关信息，最后通过一层LSTM，利用前一时刻的输出和当前时刻的输入共同决定当前时刻的文字识别结果。最终输出胶片对应的文字识别结果，如图6所示。

本发明方法采用深度学习的方法，属于端到端的学习，数据输入进去就可以得到结果，方便快捷，也不用手工设计规则，深度学习可以尽可能的优化损失函数去学习规则，还可以尽可能的挖掘数据潜在特征，对中英文文字信息都能有效识别。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的医用胶片上文字信息的识别方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的医用胶片上文字信息的识别方法，其特征在于，步骤S1中，利用特征提取网络获取含有文字多尺度的特征图的具体步骤为：首先通过两层卷积操作提取简单的特征图，然后将特征图中的特征向量输入到金字塔循环网络，通过循环卷积不断提取文字的高层语义信息和底层边界定位信息，将金字塔网络提取的特征输入到Def-Incept模块，利用可变形卷积提取医用胶片中不规则形状的文字特征，最后将多层特征融合，生成含有文字多尺度特征的特征图。

3.根据权利要求1所述的医用胶片上文字信息的识别方法，其特征在于，步骤S2中，利用多方向窗口提取网络得到建议框的具体步骤为：首先在步骤S1的特征图上的每个特征点生成多个不同长宽比的锚框，然后通过不同尺寸的锚框获得对应原始感受野的候选锚框，最后通过候选锚框的坐标修正和得分排序，选择得分高的候选锚框作为建议框。

4.根据权利要求1所述的医用胶片上文字信息的识别方法，其特征在于，步骤S3中，利用改进的建议框旋转模块得到文本检测结果的具体步骤为：对步骤S2的建议框旋转一定角度，得到倾斜的文本建议框，然后将这些文本建议框与训练集标注的真实标签进行交并比IOU重合度计算，最后通过Fast RCNN模块对建议框筛选，采用非极大值抑制方法选择得分最高的建议框作为文本检测结果。

5.根据权利要求1所述的医用胶片上文字信息的识别方法，其特征在于，步骤S4中，利用编解码文字识别模块得到胶片上对应的文字识别结果的具体步骤为：采用基于密集连接网络和两层BLSTM的方法提取文字特征，生成具备字符上下文特征关系的特征向量序列，并采用注意力机制对编码的特征向量进行加权，更准确地利用字符相关信息，最后通过一层LSTM，利用前一时刻的输出和当前时刻的输入共同决定当前时刻的文字识别结果；最终输出胶片对应的文字识别结果。