CN110110622A - 一种基于图像处理的医疗文本检测方法、系统和存储介质 - Google Patents

一种基于图像处理的医疗文本检测方法、系统和存储介质 Download PDF

Info

Publication number
CN110110622A
CN110110622A CN201910329713.5A CN201910329713A CN110110622A CN 110110622 A CN110110622 A CN 110110622A CN 201910329713 A CN201910329713 A CN 201910329713A CN 110110622 A CN110110622 A CN 110110622A
Authority
CN
China
Prior art keywords
medical
text
image
training
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910329713.5A
Other languages
English (en)
Other versions
CN110110622B (zh
Inventor
刘军
刘洋
孙思琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yuran Intelligent Technology Co Ltd
Wuhan Institute of Technology
Original Assignee
Wuhan Yuran Intelligent Technology Co Ltd
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yuran Intelligent Technology Co Ltd, Wuhan Institute of Technology filed Critical Wuhan Yuran Intelligent Technology Co Ltd
Priority to CN201910329713.5A priority Critical patent/CN110110622B/zh
Publication of CN110110622A publication Critical patent/CN110110622A/zh
Application granted granted Critical
Publication of CN110110622B publication Critical patent/CN110110622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图像处理的医疗文本检测方法、系统及存储介质,方法包括获取多个医疗文本图像,根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。本发明的医疗文本检测方法可以实现对测试集中医疗文本图像的医疗文本信息的检测,代替人工处理医疗文本图像,将医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本信息进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。

Description

一种基于图像处理的医疗文本检测方法、系统和存储介质
技术领域
本发明涉及医疗文本处理技术领域,尤其涉及一种基于图像处理的医疗文本检测方法、系统和存储介质。
背景技术
随着科技的不断发展,人工智能迅速地渗透到各个领域中。保险公司和医院每天都会有着成千上万的医疗文本图像,而目前在医疗文本图像的处理中,工作人员先要将图像上的文本区域定位,然后再通过人工将文字记录到电脑中,这种重复又枯燥的工作会使人乏力,以至于在输入信息时,造成信息输入有误的问题,准确率不高,且效率低。
因此亟需一种能代替人工处理医疗文本图像的方式,来代替人工完成这些重复又枯燥的工作,并保证检测医疗文本图像的准确率,提高检测效率。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于图像处理的医疗文本检测方法、系统和存储介质,以提高检测医疗文本图像的准确率,提高检测效率。
本发明解决上述技术问题的技术方案如下:
一种基于图像处理的医疗文本检测方法,包括以下步骤:
步骤1:获取多个医疗文本图像,根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
步骤2:建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
步骤3:根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
本发明的有益效果是:通过根据多个医疗文本图像制作的数据集,获取训练集和测试集,并建立训练模型,通过训练集进行训练得到的医疗文本检测模型,对测试集进行检测,可以实现对测试集中医疗文本图像的医疗文本的检测,代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:在所述步骤1中,制作所述数据集并根据所述数据集获取所述训练集和所述测试集的具体步骤包括:
步骤1.1:对所述医疗文本图像进行预处理,得到目标医疗文本图像;
步骤1.2:根据所述目标医疗文本图像制成所述数据集;
步骤1.3:从所述数据集中获取所述训练集和所述测试集。
上述进一步方案的有益效果是:通过对医疗文本图像进行预处理,可以方便将医疗文本图像统一成可识别的图像格式,还可以方便消除图像噪声,提高后续根据目标医疗文本图像制作的数据集的质量,并便于后续根据数据集中的训练集进行训练,得到检测精度和准确度较高的医疗文本检测模型。
其中,对医疗文本图像进行预处理的方式有多种,例如归一化处理,可以提高医疗文本图像的整体对比度,例如直方图均衡化处理,可以将医疗文本图像中的文本标注出来,便于后续提取目标医疗文本图像中的文本数据,进而方便根据目标医疗文本图像制成的数据集中的训练集进行训练,以使采用训练好的医疗文本检测模型对测试集进行检测的准确度更高。
进一步:在所述步骤1.1中,得到所述目标医疗文本图像的具体步骤包括:
步骤1.1.1:对所述医疗文本图像进行筛分处理,得到第一中间医疗文本图像;
步骤1.1.2:对所述第一中间医疗文本图像中的文本进行标注处理,得到第二中间医疗文本图像;
步骤1.1.3:对所述第二中间医疗文本图像进行标签分割,得到第三中间医疗文本图像;
步骤1.1.4:对所述第三中间医疗文本图像进行格式转换,得到所述目标医疗文本图像。
上述进一步方案的有益效果是:由于医疗文本图像过多,且获取到的医疗文本图像会出现阴影过大、字迹模糊、锐化严重和手写较多等现象,首先通过对医疗文本图像进行筛分处理,可将医疗文本图像中上述不符合要求的的数据过滤掉,得到第一中间医疗文本图像,提高后续对第一中间医疗文本图像的识别率;通过对第一中间医疗文本图像中的文本进行标注处理(即将文本用矩形框的形式标注出来),可以将同一行间距过大的文本单独标注,也可以对密集的文字等标注在同一个矩形框中,方便后续根据该标注处理后的第二中间医疗文本图像进行标签分割和格式转换,从而方便获得统一格式的目标医疗文本图像;通过对第二中间医疗文本图像进行标签分割,可以将第二中间医疗文本图像中大小各异的矩形框分割成统一大小的矩形框,对已经标注好的第二中间医疗文本图像进行标签分割,能够在细粒度的层面上优化训练,方便后续根据标签分割后的第三中间医疗文本图像进行格式转换;通过对第三中间医疗文本图像进行格式转换,可以方便获得统一格式下的目标医疗文本图像,提高根据目标医疗文本图像制作的数据集中文本数据的识别率,从而方便提高后续得到的医疗文本检测模型的检测准确率。
进一步:在所述步骤2中,根据所述训练集对所述训练模型进行训练之前还包括:
预先设置所述训练模型在训练过程中的训练参数;
其中,所述训练参数至少包括学习率和迭代次数。
上述进一步方案的有益效果是:根据预先设置好的训练参数进行训练,可以便于训练好的医疗文本检测模型对测试集的检测准确率能达到预设理想值,从而提高医疗文本检测模型的检测精度;其中,学习率越低,医疗文本检测模型收敛的越快,迭代次数越大,医疗文本检测模型的精度越高。
进一步:根据所述医疗文本检测模型对所述测试集进行检测之前还包括:
利用交叉验证集对所述医疗文本检测模型进行验证,并判断验证结果是否达到预设理想值,若是,则进行步骤3,若否,则返回步骤2;
其中,所述交叉验证集是从所述数据集获取的。
上述进一步方案的有益效果是:利用从数据集中获取的交叉验证集对得到的医疗文本检测模型进行验证,当验证结果达到预设理想值,则利用该医疗文本图像进行检测,当验证结果未达到预设理想值,则重新调整预设的训练参数,重复利用训练集对训练模型进行训练,直到利用交叉验证集对训练后的医疗文本图像进行验证的验证结果达到预设理想值为止;通过上述验证方法,可以进一步提高医疗文本检测模型的检测准确率;其中,预设理想值可根据实际情况而设定;其中,本发明中的训练集、测试集和交叉验证集共同构成了数据集,且测试集与训练集中的医疗文本图像不同,可以减少最终获得的医疗文本检测模型的误判率,提高检测准确率。
进一步:所述训练模型具体为VGG16卷积神经网络和RPN区域候选网络合成的模型。
上述进一步方案的有益效果是:在传统的VGG16卷积神经网络下,通过RPN区域候选网络中的候选目标区域所包含的特征,能对目标医疗文本图像中的目标文本数据进行目标/背景的二分类判别,排除被判别为背景的无效候选区域,得到优化后的目标候选区域,即能调整目标医疗文本图像中的目标文本数据,获得更为准确的目标文本数据,利用VGG16卷积神经网络和RPN区域候选网络合成的模型进行训练,能提高训练好的医疗文本检测模型的训练效果,提高医疗文本检测模型的检测准确率。
依据本发明的另一方面,提供了一种基于图像处理的医疗文本检测系统,包括图像获取单元、数据集制作单元、训练单元和检测单元;
所述图像获取单元,用于获取多个医疗文本图像;
所述数据集制作单元,用于根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
所述训练单元,用于建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
所述检测单元,用于根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
本发明的有益效果是:本发明的图像处理的医疗文本检测系统,通过图像获取单元、数据集制作单元和训练单元,获得检测准确度较高的医疗文本检测模型,再通过检测单元对测试集集进行检测,能得到检测准确度较高的检测结果,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述数据集制作单元包括图像处理子单元、制作子单元和划分子单元;
所述图像处理子单元,用于对所述医疗文本图像进行预处理,得到目标医疗文本图像;
所述制作子单元,用于根据所述目标医疗文本图像制成所述数据集;
所述划分子单元,用于从所述数据集中获取所述训练集和所述测试集。
上述进一步方案的有益效果是:通过图像处理子单元对医疗文本图像进行预处理,可以方便将医疗文本图像统一成可识别的图像格式,还可以方便消除图像噪声,提高后续制作子单元根据目标医疗文本图像制作的数据集的质量,并便于后续根据数据集中的训练集进行训练,得到检测精度和准确度较高的医疗文本检测模型。
依据本发明的另一方面,提供了一种基于图像处理的医疗文本检测系统,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现本发明的一种基于图像处理的医疗文本检测方法中的步骤。
本发明的有益效果是:通过存储在存储器上的计算机程序,并运行在处理器上,实现本发明的基于图像处理的医疗文本检测系统,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
依据本发明的另一方面,提供了一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现本发明的一种基于图像处理的医疗文本检测方法中的步骤。
本发明的有益效果是:通过执行包含至少一个指令的计算机存储介质,实现本发明的基于图像处理的医疗文本检测,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
附图说明
图1为本发明一种基于图像处理的医疗文本检测方法的流程示意图一;
图2为本发明一种基于图像处理的医疗文本检测方法的流程示意图二;
图3为本发明一种基于图像处理的医疗文本检测系统的结构示意图一;
图4为本发明一种基于图像处理的医疗文本检测系统的结构示意图二。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面结合附图,对本发明进行说明。
实施例一、如图1所示,一种基于图像处理的医疗文本检测方法,包括以下步骤:
S1:获取多个医疗文本图像,根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
S2:建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
S3:根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
通过根据多个医疗文本图像制作的数据集,获取训练集和测试集,并建立训练模型,通过训练集进行训练得到的医疗文本检测模型,对测试集进行检测,可以实现对测试集中医疗文本图像的医疗文本信息的检测,代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本信息进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
具体地,本实施例通过相关单位(保险公司或者医院)所给的保函、病症记录、住院记录、超声波检查报告等多类医疗文本图像,共计6000张医疗文本图像。
优选地,如图2所示,在S1中,制作所述数据集并根据所述数据集获取所述训练集和所述测试集的具体步骤包括:
S1.1:对所述医疗文本图像进行预处理,得到目标医疗文本图像;
S1.2:根据所述目标医疗文本图像制成所述数据集;
S1.3:从所述数据集中获取所述训练集和所述测试集。
具体地,如图2所示,在S1.1中,得到所述目标医疗文本图像的具体步骤包括:
S1.1.1:对所述医疗文本图像进行筛分处理,得到第一中间医疗文本图像;
S1.1.2:对所述第一中间医疗文本图像中的文本进行标注处理,得到第二中间医疗文本图像;
S1.1.3:对所述第二中间医疗文本图像进行标签分割,得到第三中间医疗文本图像;
S1.1.4:对所述第三中间医疗文本图像进行格式转换,得到所述目标医疗文本图像。
由于医疗文本图像过多,且获取到的医疗文本图像会出现阴影过大、字迹模糊、锐化严重和手写较多等现象,首先通过对医疗文本图像进行筛分处理,可将医疗文本图像中上述不符合要求的的数据过滤掉,得到第一中间医疗文本图像,提高后续对第一中间医疗文本图像的识别率;通过对第一中间医疗文本图像中的文本进行标注处理(即将文本用矩形框的形式标注出来),可以将同一行间距过大的文本单独标注,也可以对密集的文字等标注在同一个矩形框中,方便后续根据该标注处理后的第二中间医疗文本图像进行标签分割和格式转换,从而方便获得统一格式的目标医疗文本图像;通过对第二中间医疗文本图像进行标签分割,可以将第二中间医疗文本图像中大小各异的矩形框分割成统一大小的矩形框,对已经标注好的第二中间医疗文本图像进行标签分割,能够在细粒度的层面上优化训练,方便后续根据标签分割后的第三中间医疗文本图像进行格式转换;通过对第三中间医疗文本图像进行格式转换,可以方便获得统一格式下的目标医疗文本图像,提高根据目标医疗文本图像制作的数据集中文本数据的识别率,从而方便提高后续得到的医疗文本检测模型的检测准确率。
具体地,本实施例在对第一中间医疗文本图像进行标注处理的过程中,如遇到同一行间距较大的文本时,应将这两个文本分别框出,而不标注在同一个文本框,如遇到文本有倾斜过大的时候,也分段标注,确保每一个文字全部都在文本框中;最后得到的是含有文本框的标注图,以及每一个文本框的四个点的坐标信息和单个文本框的第二中间医疗文本图像。
本实施例利用split_label对得到的第二中间医疗文本图像进行标签分割,将大小各异的文本框分割成统一大小的文本框,然后将得到的统一大小的文本框使用ToVoc将得到的第三中间文本图像转换成标准文本框VOC格式,即VOC格式的目标医疗文本图像,该目标医疗文本图像包含所有的医疗文本信息。
本实施例将数据集分为三个部分:训练集、测试集和交叉验证集,即本实施例中的训练集、测试集和交叉验证集共同构成了数据集,且测试集与训练集中的医疗文本图像不同,可以减少最终获得的医疗文本检测模型的误判率,提高检测准确率。
优选地,如图2所示,在S2中,根据所述训练集对所述训练模型进行训练之前还包括:
预先设置所述训练模型在训练过程中的训练参数;
其中,所述训练参数至少包括学习率和迭代次数。
根据预先设置好的训练参数进行训练,可以便于训练好的医疗文本检测模型对测试集的检测准确率能达到预设理想值,从而提高医疗文本检测模型的检测精度;其中,学习率越低,医疗文本检测模型收敛的越快,迭代次数越大,医疗文本检测模型的精度越高。
具体地,本实施例预设的学习率为0.00005,迭代次数为50000,迭代次数明显高于同类型的其他检测模型,这样有利于提高本发明中的医疗文本检测模型的精度。
具体地,所述训练模型具体为VGG16卷积神经网络和RPN区域候选网络合成的模型。
在传统的VGG16卷积神经网络下,通过RPN区域候选网络中的候选目标区域所包含的特征,能对目标医疗文本图像中的目标文本数据进行目标/背景的二分类判别,排除被判别为背景的无效候选区域,得到优化后的目标候选区域,即能调整目标医疗文本图像中的目标文本数据,获得更为准确的目标文本数据,利用VGG16卷积神经网络和RPN区域候选网络合成的模型进行训练,能提高训练好的医疗文本检测模型的训练效果,提高医疗文本检测模型的检测准确率。
优选地,如图2所示,根据所述医疗文本检测模型对所述测试集进行检测之前还包括:
利用交叉验证集对所述医疗文本检测模型进行验证,并判断验证结果是否达到预设理想值,若是,则进行S3,若否,则返回S2;
其中,所述交叉验证集是从所述数据集获取的。
利用从数据集中获取的交叉验证集对得到的医疗文本检测模型进行验证,当验证结果达到预设理想值,则利用该医疗文本图像进行检测,当验证结果未达到预设理想值,则重新调整预设的训练参数,重复利用训练集对训练模型进行训练,直到利用交叉验证集对训练后的医疗文本图像进行验证的验证结果达到预设理想值为止;通过上述验证方法,可以进一步提高医疗文本检测模型的检测准确率;其中,预设理想值可根据实际情况而设定。
本实施例将训练集导入到训练模型中,训练模型将训练集的特征信息提取,与所标注的文本框的坐标信息进行匹配,得到每一个文本框是否为正例的概率;在训练的过程中,训练模型会在每训练20次,输出该训练模型的准确率、学习率和迭代次数;直至得到医疗文本检测模型,并将交叉验证集导入到医疗文本检测模型中进行验证,输出该医疗文本检测模型的准确率,当准确率未达到预设理想值时,重新调整预设的训练参数,重复利用训练集对医疗文本检测模型进行训练,直到利用交叉验证集对训练后的医疗文本图像进行验证的验证结果达到预设理想值为止,得到最终检测准确率符合理想要求的医疗文本检测模型。
由于数据集中包含医疗保单、检测报告和超声波检查等多类含有医疗术语的文本图像,因此,本发明的医疗文本检测模型可以定位出所有医疗文本图像中的医疗文本信息,配合现有的文本识别技术,能够极大地减少相关公司工作人员的手动输入,代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅。
实施例二、如图3所示,一种基于图像处理的医疗文本检测系统,包括图像获取单元、数据集制作单元、训练单元和检测单元;
所述图像获取单元,用于获取多个医疗文本图像;
所述数据集制作单元,用于根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
所述训练单元,用于建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
所述检测单元,用于根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
本发明的图像处理的医疗文本检测系统,通过图像获取单元、数据集制作单元和训练单元,获得检测准确度较高的医疗文本检测模型,再通过检测单元对测试集进行检测,能得到检测准确度较高的检测结果,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
优选地,如图4所示,所述数据集制作单元包括图像处理子单元、制作子单元和划分子单元;
所述图像处理子单元,用于对所述医疗文本图像进行预处理,得到目标医疗文本图像;
所述制作子单元,用于根据所述目标医疗文本图像制成所述数据集;
所述划分子单元,用于从所述数据集中获取所述训练集和所述测试集。
通过图像处理子单元对医疗文本图像进行预处理,可以方便将医疗文本图像统一成可识别的图像格式,还可以方便消除图像噪声,提高后续制作子单元根据目标医疗文本图像制作的数据集的质量,并便于后续根据数据集中的训练集进行训练,得到检测精度和准确度较高的医疗文本检测模型。
实施例三、基于实施例一和实施例二,本实施例还公开了一种基于图像处理的医疗文本检测系统,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如图1所示的以下步骤:
S1:获取多个医疗文本图像,根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
S2:建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
S3:根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
通过存储在存储器上的计算机程序,并运行在处理器上,实现本发明的基于图像处理的医疗文本检测系统,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
本实施例还提供一种计算机存储介质,所述计算机存储介质上存储有至少一个指令,所述指令被执行时实现所述S1至S3的具体步骤。
通过执行包含至少一个指令的计算机存储介质,实现本发明的基于图像处理的医疗文本检测,能实现代替人工处理医疗文本图像,将医疗文本图像中的医疗文本信息记录到电脑中,方便保险公司或医院等相关单位对医疗文本进行存档和查阅,智能化高,不会出现人为因素造成的错误,准确率高、效率高,方法简单,适合普遍推广。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图像处理的医疗文本检测方法,其特征在于,包括以下步骤:
步骤1:获取多个医疗文本图像,根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
步骤2:建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
步骤3:根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
2.根据权利要求1所述的基于图像处理的医疗文本检测方法,其特征在于,在所述步骤1中,制作所述数据集并根据所述数据集获取所述训练集和所述测试集的具体步骤包括:
步骤1.1:对所述医疗文本图像进行预处理,得到目标医疗文本图像;
步骤1.2:根据所述目标医疗文本图像制成所述数据集;
步骤1.3:从所述数据集中获取所述训练集和所述测试集。
3.根据权利要求2所述的基于图像处理的医疗文本检测方法,其特征在于,在所述步骤1.1中,得到所述目标医疗文本图像的具体步骤包括:
步骤1.1.1:对所述医疗文本图像进行筛分处理,得到第一中间医疗文本图像;
步骤1.1.2:对所述第一中间医疗文本图像中的文本进行标注处理,得到第二中间医疗文本图像;
步骤1.1.3:对所述第二中间医疗文本图像进行标签分割,得到第三中间医疗文本图像;
步骤1.1.4:对所述第三中间医疗文本图像进行格式转换,得到所述目标医疗文本图像。
4.根据权利要求2所述的基于图像处理的医疗文本检测方法,其特征在于,在所述步骤2中,根据所述训练集对所述训练模型进行训练之前还包括:
预先设置所述训练模型在训练过程中的训练参数;
其中,所述训练参数至少包括学习率和迭代次数。
5.根据权利要求4所述的基于图像处理的医疗文本检测方法,其特征在于,根据所述医疗文本检测模型对所述测试集进行检测之前还包括:
利用交叉验证集对所述医疗文本检测模型进行验证,并判断验证结果是否达到预设理想值,若是,则进行步骤3,若否,则返回步骤2;
其中,所述交叉验证集是从所述数据集中获取的。
6.根据权利要求1至5任一项所述的基于图像处理的医疗文本检测方法,其特征在于,所述训练模型具体为VGG16卷积神经网络和RPN区域候选网络合成的模型。
7.一种基于图像处理的医疗文本检测系统,其特征在于,包括图像获取单元、数据集制作单元、训练单元和检测单元;
所述图像获取单元,用于获取多个医疗文本图像;
所述数据集制作单元,用于根据多个所述医疗文本图像制作数据集,并根据所述数据集获取训练集和测试集;
所述训练单元,用于建立训练模型,并根据所述训练集对所述训练模型进行训练,得到医疗文本检测模型;
所述检测单元,用于根据所述医疗文本检测模型对所述测试集进行检测,得到所述测试集的检测结果。
8.根据权利要求7所述的基于图像处理的医疗文本检测系统,其特征在于,所述数据集制作单元包括图像处理子单元、制作子单元和划分子单元;
所述图像处理子单元,用于对所述医疗文本图像进行预处理,得到目标医疗文本图像;
所述制作子单元,用于根据所述目标医疗文本图像制成所述数据集;
所述划分子单元,用于从所述数据集中获取所述训练集和所述测试集。
9.一种基于图像处理的医疗文本检测系统,其特征在于,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如权利要求1至6任一项权利要求所述的方法步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1至6任一项所述的方法步骤。
CN201910329713.5A 2019-04-23 2019-04-23 一种基于图像处理的医疗文本检测方法、系统和存储介质 Active CN110110622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910329713.5A CN110110622B (zh) 2019-04-23 2019-04-23 一种基于图像处理的医疗文本检测方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910329713.5A CN110110622B (zh) 2019-04-23 2019-04-23 一种基于图像处理的医疗文本检测方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN110110622A true CN110110622A (zh) 2019-08-09
CN110110622B CN110110622B (zh) 2023-08-22

Family

ID=67486363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910329713.5A Active CN110110622B (zh) 2019-04-23 2019-04-23 一种基于图像处理的医疗文本检测方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN110110622B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827935A (zh) * 2019-10-21 2020-02-21 清华大学 一种中西医医疗大数据的数据质控方法及系统
CN111144355A (zh) * 2019-12-31 2020-05-12 北京师范大学 数据采集方法、装置、设备及计算机可读存储介质
CN111584044A (zh) * 2020-05-14 2020-08-25 上海深至信息科技有限公司 一种标准超声图像训练集的生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109614938A (zh) * 2018-12-13 2019-04-12 深源恒际科技有限公司 一种基于深度网络的文本目标检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109614938A (zh) * 2018-12-13 2019-04-12 深源恒际科技有限公司 一种基于深度网络的文本目标检测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827935A (zh) * 2019-10-21 2020-02-21 清华大学 一种中西医医疗大数据的数据质控方法及系统
CN111144355A (zh) * 2019-12-31 2020-05-12 北京师范大学 数据采集方法、装置、设备及计算机可读存储介质
CN111584044A (zh) * 2020-05-14 2020-08-25 上海深至信息科技有限公司 一种标准超声图像训练集的生成方法及系统
CN111584044B (zh) * 2020-05-14 2023-07-14 上海深至信息科技有限公司 一种标准超声图像训练集的生成方法及系统

Also Published As

Publication number Publication date
CN110110622B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN106780448B (zh) 一种基于迁移学习与特征融合的超声甲状腺结节良恶性分类系统
Kowal et al. Cell nuclei segmentation in cytological images using convolutional neural network and seeded watershed algorithm
CN106780475B (zh) 一种基于病理组织切片图像组织区域的图像处理装置
CN112101451B (zh) 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法
CN105389593B (zh) 基于surf特征的图像物体识别方法
CN107368670A (zh) 基于大数据深度学习的胃癌病理诊断支持系统和方法
EP1820141B1 (en) Multiscale variable domain decomposition method and system for iris identification
CN109117744A (zh) 一种用于人脸验证的孪生神经网络训练方法
CN109191457A (zh) 一种病理图像质量有效性识别方法
CN109635846A (zh) 一种多类医学图像判断方法和系统
CN110110622A (zh) 一种基于图像处理的医疗文本检测方法、系统和存储介质
CN108776774A (zh) 一种基于复杂度感知分类算法的面部表情识别方法
CN110210286A (zh) 基于眼底图像的异常识别方法、装置、设备及存储介质
CN107871101A (zh) 一种人脸检测方法及装置
CN110263656A (zh) 一种癌细胞识别方法、装置和系统
CN105760858A (zh) 一种基于类Haar中间层滤波特征的行人检测方法及装置
CN109087296A (zh) 一种提取ct图像中人体区域的方法
CN109977887A (zh) 一种抗年龄干扰的人脸识别方法
Pacha et al. Towards self-learning optical music recognition
CN105117707A (zh) 一种基于区域图像的人脸表情识别方法
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN106469300B (zh) 一种色斑检测识别方法
CN110135225A (zh) 样本标注方法及计算机存储介质
CN114140465A (zh) 基于宫颈细胞切片图像的自适应的学习方法和学习系统
CN112579808A (zh) 数据标注处理方法及装置、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant