CN112883926A - 表格类医疗影像的识别方法及装置 - Google Patents

表格类医疗影像的识别方法及装置 Download PDF

Info

Publication number
CN112883926A
CN112883926A CN202110313437.0A CN202110313437A CN112883926A CN 112883926 A CN112883926 A CN 112883926A CN 202110313437 A CN202110313437 A CN 202110313437A CN 112883926 A CN112883926 A CN 112883926A
Authority
CN
China
Prior art keywords
type
medical image
medical images
feature map
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110313437.0A
Other languages
English (en)
Other versions
CN112883926B (zh
Inventor
王若楠
张秋晖
刘兴旺
丁笑天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202110313437.0A priority Critical patent/CN112883926B/zh
Publication of CN112883926A publication Critical patent/CN112883926A/zh
Application granted granted Critical
Publication of CN112883926B publication Critical patent/CN112883926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表格类医疗影像的识别方法及装置,其中该方法包括:将表格类医疗影像输入卷积神经网络模型,执行:从该影像中提取出多个不同尺度大小的融合特征图;从最小尺度大小的特征图中检测出表格线;将最小特征图划分为不同类型区域,确定每一类型区域的外接矩形;切分特征图及基于表格线对表格类型区域进行单元格划分,得到所有单元格;分别对非表格类型区域及表格类型区域的每一单元格进行OCR识别,按照外接矩形及每一单元格的位置输出识别结果。本发明实现了基于表格线检测与图像区域划分的表格类医疗影像的识别,可以提高表格类医疗影像识别的精度和效率,进而可以提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。

Description

表格类医疗影像的识别方法及装置
技术领域
本发明涉及图像识别技术领域,尤其涉及表格类医疗影像的识别方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着保险领域科技的进步,精细化保险的需求日益强烈,这种需求要求保险的客户在购买保险、保险核赔时需要提供更多的医疗影像的数据(体检报告、医疗发票、诊断记录等),保险公司再根据影像上的数据开展精细化的核保、理赔业务,但是随着数据量的剧增,保险公司的核保、核赔的成本与时效也在剧增,因此需要寻求一种提高该项业务的技术。
OCR技术目前已广泛应用于各类证件等纸质单据的识别中,对于医疗影像也有一定的应用效果,但由于医疗影像的版面布局的复杂(表格多、样式复杂),例如,医疗影像中住院费用清单存在大量表格区域,表示每行文字分别代表药品名、数量、单价、总价等信息,对于此医疗影像数据,目前表格类医疗影像的识别主要利用字段检测与位置判定得到识别结果,识别精度和效率均低,因此针对以上的核保、理赔业务中医疗影像数据的录入,往往采用人工录入的方式进行,这种方法不仅效率低、也容易出错。
发明内容
本发明实施例提供一种表格类医疗影像的识别方法,用以高效精确地识别表格类医疗影像,该方法包括:
获取表格类医疗影像;
将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
从最小尺度大小的融合特征图中检测出表格线;
将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;
按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;
分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行光学字符识别OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
本发明实施例还提供一种表格类医疗影像的识别装置,用以高效精确地识别表格类医疗影像,该装置包括:
获取单元,用于获取表格类医疗影像;
表格线检测及区域划分单元,用于将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
从最小尺度大小的融合特征图中检测出表格线;
将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;基于检测出的表格线,对表格类型区域进行单元格划分处理,得到表格类型区域的所有单元格;
切分单元,用于按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格
识别单元,用于分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行光学字符识别OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述表格类医疗影像的识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述表格类医疗影像的识别方法的计算机程序。
本发明实施例中,表格类医疗影像的识别方案,与现有技术中利用字段检测与位置判定来进行医疗影像识别的技术方案相比,通过:获取表格类医疗影像;将表格类医疗影像输入预先建立的卷积神经网络模型,卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:对表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;从最小尺度大小的融合特征图中检测出表格线;将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,类型区域包括表格类型区域和非表格类型区域;按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行光学字符识别OCR识别,按照外接矩形及每一单元格的位置信息输出识别结果,实现了基于表格线检测与图像区域划分的表格类医疗影像的识别,可以提高表格类医疗影像识别的精度和效率,进而可以提高核保、理赔等业务中医疗影像数据录入的精度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明一个实施例中表格类医疗影像的识别方法的流程示意图;
图2为本发明一个实施例中表格类医疗影像的识别的原理示意图;
图3为本发明一个实施例中表格类医疗影像的示意图;
图4为本发明一个实施例中检测出表格线的表格类医疗影像的示意图;
图5为本发明一个实施例中将特征图划分为不同类型区域的表格类医疗影像的示意图;
图6为本发明一个实施例中表格类医疗影像的识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
发明人发现一个技术问题:目前,OCR技术主要是依据卷积神经网络定位医疗影像票据例如发票上的文字位置,然后通过循环神经网络等识别文字。经过这些步骤后,可以得到孤立的图(影像)中的文字位置以及对应的文字识别结果,但忽略了图像中各个文字的相互之间的关系,例如,医疗影像中住院费用清单存在大量表格区域,表示每行文字分别代表药品名、数量、单价、总价等信息,对于此医疗影像数据,目前对于OCR后的识别结果结构化关系匹配还是采用较多的规则与传统图像处理算法,如利用字段检测与位置判定或NLP等方式来进行识别结果的匹配,但由于忽略掉了表格的信息,因此在处理格式较为复杂,或需特殊规则的结构化场景下,只有60%左右识别准确率,识别效率也低。
由于发明发现了上述技术问题,因此,提出了一种表格类医疗影像的识别方案,该方案为一种新的表格线检测与图像区域划分的影像数据结构化解析方案,该方案通过提取图片中的表格线信息与图像(图片)中影像区域的划分(将图像区域划分为表格区与非表格区)进行融合,然后通过一定表格合并算法将图像中的表格进行输出,从而在OCR技术中加入了表格的信息,提高了结构化识别的准确率。该方法首先采用了一种神经网络算法,首先对图片进行多尺度的特征提取及融合,然后进行两步操作,第一步,从整个图像提取表格线所在的像素点的信息,第二步,对图像做目标分割,将整个图像按版式进行划分,最后利用表格线与版式信息进行融合得到整张图的版式分析结果,这样之后在根据划分的结果分区进行OCR,最终再将识别结果按版式合并,可以提高结构化(表格类医疗影像)识别的准确率和效率,进而可以提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。下面对该表格类医疗影像的识别方案进行详细介绍。
图1为本发明一个实施例中表格类医疗影像的识别方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:获取表格类医疗影像;
步骤102:将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
步骤1021:对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
步骤1022:从最小尺度大小的融合特征图中检测出表格线;
步骤1023:将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;
步骤103:按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;
步骤104:分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行光学字符识别OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
本发明实施例提供的表格类医疗影像的识别方法实现了基于表格线检测与图像区域划分的表格类医疗影像的识别,可以提高表格类医疗影像识别的精度和效率,进而可以提高核保、理赔等业务中医疗影像数据录入的精度和效率。
下面结合图2至图5对本发明实施例涉及的各个步骤进行详细介绍。
一、首先,介绍预先建立卷积神经网络模型的步骤。
具体实施时,在实施表格类医疗影像的识别方案之前,首先获取大量的历史表格类医疗影像样本,基于该些历史表格类医疗影像样本训练神经网络,得到所述预先建立的卷积神经网络模型,该卷积神经网络模型的输入是表格类医疗影像,该卷积神经网络模型的输出是表格类医疗影像的识别结果。
在一个实施例中,所述卷积神经网络模型可以为VGG卷积神经网络模型或ResNet卷积神经网络模型。
具体实施时,VGG卷积神经网络模型或ResNet卷积神经网络模型可以进一步提高表格类医疗影像识别的精度和效率,进而可以进一步提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。
二、其次,介绍上述步骤101,即图2中输入图像的步骤。
具体实施时,获取表格类医疗影像可以是如图3所示的表格类医疗影像,一张医疗结算单的表格类医疗影像。
在一个实施例中,获取表格类医疗影像,可以包括:
获取RGB格式的表格类医疗影像;
对所述RGB格式的表格类医疗影像进行预处理操作,得到预处理操作后的表格类医疗影像;
将所述表格类医疗影像输入预先建立的卷积神经网络模型,可以包括:将所述预处理操作后的表格类医疗影像输入预先建立的卷积神经网络模型。
具体实施时,对输入的图片RGB图像进行预处理操作,包括但不限于图像的锐化,去噪等处理,即所述预处理操作包括对医疗影像的锐化预处理操作和去噪预处理操作等;将RGB格式的表格类医疗影像进行预处理操作后再输入预先建立的卷积神经网络模型进行后续操作,可以进一步提高表格类医疗影像识别的精度和效率,进而可以进一步提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。
三、接着,介绍上述步骤102。
具体实施时,如上述“一”的描述可知,本发明实施例预先构建了一个卷积神经网络模型,该网络模型主要由三部分模块组成,模块一,通过对图片进行卷积以及融合操作,得到不同尺度的特征,即用于实现步骤1021;模块二,从融合的特征上回归出表格线所在的位置(这里的表格线包含正常的表格线以及隐藏表格线,隐藏表格线是指图像存在表格的位置信息,但图像上没有表格线),即用于实现步骤1022;模块三,从模块一的不同尺度的特征图上回归出不同区域的类别与外接矩形等,即用于实现步骤1023。下面对该步骤102进行详细介绍。
1.首先介绍上述步骤1021,即图2中特征提取与融合的步骤。
在一个实施例中,将所述表格类医疗影像输入预先建立的卷积神经网络模型,可以包括:将所述表格类医疗影像的尺寸缩放到512×512后输入预先建立的卷积神经网络模型。
具体实施时,如图2所示,输入到卷积神经网络模型的表格类医疗影像为RGB三通道图像,将表格类医疗影像(图片)的尺寸缩放到512×512,可以提高模型的计算能力以及模型推理速度,因此可以进一步提高表格类医疗影像识别的精度和效率,进而可以进一步提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。
在一个实施例中,对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图,可以包括:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的、不同属性类型的融合特征图;所述不同属性类型的融合特征图可以包括形状属性类型的融合特征图、颜色属性类型的融合特征图及纹理属性类型的融合特征图。
在一个实施例中,所述融合特征图的数目可以为3个。
具体实施时,图像多尺度特征的提取与融合:通过卷积神经网络(可以使用VGG,ResNet)提取不同尺度特征等,并进行特征融合输出,获得3个不同尺度的融合特征图,特征图具体的表现形式为神经网络的内部信息,比如一个特征图可以代表颜色、一个特征图代表形状、另一个特征图代表纹理等,其中,颜色、纹理和形状为属性类型,还可以包括空间关系特征属性类型等,具体实施时,特征图可以是形状属性类型特征图、颜色属性类型特征图、纹理属性类型特征图以及其它属性类型特征图等,但不一定是上述三种属性类型特征图,实际在使用的时候会自动选取所代表的属性类型特征。通常来说,特征图越多效果越好,但效率越慢,因此3是一个经过大量实验得出的一个效果与效率平衡的值,有利于提高模型的识别精度和效率。
具体实施时,尺度主要对应于图像的大小,对于一张图片,进行卷积的操作后,有可能会改变图像的尺寸,例如原图的像素尺寸为100×100,经过卷积操作后,可能变成50×50,这50×50的像素即为原来100×100对应的一个尺度的特征。
通过上述可知,得到3不同尺度大小的、不同属性类型的融合特征图,可以进一步提高表格类医疗影像识别的精度和效率,进而可以进一步提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。
2.接着介绍上述步骤1022,即图2中第一个虚线框内的步骤。
如图2所示,从上一步骤1021后的分支一:从图像上回归出表格线的位置:
在一个实施例中,从最小尺度大小的融合特征图中检测出表格线,可以包括:
在从最小尺度大小的融合特征图上,对每个像素点进行分类;其中,0代表该像素点没有直线,1代表该像素点有直线;
利用射线追踪算法将值为1的所有像素点合并为线段,得到表格线。
具体实施时,在上一步1021的输出的最小尺度特征图(尺寸最小的特征图)上,对每个像素点进行分类,即采用最小尺度大小的融合特征图对像素分类成直线与非直线的操作,0代表该像素点没有直线,1代表该像素点有直线,在进行模型训练时,将训练样本的所有直线所在的像素点的值标为1,非直线所在的像素点的值标为0,然后利用回归的方式,回归出值为1的像素点,利用射线追踪算法将这些点合并为线段,得到表格线,如图4所示,加粗的表格线为检测出来的像素点经过射线追踪算法得出来的线段。该检测出表格线的具体实施方式可以进一步提高表格类医疗影像识别的精度和效率,进而可以进一步提高核保、理赔等业务中表格类医疗影像数据录入的精度和效率。
3.接着介绍上述步骤1023,即图2中第二个虚线框中的步骤。
如图2所示,从上一步骤1021后的分支二:采用3个特征图:融合特征1,融合特征2和融合特征3,从图像上回归出不同区域的外接矩形:
在分支一步的输出特征图1,2,3上,分别在每个特征图上的每个像素点上生成多个(例如8个)待选的候选框,这些候选框具有不同的尺寸,在进行模型训练时,将训练样本的图像区域按表格、列表、图像、标题等种类分割成外接矩形框,然后利用回归的方式,从多个待选的候选框中回归出不同类型区域(例如标题、表格、列表等类型区域)的外接矩形及每一外接矩形对应的类型,利用NMS(非极大抑制)算法将这些外接矩形中同类型的外接矩形合并,最终得到图像不同类型区域的外接矩形,如图5所示。因此,类型区域可以包括表格类型区域和非表格类型区域,其中,列表类型区域、图像类型区域、标题类型区域属于非表格类型区域。图5中从上至下框代表不同的外接矩形,每一外接矩形内为一类型区域,从上到下的种类依次为标题、个人信息、表格、其他项的类型区域,相应地,标题类型区域对应的外接矩形的类型(分类)可以为标题类型外接矩形,个人信息类型区域对应的外接矩形的类型可以为个人信息类型外接矩形,表格类型区域对应的外接矩形的类型可以为表格类型外接矩形等等。
通过上述可知,在一个实施例中,如图2所示,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,可以包括:
分别在每个特征图上的每个像素点上生成多个待选的候选框;多个待选的候选框尺寸不同;
利用回归的方式,从多个待选的候选框中回归出不同类型区域(例如标题、表格、列表等类型区域)的外接矩形及每一外接矩形对应的类型;
利用非极大抑制NMS算法,根据每一外接矩形对应的类型,将相同类型区域的多个外接矩形合并,得到最终的每一类型区域的外接矩形(如图5所示)。
四、接着,介绍上述步骤103。
在进行区域划分及确定了每一区域的外接矩形后,进行将网络层的输出进行处理的步骤,即图2中后续处理的前3个方框内所示的步骤。
如图4所示,将加粗框(表格线)内“项目”作为单元格的左上角,它的坐标为(1,1)。将上述分支二输出的每个区域单独切分为图片,对于种类为表格的区域,再计算表格区域的外接矩形所在直线与分支一输出的直线一个相交区域,以此区域修正表格真正所在区域,然后表格内的直线按行列分割成若干单元格,按坐标排列,如(1,1)代表第一行,第一列数据(以图像的左上方为原点),经过这步操作得到了整张图像的切分图像以及表格区域内的单元格。
通过上述可知,在一个实施例中,按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格,可以包括:
将每一类型区域单独切分为图片,即按照不同类型区域的划分结果可以切分为表格类型区域图片和非表格类型区域图片,图2中“按种类切分图像”的步骤;
对于表格类型区域的图片,计算表格类型区域的外接矩形所在直线与检测出表格线的一个相交区域,以所述相交区域修正表格真正所在区域,即图2中“表格区域校正”的步骤;
将表格内的直线按行列分割成若干单元格,并按坐标排列,即图2中“表格区域分割”的步骤,最终得到了整张医疗影像的切分图像(切分为表格类型区域图片和非表格类型区域图片)以及表格类型区域特征图的所有单元格(表格区域分割结果)。
五、接着,介绍上述步骤104,即图2中最后一个方框内的OCR识别的步骤。
具体实施时,将如图4所示表格类区域内的每个单元格进行识别,如(1,1)的“项目”进行单独的识别,最后再将这些单独识别的结果合并成表格。
将上面步骤输出切分图像(每一类型区域图像)以及单元格图像(表格类型区域的所有单元格图像)进行OCR识别,再依据图像的切分结果以及表格区的排列方式将识别结果调整为结构化识别结果。
通过上述可知,在保险等领域,不仅传统的核保、核赔场景需要录入体检报告、住院记录等健康信息,并且随着大健康体系的建立以及精准保费的需求,健康数据的文本结构化的需求日益迫切。目前,采用较多的还是人工录入的方式,OCR技术的识别率在60%左右,无法满足实际业务需求。本发明实施例提供方法针对健康影像类的特点,提出了一种表格类医疗影像的结构化解析方法,能够在拍照、扫描的场景下对体检报告、住院记录、医疗结算单等健康影像数据进行结构化的文字提取,与其他文字识别的方法相比,该方法的准确性更高、速度更快。
医疗影像(例如结算单)样式多种多样,并且存在大量表格信息,本发明实施例提供方法应用之前的结算单识别流程为OCR结合规则法,OCR结合规则法需针对各类样式进行不同策略开发,因此OCR结合规则法开发流程复杂,并且识别准确率较低,在60%左右。而本发明实施例采用的基于表格类医疗影像的结构化解析方法,在同样的结算单数据上,识别率可达70%以上。本发明实施例提供方法利用一个神经网络同时提取医疗影像的直线与进行图像分割,然后结合二者进行OCR结构化输出,可有效地提高识别的准确性,可应用于核保、理赔流程中,从而减少人工录入医疗影像的工作量,减少核对的时间,进而可以提高核保、理赔业务的效率,节省大量的人力成本,即达到降本增效的目的,并且方便于后续的数据统计与分析,为建立大健康体系提供了有力的数据支持。
目前,本发明实施例提供的表格类医疗影像的识别方法可以应用于医疗影像识别平台项目,具体可以应用于清单和结算单的识别,在影像类健康数据结构化有很大应用前景。本发明在医疗影像的结构化识别流程中,采用了直线检测与区域分割结合的算法,与常规识别流程相比,更能适应多种样式医疗影像的识别,识别准确高,鲁棒性好。
综上,本发明实施例提供的表格类医疗影像的识别方法的有益效果是:
1、首要技术效果:与常规OCR技术的先识别后结构化处理的方法相比,本发明利用神经网络的深层视觉信息,自动对图像进行区域划分与表格划分,自动得到了结构化的信息,与人工规则干预的方式相比,效果更好,泛化性更强。
2、其次技术效果:深度神经网络结构较简单,参数计算量较小,在GPU运行的条件下,对一张图片处理(包括图片的输入,检测,输出)的时间不到3s,在CPU条件下的时间不到5s,所需计算资源较小,可扩展性强。
3、业务层面的有益效果:为各种表格类健康数据的信息结构化提供了一套可靠的解决方案。
因此,本发明实施例提供的表格类医疗影像的识别方法实现了基于表格线检测与图像区域划分的表格类医疗影像的识别,可以提高表格类医疗影像识别的精度和效率,进而可以提高核保、理赔等业务中医疗影像数据录入的精度和效率。
本发明实施例中还提供了一种表格类医疗影像的识别装置,如下面的实施例所述。由于该装置解决问题的原理与表格类医疗影像的识别方法相似,因此该装置的实施可以参见表格类医疗影像的识别方法的实施,重复之处不再赘述。
图6为本发明一个实施例中表格类医疗影像的识别装置的结构示意图,如图6所示,该装置包括:
获取单元01,用于获取表格类医疗影像;
表格线检测及区域划分单元02,用于将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
从最小尺度大小的融合特征图中检测出表格线;
将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;基于检测出的表格线,对表格类型区域进行单元格划分处理,得到表格类型区域的所有单元格;
切分单元03,用于按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;
识别单元04,用于分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
在一个实施例中,从最小尺度大小的融合特征图中检测出表格线,可以包括:
在从最小尺度大小的融合特征图上,对每个像素点进行分类;其中,0代表该像素点没有直线,1代表该像素点有直线;
利用射线追踪算法将值为1的所有像素点合并为线段,得到所述表格线。
在一个实施例中,所述获取单元具体可以用于:
获取RGB格式的表格类医疗影像;
对所述RGB格式的表格类医疗影像进行预处理操作,得到预处理操作后的表格类医疗影像;
将所述表格类医疗影像输入预先建立的卷积神经网络模型,可以包括:将所述预处理操作后的表格类医疗影像输入预先建立的卷积神经网络模型。
在一个实施例中,将所述表格类医疗影像输入预先建立的卷积神经网络模型,可以包括:将所述表格类医疗影像的尺寸缩放到512×512后输入预先建立的卷积神经网络模型。
在一个实施例中,对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图,可以包括:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的、不同属性类型的融合特征图。
在一个实施例中,所述融合特征图的数目可以为3个。
在一个实施例中,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,可以包括:
分别在每个特征图上的每个像素点上生成多个待选的候选框;多个待选的候选框尺寸不同;
利用回归的方式,从多个待选的候选框中回归出不同类型区域的外接矩形及每一外接矩形对应的类型;
利用非极大抑制NMS算法,根据每一外接矩形对应的类型,将相同类型区域的多个外接矩形合并,得到最终的每一类型区域的外接矩形。
在一个实施例中,按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格,可以包括:
将每一类型区域单独切分为图片;
对于表格类型区域的图片,计算表格类型区域的外接矩形所在直线与检测出表格线的一个相交区域,以所述相交区域修正表格真正所在区域;
将表格内的直线按行列分割成若干单元格,并按坐标排列,得到了整张医疗影像的切分图像以及表格类型区域特征图的所有单元格。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述表格类医疗影像的识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述表格类医疗影像的识别方法的计算机程序。
本发明实施例中,表格类医疗影像的识别方案,与现有技术中利用字段检测与位置判定来进行医疗影像识别的技术方案相比,通过:获取表格类医疗影像;将表格类医疗影像输入预先建立的卷积神经网络模型,卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:对表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;从最小尺度大小的融合特征图中检测出表格线;将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,类型区域包括表格类型区域和非表格类型区域;按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行光学字符识别OCR识别,按照外接矩形及每一单元格的位置信息输出识别结果,实现了基于表格线检测与图像区域划分的表格类医疗影像的识别,可以提高表格类医疗影像识别的精度和效率,进而可以提高核保、理赔等业务中医疗影像数据录入的精度和效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种表格类医疗影像的识别方法,其特征在于,包括:
获取表格类医疗影像;
将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
从最小尺度大小的融合特征图中检测出表格线;
将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;
按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;
分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
2.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,从最小尺度大小的融合特征图中检测出表格线,包括:
在从最小尺度大小的融合特征图上,对每个像素点进行分类;其中,0代表该像素点没有直线,1代表该像素点有直线;
利用射线追踪算法将值为1的所有像素点合并为线段,得到所述表格线。
3.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,获取表格类医疗影像,包括:
获取RGB格式的表格类医疗影像;
对所述RGB格式的表格类医疗影像进行预处理操作,得到预处理操作后的表格类医疗影像;
将所述表格类医疗影像输入预先建立的卷积神经网络模型,包括:将所述预处理操作后的表格类医疗影像输入预先建立的卷积神经网络模型。
4.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,将所述表格类医疗影像输入预先建立的卷积神经网络模型,包括:将所述表格类医疗影像的尺寸缩放到512×512后输入预先建立的卷积神经网络模型;
所述融合特征图的数目为3个。
5.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图,包括:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的、不同属性类型的融合特征图。
6.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,包括:
分别在每个特征图上的每个像素点上生成多个待选的候选框;多个待选的候选框尺寸不同;
利用回归的方式,从多个待选的候选框中回归出不同类型区域的外接矩形及每一外接矩形对应的类型;
利用非极大抑制NMS算法,根据每一外接矩形对应的类型,将相同类型区域的多个外接矩形合并,得到最终的每一类型区域的外接矩形。
7.如权利要求1所述的表格类医疗影像的识别方法,其特征在于,按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格,包括:
将每一类型区域单独切分为图片;
对于表格类型区域的图片,计算表格类型区域的外接矩形所在直线与检测出表格线的一个相交区域,以所述相交区域修正表格真正所在区域;
将表格内的直线按行列分割成若干单元格,并按坐标排列,得到了整张医疗影像的切分图像以及表格类型区域特征图的所有单元格。
8.一种表格类医疗影像的识别装置,其特征在于,包括:
获取单元,用于获取表格类医疗影像;
表格线检测及区域划分单元,用于将所述表格类医疗影像输入预先建立的卷积神经网络模型,所述卷积神经网络模型根据多个历史表格类医疗影像样本预先训练生成,用于执行如下步骤:
对所述表格类医疗影像进行特征提取,得到多个不同尺度大小的融合特征图;
从最小尺度大小的融合特征图中检测出表格线;
将检测出表格线的融合特征图划分为不同类型区域,基于所述多个不同尺度大小的融合特征图确定每一类型区域的外接矩形,所述类型区域包括表格类型区域和非表格类型区域;
切分单元,用于按照不同类型区域的划分结果,切分最小尺度大小的融合特征图;基于检测出的表格线,对表格类型区域特征图进行单元格分割处理,得到表格类型区域特征图的所有单元格;
识别单元,用于分别对非表格类型区域特征图及表格类型区域特征图的每一单元格进行OCR识别,按照所述外接矩形及每一单元格的位置信息输出识别结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
CN202110313437.0A 2021-03-24 2021-03-24 表格类医疗影像的识别方法及装置 Active CN112883926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110313437.0A CN112883926B (zh) 2021-03-24 2021-03-24 表格类医疗影像的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110313437.0A CN112883926B (zh) 2021-03-24 2021-03-24 表格类医疗影像的识别方法及装置

Publications (2)

Publication Number Publication Date
CN112883926A true CN112883926A (zh) 2021-06-01
CN112883926B CN112883926B (zh) 2023-07-04

Family

ID=76042125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110313437.0A Active CN112883926B (zh) 2021-03-24 2021-03-24 表格类医疗影像的识别方法及装置

Country Status (1)

Country Link
CN (1) CN112883926B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质
CN113609906A (zh) * 2021-06-30 2021-11-05 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113627350A (zh) * 2021-08-12 2021-11-09 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647795A (zh) * 2019-07-30 2020-01-03 正和智能网络科技(广州)有限公司 一种表格识别方法
WO2020186779A1 (zh) * 2019-03-19 2020-09-24 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112364790A (zh) * 2020-11-16 2021-02-12 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020186779A1 (zh) * 2019-03-19 2020-09-24 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110647795A (zh) * 2019-07-30 2020-01-03 正和智能网络科技(广州)有限公司 一种表格识别方法
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN112364790A (zh) * 2020-11-16 2021-02-12 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质
CN113420116B (zh) * 2021-06-23 2022-12-27 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质
CN113609906A (zh) * 2021-06-30 2021-11-05 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113609906B (zh) * 2021-06-30 2024-06-21 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113627350A (zh) * 2021-08-12 2021-11-09 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112883926B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN110503100B (zh) 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111460927B (zh) 对房产证图像进行结构化信息提取的方法
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
US10803363B2 (en) Media intelligence automation system
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN110570442A (zh) 一种复杂背景下轮廓检测方法、终端设备及存储介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111461133A (zh) 快递面单品名识别方法、装置、设备及存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN112434555A (zh) 键值对区域识别方法、装置、存储介质和电子设备
JP7364639B2 (ja) デジタル化された筆記の処理
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
CN114581928A (zh) 一种表格识别方法及系统
CN112364863B (zh) 证照文档的文字定位方法及系统
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN117541546A (zh) 图像裁剪效果的确定方法和装置、存储介质及电子设备
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
US20230154217A1 (en) Method for Recognizing Text, Apparatus and Terminal Device
CN115631197A (zh) 一种图像处理方法、装置、介质、设备及系统
Tabelini et al. Deep traffic sign detection and recognition without target domain real images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant