CN111709956B - 图像处理方法、装置、电子设备及可读存储介质 - Google Patents
图像处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111709956B CN111709956B CN202010567945.7A CN202010567945A CN111709956B CN 111709956 B CN111709956 B CN 111709956B CN 202010567945 A CN202010567945 A CN 202010567945A CN 111709956 B CN111709956 B CN 111709956B
- Authority
- CN
- China
- Prior art keywords
- image
- area
- solid line
- processed
- image area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 267
- 238000012545 processing Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000003709 image segmentation Methods 0.000 claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims description 64
- 238000012937 correction Methods 0.000 claims description 56
- 238000012217 deletion Methods 0.000 claims description 31
- 230000037430 deletion Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 39
- 238000002604 ultrasonography Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置、电子设备及可读存储介质。该方法包括:获取待处理图像;对待处理图像进行图像分割,得到图像分割结果,图像分割结果包括实线分割结果和图像语义分割结果;基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域。在本申请实施例中,可以实现对多种版面元素的同时处理,分割的版面元素不再单一,并且还可以基于实线分割结果对图像语义分割结果进行修正,此时所得到的待处理图像中的各目标图像区域考虑到了待处理图像中各版面元素之间的关系,进而可以有效的提升了待处理图像中各目标图像区域的准确性,提升了最终的分割效果。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备及可读存储介质。
背景技术
随着国家信息化程度的加深,越来越多的行业进行数字化与智能化转型,此时存在大量纸质文件亟待进行数字化,该过程主要包括:用户上传文本图像、对文本图像进行信息识别以及对识别的信息结构化,而为了提升结构化的质量,确保结构化的信息的准确性、可使用性,此时需要对输入的文本图像进行版面分析。
目前,现有技术中在对文本图像进行版面分析时,需要对文本图像中的版面元素进行语义分割,然后基于分割结果进行版面分析。但是,现有技术中在对版面元素进行语义分割时,存在分割的版面元素单一,不能从整张图像的角度考虑各版面元素之间的关系,进而造成最终得到的分割结果效果较差,难以应该对复杂的实际问题。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。
第一方面,本申请实施例提供了一种图像处理方法,该方法包括:
获取待处理图像;
对待处理图像进行图像分割,得到图像分割结果,图像分割结果包括实线分割结果和图像语义分割结果;
基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
可选的,图像语义分割结果包括待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
基于实线分割结果对图像语义分割结果进行区域修正,得到待处理图像的各目标图像区域,包括:
根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域。
可选的,对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,包括:
确定各初始图像区域的连通域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域的连通域进行合并。
可选的,根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域,包括:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
其中,对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
可选的,基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域,包括:
对于任一第二图像区域,若第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将第二图像区域进行拆分,得到拆分后的各图像区域;
基于拆分后的各图像区域、未拆分的第二图像区域、以及未合并的各初始图像区域,得到各目标图像区域。
可选的,对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,包括:
确定位于同一第一图像区域中具有相同语义类别、且满足预设条件的各初始图像区域进行合并。
可选的,该方法还包括:
对各初始图像区域进行预处理,得到预处理后的各第三图像区域;其中,预处理包括区域修正处理、区域删除处理或去噪处理中的至少一项;
对位于同一第一图像区域中具有相同语义信息的各初始图像区域进行合并,得到合并后的各第二图像区域,包括:
对位于同一第一图像区域中具有相同语义信息的各第三图像区域进行合并,得到合并后的各第二图像区域。
可选的,预处理包括区域修正处理,对各初始图像区域进行预处理,包括:
基于实线分割结果,确定待处理图像所包含的各封闭实线,封闭实线为闭合实线或表格实线;
对于每一个初始图像区域,若该初始图像区域和任一封闭实线所对应的图像区域的交并比大于设定值,则基于闭合实线所对应的图像区域对初始图像区域进行修正,得到修正后的初始图像区域。
可选的,基于封闭实线所对应的图像区域对初始图像区域进行修正,包括:
将初始图像区域和封闭实线对应的图像区域中的重叠区域,确定为修正后的初始图像区域。
可选的,预处理包括区域删除处理,对各初始图像区域进行预处理,包括:
确定存在交叠区域的初始图像区域对;
对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值;基于比值和预设阈值,对初始图像区域对中的一个初始图像区域进行删除。
可选的,对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值,包括:
获取该初始图像区域对包含的每个初始图像区域所包含的版面元素的优先级;
确定交叠区域的面积与低优先级的版面元素所对应的初始图像区域的区域面积的比值;
基于比值和预设阈值对初始图像区域对中的一个初始图像区域进行删除,包括:
若比值大于预设阈值,对初始图像区域对中低优先级的版面元素所对应的初始图像区域进行删除。
可选的,预处理包括区域删除处理,对各初始图像区域进行预处理,包括:
基于各初始图像区域的尺寸信息,对各初始图像区域进行区域删除处理。
可选的,若待处理图像中包括表格,实线分割结果中包括表格实线,图像语义分割结果中包括表格区域在待处理图像中的位置信息;
该方法还包括:
基于表格实线和表格区域的位置信息,绘制对应的表格;
基于表格区域在待处理图像中的位置信息,对待处理图像中的表格区域进行文字识别,得到文字识别结果;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果。
可选的,文字识别结果包括各文本框、以及各文本框对应的文字内容;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果,包括:
基于各格子单元和各文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元;
将每个文本框中的文字内容填充到该文字内容所属的目标格子单元内,得到待处理图像对应的表格识别结果。
可选的,基于格子单元和文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元,包括:
对于一个文本框,若文本框与一个格子单元之间的交并比大于预设阈值,则确定该格子单元为文本框中的文字内容所属的目标该格子单元;
若文本框与每个格子单元之间的交并比均不大于预设阈值,则对文本框进行切分,基于切分后的各文本框和各格子单元之间的交并比,确定切分后的各文本框中的文字内容所属的目标格子单元。
可选的,图像分割结果中还包括虚拟线分割结果,该方法还包括:
根据虚拟线分割结果,确定图像分割结果的图像倾斜角度;
根据图像倾斜角度分别对实线分割结果和图像语义分割结果进行旋转校正,得到校正后的实线分割结果和校正后的图像语义分割结果;
基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域,包括:
基于校正后的实线分割结果对校正后的图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
第二方面,本申请实施例提供了一种图像处理装置,该装置包括:
图像获取模块,用于获取待处理图像;
图像分割模块,用于对待处理图像进行图像分割,得到图像分割结果,图像分割结果包括实线分割结果和图像语义分割结果;
结果修正模块,用于基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
可选的,图像语义分割结果包括待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
结果修正模块在基于实线分割结果对图像语义分割结果进行区域修正,得到待处理图像的各目标图像区域时,具体用于:
根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域。
可选的,结果修正模块在对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并时,具体用于:
确定各初始图像区域的连通域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域的连通域进行合并。
可选的,结果修正模块在根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域时,具体用于:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
其中,对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
可选的,结果修正模块在基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域时,具体用于:
对于任一第二图像区域,若第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将第二图像区域进行拆分,得到拆分后的各图像区域;
基于拆分后的各图像区域、未拆分的第二图像区域、以及未合并的各初始图像区域,得到各目标图像区域。
可选的,结果修正模块在对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并时,具体用于:
确定位于同一第一图像区域中具有相同语义类别、且满足预设条件的各初始图像区域进行合并。
可选的,该装置还包括预处理模块,具体用于:
对各初始图像区域进行预处理,得到预处理后的各第三图像区域;其中,预处理包括区域修正处理、区域删除处理或去噪处理中的至少一项;
结果修正模块在对位于同一第一图像区域中具有相同语义信息的各初始图像区域进行合并,得到合并后的各第二图像区域时,具体用于:
对位于同一第一图像区域中具有相同语义信息的各第三图像区域进行合并,得到合并后的各第二图像区域。
可选的,预处理包括区域修正处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
基于实线分割结果,确定待处理图像所包含的各封闭实线,封闭实线为闭合实线或表格实线;
对于每一个初始图像区域,若该初始图像区域和任一封闭实线所对应的图像区域的交并比大于设定值,则基于闭合实线所对应的图像区域对初始图像区域进行修正,得到修正后的初始图像区域。
可选的,预处理模块在基于封闭实线所对应的图像区域对初始图像区域进行修正时,具体用于:
将初始图像区域和封闭实线对应的图像区域中的重叠区域,确定为修正后的初始图像区域。
可选的,预处理包括区域删除处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
确定存在交叠区域的初始图像区域对;
对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值;基于比值和预设阈值,对初始图像区域对中的一个初始图像区域进行删除。
可选的,预处理模块在对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值时,具体用于:
获取该初始图像区域对包含的每个初始图像区域所包含的版面元素的优先级;
确定交叠区域的面积与低优先级的版面元素所对应的初始图像区域的区域面积的比值;
预处理模块在基于比值和预设阈值对初始图像区域对中的一个初始图像区域进行删除时,具体用于:
若比值大于预设阈值,对初始图像区域对中低优先级的版面元素所对应的初始图像区域进行删除。
可选的,预处理包括区域删除处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
基于各初始图像区域的尺寸信息,对各初始图像区域进行区域删除处理。
可选的,若待处理图像中包括表格,实线分割结果中包括表格实线,图像语义分割结果中包括表格区域在待处理图像中的位置信息;
该装置还包括表格创建模块,具体用于:
基于表格实线和表格区域的位置信息,绘制对应的表格;
基于表格区域在待处理图像中的位置信息,对待处理图像中的表格区域进行文字识别,得到文字识别结果;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果。
可选的,文字识别结果包括各文本框、以及各文本框对应的文字内容;
表格创建模块在将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果时,具体用于:
基于各格子单元和各文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元;
将每个文本框中的文字内容填充到该文字内容所属的目标格子单元内,得到待处理图像对应的表格识别结果。
可选的,表格创建模块在基于格子单元和文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元时,具体用于:
对于一个文本框,若文本框与一个格子单元之间的交并比大于预设阈值,则确定该格子单元为文本框中的文字内容所属的目标该格子单元;
若文本框与每个格子单元之间的交并比均不大于预设阈值,则对文本框进行切分,基于切分后的各文本框和各格子单元之间的交并比,确定切分后的各文本框中的文字内容所属的目标格子单元。
可选的,图像分割结果中还包括虚拟线分割结果,该装置方法还方向校正模块,具体用于:
根据虚拟线分割结果,确定图像分割结果的图像倾斜角度;
根据图像倾斜角度分别对实线分割结果和图像语义分割结果进行旋转校正,得到校正后的实线分割结果和校正后的图像语义分割结果;
结果修正模块在基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域时,具体用于:
基于校正后的实线分割结果对校正后的图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器第第一方面中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述第一方面中的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请是实施例中,在对待处理图像进行图像分割后,所得到图像分割结果中不仅包括了图像语义分割结果,还包括了实线分割结果,即可以实现对多种版面元素的同时处理,分割的版面元素不再单一;并且在得到实线分割结果和图像语义分割结果之后,还可以基于实线分割结果对图像语义分割结果进行修正,此时所得到的待处理图像中的各目标图像区域考虑到了待处理图像中各版面元素之间的关系,进而可以有效的提升了待处理图像中各目标图像区域的准确性,提升了最终的分割效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种阅读方向的示意图;
图2为本申请实施例提供的一种文本虚拟下划线的示意图;
图3为本申请实施例提供的一种文本虚拟左侧线的示意图;
图4为本申请实施例提供的一种文本方向的示意图;
图5a为本申请实施例提供的一种原始文本图像的示意图;
图5b为本申请实施例提供的一种图像语义分割结果的示意图;
图5c为本申请实施例提供的又一种原始文本图像的示意图;
图6为本申请实施例提供的一种实线分类的示意图;
图7为本申请实施例提供的一种连通域的示意图;
图8为本申请实施例提供的一种图像处理方法的流程示意图;
图9a为本申请实施例提供的一种待处理图像的示意图;
图9b为本申请实施例提供的一种实线分割结果的示意图;
图9c为本申请实施例提供的又一种待处理图像的示意图;
图10a为本申请实施例提供的一种待处理图像的示意图;
图10b为本申请实施例提供的一种实线分割结果的示意图;
图10c为本申请实施例提供的又一种待处理图像的示意图;
图10d为本申请实施例提供的又一种实线分割结果的示意图;
图11a为本申请实施例提供的另一种待处理图像的示意图;
图11b为本申请实施例提供的另一种实线分割结果的示意图;
图11c为本申请实施例提供的另一种图像语义分割结果的示意图;
图11d为本申请实施例提供的一种第一图像区域的示意图;
图11e为本申请实施例提供的一种合并初始图像区域的示意图;
图11f为本申请实施例提供的一种各目标图像区域的示意图;
图12为本申请实施例提供的一种初始图像区域的示意图;
图13为本申请实施例提供的另一种待图像语义分割结果的示意图;
图14a为本申请实施例提供的又一种待处理图像的示意图;
图14b为本申请实施例提供的存在噪声的图像语义分割结果的示意图;
图14c为本申请实施例提供的另一种去噪处理后的图像语义分割结果的示意图;
图15a为本申请实施例提供的另一种待处理图像的示意图;
图15b为本申请实施例提供的存在交叠区域的图像语义分割结果的示意图;
图15c为本申请实施例提供的删除交叠区域的图像语义分割结果的示意图;
图16a为本申请实施例提供的一种待处理图像中表格的示意图;
图16b为本申请实施例提供的一种电子表格的示意图;
图16c为本申请实施例提供的另一种电子表格的示意图;
图17为本申请实施例提供的又一种表格的示意图;
图18a为本申请实施例提供的一种待处理图像中示意图;
图18b为本申请实施例提供的一种虚拟线分割结果示意图;
图18c为本申请实施例提供的一种对应关系示意图;
图19为本申请实施例提供的一种语义图像分割模型的示意图;
图20申请实施例提供的又一种图像处理方法的流程示意图;
图21申请实施例提供的一种图像处理装置的结构示意图;
图22申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习等技术,具体通过如下实施例进行说明。
首先对本申请涉及的几个名词进行介绍和解释:
文本图像:包含文字字符的图像,此处文字字符可以包括但不限于汉字字符、数字字符、英文字符等。
文本图像坐标系:文本图像中的坐标系,其与传统图像的坐标系相同,如图1中的CT(Computed Tomography,电子计算机断层扫描)报告单的图像所示,以该图像左上角为原点,水平向右为X轴,竖直向下为Y轴,得到文本图像坐标系。
正常阅读方向:指的是文本方向G(如图1中所示),该文本方向G与Y轴方向相同,或与Y轴的夹角不大于设定阈值,如夹角θ≤3°。
文本虚拟下划线:如图2所示,指的是文本的下划线,由于这些下划线本身不存在于图像中,故称“虚拟”。
文本虚拟左侧线,如图3所示,指的是文本的左侧线,由于这些左侧线本身不存在于图像中,故称“虚拟”。
虚拟线:本申请实施例中特指文本虚拟左侧线与文本虚拟下划线。
图像方向纠正:在[0,359]度范围内对文本图像的文本方向进行纠正,如对图4中所示的文本图像进行任意方向的纠正,使得文本方向G与Y轴的θ≤3°,具体如图1所示。
实线:文本图像中实际存在的线。
表格图像:即以实线为表格元素分界线的表格图像。
XLS(Microsoft Excel,工作表):XLS是Excel电子表格生成的文件的格式,可以使用Excel打开。
图像语义分割(Segmentation):指的是将文本图像细分为多个图像子区域(像素的集合,其也被称作超像素)的过程。如图5所示,其中,图5a为原始文本图像(如该图像为超声诊断报告单),图5b为原始文本图像进行图像语义分割后,得到的图像语义分割结果,图5c为将图像语义分割绘制在原始文本图像上的图像。
版面元素:文本图像中包含的表格、文字、LOGO(标志、徽标)、心电图、一寸照等元素,本申请实施例中指的是除实线以外的元素
实线分类:对文本图像中的实线按照语义进行分类,如图6所示,其可以包括封闭线、表格线以及“丁(工)”字线以及独立线等类别;其中,闭合线指的是四条线构成的封闭区域,且四条线近乎首尾相接,如可以是图像的边缘线;表格线指的是构成表格区域的线,为一组有多个交点的线;“丁(工)”字线的是构成“丁(工)”字的线,其一条线与另一条线相交(或近乎相交,或超出小部分);独立线指的是不与其他线产生关系的线。
连通域(Connected Component):图像处理中的概念,一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。此处,我们用正规外接矩形(即矩形的横边垂直Y轴)来表示连通域。如图7所示,其为使用正规外接矩形来描述的连通域,其中,当三角形A进行旋转时,可以得到一个面积更小的正规外接矩形B,此时对于三角形A的连通域的面积S连通域存在以下关系:
其中,S正规外接矩形表示正规外接矩形的面积,当φ越接近1时,正规外接矩形越能准确“描述”S连通域。
IOU(Intersection over Union,交并比):一种在特定数据集中检测相应物体准确度的一个标准。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图8示出了本申请实施例中所提供的一种图像处理方法的流程示意图,该方法可以由任一电子设备执行,如终端设备或服务器执行,也可以由存在通信连接的终端设备与服务器进行交互以执行本申请实施例所提供的方法,如终端设备在获取到获取待处理图像后,将该获取待处理图像发送给服务器,由服务器基于本申请实施例所提供的方法得到待处理图像的各目标图像区域,并将待处理图像的各目标图像区域发送给终端设备,由终端设备展示给用户。其中,服务器包括但不限于物理服务器、云端服务器、或者服务器集群等。
如图8所示,本申请实施例中所提供的该方法可以包括:
步骤S101,获取待处理图像。
其中,待处理图像指的是需要进行图像分割的图像,该待处理图像的具体类型本申请实施例不限定,如待处理图像可以为文本图像等。
步骤S102,对待处理图像进行图像分割,得到图像分割结果,图像分割结果包括实线分割结果和图像语义分割结果。
在实际应用中,可以对待处理图像分别进行实线分割和图像语义分割,得到该待处理图像所对应的实线分割结果和图像语义分割结果。
其中,对待处理图像进行实线分割指的是识别待处理图像中所包括的实线、以及实线所对应的图像区域。图像语义分割结果中可以包括多个图像子区域(即下文中的初始图像区域)、每个初始图像区域在待处理图像中的位置信息、以及各初始图像区域所包含的版面元素的类别,如当初始图像区域内的内容为文字时,该初始图像区域所包含的版面元素的类别即为文字,也可以理解为该初始图像区域的类别,也就是初始图像区域的语义类别,即每个图像区域包含一种类别的版面元素,。
在一示例中,假设待处理图像为一住院费用清单的图像,具体如图9a所示,该待处理图像(住院费用清单的图像)中包括文字,表格、且表格中填充有文字。通过对该图像进行基于实线的实线分割处理,可以得到该图像的实线分割结果,该示例中所得到的实线分割结果如图9b所示,该图像的实线分割结果中包括表格的实线,且表格中不再填充有文字,其是图像中具有实线的图像区域的实线分割,而非文字内容的分割结果。其中,实线分割结果中表格区域处于图像中的位置与待处理图像中表格处于待处理图像中的位置相同,也就是说,当将实线分割结果在待处理图像上时,实线分割结果中的表格区域与待处理图像中的表格区域所处于的位置相同,两者是吻合,具体如图9c中的A部分所示,其中,图9c中的标记“0”是用于表示该区域的类别为表格类别。
需要说明的是,本申请实施例中各示例中的图像(如图9a中所示的住院费用清单的图像)只是为了说明各可选实施例中的图像处理方式的原理,图中的具体字符内容以及所包含的图片或其他版面元素都只是示意性的版面元素,版面元素的具体信息并不影响对于本申请实施例的图像处理方法的原理说明,各示意性图像中的版面元素的具体信息的也并不构成对本申请实施例的限定。
步骤S103,基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
在实际应用中,所得到的图像语义分割结果包括了多个图像子区域(即下文中的初始图像区域),但是图像语义分割结果中的多个图像子区域可能存在划分结果不准确的问题。基于此,本申请实施例可以根据所得到的实线分割结果对得到的图像语义分割结果进行修正,也就是对图像语义分割结果中所包括的初始图像区域进行修改正,得到待处理图像各修正后的图像区域(即待处理图像的各目标图像区域)。
本申请实施例中,在对待处理图像进行图像分割后,所得到图像分割结果中不仅包括了图像语义分割结果,还包括了实线分割结果,即可以实现对多种版面元素的同时处理,分割的版面元素不再单一;并且在得到实线分割结果和图像语义分割结果之后,还可以基于实线分割结果对图像语义分割结果进行修正,由于实线携带有非常重要的语义信息,此时基于实线分割结果对图像语义分割结果进行修正后所得到的待处理图像中的各目标图像区域,考虑到了待处理图像中各版面元素之间的关系,进而可以有效的提升了待处理图像中各目标图像区域的准确性,提升了最终的分割效果。
此外,在实际应用中由于待处理图像中往往包含多种版面元素,如表格、印章、心电图、文字等,此时不同版面元素的区域往往具有不同的意义,而基于本申请实施例中所提供的方法可以将待处理图像中不同版面元素的区域独立分割出来,进而后续在进行版面分析时,增加了待处理图像的语义颗粒度,利于对待处理图像的正确理解,提升结构化的质量,并可以有效的确保了结构化信息的准确性以及可使用性。
本申请可选的实施例中,图像语义分割结果包括待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
基于实线分割结果对图像语义分割结果进行区域修正,得到待处理图像的各目标图像区域,包括:
根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域。
其中,初始图像区域的语义类别指的是该初始图像区域内所包含的内容所表征的语义类别,如当初始图像内所包含的内容为文字时,该初始图像区域的语义类别即为文字,当初始图像内所包含的内容为图片时,该初始图像区域的语义类别即为图片。在实际应用中,图像语义分割结果中不仅包括了待处理图像所包括的各初始图像区域,还包括了每个初始图像区域所对应的语义类别。
可选的,在基于实线分割结果对图像语义分割结果进行区域修正时,可以根据实线分割结果对待处理图像进行图像划分(即区域划分),得到待处理图像中所包括的各第一图像区域;对于得到的每个第一图像区域,若该第一图像区域内存在多个初始图像区域,且存在语义类别相同的初始图像区域时,可以对语义类别相同初始图像区域进行合并,得到合并后的各第二图像区域,此时待处理图像中包括了未进行合并处理的各初始图像区域和合并后的各第二图像区域;然后可以基于未进行合并处理的各初始图像区域和合并后的各第二图像区域,得到待处理图像的各目标图像区域,如直接将行合并处理的初始图像区域和第二图像区域作为待处理图像的中的目标图像区域。在实际应用中,由于属于同一第一图像区域内的语义相同的初始图像区域很可能是相关联的,因此,在进行合并处理后可以得到更符合实际情况的图像分割结果。
本申请可选的实施例中,对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,包括:
确定各初始图像区域的连通域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域的连通域进行合并。
可以理解的是,在本申请的各可选实施例中对初始图像区域的处理,可以是对初始图像区域本身的处理,也可以是对初始图像区域的连通域的处理。其中,关于连通域的解释说明可以参见上文中的说明,在此就不再赘述,此外,在确定各初始图像区域的连通域时,可以针对一种类别提取一次连通域,这样能够避免连通域互相进行干扰。
在实际应用中,由于基于语义分割结果得到的待处理图像的初始图像区域可能是不规则形状的区域,此时在对有相同语义类别的各初始图像区域进行合并时,可能会增加数据处理的复杂度,而为了减少数据处理的复杂度,在本申请实施例可以确定各初始图像的连通域,然后在对位于同一第一图像区域中、且具有相同语义类别的各初始图像区域的连通域进行合并时,可以将各初始图像区域的连通域进行合并。相应的,由于各初始图像区域的连通域是通过正规外接矩形来表示的,而正规外接矩形相比于不规则形状在数据处理时的复杂度较低,进而可以较少数据处理量。
可以理解的是,本申请的各可选实施例中,对于初始图像区域的各种处理方式可以是直接对初始图像区域进行处理,也可以是对初始图像区域所对应的连通域进行处理。例如,后文对各初始图像区域进行预处理的可选实施例中,可以对各初始图像区域所对应的连通域进行预处理。
本申请可选的实施例中,根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域,包括:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
其中,对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
在实际应用中,由于实线分割结果是对待处理图像中的实线进行分割后的得到的,即也就是基于该实线分割结果,可以确定待处理图像所包含的各实线,然后可以根据各实线之间的空间分布情况确定待处理图像所包含的各实线的类型,如对于任一实线,该实线的类型可以为闭合线、表格线、丁字线或独立线。其中,确定待处理图像所包含的各实线的类型时,可以利用霍夫变换从实线分割结果提取出矢量化的直线,然后根据各实线之间的空间分布情况确定取出矢量化的直线的类型。
在一示例中,假设待处理图像为如图10a所示的超声报告单的图像,其包括了超声图片和文字(即检查意见),图10b为该待处理图像的实线分割结果示意图,该实线分割结果包括对应于超声图像部分的实线组成的闭合的四边形,此时组成该四边形的实线为一个闭合线组,其所属于的类型为闭合线类型。
在又一示例中,假设又一待处理图像为如图10c所示的超声报告单的图像,其包括了各丁(工)字实线和文字,图10d为该待处理图像的实线分割结果示意图,该实线分割结果包括待处理图像中的各丁(工)字实线,此时该待处理图像中的实线的类型为丁字线类型。
可选的,可以基于得到的各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域。其中,基于得到的各实线、以及各实线的类型,对待处理图像进行图像划分的具体划分规则可以预先配置,本申请实施例不限定,例如,在待处理图像中包括实线、且实线的类型为独立线时,将待处理图像中独立线的上下两个区域作为两个第一图像区域。
在本申请实施例中,由于各实线携带非常重要的语意信息,此时在基于各实线、以及各实线的类型,对待处理图像进行图像划分时,可以提升划分的准确性。如可以将页眉与内容利用独立线进行分离,以尽量避免因两者合并造成划分不准确的问题。
在本申请可选的实施例中,基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域,包括:
对于任一第二图像区域,若第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将第二图像区域进行拆分,得到拆分后的各图像区域;
基于拆分后的各图像区域、未拆分的第二图像区域、以及未合并的各初始图像区域,得到各目标图像区域。
在实际应用中,在得到第二图像区域后,有时第二图像区域内所包括的某些初始图像区域之间的距离比较远(如大于设定值时),此时说明该第二图像区域中的各初始图像区域可能存在不同的含义,此时可以对该第二图像区域进行拆分,得到各拆分后的图像区域,相应的,该第二图像区域中的各初始图像区域将被划分至拆分后的图像区域。
其中,确定各初始图像区域之间的距离和对第二图像区域进行拆分的具体方式、以及拆分要求的内容可以根据实际应用场景或应用需求预先配置,本申请实施例不限定。例如,可以设置拆分要求为初始图像区域到水平线的距离大于设定值,然后可以在第二图像区域设置水平线,确定第二图像区域中所包括的各初始图像区域映射到该水平线的距离,若各初始图像区域映射到该水平线的距离中存在大于设定值的距离,此时可以将大于设定值的至少一个距离所对应的初始图像区域从该第二图像区域中拆分出来,作为一个独立的第二图像区域。
如图11所示,在一示例中,假设待处理图像如图11a所示,该待处理图像中包括文字、表格类实线和独立实线;进一步,可以对待处理图像分别进行实线分割处理和图像语义分割,得到实线分割结果和图像语义分割结果。其中,该实线分割结果具体如图11b所示,其包括了闭合线和独立线;图像语义分割结果具体如图11c所示,图像语义分割结果中包括各初始图像区域,以及每个初始图像区域的连通域(即图中的每个白色的矩形框),其中,每个矩形框上方的数字标识该区域的类别,如采用数字“6”标识该区域为文字区域。可选的,如图11c所示,图像语义分割结果中包括了各初始图像区域以及各初始图像区域的连通域(如各初始图像区域的外接白色矩形所示);进一步的,可以基于实线分割结果中所包括的实线,以及各实线的类型,对待处理图像进行图像划分,得到6个第一图像区域,其中,每个第一图像区域的示意图如图11d所示;然后对位于同一第一图像区域中具有相同语义类别的各初始图像区域的连通域进行合并。例如,对于第一图区域5,其包括了3个语义类别均为文字的初始图像区域(具体如图11d中的a、b、c所示),此时可以对该3个语义类别均为文字的初始图像区域进行合并,得到合并后的第二图像区域(具体如图11e中A区域所示中);进一步的,对于任一第二图像区域,若第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将该第二图像区域进行拆分,对于如图11e中B区域,其包括了初始图像区域1~初始图像区域6,此时初始图像区域1和初始图像区域2与其它初始图像区域之间(初始图像区域3~初始图像区域6)的距离满足拆分要求,此时可以对图11e中B区域进行拆分,得到拆分后的图像区域(具体如图11f中的B1区域和B2区域所示,其中,B1区域包括初始图像区域3~初始图像区域6,B2区域包括初始图像区域1和初始图像区域2);然后基于未合并的各初始图像区域、拆分后的各图像区域和各第二图像区域,得到该待处理图像的各目标图像区域(具体如图11f中的各矩形框所示)。
本申请可选的实施例中,对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,包括:
确定位于同一第一图像区域中具有相同语义类别、且满足预设条件的各初始图像区域进行合并。
在实际应用中,在对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并时,可以先判断该第一图像区域中具有相同语义类别的各初始图像区域,然后判断相同语义类别的各初始图像区域中满足预设条件的初始图像区域,然后将满足预设条件的各初始图像区域进行合并,得到一个第二图像区域,并将未满足预设条件的各初始图像区域从第一图像区域中拆分出来,第二图像区域。其中,预设条件可以预先配置,本申请实施例不限定,如可以确定各初始图像区域之间的距离,然后确定距离小于预设阈值等。
本申请可选的实施例中,该方法还包括:
对各初始图像区域进行预处理,得到预处理后的各第三图像区域;其中,预处理包括区域修正处理、区域删除处理或去噪处理中的至少一项;
对位于同一第一图像区域中具有相同语义信息的各初始图像区域进行合并,得到合并后的各第二图像区域,包括:
对位于同一第一图像区域中具有相同语义信息的各第三图像区域进行合并,得到合并后的各第二图像区域。
可以理解的是,本申请实施例中在对各初始图像区域进行预处理时,可以指的是直接对各初始图像区域进行预处理,也可以确定出各初始图像区域的连通域,然后对各初始图像区域的连通域进行预处理,由于各初始图像区域的连通域是规则的外接矩形,因此在对连通域进行预处理时,数据处理的复杂度相比于直接对各初始图像区域的进行预处理的复杂度相对较低。
在实际应用中,在得到图像语义分割结果的过程中,可能会受其他因素的影响,造成各初始图像区域存在划分不准确的现象,或者存在一些冗余的初始图像区域。基于此,本申请实施例在得到图像语义分割结果后,可以对图像语义结果中的各初始图像区域进行预处理,得到预处理后的各第三图像区域,然后基于预处理后的各第三图像区域进行后续处理,如在进行初始图像区域合并时,可以对位于同一第一图像区域中具有相同语义信息的各第三图像区域进行合并。其中,预处理可以包括区域修正处理、区域删除处理或去噪处理中的至少一项;
例如,为了提升系统鲁棒性,避免由于初始图像区域(如表格区域、图片区域等)出现“溢出”或“亏欠”等情况,导致最终得到的图像区域与实际差距较大,此时可以对出现“溢出”和/或“亏欠”等情况初始图像区域进行修正。
在一示例中,假设某个版面元素实际对应的图像区域如图12中A区域所示,若得到的该版面元素对应的初始图像区域如图12中B所示,即初始图像区域的边界处于实际对应的图像区域的边界之外,即视为出现了“溢出”情况,此时可以对该初始图像区域进行区域修正,得到修正后的初始图像区域(即第三图像区域)如图12中C所示;可选的,若得到的该版面元素对应的初始图像区域如图12中D所示,即初始图像区域的边界处于实际对应的图像区域的边界至内,即视为出现了“亏欠”情况,此时可以对该初始图像区域进行区域修正,得到修正后的初始图像区域如图12中C所示;可选的,若得到的该版面元素对应的初始图像区域如图12中E所示,即初始图像区域的部分边界处于实际对应的图像区域的边界内、初始图像区域的部分边界处于实际对应的图像区域的边界外,即视为出现了“溢出”与“亏欠”情况,此时可以也需要对该初始图像区域进行区域修正,得到修正后的初始图像区域,如图12中C所示。
可选的,在实际应用中,所得到的图像语义分割结果往往容易在图像边缘处产生噪声,这一般是由于图像的旋转导致的,因此,为了提升最终的处理效果,我们可以对图像语义分割结果的边缘噪声进行抑制,即进行去噪处理。其中,去噪处理的具体实现方式可以预先配置,本申请实施例不限定。例如,可以设置阈值∈noise,然后将图像语义分割结果中距离边缘小于阈值∈noise的像素点设置为背景图像中的像素点,此时能够避免边缘噪声连在一起(如与文本区域的边框在一起)。其中,阈值∈noise取值申请实施例不限定,如可以将阈值∈noise设置为∈noise=10。
在一示例中,假设待处理图像如图11a所示,其包括文字区域、独立线和闭合线等内容,而在对该待处理图像进行图像语义分割后,所得到的图像语义分割结果如图13所示,图像语义分割结果中包括各初始图像区域,以及每个初始图像区域的连通域(即图中的每个白色的矩形框),其中,每个矩形框上方的数字标识该区域的类别,如采用数字“6”标识该区域为文字区域。基于图13可以发现,该图像语义分割结果存在边缘噪声,具体如图13中的箭头所指向的矩形区域所示,此时可以对该边缘噪声进行抑制处理。
可以理解的是,当预处理包括多个处理方式时,执行各处理方式的顺序可以预先配置,本申请实施例不限定。例如,当预处理可以包括区域修正处理、区域删除处理和去噪处理时,可以先对各初始图像区域进行去噪处理,然后对去噪后的各初始图像区域再分别进行区域修正处理和区域删除处理,也可以先对各初始图像区域分别进行区域修正处理和区域删除处理,然后再进行去噪处理等。
在本申请可选的实施例中,预处理包括区域修正处理,对各初始图像区域进行预处理,包括:
基于实线分割结果,确定待处理图像所包含的各封闭实线,封闭实线为闭合实线或表格实线;
对于每一个初始图像区域,若该初始图像区域和任一封闭实线所对应的图像区域的交并比大于设定值,则基于闭合实线所对应的图像区域对初始图像区域进行修正,得到修正后的初始图像区域。
在实际应用中,在预处理包括区域修正处理时,可以根据待处理图像的实线分割结果,确定待处理图像所包含的闭合实线和/或表格实线;然后,对于每一个初始图像区域,确定该初始图像区域和每个封闭实线所对应的图像区域的交并比;相应的,若初始图像区域和某个封闭实线所对应的图像区域的交并比大于设定值,此时说明该初始图像区域划分的很可能并不准确,此时可以基于交并比大于设定值对应的闭合实线所对应的图像区域对该初始图像区域进行修正,得到修正后的初始图像区域。
可以理解的是,若预处理仅包括区域修正处理,则修正后的初始图像区域则是第三图像区域,如果预处理包括了多种预处理方法,则完成多种预处理后的各初始图像区域为预处理后的各第三图像区域。
在实际应用中,为了减少数据处理量,可以仅判断设定类型的初始图像区域和各封闭实线所对应的图像区域的交并比,也就是仅对设定类型的初始图像区域进行区域修正处理。例如,相比于文字类型的初始图像区域,表格类型的初始图像区域和图片类型的初始图像区域可能是相对规则的区域,此时在确定表格类型或图片类型的初始图像区域与任一封闭实线所对应的图像区域的交并比时,数据处理的复杂度相比于确定文字类型的初始图像区域与任一封闭实线所对应的图像区域的交并比的复杂度相对较低,因此可以将设定类型设置为表格类型和图片类型。
可以理解是,当封闭实线为表格实线时,其所对应的图像区域指的是属于该表格的各实线所构成的表格所对应的区域。在确定每一个初始图像区域和每个封闭实线所对应的图像区域的交并比时,可以先确定出与初始图像区域存在交叠的封闭实线,然后再确定该初始图像区域和每个存在交叠的封闭实线所对应的图像区域的交并比。
在本申请可选的实施例中,基于封闭实线所对应的图像区域对初始图像区域进行修正,包括:
将初始图像区域和封闭实线对应的图像区域中的重叠区域,确定为修正后的初始图像区域。
在实际应用中,当初始图像区域和某个封闭实线对应的图像区域的交并比大于设定值时,说明该封闭实线对应的图像区域即对应于该初始图像区域,此时可以将该初始图像区域和封闭实线对应的图像区域中的重叠区域,确定为该初始图像区域修正后的初始图像区域。
在一示例中,如图14a所示的一超声报告单的图像,假设将超声报告单的图像作为待处理图像,该待处理图像包括了独立线、文字和超声图片(图14a箭头所指向的区域)。可以对待处理图像进行图像语义分割处理,得到如图14b所示的图像语义分割结果,其中,图像语义分割结果每个初始图像区域外的矩形框即为每个初始图像区域的连通域,每个矩形框上方的数字标识该区域的类别,如采用数字“6”标识该区域为文字区域;然后可以确定该待处理图像对应的初始图像区域(以超声图片对应的区域为例,即14b中箭头所指向的矩形区域)和待处理图像所包含的各封闭实线的交并比,若确定初始图像区域与超声图像对应的闭合线的图像区域的交并比大于设定值,此时可以基于超声图像对应的闭合线的图像区域对超声图片对应的连通域进行修正,得到修正后连通域,具体如图14c箭头所指向的矩形区域所示。
在本申请可选的实施例中,预处理包括区域删除处理,对各初始图像区域进行预处理,包括:
确定存在交叠区域的初始图像区域对;
对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值;基于比值和预设阈值,对初始图像区域对中的一个初始图像区域进行删除。
可以理解的是,初始图像区域对指的两个初始图像区域。在实际应用中,有时候由于相同区域的多重含义,所得到的各初始图像中可能存在交叠(包含重叠)的情况。例如,假设待处理图像如图15a所示,该待处理图像中包括表格和文字,且表头部分填充文字(如图15a中的A区域所示),而该待处理图像的图像语义分割结果如图15b所示,其中,图像语义分割结果中每个初始图像区域外的矩形框即为每个初始图像区域的连通域,每个矩形框上方的数字标识该区域的类别,如采用数字“6”标识该区域为文字区域;进一步的,基于图15b可以发现,表头的连通域与表头上的文字的连通域存在重叠情况(如图15b中箭头所指向的矩形框区域所示))。
可选,当得到的各初始图像中可能存在交叠(包含重叠)的情况时,可以将存在交叠的两个初始图像区域作为一个初始图像区域对,然后可以确定交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值,然后基于确定的比值和预设阈值确定是否需要对该初始图像区域对中的一个初始图像区域进行删除。
在本申请可选的实施例中,对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值,包括:
获取该初始图像区域对包含的每个初始图像区域所包含的版面元素的优先级;
确定交叠区域的面积与低优先级的版面元素所对应的初始图像区域的区域面积的比值;
基于比值和预设阈值对初始图像区域对中的一个初始图像区域进行删除,包括:
若比值大于预设阈值,对初始图像区域对中低优先级的版面元素所对应的初始图像区域进行删除。
其中,版面元素的优先级表征了版面元素的重要程度,当优先级越高时,说明重要程度越高,而版面元素的优先级可以根据实际需求预先匹配,本申请实施例不限定。例如,可以设置表格、表头的优先级大于文字的优先级。
可选的,在确定交叠区域的面积与初始图像区域对中所包含的至少一个初始图像区域的区域面积的比值时,可以先确定每个初始图像区域中所包含的版面元素、以及所包含的版面元素的优先级,然后确定该初始图像对中交叠区域的面积、以及所包含的低优先级的版面元素区域的区域面积,并确定交叠区域的面积与低优先级的版面元素区域的区域面积的比值,然后基于确定的比值和预设阈值对初始图像区域对中的一个初始图像区域进行删除。可选的,若确定的比值大于预设阈值,此时可以将初始图像区域对中重要程度较低的低优先级的版面元素的初始图像区域删除,具体可以表现为将低优先级的版面元素的初始图像区域的连通域删除。
延续上一示例,假设表头的优先级大于文字的优先级,如图15b所示,表头的连通域与表头上的文字的连通域存在交叠的情况(如图15b中箭头所指向的矩形框区域所示),此时该表头的连通域和该文字的连通域即可以视为一个初始图像区域对,并且由于表头的优先级大于文字的优先级,此时可以确定交叠区域的面积与低优先级的版面元素区域(即文字的连通域)的区域面积的比值,并确定该比值是否大于预设阈值,若大于预设阈值,此时可以将该文字的连通域删除(即将图15b中箭头所指向的矩形框内的白色矩形框删除),此时该初始图像区域对在删除文字的连通域后的示意图具体如图15c中箭头所指向的矩形部分所示。
在本申请可选的实施例中,预处理包括区域删除处理,对各初始图像区域进行预处理,包括:
基于各初始图像区域的尺寸信息,对各初始图像区域进行区域删除处理。
其中,基于各初始图像区域的尺寸信息,对各初始图像区域进行区域删除处理的具体实现方式本申请实施例不限定。可选的,可以确定各初始图像区域的尺寸信息,然后确定每个初始图像区域的尺寸信息是否满足预设的删除要求,若某个初始图像区域的尺寸信息满足删除要求,则可以将该初始图像区域进行区域删除处理,具体可以为对该初始图像区域的连通区域进行删除处理。
可以理解的是,初始图像区域的尺寸信息可以指的是初始图像区域的面积和/或初始图像区域的长宽比等信息;可选的,可以将删除要求设置为面积小于设定阈值,当初始图像区域的尺寸信息指的是初始图像区域的面积时,若某个初始图像区域的面积小于设定阈值,则可以将该初始图像区域的连通区域进行删除处理;同理,当初始图像区域的尺寸信息指的是初始图像区域的长宽比时,若当某个初始图像区域的长宽比小于设定阈值时,则可以将该初始图像区域的连通区域进行删除处理,其中,当尺寸信息为初始图像区域的面积时,所对应的阈值的取值与尺寸信息为初始图像区域的长宽比时所对应的阈值的取值可以是不同的。
在本申请实施例中,由于可以基于初始图像区域的尺寸信息对各初始图像区域进行区域删除处理,此时可以将面积过小、长宽比过大或过小的初始图像区域删除,减少了图像语义分割结果中所包括的初始图像区域,进而在后续对图像语义分割结果中所包括的初始图像区域进行处理时,可以有效的减少数据处理量。
此外,若待处理图像中包括表格时,本申请实施例还可以对待处理图像中所包括的表格进行重建成电子表格(即XLS文件)。例如,假设待处理图像如图16a所示,该待处理图像包括了表格1(以耳鼻咽喉科检查结果报告为例)和表格2(以血常规检查结果报告为例),此时可以得到表格1对应的电子表格(具体如图16b所示)、以及表格2对应的电子表格(具体如图16c所示)。下面对将待处理图像中所包括的表格进行重建成电子表格的实现方法进行详细描述。
在本申请可选的实施例中,若待处理图像中包括表格,实线分割结果中包括表格实线,图像语义分割结果中包括表格区域在待处理图像中的位置信息;方法还包括:
基于表格实线和表格区域的位置信息,绘制对应的表格;
基于表格区域在待处理图像中的位置信息,对待处理图像中的表格区域进行文字识别,得到文字识别结果;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果。
在实际应用中,若待处理图像中包括表格,此时待处理图像所对应的实线分割结果中将包括构成该表格区域中各格子单元的实线,待处理图像所对应的图像语义分割结果中可以包括构成该表格的各格子单元的位置信息(即每个格子单元在表格区域中位置)、以及该表格区域在待处理图像中的位置信息(即具体在待处理图像中的哪个位置)。其中,上述中的位置信息可以采用空间坐标的形式体现。
可选的,可以基于表格实线和表格区域的位置信息,绘制与待处理图像中所包括的表格相对应的表格。例如,可以从图像语义分割结果中提取表格区域的连通域,并根据该表格区域的位置信息将提取得到的表格区域的连通域绘制在空白图像中;然后,可以基于表格区域在待处理区域中的位置信息,确定表格区域在待处理图像中所处的区域,并对该区域进行文字识别(即对待处理图像中的表格区域进行文字识别),得到文字识别结果;进一步的,可以将文字识别结果中的文字内容填充到绘制的表格中对应的格子单元中,得到待处理图像对应的表格识别结果(即待处理图像中的表格所对应的重建表格)。
在本申请可选的实施例中,文字识别结果包括各文本框、以及各文本框对应的文字内容;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果,包括:
基于各格子单元和各文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元;
将每个文本框中的文字内容填充到该文字内容所属的目标格子单元内,得到待处理图像对应的表格识别结果。
在实际应用中,在将文字识别结果中的文字内容填充到表格中对应的格子单元中时,可以先基于各格子单元和各文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元,然后将每个格子单元内的文本内容填充至其所属的目标格子单元中,得到待处理图像对应的表格识别结果。
其中,对待处理图像中的表格区域进行文字识别的方式,本申请实施例可以采用OCR(Optical Character Recognition,光学字符识别)文字识别方法对表格区域进行文字识别,此时所得到的文字识别结果将包括多个文本框,每个文本框中包含有文字内容,并且可以一并得到每个文本框的空间坐标。进一步的,在将文字识别结果中的文字内容填充到表格中对应的格子单元中时,可以获取表格中每个格子单元的空间坐标,然后对于每个文本框,此时可以将该文本框中的文字内容填充至与其空间坐标相同的格子单元(即目标格子单元)即可,当将所有文本框中的文字内容全部填充至对应的目标格子单元格时,即得到了重建表格(即得到待处理图像对应的表格识别结果)。可选的,获取表格中每个格子单元的空间坐标可以采用OpenCV(一种跨平台计算机视觉库)的connected Components WithStats(连通域函数)函数获取。
可选的,还可以将得到的重建表格转换为电子表格,此时可以确定重建表格中每个格子单元的表格坐标,根据每个格子单元的表格坐标确定每个格子单元在电子表格中对应的单元格,然后将格子单元中的文字内容填充至对应的单元格中。
其中,如图17所示,在确定格子单元的格子坐标时可以以表格的左顶点为原点,水平向右方向为x轴,竖直向下方向为y轴,一个格子单元为一个单位;对于每个格子单元,可以以该格子单元的左上角点在坐标系中的坐标、以及该格子单元的右下角点在坐标系中的坐标共同作为该格子单元的格子坐标。例如,对于图17中的格子单元A,该格子单元A左上角点在坐标系中的坐标为(1,0)、以及该格子单元的右下角点在坐标系中的坐标共同(2,1),此时该格子单元A的格子坐标即为(1,0)和(2,1),进一步的,可以基于格子单元A的格子坐标(1,0)和(2,1)确定其对应的目标单元格。
可以理解的是,图17中所示的坐标中的数字仅是示意性的数字,每个各子单元的大小也仅是示意性的说明。
此外,在实际应用中可能会存在某个格子单元的面积包括了多个格子单元的面积,此时该格子单元的表格坐标中的两个坐标中将存在某一坐标轴的值的差大于等于2个单位,此时该差值的绝对值即表示了该格子单元包括了几个格子单元,而在基于表格坐标确定对应的单元格时,在基于格子坐标确定对应于哪几个单元格后,将确定的单元格进行合并为一个单元格,该合并的单元格即为该格子单元对应的单元格。例如,如对于图17中“合并”的格子单元,该格子单元的格子坐标为(2,1)和(3,3),该两个坐标中y轴的值的差值为2,说明其包括了2个格子单元的面积,而在基于表格坐标确定对应的单元格时,可以确定对应于2个单元格,此时可以将该2个单元格进行合并为一个单元格,作为图17中“合并”的格子单元所对应的目标单元格,并将“合并”的格子单元中的文字内容填充至该合并后的单元格内。
在本申请可选的实施例中,基于格子单元和文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元,包括:
对于一个文本框,若文本框与一个格子单元之间的交并比大于预设阈值,则确定该格子单元为文本框中的文字内容所属的目标该格子单元;
若文本框与每个格子单元之间的交并比均不大于预设阈值,则对文本框进行切分,基于切分后的各文本框和各格子单元之间的交并比,确定切分后的各文本框中的文字内容所属的目标格子单元。
在实际应用中,对于一个文本框,可以基于文本框空间坐标与每个格子单元的空间坐标,确定该文本框所对应的格子单元,然后确定该文本框与该格子单元之间的交并比,若交并比大于预设阈值,则说明该文本框中的文字内容属于该格子单元,此时可以将该文本框中的文字内容填充至该格子单元内;反之,若交并比不大于预设阈值,则说明该文本框中的文字内容不全部属于该格子单元,此时可以将该文本框进行切分,得到切分后的文本框;对于每个切分后的文本框,基于该切分后的文本框的空间坐标与每个格子单元的空间坐标,确定该切分后的文本框对应的格子单元,然后再基于该切分后的文本框与该格子单元之间的交并比,确定切分后的文本框中的文字内容所属的格子单元。
可以理解的是,通常一个格子单元对应于一个文本框里的文字内容,此时可以将阈值设置的较大,以保证对于每个文本框只存在一个格子单元与其的交并比大于阈值;可选的,对于一个文本框,若存在两个以上的格子单元与其的交并比大于阈值,此时可以将最大值对应的格子单元为目标格子单元。
在本申请可选的实施例中,图像分割结果中还包括虚拟线分割结果,方法还包括:
根据虚拟线分割结果,确定图像分割结果的图像倾斜角度;
根据图像倾斜角度分别对实线分割结果和图像语义分割结果进行旋转校正,得到校正后的实线分割结果和校正后的图像语义分割结果;
基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域;包括:
基于校正后的实线分割结果对校正后的图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
其中,虚拟线分割结果指的是对待处理图像中不存在的虚拟线的分割结果。例如,在一示例中,假设待处理图像为如图18a所示的超声报告单的图像,其包括了超声图片和文字,图18b为该待处理图像的虚拟线分割结果示意图,该虚拟线分割结果示意图中的虚拟线与待处理图像中的超声图片和文字的对应关系如图18c所示。
在实际应用中,获取的待处理图像往往不能保证为正常阅读方向,而非正常阅读方向将对待处理图像的进行图像分割、以及基于分割结果进行结构化(如光学字符识别、区域分析等)会带来巨大的困难。基于此,本申请实施例还可以根据得到的虚拟线分割结果,确定图像分割结果的图像倾斜角度θ(即文本方向G与Y轴的夹角),然后可以根据得到的图像倾斜角度θ分别对实线分割结果和图像语义分割结果进行旋转校正,得到校正后的实线分割结果和校正后的图像语义分割结果,然后基于校正后的实线分割结果对校正后的图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
其中,基于校正后的实线分割结果对校正后的图像语义分割结果进行修正的具体实现方式根据预先配置,本申请实施例不限定。其中,当图像倾斜角度θ较小时(如θ≤3°时),此时在对图像语义分割结果进行修正时,数据处理量的复杂度并不会增加太多,此时可以选择不对实线分割结果和图像语义分割结果进行旋转校正。
可选的,对于上述实施例中对待处理图像进行图像分割,得到待处理图像的实线分割结果、图像语义分割结果以及虚拟线分割结果时,可以通过图像分割网络模型来实现。例如,可以通过U-Net(一种语义分割网络)或Deeplab-v3(一种语义图像分割模型)模型得到待处理图像的实线分割结果、图像语义分割结果以及虚拟线分割结果。
具体的,在本示例中,可以对Deeplab-v3模型中的特征提取部分进行修改,将单任务模型修改为多任务模型,使其可以同时输出实线分割结果、图像语义分割结果以及虚拟线分割结果;而在对Deeplab-v3模型的训练阶段时,可以对Deeplab-v3模型的三个分支分别计算误差损失,并进行加权求和作为最终的误差损失,而三个任务分支的权重可以根据实际情况修改,如可以都设为1。
在实际应用中,如图19所示,在采用基于Deeplab-v3模型的图像分割网络进行图像分割时,可以将待处理图像(图中以文本图像为例)输入至Deeplab-v3模型(图中多任务模型)中,Deeplab-v3模型中可以对待处理图像进行特征提取(即图中所示的:1.特征提取),然后对得到的特征分别进行对应于任务1、任务2和任务3的特征预测(即图中所示的:2.特征预测),分别得到对应于任务1的实线分割结果(即图中的“2.1实线分割”)、对应于任务2的图像语义分割结果(即图中的“2.2版面元素分割”)以及对应于任务3的虚拟线分割结果(即图中的“2.3虚拟线分割”)。其中,该Deeplab-v3模型可以是基于单任务(即对应于任务2)模型得到的,该示例中,单任务的Deeplab-v3模型具体结构如19中虚线框内所示。
可以理解的是,本示例中是以Deeplab-v3模型为例进行说明,在实际应用中,图像分割模型的具体模型架构本申请不做限定,可以根据实际应用需求选择及配置,如现有常用的任何图像分割模型均可以相应修改为本申请实施例中的多任务学习模型,并同时输出待处理图像的实线分割结果、图像语义分割结果以及虚拟线分割结果。
在本申请实施例中,由于图像分割模型为基于多任务学习的图像分割模型,并且可以同时输出三个结果,即虚拟线分割结果、实线分割结果以及图像语义分割结果,因此能够尽可能地节约显存以及计算资源;进一步的,并且由于这三个任务目标相近,能够产生一定的协同效益,由利于分割结果的提升。
作为一个可选实施例,如图20所示,为了更好地理解本申请实施例所提供的方法,下面对该方法的执行过程进行完整的说明。
步骤1,获取待处理图像,并输入至多任务学习模型(即图中的输入图像和输入模型);多任务学习模型对待处理图像进行图像分割(即图中的模型推理),得到虚拟线分割结果、图像语义分割结果和实线分割结果(多任务学习模型语义分割);
步骤2、基于虚拟线分割结果对图像语义分割结果和实线分割结果进行旋转校正(即图中的图像方向纠正),得到校正后的实线分割结果和校正后的图像语义分割结果;
步骤3、对校正后的实线分割结果进行实线分类(即图中的实线分类),得到待处理图像中各类型的实线,如表格线、闭合线等;
步骤4、基于待处理图像中各类型的实线(即图中的基于实线分类),对图像语义分割结果进行分割结果后处理(即图中的分割结果后处理),得到待处理图像的各目标图像区域(图中的语义块)、XLS表格等。
本申请实施例提供了一种图像处理装置,如图21所示,该图像处理装置70可以包括:图像获取模块701、图像分割模块702以及结果修正模块703,其中,
图像获取模块701,用于获取待处理图像;
图像分割模块702,用于对待处理图像进行图像分割,得到图像分割结果,图像分割结果包括实线分割结果和图像语义分割结果;
结果修正模块703,用于基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
可选的,图像语义分割结果包括待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
结果修正模块在基于实线分割结果对图像语义分割结果进行区域修正,得到待处理图像的各目标图像区域时,具体用于:
根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域。
可选的,结果修正模块在对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并时,具体用于:
确定各初始图像区域的连通域;
对位于同一第一图像区域中具有相同语义类别的各初始图像区域的连通域进行合并。
可选的,结果修正模块在根据实线分割结果,对待处理图像进行图像划分,得到各第一图像区域时,具体用于:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
其中,对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
可选的,结果修正模块在基于未合并的各初始图像区域和各第二图像区域,得到待处理图像的各目标图像区域时,具体用于:
对于任一第二图像区域,若第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将第二图像区域进行拆分,得到拆分后的各图像区域;
基于拆分后的各图像区域、未拆分的第二图像区域、以及未合并的各初始图像区域,得到各目标图像区域。
可选的,结果修正模块在对位于同一第一图像区域中具有相同语义类别的各初始图像区域进行合并时,具体用于:
确定位于同一第一图像区域中具有相同语义类别、且满足预设条件的各初始图像区域进行合并。
可选的,该装置还包括预处理模块,具体用于:
对各初始图像区域进行预处理,得到预处理后的各第三图像区域;其中,预处理包括区域修正处理、区域删除处理或去噪处理中的至少一项;
结果修正模块在对位于同一第一图像区域中具有相同语义信息的各初始图像区域进行合并,得到合并后的各第二图像区域时,具体用于:
对位于同一第一图像区域中具有相同语义信息的各第三图像区域进行合并,得到合并后的各第二图像区域。
可选的,预处理包括区域修正处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
基于实线分割结果,确定待处理图像所包含的各封闭实线,封闭实线为闭合实线或表格实线;
对于每一个初始图像区域,若该初始图像区域和任一封闭实线所对应的图像区域的交并比大于设定值,则基于闭合实线所对应的图像区域对初始图像区域进行修正,得到修正后的初始图像区域。
可选的,预处理模块在基于封闭实线所对应的图像区域对初始图像区域进行修正时,具体用于:
将初始图像区域和封闭实线对应的图像区域中的重叠区域,确定为修正后的初始图像区域。
可选的,预处理包括区域删除处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
确定存在交叠区域的初始图像区域对;
对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值;基于比值和预设阈值,对初始图像区域对中的一个初始图像区域进行删除。
可选的,预处理模块在对于任一初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值时,具体用于:
获取该初始图像区域对包含的每个初始图像区域所包含的版面元素的优先级;
确定交叠区域的面积与低优先级的版面元素所对应的初始图像区域的区域面积的比值;
预处理模块在基于比值和预设阈值对初始图像区域对中的一个初始图像区域进行删除时,具体用于:
若比值大于预设阈值,对初始图像区域对中低优先级的版面元素所对应的初始图像区域进行删除。
可选的,预处理包括区域删除处理,预处理模块在对各初始图像区域进行预处理时,具体用于:
基于各初始图像区域的尺寸信息,对各初始图像区域进行区域删除处理。
可选的,若待处理图像中包括表格,实线分割结果中包括表格实线,图像语义分割结果中包括表格区域在待处理图像中的位置信息;
该装置还包括表格创建模块,具体用于:
基于表格实线和表格区域的位置信息,绘制对应的表格;
基于表格区域在待处理图像中的位置信息,对待处理图像中的表格区域进行文字识别,得到文字识别结果;
将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果。
可选的,文字识别结果包括各文本框、以及各文本框对应的文字内容;
表格创建模块在将文字识别结果中的文字内容填充到表格中对应的格子单元中,得到待处理图像对应的表格识别结果时,具体用于:
基于各格子单元和各文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元;
将每个文本框中的文字内容填充到该文字内容所属的目标格子单元内,得到待处理图像对应的表格识别结果。
可选的,表格创建模块在基于格子单元和文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元时,具体用于:
对于一个文本框,若文本框与一个格子单元之间的交并比大于预设阈值,则确定该格子单元为文本框中的文字内容所属的目标该格子单元;
若文本框与每个格子单元之间的交并比均不大于预设阈值,则对文本框进行切分,基于切分后的各文本框和各格子单元之间的交并比,确定切分后的各文本框中的文字内容所属的目标格子单元。
可选的,图像分割结果中还包括虚拟线分割结果,该装置方法还方向校正模块,具体用于:
根据虚拟线分割结果,确定图像分割结果的图像倾斜角度;
根据图像倾斜角度分别对实线分割结果和图像语义分割结果进行旋转校正,得到校正后的实线分割结果和校正后的图像语义分割结果;
结果修正模块在基于实线分割结果对图像语义分割结果进行修正,得到待处理图像的各目标图像区域时,具体用于:
基于校正后的实线分割结果对校正后的图像语义分割结果进行修正,得到待处理图像的各目标图像区域。
本申请实施例的图像处理装置可执行本申请实施例提供的一种图像处理方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种电子设备,如图22所示,图22所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图21所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图22中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图21所示实施例提供的图像处理装置的动作。
本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器上述实施例中的任一项方法。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述实施例中的任一项方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的方法,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上图像处理方法的各种可选实现方式中提供的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像;
对所述待处理图像进行图像分割,得到图像分割结果,所述图像分割结果包括实线分割结果和图像语义分割结果;
基于所述实线分割结果对所述图像语义分割结果进行修正,得到所述待处理图像的各目标图像区域;
其中,实线分割结果包括待处理图像中所包括的实线、以及实线所对应的图像区域;所述图像语义分割结果包括所述待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
所述基于所述实线分割结果对所述图像语义分割结果进行区域修正,得到所述待处理图像的各目标图像区域,包括:
根据所述实线分割结果,对所述待处理图像进行图像划分,得到各第一图像区域;
对位于同一所述第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各所述第二图像区域,得到所述待处理图像的各目标图像区域;
其中,所述根据所述实线分割结果,对所述待处理图像进行图像划分,得到各第一图像区域,包括:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
2.根据权利要求1所述的方法,其特征在于,所述基于未合并的各初始图像区域和各所述第二图像区域,得到所述待处理图像的各目标图像区域,包括:
对于任一所述第二图像区域,若所述第二图像区域所包含的各初始图像区域之间的距离满足拆分要求,则将所述第二图像区域进行拆分,得到拆分后的各图像区域;
基于拆分后的各图像区域、未拆分的所述第二图像区域、以及未合并的各初始图像区域,得到各目标图像区域。
3.根据权利要求1所述的方法,其特征在于,所述对位于同一所述第一图像区域中具有相同语义类别的各初始图像区域进行合并,包括:
确定位于同一所述第一图像区域中具有相同语义类别、且满足预设条件的各初始图像区域进行合并;
其中,所述预设条件为两个初始图像区域之间的距离小于预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对各所述初始图像区域进行预处理,得到预处理后的各第三图像区域;其中,所述预处理包括区域修正处理、区域删除处理或去噪处理中的至少一项;
所述对位于同一所述第一图像区域中具有相同语义信息的各初始图像区域进行合并,得到合并后的各第二图像区域,包括:
对位于同一所述第一图像区域中具有相同语义信息的各第三图像区域进行合并,得到合并后的各第二图像区域。
5.根据权利要求4所述的方法,其特征在于,所述预处理包括区域修正处理,所述对各所述初始图像区域进行预处理,包括:
基于所述实线分割结果,确定所述待处理图像所包含的各封闭实线,所述封闭实线为闭合实线或表格实线;
对于每一个所述初始图像区域,若该初始图像区域和任一所述封闭实线所对应的图像区域的交并比大于设定值,则基于所述闭合实线所对应的图像区域对所述初始图像区域进行修正,得到修正后的初始图像区域。
6.根据权利要求5所述的方法,其特征在于,所述基于所述封闭实线所对应的图像区域对所述初始图像区域进行修正,包括:
将所述初始图像区域和所述封闭实线对应的图像区域中的重叠区域,确定为修正后的初始图像区域。
7.根据权利要求4所述的方法,其特征在于,所述预处理包括区域删除处理,所述对各所述初始图像区域进行预处理,包括:
确定存在交叠区域的初始图像区域对;
对于任一所述初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值;基于所述比值和预设阈值,对所述初始图像区域对中的一个初始图像区域进行删除。
8.根据权利要求7所述的方法,其特征在于,所述对于任一所述初始图像区域对,确定该初始图像区域对的交叠区域的面积与该初始图像区域对中所包含的至少一个初始图像区域的面积的比值,包括:
获取该初始图像区域对包含的每个初始图像区域所包含的版面元素的优先级;
确定所述交叠区域的面积与低优先级的版面元素所对应的初始图像区域的区域面积的比值;
所述基于所述比值和预设阈值对所述初始图像区域对中的一个初始图像区域进行删除,包括:
若所述比值大于所述预设阈值,对所述初始图像区域对中低优先级的版面元素所对应的初始图像区域进行删除。
9.根据权利要求1所述的方法,其特征在于,若所述待处理图像中包括表格,所述实线分割结果中包括表格实线,所述图像语义分割结果中包括表格区域在所述待处理图像中的位置信息;
所述方法还包括:
基于所述表格实线和所述表格区域的位置信息,绘制对应的表格;
基于所述表格区域在所述待处理图像中的位置信息,对所述待处理图像中的表格区域进行文字识别,得到文字识别结果;
将所述文字识别结果中的文字内容填充到所述表格中对应的格子单元中,得到所述待处理图像对应的表格识别结果。
10.根据权利要求9所述的方法,其特征在于,所述文字识别结果包括各文本框、以及各文本框对应的文字内容;
将所述文字识别结果中的文字内容填充到所述表格中对应的格子单元中,得到所述待处理图像对应的表格识别结果,包括:
基于各所述格子单元和各所述文本框之间的交并比,确定每个所述文本框中的文字内容所属的目标格子单元;
将每个所述文本框中的文字内容填充到该文字内容所属的目标格子单元内,得到所述待处理图像对应的表格识别结果。
11.根据权利要求10所述的方法,其特征在于,所述基于各所述格子单元和各所述文本框之间的交并比,确定每个文本框中的文字内容所属的目标格子单元,包括:
对于一个文本框,若所述文本框与一个格子单元之间的交并比大于预设阈值,则确定该格子单元为所述文本框中的文字内容所属的目标该格子单元;
若所述文本框与每个格子单元之间的交并比均不大于预设阈值,则对所述文本框进行切分,基于切分后的各文本框和各所述格子单元之间的交并比,确定所述切分后的各文本框中的文字内容所属的目标格子单元。
12.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取待处理图像;
图像分割模块,用于对所述待处理图像进行图像分割,得到图像分割结果,所述图像分割结果包括实线分割结果和图像语义分割结果;
结果修正模块,用于基于所述实线分割结果对所述图像语义分割结果进行修正,得到所述待处理图像的各目标图像区域;
其中,实线分割结果包括待处理图像中所包括的实线、以及实线所对应的图像区域;所述图像语义分割结果包括所述待处理图像的各初始图像区域、以及各初始图像区域的语义类别;
所述结果修正模块基于所述实线分割结果对所述图像语义分割结果进行区域修正,得到所述待处理图像的各目标图像区域,包括:
根据所述实线分割结果,对所述待处理图像进行图像划分,得到各第一图像区域;
对位于同一所述第一图像区域中具有相同语义类别的各初始图像区域进行合并,得到合并后的各第二图像区域;
基于未合并的各初始图像区域和各所述第二图像区域,得到所述待处理图像的各目标图像区域;
其中,所述根据所述实线分割结果,对所述待处理图像进行图像划分,得到各第一图像区域,包括:
根据实线分割结果,确定待处理图像所包含的各实线;
确定各实线的类型;
基于各实线、以及各实线的类型,对待处理图像进行图像划分,得到各第一图像区域;
对于任一实线,实线的类型为闭合线、表格线、丁字线或独立线。
13.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567945.7A CN111709956B (zh) | 2020-06-19 | 2020-06-19 | 图像处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567945.7A CN111709956B (zh) | 2020-06-19 | 2020-06-19 | 图像处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709956A CN111709956A (zh) | 2020-09-25 |
CN111709956B true CN111709956B (zh) | 2024-01-12 |
Family
ID=72540982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010567945.7A Active CN111709956B (zh) | 2020-06-19 | 2020-06-19 | 图像处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709956B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418204A (zh) * | 2020-11-18 | 2021-02-26 | 杭州未名信科科技有限公司 | 基于纸质文档的文本识别方法、系统及计算机介质 |
CN112580655B (zh) * | 2020-12-25 | 2021-10-08 | 特赞(上海)信息科技有限公司 | 基于改进craft的文本检测方法及装置 |
CN112613513A (zh) * | 2020-12-31 | 2021-04-06 | 北京市商汤科技开发有限公司 | 图像识别方法、装置和系统 |
CN113591827B (zh) * | 2021-01-25 | 2024-09-17 | 腾讯科技(深圳)有限公司 | 文本图像的处理方法、装置、电子设备及可读存储介质 |
CN112766248B (zh) * | 2021-04-09 | 2021-07-09 | 苏州艾隆科技股份有限公司 | 一种结构化处方图片识别方法及装置 |
CN113420669B (zh) * | 2021-06-24 | 2022-05-10 | 武汉工程大学 | 基于多尺度训练和级联检测的文档版面分析方法和系统 |
CN116129456B (zh) * | 2023-02-09 | 2023-07-25 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709901A (zh) * | 2016-11-10 | 2017-05-24 | 西安电子科技大学 | 基于深度先验的模拟雾图生成方法 |
CN107563377A (zh) * | 2017-08-30 | 2018-01-09 | 江苏实达迪美数据处理有限公司 | 一种利用边缘和文字区域的证件关键区域检测定位方法 |
CN109685052A (zh) * | 2018-12-06 | 2019-04-26 | 泰康保险集团股份有限公司 | 文本图像处理方法、装置、电子设备及计算机可读介质 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
-
2020
- 2020-06-19 CN CN202010567945.7A patent/CN111709956B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709901A (zh) * | 2016-11-10 | 2017-05-24 | 西安电子科技大学 | 基于深度先验的模拟雾图生成方法 |
CN107563377A (zh) * | 2017-08-30 | 2018-01-09 | 江苏实达迪美数据处理有限公司 | 一种利用边缘和文字区域的证件关键区域检测定位方法 |
CN109685052A (zh) * | 2018-12-06 | 2019-04-26 | 泰康保险集团股份有限公司 | 文本图像处理方法、装置、电子设备及计算机可读介质 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
多特征融合的文档图像版面分析;应自炉等,;《中国图象图形学报》;第25卷(第2期);引言第4段 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709956A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709956B (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
US11227147B2 (en) | Face image processing methods and apparatuses, and electronic devices | |
US20230072627A1 (en) | Gaze correction method and apparatus for face image, device, computer-readable storage medium, and computer program product face image | |
CN110796031A (zh) | 基于人工智能的表格识别方法、装置及电子设备 | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN112036514B (zh) | 一种图像分类方法、装置、服务器及计算机可读存储介质 | |
CN111274994B (zh) | 漫画人脸检测方法、装置、电子设备及计算机可读介质 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
WO2021164280A1 (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN114266860B (zh) | 三维人脸模型建立方法、装置、电子设备及存储介质 | |
US20230045715A1 (en) | Text detection method, text recognition method and apparatus | |
CN114862861B (zh) | 基于少样本学习的肺叶分割方法和装置 | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
CN112597909A (zh) | 一种用于人脸图片质量评价的方法与设备 | |
US12112533B2 (en) | Method and apparatus for data calculation in neural network model, and image processing method and apparatus | |
CN113591746A (zh) | 一种文档表格结构检测方法及装置 | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
WO2021120578A1 (zh) | 神经网络的前向计算方法、装置及计算机可读存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN114913305B (zh) | 模型处理方法、装置、设备、存储介质及计算机程序产品 | |
CN116259064A (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
EP3929866A2 (en) | Inpainting method and apparatus for human image, and electronic device | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 | |
CN112862840A (zh) | 图像分割方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |