CN111145202B - 模型生成方法、图像处理方法、装置、设备及存储介质 - Google Patents
模型生成方法、图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111145202B CN111145202B CN201911415726.0A CN201911415726A CN111145202B CN 111145202 B CN111145202 B CN 111145202B CN 201911415726 A CN201911415726 A CN 201911415726A CN 111145202 B CN111145202 B CN 111145202B
- Authority
- CN
- China
- Prior art keywords
- image
- matrix
- network model
- digital matrix
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003672 processing method Methods 0.000 title claims description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 458
- 230000011218 segmentation Effects 0.000 claims abstract description 147
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种模型生成方法、图像处理方法、装置、设备及存储介质,获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,基于训练好的语义分割网络模型,从第一数字矩阵中提取文本框在待处理图像中所占图像区域的最小外接矩形对应的元素,得到第二数字矩阵,文本框的最小外接矩形在待处理图像中所占图像区域,作为第一图像区域,将第二数字矩阵输入至预先训练的分辨率重建网络模型,得到分辨率重建网络模型输出的第三数字矩阵,基于第三数字矩阵,将待处理图像中的第一图像区域的分辨率提高至预设分辨率,得到目标图像。基于上述处理,可以提高待处理图像的文本框的清晰度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种模型生成方法、图像处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,互联网提供的线上阅读的电子文档(例如,电子杂志、电子漫画等)越来越多,电子文档中可以显示有文本框,文本框中显示文本信息。例如,在电子漫画中,可以显示有包含漫画人物的会话内容的文本框。
用户可以通过用户终端(例如,智能手机)浏览电子文档,然而,在用户通过用户终端浏览电子文档时,会遇到电子文档的文本框显示不清晰的情况,影响用户体验。
因此,亟需一种可以提高电子文档的文本框的清晰度的方法。
发明内容
本发明实施例的目的在于提供了一种模型生成方法、图像处理方法、装置、设备及存储介质,可以提高电子文档的文本框的清晰度。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种模型生成方法,所述方法包括:
获取显示有文本框的样本图像的数字矩阵;
基于所述文本框在所述样本图像中所占图像区域的位置,确定所述样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,其中,所述目标概率矩阵中与所述文本框所占图像区域的像素点对应的元素的数值为第一数值,所述目标概率矩阵中与除所述文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值;
将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
在本发明实施的第二方面,提供了一种图像处理方法,所述方法包括:
获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,其中,所述第一数字矩阵中的元素与所述待处理图像的像素点的像素值一一对应;
基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,所述文本框的最小外接矩形在所述待处理图像中所占图像区域,作为第一图像区域,其中,所述语义分割网络模型为上述第一方面所述的模型生成方法所述的训练好的语义分割网络模型;
将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,其中,所述第三数字矩阵中的元素与所述第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,所述预设分辨率大于所述待处理图像的分辨率;
基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像。
在本发明实施的第三方面,还提供了一种模型生成装置,所述装置包括:
获取模块,用于获取显示有文本框的样本图像的数字矩阵;
确定模块,用于基于所述文本框在所述样本图像中所占图像区域的位置,确定所述样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,其中,所述目标概率矩阵中与所述文本框所占图像区域的像素点对应的元素的数值为第一数值,所述目标概率矩阵中与除所述文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值;
训练模块,用于将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
在本发明实施的第四方面,还提供了一种图像处理装置,所述装置包括:
获取模块,用于获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,其中,所述第一数字矩阵中的元素与所述待处理图像的像素点的像素值一一对应;
提取模块,用于基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,所述文本框的最小外接矩形在所述待处理图像中所占图像区域,作为第一图像区域,其中,所述语义分割网络模型为上述第一方面所述的模型生成方法所述的训练好的语义分割网络模型;
第一确定模块,用于将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,其中,所述第三数字矩阵中的元素与所述第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,所述预设分辨率大于所述待处理图像的分辨率;
第二确定模块,用于基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的模型生成方法,或者,上述第二方面所述的图像处理方法的步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的模型生成方法,或者,上述第二方面所述的图像处理方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的模型生成方法,或者,上述第二方面所述的图像处理方法。
本发明实施例提供的模型生成方法,可以获取显示有文本框的样本图像的数字矩阵,基于文本框在样本图像中所占图像区域的位置,确定样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,将样本图像的数字矩阵输入至初始语义分割网络模型,基于目标概率矩阵,对初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
基于上述处理,由于目标概率矩阵能够表示文本框在样本图像中的位置,基于目标概率矩阵对初始语义分割网络模型进行训练,得到的训练好语义分割网络模型输出的用于表示文本框在样本图像中位置的概率矩阵较为准确。
本发明实施例提供的图像处理方法,可以获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵;基于训练好的的语义分割网络模型,从第一数字矩阵中提取文本框的最小外接矩形在待处理图像中所占图像区域对应的元素,得到第二数字矩阵,文本框的最小外接矩形在待处理图像中所占图像区域,作为第一图像区域,将第二数字矩阵输入至预先训练的分辨率重建网络模型,得到分辨率重建网络模型输出的第三数字矩阵,基于第三数字矩阵,将待处理图像中的第一图像区域的分辨率提高至预设分辨率,得到目标图像。
基于上述处理,可以在提取待处理图像的文本框所占图像区域的第二数字矩阵之后,基于预先训练的分辨率重建网络模型,确定与待处理图像的文本框的最小外接矩形所占图像区域对应的预设分辨率的图像的第三数字矩阵,并基于第三数字矩阵,将待处理图像的文本框所占图像区域的分辨率提高至预设分辨率,进而,可以提高待处理图像的文本框的清晰度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中提供的一种模型生成方法的流程图;
图2为本发明实施例中提供的一种模型生成方法的流程图;
图3为本发明实施例中提供的一种图像处理方法的流程图;
图4为本发明实施例中提供的一种图像处理方法的流程图;
图5为本发明实施例中提供的一种语义分割网络模型的结构图;
图6为本发明实施例中提供的一种图像处理方法的流程图;
图7为本发明实施例中提供的一种图像处理方法示例的流程图;
图8为本发明实施例中提供的一种图像处理系统工作流程图;
图9为本发明实施例中提供的一种图像处理方法的系统框图;
图10为本发明实施例中提供的一种模型生成装置的结构图;
图11为本发明实施例中提供的一种图像处理装置的结构图;
图12为本发明实施例中提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
用户通过用户终端浏览电子文档时,会遇到电子文档的文本框显示不清晰的情况,影响用户体验。
为了解决上述问题,本发明实施例提供了一种模型生成方法,以及图像处理方法,该模型生成方法和图像处理方法均可以应用于电子设备,该电子设备可以为服务器,也可以为终端,该电子设备用于图像处理。
参见图1,图1为本发明实施例中提供的一种模型生成方法的流程图,该方法可以包括以下步骤:
S101:获取显示有文本框的样本图像的数字矩阵。
S102:基于文本框在样本图像中所占图像区域的位置,确定样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵。
其中,目标概率矩阵中与文本框所占图像区域的像素点对应的元素的数值为第一数值,目标概率矩阵中与除文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值。
S103:将样本图像的数字矩阵输入至初始语义分割网络模型,基于目标概率矩阵,对初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
基于上述处理,将样本图像的数字矩阵输入至初始语义分割网络模型,并基于目标概率矩阵对初始语义分割网络模型进行训练,由于目标概率矩阵能够表示文本框在样本图像中的位置,基于目标概率矩阵对初始语义分割网络模型进行训练,得到的训练好语义分割网络模型输出的用于表示文本框在样本图像中位置的概率矩阵较为准确。
在步骤S101中,电子设备可以获取显示有文本框的样本图像,并对样本图像进行解码处理,进而,可以得到样本图像的数字矩阵,样本图像的数字矩阵中的元素与样本图像的像素点的像素值一一对应。
在步骤S102中,电子设备可以确定样本图像中的文本框的位置,进而,可以确定样本图像的像素点中属于文本框的像素点,然后,电子设备可以将样本图像的数字矩阵对应的概率矩阵(即目标概率矩阵)中与属于文本框的像素点对应位置的元素设置为1,将与不属于文本框的像素点对应的元素设置为0,可以得到目标概率矩阵。
然后,电子设备可以将样本图像的数字矩阵,以及目标概率矩阵,作为训练样本(可以称为第一训练样本),并基于第一训练样本对初始语义分割网络模型进行训练。
进而,在步骤S103中,电子设备可以将样本图像的数字矩阵输入至初始语义分割网络模型,并基于目标概率矩阵对初始语义分割网络模型进行训练,可以得到训练好的语义分割网络模型。
可选的,初始语义分割网络模型包括卷积网络和反卷积网络,卷积网络可以由第一数目个结构相同参数不同的卷积层构成,反卷积网络可以由第一数目个结构相同参数不同的反卷积层构成。
其中,第一数目可以由技术人员根据经验设置,例如,第一数目可以为13,但并不限于此。
参见图2,步骤S103可以包括以下步骤:
S1031:通过初始语义分割网络模型的卷积网络,对样本图像的数字矩阵进行下采样处理,得到样本图像的数字矩阵的特征矩阵。
电子设备将样本图像的数字矩阵输入至初始语义分割网络模型之后,初始语义分割网络模型的卷积网络可以对样本图像的数字矩阵进行下采样处理,以提取样本图像的数字矩阵的特征元素,进而,可以得到样本图像的数字矩阵的特征矩阵,并将得到的特征矩阵输入至初始语义分割网络模型的反卷积网络。
S1032:通过初始语义分割网络模型的反卷积网络,对特征矩阵进行上采样处理,得到初始语义分割网络模型输出的样本图像的数字矩阵对应的概率矩阵,作为第一概率矩阵。
其中,第一概率矩阵中的元素与样本图像的像素点属于文本框的概率一一对应。
初始语义分割网络模型的反卷积网络,可以对样本图像的数字矩阵的特征矩阵进行上采样处理,进而,可以得到样本图像的数字矩阵对应的概率矩阵(即第一概率矩阵),并输出第一概率矩阵。
S1033:计算表示第一概率矩阵与目标概率矩阵的差异性的损失函数值。
在得到初始语义分割网络模型输出的第一概率矩阵之后,电子设备可以对目标概率矩阵与第一概率矩阵进行对比处理,确定第一概率矩阵与目标概率矩阵的之间的差异性,即电子设备可以计算表示第一概率矩阵与目标概率矩阵的差异性的损失函数值。
S1034:当损失函数值达到预设收敛条件时,将本次训练后得到的语义分割网络模型,作为训练好的语义分割网络模型。
其中,预设收敛条件可以由技术人员根据经验设置。
一种实现方式中,为了提高训练好的语义分割网络模型输出的概率矩阵的准确性,预设收敛条件可以为本次训练后计算得到的损失函数值,与前第二数目次计算得到的损失函数值的差值均小于预设差值。
其中,第二数目和预设差值均可以由技术人员根据经验设置。
电子设备计算得到损失函数值之后,可以确定本次计算得到的损失函数值,与前第二数目次计算得到的损失函数值的差值(可以称为损失函数差值),进而,电子设备可以判断各损失函数差值是否小于预设差值,如果各损失函数差值均小于预设差值,则电子设备可以将本次训练后得到的语义分割网络模型,作为训练好的语义分割网络模型。
可见,当损失函数值达到预设收敛条件时,表示第一概率矩阵与目标概率矩阵的差异性较小,即达到预设收敛条件的语义分割网络模型输出的概率矩阵表示的文本框在样本图像中位置,与真实的文本框在样本图像中位置基本一致,进而,达到预设收敛条件的语义分割网络模型(即训练好的语义分割网络模型)输出的概率矩阵的准确性较高。
参见图3,图3为本发明实施例中提供的一种图像处理方法的流程图,该方法可以包括以下步骤:
S301:获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵。
其中,第一数字矩阵中的元素与待处理图像的像素点的像素值一一对应。
S302:基于语义分割网络模型,从第一数字矩阵中提取文本框的最小外接矩形在待处理图像中所占图像区域对应的元素,得到第二数字矩阵,文本框的最小外接矩形在待处理图像中所占图像区域,作为第一图像区域。
其中,语义分割网络模型为前述模型生成方法所述的训练好的语义分割网络模型。
S303:将第二数字矩阵输入至预先训练的分辨率重建网络模型,得到分辨率重建网络模型输出的第三数字矩阵。
其中,第三数字矩阵中的元素与第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,预设分辨率大于待处理图像的分辨率。
S304:基于第三数字矩阵,将待处理图像中的第一图像区域的分辨率提高至预设分辨率,得到目标图像。
基于上述图像处理方法,可以在提取待处理图像的文本框所占图像区域的第二数字矩阵之后,基于预先训练的分辨率重建网络模型,确定与待处理图像的文本框的最小外接矩形所占图像区域对应的预设分辨率的图像的第三数字矩阵,并基于第三数字矩阵,将待处理图像的文本框所占图像区域的分辨率提高至预设分辨率,进而,可以提高待处理图像的文本框的清晰度。
在步骤S301中,待处理图像可以为显示有文本框的电子文档,例如,电子杂志,电子漫画等。文本框中显示文本信息,例如,在电子漫画中,可以显示有包含漫画人物的会话内容的文本框。
在发明实施例中,电子设备可以获取待处理图像,然后,基于对待处理图像进行解码处理,得到待处理图像的数字矩阵(即第一数字矩阵)。
一种实现方式中,如果待处理图像只包含一个图像区域,则电子设备可以对待处理图像进行解码处理,得到待处理图像的数字矩阵,即为第一数字矩阵。
另一种实现方式中,如果待处理图像包含多个相对独立的图像区域,则在获取待处理图像之后,电子设备可以对待处理图像进行解码处理,得到待处理图像的数字矩阵(可以称为目标数字矩阵),然后,电子设备可以对目标数字矩阵进行分割处理,可以得到多个数字矩阵(即第一数字矩阵),一个第一数字矩阵中的元素与待处理图像中对应的图像区域的像素点的像素值一一对应。
示例性,如果待处理图像为四格漫画,电子设备可以对四格漫画进行解码处理,得到四格漫画的目标数字矩阵,然后,电子设备可以基于边缘检测算法,对目标数字矩阵进行分割处理,得到4个第一数字矩阵,一个第一数字矩阵中的元素与四格漫画中对应的一格漫画的像素点的像素值一一对应。
可以理解的是,如果待处理图像的第一数字矩阵为多个,针对每一第一数字矩阵,均可按照本申请实施例提供的方法进行处理。
在步骤S302中,电子设备可以基于训练好的语义分割网络模型,从第一数字矩阵中提取待处理图像的文本框的最小外接矩形在待处理图像中所占图像区域的数字矩阵(即第二数字矩阵)。
一种实现方式中,电子设备可以基于训练好的语义分割网络模型,从第一数字矩阵中提取文本框的最小外接矩形在待处理图像中所占图像区域(即第一图像区域)对应的元素,得到第二数字矩阵。
可选的,参见图4,步骤S302可以包括以下步骤:
S3021:将第一数字矩阵输入至语义分割网络模型,得到语义分割网络模型输出的第一数字矩阵对应的概率矩阵。
其中,概率矩阵中的元素与待处理图像的像素点属于文本框的概率一一对应。
在基于语义分割网络模型,从第一数字矩阵中提取待处理图像的文本框的最小外接矩形的第二数字矩阵之前,电子设备还可以基于第一训练样本对初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。电子设备基于第一训练样本对初始语义分割网络模型进行训练,得到训练好的语义分割网络模型的方法,前述实施例中已有详细介绍,此处不再赘述。
进而,电子设备可以将待处理图像的第一数字矩阵输入至训练好的语义分割网络模型,可以得到语义分割网络模型输出的第一数字矩阵对应的概率矩阵。
可选的,步骤S3021可以包括以下步骤:
步骤一,通过语义分割网络模型的卷积网络,对第一数字矩阵进行下采样处理,得到第一数字矩阵的特征矩阵。
步骤二,通过语义分割网络模型的反卷积网络,对特征矩阵进行上采样处理,得到语义分割网络模型输出的第一数字矩阵对应的概率矩阵。
参见图5,图5为本发明实施例提供的一种语义分割网络模型的结构图,为一种可能的应用场景。该语义分割网络模型包括:卷积网络和反卷积网络,卷积网络包括4个结构相同参数不同的卷积层,反卷积网络包括4个结构相同参数不同的反卷积层。
电子设备可以通过卷积网络,对第一数字矩阵进行下采样处理,可以得到能够表示待处理图像的特征矩阵。然后,电子设备还可以通过反卷积网络,对提取到的特征矩阵进行上采样处理,可以得到第一数字矩阵对应的概率矩阵。
通过语义分割网络模型的卷积网络对待处理图像的第一数字矩阵进行特征提取,语义分割网络模型的反卷积网络根据提取到的特征矩阵,确定待处理图像的像素点属于文本框的概率,可以提高确定出的概率的准确度。
S3022:确定概率矩阵中大于预设阈值的元素在第一数字矩阵中对应的元素,作为文本框在待处理图像中所占图像区域在第一数字矩阵中对应的元素。
其中,预设阈值可以由技术人员根据经验设置,例如,预设阈值可以为0.8,预设阈值也可以为0.85,但并不限于此。
在确定第一数字矩阵对应的概率矩阵之后,针对概率矩阵中的每一元素,电子设备可以确定该元素是否大于预设阈值,然后,电子设备可以确定出概率矩阵中大于预设阈值的元素,并获取概率矩阵中大于预设阈值的元素在概率矩阵中的位置。
然后,电子设备可以确定第一数字矩阵中,与概率矩阵中大于预设阈值的元素相同位置的元素,即为文本框在待处理图像中所占图像区域在第一数字矩阵中对应的元素。
S3023:基于文本框在待处理图像中所占图像区域在第一数字矩阵中对应的元素,确定文本框的最小外接矩形在待处理图像中所占图像区域在第一数字矩阵中对应的元素,作为目标元素。
电子设备确定文本框在待处理图像中所占图像区域在第一数字矩阵对应的元素之后,可以获取文本框在待处理图像中所占图像区域在第一数字矩阵对应的元素的位置,进而,可以根据确定的位置,确定文本框的最小外接矩形在待处理图像中所占图像区域在第一数字矩阵对应的元素(即目标元素)。
S3024:从第一数字矩阵中提取目标元素,得到第二数字矩阵。
电子设备在确定出目标元素之后,可以从第一数字矩阵中提取目标元素,可以得到第二数字矩阵。
一种现实方式中,电子设备可以确定概率矩阵对应的二值化矩阵,二值化矩阵由多个0和1组成,电子设备可以将二值化矩阵中与目标元素相对应的元素设置为1,将二值化矩阵中与除目标元素外的其他元素相对应的元素设置为0。
然后,电子设备可以将二值化矩阵中的元素与第一数字矩阵中对应的元素相乘,并保留相乘之后得到的矩阵中不为0的元素,可以得到第二数字矩阵。
通过语义分割网络模型确定的概率矩阵,并基于概率矩阵从第一数字矩阵中提取待处理图像中文本框的最小外接矩形所占图像区域的第二数字矩阵,可以提高提取到的第二数字矩阵的准确度。
在步骤S303中,将第二数字矩阵输入至预先训练的分辨率重建网络模型,得到分辨率重建网络模型输出的第三数字矩阵。
其中,第三数字矩阵中的元素与第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,预设分辨率大于待处理图像的分辨率。
预设分辨率可以由技术人员根据经验设置,例如,待处理图像的分辨率为480P,则预设分辨率可以为720P;待处理图像的分辨率为720P,则预设分辨率可以为1080P,但并不限于此。
一种实现方式中,为了进一步提高确定出的第三数字矩阵的准确度,分辨率重建网络模型可以为GAN(Generative Adversarial Networks,生成式对抗网络)模型。
在从第一数字矩阵中提取第二数字矩阵之后,电子设备还可以基于预先训练的分辨率重建网络模型,对第二数字矩阵进行处理,进而,可以确定第一图像区域对应的预设分辨率的图像的数字矩阵(即第三数字矩阵)。
可选的,步骤S303可以包括以下步骤:
通过预先训练的分辨率重建网络模型的生成器,增加第二数字矩阵中的元素的数目,得到第三数字矩阵。
在基于预先训练的分辨率重建网络模型,确定第三数字矩阵之前,电子设备还可以基于第二训练样本对分辨率重建网络模型进行训练。
其中,第二训练样本包括第一分辨率的样本图像的数字矩阵(可以称为第四数字矩阵),以及预设分辨率的样本图像的数字矩阵(可以称为第五数字矩阵)。预设分辨率大于第一分辨率。
分辨率重建网络模型可以包括生成器和判别器,电子设备可以将第四数字矩阵作为生成器的输入参数,将第五数字矩阵作为判别器的判别参数。然后,生成器可以生成第三分辨率的样本图像的数字矩阵,并输入至判别器。判别器可以根据接收到的数字矩阵中元素的数目,判断第三分辨率是否小于预设分辨率,如果小于,判别器可以向生成器输入负反馈消息,生成器再次生成第四分辨率的样本图像的数字矩阵,并输入至判别器,判别器根据接收到的数字矩阵中元素的数目,再次判断第四分辨率是否小于预设分辨率。直至生成器生成的数字矩阵对应的样本图像的分辨率不小于预设分辨率,得到训练好的分辨率重建网络模型。
然后,电子设备可以将第二数字矩阵输入至训练好的分辨率重建网络模型,电子设备可以通过分辨率重建网络模型的生成器,增加第二数字矩阵中的元素的数目,得到第三数字矩阵,第三数字矩阵中的元素能够表示预设分辨率的图像的像素点的像素值。
一种实现方式中,分辨率重建网络模型的生成器,可以将第二数字矩阵中的元素的数目增加至预设数目,进而,可以得到第一图像区域对应的预设分辨率的图像的第三数字矩阵。
其中,预设数目与预设分辨率相对应,如果预设分辨率为720P,对应的预设数目为1280×720。
可以理解的是,第三数字矩阵中的元素与第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,第三数字矩阵中元素的数目为预设数目,基于第三数字矩阵得到的图像的像素点的数目也为预设数目。
示例性的,如果一个图像的分辨率为480P,该图像的数字矩阵中元素的数目为720×480,该图像的横向的像素点的数目为720,该图像的纵向的像素点的数目为480,将该图像的数字矩阵中元素的数目增加至1280×720,则该图像的横向的像素点的数目增加至1280,该图像的纵向的像素点的数目增加至720,该图像的分辨率提升至为720P。
基于分辨率重建网络模型,增加第二数字矩阵中元素的数目,得到第三数字矩阵,可以提高确定出的第三数字矩阵的准确度。
在步骤S304中,电子设备基于第三数字矩阵,将待处理图像中的第一图像区域的分辨率提高至预设分辨率,可以得到文本框的分辨率为预设分辨率的图像(即目标图像)。
可以理解的是,一个图像的分辨率越高,则该图像的清晰度越高。
可选的,参见图6,步骤S304可以包括以下步骤:
S3041:对第三数字矩阵进行编码处理,得到预设分辨率的图像。
在基于预先训练的分辨率重建网络模型,确定与第一图像区域对应的预设分辨率的图像的第三数字矩阵之后,电子设备可以对第三数字矩阵进行编码处理,得到预设分辨率的图像。
S3042:在待处理图像中,将预设分辨率的图像覆盖第一图像区域,得到目标图像。
在得到预设分辨率的图像之后,电子设备可以将预设分辨率的图像覆盖待处理图像中的第一图像区域,得到目标图像。目标图像中文本框所占图像区域的分辨率为预设分辨,预设分辨率大于处理前的待处理图像的分辨率,因此,目标图像中文本框的清晰度高于待处理图像中文本框的清晰度。
另外,如果电子设备为用户终端,用户终端在得到第三数字矩阵之后,可以生成第三数字矩阵对应的矢量图,并在待处理图像中,将该矢量图覆盖第一图像区域,得到目标图像。后续,用户可以对目标图像进行放大或缩小操作,且能够保证目标图像中文本框的清晰度不会降低,可以提高用户体验。
一种实现方式中,电子设备可以为用户终端,在对待处理图像进行处理得到目标图像之后,用户终端还可以在用户界面中显示目标图像。后续,用户终端可以根据用户输入的操作指令,在用户界面中显示对应的图像。
可选的,该方法还可以包括以下步骤:响应于用户输入的针对目标图像的文本框的调整显示指令,在用户界面中按照调整显示指令所指示的显示尺寸,显示目标图像的文本框。
其中,调整显示指令包括放大显示指令和还原显示指令。
用户在浏览目标图像的过程,可以输入针对目标图像的文本框的放大显示指令,在显示目标图像的情况下,响应于该放大显示指令,用户终端可以对该文本框执行放大处理,以将目标图像的文本框的当前的显示尺寸(可以称为第一显示尺寸)增加至预设显示尺寸,并在用户界面中显示预设显示尺寸的目标图像的文本框。例如,可以在用户界面中仅显示预设显示尺寸的文本框,也可以显示目标图像以及预设显示尺寸的文本框。通过与用户之间的交互,可以实现放大图像中的文本框,从而可以输出更加清楚地文本框中的文字,使用户能够读取到更加清晰的文字信息,提升用户体验。
其中,预设显示尺寸可以由技术人员根据经验设置,预设显示尺寸不大于用户终端的用户界面的显示尺寸,预设显示尺寸大于第一显示尺寸。
另外,用户在浏览放大显示的目标图像的文本框之后,还可以输入针对目标图像的文本框的还原显示指令,在显示预设显示尺寸的目标图像的文本框的情况下,响应于该还原显示指令,用户终端可以对预设显示尺寸的目标图像的文本框的显示尺寸进行恢复处理,将目标图像的文本框的显示尺寸恢复至第一显示尺寸,并在用户界面中显示目标图像以及第一显示尺寸的目标图像的文本框。
示例性的,用户终端在显示目标图像之后,用户可以通过点击目标图像的文本框触发目标图像的文本框对应的控件(可以称为目标控件),相应的,用户终端在检测到目标控件被触发时,可以对该文本框执行放大处理,将目标图像的文本框的显示尺寸增加至预设显示尺寸,并在用户界面中显示预设显示尺寸的目标图像的文本框。后续,用户在浏览放大显示的目标图像的文本框之后,可以再次点击当前显示的预设显示尺寸的文本框,相应的,用户终端检测到目标控件再次被触发时,可以将该文本框的显示尺寸恢复至第一显示尺寸,并在用户界面中显示目标图像以及第一显示尺寸的目标图像的文本框。
可见,由于目标图像的文本框的分辨率为预设分辨率,预设分辨率的文本框的清晰度较高,进而,用户对目标图像的文本框进行放大或缩小操作时,能够保证目标图像中文本框的清晰度不会降低,可以提高用户体验。
参见图7,图7为本发明实施例中提供的一种图像处理方法示例的流程图,可以包括以下步骤:
S701:获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵。
其中,第一数字矩阵中的元素与待处理图像的像素点的像素值一一对应。
S702:将第一数字矩阵输入至语义分割网络模型,通过语义分割网络模型的卷积网络,对第一数字矩阵进行下采样处理,得到第一数字矩阵的特征矩阵。
S703:通过语义分割网络模型的反卷积网络,对特征矩阵进行上采样处理,得到第一数字矩阵对应的概率矩阵。
其中,概率矩阵中的元素与待处理图像的像素点属于文本框的概率一一对应。
S704:确定概率矩阵中大于预设阈值的元素在第一数字矩阵中对应的元素,作为文本框在待处理图像中所占图像区域在第一数字矩阵中对应的元素。
S705:基于文本框在待处理图像中所占图像区域在第一数字矩阵中对应的元素,确定文本框的最小外接矩形在待处理图像中所占图像区域在第一数字矩阵中对应的元素,作为目标元素,文本框的最小外接矩形在待处理图像中所占图像区域,作为第一图像区域;
S706:从第一数字矩阵中提取目标元素,得到第二数字矩阵。
S707:将第二数字矩阵输入至预先训练的分辨率重建网络模型,通过分辨率重建网络模型的生成器,增加第二数字矩阵中的元素的数目,得到第三数字矩阵。
其中,第三数字矩阵中的元素与第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,预设分辨率大于待处理图像的分辨率。
S708:对第三数字矩阵进行编码处理,得到预设分辨率的图像。
S709:在待处理图像中,将预设分辨率的图像覆盖第一图像区域,得到目标图像。
参见图8,图8为本发明实施例中提供的一种图像处理系统工作流程图,该图像处理系统可以用于提升电子漫画的气泡框图像的清晰度。电子漫画的气泡框图像中显示有包含漫画人物的会话内容。
S801:获取显示有气泡框的待处理电子漫画。
电子设备可以获取显示有气泡框的待处理电子漫画,并对待处理电子漫画进行解码处理,得到待处理电子漫画的数字矩阵。
S8021:对初始语义网络模型进行训练,得到训练好的语义分割网络模型。
电子设备可以获取样本电子漫画的数字矩阵,并确定样本电子漫画中的气泡框的位置,基于气泡框在样本电子漫画中的位置,确定样本电子漫画的数字矩阵对应的概率矩阵(即目标概率矩阵)。然后,电子设备可以将样本电子漫画的数字矩阵输入至初始语义分割网络模型,基于目标概率矩阵对初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
S8022:基于训练好的语义分割网络模型,从待处理电子漫画中提取气泡框图像。
电子设备可以将待处理电子漫画的数字矩阵,输入至训练好的语义分割网络模型,得到训练好的语义分割网络模型输出的待处理电子漫画的数字矩阵对应概率矩阵,并基于得到的概率矩阵,从待处理电子漫画的数字矩阵中提取气泡框的图像的数字矩阵。
S8031:对初始分辨率重建网络模型进行训练,得到训练好的分辨率重建网络模型。
电子设备可以基于第三训练样本对初始分辨率重建网络模型进行训练,得到训练好的分辨率重建网络模型。第三训练样本包括第一分辨率的样本电子漫画的数字矩阵,以及预设分辨率的样本电子漫画的数字矩阵。预设分辨率大于第一分辨率。
S8032:基于训练好的分辨率重建网络模型,提升气泡框图像的分辨率。
电子设备可以将气泡框图像的数字矩阵,输入至训练好的分辨率重建网络模型,可以得到训练好的分辨率重建网络模型输出的,表示分辨率提升后的气泡框图像的数字矩阵。
S804:显示分辨率提升后的气泡框图像。
电子设备可以对表示分辨率提升后的气泡框图像的数字矩阵,进行编码处理,得到分辨率提升后的气泡框图像。
当电子设备为用户终端时,用户终端在得到分辨率提升后的气泡框图像后,可以将分辨率提升后的气泡框图像覆盖在待处理电子漫画中原气泡框图像的位置,并显示在用户界面中。
参见图9,图9为本发明实施例中提供的一种图像处理方法的系统框图,该图像处理系统可以用于提升电子漫画的气泡框图像的清晰度。电子漫画的气泡框图像中显示有包含漫画人物的会话内容。
电子设备获取待处理电子漫画之后,通过预处理模块对待处理电子漫画进行解码处理,得到待处理电子漫画的数字矩阵(即目标数字矩阵),并基于边缘检测算法确定待处理电子漫画包含的每一格漫画的数字矩阵(即第一数字矩阵),并输入至语义分割模块。
语义分割模块包括:训练模块和气泡框图像提取模块。训练模块,用于基于第一训练样本,对初始语义分割网络进行训练,得到训练好的语义分割网络模型。气泡框图像提取模块,用于将待处理电子漫画的第一数字矩阵,输入至训练好的语义分割网络模型,语义分割网络模型可以确定待处理的气泡框图在待处理电子漫画中的位置,然后,电子设备可以基于确定出的气泡框图像的位置从待处理电子漫画的第一数字矩阵中,提取气泡框图像的数字矩阵(即第二数字矩阵),并输入至分辨率重建模块。
分辨率重建模块包括:训练模块和提升模块。训练模块,用于基于第二训练样本对初始分辨率重建网络模型进行训练,得到训练好的分辨率重建网络模型。提升模块,用于将第二数字矩阵输入至训练好的分辨率重建网络模型,得到分辨率重建网络模型输出的数字矩阵(即第三数字矩阵),第三数字矩阵中的元素与分辨率提升后的气泡框图像的像素点一一对应。
然后,电子设备可以对第三数字矩阵进行编码处理,得到分辨率提升后的气泡框图像,进而,电子设备可以显示分辨率提升后的气泡框图像。
与图1的方法实施例相对应,参见图10,图10为本发明实施例中提供的一种模型生成装置的结构图,所述装置包括:
获取模块1001,用于获取显示有文本框的样本图像的数字矩阵;
确定模块1002,用于基于所述文本框在所述样本图像中所占图像区域的位置,确定所述样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,其中,所述目标概率矩阵中与所述文本框所占图像区域的像素点对应的元素的数值为第一数值,所述目标概率矩阵中与除所述文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值;
训练模块1003,用于将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型。
可选的,所述初始语义分割网络模型包括卷积网络和反卷积网络;
所述训练模块1003,具体用于通过所述初始语义分割网络模型的卷积网络,对所述样本图像的数字矩阵进行下采样处理,得到所述样本图像的数字矩阵的特征矩阵;
通过所述初始语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述初始语义分割网络模型输出的所述样本图像的数字矩阵对应的概率矩阵,作为第一概率矩阵,其中,所述第一概率矩阵中的元素与所述样本图像的像素点属于所述文本框的概率一一对应;
计算表示所述第一概率矩阵与所述目标概率矩阵的差异性的损失函数值;
当所述损失函数值达到预设收敛条件时,将本次训练后得到的语义分割网络模型,作为训练好的语义分割网络模型。
基于上述处理,由于目标概率矩阵能够表示文本框在样本图像中的位置,基于目标概率矩阵对初始语义分割网络模型进行训练,得到的训练好语义分割网络模型输出的用于表示文本框在样本图像中位置的概率矩阵较为准确。
与图3的方法实施例相对应,参见图11,图11为本发明实施例中提供的一种图像处理装置的结构图,所述装置包括:
获取模块1101,用于获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,其中,所述第一数字矩阵中的元素与所述待处理图像的像素点的像素值一一对应;
提取模块1102,用于基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,所述文本框的最小外接矩形在所述待处理图像中所占图像区域,作为第一图像区域,其中,所述语义分割网络模型为前述模型生成方法所述的训练好的语义分割网络模型;
第一确定模块1103,用于将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,其中,所述第三数字矩阵中的元素与所述第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,所述预设分辨率大于所述待处理图像的分辨率;
第二确定模块1104,用于基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像。
可选的,所述提取模块1102,具体用于将所述第一数字矩阵输入至所述语义分割网络模型,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵,其中,所述概率矩阵中的元素与所述待处理图像的像素点属于所述文本框的概率一一对应;
确定所述概率矩阵中大于预设阈值的元素在所述第一数字矩阵中对应的元素,作为所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素;
基于所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,确定所述文本框的最小外接矩形在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,作为目标元素;
从所述第一数字矩阵中提取所述目标元素,得到第二数字矩阵。
可选的,所述提取模块1102,具体用于通过所述语义分割网络模型的卷积网络,对所述第一数字矩阵进行下采样处理,得到所述第一数字矩阵的特征矩阵;
通过所述语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵。
可选的,所述第一确定模块1103,具体用于通过预先训练的分辨率重建网络模型的生成器,增加所述第二数字矩阵中的元素的数目,得到第三数字矩阵。
可选的,所述第二确定模块1104,具体用于对所述第三数字矩阵进行编码处理,得到预设分辨率的图像;
在所述待处理图像中,将所述预设分辨率的图像覆盖所述第一图像区域,得到目标图像。
基于上述处理,可以在提取待处理图像的文本框所占图像区域的第二数字矩阵之后,基于预先训练的分辨率重建网络模型,确定与待处理图像的文本框的最小外接矩形所占图像区域对应的预设分辨率的图像的第三数字矩阵,并基于第三数字矩阵,将待处理图像的文本框所占图像区域的分辨率提高至预设分辨率,进而,可以提高待处理图像的文本框的清晰度。
本发明实施例还提供了一种电子设备,如图12所示,包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信,
存储器1203,用于存放计算机程序;
处理器1201,用于执行存储器1203上所存放的程序时,实现上述实施例中任一所述的模型生成方法,或者,上述实施例中任一所述的图像处理方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的模型生成方法,或者,上述实施例中任一所述的图像处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的模型生成方法,或者,上述实施例中任一所述的图像处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种模型生成方法,其特征在于,所述方法包括:
获取显示有文本框的样本图像的数字矩阵;
基于所述文本框在所述样本图像中所占图像区域的位置,确定所述样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,其中,所述目标概率矩阵中与所述文本框所占图像区域的像素点对应的元素的数值为第一数值,所述目标概率矩阵中与除所述文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值;
将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型;
所述初始语义分割网络模型包括卷积网络和反卷积网络;
所述将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型,包括:
通过所述初始语义分割网络模型的卷积网络,对所述样本图像的数字矩阵进行下采样处理,得到所述样本图像的数字矩阵的特征矩阵;
通过所述初始语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述初始语义分割网络模型输出的所述样本图像的数字矩阵对应的概率矩阵,作为第一概率矩阵,其中,所述第一概率矩阵中的元素与所述样本图像的像素点属于所述文本框的概率一一对应;
计算表示所述第一概率矩阵与所述目标概率矩阵的差异性的损失函数值;
当所述损失函数值达到预设收敛条件时,将本次训练后得到的语义分割网络模型,作为训练好的语义分割网络模型。
2.一种图像处理方法,其特征在于,所述方法包括:
获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,其中,所述第一数字矩阵中的元素与所述待处理图像的像素点的像素值一一对应;
基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,所述文本框的最小外接矩形在所述待处理图像中所占图像区域,作为第一图像区域,其中,所述语义分割网络模型为权利要求1所述的训练好的语义分割网络模型;
将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,其中,所述第三数字矩阵中的元素与所述第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,所述预设分辨率大于所述待处理图像的分辨率;
基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像。
3.根据权利要求2所述的方法,其特征在于,所述基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,包括:
将所述第一数字矩阵输入至所述语义分割网络模型,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵,其中,所述概率矩阵中的元素与所述待处理图像的像素点属于所述文本框的概率一一对应;
确定所述概率矩阵中大于预设阈值的元素在所述第一数字矩阵中对应的元素,作为所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素;
基于所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,确定所述文本框的最小外接矩形在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,作为目标元素;
从所述第一数字矩阵中提取所述目标元素,得到第二数字矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一数字矩阵输入至语义分割网络模型,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵,包括:
通过所述语义分割网络模型的卷积网络,对所述第一数字矩阵进行下采样处理,得到所述第一数字矩阵的特征矩阵;
通过所述语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵。
5.根据权利要求2所述的方法,其特征在于,所述将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,包括:
通过预先训练的分辨率重建网络模型的生成器,增加所述第二数字矩阵中的元素的数目,得到第三数字矩阵。
6.根据权利要求2所述的方法,其特征在于,所述基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像,包括:
对所述第三数字矩阵进行编码处理,得到预设分辨率的图像;
在所述待处理图像中,将所述预设分辨率的图像覆盖所述第一图像区域,得到目标图像。
7.一种模型生成装置,其特征在于,所述装置包括:
获取模块,用于获取显示有文本框的样本图像的数字矩阵;
确定模块,用于基于所述文本框在所述样本图像中所占图像区域的位置,确定所述样本图像的数字矩阵对应的概率矩阵,作为目标概率矩阵,其中,所述目标概率矩阵中与所述文本框所占图像区域的像素点对应的元素的数值为第一数值,所述目标概率矩阵中与除所述文本框所占图像区域外的其他图像区域的像素点,对应的元素的数值为第二数值;
训练模块,用于将所述样本图像的数字矩阵输入至初始语义分割网络模型,基于所述目标概率矩阵,对所述初始语义分割网络模型进行训练,得到训练好的语义分割网络模型;
所述初始语义分割网络模型包括卷积网络和反卷积网络;
所述训练模块,具体用于通过所述初始语义分割网络模型的卷积网络,对所述样本图像的数字矩阵进行下采样处理,得到所述样本图像的数字矩阵的特征矩阵;
通过所述初始语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述初始语义分割网络模型输出的所述样本图像的数字矩阵对应的概率矩阵,作为第一概率矩阵,其中,所述第一概率矩阵中的元素与所述样本图像的像素点属于所述文本框的概率一一对应;
计算表示所述第一概率矩阵与所述目标概率矩阵的差异性的损失函数值;
当所述损失函数值达到预设收敛条件时,将本次训练后得到的语义分割网络模型,作为训练好的语义分割网络模型。
8.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取显示有文本框的待处理图像的数字矩阵,作为第一数字矩阵,其中,所述第一数字矩阵中的元素与所述待处理图像的像素点的像素值一一对应;
提取模块,用于基于语义分割网络模型,从所述第一数字矩阵中提取所述文本框的最小外接矩形在所述待处理图像中所占图像区域对应的元素,得到第二数字矩阵,所述文本框的最小外接矩形在所述待处理图像中所占图像区域,作为第一图像区域,其中,所述语义分割网络模型为权利要求1所述的训练好的语义分割网络模型;
第一确定模块,用于将所述第二数字矩阵输入至预先训练的分辨率重建网络模型,得到所述分辨率重建网络模型输出的第三数字矩阵,其中,所述第三数字矩阵中的元素与所述第一图像区域对应的预设分辨率的图像的像素点的像素值一一对应,所述预设分辨率大于所述待处理图像的分辨率;
第二确定模块,用于基于所述第三数字矩阵,将所述待处理图像中的所述第一图像区域的分辨率提高至所述预设分辨率,得到目标图像。
9.根据权利要求8所述的装置,其特征在于,所述提取模块,具体用于将所述第一数字矩阵输入至所述语义分割网络模型,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵,其中,所述概率矩阵中的元素与所述待处理图像的像素点属于所述文本框的概率一一对应;
确定所述概率矩阵中大于预设阈值的元素在所述第一数字矩阵中对应的元素,作为所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素;
基于所述文本框在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,确定所述文本框的最小外接矩形在所述待处理图像中所占图像区域在所述第一数字矩阵中对应的元素,作为目标元素;
从所述第一数字矩阵中提取所述目标元素,得到第二数字矩阵。
10.根据权利要求9所述的装置,其特征在于,所述提取模块,具体用于通过所述语义分割网络模型的卷积网络,对所述第一数字矩阵进行下采样处理,得到所述第一数字矩阵的特征矩阵;
通过所述语义分割网络模型的反卷积网络,对所述特征矩阵进行上采样处理,得到所述语义分割网络模型输出的所述第一数字矩阵对应的概率矩阵。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1,或者,权利要求2-6任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1,或者,权利要求2-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415726.0A CN111145202B (zh) | 2019-12-31 | 2019-12-31 | 模型生成方法、图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415726.0A CN111145202B (zh) | 2019-12-31 | 2019-12-31 | 模型生成方法、图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111145202A CN111145202A (zh) | 2020-05-12 |
CN111145202B true CN111145202B (zh) | 2024-03-08 |
Family
ID=70522707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911415726.0A Active CN111145202B (zh) | 2019-12-31 | 2019-12-31 | 模型生成方法、图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111145202B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053416B (zh) * | 2020-09-14 | 2023-10-24 | 网易(杭州)网络有限公司 | 图像处理方法、装置、存储介质及计算机设备 |
CN111967545B (zh) * | 2020-10-26 | 2021-02-26 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN116740360B (zh) * | 2023-08-10 | 2024-06-18 | 荣耀终端有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678728A (zh) * | 2016-01-19 | 2016-06-15 | 西安电子科技大学 | 分区域管理的高效超分辨率成像装置及方法 |
CN107622271A (zh) * | 2016-07-15 | 2018-01-23 | 科大讯飞股份有限公司 | 手写文本行提取方法及系统 |
CN110136062A (zh) * | 2019-05-10 | 2019-08-16 | 武汉大学 | 一种联合语义分割的超分辨率重建方法 |
CN110288530A (zh) * | 2019-06-28 | 2019-09-27 | 北京金山云网络技术有限公司 | 一种对图像进行超分辨率重建的处理方法及装置 |
CN110298790A (zh) * | 2019-06-28 | 2019-10-01 | 北京金山云网络技术有限公司 | 一种对图像进行超分辨率重建的处理方法及装置 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110428366A (zh) * | 2019-07-26 | 2019-11-08 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN110490802A (zh) * | 2019-08-06 | 2019-11-22 | 北京观微科技有限公司 | 一种基于超分辨率的卫星影像飞机目标型号识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11593552B2 (en) * | 2018-03-21 | 2023-02-28 | Adobe Inc. | Performing semantic segmentation of form images using deep learning |
-
2019
- 2019-12-31 CN CN201911415726.0A patent/CN111145202B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678728A (zh) * | 2016-01-19 | 2016-06-15 | 西安电子科技大学 | 分区域管理的高效超分辨率成像装置及方法 |
CN107622271A (zh) * | 2016-07-15 | 2018-01-23 | 科大讯飞股份有限公司 | 手写文本行提取方法及系统 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110136062A (zh) * | 2019-05-10 | 2019-08-16 | 武汉大学 | 一种联合语义分割的超分辨率重建方法 |
CN110288530A (zh) * | 2019-06-28 | 2019-09-27 | 北京金山云网络技术有限公司 | 一种对图像进行超分辨率重建的处理方法及装置 |
CN110298790A (zh) * | 2019-06-28 | 2019-10-01 | 北京金山云网络技术有限公司 | 一种对图像进行超分辨率重建的处理方法及装置 |
CN110428366A (zh) * | 2019-07-26 | 2019-11-08 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN110490802A (zh) * | 2019-08-06 | 2019-11-22 | 北京观微科技有限公司 | 一种基于超分辨率的卫星影像飞机目标型号识别方法 |
Non-Patent Citations (3)
Title |
---|
residual conv-deconv grid network for semantic segmentation;Damien Fourure等;《arXiv:1707.07958》;全文 * |
图像语义分割深度学习模型综述;张新明等;《高技术通讯》(Z1);全文 * |
基于深度学习的图像语义分割算法概述;华敏杰;;《中国战略新兴产业》(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111145202A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145202B (zh) | 模型生成方法、图像处理方法、装置、设备及存储介质 | |
CN109829506B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
CN110889824A (zh) | 一种样本生成方法、装置、电子设备及计算机可读存储介质 | |
CN110544214A (zh) | 一种图像修复方法、装置及电子设备 | |
CN114187317B (zh) | 图像抠图的方法、装置、电子设备以及存储介质 | |
US20220189083A1 (en) | Training method for character generation model, character generation method, apparatus, and medium | |
CN111340820B (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN111741329B (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN110597965A (zh) | 文章的情感极性分析方法、装置、电子设备及存储介质 | |
CN115240203A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
CN108596120B (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN112669204B (zh) | 图像处理方法、图像处理模型的训练方法和装置 | |
CN111859210A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN117671254A (zh) | 一种图像分割方法及装置 | |
CN111079624B (zh) | 一种样本信息采集的方法、装置、电子设备以及介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN111753836A (zh) | 文字识别方法、装置、计算机可读介质及电子设备 | |
CN111612714B (zh) | 图像修复方法、装置和电子设备 | |
CN114328916A (zh) | 事件抽取、及其模型的训练方法,及其装置、设备和介质 | |
CN110929767B (zh) | 一种字形处理方法、系统、设备和介质 | |
CN114399497A (zh) | 文本图像质量检测方法、装置、计算机设备及存储介质 | |
CN114861904A (zh) | 图像训练数据的生成方法、装置、终端设备及存储介质 | |
CN109657523B (zh) | 一种可行驶区域检测方法和装置 | |
CN106384111B (zh) | 图片检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |