CN112749599A - 图像增强方法、装置和服务器 - Google Patents

图像增强方法、装置和服务器 Download PDF

Info

Publication number
CN112749599A
CN112749599A CN201911057130.8A CN201911057130A CN112749599A CN 112749599 A CN112749599 A CN 112749599A CN 201911057130 A CN201911057130 A CN 201911057130A CN 112749599 A CN112749599 A CN 112749599A
Authority
CN
China
Prior art keywords
text
video frame
video frames
current
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911057130.8A
Other languages
English (en)
Inventor
陈熊
成超
熊宝玉
张海斌
鲁方波
汪贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911057130.8A priority Critical patent/CN112749599A/zh
Publication of CN112749599A publication Critical patent/CN112749599A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像增强方法、装置和服务器,其中,该方法首先获取待处理视频;然后对待处理视频中的多个视频帧进行文本检测,得到检测结果;根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理;其中,第一预设算法与文本区域相匹配。本发明采用不同的算法对视频帧中的文本区域和非文本区域进行不同程度的图像增强,避免文本区域被过度增强,有利于提高视频图像的整体视觉效果。

Description

图像增强方法、装置和服务器
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种图像增强方法、装置和服务器。
背景技术
相关技术中的图像增强方法,通常对图像的所有区域进行同一程度的增强;相对于图像背景而言,图像中的文本的边缘梯度变化更加剧烈,因而,这种对图像所有区域进行同一程度的增强方式,易导致文本区域的边缘过于锐化,影响图像的整体视觉效果。
发明内容
本发明的目的在于提供一种图像增强方法、装置和服务器,以提高视频图像的整体视觉效果。
第一方面,本发明实施例提供了一种图像增强方法,该方法包括:获取待处理视频;该待处理视频包括多个视频帧;对多个视频帧进行文本检测,得到检测结果;根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理;其中,第一预设算法与文本区域相匹配。
在本发明较佳的实施例中,上述对多个视频帧进行文本检测,得到检测结果的步骤,包括:针对多个视频帧中的每个视频帧,对当前视频帧进行文本区域分割处理,得到视频帧中文本区域的多个候选区域;其中,多个候选区域的尺度为多种;对多个候选区域进行形态学处理,得到视频帧的检测结果。
在本发明较佳的实施例中,上述对当前视频帧进行文本区域分割处理的步骤,包括:将当前视频帧输入至预先训练完成的文本区域分割模型,得到当前视频帧中文本区域的多个候选区域;其中,该文本区域分割模型通过下述方式训练得到:基于预设的训练集合确定目标训练图像;其中,目标训练图像携带有多种尺度的文本区域标识;将目标训练图像输入至初始网络模型中,输出目标训练图像的像素特征数据;该像素特征数据中包含有目标训练图像中每个像素的特征值;基于像素特征数据与文本区域标识,计算模型损失值;根据模型损失值调整初始网络模型中的网络参数,继续执行基于预设的训练集合确定目标训练图像的步骤,直至模型损失值满足预设的指定值或者输入至初始网络模型的目标训练图像的数量满足预设数量,得到文本区域分割模型。
在本发明较佳的实施例中,上述文本区域标识包括:目标训练图像中文本区域对应的掩膜;其中,最大尺度的掩膜的尺度与目标训练图像中文本区域的尺度相同;除最大尺度的掩膜以外的掩膜的尺度,通过对上一尺度的掩膜的尺度按照预设的百分比缩小得到。
在本发明较佳的实施例中,上述多个候选区域中,同一尺度的候选区域标识在同一掩膜中;对多个候选区域进行形态学处理的步骤,包括:从多个候选区域中提取最小尺度的候选区域对应的掩膜;从最小尺度的候选区域对应的掩膜中确定连通域;采用预设的模板,对连通域进行形态学膨胀操作;根据膨胀后的连通域,确定视频帧的检测结果。
在本发明较佳的实施例中,上述根据膨胀后的连通域,确定视频帧的检测结果的步骤,包括:将最小尺度的上一尺度确定为当前尺度;其中,不同尺度候选区域对应的掩膜,按照候选区域的尺度从大到小的顺序排列;将膨胀后的连通域与当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果;继续对膨胀后的连通域进行形态学膨胀操作,直至运算结果收敛;将当前尺度的上一尺度确定为新的当前尺度,继续执行将膨胀后的连通域与当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果的步骤,直至当前尺度为最大尺度,且运算结果收敛;根据最后一次膨胀后的连通域,确定视频帧的检测结果。
在本发明较佳的实施例中,上述检测结果通过文本框标识,该文本框用于标识视频帧内的包含有文本的图像区域;对多个视频帧进行文本检测,得到检测结果的步骤之后,该方法还包括:计算检测结果中,每个文本框内图像区域的像素数量,得到计算结果;根据计算结果,筛选文本框,将筛选结果作为最终的检测结果。
在本发明较佳的实施例中,上述根据计算结果,筛选文本框,将筛选结果作为最终的检测结果的步骤,包括:针对每个文本框,判断当前文本框内图像区域的像素数量是否小于预设的数量阈值;如果小于数量阈值,删除当前文本框;将剩余的文本框作为最终的检测结果。
在本发明较佳的实施例中,上述将剩余的文本框作为最终的检测结果的步骤之后,该方法还包括:按照预设的百分比,对剩余的文本框的尺度进行扩展;将扩展后的文本框作为最终的检测结果。
在本发明较佳的实施例中,上述检测结果通过文本框标识,该文本框用于标识视频帧内的包含有文本的图像区域;根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域的步骤,包括:将多个视频帧中的第一个视频帧作为当前视频帧,计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值;根据计算得到的IOU值,确定当前视频帧的下一个视频帧的文本区域;
将当前视频帧的下一个视频帧作为新的当前视频帧,继续执行计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值的步骤,直至确定多个视频帧中的最后一个视频帧的文本区域。
在本发明较佳的实施例中,上述根据计算得到的IOU值,确定当前视频帧的下一个视频帧的文本区域的步骤,包括:判断当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值,是否大于或者等于预设的重叠阈值;如果大于或者等于重叠阈值,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域;如果小于重叠阈值,判断当前视频帧的检测结果中是否包含文本框,根据判断结果确定当前视频帧的下一个视频帧的文本区域。
在本发明较佳的实施例中,上述根据判断结果确定当前视频帧的下一个视频帧的文本区域的步骤,包括:如果当前视频帧的检测结果中包含文本框,根据当前视频帧中的文本框预测下一个视频帧中的文本框位置,将预测结果作为下一个视频帧的文本区域;如果当前视频帧的检测结果中不包含文本框,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域。
在本发明较佳的实施例中,上述采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理的步骤之前,所述方法还包括:调节第二预设算法中的算法参数,以使算法参数与文本区域相匹配;其中,该算法参数包括滤波参数和/或锐化参数;将参数调节后的第二预设算法确定为第一预设算法。
第二方面,本发明实施例提供了一种图像增强装置,该装置包括;视频获取模块,用于获取待处理视频;该待处理视频包括多个视频帧;文本检测模块,用于对多个视频帧进行文本检测,得到检测结果;文本确定模块,用于根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;图像增强模块,用于采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除所述文本区域以外的区域进行图像增强处理;其中,该第一预设算法与文本区域相匹配。
第三方面,本发明实施例提供了一种服务器,包括处理器和存储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执行机器可执行指令以实现上述图像增强方法。
第四方面,本发明实施例提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述图像增强方法。
本发明实施例带来了以下有益效果:
本发明提供了一种图像增强方法、装置和服务器,首先获取待处理视频;再对待处理视频中的多个视频帧进行文本检测,得到检测结果;然后根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;最后采用与文本区域相匹配的第一预设算法对多个视频帧中的文本区域进行图像增强处理,采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。本发明采用不同的算法对视频帧中的文本区域和非文本区域进行不同程度的图像增强,避免文本区域被过度增强,有利于提高视频图像的整体视觉效果。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像增强方法的流程图;
图2为本发明实施例提供的另一种图像增强方法的流程图;
图3为本发明实施例提供的另一种图像增强方法的流程图;
图4为本发明实施例提供的目标训练图像中多种尺度的掩膜的示意图;
图5为本发明实施例提供的一种文本区域分割模型的结构示意图;
图6为本发明实施例提供的形态学膨胀操作的处理流程的示意图;
图7为本发明实施例提供的另一种图像增强方法的流程图;
图8为本发明实施例提供的另一种图像增强方法的流程图;
图9为本发明实施例提供的一种图像增强装置的结构示意图;
图10为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着智能高清技术的发展,基于图像分析的视频处理技术在实际的视频处理任务中应用越来越广泛。例如,在秀场直播任务场景中,对视频中的主播人物进行分析、对视频中的文本区域进行分析等,均有利于对视频进行压缩、画质提升和画质修复等处理。相关技术中的图像增强通常采用全局图像增强方法,也即对图像的所有区域进行同一程度的增强;但图像中的文本相较于图像背景而言通常边缘梯度变化更加剧烈,全局图像增强方法可以使背景区域达到很好的增强效果,但易导致文本区域边缘的过度锐化,影响图像的整体视觉效果。
基于此,本发明实施例提供一种图像增强方法、装置和服务器,该技术可以应用于各种场景下的图像增强,尤其是可以应用于网络直播、有限电视直播、游戏、视频等复杂场景下的图像增强。为便于对本实施例进行理解,首先对本发明实施例所公开的一种图像增强方法进行详细介绍,如图1所示,该方法包括如下步骤:
步骤S102,获取待处理视频;该待处理视频包括多个视频帧。
该待处理视频可以是视频文件,也可以是直播视频等。该待处理视频中通常包括多个视频帧,该视频帧中通常包括人物、背景和CG(Computer generated,计算机生成)文本等;其中,CG文本通常是由电脑生成的文本,可以应用于图像或视频后期处理中,例如,在后期处理中给视频加入字幕或弹幕,该字幕和弹幕可以称为CG文本,该CG文本所处的图像区域可称为文本区域。
步骤S104,对上述多个视频帧进行文本检测,得到检测结果。
在具体实现时,通常针对每个视频帧,可以通过图像分割算法、用于识别文本的神经网络模型等对视频帧中的特定区域进行分割,该特定区域可以是人物区域、背景区域或者文本区域等;根据图像的分割结果可以得到视频帧文本区域的检测结果。该检测结果可以标识在视频帧上,例如通过标识框标识视频帧中包含有文本的图像区域,该标识框可以是矩形框、多边形框或者椭圆形框等。
步骤S106,根据上述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域。
在实际实现时,上述检测结果中可能有误检测,例如,将非文本区域检测为文本区域;为了更加准确地识别视频帧中的文本区域,需要对上述检测结果进行一步处理,即通过相邻视频帧之间的检测结果的重叠程度,对文本区域进行进一步的确定。
通常,由于视频帧具有连续性,相邻的视频帧之间的检测结果通常差别不大,也可以理解为两个相邻视频帧的检测结果中的文本标识应该重叠,或者重叠面积较大。因而,在具体实现时,可以通过计算多个视频帧中每两个相邻视频帧的检测结果的文本标识的重叠面积,得到视频帧的文本区域,例如,计算两个相邻视频帧的检测结果中的文本标识的重叠面积,如果重叠面积小于预设值,则判定相邻视频帧中在后的视频帧中的文本标识检测有误,此时,一般会针对相邻视频帧中在前视频帧的文本标识预测在后视频帧的文本标识位置,并将预测的文本标识的位置标注在在后视频帧中,以确定在后视频帧的文本区域;如果重叠面积大于或者等于预设值,将保留在后视频帧的检测结果。
步骤S108,采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理;其中,上述第一预设算法与文本区域相匹配。
上述第一预设算法和第二预设算法可以为图像滤波算法、图像锐化算法、图像色彩增强算法等,以对视频帧进行图像增强处理;其中一种方式中,该第一预设算法可以与第二预设算法的图像增强原理不同,如第一预设算法为图像滤波算法,第二预设算法为图像锐化算法;另一种方式中,第一预设算法也可以与第二预设算法的图像增强原理相同,如均为图像滤波算法,但是算法参数或者算法模型不同,从而可以保证第一预设算法与文本区域本身的特性相匹配。
在具体实现时,由于文本区域本身边缘梯度变化较强,相对于第二预设算法,第一预设算法的算法参数或者算法模型中的锐化程度设置得较小,滤波程度通常设置得较大。例如,在秀场直播视频中,可以采用低噪声模型对视频帧的非文本区域进行滤波处理,采用中噪声模型对视频的文本区域进行处理。
本发明提供了一种图像增强方法,首先获取待处理视频;再对待处理视频中的多个视频帧进行文本检测,得到检测结果;然后根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;最后采用与文本区域相匹配的第一预设算法对多个视频帧中的文本区域进行图像增强处理,采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。本发明采用不同的算法对视频帧中的文本区域和非文本区域进行不同程度的图像增强,避免文本区域被过度增强,有利于提高视频图像的整体视觉效果。
本发明实施例还提供另一种图像增强方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述对多个视频帧进行文本检测的具体过程(具体详见步骤S204至步骤S206);,如图2所示,该图像增强方法包括如下步骤:
步骤S202,获取待处理视频;该待处理视频包括多个视频帧。
步骤S204,针对上述多个视频帧中的每个视频帧,对当前视频帧进行文本区域分割处理,得到视频帧中文本区域的多个候选区域;其中,多个候选区域的尺度为多种。
在对当前视频帧进行文本区域分割处理时,可以为视频帧中的每个像素分配一个标签,并针对该标签对每个像素进行分类,最后可根据文本区域像素的特征,得到视频帧中文本区域的分割结果,将该分割结果再进行多级分割即可得到文本区域对应的多个候选区域。
上述候选区域的尺度有多种,包括最大尺度的候选区域和多个小尺度的候选区域。其中,小尺度的候选区域可以通过大尺度的候选区域进行一定比例缩小得到,也可以是预设的固定尺寸;最大尺度的候选区域可能包括一行或者多行文本,小尺度的候选区域中可能仅包含一行文本的部分区域,因此,大尺度的候选区域通常可以得到文本区域的轮廓,但是无法将密集的文本分开,而小尺度的候选区域可以将密集的文本分开,但无法得到文本区域的轮廓,从而需要结合不同尺度的候选区域得到较准确的文本区域。
步骤S206,对上述多个候选区域进行形态学处理,得到视频帧的检测结果。
该形态学也可以称为数学形态学,该形态学可以从图像或者视频帧中提取对于表达和描绘区域形状有意义的图像分量,使后续的图像识别和图像检测工作能够抓住目标对象最为本质或最具区分能力的形状特征,该形状特征可以是某一区域的边界或连通区域等。针对不同尺度的候选区域进行形态学处理,可得到在最大尺度的候选区域约束下的文本区域,得到的文本区域通常包括每行文本的分割结果,或者每行文本的最小外接矩形等。
步骤S208,根据上述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域。
步骤S210,采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理;其中,第一预设算法与文本区域相匹配。
上述图像增强方法,针对获取到的视频中的多个视频帧中的每个视频帧进行文本区域分割处理,得到视频帧中文本区域的多个候选区域;再对多个候选区域进行形态学处理,得到视频帧的检测结果;然后根据多个视频帧中相邻视频帧之间的检测结果的重叠程度确定多个视频帧的文本区域;最后采用第一预设算法对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。该方式通过形态学对文本区域分割处理后得到的候选区域进行处理,可以快速检测出视频帧中的文本区域,提高了文本区域检测的效率,同时针对文本区域和非文本区域进行单独进行图像增强,提升了视频中图像的视觉效果。
本发明实施例还提供另一种图像增强方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述通过文本区域分割模型对视频帧进行文本区域分割的具体过程(详见步骤S304),以及对多个候选区域进行对形态学处理的具体过程(详见步骤S306至步骤S312);如图3所示,该图像增强方法包括如下步骤:
步骤S302,获取待处理视频;该待处理视频包括多个视频帧。
步骤S304,针对上述多个视频帧中的每个视频帧,将当前视频帧输入至预先训练完成的文本区域分割模型,得到当前视频帧中文本区域的多个候选区域。
上述文本区域分割模型可以为神经网络、其他人工智能网络或模型,具体可以通过下述步骤01-04训练得到:
步骤01,基于预设的训练集合确定目标训练图像;其中,该目标训练图像携带有多种尺度的文本区域标识。
该预设的训练集合中通常包括多张图像(例如,3000张、10000张甚至更多张),也可以包含各种场景下的图像,例如,直播场景图像、游戏场景图像、户外场景图像、室内场景图像等;训练集合中的图像也可以包含多种颜色、字号、形状、字体、语言组成的文本行,以使训练出的模型能够分割各类文本行。
训练集合中的每张图像都包含有人工标注的文本区域,从该预设的训练集合中确定的目标训练图像中均携带有多种尺度的文本区域标识,该文本区域标识可以是文本区域的矩形边框或者其他与文本相匹配的边框。
上述文本区域标识可以为标注在图像上的矩形框,也可以为目标训练图像中文本区域对应的掩膜;该掩膜通常是对图像中的选定区域进行全部或者局部的遮挡,以控制图像处理的区域;其中该掩膜遮挡的区域通常为目标训练图像中矩形边框或者其他与文本相匹配的边框内的区域。其中,目标训练图像中文本区域对应有多个尺度的掩膜,其中,最大尺度的掩膜的尺度与目标训练图像中文本区域的尺度相同;除最大尺度的掩膜以外的掩膜的尺度,通过对上一尺度的掩膜的尺度按照预设的百分比缩小得到。
在具体实现时,可以将目标训练图像F中的文本区域填充为1,其他区域填充为0,以形成最大尺度的掩膜Sn,如图4所示,然后将最大尺度的掩膜Sn对应的文本区域按照预设的百分比(例如,10%)进行缩小,得到下一尺度的掩膜Sn-1,再对下一尺度的掩膜Sn-1对应的文本区域按照预设的百分比进行缩小,得到该下一尺度的下一尺度的掩膜Sn-2,按照预设比例继续缩小,直到得到最小尺度的掩膜S1,该最小尺度的掩膜的尺度通常是根据需求设定的,也即是当掩膜缩小到最小尺度时,将停止缩小。
步骤02,将目标训练图像输入至初始网络模型中,输出目标训练图像的像素特征数据;该像素特征数据中包含有目标训练图像中每个像素的特征值。
该初始网络模型通常为卷积神经网络模型或其他类型的神经网络,其中的卷积神经网络通常是一个专门针对图像识别问题设计的神经网络,它模仿人类识别图像的多层过程,如瞳孔摄入像素、大脑皮层某些细胞初步处理(如,发现形状边缘、方向)、抽象判定形状(如圆形、方形)、进一步抽象判定(如判断物体是气球)。在将目标训练图像输入至初始网络模型之前,可以将目标训练模型调整为预设尺寸的RGB(Red Green Blue,红绿蓝)图像。例如,将目标训练图像调整为标准的320*320的RGB图像。
步骤03,基于上述像素特征数据与文本区域标识,计算模型损失值。
根据像素特征数据和每种尺度的文本区域标识,可计算得到相应尺度的损失值,对每种尺度的损失值进行加权求和,可得到模型损失值。由于文本区域在图像中只占很小的比例,在计算模型损失值时,只需要选取与文本区域很相似的非文本区域,来检测模型输出性能即可。
步骤04,根据上述模型损失值调整初始网络模型中的网络参数,继续执行基于预设的训练集合确定目标训练图像的步骤,直至模型损失值满足预设的指定值或者输入至初始网络模型的目标训练图像的数量满足预设数量,得到文本区域分割模型。
图5示出了一种文本区域分割模型的结构示意图;将目标训练图像输入至卷积神经网络,可以输出像素特征数据,根据该像素特征数据可以得到模型损失值,该像素特征数据通过sigmoid函数可得到目标训练图像的像素得分图,该像素特征数据通过sign函数可得到目标训练图像的多个候选区域。当模型损失值大于预设的指定值,或者输入初始网络模型中的目标训练图像的数量小于预设数量(相当于网络模型的训练没有满足迭代次数),将继续向初始网络模型中输入目标训练图像,并输出模型损失值。
步骤S306,从上述多个候选区域中提取最小尺度的候选区域对应的掩膜;其中,多个候选区域中,同一尺度的候选区域标识在同一掩膜中。
上述多个候选区域包含多种尺度,候选区域的尺度与掩膜的尺度相同,也可以理解为同一尺度的候选区域标识在同一掩膜中,例如,针对某一尺度的候选区域,将该尺度的候选区域中的区域标识为1,候选区域以外的区域标注为0,即可得到该尺度下的掩膜。
步骤S308,从上述最小尺度的候选区域对应的掩膜中确定连通域;该连通域通常为候选区域对应的掩膜中,横向连通的掩膜区域,其中,一个连通域通常对应视频帧中的一个文本行。
最小尺度的候选区域对应的掩膜可能包括一个或者多个连通域,如图3所示,最小尺度的候选区域对应的掩膜相当于S1,图4中S1有四个连通域。
步骤S310,采用预设的模板,对上述连通域进行形态学膨胀操作。
上述预设的模板通常为常规的形态学模板,在具体实现时,可根据结构元素建立图像矩阵,再从图像矩阵中确定结构元素的原点,即可得到形态学模板,其中,形态学模板可以为多种形状,例如,正方形、长方形或者其他不规则形状;如图6中由四个像素组成的矩阵即为形态学模板,该形态学模板为正方形。
针对最小尺度的候选区域对应的每个连通域都进行形态学膨胀操作,该形态学膨胀操作的处理过程如图6所示,首先获取具有文本区域标识的连通域对应的视频帧,其中,连通域内的文本区域填充为1,连通区域以外的区域填充为0;然后利用形态学模板在具有文本区域标识的连通域对应的视频帧(相当于图中的原始图像)中从左到右,从上到下依次滑动,以使形态学模板可以遍历视频帧中的每个像素,当形态学模板滑到的视频帧中的像素与形态学模板中的像素对应位置的填充数字相乘再相加大于或者等于1,将滑到的图像中的像素中与形态学模型中原点像素相应的位置填充为1,使图像中填充为1的像素周围也填充为1,以得到膨胀后的连通域。
图6中的左上角的第一个图像为没有进行形态学膨胀操作的原始图像,右下角的图像为形态学膨胀操作完成后的图像。由图6可知,膨胀后的图像相对于原始图像,填充为1的文本区域的面积有所扩大,也即是膨胀后的图像相当于将原始图像中填充为1的像素,周边的部分像素也填充为了1。
步骤S312,根据膨胀后的连通域,确定视频帧的检测结果。
将每个最小尺度的连通域进行膨胀操作后,得到的每个膨胀后的连通域均对应视频帧中一个文本行,将得到的膨胀后的连通域进行组合,即可得到视频帧的文本区域。那么根据膨胀后的连通域,确定待处理图像的文本区域的步骤可通过下述步骤10-14实现:
步骤10,将所述最小尺度的上一尺度确定为当前尺度;其中,不同尺度候选区域对应的掩膜,按照候选区域的尺度从大到小的顺序排列,从而得到了尺度从大到小排序的掩膜。
步骤11,将膨胀后的连通域与当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果;像素值通常为该位置的像素的填充值,通常为1或者0。在具体实现时,将膨胀后的连通域对应的视频帧中的像素值与当前尺度的掩膜对应的视频帧中相应位置的像素值进行位运算(例如,相与),得到运算结果。
步骤12,继续对膨胀后的连通域进行形态学膨胀操作,直至运算结果收敛;如果本次得到的运算结果与上次得到的运算结果不同,则将继续对膨胀后的连通域进行形态学膨胀操作,直到运算结果收敛,也可以理解为本次得到的运算结果与上次得到的运算结果相同。
步骤13,将当前尺度的上一尺度确定为新的当前尺度,继续执行上述步骤11,直至当前尺度为最大尺度,且运算结果收敛。
例如,将最小尺度的上一尺度的上一尺度确定为当前尺度,将膨胀后的连通域与当前尺度的掩膜中对应位置的像素值进行位运算;根据本次得到的位运算结果与上次得到的位运算结果,判断是否继续对膨胀后的连通域进行膨胀操作;如果不再继续膨胀,将当前尺度的上一尺度确定为新的当前尺度与膨胀后的连通域进行位运算,直到最大尺度确定为当前尺度。
步骤14,根据最后一次膨胀后的连通域,确定视频帧的检测结果。
针对最小尺度的候选区域对应的每个连通域都执行上述步骤10-14,得到最后一次膨胀后的连通域。为了确定最后一次膨胀后的连通域是否为文本区域,需要从预先训练完成的文本区域分割模型输出的待处理图像的像素特征数据中,提取最后一次膨胀操作得到的连通域对应的像素特征值;计算提取出的像素特征值的平均值;如果平均值大于预设平均值阈值,确定最后一次膨胀操作得到的连通域为最终的检测结果。
步骤S314,根据上述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域。
步骤S316,采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理。
上述图像增强方法,首先获取待处理视频的多个视频帧;针对多个视频帧中的每个视频帧,将当前视频帧输入至预先训练完成的文本区域分割模型,得到当前视频帧中文本区域的多个候选区域;再从多个候选区域中提取最小尺度的候选区域对应的掩膜;从上述最小尺度的候选区域对应的掩膜中确定连通域,并对连通域进行形态学膨胀操作;然后根据膨胀后的连通域确定视频帧的检测结果,并根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;最后采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理。该方式可以快速地得到视频帧文本的检测结果,同时,采用不同的算法对视频中的文本区域和非文本区域进行图像增强,可以提升图像的视觉效果。
本发还明实施例还提供了另一种图像增强方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述针对视频帧的检测结果进一步处理的过程(详见步骤S706至步骤S708);如图7所示,该图像增强方法包括如下步骤:
步骤S702,获取待处理视频;该待处理视频包括多个视频帧。
步骤S704,对上述多个视频帧进行文本检测,得到检测结果;该检测结果通过文本框标识,该文本框用于标识视频帧内的包含有文本的图像区域。
每个视频帧的检测结果中通常包括一个或者多个文本框,该文本框可以有多种形状,例如矩形、正方形、椭圆形或者不规则形状等。该文本框内的区域通常为包含文本的图像区域,但是在文本检测的过程中可能将某些背景区域误判为文本区域,并将该背景区域采用文本框标识,因此需要进一步判定文本框内的区域是否包含文本。
步骤S706,计算上述检测结果中,每个文本框内图像区域的像素数量,得到计算结果。
考虑到检测结果中可能包含有误检测的结果,文本框内的图像区域可能是文本区域也可能是背景区域。通常,视频帧中文本区域内的文本需要具有一定的可读性,因而文本区域的面积通常不会太小,文本区域内的像素数量通常会较多。基于此,如果文本框内的像素数量较小,可以判定该文本框内的图片区域不是文本区域。在具体实现时,可以通过将文本框内图像区域的横向像素点与纵向像素点的乘积,得到像素数量,并根据该像素数量判定该图像区域是否为文本区域。
步骤S708,根据上述计算结果,筛选文本框,将筛选结果作为最终的检测结果。
通常情况下,可以根据计算结果中文本框内的像素数量是否满足预设条件,判断是否删除该文本框,以得到最终的检测结果,还可以根据文本框的长度、宽度,确定最终的检测结果。例如,如果文本框宽度小于预设的宽度阈值、或者文本框长度小于预设的长度阈值,即可删除该文本框。其中一种实现方式中,具体可以通过下述步骤20-21得到最终的检测结果:
步骤20,针对每个文本框,判断当前文本框内图像区域的像素数量是否小于预设的数量阈值;如果小于数量阈值,删除当前文本框。该数量阈值通常为经验值(例如,20)。
步骤21,将剩余的上述文本框作为最终的检测结果。
例如,上述数量阈值可以为20,将文本框内图像区域的像素数量小于20的文本框删除;将像素数量大于或者等于20的文本框保留,以作为最终的检测结果。
进一步地,在对文本框进行了筛选之后,为了保证检测结果中的文本框与真实文本区域不相割,还可以按照预设的百分比,对剩余的文本框的尺度进行扩展;将扩展后的本框作为最终的检测结果。例如,可以将剩余文本框的尺度向外扩展5%,以得到最终的检测结果。
步骤S710,根据上述多个视频帧中相邻视频帧之间最终的检测结果的重叠程度,确定多个视频帧的文本区域。
步骤S712,采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理。
上述图像增强方法,对待处理视频中的多个视频帧进行文本检测得到检测结果,该检测结果通过文本框标识;再计算检测结果中每个文本框内图像区域的像素数量,并根据像素数量筛选文本框以确定最终的检测结果,然后根据多个视频帧中相邻视频帧之间最终的检测结果的重叠程度确定多个视频帧的文本区域,最后采用第一预设算法对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。该方式可以得到较准确的视频帧检测结果,有利于后续确定视频帧中的文本区域。
本发还明实施例还提供了另一种图像增强方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述针对视频帧的检测结果进行筛选的具体过程(详见步骤S806至步骤S814),以及对文本区域和非文本区域进行图像增强的方式(详见步骤S816至步骤S818);如图8所示,该图像增强方法包括如下步骤:
步骤S802,获取待处理视频;该待处理视频包括多个视频帧。
步骤S804,对上述多个视频帧进行文本检测,得到检测结果;该检测结果通过文本框标识,该文本框用于标识所述视频帧内的包含有文本的图像区域。
步骤S806,将上述多个视频帧中的第一个视频帧作为当前视频帧。
步骤S808,计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU(Intersection over Union,交并比)值。
该IOU通常是一种在特定数据集中检测相应物体准确定的标准,IOU值可以测量两个数据之间的相关度(也可以理解为重叠度),相关度越高,该值越高。该IOU值的计算公式可以为
Figure BDA0002255700260000191
其中,A表示当前视频帧的文本框,B表示下一视频帧的文本边框,SA∩B表示A与B相交的面积,SA∪B表示A与B并集的面积。
在具体实现时,当前视频帧的检测结果通常包括一个或者多个文本框。当当前视频帧包括多个文本框时,可将当前视频帧的第一个文本框确定为当前文本框,计算当前文本框与下一个视频帧中对应位置的文本框的IOU值,然后将视频帧中的第二个文本框为确定为当前文本框,继续执行计算IOU的步骤,直到当前文本框为当前视频的最后一个文本框,最终得到当前视频帧与下一个视频帧之间所有文本框对应的IOU值。
步骤S810,根据计算得到的IOU值,确定当前视频帧的下一个视频帧的文本区域。
计算当前视频帧与下一个视频帧之间所有的文本框对应的IOU值,如果IOU值大于或者等于指定阈值,将该下一个视频帧中文本框内的区域判定为文本区域;如果小于指定阈值,将通过当前视频帧中的文本框预测下一个视频帧中与该文本框对应的文本框的位置,并将预测结果中文本框内的区域判定为文本区域。具体地,可以通过步骤30-32确定当前视频帧的下一个视频帧的文本区域:
步骤30,判断当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值,是否大于或者等于预设的重叠阈值;如果大于或者等于重叠阈值,执行步骤31;如果小于重叠阈值,执行步骤32。该重叠阈值可以设置为经验值,也可以根据检测需求设置,例如,重叠阈值设置为0.5。
步骤31,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域。
当IOU值大于或者等于预设的重叠阈值时,可以确定当前视频帧的下一个视频帧的文本框的位置是正确的,保留该文本框,并将该文本框内的图片区域确定为文本区域。
步骤32,判断当前视频帧的检测结果中是否包含文本框,根据判断结果确定当前视频帧的下一个视频帧的文本区域。
当IOU值小于重叠阈值时,通常存在三种可能的情况:一是当前视频帧中包含文本框,下一个视频帧中不存在文本框;二是当前视频帧中包含文本框,下一视频帧中未检测出文本框(也可称为漏检);三是当前视频帧中不存在文本框,下一个视频帧中存在文本框。基于以上三种情况,可通过下述方式一或二确定当前视频帧的下一个视频帧的文本区域:
方式一:如果当前视频帧的检测结果中包含文本框,根据当前视频帧中的文本框预测下一个视频帧中的文本框位置,将预测结果作为下一个视频帧的文本区域。
在具体实现时,可以采用跟踪算法预测下一个视频帧中的文本框位置。跟踪算法将根据当前文本框预测其在下一个视频帧中的位置,如果是第一种情况,跟踪算法得不到预测结果,也可以理解为预测出下一视频帧中没有文本框;如果是第二种情况,跟踪算法有预测结果,可以预测出下一个视频帧中文本框的位置,并将该文本框内的图片区域作为下一个视频帧的文本区域。
方式二:如果当前视频帧的检测结果中不包含文本框,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域。也可以理解为针对第三种情况,不对下一个视频帧中的边框做任何处理。
步骤S812,判断当前视频帧是否为多个视频帧中的最后一个视频帧;如果是,执行步骤S816;如果不是,执行步骤S814。
步骤S814,将当前视频帧的下一个视频帧作为新的当前视频帧,继续执行步骤S808。
例如,将多个视频帧中的第二个视频帧确定为当前视频帧,计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值,并根据IOU值确定下一个视频帧的文本区域,然后在将第三个视频帧确定为当前视频帧,直到最后一个视频帧确定为当前尺度,从而可以得到多个视频帧的文本区域。
步骤S816,调节第二预设算法中的算法参数,以使该算法参数与文本区域相匹配;其中,该算法参数包括滤波参数和/或锐化参数。
该第二预设算法中的算法参数可以包括仅包括滤波参数或者锐化参数中的一种,也可以同时包括滤波参数和锐化参数。通常情况下,通过滤波参数可对图像进行滤波,也即是在保留图像细节特征的前提下对目标图像的噪声进行抑制,该滤波处理的效果也会影响到后续图像处理和分析的有效性和可靠性。通过锐化参数可对图像进行锐化处理,也即是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰。图像锐化处理也是为了突出图像上地物的边缘、轮廓,或某些线性目标要素的特征。
步骤S818,将参数调节后的第二预设算法确定为第一预设算法。
步骤S820,采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理。
该方式中第一预设算法与第二预设算法只是算法参数不同,但是图像增强的原理相同,从而可以对文本区域和非文区域进行不同程度的滤波或者锐化处理,以增强图像的主观效果。同时,由于图像中文本边缘与背景交界处的梯度大(梯度大通常是指高频信息),当对文本区域单独进行滤波时,可以适当降低该梯度,以降低图像中的高频信息,有利于图像的传输和存储。
上述图像增强方法,首先对待处理视频中的多个视频帧进行文本检测,得到检测结果;再将根据相邻视频帧之间的文本框的IOU值,确定视频帧的文本区域,然后调节第二预设算法中的算法参数以使算法参数与文本区域相匹配,并将参数调节后的第二预设算法确定为第一预设算法,最后采用第一预设算法对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。该方式可以视频中的文本区域和非文本区域进行不同程度增强,以提升用户的主观感受。
对应于上述方法实施例,本发明实施例提供了一种图像增强装置,如图9所示,该装置包括:
视频获取模块90,用于获取待处理视频;该待处理视频包括多个视频帧;
文本检测模块91,用于对上述多个视频帧进行文本检测,得到检测结果;
文本确定模块92,用于根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;
图像增强模块93,用于采用第一预设算法,对多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对多个视频帧中除文本区域以外的区域进行图像增强处理;其中,第一预设算法与文本区域相匹配。
上述图像增强装置,首先获取待处理视频;再对待处理视频中的多个视频帧进行文本检测,得到检测结果;然后根据多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定多个视频帧的文本区域;最后采用与文本区域相匹配的第一预设算法对多个视频帧中的文本区域进行图像增强处理,采用第二预设算法对多个视频帧中除文本区域以外的区域进行图像增强处理。该方式采用不同的算法对视频帧中的文本区域和非文本区域进行不同程度的图像增强,避免文本区域被过度增强,有利于提高视频图像的整体视觉效果。
进一步地,上述文本检测模块91,用于:针对多个视频帧中的每个视频帧,对当前视频帧进行文本区域分割处理,得到视频帧中文本区域的多个候选区域;其中,多个候选区域的尺度为多种;对多个候选区域进行形态学处理,得到视频帧的检测结果。
进一步地,上述文本检测模块91,还用于:将当前视频帧输入至预先训练完成的文本区域分割模型,得到当前视频帧中文本区域的多个候选区域;其中,文本区域分割模型通过下述方式训练得到:基于预设的训练集合确定目标训练图像;其中,目标训练图像携带有多种尺度的文本区域标识;将目标训练图像输入至初始网络模型中,输出目标训练图像的像素特征数据;该像素特征数据中包含有目标训练图像中每个像素的特征值;基于像素特征数据与文本区域标识,计算模型损失值;根据模型损失值调整初始网络模型中的网络参数,继续执行基于预设的训练集合确定目标训练图像的步骤,直至模型损失值满足预设的指定值或者输入至初始网络模型的目标训练图像的数量满足预设数量,得到文本区域分割模型。
上述文本区域标识包括:目标训练图像中文本区域对应的掩膜;其中,最大尺度的掩膜的尺度与目标训练图像中文本区域的尺度相同;除最大尺度的掩膜以外的掩膜的尺度,通过对上一尺度的掩膜的尺度按照预设的百分比缩小得到。
进一步地,上述多个候选区域中,同一尺度的候选区域标识在同一掩膜中;上述文本检测模块91,还用于:从多个候选区域中提取最小尺度的候选区域对应的掩膜;从最小尺度的候选区域对应的掩膜中确定连通域;采用预设的模板,对连通域进行形态学膨胀操作;根据膨胀后的连通域,确定视频帧的检测结果。
进一步地,上述文本检测模块91,还用于:将最小尺度的上一尺度确定为当前尺度;其中,不同尺度候选区域对应的掩膜,按照候选区域的尺度从大到小的顺序排列;将膨胀后的连通域与当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果;继续对膨胀后的连通域进行形态学膨胀操作,直至运算结果收敛;将当前尺度的上一尺度确定为新的当前尺度,继续执行将膨胀后的连通域与当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果的步骤,直至当前尺度为最大尺度,且运算结果收敛;根据最后一次膨胀后的连通域,确定视频帧的检测结果。
上述检测结果通过文本框标识,该文本框用于标识视频帧内的包含有文本的图像区域;上述文本检测模块91之后,所述装置还包括文本处理模块,用于:计算检测结果中,每个文本框内图像区域的像素数量,得到计算结果;根据计算结果,筛选文本框,将筛选结果作为最终的检测结果。
进一步地,上述文本处理模块,还用于:针对每个文本框,判断当前文本框内图像区域的像素数量是否小于预设的数量阈值;如果小于数量阈值,删除当前文本框;将剩余的文本框作为最终的检测结果。
进一步地,上述文本处理模块,还用于:按照预设的百分比,对剩余的文本框的尺度进行扩展;将扩展后的文本框作为最终的检测结果。
进一步地,上述检测结果通过文本框标识,该文本框用于标识视频帧内的包含有文本的图像区域;上述文本确定模块92,用于:将多个视频帧中的第一个视频帧作为当前视频帧,计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值;根据计算得到的IOU值,确定当前视频帧的下一个视频帧的文本区域;将当前视频帧的下一个视频帧作为新的当前视频帧,继续执行计算当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值的步骤,直至确定多个视频帧中的最后一个视频帧的文本区域。
进一步地,上述文本确定模块92,还用于:判断当前视频帧与当前视频帧的下一个视频帧之间的文本框的IOU值,是否大于或者等于预设的重叠阈值;如果大于或者等于重叠阈值,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域;如果小于重叠阈值,判断当前视频帧的检测结果中是否包含文本框,根据判断结果确定当前视频帧的下一个视频帧的文本区域。
进一步地,上述文本确定模块92,还用于:如果当前视频帧的检测结果中包含文本框,根据当前视频帧中的文本框预测下一个视频帧中的文本框位置,将预测结果作为下一个视频帧的文本区域;如果当前视频帧的检测结果中不包含文本框,将下一个视频帧的文本框对应的图像区域作为下一个视频帧的文本区域。
进一步地,所述装置还包括,参数调节模块,用于:调节第二预设算法中的算法参数,以使算法参数与文本区域相匹配;将参数调节后的第二预设算法确定为第一预设算法;该算法参数包括滤波参数和/或锐化参数。
本发明实施例所提供的图像增强装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种服务器,用于运行图像增强装置方法;参见图10所示,该服务器包括处理器101和存储器100,该存储器100存储有能够被处理器101执行的机器可执行指令,该处理器101执行机器可执行指令以实现上述图像增强方法。
进一步地,图10所示的服务器还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述图像增强方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的图像增强方法、装置和服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种图像增强方法,其特征在于,所述方法包括:
获取待处理视频;所述待处理视频包括多个视频帧;
对所述多个视频帧进行文本检测,得到检测结果;
根据所述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定所述多个视频帧的文本区域;
采用第一预设算法,对所述多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对所述多个视频帧中除所述文本区域以外的区域进行图像增强处理;其中,所述第一预设算法与所述文本区域相匹配。
2.根据权利要求1所述的方法,其特征在于,对所述多个视频帧进行文本检测,得到检测结果的步骤,包括:
针对所述多个视频帧中的每个视频帧,对当前视频帧进行文本区域分割处理,得到所述视频帧中文本区域的多个候选区域;其中,所述多个候选区域的尺度为多种;
对所述多个候选区域进行形态学处理,得到所述视频帧的检测结果。
3.根据权利要求2所述的方法,其特征在于,对当前视频帧进行文本区域分割处理的步骤,包括:将所述当前视频帧输入至预先训练完成的文本区域分割模型,得到所述当前视频帧中文本区域的多个候选区域;
其中,所述文本区域分割模型通过下述方式训练得到:
基于预设的训练集合确定目标训练图像;其中,所述目标训练图像携带有多种尺度的文本区域标识;
将所述目标训练图像输入至初始网络模型中,输出所述目标训练图像的像素特征数据;所述像素特征数据中包含有所述目标训练图像中每个像素的特征值;
基于所述像素特征数据与所述文本区域标识,计算模型损失值;
根据所述模型损失值调整所述初始网络模型中的网络参数,继续执行基于预设的训练集合确定目标训练图像的步骤,直至所述模型损失值满足预设的指定值或者输入至所述初始网络模型的目标训练图像的数量满足预设数量,得到文本区域分割模型。
4.根据权利要求3所述的方法,其特征在于,所述文本区域标识包括:所述目标训练图像中文本区域对应的掩膜;
其中,最大尺度的掩膜的尺度与所述目标训练图像中文本区域的尺度相同;除所述最大尺度的掩膜以外的掩膜的尺度,通过对上一尺度的掩膜的尺度按照预设的百分比缩小得到。
5.根据权利要求2所述的方法,其特征在于,所述多个候选区域中,同一尺度的候选区域标识在同一掩膜中;
对所述多个候选区域进行形态学处理的步骤,包括:
从所述多个候选区域中提取最小尺度的候选区域对应的掩膜;
从所述最小尺度的候选区域对应的掩膜中确定连通域;
采用预设的模板,对所述连通域进行形态学膨胀操作;
根据膨胀后的所述连通域,确定所述视频帧的检测结果。
6.根据权利要求5所述的方法,其特征在于,根据膨胀后的所述连通域,确定所述视频帧的检测结果的步骤,包括:
将所述最小尺度的上一尺度确定为当前尺度;其中,不同尺度候选区域对应的掩膜,按照候选区域的尺度从大到小的顺序排列;
将膨胀后的所述连通域与所述当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果;
继续对膨胀后的所述连通域进行形态学膨胀操作,直至所述运算结果收敛;
将所述当前尺度的上一尺度确定为新的当前尺度,继续执行将膨胀后的所述连通域与所述当前尺度的掩膜中,对应像素的像素值进行位运算,得到运算结果的步骤,直至当前尺度为最大尺度,且所述运算结果收敛;
根据最后一次膨胀后的所述连通域,确定所述视频帧的检测结果。
7.根据权利要求1所述的方法,其特征在于,所述检测结果通过文本框标识,所述文本框用于标识所述视频帧内的包含有文本的图像区域;
所述对所述多个视频帧进行文本检测,得到检测结果的步骤之后,所述方法还包括:
计算所述检测结果中,每个所述文本框内图像区域的像素数量,得到计算结果;
根据所述计算结果,筛选所述文本框,将筛选结果作为最终的检测结果。
8.根据权利要求7所述的方法,其特征在于,根据所述计算结果,筛选所述文本框,将筛选结果作为最终的检测结果的步骤,包括:
针对每个所述文本框,判断当前文本框内图像区域的像素数量是否小于预设的数量阈值;如果小于所述数量阈值,删除所述当前文本框;
将剩余的所述文本框作为最终的检测结果。
9.根据权利要求8所述的方法,其特征在于,将剩余的所述文本框作为最终的检测结果的步骤之后,所述方法还包括:
按照预设的百分比,对剩余的所述文本框的尺度进行扩展;
将扩展后的所述文本框作为最终的检测结果。
10.根据权利要求1所述的方法,其特征在于,所述检测结果通过文本框标识,所述文本框用于标识所述视频帧内的包含有文本的图像区域;
根据所述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定所述多个视频帧的文本区域的步骤,包括:
将所述多个视频帧中的第一个视频帧作为当前视频帧,计算所述当前视频帧与所述当前视频帧的下一个视频帧之间的文本框的IOU值;
根据计算得到的所述IOU值,确定所述当前视频帧的下一个视频帧的文本区域;
将所述当前视频帧的下一个视频帧作为新的当前视频帧,继续执行计算所述当前视频帧与所述当前视频帧的下一个视频帧之间的文本框的IOU值的步骤,直至确定所述多个视频帧中的最后一个视频帧的文本区域。
11.根据权利要求10所述的方法,其特征在于,根据计算得到的所述IOU值,确定所述当前视频帧的下一个视频帧的文本区域的步骤,包括:
判断所述当前视频帧与所述当前视频帧的下一个视频帧之间的文本框的IOU值,是否大于或者等于预设的重叠阈值;
如果大于或者等于所述重叠阈值,将所述下一个视频帧的文本框对应的图像区域作为所述下一个视频帧的文本区域;
如果小于所述重叠阈值,判断所述当前视频帧的检测结果中是否包含文本框,根据判断结果确定所述当前视频帧的下一个视频帧的文本区域。
12.根据权利要求11所述的方法,其特征在于,根据判断结果确定所述当前视频帧的下一个视频帧的文本区域的步骤,包括:
如果所述当前视频帧的检测结果中包含文本框,根据所述当前视频帧中的文本框预测所述下一个视频帧中的文本框位置,将预测结果作为所述下一个视频帧的文本区域;
如果所述当前视频帧的检测结果中不包含文本框,将所述下一个视频帧的文本框对应的图像区域作为所述下一个视频帧的文本区域。
13.根据权利要求1所述的方法,其特征在于,采用第一预设算法,对所述多个视频帧中的文本区域进行图像增强处理的步骤之前,所述方法还包括:
调节所述第二预设算法中的算法参数,以使所述算法参数与所述文本区域相匹配;其中,所述算法参数包括滤波参数和/或锐化参数;
将参数调节后的所述第二预设算法确定为所述第一预设算法。
14.一种图像增强装置,其特征在于,所述装置包括;
视频获取模块,用于获取待处理视频;所述待处理视频包括多个视频帧;
文本检测模块,用于对所述多个视频帧进行文本检测,得到检测结果;
文本确定模块,用于根据所述多个视频帧中相邻视频帧之间的检测结果的重叠程度,确定所述多个视频帧的文本区域;
图像增强模块,用于采用第一预设算法,对所述多个视频帧中的文本区域进行图像增强处理;采用第二预设算法,对所述多个视频帧中除所述文本区域以外的区域进行图像增强处理;其中,所述第一预设算法与所述文本区域相匹配。
15.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至13任一项所述的图像增强方法。
16.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使处理器实现权利要求1至13任一项所述的图像增强方法。
CN201911057130.8A 2019-10-31 2019-10-31 图像增强方法、装置和服务器 Pending CN112749599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911057130.8A CN112749599A (zh) 2019-10-31 2019-10-31 图像增强方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911057130.8A CN112749599A (zh) 2019-10-31 2019-10-31 图像增强方法、装置和服务器

Publications (1)

Publication Number Publication Date
CN112749599A true CN112749599A (zh) 2021-05-04

Family

ID=75644897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911057130.8A Pending CN112749599A (zh) 2019-10-31 2019-10-31 图像增强方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN112749599A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188293A (zh) * 2022-12-21 2023-05-30 北京海天瑞声科技股份有限公司 图像处理方法、装置、设备、介质及程序产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299239A (zh) * 2008-06-06 2008-11-05 北京中星微电子有限公司 文字区域图像的获取方法及装置、文字识别系统
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN103425973A (zh) * 2012-05-25 2013-12-04 夏普株式会社 对含有文本的图像进行增强处理的方法、装置和视频显示设备
CN104966066A (zh) * 2015-06-26 2015-10-07 武汉大学 一种面向交通卡口监控的车内人脸检测方法及系统
CN105160300A (zh) * 2015-08-05 2015-12-16 山东科技大学 一种基于水平集分割的文本抽取方法
US20160224833A1 (en) * 2015-02-04 2016-08-04 Alibaba Group Holding Limited Method and apparatus for target acquisition
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN107545210A (zh) * 2016-06-27 2018-01-05 北京新岸线网络技术有限公司 一种视频文本提取的方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别系统及识别方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110111370A (zh) * 2019-05-15 2019-08-09 重庆大学 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110378297A (zh) * 2019-07-23 2019-10-25 河北师范大学 一种基于深度学习的遥感图像目标检测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
CN101299239A (zh) * 2008-06-06 2008-11-05 北京中星微电子有限公司 文字区域图像的获取方法及装置、文字识别系统
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN103425973A (zh) * 2012-05-25 2013-12-04 夏普株式会社 对含有文本的图像进行增强处理的方法、装置和视频显示设备
US20160224833A1 (en) * 2015-02-04 2016-08-04 Alibaba Group Holding Limited Method and apparatus for target acquisition
CN104966066A (zh) * 2015-06-26 2015-10-07 武汉大学 一种面向交通卡口监控的车内人脸检测方法及系统
CN105160300A (zh) * 2015-08-05 2015-12-16 山东科技大学 一种基于水平集分割的文本抽取方法
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN107545210A (zh) * 2016-06-27 2018-01-05 北京新岸线网络技术有限公司 一种视频文本提取的方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别系统及识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110111370A (zh) * 2019-05-15 2019-08-09 重庆大学 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法
CN110378297A (zh) * 2019-07-23 2019-10-25 河北师范大学 一种基于深度学习的遥感图像目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的苏南乡村建筑物提取及年代分类研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, vol. 2019, no. 9, 15 September 2019 (2019-09-15), pages 008 - 136 *
WENHAI WANG ET AL: "Shape Robust Text Detection with Progressive Scale Expansion Network", 《ARXIV:1903.12473V2》, 31 July 2019 (2019-07-31), pages 1 - 13 *
王振: "数字视频中文本的提取方法研究", 《中国博士学位论文全文数据库信息科技辑》, vol. 2012, no. 2, 15 February 2012 (2012-02-15), pages 1 *
薛宏伟等: "彩色图像中文本内容的选择性增强算法研究", 《计算机与数字工程》, no. 4, 30 April 2009 (2009-04-30), pages 124 - 126 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188293A (zh) * 2022-12-21 2023-05-30 北京海天瑞声科技股份有限公司 图像处理方法、装置、设备、介质及程序产品
CN116188293B (zh) * 2022-12-21 2023-08-29 北京海天瑞声科技股份有限公司 图像处理方法、装置、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
JP6719457B2 (ja) 画像の主要被写体を抽出する方法とシステム
US10896349B2 (en) Text detection method and apparatus, and storage medium
JP6330385B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN111680690B (zh) 一种文字识别方法及装置
CN111368758A (zh) 一种人脸模糊度检测方法、装置、计算机设备及存储介质
US10699751B1 (en) Method, system and device for fitting target object in video frame
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
CN109508716B (zh) 一种图像文字的定位方法及装置
CN113743378B (zh) 一种基于视频的火情监测方法和装置
CN112101323B (zh) 标题列表的识别方法、系统、电子设备及存储介质
CN112749599A (zh) 图像增强方法、装置和服务器
CN112001336A (zh) 行人越界报警方法、装置、设备及系统
CN113012030A (zh) 图像拼接方法、装置及设备
CN112749704A (zh) 文本区域的检测方法、装置和服务器
CN114648751A (zh) 一种处理视频字幕的方法、装置、终端及存储介质
CN112580452A (zh) 故障树的处理方法、装置、计算机可读存储介质以及处理器
CN111476800A (zh) 一种基于形态学操作的文字区域检测方法及装置
CN113591829B (zh) 字符识别方法、装置、设备及存储介质
CN112464928B (zh) 数字式表计读数识别方法、装置、设备及存储介质
CN111723804B (zh) 图文分离装置、图文分离方法及计算机可读取记录介质
Yang et al. A skeleton based binarization approach for video text recognition
CN117994529A (zh) 基于深度学习的图像解析方法、装置及计算机存储介质
CN115035572A (zh) 人脸识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination