CN110944237A - 一种字幕区域定位方法、装置和电子设备 - Google Patents

一种字幕区域定位方法、装置和电子设备 Download PDF

Info

Publication number
CN110944237A
CN110944237A CN201911276554.3A CN201911276554A CN110944237A CN 110944237 A CN110944237 A CN 110944237A CN 201911276554 A CN201911276554 A CN 201911276554A CN 110944237 A CN110944237 A CN 110944237A
Authority
CN
China
Prior art keywords
calculation
image
subtitle
edge
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911276554.3A
Other languages
English (en)
Other versions
CN110944237B (zh
Inventor
钟波
肖适
王鑫
宁仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jimi Technology Co Ltd
Original Assignee
Chengdu Jimi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jimi Technology Co Ltd filed Critical Chengdu Jimi Technology Co Ltd
Priority to CN201911276554.3A priority Critical patent/CN110944237B/zh
Publication of CN110944237A publication Critical patent/CN110944237A/zh
Application granted granted Critical
Publication of CN110944237B publication Critical patent/CN110944237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请提供一种字幕区域定位方法,包括:获取初始字幕图像,并生成与初始字幕图像对应的灰度图,初始字幕图像是当前视频帧图像中包括字幕区域的图像;对灰度图依次进行第一计算、第二计算、第三计算得到目标区域;根据目标区域确定字幕区域;其中,第一计算、第二计算、第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。可见,本申请通过结合边缘梯度计算、像素宽度提取计算、亮度计算的方式得到字幕区域,其中,将多种特征进行融合,对区域进行多次的限定,以便定位的字幕区域更加准确、字幕区域提取效率更高。本申请同时还提供了一种字幕区域定位装置、一种电子设备,均具有上述有益效果。

Description

一种字幕区域定位方法、装置和电子设备
技术领域
本申请涉及字幕区域定位技术领域,特别涉及一种字幕区域定位方法、字幕区域定位装置、电子设备。
背景技术
相关技术中针对字幕区域进行定位的方式采用的是利用文字边缘梯度值的方式,计算投影原图的边缘信息,定位到边缘梯度一致的区域,由于文字区域的边缘梯度是一致的,因此定位得到字幕区域,但是,该方法定位得到的字幕区域精准度低。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种字幕区域定位方法、字幕区域定位装置、电子设备,能够提高字幕区域定位精度。其具体方案如下:
本申请提供一种字幕区域定位方法,包括:
获取初始字幕图像,并生成与所述初始字幕图像对应的灰度图,所述初始字幕图像是当前视频帧图像中包括字幕区域的图像;
对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域;
根据所述目标区域确定所述字幕区域;
其中,所述第一计算、所述第二计算、所述第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
可选的,当所述第一计算为所述边缘梯度计算,所述第二计算为所述像素宽度提取计算,所述第三计算为所述亮度计算时,所述对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域,包括:
对所述灰度图进行所述边缘梯度计算,得到边缘强度图,并根据所述边缘强度图进行所述像素宽度提取计算,得到像素宽度图像;
判断所述像素宽度图像中的边缘像素点的像素点值是否满足预设范围;
若满足所述预设范围,则确定所述边缘像素点为目标像素点,对所述目标像素点进行所述亮度计算,提取出亮度一致的目标区域。
可选的,所述对所述灰度图进行所述边缘梯度计算,得到边缘强度图,包括:
对所述灰度图利用边缘算法进行计算,得到初始边缘强度图;
将所述初始边缘强度图进行二值化处理,并将所述初始边缘强度图中梯度值小于预设阈值的像素点的梯度值设置为零,得到所述边缘强度图。
可选的,所述根据所述边缘强度图进行像素宽度提取,得到像素宽度图像,包括:
根据所述边缘强度图计算非零梯度值的目标边缘像素点沿梯度方向至另一边缘的非零梯度值的边缘像素点的长度;
将所述长度确定为像素宽度,并将所述梯度方向的所有像素点的宽度设置为所述像素宽度,得到所述像素宽度图像。
可选的,所述获取初始字幕图像,包括:
获取视频帧图像,并将所述视频帧图像按照预设比例进行缩放,得到当前视频帧图像;
将所述当前视频帧图像的预设区域对应的图像确定为所述初始字幕图像。
可选的,当所述第一计算为所述边缘梯度计算,所述第二计算为所述亮度计算,所述第三计算为所述像素宽度提取计算时,所述对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域,包括:
对所述灰度图进行所述边缘梯度计算,得到边缘强度图;
判断所述边缘强度图中的边缘像素点的像素点值是否满足预设范围;
若满足所述预设范围,则确定所述边缘像素点为目标像素点,对所述目标像素点进行所述亮度计算,提取出亮度一致的亮度区域,得到亮度图;
根据所述亮度图进行所述像素宽度提取计算,得到目标区域。
可选的,所述将所述当前视频帧图像的预设区域对应的图像确定为所述初始字幕图像,包括:
获取连续多帧视频帧图像的字幕区域,并确定对应的水平中心位置;
根据所述水平中心位置确定所述预设区域,将所述预设区域对应的图像确定为所述初始字幕图像。
可选的,所述根据所述目标区域确定所述字幕区域,包括:
计算所述目标区域的几何结构信息;
若所述目标区域的所述几何结构信息是矩形,则确定所述目标区域为所述字幕区域。
本申请提供一种字幕区域定位装置,包括:
灰度图生成模块,用于获取初始字幕图像,并生成与所述初始字幕图像对应的灰度图,所述初始字幕图像是当前视频帧图像中包括字幕区域的图像;
目标区域计算模块,用于对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域;
字幕区域确定模块,用于根据所述目标区域确定所述字幕区域;
其中,所述第一计算、所述第二计算、所述第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
本申请提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述字幕区域定位方法的步骤。
本申请提供一种字幕区域定位方法,包括:获取初始字幕图像,并生成与初始字幕图像对应的灰度图,初始字幕图像是当前视频帧图像中包括字幕区域的图像;对灰度图依次进行第一计算、第二计算、第三计算得到目标区域;根据目标区域确定字幕区域;其中,第一计算、第二计算、第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
可见,本申请通过结合边缘梯度计算、像素宽度提取计算、亮度计算的方式得到字幕区域,其中,将多种特征进行融合,对区域进行多次的限定,以便定位的字幕区域更加准确、字幕区域提取效率更高。本申请同时还提供了一种字幕区域定位装置、一种电子设备,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种字幕区域定位方法的流程图;
图2为本申请实施例提供的一种目标区域计算的流程图;
图3为本申请实施例所提供的另一种字幕区域定位方法的流程图;
图4为本申请实施例所提供的获取初始字幕图像的流程图;
图5为本申请实施例提供的一种字幕区域定位的图像变化示意图;
图6为本申请实施例所提供的一种字幕区域定位装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中针对字幕区域进行定位的方式采用的是利用文字边缘梯度值的方式,计算投影原图的边缘信息,定位到边缘梯度一致的区域,由于文字区域的边缘梯度是一致的,因此定位得到字幕区域,但是,该方法定位得到的字幕区域精准度低。基于上述技术问题,本实施例提供一种字幕区域定位方法,具体请参考图1,图1为本申请实施例所提供的一种字幕区域定位方法的流程图,具体包括:
S110、获取初始字幕图像,并生成与初始字幕图像对应的灰度图。
初始字幕图像是当前视频帧图像中包括字幕区域的图像。
其中,初始字幕图像是当前视频帧图像中的一个区域的图像,初始字幕图像是首先进行简单定位得到的初始字幕图像,可以理解的是,将定位范围算小,能够提高字幕区域定位计算的效率。将初始字幕图像转换成灰度图。
S120、对灰度图依次进行第一计算、第二计算、第三计算得到目标区域。
其中,第一计算、第二计算、第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
步骤S120可以包括:对灰度图依次进行边缘梯度计算、亮度计算、像素宽度提取计算得到目标区域;或,对灰度图依次进行边缘梯度计算、像素宽度提取计算、亮度计算得到目标区域;或,对灰度图依次进行亮度计算、边缘梯度计算、像素宽度提取计算得到目标区域;或,对灰度图依次进行亮度计算、像素宽度提取计算、边缘梯度计算;或,对灰度图依次进行像素宽度提取计算、亮度计算、边缘梯度计算;或,对灰度图依次进行像素宽度提取计算、边缘梯度计算、亮度计算。
S130、根据目标区域确定字幕区域。
基于上述技术方案,本实施例通过结合边缘梯度计算、像素宽度提取计算、亮度计算的方式得到字幕区域,其中,将多种特征进行融合,对区域进行多次的限定,以便定位的字幕区域更加准确、字幕区域提取效率更高。
在一种可实现的实施方式中,请参考图2,图2为本申请实施例提供的一种目标区域计算的流程图,包括:
S121、对灰度图进行边缘梯度计算,得到边缘强度图,并根据边缘强度图进行像素宽度提取计算,得到像素宽度图像。
本实施例中,第一计算为边缘梯度计算,第二计算为像素宽度提取计算,第三计算为亮度计算。对灰度图进行边缘梯度计算后,得到每一个像素点的边缘梯度值和梯度方向,将每一个边缘梯度小于预设阈值的像素点的边缘梯度设置为零。可以理解的是,边缘梯度值为零即为非字母幕区域的像素点对应的梯度值。边缘强度图中每一个像素点包括边缘梯度值、梯度方向。根据边缘强度图进行像素宽度提取,得到像素宽度图像。
其中,对灰度图进行边缘梯度计算,得到边缘强度图,具体可以包括:对灰度图利用边缘算法进行计算,得到初始边缘强度图;将初始边缘强度图进行二值化处理,并将初始边缘强度图中梯度值小于预设阈值的像素点的梯度值设置为零,得到边缘强度图。
其中,边缘算法可以是canny算法、Marr-Hildreth,或者是直接对图像平滑滤波,之后利用sobel算子计算图像梯度,进行阈值处理,得到边缘强度图。用户可自定义选择。可以理解的是,计算投影原图的边缘信息,利用边缘梯度计算定位到边缘梯度一致的区域,因为文字区域的边缘梯度都是一样,本实施例中利用边缘梯度计算将初始字幕图像进一步的限定,得到包括字母区域的边缘强度图。
其中,根据边缘强度图进行像素宽度提取,得到像素宽度图像,具体可以包括:根据边缘强度图计算非零梯度值的目标边缘像素点沿梯度方向至另一边缘的非零梯度值的边缘像素点的长度;将长度确定为像素宽度,并将梯度方向的所有像素点的宽度设置为像素宽度,得到像素宽度图像。
具体的,计算每个非零边缘像素沿梯度方向距离另一边缘的长度L,则在该梯度方向线段上的所有像素点的宽度都标记为L,没有参与到的像素点宽度都标记为0,通过以上计算得到一张代表每个像素的像素宽度图像。
每个像素都有一个宽度值,而在文字区域的像素的宽度都是一致的,所有字符的宽度是一致的,因此,像素宽度提取计算能够进一步的缩小区域范围。可以理解的是,像素宽度提取计算对于图像来说,图像范围越大,计算量越大,因此,在边缘梯度计算完成后,得到边缘强度图,根据边缘强度图利用像素宽度提取计算,在减轻运算压力的同时能够进一步缩小定位区域的范围。
S122、判断像素宽度图像中的边缘像素点的像素点值是否满足预设范围。
设置预设范围,可以是[L1,L2],其中,L1是第一预设阈值,L2为第二预设阈值,且L1<L2。
S123、若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的目标区域。
得到所有的目标像素点后,对的目标像素点进行亮度计算,得到亮度一致的多个目标像素点,并将某一区域的目标像素点的亮度一致,则将该区域确定为目标区域。其中,利用像素点的灰度值进行亮度计算。
由于字幕区域的颜色都是一致的,因此通过亮度计算能够直接得到亮度一致的目标区域。可以理解的是,边缘强度图的尺寸>像素宽度图像的尺寸>目标区域对应的图像的尺寸≥字幕区域对应的图像的尺寸。
基于上述技术方案,本实施例依次进行边缘梯度计算、像素宽度提取计算、亮度计算最终得到目标区域,在进行边缘梯度计算时在算小定位区域时再依据边缘强度图进行像素宽度提取计算,能够简化像素宽度计算压力,提升目标区域定位效率,再执行亮度计算,能够更加精准的得到目标区域。
基于上述实施例,为本实施例提供一种字幕区域定位方法,具体请参考图3,图3为本申请实施例所提供的另一种字幕区域定位方法的流程图,包括:
S210、获取初始字幕图像,并生成与初始字幕图像对应的灰度图。
初始字幕图像是当前视频帧图像中包括字幕区域的图像。
S220、对灰度图进行边缘梯度计算,得到边缘强度图,并根据边缘强度图进行像素宽度提取,得到像素宽度图像。
S230、判断像素宽度图像中的边缘像素点的像素点值是否满足预设范围。
S240、若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的目标区域。
S250、计算目标区域的几何结构信息。
S260、若目标区域的几何结构信息是矩形,则确定目标区域为字幕区域。
可以理解的是,一般的字幕区域为水平矩形,因此,通过进一步计算目标区域的几何结构信息筛选到符合矩形的区域,可以确定为字符区域即字幕区域。
基于上述技术方案,本实施例通过结合边缘梯度计算、像素宽度提取、亮度信息计算、几何结构信息计算将所有特征信息进行融合,最终定位到字幕区域,定位方式更加精确,得到的字幕区域更加准确。
针对初始字幕图像的获取,具体请参考图4,图4为本申请实施例所提供的获取初始字幕图像的流程图,包括:
S310、获取视频帧图像,并将视频帧图像按照预设比例进行缩放,得到当前视频帧图像。
S320、将当前视频帧图像的预设区域对应的图像确定为初始字幕图像。
先获取视频数据,把视频帧图像做缩放,调整至大小可完成实时性。具体的,可以是将视频帧图像按照预设比例进行缩放,本实施例中不对预设比例进行限定,当前视频帧图像与视频帧图像的大小比可以是0.9、0.95、0.8,或者其他数值。预设一个字幕所在区域即预设区域,将预设区域对应的图像作为初始字幕图像。预设区域设定在整张当前视频帧图像的下1/3区域或者下1/2区域或者下2/3区域,用户可自定义设置,只要是能够实现本实施例的目的即可。
进一步的,步骤S320可以包括:获取连续多帧视频帧图像的字幕区域,并确定对应的水平中心位置;根据水平中心位置确定预设区域,将预设区域对应的图像确定为初始字幕图像。
可以理解的是,视频在播放过程中,字幕是发生变化的,当首次执行完成字幕区域定位后,此时得到了第一次字幕区域,然后对连续的多帧视频帧图像进行字幕区域定位,通过多次迭代中,可以把字幕区域的预设区域缩小,得到的初始字幕图像的范围更加小,因此,减少了后续的计算速度。
在另外一种可实现的实施方式中,当第一计算为边缘梯度计算,第二计算为亮度计算,第三计算为像素宽度提取计算时,对灰度图依次进行第一计算、第二计算、第三计算得到目标区域,包括:对灰度图进行边缘梯度计算,得到边缘强度图;判断边缘强度图中的边缘像素点的像素点值是否满足预设范围;若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的亮度区域,得到亮度图;根据亮度图进行像素宽度提取计算,得到目标区域。
本申请提供一种具体的字幕区域定位方法,具体的字幕区域定位流程请参考图5,图5为本申请实施例提供的一种字幕区域定位的图像变化示意图。其中,具体的字幕区域定位方法,包括:
获取视频帧图像,并将视频帧图像按照预设比例进行缩放,得到当前视频帧图像;将当前视频帧图像的预设区域对应的图像确定为初始字幕图像,并生成与初始字幕图像对应的灰度图。此时得到了图5中的第2个图,减少了定位区域,因此极大地降低了计算复杂度。
对灰度图利用边缘算法进行计算,得到初始边缘强度图;此时得到了图5中的第3个图。
将初始边缘强度图进行二值化处理,并将初始边缘强度图中梯度值小于预设阈值的像素点的梯度值设置为零,得到边缘强度图。此时得到了图5中的第4个图。根据边缘强度图利用像素宽度提取计算,在减轻运算压力的同时能够进一步缩小定位区域的范围。
根据边缘强度图进行像素宽度提取计算,得到像素宽度图像,此时得到了图5中的第5个图。
判断像素宽度图像中的边缘像素点的像素点值是否满足预设范围;若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的目标区域,此时得到了图5中的第6个图。
计算目标区域的几何结构信息,若目标区域的几何结构信息是矩形,则确定目标区域为字幕区域此时得到了图5中的第7个图。此时,得到的字幕区域范围更小,定位更加准确。
下面对本申请实施例提供的一种字幕区域定位装置进行介绍,下文描述的字幕区域定位装置与上文描述的字幕区域定位方法可相互对应参照,参考图6,图6为本申请实施例所提供的一种字幕区域定位装置的结构示意图,包括:
灰度图生成模块410,用于获取初始字幕图像,并生成与初始字幕图像对应的灰度图,初始字幕图像是当前视频帧图像中包括字幕区域的图像;
目标区域计算模块420,用于对灰度图依次进行第一计算、第二计算、第三计算得到目标区域;
字幕区域确定模块430,用于根据目标区域确定字幕区域;
其中,第一计算、第二计算、第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
具体的,字幕区域定位装置主要设置在投影仪,该投影仪包括但是不限定于短焦投影仪或者长焦投影仪,其中,短焦投影仪可以是激光电视。
可选的,当第一计算为边缘梯度计算,第二计算为像素宽度提取计算,第三计算为亮度计算时,目标区域计算模块420,包括:
边缘梯度计算与像素宽度提取计算单元,用于对灰度图进行边缘梯度计算,得到边缘强度图,并根据边缘强度图进行像素宽度提取计算,得到像素宽度图像;
第一判断单元,用于判断像素宽度图像中的边缘像素点的像素点值是否满足预设范围;
亮度计算单元,用于若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的目标区域。
可选的,边缘梯度计算与像素宽度提取计算单元,包括:
初始边缘强度图获得子单元,用于对灰度图利用边缘算法进行计算,得到初始边缘强度图;
边缘强度图获得子单元,用于将初始边缘强度图进行二值化处理,并将初始边缘强度图中梯度值小于预设阈值的像素点的梯度值设置为零,得到边缘强度图。
可选的,边缘梯度计算与像素宽度提取计算单元,包括:
长度计算子单元,用于根据边缘强度图计算非零梯度值的目标边缘像素点沿梯度方向至另一边缘的非零梯度值的边缘像素点的长度;
像素宽度图像获得子单元,用于将长度确定为像素宽度,并将梯度方向的所有像素点的宽度设置为像素宽度,得到像素宽度图像。
可选的,灰度图生成模块410,包括:
当前视频帧图像获得单元,用于获取视频帧图像,并将视频帧图像按照预设比例进行缩放,得到当前视频帧图像;
初始字幕图像获得单元,用于将当前视频帧图像的预设区域对应的图像确定为初始字幕图像。
可选的,初始字幕图像获得单元,包括:
水平中心位置确定子单元,用于获取连续多帧视频帧图像的字幕区域,并确定对应的水平中心位置;
初始字幕图像获得子单元,用于根据水平中心位置确定预设区域,将预设区域对应的图像确定为初始字幕图像。
可选的,当第一计算为边缘梯度计算,第二计算为亮度计算,第三计算为像素宽度提取计算时,目标区域计算模块420,包括:
边缘强度图单元,用于对灰度图进行边缘梯度计算,得到边缘强度图;
第二判断单元,用于判断边缘强度图中的边缘像素点的像素点值是否满足预设范围;
亮度图获取单元,用于若满足预设范围,则确定边缘像素点为目标像素点,对目标像素点进行亮度计算,提取出亮度一致的亮度区域,得到亮度图;
目标区域确定单元,用于根据亮度图进行像素宽度提取计算,得到目标区域。
可选的,字幕区域确定模块430,包括:
几何结构信息计算单元,用于计算目标区域的几何结构信息;
字幕区域确定单元,用于若目标区域的几何结构信息是矩形,则确定目标区域为字幕区域。
由于字幕区域定位装置部分的实施例与字幕区域定位方法部分的实施例相互对应,因此字幕区域定位装置部分的实施例请参见字幕区域定位方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的电子设备与上文描述的字幕区域定位方法可相互对应参照。
本申请提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述字幕区域定位方法的步骤。
由于电子设备部分的实施例与字幕区域定位方法部分的实施例相互对应,因此电子设备部分的实施例请参见字幕区域定位方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的字幕区域定位方法可相互对应参照。
本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述字幕区域定位方法的步骤。
由于计算机可读存储介质部分的实施例与字幕区域定位方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见字幕区域定位方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种字幕区域定位方法、字幕区域定位装置、电子设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种字幕区域定位方法,其特征在于,包括:
获取初始字幕图像,并生成与所述初始字幕图像对应的灰度图,所述初始字幕图像是当前视频帧图像中包括字幕区域的图像;
对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域;
根据所述目标区域确定所述字幕区域;
其中,所述第一计算、所述第二计算、所述第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
2.根据权利要求1所述的字幕区域定位方法,其特征在于,当所述第一计算为所述边缘梯度计算,所述第二计算为所述像素宽度提取计算,所述第三计算为所述亮度计算时,所述对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域,包括:
对所述灰度图进行所述边缘梯度计算,得到边缘强度图,并根据所述边缘强度图进行所述像素宽度提取计算,得到像素宽度图像;
判断所述像素宽度图像中的边缘像素点的像素点值是否满足预设范围;
若满足所述预设范围,则确定所述边缘像素点为目标像素点,对所述目标像素点进行所述亮度计算,提取出亮度一致的目标区域。
3.根据权利要求2所述的字幕区域定位方法,其特征在于,所述对所述灰度图进行所述边缘梯度计算,得到边缘强度图,包括:
对所述灰度图利用边缘算法进行计算,得到初始边缘强度图;
将所述初始边缘强度图进行二值化处理,并将所述初始边缘强度图中梯度值小于预设阈值的像素点的梯度值设置为零,得到所述边缘强度图。
4.根据权利要求2所述的字幕区域定位方法,其特征在于,所述根据所述边缘强度图进行像素宽度提取,得到像素宽度图像,包括:
根据所述边缘强度图计算非零梯度值的目标边缘像素点沿梯度方向至另一边缘的非零梯度值的边缘像素点的长度;
将所述长度确定为像素宽度,并将所述梯度方向的所有像素点的宽度设置为所述像素宽度,得到所述像素宽度图像。
5.根据权利要求1所述的字幕区域定位方法,其特征在于,所述获取初始字幕图像,包括:
获取视频帧图像,并将所述视频帧图像按照预设比例进行缩放,得到当前视频帧图像;
将所述当前视频帧图像的预设区域对应的图像确定为所述初始字幕图像。
6.根据权利要求5所述的字幕区域定位方法,其特征在于,所述将所述当前视频帧图像的预设区域对应的图像确定为所述初始字幕图像,包括:
获取连续多帧视频帧图像的字幕区域,并确定对应的水平中心位置;
根据所述水平中心位置确定所述预设区域,将所述预设区域对应的图像确定为所述初始字幕图像。
7.根据权利要求1所述的字幕区域定位方法,其特征在于,当所述第一计算为所述边缘梯度计算,所述第二计算为所述亮度计算,所述第三计算为所述像素宽度提取计算时,所述对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域,包括:
对所述灰度图进行所述边缘梯度计算,得到边缘强度图;
判断所述边缘强度图中的边缘像素点的像素点值是否满足预设范围;
若满足所述预设范围,则确定所述边缘像素点为目标像素点,对所述目标像素点进行所述亮度计算,提取出亮度一致的亮度区域,得到亮度图;
根据所述亮度图进行所述像素宽度提取计算,得到目标区域。
8.根据权利要求1至7任一项所述的字幕区域定位方法,其特征在于,所述根据所述目标区域确定所述字幕区域,包括:
计算所述目标区域的几何结构信息;
若所述目标区域的所述几何结构信息是矩形,则确定所述目标区域为所述字幕区域。
9.一种字幕区域定位装置,其特征在于,包括:
灰度图生成模块,用于获取初始字幕图像,并生成与所述初始字幕图像对应的灰度图,所述初始字幕图像是当前视频帧图像中包括字幕区域的图像;
目标区域计算模块,用于对所述灰度图依次进行第一计算、第二计算、第三计算得到目标区域;
字幕区域确定模块,用于根据所述目标区域确定所述字幕区域;
其中,所述第一计算、所述第二计算、所述第三计算分别为边缘梯度计算、像素宽度提取计算、亮度计算中互异的一种。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述字幕区域定位方法的步骤。
CN201911276554.3A 2019-12-12 2019-12-12 一种字幕区域定位方法、装置和电子设备 Active CN110944237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911276554.3A CN110944237B (zh) 2019-12-12 2019-12-12 一种字幕区域定位方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911276554.3A CN110944237B (zh) 2019-12-12 2019-12-12 一种字幕区域定位方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110944237A true CN110944237A (zh) 2020-03-31
CN110944237B CN110944237B (zh) 2022-02-01

Family

ID=69910222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911276554.3A Active CN110944237B (zh) 2019-12-12 2019-12-12 一种字幕区域定位方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110944237B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860262A (zh) * 2020-07-10 2020-10-30 燕山大学 一种视频字幕提取方法及装置
CN112216640A (zh) * 2020-10-19 2021-01-12 惠州高视科技有限公司 一种半导体芯片定位方法和装置
CN114092925A (zh) * 2020-08-05 2022-02-25 武汉Tcl集团工业研究院有限公司 一种视频字幕检测方法、装置、终端设备及存储介质
CN114998887A (zh) * 2022-08-08 2022-09-02 山东精惠计量检测有限公司 一种电能计量表智能识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100328529A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Still subtitle detection apparatus, visual display equipment, and image processing method
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN105426846A (zh) * 2015-11-20 2016-03-23 江南大学 一种基于图割模型的场景图像中文本的定位方法
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107609546A (zh) * 2017-08-29 2018-01-19 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108108733A (zh) * 2017-12-19 2018-06-01 北京奇艺世纪科技有限公司 一种新闻字幕检测方法及装置
CN109359644A (zh) * 2018-08-28 2019-02-19 东软集团股份有限公司 文字图像一致性比对方法、装置、存储介质和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100328529A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Still subtitle detection apparatus, visual display equipment, and image processing method
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN105426846A (zh) * 2015-11-20 2016-03-23 江南大学 一种基于图割模型的场景图像中文本的定位方法
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107609546A (zh) * 2017-08-29 2018-01-19 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108108733A (zh) * 2017-12-19 2018-06-01 北京奇艺世纪科技有限公司 一种新闻字幕检测方法及装置
CN109359644A (zh) * 2018-08-28 2019-02-19 东软集团股份有限公司 文字图像一致性比对方法、装置、存储介质和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860262A (zh) * 2020-07-10 2020-10-30 燕山大学 一种视频字幕提取方法及装置
CN111860262B (zh) * 2020-07-10 2022-10-25 燕山大学 一种视频字幕提取方法及装置
CN114092925A (zh) * 2020-08-05 2022-02-25 武汉Tcl集团工业研究院有限公司 一种视频字幕检测方法、装置、终端设备及存储介质
CN112216640A (zh) * 2020-10-19 2021-01-12 惠州高视科技有限公司 一种半导体芯片定位方法和装置
CN114998887A (zh) * 2022-08-08 2022-09-02 山东精惠计量检测有限公司 一种电能计量表智能识别方法
CN114998887B (zh) * 2022-08-08 2022-10-11 山东精惠计量检测有限公司 一种电能计量表智能识别方法

Also Published As

Publication number Publication date
CN110944237B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN110944237B (zh) 一种字幕区域定位方法、装置和电子设备
EP3496383A1 (en) Image processing method, apparatus and device
RU2721188C2 (ru) Улучшение контраста и снижение шума на изображениях, полученных с камер
CN108230333B (zh) 图像处理方法、装置、计算机程序、存储介质和电子设备
JP6115214B2 (ja) パターン処理装置、パターン処理方法、パターン処理プログラム
CN110827249A (zh) 电子设备背板外观瑕疵检测方法及设备
CN111062331B (zh) 图像的马赛克检测方法、装置、电子设备及存储介质
CN106919883B (zh) 一种qr码的定位方法及装置
CN113592776A (zh) 图像处理方法及装置、电子设备、存储介质
CN110827246A (zh) 电子设备边框外观瑕疵检测方法及设备
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN110555863A (zh) 一种运动目标检测方法、装置和计算机可读存储介质
CN114677394A (zh) 抠图方法、装置、摄像设备、会议系统、电子设备及介质
JP5870745B2 (ja) 画像処理装置、二値化閾値算出方法及びコンピュータプログラム
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
US20170352170A1 (en) Nearsighted camera object detection
CN117459661A (zh) 一种视频处理方法、装置、设备及机器可读存储介质
CN111914739A (zh) 智能跟随方法、装置、终端设备和可读存储介质
CN116522974A (zh) 用于解码的方法、装置及扫码枪
CN110992283A (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
CN110245537A (zh) 图形码解码方法,装置,存储介质及电子设备
CN109727193B (zh) 图像虚化方法、装置及电子设备
CN114881889A (zh) 视频图像噪声评估方法及装置
Ma et al. Mobile camera based text detection and translation
CN111723802A (zh) 一种基于ai的二维码识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant