CN108304825B - 一种文本检测方法及装置 - Google Patents

一种文本检测方法及装置 Download PDF

Info

Publication number
CN108304825B
CN108304825B CN201810168870.8A CN201810168870A CN108304825B CN 108304825 B CN108304825 B CN 108304825B CN 201810168870 A CN201810168870 A CN 201810168870A CN 108304825 B CN108304825 B CN 108304825B
Authority
CN
China
Prior art keywords
image
pixel value
candidate
preset
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810168870.8A
Other languages
English (en)
Other versions
CN108304825A (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810168870.8A priority Critical patent/CN108304825B/zh
Publication of CN108304825A publication Critical patent/CN108304825A/zh
Application granted granted Critical
Publication of CN108304825B publication Critical patent/CN108304825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

本发明提供一种文本检测方法及装置,在获取待检测图像后,确定待检测图像中的第一候选标题图像,以确定出第一候选标题图像在待检测图像中的位置,并确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值。在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题,否则确定第一候选标题图像包含的文本内容是否可作为候选副标题,实现根据位置和颜色对图像中主副标题的自动检测,并且这种根据位置和颜色检测主副标题的方式适用于新闻等具有复杂标题结构的待检测图像,从而可以从复杂标题结构中检测出主副标题。

Description

一种文本检测方法及装置
技术领域
本发明属于图像识别技术领域,更具体的说,尤其涉及一种文本内容检测方法及装置。
背景技术
随着网络技术发展,用户可通过终端浏览视频网站上提供的各类视频,从而从各类视频中获取最新的资讯信息。相对于视频网站来说,其需要对各类视频进行拆分,得到对应不同兴趣点的视频条目。如对于卫视台播放的新闻视频来说,一个新闻视频中包含多条对应不同资讯的新闻条目,而对于不同用户来说,其感兴趣的资讯(可视为兴趣点)可能不同,因此需要将新闻视频拆分成多个新闻条目,每个新闻条目对应不同的资讯,这样用户可以根据自身感兴趣的资讯搜索对应的新闻条目。
目前一个视频可以包括主标题(主标题可视为资讯)和至少一条内容不同的副标题,其中主标题是视频阐述的重点内容,副标题则是用以辅助说明视频的重点内容,一般情况下,视频中每出现一个作为主标题的文本内容视为一个视频条目的开始,因此可以根据作为主标题的文本内容进行视频拆分,得到作为主标题的文本内容对应的视频条目。
但是目前视频中主副标题的设置各种各样,如一些视频中主副标题采用白色为背景色,蓝色为字体色,而一些视频中主副标题采用蓝色为背景色,白色为字体色,且不同视频中主副标题所在位置也不相同,因此需要一种文本检测方式自动检测出视频的图像中的主副标题。
发明内容
有鉴于此,本发明的目的在于提供一种文本检测方法及装置,用于自动检测出图像中的主副标题。技术方案如下:
本发明提供一种文本检测方法,所述方法包括:
获取待检测图像,并确定所述待检测图像中的第一候选标题图像;
确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值;
在所述第一文本像素值位于第一预设主标题颜色范围内,且所述第一背景像素值位于第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题;
在所述第一文本像素值不位于所述第一预设主标题颜色范围内或所述第一背景像素值不位于所述第二预设主标题颜色范围内的情况下,根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为候选副标题。
优选的,所述确定所述待检测图像中的第一候选标题图像包括:
获取所述待检测图像中预设区域对应的图像的边缘图像,所述预设区域为所述待检测图像中潜在存在标题的区域;
对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界;
根据所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界,确定所述边缘图像中的第一候选图像;
在确定所述第一候选图像满足预设约束条件的情况下,确定所述第一候选图像为所述第一候选标题图像。
优选的,所述获取所述待检测图像中预设区域对应的图像的边缘图像包括:
对所述待检测图像中预设区域对应的图像进行转换,得到第一图像;
根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对所述第一图像进行边缘提取,得到所述第一图像的水平边缘图像和所述第一图像的垂直边缘图像;
根据所述第一图像的水平边缘图像和所述第一图像的垂直边缘图像,得到所述第一图像的第一边缘图像,并对所述第一边缘图像进行二值化处理,得到所述第一边缘图像的二值化边缘图像;
根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对所述待检测图像中预设区域对应的图像的RGB三个通道中的至少一个通道进行边缘提取,得到进行边缘提取的通道对应的边缘强度图像;
对所述进行边缘提取的通道对应的边缘强度图像进行二值化处理,得到所述进行边缘提取的通道对应的二值化边缘图像;
根据所述进行边缘提取的通道对应的二值化边缘图像对所述第一边缘图像的二值化边缘图像进行边缘加强,得到所述待检测图像中预设区域对应的图像的边缘图像。
优选的,所述对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界包括:
对所述边缘图像进行水平方向投影,得到所述边缘图像在水平方向的直方图;
根据所述边缘图像在水平方向的直方图,得到第一阶段候选区域,并根据所述第一阶段候选区域,确定所述边缘图像的上边界和所述边缘图像的下边界;
对所述第一阶段候选区域进行垂直方向投影,得到所述第一阶段候选区域在垂直方向的直方图,并根据所述第一阶段候选区域在垂直方向的直方图,从所述第一阶段候选区域中选取出满足第一预设条件的区域,将所述满足第一预设条件的区域确定为第二阶段候选区域;
获取所述待检测图像中与所述第二阶段候选区域对应的图像;
每间隔预设滑动窗口对与所述第二阶段候选区域对应的图像进行扫描,得到与所述第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图;
根据与所述第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图,确定出与所述第二阶段候选区域对应的图像中满足第二预设条件的区域,根据与所述第二阶段候选区域对应的图像中满足第二预设条件的区域,确定所述边缘图像的左边界和所述边缘图像的右边界。
优选的,所述确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值包括:
获取所述第一候选标题图像的二值化图像;
根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值;
根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值;
根据所述背景像素取值和所述二值化图像中每个像素的像素值,生成所述第一候选标题图像的图像掩码;
根据所述图像掩码中像素值等于第一预设像素值的像素,确定所述第一文本像素值;
根据所述图像掩码中像素值等于第二预设像素值的像素,确定所述第一背景像素值。
优选的,所述根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值包括:
对所述二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,所述行计数值用于统计所述二值化图像中满足第一计数条件的行数,所述第一计数条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,j是所述二值化图像中的第1行至第N-1行像素中的任意一行,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,N为所述二值化图像的行总数;
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,所述列计数值用于统计所述二值化图像中满足第二计数条件的列数,所述第二计数条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且列计数值更新为count[x]=count[x-1]+1,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,M为所述二值化图像的列总数;
将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第M-1列像素的列计数值count[M-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]和所述二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为所述二值化图像的计数值;
所述根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值包括:根据所述二值化图像的基准像素值和所述二值化图像的计数值,得到所述二值化图像的背景像素取值。
优选的,所述根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为副标题包括:
在所述第一文本像素值不位于所述第一预设副标题颜色范围内或所述第一背景像素值不位于所述第二预设副标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容不属于标题;
在所述第一文本像素值位于所述第一预设副标题颜色范围内,且所述第一背景像素值位于所述第二预设副标题颜色范围内的情况下,确定所述待检测图像中的第二候选标题图像;
确定所述第二候选标题图像中的第二文本像素值和第二背景像素值;
在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选副标题,确定所述第二候选标题图像包含的文本内容为候选主标题;
在所述第二文本像素值不位于所述第一预设主标题颜色范围内或所述第二背景像素值不位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题。
优选的,所述方法还包括:确定候选标题所在区域对应的跟踪区域,并从所述待检测图像中获取所述跟踪区域对应的第一跟踪图像,其中所述候选标题为所述候选主标题或所述候选副标题;
获取所述第一跟踪图像对应的二值化图像和/或所述第一跟踪图像对应的颜色直方图;
获取下一个待检测图像,并确定所述下一个待检测图像对应的第二跟踪图像;
获取所述第二跟踪图像对应的二值化图像和/或所述第二跟踪图像对应的颜色直方图;
根据所述第一跟踪图像对应的二值化图像与所述第二跟踪图像对应的二值化图像、和/或,所述第一跟踪图像对应的颜色直方图与所述第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值;
在所述丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定所述候选标题为所述待检测图像的标题。
优选的,所述方法还包括:在确定所述候选主标题为所述待检测图像的主标题的情况下,获取所述待检测图像的图像要素信息,所述待检测图像的图像要素信息至少表明待检测图像所在视频帧的相关信息和/或待检测图像的主标题的相关信息,以确定时域相邻的两个主标题;
根据所述待检测图像的图像要素信息,确定与所述待检测图像的主标题时域相邻的第一主标题;
在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题。
优选的,所述在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题包括:
从包含所述主标题的至少一个待检测图像中选取一个待检测图像作为第一比对图像,以及从包含所述第一主标题的至少一个待检测图像中选取一个待检测图像作为第二比对图像;
若所述主标题位于所述第一比对图像中的第一候选标题图像,且所述第一主标题位于所述第二比对图像中的第一候选标题图像,或者所述主标题位于所述第一比对图像中的第二候选标题图像,且所述第一主标题位于所述第二比对图像中的第二候选标题图像,获取所述第一比对图像中预设比对区域处的第三比对图像和获取所述第二比对图像中所述预设比对区域处的第四比对图像;
获取所述第三比对图像的二值化图像和所述第四比对图像的二值化图像;
在所述第三比对图像的二值化图像和所述第四比对图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定所述主标题和所述第一主标题为同一个主标题。
优选的,若所述主标题和所述第一主标题其中之一位于所述第一候选标题图像,另一个位于所述第二候选标题图像,则将所述第一比对图像和所述第二比对图像分别作为输入图像,对所述输入图像:获取该输入图像的图像掩码,并确定该输入图像的图像掩码对应的文本图像;
对所述第一比对图像的文本图像和所述第二比对图像的文本图像进行配准,以使得所述第一比对图像的文本图像中文本内容的位置和所述第二比对图像的文本图像中文本内容的位置一致,且所述第一比对图像的文本图像和所述第二比对图像的文本图像的尺寸配准至同一个预设尺寸;
获取所述第一比对图像的文本图像的二值化图像和所述第二比对图像的文本图像的二值化图像;
在所述第一比对图像的文本图像的二值化图像和所述第二比对图像的文本图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定所述主标题和所述第一主标题为同一个主标题。
本发明还提供一种文本检测装置,所述装置包括:
获取单元,用于获取待检测图像;
图像确定单元,用于确定所述待检测图像中的第一候选标题图像;
像素值确定单元,用于确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值;
候选主标题确定单元,用于在所述第一文本像素值位于第一预设主标题颜色范围内,且所述第一背景像素值位于第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题;
候选副标题确定单元,用于在所述第一文本像素值不位于所述第一预设主标题颜色范围内或所述第一背景像素值不位于所述第二预设主标题颜色范围内的情况下,根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为候选副标题。
优选的,所述图像确定单元包括:
获取子单元,用于获取所述待检测图像中预设区域对应的图像的边缘图像,所述预设区域为所述待检测图像中潜在存在标题的区域;
投影子单元,用于对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界;
候选图像确定子单元,用于根据所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界,确定所述边缘图像中的第一候选图像;
候选标题图像确定子单元,用于在确定所述第一候选图像满足预设约束条件的情况下,确定所述第一候选图像为所述第一候选标题图像。
优选的,所述像素值确定单元包括:
二值化图像获取子单元,用于获取所述第一候选标题图像的二值化图像;
基准像素值获取子单元,用于根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值;
背景像素取值获取子单元,用于根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值;
图像掩码生成子单元,用于根据所述背景像素取值和所述二值化图像中每个像素的像素值,生成所述第一候选标题图像的图像掩码;
像素值确定子单元,用于根据所述图像掩码中像素值等于第一预设像素值的像素,确定所述第一文本像素值,以及用于根据所述图像掩码中像素值等于第二预设像素值的像素,确定所述第一背景像素值。
优选的,所述基准像素值获取子单元具体用于对所述二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,所述行计数值用于统计所述二值化图像中满足第一计数条件的行数,所述第一计数条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,j是所述二值化图像中的第1行至第N-1行像素中的任意一行,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,N为所述二值化图像的行总数;
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,所述列计数值用于统计所述二值化图像中满足第二计数条件的列数,所述第二计数条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且列计数值更新为count[x]=count[x-1]+1,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,M为所述二值化图像的列总数;
将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第M-1列像素的列计数值count[M-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]和所述二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为所述二值化图像的计数值;
所述背景像素取值获取子单元,具体用于根据所述二值化图像的基准像素值和所述二值化图像的计数值,得到所述二值化图像的背景像素取值。
优选的,所述候选副标题确定单元,还用于在所述第一文本像素值不位于所述第一预设副标题颜色范围内或所述第一背景像素值不位于所述第二预设副标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容不属于标题;
所述图像确定单元,还用于在所述第一文本像素值位于所述第一预设副标题颜色范围内,且所述第一背景像素值位于所述第二预设副标题颜色范围内的情况下,确定所述待检测图像中的第二候选标题图像;
所述像素值确定单元,还用于确定所述第二候选标题图像中的第二文本像素值和第二背景像素值;
所述候选副标题确定单元,还用于在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选副标题,以及所述候选主标题确定单元,还用于在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第二候选标题图像包含的文本内容为候选主标题;
所述候选主标题确定单元,还用于在所述第二文本像素值不位于所述第一预设主标题颜色范围内或所述第二背景像素值不位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题。
优选的,所述装置还包括:区域确定单元,用于确定候选标题所在区域对应的跟踪区域,其中所述候选标题为所述候选主标题或所述候选副标题;
跟踪图像获取单元,用于从所述待检测图像中获取所述跟踪区域对应的第一跟踪图像,以及用于获取下一个待检测图像,并确定所述下一个待检测图像对应的第二跟踪图像;
图像获取单元,用于获取所述第一跟踪图像对应的二值化图像和/或所述第一跟踪图像对应的颜色直方图,以及用于获取所述第二跟踪图像对应的二值化图像和/或所述第二跟踪图像对应的颜色直方图;
取值更新单元,用于根据所述第一跟踪图像对应的二值化图像与所述第二跟踪图像对应的二值化图像、和/或,所述第一跟踪图像对应的颜色直方图与所述第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值;
图像标题确定单元,用于在所述丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定所述候选标题为所述待检测图像的标题。
优选的,所述装置还包括:要素信息获取单元,用于在确定所述候选主标题为所述待检测图像的主标题的情况下,获取所述待检测图像的图像要素信息,所述待检测图像的图像要素信息至少表明待检测图像所在视频帧的相关信息和/或待检测图像的主标题的相关信息,以确定时域相邻的两个主标题;
相邻标题确定单元,用于根据所述待检测图像的图像要素信息,确定与所述待检测图像的主标题时域相邻的第一主标题;
同一标题确定单元,用于在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题。
本发明还提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述文本检测方法。
本发明还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述文本检测方法。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
从上述技术方案可知,在获取待检测图像后,确定待检测图像中的第一候选标题图像,以确定出第一候选标题图像在待检测图像中的位置,并确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值。在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题,而在第一文本像素值不位于第一预设主标题颜色范围内或第一背景像素值不位于第二预设主标题颜色范围内的情况下,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题,实现根据位置和颜色对图像中主副标题的自动检测,并且这种根据位置和颜色检测主副标题的方式适用于新闻等具有复杂标题结构的待检测图像,从而可以从复杂标题结构中检测出主副标题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本检测方法的流程图;
图2是本发明实施例提供的获取待检测图像的边缘图像的流程图;
图3是本发明实施例提供的获取边缘图像的四个边界的流程图;
图4是本发明实施例提供的确定第一文本像素值和第一背景像素值的流程图;
图5是本发明实施例提供的确定候选副标题的流程图;
图6是本发明实施例提供的另一种文本检测方法的流程图;
图7是本发明实施例提供的再一种文本检测方法的流程图;
图8是本发明实施例提供的一种确定主标题和第一主标题是否为同一个主标题的流程图;
图9是本发明实施例提供的另一种确定主标题和第一主标题是否为同一个主标题的流程图;
图10是本发明实施例提供的得到输入图像的图像掩码对应的文本图像的流程图;
图11是本发明实施例提供的一种文本检测装置的结构示意图;
图12是本发明实施例提供的文本检测装置中图像确定单元的结构示意图;
图13是本发明实施例提供的文本检测装置中像素值确定单元的结构示意图;
图14是本发明实施例提供的另一种文本检测装置的结构示意图;
图15是本发明实施例提供的再一种文本检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种文本检测方法的流程图,用于实现根据位置和颜色对图像中主副标题的自动检测,图1所示文本检测方法可以包括以下步骤:
S101:获取待检测图像,并确定待检测图像中的第一候选标题图像。
可以理解的是:待检测图像是输入的视频帧中的一幅图像,而第一候选标题图像是待检测图像中潜在存在标题的区域对应的图像,在本实施例中确定待检测图像中的第一候选标题图像的方式如下:
获取待检测图像中预设区域对应的边缘图像,对边缘图像进行水平投影和垂直投影,得到边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界;根据边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界,确定边缘图像中的第一候选图像,并在确定第一候选图像满足预设约束条件的情况下,确定第一候选图像为第一候选标题图像。
如预设区域是经过对多个待检测图像中标题的位置进行分析得到的区域,也就是说预设区域是待检测图像中潜在存在标题的区域,通过这种区域选取方式确定视频帧中标题的大概位置,减少计算量并提高检测精度,例如经过对多个待检测图像中标题的位置进行分析确定出底部区域为待检测图像中预计存在标题的区域,则将待检测图像的底部区域视为预设区域。假设待检测图像的宽为W、高为H,预设区域为Rect(rect.x,rect.y,rect.w,rect.h),该预设区域为待检测图像中的底部区域,其在待检测图像中的位置为:
rect.x=0;
rect.y=H*cut_ratio;
rect.w=W;
rect.h=H*(1-cut_ratio),其中cut_ratio为预设剪裁比例,对于其取值本实施例不进行限定。
对待检测图像中上述预设区域对应的图像通过边缘梯度算子进行边缘检测,从而得到待检测图像中预设区域对应的边缘图像,在得到边缘图像后确定该边缘图像的四个边界:上边界、下边界、左边界和右边界,以将这四个边界组成区域的图像视为第一候选图像,并在第一候选图像满足预设约束条件时将其视为第一候选标题图像。如预设约束条件可以是但不限于是对四个边界组成区域进行限定,如四个边界组成区域的起点位置在预设位置范围内,且四个边界组成区域的高度在预设高度范围内,则可以确定第一候选图像满足预设约束条件,此时将第一候选图像视为第一候选标题图像,其中预设位置范围和预设高度范围可以根据实际应用而定,对此本实施例不进行限定。
对于待检测图像的边缘图像来说,还可以采用图2所示方式得到,其中图2所示获取待检测图像中预设区域对应的边缘图像的过程可以包括以下步骤:
S201:对待检测图像中预设区域对应图像进行转换,得到第一图像,如对待检测图像中预设区域对应的图像进行灰度转换或亮度转换,如对待检测图像中预设区域对应的图像进行灰度转换可以是:基于公式Gray=R*0.299+G*0.587+B*0.114进行图像转换;或者对待检测图像中预设区域对应的图像进行色彩空间转换,如可以是YUV,HSV,HSL和LAB中的任意一种进行色彩空间转换,以HSL为例,亮度L(Lightness)的转换公式为:L=(max(R,G,B)+min(R,G,B))/2,基于该亮度L的转换公式将待检测图像中预设区域对应的图像转换为可作为第一图像的亮度图像。
S202:根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对第一图像进行边缘提取,得到第一图像的水平边缘图像和第一图像的垂直边缘图像。
S203:根据第一图像的水平边缘图像和第一图像的垂直边缘图像,得到第一图像的第一边缘图像,并对第一边缘图像进行二值化处理,得到第一边缘图像的二值化边缘图像。
其中,水平方向边缘梯度算子和垂直方向边缘梯度算子可以是Sobel算子、Canny算子等中的至少一种算子,以Sobel算子,根据水平方向的Sobel算子得到水平边缘图像Eh,根据垂直方向的Sobel算子得到垂直边缘图像Ev,然后根据水平边缘图像Eh和垂直边缘图像Ev,得到第一边缘图像Eall,即对于第一边缘图像Eall上任意一点Eall(x,y),Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2)。
对于第一边缘图像,计算用于对其进行二值化处理的第一分割阈值,并基于分割阈值对第一边缘图像进行二值化处理。如可以采用但不限于OTSU方法计算第一分割阈值The1,对于第一边缘图像中的Eall(x,y)来说,若Eall(x,y)<=The1,E(x,y)=0;若Eall(x,y)>The1,E(x,y)=1,E(x,y)为二值化边缘图像中的一个点。
其中OTSU方法计算第一分割阈值The1的过程为:假设转换后得到的灰度图像或亮度图像可以分给为N个灰度(N<=256),对于这N个灰度来说可以获取转换后得到的灰度图像或亮度图像的N阶灰度直方图H,对于N阶回复直方图H中的每一位t(0<=t<N),按照如下公式进行计算:
Figure BDA0001585241180000151
Figure BDA0001585241180000152
Figure BDA0001585241180000153
x(i)=i*256/N
从上述公式中获得使
Figure BDA0001585241180000154
最大的t对应的x(t)作为第一分割阈值The1
S204:根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对待检测图像中预设区域对应的图像的RGB三个通道中的至少一个通道进行边缘提取,得到进行边缘提取的通道对应的边缘强度图像,如可以对待检测图像中预设区域对应的图像的RGB这三个通道中的每个通道,得到R通道对应的边缘强度图像Er、G通道对应的边缘强度图像Eg和B通道对应的边缘强度图像Eb
S205:对进行边缘提取的通道对应的边缘强度图像进行二值化处理,得到通道对应的二值化边缘图像。
对于进行边缘提取的通道对应的边缘强度图像,计算用于对其进行二值化处理的第二分割阈值,并基于第二分割阈值对通道对应的边缘强度图像进行二值化处理。如可以采用但不限于OTSU方法计算第二分割阈值The2,具体过程请参阅第一分割阈值The1的计算过程。对于进行边缘提取的通道对应的边缘强度图像,如边缘强度图像Er来说,若Er(x,y)<=The2,E(x,y)=0;若Er(x,y)>The1,E(x,y)=1,E(x,y)为通道对应的二值化边缘图像中的一个点,或者为进行边缘提取的通道对应的边缘强度图像预设第二分割阈值The2,然后再将进行边缘提取的通道对应的边缘强度图像中的点与第二分割阈值The2比对,如将R通道对应的边缘强度图像Er、G通道对应的边缘强度图像Eg和B通道对应的边缘强度图像Eb中的每个点与第二分割阈值The2比对,得到各自对应的二值化边缘图像。
S206:根据进行边缘提取的通道对应的二值化边缘图像对第一边缘图像的二值化边缘图像进行边缘加强,得到待检测图像中预设区域对应的图像的边缘图像。如可以将R通道、G通道和B通道各自对应的二值化边缘图像对第一边缘图像的二值化边缘图像进行边缘加强,以防止文本内容出现渐变而导致边缘检测失败,从而提高边缘检测的成功率。
在这里需要说明的一点是:可以采用R通道、G通道和B通道各自对应的二值化边缘图像中的任一二值化边缘图像对第一边缘图像的二值化边缘图像进行边缘加强,也可以直接将步骤S203得到的第一边缘图像的二值化边缘图像作为待检测图像的边缘图像,且对于上述第一分割阈值The1和第二分割阈值The2来说,两个分割阈值的取值可以相同也可以不同,在两个分割阈值的取值不同的情况下,The2<The1
而获取边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界的过程请参阅图3所示,可以包括以下步骤:
S301:对边缘图像进行水平方向投影,得到边缘图像在水平方向的直方图。具体可以是对边缘图像中每行中符合预设水平投影条件的像素数量Numedge进行统计,若每行中满足预设水平投影条件的像素数量Numedge大于第一预设像素数量Thnum,则确定直方图H中的H[i]=1,否则为0。其中预设水平投影条件为:对于每行中任一像素,若该像素以及与该像素上下相邻的像素中至少一个像素的像素取值为1,则确定该像素的像素取值为1,并计算该像素以及与该像素左右相邻且连续的像素取值为1的像素对应的长度,若该长度大于预设长度阈值,则视该像素满足投预设水平投影条件。
S302:根据边缘图像在水平方向的直方图,得到第一阶段候选区域,并根据第一阶段候选区域,确定边缘图像的上边界和边缘图像的下边界。具体过程可以是:获取边缘图像在水平方向的直方图H中H[i]==1之间的行间距,若该行间距大于预设行间距阈值Throw,则将该行间距中涉及到的各个H[i]对应的区域确定为子区域,将根据行间距和预设行间距阈值得到的所有子区域组成第一阶段候选区域,并将第一阶段候选区域的上边界确定为边缘图像的上边界,将第一阶段候选区域的下边界确定为边缘图像的下边界。
S303:对第一阶段候选区域进行垂直方向投影,得到第一阶段候选区域在垂直方向的直方图,根据第一阶段候选区域在垂直方向的直方图,从第一阶段候选区域中选取出满足第一预设条件的区域,并将满足第一预设条件的区域确定为第二阶段候选区域。具体过程如下:
对于第一阶段候选区域中任意一列j,若该列中像素取值为1的像素数量大于第二预设像素数量Thv,则确定第一阶段候选区域在垂直方向的直方图V中的V[j]=1,否则V[j]=0,并且强制设置V[0]=1&&V[W-1]=1,W为视频帧的宽。在第一阶段候选区域在垂直方向的直方图V中,搜索满足第一预设条件:V[j]==1&&V[z]==1&&V[k]k∈(j,z)==0&&argmax(j-z)的区域,即搜索j-z的取值最大且同时满足V[j]==1&&V[z]==1&&V[k]k∈(j,z)==0的区域,将该区域确定为第二阶段候选区域。
S304:获取待检测图像中与第二阶段候选区域对应的图像。
S305:每间隔预设滑动窗口对与第二阶段候选区域对应的图像进行扫描,得到与第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图。也就是说将与第二阶段候选区域对应的图像分割为与预设滑动窗口对应的多个区域,且每个区域互不重叠,计算出与预设滑动窗口对应的每个区域的颜色直方图。
S306:根据与第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图,确定出与第二阶段候选区域对应的图像中满足第二预设条件的区域,根据与第二阶段候选区域对应的图像中满足第二预设条件的区域,确定边缘图像的左边界和边缘图像的右边界。
其中第二预设条件可以是但不限于是:预设滑动窗口对应的区域的颜色直方图中非0的个数numcolor小于第一预设数值Thcolor1但大于第二预设数值Thcolor2,根据该第二预设条件确定出与第二阶段候选区域对应的图像中满足该第二预设条件的区域,将所有满足该第二预设条件的区域组成的区域的左边界确定为边缘图像的左边界,将所有满足该第二预设条件的区域组成的区域的右边界确定为边缘图像的右边界。
S102:确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值,即确定出第一候选标题图像中的文本部分的像素值(即第一文本像素值)和背景部分的像素值(即第一背景像素值),实现对第一候选标题图像中文本部分和背景部分的颜色信息的提取,进而可以根据颜色信息判断是否可作为候选主标题或候选副标题。
在本实施例中,确定第一文本像素值和第一背景像素值的过程如图4所示,可以包括以下步骤:
S401:获取第一候选标题图像的二值化图像。其二值化处理的过程可以是:将第一候选标题图像转换为灰度图像或亮度图像,如将第一候选标题图像转换为灰度图像可以是:基于公式Gray=R*0.299+G*0.587+B*0.114进行图像转换;或者对第一候选标题图像进行色彩空间转换,如可以是YUV,HSV,HSL和LAB中的任意一种进行色彩空间转换,以HSL为例,亮度L(Lightness)的转换公式为:L=(max(R,G,B)+min(R,G,B))/2,基于该亮度L的转换公式将第一候选标题图像转换为亮度图像。
对于转换后得到的灰度图像或亮度图像,计算用于进行二值化处理的分割阈值,并基于分割阈值对转换后得到的灰度图像或亮度图像进行二值化处理。如可以采用但不限于OTSU方法计算分割阈值Th,具体请参阅第一分割阈值The1的计算过程。对于转换后得到的灰度图像或亮度图像中的像素I(x,y)来说,若I(x,y)<Th,B(x,y)=0;若I(x,y)>=Th,B(x,y)=255,B(x,y)为二值化图像中的像素。
S402:根据二值化图像中的每行像素和/或每列像素,得到二值化图像的基准像素值。也就是说得到二值化的基准像素值的方式可以是:根据二值化图像中的每行像素和二值化图像中的每列像素中的至少部分像素,如根据二值化图像中的每行像素、或者根据二值化图像中的每列像素、或者根据二值化图像中的每行像素和每列像素,其过程如下:
对二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,行计数值用于统计二值化图像中满足第一预设条件的行数,该第一预设条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,j是二值化图像中的第1行至第N-1行像素中的任意一行,N为二值化图像的行总数,由每行像素的基准像素值的更新公式可知,二值化图像中的第N-1行像素的基准像素值back_color[N-1]为二值化图像中第0行像素至第N-1行像素中满足第一预设条件的所有行的第i个像素的像素值color之和,相应的二值化图像中的第N-1行像素的行计数值count[N-1]为二值化图像中第0行像素至第N-1行像素中满足第一预设条件的行数,即二值化图像最终的行计数值。
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,列计数值用于统计二值化图像中满足第二预设条件的列数,该第二预设条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且计数值更新为count[x]=count[x-1]+1,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,M为二值化图像的列总数,由每列像素的基准像素值的更新公式可知,二值化图像中的第M-1列像素的基准像素值back_color[M-1]为二值化图像中第0列像素至第M-1列像素中满足第二预设条件的所有行的第y个像素的像素值color之和,相应的二值化图像中的第M-1列像素的列计数值count[M-1]为二值化图像中第0列像素至第M-1列像素中满足第二预设条件的列数,即二值化图像最终的列计数值。
其中上述第i个像素的像素值可以是每行像素中的第0个像素的像素值,同样的,第y个像素的像素值可以是每列像素中的第0个像素的像素值,以每行像素和每列像素中的第0个像素的像素值为基准来得到基准像素值,相对于仅基于每行像素或每列像素得到基准像素值的方式来说,基准像素值的准确度提高,进而使得最终得到的图像掩码(图像掩码又称为图像mask)的准确度提高。在本实施例中,预设个数可以根据实际应用而定,同样的基准像素值、行计数值和列计数值的初始值也可以根据实际应用而定,如可以设置为0。
在基于每行像素或每列像素得到二值化图像的基准像素值和二值化图像的计数值时,统计得到的第N-1行像素的基准像素值back_color[N-1]或第M-1列像素的基准像素值back_color[M-1]则是二值化图像的基准像素值,相应的统计得到的第N-1行像素的行计数值count[N-1]或第M-1列像素的列计数值count[M-1]则是二值化图像的计数值。对于基于每行像素和每列像素得到二值化图像的基准像素值和二值化图像的计数值时,可以将二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为二值化图像的基准像素值,将二值化图像中的第N-1行像素的行计数值count[N-1]和二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为二值化图像的计数值。
S403:根据二值化图像的基准像素值,得到二值化图像的背景像素取值。
如在得到基准像素值和计数值后,可以根据基准像素值和计数值得到二值化图像的背景像素取值,如基于公式back_color=back_color/count得到基准像素值的平均值,若基准像素值的平均值小于预设均值(如128),则确定背景像素取值为0,若基准像素值的平均值大于或等于预设均值,则确定背景像素取值为255。
S404:根据背景像素取值和二值化图像中每个像素的像素值,生成第一候选标题图像的图像掩码。
相对应的,根据背景像素取值和二值化图像中每个像素的像素值,生成第一候选标题图像的图像掩码的过程则是:背景像素取值和二值化图像中每个像素的像素值的比对过程,例如,若二值化图像中每个像素的像素值等于背景像素取值,则确定该像素所在位置为背景区域,并将其像素值置为0,若二值化图像中每个像素的像素值不等于背景像素取值,则确定该像素所在位置为文本区域,并将其像素值置为255,从而得到第一候选标题图像的图像掩码。
S405:根据图像掩码中像素值等于第一预设像素值的像素,确定第一文本像素值。如计算图像掩码中像素值等于255(第一预设像素值的一种可行方式)的像素在待检测图像中的RGB通道的均值,将图像掩码中像素值等于255的像素在待检测图像中的RGB通道的均值确定为第一文本像素值。
S406:根据图像掩码中像素值等于第二预设像素值的像素,确定第一背景像素值。如计算图像掩码中像素值等于0(第二预设像素值的一种可行方式)的像素在待检测图像中的RGB通道的均值,将图像掩码中像素值等于0的像素在待检测图像中的RGB通道的均值确定为第一背景像素值。
S103:在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题。
以第一文本像素值为图像掩码中像素值等于255的像素在待检测图像中的RGB通道的均值,第一背景像素值为图像掩码中像素值等于0的像素在待检测图像中的RGB通道的均值为例,假设第一文本像素值包括:RText_avg、GText_avg、BText_avg,第一预设主标题颜色范围包括RGB通道各自对应的主标题文本颜色阈值范围,分别为:[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high],第一背景像素值包括:Rback_avg、Gback_avg、Bback_avg,第二预设主标题颜色范围包括RGB通道各自对应的主标题背景颜色阈值范围,分别为[Rmain_back_low,Rmain_back_high],[Gmain_back_low,Gmain_back_high],[Bmain_back_low,Bmain_back_high],将上述RText_avg、GText_avg、BText_avg分别与各自对应的主标题文本颜色阈值范围进行比对,将上述Rback_avg、Gback_avg、Bback_avg分别与各自对应的主标题背景颜色阈值范围进行比对,若上述RText_avg、GText_avg、BText_avg分别位于各自对应的主标题文本颜色阈值范围内,且上述Rback_avg、Gback_avg、Bback_avg位于各自对应的主标题背景颜色阈值范围内,则判断第一候选标题图像包含的文本内容为候选主标题。
在这里需要说明的一点是:上述第一预设主标题颜色范围和第二预设主标题颜色范围,如可以设置n个[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high],同时设置m个[Rmain_back_low,Rmain_back_high],[Gmain_back_low,Gmain_back_high],[Bmain_back_low,Bmain_back_high],当第一文本像素值满足上述n个[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high]中的任意一个,则视为位于第一预设主标题颜色范围内,同理对于第一背景像素值同样适用。
S104:在第一文本像素值不位于第一预设主标题颜色范围内或第一背景像素值不位于第二预设主标题颜色范围内的情况下,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题。
在本实施例中,确定第一候选标题图像包含的文本内容是否可作为候选副标题的可行方式如图5所示,可以包括以下步骤:
S501:在第一文本像素值不位于第一预设副标题颜色范围内或第一背景像素值不位于第二预设副标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容不属于标题。
仍以第一文本像素值为图像掩码中像素值等于255的像素在待检测图像中的RGB通道的均值,第一背景像素值为图像掩码中像素值等于0的像素在待检测图像中的RGB通道的均值为例,假设第一文本像素值包括:RText_avg、GText_avg、BText_avg,第一预设副标题颜色范围包括RGB通道各自对应的副标题文本颜色阈值范围,分别为:[Rsub_text_low,Rsub_text_high],[Gsub_text_low,Gmain_text_high],[Bsub_text_low,Bsub_text_high],第一背景像素值包括:Rback_avg、Gback_avg、Bback_avg,第二预设副标题颜色范围包括RGB通道各自对应的副标题背景颜色阈值范围,分别为[Rsub_back_low,Rsub_back_high],[Gsub_back_low,Gsub_back_high],[Bsub_back_low,Bsub_back_high],将上述RText_avg、GText_avg、BText_avg分别与各自对应的副标题文本颜色阈值范围进行比对,将上述Rback_avg、Gback_avg、Bback_avg分别与各自对应的副标题背景颜色阈值范围进行比对,若上述RText_avg、GText_avg、BText_avg分别不位于各自对应的副标题文本颜色阈值范围内,或者上述Rback_avg、Gback_avg、Bback_avg不位于各自对应的副标题背景颜色阈值范围内,则确定第一候选标题图像包含的文本内容不属于标题,即第一候选标题图像包含的文本内容既不属于主标题也不属于副标题。
S502:在第一文本像素值位于第一预设副标题颜色范围内,且第一背景像素值位于第二预设副标题颜色范围内的情况下,确定待检测图像中的第二候选标题图像。对于第二候选标题图像来说,其可以参阅第一候选标题图像的确定方式,但是与第一候选标题图像的确定方式的不同之处在于:在确定第二候选标题图像时,预设区域为与确定第一候选标题图像所使用的预设区域不同,如确定第一候选标题图像时的预设区域是待检测图像的底部区域,而确定第二候选标题图像时的预设区域是待检测图像的顶部区域,其他步骤与确定第一候选标题图像相同,对此本实施例不再详述。
S503:确定第二候选标题图像中的第二文本像素值和第二背景像素值,具体请参阅第一文本像素值和第一背景像素值的确定方式,对此不再详述。
S504:在第二文本像素值位于第一预设主标题颜色范围内,且第二背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选副标题,确定第二候选标题图像包含的文本内容为候选主标题。
假设第二文本像素值包括:RText_avg2、GText_avg2、BText_avg2,第一预设副标题颜色范围包括RGB通道各自对应的副标题文本颜色阈值范围,分别为:[Rsub_text_low,Rsub_text_high],[Gsub_text_low,Gmain_text_high],[Bsub_text_low,Bsub_text_high],第二背景像素值包括:Rback_avg2、Gback_avg2、Bback_avg2,第二预设副标题颜色范围包括RGB通道各自对应的副标题背景颜色阈值范围,分别为[Rsub_back_low,Rsub_back_high],[Gsub_back_low,Gsub_back_high],[Bsub_back_low,Bsub_back_high],将上述RText_avg2、GText_avg2、BText_avg2分别与各自对应的副标题文本颜色阈值范围进行比对,将上述Rback_avg2、Gback_avg2、Bback_avg2分别与各自对应的副标题背景颜色阈值范围进行比对,若上述RText_avg2、GText_avg2、BText_avg2分别位于各自对应的副标题文本颜色阈值范围内,且上述Rback_avg2、Gback_avg2、Bback_avg2不位于各自对应的副标题背景颜色阈值范围内,则确定第二候选标题图像包含的文本内容为候选主标题。
S505:在第二文本像素值不位于第一预设主标题颜色范围内或第二背景像素值不位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题。
从上述技术方案可知,在获取待检测图像后,确定待检测图像中的第一候选标题图像,以确定出第一候选标题图像在待检测图像中的位置,并确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值。在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题,而在第一文本像素值不位于第一预设主标题颜色范围内或第一背景像素值不位于第二预设主标题颜色范围内的情况下,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题,实现根据位置和颜色对图像中主副标题的自动检测,并且这种根据位置和颜色检测主副标题的方式适用于新闻等具有复杂标题结构的待检测图像,从而可以从复杂标题结构中检测出主副标题。
请参阅图6,其示出了本发明实施例提供的另一种文本检测方法的流程图,在图1基础上还可以对候选主标题和候选副标题中的至少一个标题进行跟踪,以确定其是否可作为待检测图像的标题,在图1基础上还可以包括以下步骤:
S105:确定候选标题所在区域对应的跟踪区域,并从待检测图像中获取跟踪区域对应的第一跟踪图像,其中候选标题为候选主标题或候选副标题。
可以理解的是:由于候选标题所在区域可能包含背景区域,为了提高跟踪的准确性,需要设置跟踪区域,其设置方法为:假设候选标题所在区域在待检测图像中的位置为CandidateRect(x,y,w,h)(待检测图像中的起始点(x,y)以及对应的宽w和高h),对应的跟踪区域track(x,y,w,h)为:
track.x=CandidateRect.x+CandidateRect.w*Xratio1;
track.y=CandidateRect.y+CandidateRect.h*Yratio1;
track.w=CandidateRect.w*Xratio2;
track.h=CandidateRect.h*Yratio2;
其中Xratio1、Xratio2、Yratio1和Yratio2均为预先设定的参数,对其取值本实施例不进行限定。并且通过上述设置方法确定的跟踪区域小于候选标题所在区域,而之所以确定一个小于候选标题所在区域的跟踪区域是因为:待检测图像中的标题存在背景变化特效或在尾部出现渐变的透明背景等潜在变化,而选取小于候选标题所在区域的跟踪区域可以避免这些潜在变化对于跟踪的干扰,提高跟踪的成功率。
S106:获取第一跟踪图像对应的二值化图像和第一跟踪图像对应的颜色直方图。其二值化处理的过程可以是:将第一跟踪图像转换为灰度图像或亮度图像,如将第一跟踪图像转换为灰度图像可以是:基于公式Gray=R*0.299+G*0.587+B*0.114进行图像转换;或者对第一跟踪图像进行色彩空间转换,如可以是YUV,HSV,HSL和LAB中的任意一种进行色彩空间转换,以HSL为例,亮度L(Lightness)的转换公式为:L=(max(R,G,B)+min(R,G,B))/2,基于该亮度L的转换公式将第一跟踪图像转换为亮度图像。
对于转换后得到的灰度图像或亮度图像,计算用于进行二值化处理的分割阈值,并基于分割阈值对输入图像进行二值化处理。如可以采用但不限于OTSU方法计算分割阈值Th,对于转换后得到的灰度图像或亮度图像中的像素I(x,y)来说,若I(x,y)<Th,Bref(x,y)=0;若I(x,y)>=Th,Bref(x,y)=255,Bref(x,y)为第一跟踪图像对应的二值化图像中的像素。而第一跟踪图像对应的颜色直方图可通过颜色特征提取方法得到,如主色调直方图方法得到,对此本实施例不进行限定也不再详述。
S107:获取下一个待检测图像,并确定下一个待检测图像对应的第二跟踪图像。
S108:获取第二跟踪图像对应的二值化图像和第二跟踪图像对应的颜色直方图。
对于下一个待检测图像对应的第二跟踪图像、第二跟踪图像对应的二值化图像和第二跟踪图像对应的颜色直方图可以参阅第一跟踪图像的相关说明,对此本实施例不再阐述。
S109:根据第一跟踪图像对应的二值化图像、第二跟踪图像对应的二值化图像、第一跟踪图像对应的颜色直方图和第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值。
在本实施例中,更新跟踪计数取值和丢失计数取值的一种可行方式是:计算第一跟踪图像对应的二值化图像和第二跟踪图像对应的二值化图像之间的差分平均值,以及第一跟踪图像对应的颜色直方图和第二跟踪图像对应的颜色直方图之间的距离值;在差分平均值小于预设差分平均值,且距离值小于预设距离值的情况下,更新跟踪计数取值,否则更新丢失计数取值。
其中差分平均值的一种计算方式是:
Figure BDA0001585241180000251
其中B1(x,y)是第一跟踪图像对应的二值化图像,B2(x,y)是第二跟踪图像对应的二值化图像,且W是第一跟踪图像的宽,H是第一跟踪图像的高。
S110:在丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定候选标题为待检测图像的标题。
在本实施例中,设置丢失计数取值的目的是为了避免个别接收视频帧时受到干扰引起视频帧出现失真,进而导致跟踪失败,而通过丢失计数取值可以允许一定数量的视频帧跟踪失败。
在这里需要说明的一点是:在确定候选标题是否为待检测图像的标题时,除采用上述根据第一跟踪图像对应的二值化图像、第二跟踪图像对应的二值化图像、第一跟踪图像对应的颜色直方图和第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值方式之外,还可以根据第一跟踪图像对应的二值化图像和第二跟踪图像对应的二值化图像,更新跟踪计数取值和丢失计数取值,相应的可以仅获取第一跟踪图像对应的二值化图像和第二跟踪图像对应的二值化图像;或者根据第一跟踪图像对应的颜色直方图和第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值,相应的可以仅获取第一跟踪图像对应的颜色直方图和第二跟踪图像对应的颜色直方图。
从上述技术方案,在确定待检测图像的候选主标题和候选副标题中至少一种标题的情况下,通过待检测图像和下一个待检测图像中对应的跟踪图像,可以进一步确定候选标题是否可作为待检测图像的标题,实现对候选标题的自动检测,以确定出待检测图像的标题,进而在确定出待检测图像的标题的情况下,可以基于待检测图像的标题进行视频拆分。
请参阅图7,其示出了本发明实施例提供的再一种文本检测方法的流程图,在图6基础上还可以包括以下步骤:
S111:在确定候选主标题为待检测图像的主标题的情况下,获取待检测图像的图像要素信息。其中待检测图像的图像要素信息可以至少表明待检测图像所在视频帧的相关信息和待检测图像的主标题的相关信息中的至少一种,以基于待检测图像的图像要素信息确定时域相邻的两个主标题,如图像要素信息包括但不限于待检测图像所在视频帧的帧号(起始帧号和结束帧号)、待检测图像所在视频帧的出现时间(起始时间和结束时间)、待检测图像的主标题的标识(表明是视频中的第几个主标题),起始帧号为视频中包含该待检测图像的主标题的第一个视频帧的帧号,结束帧号为视频中包括该待检测图像的主标题的最后一个视频帧的帧号,起始时间则是视频中包含该待检测图像的主标题的第一个视频帧的在视频中的时间,结束时间则是视频中包含该待检测图像的主标题的最后一个视频帧的在视频中的时间。
S112:根据待检测图像的图像要素信息,确定与待检测图像的主标题时域相邻的第一主标题。如可以根据上述待检测图像所在视频帧的帧号、待检测图像所在视频帧的出现时间,待检测图像的主标题的标识中的至少一种,确定与待检测图像的主标题时域相邻的第一主标题,所谓时域相邻是指在出现顺序上前后相邻的两个主标题,如待检测图像所在视频帧的结束帧号与某个待检测图像所在视频帧的起始帧号相邻,说明两个待检测图像在出现顺序上前后相邻,相应的这两个待检测图像的主标题是时域相邻的两个主标题。从待检测图像的主标题的标识的角度出发,各个待检测图像的主标题的标识具有一定顺序关系,如各个待检测图像的主标题的标识的可行方式为数字,且依据主标题的出现次序(如基于各个待检测图像所在视频帧的帧号和/或各个待检测图像所在视频帧的出现时间确定主标题的出现次序)分配具有一定顺序关系的标识,如各标识按照数字由小到大的方式进行分配,这样若待检测图像的主标题的标识为1,则与其时域相邻的第一主标题为标识为2的第一主标题。
S113:在主标题和第一主标题相同的情况下,确定主标题和第一主标题为同一主标题。其中主标题和第一主标题相同是指:作为主标题的文本内容和作为第一主标题的文本内容阐述相同或相近的含义,在本实施例中可通过语义分析来确定作为主标题的文本内容和作为第一主标题的文本内容是否阐述相同或相近的含义,若是,则确定主标题和第一主标题相同,进而视主标题和第一主标题为同一个主标题。
而之所以需要对主标题和第一主标题是否为同一主标题进行检测是因为:通过对于新闻等视频的观察可发现,一条视频中经常会出现多次重复展示同一条标题的情况,如果仅依靠出现一次的标题就对视频进行拆分,则会导致视频的过拆分,为此本实施例需要对相邻的两个主标题是否为同一主标题进行检测,在确定相邻的两个主标题为同一主标题,则可以仅对这两个主标题对应的视频帧进行一次拆分即可,降低对视频进行过拆分的几率。
对于确定主标题和第一主标题是否为同一个主标题,可以参阅图8所示流程图,具体包括以下步骤:
S801:从包含主标题的至少一个待检测图像中选取一个待检测图像作为第一比对图像,以及从包含第一主标题的至少一个待检测图像中选取一个待检测图像作为第二比对图像。
如可以随机从包含主标题的至少一个待检测图像中选取一个待检测图像作为第一比对图像,随机从包含第一主标题的至少一个待检测图像中选取一个待检测图像作为第二比对图像;又或者根据包含主标题的待检测图像的图像要素信息选取,如对于包含主标题的至少一个待检测图像来说,选取位于(t1+t2)/2的待检测图像,t1为包含该主标题的待检测图像的出现时间中的起始时间,t2为包含该主标题的待检测图像的出现时间中的结束时间,同样的可以参阅包含主标题的待检测图像的选取方式,从包含第一主标题的至少一个待检测图像中选取出第二比对图像。
S802:若主标题位于所述第一比对图像中的第一候选标题图像,且所述第一主标题位于所述第二比对图像中的第一候选标题图像,或者所述主标题位于所述第一比对图像中的第二候选标题图像,且所述第一主标题位于所述第二比对图像中的第二候选标题图像,获取所述第一比对图像中预设比对区域处的第三比对图像和获取所述第二比对图像中所述预设比对区域处的第四比对图像。
在本实施例中,预设比对区域是以主标题和第一主标题其中之一在其所处比对图像中的区域设定,如以主标题在第一比对图像中的区域设定,如若主标题位于第一比对图像中的第一候选标题图像,则以第一候选标题图像设定预设比对区域,设定过程如下:
rectbd.x=x+w*R1;
rectbd.y=y+h*R2;
rectbd.w=w*R3;
rectbd.h=h*R4;
R1、R2、R3和R4均为预先设定的参数,而x和y为主标题和第一主标题其中之一在其所处比对图像中的候选标题图像的起始点,w为主标题和第一主标题其中之一在其所处比对图像中的候选标题图像的宽,H为主标题和第一主标题其中之一在其所处比对图像中的候选标题图像的高。
在得到预设比对区域后,从第一比对图像中提取出该预设比对区域所指位置的第三比对图像,以及从第二比对图像中提取出该预设比对区域所指位置的第四比对图像,
S803:获取第三比对图像的二值化图像和第四比对图像的二值化图像,具体可以参阅第一跟踪图像对应的二值化图像的获取过程,对此本实施例不再阐述。
S804:在第三比对图像的二值化图像和第四比对图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定主标题和第一主标题为同一个主标题。其中差分平均值的一种计算方式是:
Figure BDA0001585241180000291
其中C1(x,y)是第三比对图像的二值化图像,C2(x,y)是第四比对图像的二值化图像,且W是第三比对图像的宽,H是第三比对图像的高,在差分平均值小于预设阈值的情况下,确定主标题和第一主标题为同一个主标题。
若主标题和所述第一主标题其中之一位于所述第一候选标题图像,另一个位于所述第二候选标题图像,则需要按照图9所示方式来确定,具体过程如下:
S901:将第一比对图像和第二比对图像分别作为输入图像,对输入图像:获取该输入图像的图像掩码,并确定该输入图像的图像掩码对应的文本图像。其中输入图像的图像掩码的获取过程请参阅第一候选标题图像的图像掩码的生成过程,对此不再详述,而确定该输入图像的图像掩码对应的文本图像请参阅下述图10所示。
S902:对第一比对图像的文本图像和第二比对图像的文本图像进行配准,以使得第一比对图像的文本图像中文本内容的位置和第二比对图像的文本图像中文本内容的位置一致,且第一比对图像的文本图像和第二比对图像的文本图像的尺寸配置至同一个预设尺寸。
也就是说在本实施例中,配准的过程包括:将第一比对图像的文本图像和第二比对图像的文本图像的尺寸配准至同一个预设尺寸;将第一比对图像的文本图像中文本内容的位置和第二比对图像的文本图像中文本内容的位置配准为同一个预设位置。
例如对于图像配准来说,预设尺寸可以是预先为第一比对图像的文本图像和第二比对图像的文本图像设置的一个尺寸,以预设尺寸为基准将第一比对图像的文本图像和第二比对图像的文本图像的尺寸缩放至预设尺寸,该预设尺寸可以根据实际应用而定,具体不进行限制。
又或者,预设尺寸可以是第一比对图像的文本图像或第二比对图像的文本图像的尺寸,以该预设尺寸为基准,将未被选定为预设尺寸的文本图像的尺寸缩放至该预设尺寸。即以第一比对图像的文本图像或第二比对图像的文本图像的尺寸设置为预设尺寸,将另一个文本图像的尺寸缩放至预设尺寸,这种方式相对于上一种图像配准方式来说仅需要缩放第三比对图像的文本图像和第四比对图像的文本图像中的一个文本图像,减少缩放操作次数。
同样的,对于文本内容配准来说,其配准的可行方式与上述图像配准方式类似,预设位置可以是预先为文本内容设置的一个位置,如文本图像的中间位置或边缘位置中的任意一种,将第一比对图像的文本图像中的文本内容搬移至与该预设位置对应的位置以及将第二比对图像的文本图像中的文本内容搬移至与该预设位置对应的位置。又或者,预设位置可以是第一比对图像的文本图像中文本内容所在的位置或第二比对图像的文本图像中文本内容所在的位置,以该预设位置为基准,将未被选定为预设位置的文本图像中的文本内容搬移至文本图像中与该预设位置对应的位置。
S903:获取第一比对图像的文本图像的二值化图像和第二比对图像的文本图像的二值化图像。
S904:在第一比对图像的文本图像的二值化图像和第二比对图像的文本图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定主标题和第一主标题为同一个主标题,具体请参阅上述S803和S804,对此本实施例不再阐述。
请参阅图10,其示出了本发明实施例提供的得到输入图像的图像掩码对应的文本图像的过程,可以包括以下步骤:
S1001:对图像掩码进行垂直方向投影以及对图像掩码进行水平方向投影,得到图像掩码的垂直方向特征集合Hb和图像掩码的水平方向特征集合Hv。
在本实施例中,得到图像掩码的垂直方向特征集合Hb的过程是:对图像掩码中的每列像素:对第i列像素中的像素值进行统计,得到该列像素中的像素值不等于背景像素取值的个数numb,若numb小于预设像素个数,则Hb[i]=1,否则Hb[i]=0,i的取值范围是[0,W-1],W为图像掩码的宽度,在对每列进行统计后得到垂直方向特征集合Hb;相对应的,得到图像掩码的水平方向特征集合Hv的过程是:对图像掩码中的每行像素:对第i行像素中的像素值进行统计,得到该行像素中的像素值不等于背景像素取值的个数numv,若numv小于预设像素个数,则Hv[i]=1,否则Hv[i]=0,i的取值范围是[0,H-1],W为图像掩码的高度,在对每行进行统计后得到水平方向特征集合Hv,其中预设像素个数可以根据实际应用而定,对此本实施例不进行限定。
S1002:基于图像掩码的垂直方向特征集合Hb中的元素和图像掩码的水平方向特征集合Hv中的元素,得到输入图像中的文本区域所在位置(xstart,ystart,xend-xstart,yend-ystart),即得到包含文本内容的区域所在位置,其中xstart为文本区域在垂直方向上的起始位置,xend为文本区域在垂直方向上的结束位置,ystart为文本区域在水平方向上的起始位置,yend为文本区域在水平方向上的结束位置。
在本实施例中,得到文本区域所在位置(xstart,ystart,xend-xstart,yend-ystart)的过程包括:对图像掩码的垂直方向特征集合Hb中的元素进行遍历,若垂直方向特征集合Hb中的元素Hb[i]至Hb[i+n]满足第一预设条件,则确定垂直方向上位置[i,i+n]对应区域为标题区域,i的取值范围是[0,W-n-1];将标题区域中的第一个文字所在位置确定为文本区域在垂直方向上的起始位置xstart,将标题区域中的最后一个字所在位置确定为文本区域在垂直方向上的结束位置xend
如对于垂直方向特征集合Hb中的元素Hb[i]至Hb[i+n]来说,若满足(i==0||Hb[i-1]==1)&&(Hb[i]==0,Hb[i+1]==0,…,Hb[i+n]==0)&&(Hb[i+n+1]==1||i==W-1),则确定垂直方向上位置[i,i+n]对应区域为标题区域。
对图像掩码的水平方向特征集合Hv中的元素进行遍历,若Hv[i]满足第二预设条件,则确定i所在位置为文本区域在水平方向上的起始位置ystart。若Hv[i]不满足第二预设条件,则确定文本区域在水平方向上的起始位置ystart=0。若Hv[j]满足第三预设条件,则确定j所在位置为文本区域在水平方向上的结束位置yend。若Hv[j]不满足第三预设条件,则确定文本区域在水平方向上的起始位置yend=H-1,i和j的取值为[0,H-1]。
如对于水平方向特征集合Hv中的Hv[i]来说,若Hv[0]==0,Hv[1]==0,…,Hv[i-1]==0,Hv[i]=1,则将水平方向上i所在位置确定为ystart,若没有符合此条件的i,则确定ystart=0;对于水平方向特征集合Hv中的Hv[j]来说,若Hv[j]=1,Hv[j-1]==0,…,Hv[H-1]==0,则将水平方向上j所在位置确定为yend,否则确定yend=H-1。
在这里需要说明的一点是:对于垂直方向特征集合Hb中的元素来说,上述第一预设条件中的(i==0||Hb[i-1]==1)以及(Hb[i+n+1]==1||i==W-1)表示:如果i==0,无论Hb[0]的取值是什么(i==0||Hb[i-1]==1)都成立,同理如果i==W-1,无论Hb[W-1]的取值是什么(Hb[i+n+1]==1||i==W-1)都成立,这样避免Hb全部等于0时,得不到[i,i+n]的情况。而对于一副文本图像来说,Hb中的元素不会全部都是1,因此通过上述第一预设条件,能得到[i,i+n]。而之所以可以将[i,i+n]对应的区域作为标题区域,是因为在图像处理领域,x代表列(即垂直)方向上的坐标,取值为[0,W-1],W是图像的宽度,上述对图像掩码进行垂直方向投影可视为是对图像掩码中的每列,即每个x进行投影,故而Hb中的每一位i的取值范围就是[0,W-1],由此可认为i和x是等同的,进而可以将[i,i+n]对应的区域作为标题区域。
S1002:将文本区域所在位置(xstart,ystart,xend-xstart,yend-ystart)对应的图像确定为输入图像的文本图像。
与上述方法实施例相对应,本发明实施例还提供一种文本检测装置,其结构如图11所示,可以包括:获取单元11、图像确定单元12、像素值确定单元13、候选主标题确定单元14和候选副标题确定单元15。
获取单元11,用于获取待检测图像,如待检测图像是输入的视频帧中的一幅图像。
图像确定单元12,用于确定待检测图像中的第一候选标题图像。其中第一候选标题图像是待检测图像中潜在存在标题的区域对应的图像,在本实施例中图像确定单元12的结构如图12所示,可以包括:获取子单元121、投影子单元122、候选图像确定子单元123和候选标题图像确定子单元124。
获取子单元121,用于获取待检测图像中预设区域对应的图像的边缘图像,预设区域为待检测图像中潜在存在标题的区域。
如预设区域是经过对多个待检测图像中标题的位置进行分析得到的区域,也就是说预设区域是待检测图像中潜在存在标题的区域,通过这种区域选取方式确定视频帧中标题的大概位置,减少计算量并提高检测精度,例如经过对多个待检测图像中标题的位置进行分析确定出底部区域为待检测图像中预计存在标题的区域,则将待检测图像的底部区域视为预设区域。
相对应的,获取子单元121获取待检测图像中预设区域对应的图像的边缘图像的过程为:对待检测图像中预设区域对应的图像进行转换,得到第一图像;根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对第一图像进行边缘提取,得到第一图像的水平边缘图像和第一图像的垂直边缘图像;根据第一图像的水平边缘图像和第一图像的垂直边缘图像,得到第一图像的第一边缘图像,并对第一边缘图像进行二值化处理,得到第一边缘图像的二值化边缘图像;根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对待检测图像中预设区域对应的图像的RGB三个通道中的至少一个通道进行边缘提取,得到进行边缘提取的通道对应的边缘强度图像;对进行边缘提取的通道对应的边缘强度图像进行二值化处理,得到进行边缘提取的通道对应的二值化边缘图像;根据进行边缘提取的通道对应的二值化边缘图像对第一边缘图像的二值化边缘图像进行边缘加强,得到待检测图像中预设区域对应的图像的边缘图像,具体说明请参阅方法实施例中的相关说明,对此本实施例不在阐述。
投影子单元122,用于对边缘图像进行水平投影和垂直投影,得到边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界。具体的,投影子单元122得到边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界的过程如下:
对边缘图像进行水平方向投影,得到边缘图像在水平方向的直方图;根据边缘图像在水平方向的直方图,得到第一阶段候选区域,并根据第一阶段候选区域,确定边缘图像的上边界和边缘图像的下边界;对第一阶段候选区域进行垂直方向投影,得到第一阶段候选区域在垂直方向的直方图,并根据第一阶段候选区域在垂直方向的直方图,从第一阶段候选区域中选取出满足第一预设条件的区域,将满足第一预设条件的区域确定为第二阶段候选区域;获取待检测图像中与第二阶段候选区域对应的图像;每间隔预设滑动窗口对与第二阶段候选区域对应的图像进行扫描,得到与第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图;根据与第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图,确定出与第二阶段候选区域对应的图像中满足第二预设条件的区域,根据与第二阶段候选区域对应的图像中满足第二预设条件的区域,确定边缘图像的左边界和边缘图像的右边界,具体说明请参阅方法实施例中的相关说明,对此本实施例不在阐述。
候选图像确定子单元123,用于根据边缘图像的上边界、边缘图像的下边界、边缘图像的左边界和边缘图像的右边界,确定边缘图像中的第一候选图像,如将这四个边界组成区域的图像视为第一候选图像。
候选标题图像确定子单元124,用于在确定第一候选图像满足预设约束条件的情况下,确定第一候选图像为第一候选标题图像。如预设约束条件可以是但不限于是对四个边界组成区域进行限定,如四个边界组成区域的起点位置在预设位置范围内,且四个边界组成区域的高度在预设高度范围内,则可以确定第一候选图像满足预设约束条件,此时将第一候选图像视为第一候选标题图像,其中预设位置范围和预设高度范围可以根据实际应用而定,对此本实施例不进行限定。
像素值确定单元13,用于确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值,即确定出第一候选标题图像中的文本部分的像素值(即第一文本像素值)和背景部分的像素值(即第一背景像素值),实现对第一候选标题图像中文本部分和背景部分的颜色信息的提取,进而可以根据颜色信息判断是否可作为候选主标题或候选副标题。
在本实施例中,像素值确定单元13的结构如图13所示,可以包括:二值化图像获取子单元131、基准像素值获取子单元132、背景像素取值获取子单元133、图像掩码生成子单元134和像素值确定子单元135。
二值化图像获取子单元131,用于获取第一候选标题图像的二值化图像,具体请参阅方法实施例中的相关说明,对此本实施例不在阐述。
基准像素值获取子单元132,用于根据二值化图像中的每行像素和/或每列像素,得到二值化图像的基准像素值。也就是说得到二值化的基准像素值的方式可以是:根据二值化图像中的每行像素和二值化图像中的每列像素中的至少部分像素,如根据二值化图像中的每行像素、或者根据二值化图像中的每列像素、或者根据二值化图像中的每行像素和每列像素,其过程如下:
对二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,行计数值用于统计二值化图像中满足第一预设条件的行数,该第一预设条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,j是二值化图像中的第1行至第N-1行像素中的任意一行,N为二值化图像的行总数,由每行像素的基准像素值的更新公式可知,二值化图像中的第N-1行像素的基准像素值back_color[N-1]为二值化图像中第0行像素至第N-1行像素中满足第一预设条件的所有行的第i个像素的像素值color之和,相应的二值化图像中的第N-1行像素的行计数值count[N-1]为二值化图像中第0行像素至第N-1行像素中满足第一预设条件的行数,即二值化图像最终的行计数值。
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,列计数值用于统计二值化图像中满足第二预设条件的列数,该第二预设条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且计数值更新为count[x]=count[x-1]+1,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,M为二值化图像的列总数,由每列像素的基准像素值的更新公式可知,二值化图像中的第M-1列像素的基准像素值back_color[M-1]为二值化图像中第0列像素至第M-1列像素中满足第二预设条件的所有行的第y个像素的像素值color之和,相应的二值化图像中的第M-1列像素的列计数值count[M-1]为二值化图像中第0列像素至第M-1列像素中满足第二预设条件的列数,即二值化图像最终的列计数值。
其中上述第i个像素的像素值可以是每行像素中的第0个像素的像素值,同样的,第y个像素的像素值可以是每列像素中的第0个像素的像素值,以每行像素和每列像素中的第0个像素的像素值为基准来得到基准像素值,相对于仅基于每行像素或每列像素得到基准像素值的方式来说,基准像素值的准确度提高,进而使得最终得到的图像掩码的准确度提高。在本实施例中,预设个数可以根据实际应用而定,同样的基准像素值、行计数值和列计数值的初始值也可以根据实际应用而定,如可以设置为0。
在基于每行像素或每列像素得到二值化图像的基准像素值和二值化图像的计数值时,统计得到的第N-1行像素的基准像素值back_color[N-1]或第M-1列像素的基准像素值back_color[M-1]则是二值化图像的基准像素值,相应的统计得到的第N-1行像素的行计数值count[N-1]或第M-1列像素的列计数值count[M-1]则是二值化图像的计数值。对于基于每行像素和每列像素得到二值化图像的基准像素值和二值化图像的计数值时,可以将二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为二值化图像的基准像素值,将二值化图像中的第N-1行像素的行计数值count[N-1]和二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为二值化图像的计数值。
背景像素取值获取子单元133,用于根据二值化图像的基准像素值,得到二值化图像的背景像素取值。如在得到基准像素值和计数值后,可以根据基准像素值和计数值得到二值化图像的背景像素取值,如基于公式back_color=back_color/count得到基准像素值的平均值,若基准像素值的平均值小于预设均值(如128),则确定背景像素取值为0,若基准像素值的平均值大于或等于预设均值,则确定背景像素取值为255。
图像掩码生成子单元134,用于根据背景像素取值和二值化图像中每个像素的像素值,生成第一候选标题图像的图像掩码。相对应的,图像掩码生成子单元134根据背景像素取值和二值化图像中每个像素的像素值,生成第一候选标题图像的图像掩码的过程是:背景像素取值和二值化图像中每个像素的像素值的比对过程,例如,若二值化图像中每个像素的像素值等于背景像素取值,则确定该像素所在位置为背景区域,并将其像素值置为0,若二值化图像中每个像素的像素值不等于背景像素取值,则确定该像素所在位置为文本区域,并将其像素值置为255,从而得到第一候选标题图像的图像掩码。
像素值确定子单元135,用于根据图像掩码中像素值等于第一预设像素值的像素,确定第一文本像素值,以及用于根据图像掩码中像素值等于第二预设像素值的像素,确定第一背景像素值。如计算图像掩码中像素值等于255(第一预设像素值的一种可行方式)的像素在待检测图像中的RGB通道的均值,将图像掩码中像素值等于255的像素在待检测图像中的RGB通道的均值确定为第一文本像素值。
候选主标题确定单元14,用于在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题。
以第一文本像素值为图像掩码中像素值等于255的像素在待检测图像中的RGB通道的均值,第一背景像素值为图像掩码中像素值等于0的像素在待检测图像中的RGB通道的均值为例,假设第一文本像素值包括:RText_avg、GText_avg、BText_avg,第一预设主标题颜色范围包括RGB通道各自对应的主标题文本颜色阈值范围,分别为:[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high],第一背景像素值包括:Rback_avg、Gback_avg、Bback_avg,第二预设主标题颜色范围包括RGB通道各自对应的主标题背景颜色阈值范围,分别为[Rmain_back_low,Rmain_back_high],[Gmain_back_low,Gmain_back_high],[Bmain_back_low,Bmain_back_high],将上述RText_avg、GText_avg、BText_avg分别与各自对应的主标题文本颜色阈值范围进行比对,将上述Rback_avg、Gback_avg、Bback_avg分别与各自对应的主标题背景颜色阈值范围进行比对,若上述RText_avg、GText_avg、BText_avg分别位于各自对应的主标题文本颜色阈值范围内,且上述Rback_avg、Gback_avg、Bback_avg位于各自对应的主标题背景颜色阈值范围内,则判断第一候选标题图像包含的文本内容为候选主标题。
在这里需要说明的一点是:上述第一预设主标题颜色范围和第二预设主标题颜色范围,如可以设置n个[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high],同时设置m个[Rmain_back_low,Rmain_back_high],[Gmain_back_low,Gmain_back_high],[Bmain_back_low,Bmain_back_high],当第一文本像素值满足上述n个[Rmain_text_low,Rmain_text_high],[Gmain_text_low,Gmain_text_high],[Bmain_text_low,Bmain_text_high]中的任意一个,则视为位于第一预设主标题颜色范围内,同理对于第一背景像素值同样适用。
候选副标题确定单元15,用于在第一文本像素值不位于第一预设主标题颜色范围内或第一背景像素值不位于第二预设主标题颜色范围内的情况下,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题。
在本实施例中,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题的过程如下:
在第一文本像素值不位于第一预设副标题颜色范围内或第一背景像素值不位于第二预设副标题颜色范围内的情况下,候选副标题确定单元15确定第一候选标题图像包含的文本内容不属于标题。
在第一文本像素值位于第一预设副标题颜色范围内,且第一背景像素值位于第二预设副标题颜色范围内的情况下,由图像确定单元12确定待检测图像中的第二候选标题图像,并由像素值确定单元13确定第二候选标题图像中的第二文本像素值和第二背景像素值,具体过程请参阅方法实施例中的相关说明,对此本实施例不再阐述。
在第二文本像素值位于第一预设主标题颜色范围内,且第二背景像素值位于第二预设主标题颜色范围内的情况下,候选副标题确定单元15确定第一候选标题图像包含的文本内容为候选副标题,而在第二文本像素值位于第一预设主标题颜色范围内,且第二背景像素值位于第二预设主标题颜色范围内的情况下,候选主标题确定单元14确定第二候选标题图像包含的文本内容为候选主标题;在第二文本像素值不位于第一预设主标题颜色范围内或第二背景像素值不位于第二预设主标题颜色范围内的情况下,候选主标题确定单元14确定第一候选标题图像包含的文本内容为候选主标题,具体过程请参阅方法实施例中的相关说明,对此本实施例不再阐述。
从上述技术方案可知,在获取待检测图像后,确定待检测图像中的第一候选标题图像,以确定出第一候选标题图像在待检测图像中的位置,并确定第一候选标题图像中的第一文本像素值和第一候选标题图像中的第一背景像素值。在第一文本像素值位于第一预设主标题颜色范围内,且第一背景像素值位于第二预设主标题颜色范围内的情况下,确定第一候选标题图像包含的文本内容为候选主标题,而在第一文本像素值不位于第一预设主标题颜色范围内或第一背景像素值不位于第二预设主标题颜色范围内的情况下,根据第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定第一候选标题图像包含的文本内容是否可作为候选副标题,实现根据位置和颜色对图像中主副标题的自动检测,并且这种根据位置和颜色检测主副标题的方式适用于新闻等具有复杂标题结构的待检测图像,从而可以从复杂标题结构中检测出主副标题。
请参阅图14,其示出了本发明实施例提供的文本检测装置的另一种结构,在图11基础上还可以对候选主标题和候选副标题中的至少一个标题进行跟踪,以确定其是否可作为待检测图像的标题,具体的图14所示文本检测装置在图11基础上还可以包括:区域确定单元16、跟踪图像获取单元17、图像获取单元18、取值更新单元19和图像标题确定单元20。
区域确定单元16,用于确定候选标题所在区域对应的跟踪区域,其中候选标题为候选主标题或候选副标题。可以理解的是:由于候选标题所在区域可能包含背景区域,为了提高跟踪的准确性,需要设置跟踪区域,其设置方法可以参阅方法实施例中的相关说明。并且通过设置方法确定的跟踪区域小于候选标题所在区域,而之所以确定一个小于候选标题所在区域的跟踪区域是因为:待检测图像中的标题存在背景变化特效或在尾部出现渐变的透明背景等潜在变化,而选取小于候选标题所在区域的跟踪区域可以避免这些潜在变化对于跟踪的干扰,提高跟踪的成功率。
跟踪图像获取单元17,用于从待检测图像中获取跟踪区域对应的第一跟踪图像,以及用于获取下一个待检测图像,并确定下一个待检测图像对应的第二跟踪图像。
图像获取单元18,用于获取第一跟踪图像对应的二值化图像和/或第一跟踪图像对应的颜色直方图,以及用于获取第二跟踪图像对应的二值化图像和/或第二跟踪图像对应的颜色直方图,具体请参阅方法实施例中的相关说明,对此本实施例不再阐述。
取值更新单元19,用于根据第一跟踪图像对应的二值化图像与第二跟踪图像对应的二值化图像、和/或,第一跟踪图像对应的颜色直方图与第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值。
也就是说,取值更新单元19可以根据第一跟踪图像对应的二值化图像与第二跟踪图像对应的二值化图像,更新跟踪计数取值和丢失计数取值,或者根据第一跟踪图像对应的颜色直方图与第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值,或者根据第一跟踪图像对应的二值化图像、第二跟踪图像对应的二值化图像、第一跟踪图像对应的颜色直方图与第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值,具体更新过程请参阅方法实施例中的相关说明,对此本实施例不再阐述。
图像标题确定单元20,用于在丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定候选标题为待检测图像的标题。在本实施例中,设置丢失计数取值的目的是为了避免个别接收视频帧时受到干扰引起视频帧出现失真,进而导致跟踪失败,而通过丢失计数取值可以允许一定数量的视频帧跟踪失败。
从上述技术方案,在确定待检测图像的候选主标题和候选副标题中至少一种标题的情况下,通过待检测图像和下一个待检测图像中对应的跟踪图像,可以进一步确定候选标题是否可作为待检测图像的标题,实现对候选标题的自动检测,以确定出待检测图像的标题,进而在确定出待检测图像的标题的情况下,可以基于待检测图像的标题进行视频拆分。
请参阅图15,其示出了本发明实施例提供的再一种文本检测装置的结构,在图14基础上还可以包括:要素信息获取单元21、相邻标题确定单元22和同一标题确定单元23。
要素信息获取单元21,用于在确定候选主标题为待检测图像的主标题的情况下,获取待检测图像的图像要素信息,待检测图像的图像要素信息至少表明待检测图像所在视频帧的相关信息和/或待检测图像的主标题的相关信息,以确定时域相邻的两个主标题,如图像要素信息包括但不限于待检测图像所在视频帧的帧号、待检测图像所在视频帧的出现时间、待检测图像的主标题的标识,具体说明请参阅方法实施例,对此本实施例不再阐述。
相邻标题确定单元22,用于根据待检测图像的图像要素信息,确定与待检测图像的主标题时域相邻的第一主标题。如可以根据上述待检测图像所在视频帧的帧号、待检测图像所在视频帧的出现时间,待检测图像的主标题的标识中的至少一种,确定与待检测图像的主标题时域相邻的第一主标题,所谓时域相邻是指在出现顺序上前后相邻的两个主标题,如待检测图像所在视频帧的结束帧号与某个待检测图像所在视频帧的起始帧号相邻,说明两个待检测图像在出现顺序上前后相邻,相应的这两个待检测图像的主标题是时域相邻的两个主标题。
同一标题确定单元23,用于在主标题和第一主标题相同的情况下,确定主标题和第一主标题为同一个主标题。其中主标题和第一主标题相同是指:作为主标题的文本内容和作为第一主标题的文本内容阐述相同或相近的含义,在本实施例中可通过语义分析来确定作为主标题的文本内容和作为第一主标题的文本内容是否阐述相同或相近的含义,若是,则确定主标题和第一主标题相同,进而视主标题和第一主标题为同一个主标题。
而之所以需要对主标题和第一主标题是否为同一主标题进行检测是因为:通过对于新闻等视频的观察可发现,一条视频中经常会出现多次重复展示同一条标题的情况,如果仅依靠出现一次的标题就对视频进行拆分,则会导致视频的过拆分,为此本实施例需要对相邻的两个主标题是否为同一主标题进行检测,在确定相邻的两个主标题为同一主标题,则可以仅对这两个主标题对应的视频帧进行一次拆分即可,降低对视频进行过拆分的几率。
在本实施例中,同一标题确定单元23确定主标题和第一主标题为同一个主标题的过程如下,且具体说明请参阅方法实施例中的相关说明:
从包含主标题的至少一个待检测图像中选取一个待检测图像作为第一比对图像,以及从包含第一主标题的至少一个待检测图像中选取一个待检测图像作为第二比对图像;若主标题位于第一比对图像中的第一候选标题图像,且第一主标题位于第二比对图像中的第一候选标题图像,或者主标题位于第一比对图像中的第二候选标题图像,且第一主标题位于第二比对图像中的第二候选标题图像,获取第一比对图像中预设比对区域处的第三比对图像和获取第二比对图像中预设比对区域处的第四比对图像,并获取第三比对图像的二值化图像和第四比对图像的二值化图像,在第三比对图像的二值化图像和第四比对图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定主标题和第一主标题为同一个主标题。
若主标题和第一主标题其中之一位于第一候选标题图像,另一个位于第二候选标题图像,则同一标题确定单元将第一比对图像和第二比对图像分别作为输入图像,对输入图像:获取该输入图像的图像掩码,并确定该输入图像的图像掩码对应的文本图像;对第一比对图像的文本图像和第二比对图像的文本图像进行配准,以使得第一比对图像的文本图像中文本内容的位置和第二比对图像的文本图像中文本内容的位置一致,且第一比对图像的文本图像和第二比对图像的文本图像的尺寸配准至同一个预设尺寸,并获取第一比对图像的文本图像的二值化图像和第二比对图像的文本图像的二值化图像,在第一比对图像的文本图像的二值化图像和第二比对图像的文本图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定主标题和第一主标题为同一个主标题。
与上述方法实施例相对应,本发明实施例还提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述文本检测方法。
与上述方法实施例相对应,本发明实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述文本检测方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (18)

1.一种文本检测方法,其特征在于,所述方法包括:
获取待检测图像,并确定所述待检测图像中的第一候选标题图像;
确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值;
在所述第一文本像素值位于第一预设主标题颜色范围内,且所述第一背景像素值位于第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题;
在所述第一文本像素值不位于所述第一预设主标题颜色范围内或所述第一背景像素值不位于所述第二预设主标题颜色范围内的情况下,根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为候选副标题。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测图像中的第一候选标题图像包括:
获取所述待检测图像中预设区域对应的图像的边缘图像,所述预设区域为所述待检测图像中潜在存在标题的区域;
对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界;
根据所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界,确定所述边缘图像中的第一候选图像;
在确定所述第一候选图像满足预设约束条件的情况下,确定所述第一候选图像为所述第一候选标题图像。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待检测图像中预设区域对应的图像的边缘图像包括:
对所述待检测图像中预设区域对应的图像进行转换,得到第一图像;
根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对所述第一图像进行边缘提取,得到所述第一图像的水平边缘图像和所述第一图像的垂直边缘图像;
根据所述第一图像的水平边缘图像和所述第一图像的垂直边缘图像,得到所述第一图像的第一边缘图像,并对所述第一边缘图像进行二值化处理,得到所述第一边缘图像的二值化边缘图像;
根据水平方向边缘梯度算子和垂直方向边缘梯度算子,对所述待检测图像中预设区域对应的图像的RGB三个通道中的至少一个通道进行边缘提取,得到进行边缘提取的通道对应的边缘强度图像;
对所述进行边缘提取的通道对应的边缘强度图像进行二值化处理,得到所述进行边缘提取的通道对应的二值化边缘图像;
根据所述进行边缘提取的通道对应的二值化边缘图像对所述第一边缘图像的二值化边缘图像进行边缘加强,得到所述待检测图像中预设区域对应的图像的边缘图像。
4.根据权利要求3所述的方法,其特征在于,所述对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界包括:
对所述边缘图像进行水平方向投影,得到所述边缘图像在水平方向的直方图;
根据所述边缘图像在水平方向的直方图,得到第一阶段候选区域,并根据所述第一阶段候选区域,确定所述边缘图像的上边界和所述边缘图像的下边界;
对所述第一阶段候选区域进行垂直方向投影,得到所述第一阶段候选区域在垂直方向的直方图,并根据所述第一阶段候选区域在垂直方向的直方图,从所述第一阶段候选区域中选取出满足第一预设条件的区域,将所述满足第一预设条件的区域确定为第二阶段候选区域;
获取所述待检测图像中与所述第二阶段候选区域对应的图像;
每间隔预设滑动窗口对与所述第二阶段候选区域对应的图像进行扫描,得到与所述第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图;
根据与所述第二阶段候选区域对应的图像中与每个预设滑动窗口对应的区域的颜色直方图,确定出与所述第二阶段候选区域对应的图像中满足第二预设条件的区域,根据与所述第二阶段候选区域对应的图像中满足第二预设条件的区域,确定所述边缘图像的左边界和所述边缘图像的右边界。
5.根据权利要求1所述的方法,其特征在于,所述确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值包括:
获取所述第一候选标题图像的二值化图像;
根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值;
根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值;
根据所述背景像素取值和所述二值化图像中每个像素的像素值,生成所述第一候选标题图像的图像掩码;
根据所述图像掩码中像素值等于第一预设像素值的像素,确定所述第一文本像素值;
根据所述图像掩码中像素值等于第二预设像素值的像素,确定所述第一背景像素值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值包括:
对所述二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,所述行计数值用于统计所述二值化图像中满足第一计数条件的行数,所述第一计数条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,j是所述二值化图像中的第1行至第N-1行像素中的任意一行,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,N为所述二值化图像的行总数;
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,所述列计数值用于统计所述二值化图像中满足第二计数条件的列数,所述第二计数条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且列计数值更新为count[x]=count[x-1]+1,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,M为所述二值化图像的列总数;
将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第M-1列像素的列计数值count[M-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]和所述二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为所述二值化图像的计数值;
所述根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值包括:根据所述二值化图像的基准像素值和所述二值化图像的计数值,得到所述二值化图像的背景像素取值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为副标题包括:
在所述第一文本像素值不位于所述第一预设副标题颜色范围内或所述第一背景像素值不位于所述第二预设副标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容不属于标题;
在所述第一文本像素值位于所述第一预设副标题颜色范围内,且所述第一背景像素值位于所述第二预设副标题颜色范围内的情况下,确定所述待检测图像中的第二候选标题图像;
确定所述第二候选标题图像中的第二文本像素值和第二背景像素值;
在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选副标题,确定所述第二候选标题图像包含的文本内容为候选主标题;
在所述第二文本像素值不位于所述第一预设主标题颜色范围内或所述第二背景像素值不位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定候选标题所在区域对应的跟踪区域,并从所述待检测图像中获取所述跟踪区域对应的第一跟踪图像,其中所述候选标题为所述候选主标题或所述候选副标题;
获取所述第一跟踪图像对应的二值化图像和/或所述第一跟踪图像对应的颜色直方图;
获取下一个待检测图像,并确定所述下一个待检测图像对应的第二跟踪图像;
获取所述第二跟踪图像对应的二值化图像和/或所述第二跟踪图像对应的颜色直方图;
根据所述第一跟踪图像对应的二值化图像与所述第二跟踪图像对应的二值化图像、和/或,所述第一跟踪图像对应的颜色直方图与所述第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值;
在所述丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定所述候选标题为所述待检测图像的标题。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:在确定所述候选主标题为所述待检测图像的主标题的情况下,获取所述待检测图像的图像要素信息,所述待检测图像的图像要素信息至少表明待检测图像所在视频帧的相关信息和/或待检测图像的主标题的相关信息,以确定时域相邻的两个主标题;
根据所述待检测图像的图像要素信息,确定与所述待检测图像的主标题时域相邻的第一主标题;
在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题。
10.根据权利要求9所述的方法,其特征在于,所述在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题包括:
从包含所述主标题的至少一个待检测图像中选取一个待检测图像作为第一比对图像,以及从包含所述第一主标题的至少一个待检测图像中选取一个待检测图像作为第二比对图像;
若所述主标题位于所述第一比对图像中的第一候选标题图像,且所述第一主标题位于所述第二比对图像中的第一候选标题图像,或者所述主标题位于所述第一比对图像中的第二候选标题图像,且所述第一主标题位于所述第二比对图像中的第二候选标题图像,获取所述第一比对图像中预设比对区域处的第三比对图像和获取所述第二比对图像中所述预设比对区域处的第四比对图像;
获取所述第三比对图像的二值化图像和所述第四比对图像的二值化图像;
在所述第三比对图像的二值化图像和所述第四比对图像的二值化图像之间的差分平均值小于预设阈值的情况下,确定所述主标题和所述第一主标题为同一个主标题。
11.根据权利要求10所述的方法,其特征在于,若所述主标题和所述第一主标题其中之一位于所述第一候选标题图像,另一个位于所述第二候选标题图像,则将所述第一比对图像和所述第二比对图像分别作为输入图像,对所述输入图像:获取该输入图像的图像掩码,并确定该输入图像的图像掩码对应的文本图像;
对所述第一比对图像的文本图像和所述第二比对图像的文本图像进行配准,以使得所述第一比对图像的文本图像中文本内容的位置和所述第二比对图像的文本图像中文本内容的位置一致,且所述第一比对图像的文本图像和所述第二比对图像的文本图像的尺寸配准至同一个预设尺寸;
获取所述第一比对图像的文本图像的二值化图像和所述第二比对图像的文本图像的二值化图像;
在所述第一比对图像的文本图像的二值化图像和所述第二比对图像的文本图像的二值化图像之间的差分平均值小于所述预设阈值的情况下,确定所述主标题和所述第一主标题为同一个主标题。
12.一种文本检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检测图像;
图像确定单元,用于确定所述待检测图像中的第一候选标题图像;
像素值确定单元,用于确定所述第一候选标题图像中的第一文本像素值和所述第一候选标题图像中的第一背景像素值;
候选主标题确定单元,用于在所述第一文本像素值位于第一预设主标题颜色范围内,且所述第一背景像素值位于第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题;
候选副标题确定单元,用于在所述第一文本像素值不位于所述第一预设主标题颜色范围内或所述第一背景像素值不位于所述第二预设主标题颜色范围内的情况下,根据所述第一文本像素值、第一背景像素值、第一预设副标题颜色范围和第二预设副标题颜色范围,确定所述第一候选标题图像包含的文本内容是否可作为候选副标题。
13.根据权利要求12所述的装置,其特征在于,所述图像确定单元包括:
获取子单元,用于获取所述待检测图像中预设区域对应的图像的边缘图像,所述预设区域为所述待检测图像中潜在存在标题的区域;
投影子单元,用于对所述边缘图像进行水平投影和垂直投影,得到所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界;
候选图像确定子单元,用于根据所述边缘图像的上边界、所述边缘图像的下边界、所述边缘图像的左边界和所述边缘图像的右边界,确定所述边缘图像中的第一候选图像;
候选标题图像确定子单元,用于在确定所述第一候选图像满足预设约束条件的情况下,确定所述第一候选图像为所述第一候选标题图像。
14.根据权利要求12所述的装置,其特征在于,所述像素值确定单元包括:
二值化图像获取子单元,用于获取所述第一候选标题图像的二值化图像;
基准像素值获取子单元,用于根据所述二值化图像中的每行像素和/或每列像素,得到所述二值化图像的基准像素值;
背景像素取值获取子单元,用于根据所述二值化图像的基准像素值,得到所述二值化图像的背景像素取值;
图像掩码生成子单元,用于根据所述背景像素取值和所述二值化图像中每个像素的像素值,生成所述第一候选标题图像的图像掩码;
像素值确定子单元,用于根据所述图像掩码中像素值等于第一预设像素值的像素,确定所述第一文本像素值,以及用于根据所述图像掩码中像素值等于第二预设像素值的像素,确定所述第一背景像素值。
15.根据权利要求14所述的装置,其特征在于,所述基准像素值获取子单元具体用于对所述二值化图像中的第0行像素:获取该行像素中第i个像素的像素值color,并统计该行像素中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color由初始值更新为back_color[0]=color,且行计数值由初始值更新为count[0]=1,所述行计数值用于统计所述二值化图像中满足第一计数条件的行数,所述第一计数条件为同一行像素中的像素值不等于该行中第i个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1行至第N-1行像素中的任意一行像素:获取该行中第i个像素的像素值color,并统计该行中像素值不等于第i个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[j]=back_color[j-1]+color,行计数值更新为count[j]=count[j-1]+1,j是所述二值化图像中的第1行至第N-1行像素中的任意一行,back_color[j-1]是基于第j-1行中像素值得到的基准像素值,count[j-1]是基于第j-1行中像素值得到的行计数值,N为所述二值化图像的行总数;
对二值化图像中的第0列像素:获取该列像素中第y个像素的像素值color,并统计该列像素中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值back_color更新为back_color[0]=color,且列计数值更新为count[0]=1,所述列计数值用于统计所述二值化图像中满足第二计数条件的列数,所述第二计数条件为同一列像素中的像素值不等于该列中第y个像素的像素值的像素个数小于预设个数;
对二值化图像中的第1列至第M-1列像素中的任意一列像素:获取该列中第y个像素的像素值color,并统计该列中像素值不等于第y个像素的像素值的像素个数,若像素个数小于预设个数,则基准像素值更新为back_color[x]=back_color[x-1]+color,且列计数值更新为count[x]=count[x-1]+1,x是所述二值化图像中的第1列至第M-1列像素中的任意一列,back_color[x-1]是基于第x-1列中像素值得到的基准像素值,count[x-1]是基于第x-1列中像素值得到的列计数值,M为所述二值化图像的列总数;
将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]确定为所述二值化图像的基准像素值,将所述二值化图像中的第M-1列像素的列计数值count[M-1]确定为所述二值化图像的计数值;或者将所述二值化图像中的第N-1行像素对应的基准像素值back_color[N-1]和所述二值化图像中的第M-1列像素对应的基准像素值back_color[M-1]之和确定为所述二值化图像的基准像素值,将所述二值化图像中的第N-1行像素的行计数值count[N-1]和所述二值化图像中的第M-1列像素的列计数值count[M-1]之和确定为所述二值化图像的计数值;
所述背景像素取值获取子单元,具体用于根据所述二值化图像的基准像素值和所述二值化图像的计数值,得到所述二值化图像的背景像素取值。
16.根据权利要求12所述的装置,其特征在于,所述候选副标题确定单元,还用于在所述第一文本像素值不位于所述第一预设副标题颜色范围内或所述第一背景像素值不位于所述第二预设副标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容不属于标题;
所述图像确定单元,还用于在所述第一文本像素值位于所述第一预设副标题颜色范围内,且所述第一背景像素值位于所述第二预设副标题颜色范围内的情况下,确定所述待检测图像中的第二候选标题图像;
所述像素值确定单元,还用于确定所述第二候选标题图像中的第二文本像素值和第二背景像素值;
所述候选副标题确定单元,还用于在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选副标题,以及所述候选主标题确定单元,还用于在所述第二文本像素值位于所述第一预设主标题颜色范围内,且所述第二背景像素值位于所述第二预设主标题颜色范围内的情况下,确定所述第二候选标题图像包含的文本内容为候选主标题;
所述候选主标题确定单元,还用于在所述第二文本像素值不位于所述第一预设主标题颜色范围内或所述第二背景像素值不位于所述第二预设主标题颜色范围内的情况下,确定所述第一候选标题图像包含的文本内容为候选主标题。
17.根据权利要求12所述的装置,其特征在于,所述装置还包括:区域确定单元,用于确定候选标题所在区域对应的跟踪区域,其中所述候选标题为所述候选主标题或所述候选副标题;
跟踪图像获取单元,用于从所述待检测图像中获取所述跟踪区域对应的第一跟踪图像,以及用于获取下一个待检测图像,并确定所述下一个待检测图像对应的第二跟踪图像;
图像获取单元,用于获取所述第一跟踪图像对应的二值化图像和/或所述第一跟踪图像对应的颜色直方图,以及用于获取所述第二跟踪图像对应的二值化图像和/或所述第二跟踪图像对应的颜色直方图;
取值更新单元,用于根据所述第一跟踪图像对应的二值化图像与所述第二跟踪图像对应的二值化图像、和/或,所述第一跟踪图像对应的颜色直方图与所述第二跟踪图像对应的颜色直方图,更新跟踪计数取值和丢失计数取值;
图像标题确定单元,用于在所述丢失计数取值大于预设丢失计数取值的情况下,若跟踪计数取值大于或等于预设跟踪计数取值,则确定所述候选标题为所述待检测图像的标题。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:要素信息获取单元,用于在确定所述候选主标题为所述待检测图像的主标题的情况下,获取所述待检测图像的图像要素信息,所述待检测图像的图像要素信息至少表明待检测图像所在视频帧的相关信息和/或待检测图像的主标题的相关信息,以确定时域相邻的两个主标题;
相邻标题确定单元,用于根据所述待检测图像的图像要素信息,确定与所述待检测图像的主标题时域相邻的第一主标题;
同一标题确定单元,用于在所述主标题和所述第一主标题相同的情况下,确定所述主标题和所述第一主标题为同一个主标题。
CN201810168870.8A 2018-02-28 2018-02-28 一种文本检测方法及装置 Active CN108304825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810168870.8A CN108304825B (zh) 2018-02-28 2018-02-28 一种文本检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810168870.8A CN108304825B (zh) 2018-02-28 2018-02-28 一种文本检测方法及装置

Publications (2)

Publication Number Publication Date
CN108304825A CN108304825A (zh) 2018-07-20
CN108304825B true CN108304825B (zh) 2020-08-28

Family

ID=62849078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810168870.8A Active CN108304825B (zh) 2018-02-28 2018-02-28 一种文本检测方法及装置

Country Status (1)

Country Link
CN (1) CN108304825B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI706336B (zh) * 2018-11-19 2020-10-01 中華電信股份有限公司 影像處理裝置及其偵測與過濾文字物件的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040033767A (ko) * 2002-10-15 2004-04-28 케이투아이엠에스 한국어 이미지 문자인식기능을 통한 뉴스 동영상의뉴스제목 자동추출방법
US8090822B2 (en) * 2008-04-11 2012-01-03 The Nielsen Company (Us), Llc Methods and apparatus for nonintrusive monitoring of web browser usage
US8396302B2 (en) * 2011-01-11 2013-03-12 Intel Corporation Method of detecting logos, titles, or sub-titles in video frames
CN107590447B (zh) * 2017-08-29 2021-01-08 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN107609546B (zh) * 2017-08-29 2020-12-18 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置

Also Published As

Publication number Publication date
CN108304825A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN106254933B (zh) 字幕提取方法及装置
CN107590447B (zh) 一种文字标题识别方法及装置
CN107609546B (zh) 一种文字标题识别方法及装置
US20190188528A1 (en) Text detection method and apparatus, and storage medium
US7929765B2 (en) Video text processing apparatus
CN107093172B (zh) 文字检测方法及系统
CN104298982A (zh) 一种文字识别方法及装置
CN108093314B (zh) 一种视频新闻拆分方法及装置
CN107977645B (zh) 一种视频新闻海报图的生成方法及装置
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN110399842B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN108256508B (zh) 一种新闻主副标题检测方法及装置
WO2017088479A1 (zh) 台标识别方法及装置
CN111695540A (zh) 视频边框识别方法及裁剪方法、装置、电子设备及介质
CN108615030B (zh) 一种标题一致性检测方法、装置及电子设备
CN107203763B (zh) 文字识别方法和装置
CN108108733A (zh) 一种新闻字幕检测方法及装置
CN108446603B (zh) 一种新闻标题检测方法及装置
JP5090330B2 (ja) 画像処理装置、画像処理方法およびプログラム
US8311269B2 (en) Blocker image identification apparatus and method
KR101793184B1 (ko) 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
CN108304825B (zh) 一种文本检测方法及装置
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN108229476B (zh) 标题区域检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant