CN107590447A - 一种文字标题识别方法及装置 - Google Patents

一种文字标题识别方法及装置 Download PDF

Info

Publication number
CN107590447A
CN107590447A CN201710754717.9A CN201710754717A CN107590447A CN 107590447 A CN107590447 A CN 107590447A CN 201710754717 A CN201710754717 A CN 201710754717A CN 107590447 A CN107590447 A CN 107590447A
Authority
CN
China
Prior art keywords
pixel
title
region
image
pixel column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710754717.9A
Other languages
English (en)
Other versions
CN107590447B (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710754717.9A priority Critical patent/CN107590447B/zh
Publication of CN107590447A publication Critical patent/CN107590447A/zh
Application granted granted Critical
Publication of CN107590447B publication Critical patent/CN107590447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种文字标题识别方法及装置。所述方法包括:获取待识别图像,对待识别图像进行检测,获得初始标题区域;对初始标题区域进行边缘提取,获得边缘图像;将边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据边缘图像预设区域中的所述标记位置,确定初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;根据所述干扰区域,从所述初始标题区域中确定最终标题区域;对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。应用本申请实施例提供的方案,能够提高识别文字标题时的准确率。

Description

一种文字标题识别方法及装置
技术领域
本申请涉及图像处理技术领域,特别是涉及一种文字标题识别方法及装置。
背景技术
为了方便用户观看视频,视频画面上可以呈现出与视频内容相关的文字标题。例如,在电视台播出的新闻类视频中,视频画面上常常会呈现出与视频内容相关的标题。而对于视频类的应用来说,对每日播出的整条视频进行切分、上线,可以供用户对于其中感兴趣的每条新闻进行点击观看。在对视频进行切分时,需要对切分好的视频输入标题,上线到应用系统中。
现有技术中,在识别视频图像的文字标题时,可以从视频图像中确定文字标题所在的标题区域,对标题区域进行文字识别,进而获得视频图像的文字标题。在从视频图像中确定文字标题所在的标题区域时,可以采用人工标注的方式确定。通常,采用该标题识别方法可以从视频图像中识别出文字标题。
但是,由于人工标注的标题区域可能会包含很多干扰因素,这些干扰因素的存在会导致对标题区域进行文字识别时,识别出的文字标题中包含错误或多余的识别结果。例如,图1所示为从视频图像中确定的标题区域,可见图中标题区域1中包含“高峰”,标题区域2中包含“时00”,标题区域3中包含“新闻NEWS”,标题区域4中包含“25日”等干扰因素。这些干扰因素会导致识别出的文字标题中也包含上述文字。因此,现有的标题识别方法在识别文字标题时准确率不高。
发明内容
本申请实施例的目的在于提供了一种文字标题识别方法及装置,以提高识别文字标题时的准确率。
为了达到上述目的,本申请实施例提供了一种文字标题识别方法,所述方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,当所述标记位置为标记像素行时,所述预设区域为从所述边缘图像的边界像素行开始的第一预设数量个像素行内的区域;所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
若所述预设区域内存在标记像素行,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素行确定为所述初始标题区域中干扰区域的末尾边界像素行,将所述边缘图像的边界像素行确定为所述初始标题区域中干扰区域的起始边界像素行;
当所述标记位置为标记像素列时,所述预设区域为从所述边缘图像的边界像素列开始的第二预设数量个像素列内的区域;所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
若所述预设区域内存在标记像素列,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素列确定为所述初始标题区域中干扰区域的起始边界像素列,将所述边缘图像的边界像素列确定为所述初始标题区域中干扰区域的末尾边界像素列。
可选的,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段,所述第二预设方向与所述第一预设方向垂直;
所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
可选的,在确定长度大于预设长度阈值的线段所在位置之后,所述方法还包括:
若更新后的边缘图像中存在连续第三预设数量个标记位置,则去除所述连续第三预设数量个标记位置中除一个标记位置之外的其他标记位置;
所述根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
根据更新后的边缘图像预设区域中剩余的标记位置,确定所述初始标题区域中的干扰区域。
可选的,所述根据所述干扰区域,从所述初始标题区域中确定最终标题区域的步骤,包括:
从所述初始标题区域中去除所述干扰区域,获得待修正标题区域;
对所述待修正标题区域进行二值化处理,获得二值化标题图像;
根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域;
将确定的文字区域作为最终标题区域。
可选的,所述根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域的步骤,包括:
根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值;
根据所确定的背景像素值,从所述二值化标题图像中确定文字区域。
可选的,所述根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值的步骤,包括:
针对所述二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
针对所述二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
根据所述像素值平均值,从所述二值化标题图像包含的两种像素值中确定背景像素值。
可选的,所述根据所确定的背景像素值,从所述二值化标题图像中确定文字区域的步骤,包括:
确定所述二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;
将所述二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将所述二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行;
根据所述二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界;
确定所述二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列;
根据所述二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
为了达到上述目的,本申请实施例提供了一种文字标题识别装置,所述装置包括:
标题检测模块,用于获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
边缘提取模块,用于对所述初始标题区域进行边缘提取,获得边缘图像;
干扰确定模块,用于将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
标题确定模块,用于根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
文字识别模块,用于对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,所述干扰确定模块,包括:
连线子模块,用于将所述边缘图像中的连续边缘像素点连接成线段;
标记子模块,用于确定长度大于预设长度阈值的线段所在的位置,作为标记位置,所述标记位置包括标记像素行和/或标记像素列;
确定子模块,用于根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
可选的,当所述标记位置为标记像素行时,所述预设区域为从所述边缘图像的边界像素行开始的第一预设数量个像素行内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素行,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素行确定为所述初始标题区域中干扰区域的末尾边界像素行,将所述边缘图像的边界像素行确定为所述初始标题区域中干扰区域的起始边界像素行;
当所述标记位置为标记像素列时,所述预设区域为从所述边缘图像的边界像素列开始的第二预设数量个像素列内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素列,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素列确定为所述初始标题区域中干扰区域的起始边界像素列,将所述边缘图像的边界像素列确定为所述初始标题区域中干扰区域的末尾边界像素列。
可选的,所述连线子模块,具体用于:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像,将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段,所述第二预设方向与所述第一预设方向垂直;
所述确定子模块,具体用于:
根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
可选的,所述干扰确定模块还包括:
去除子模块,用于在确定长度大于预设长度阈值的线段所在位置之后,若更新后的边缘图像中存在连续第三预设数量个标记位置,则去除所述连续第三预设数量个标记位置中除一个标记位置之外的其他标记位置;
所述确定子模块,具体用于:
根据更新后的边缘图像预设区域中剩余的标记位置,确定所述初始标题区域中的干扰区域。
可选的,所述标题确定模块,包括:
修正子模块,用于从所述初始标题区域中去除所述干扰区域,获得待修正标题区域;
二值化子模块,用于对所述待修正标题区域进行二值化处理,获得二值化标题图像;
跳变子模块,用于根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域,将确定的文字区域作为最终标题区域。
可选的,所述跳变子模块,包括:
背景确定单元,用于根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值;
文字确定单元,用于根据所确定的背景像素值,从所述二值化标题图像中确定文字区域。
可选的,所述背景确定单元,包括:
第一统计子单元,用于针对所述二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
第二统计子单元,用于针对所述二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算子单元,用于计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
平均子单元,用于确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
第一确定子单元,用于根据所述像素值平均值,从所述二值化标题图像包含的两种像素值中确定背景像素值。
可选的,所述文字确定单元,包括:
第二确定子单元,用于确定所述二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;
第一标记子单元,用于将所述二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将所述二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行;
第一边界确定子单元,用于根据所述二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界;
第三确定子单元,用于确定所述二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
第二标记子单元,用于将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列;
第二边界确定子单元,用于根据所述二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
为了达到上述目的,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的文字标题识别方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文字标题识别方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文字标题识别方法。
本申请实施例提供的文字标题识别方法及装置,可以对待识别图像进行检测,获得初始标题区域,并获得初始标题区域的边缘图像,将边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,标记位置包括标记像素行和/或标记像素列;根据干扰区域,从初始标题区域中确定最终标题区域;对最终标题区域进行文字识别,获得待识别图像的文字标题。
也就是说,本申请实施例可以根据边缘图像中边缘像素点连成的线段确定标记位置,并根据边缘图像预设区域中的标记位置,确定干扰区域。去除初始标题区域中的干扰区域,即可以获得最终标题区域。最终标题区域中去除了干扰因素,可以使从最终标题区域中获得的文字标题更准确。因此,本申请实施例提供的方案能够提高识别文字标题时的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为从视频图像中确定的标题区域的示例图;
图2为本申请实施例提供的文字标题识别方法的一种流程示意图;
图3a为本申请实施例提供的初始标题区域中干扰区域的示例图;
图3b为从图3a所示初始标题区域中获得的最终标题区域的一种示例图;
图4为本申请实施例提供的文字标题识别方法的另一种流程示意图;
图5a为待修正标题区域中背景区域和文字区域的一种示例图;
图5b为从图5a中的待修正标题区域中得到的最终标题区域的示例图;
图6为图4中步骤S406的一种流程示意图;
图7为本申请实施例提供的二值化标题图像的一种示例图;
图8为本申请实施例提供的文字标题识别装置的一种结构示意图;
图9为本申请实施例提供的文字标题识别装置的另一种结构示意图;
图10为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种文字标题识别方法及装置,能够提高识别文字标题时的准确率。下面通过具体实施例,对本申请进行详细说明。
图2为本申请实施例提供的文字标题识别方法的一种流程示意图。该方法应用于电子设备。该方法具体包括如下步骤S201~步骤S205:
步骤S201:获取待识别图像,对待识别图像进行检测,获得初始标题区域。
其中,待识别图像可以但不限于是视频中的帧图像或单个图像。待识别图像可以但不限于是RGB(红、绿、蓝)图像。
本步骤中,对待识别图像进行检测,获得初始标题区域时,具体可以是,将待识别图像中的指定区域确定为初始标题区域,其中,指定区域可以是预先设置的区域;也可以是,将待识别图像输入用于确定标题区域的目标网络,获取目标网络输出的检测结果,作为初始标题区域。该目标网络,用于根据该目标网络训练完成时获得的标题区域的特征,从输入的待识别图像中检测文字标题,作为检测结果进行输出。
作为一个例子,图3a为从待识别图像中获得的初始标题区域的一个示例图。图3a中虚线部分即为初始标题区域中存在的干扰因素,这些干扰因素会导致对初始标题区域进行文字识别时识别出的文字标题不准确。因此,为了提高识别出的文字标题的准确性,可以继续执行本实施例的以下步骤。
步骤S202:对初始标题区域进行边缘提取,获得边缘图像。
本步骤中,对初始标题区域进行边缘提取时,具体可以包括:将初始标题区域转换为灰度图像或亮度图像,提取灰度图像或亮度图像中每个像素点的边缘特征值,将边缘特征值大于预设特征阈值的像素点确定为边缘像素点,将边缘特征值不大于预设特征阈值的像素点确定为背景像素点,获得包含边缘像素点和背景像素点的边缘图像。
作为一个例子,当待识别图像是RGB图像时,初始标题区域也为RGB图像。
将初始标题区域转换为灰度图像时,具体可以采用公式Gray=R*0.299+G*0.587+B*0.114,将初始标题区域转换为灰度图像。
将初始标题区域转换为亮度图像时,可以将初始标题区域转换为任意亮度色彩分离图像,从亮度色彩分离图像中获得亮度图像。亮度色彩分离图像可以包括YUV(亮度、色度)图像、HSV(色调、饱和度、明度)图像、HSL(色调、饱和度、亮度)图像和LAB(亮度、色彩)图像。具体的,可以采用L=(max(R,G,B)+min(R,G,B))/2公式,将初始标题区域转换为亮度图像。
提取灰度图像或亮度图像中每个像素点的边缘特征值时,可以采用很多方法,例如采用Sobel算子、Canny算子等。下面以Sobel算子为例说明提取灰度图像或亮度图像中每个像素点的边缘特征值的过程。将灰度图像或亮度图像作为待提取特征图像,利用水平方向边缘梯度Sobel算子和垂直方向边缘梯度Sobel算子,分别对待提取特征图像进行卷积,获得水平边缘图Eh和垂直边缘图Ev,采用公式Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2),获得边缘强度图Eall中每一个像素点的边缘特征值Eall(x,y)。
将边缘特征值大于预设特征阈值的像素点确定为边缘像素点,将边缘特征值不大于预设特征阈值的像素点确定为背景像素点时,可以将边缘像素点和背景像素点的像素值确定为1(0)或0(1),也可以将边缘像素点和背景像素点的像素值确定为0(255)或255(0)。这样,即可以得到包含边缘像素点和背景像素点两种数值的边缘图像。
可以理解的是,在获得边缘图像之后,边缘图像中的边缘像素点和背景像素点是确定的。
步骤S203:将边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域。
其中,标记位置包括标记像素行和/或标记像素列。
可以理解的是,参见图3a,初始标题区域中的干扰因素与文字标题区域之间存在分隔线。上述标记位置可以理解为分隔线的位置。在获得初始标题区域的边缘图像之后,可以从边缘图像中确定该分隔线的位置,根据该分隔线的位置确定干扰区域的位置。
在本步骤中,将边缘图像中的连续边缘像素点连接成线段时,可以包括:针对边缘图像中的每个像素行,将该像素行中的连续边缘像素点连接成线段,针对边缘图像中的每个像素列,将该像素列中的连续边缘像素点连接成线段。也就是说,本实施例可以同时将边缘图像中像素行和像素列中的连续边缘像素点连接成线段。
对应的,确定长度大于预设长度阈值的线段所在的位置时,针对边缘图像中每个像素行中的线段,将长度大于预设长度阈值的线段所在的像素行确定为标记像素行;针对边缘图像中每个像素列中的线段,将长度大于预设长度阈值的线段所在的像素列确定为标记像素列。
确定长度大于预设长度阈值的线段所在的位置时,具体可以包括:针对边缘图像像素行中所连接的线段,将长度大于第一预设长度阈值的线段确定为第一目标线段,并确定各个像素行中第一目标线段的总长度,将总长度大于第二预设长度阈值的像素行,确定为标记像素行;针对图像像素列中所连接的线段,将长度大于第三预设长度阈值的线段确定为第二目标线段,并确定各个像素列中第二目标线段的总长度,将总长度大于第四预设长度阈值的像素列,确定为标记像素列。
可以说明的是,线段的长度可以理解为线段中边缘像素点的数量。预设长度阈值也可以理解为预设数量阈值。
其中,可以从边缘图像中确定出标记像素行和标记像素列,也可以只从边缘图像中确定出标记像素行,或者只从边缘图像中确定出标记像素列。如果既没有从边缘图像中确定出标记像素行,也没有从边缘图像中确定出标记像素列,则认为初始标题区域中不存在干扰因素,可以直接将初始标题区域确定为最终标题区域,并执行步骤S205。
在本实施例中,当标记位置为标记像素行时,预设区域可以为从边缘图像的边界像素行开始的第一预设数量个像素行内的区域。其中,边缘图像的边界像素行包括边缘图像的起始边界像素行和末尾边界像素行。第一预设数量可以为H*ratio1,H为边缘图像的总像素行数量,也是初始标题图像的总像素行数量,ratio1为常量,ratio1可以取(0,1)中较小的数值,例如可以取小于0.2的值。根据边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域时,具体可以包括:
若预设区域内存在标记像素行,则按照从边缘图像外部到边缘图像内部的顺序,将第一个标记像素行确定为初始标题区域中干扰区域的末尾边界像素行,将边缘图像的边界像素行确定为初始标题区域中干扰区域的起始边界像素行。干扰区域的左右边界可以为边缘图像的左右边界。其中,该情况中干扰区域的末尾边界像素行即为干扰区域与文字标题区域的分隔线。
在本实施例中,若边缘图像上部的预设区域内和下部的预设区域内均存在标记像素行,则可以从初始标题区域中分别确定出上部干扰区域和下部干扰区域。若边缘图像上部的预设区域内或下部的预设区域内存在标记像素行,则可以从初始标题区域中确定出上部干扰区域或下部干扰区域。
当标记位置为标记像素列时,预设区域可以为从边缘图像的边界像素列开始的第二预设数量个像素列内的区域。其中,边缘图像的边界像素列包括边缘图像的起始边界像素列和末尾边界像素列。第二预设数量可以为W*ratio2,W为边缘图像的总像素列数量,也是初始标题图像的总像素列数量,ratio2为常量,ratio2可以取(0,1)中较小的数值,例如可以取小于0.2的值。根据边缘图像预设区域中的标记位置,确定初始标题区域中的干扰区域时,具体可以包括:
若预设区域内存在标记像素列,则按照从边缘图像外部到边缘图像内部的顺序,将第一个标记像素列确定为初始标题区域中干扰区域的起始边界像素列,将边缘图像的边界像素列确定为初始标题区域中干扰区域的末尾边界像素列。干扰区域的左右边界可以为边缘图像的左右边界。其中,该情况中干扰区域的起始边界像素行即为干扰区域与文字标题区域的分隔线。
在本实施例中,若边缘图像左侧的预设区域内和右侧的预设区域内均存在标记像素列,则可以从初始标题区域中分别确定出左侧干扰区域和右侧干扰区域。若边缘图像左侧的预设区域内或右侧的预设区域内存在标记像素行,则可以从初始标题区域中确定出左侧干扰区域或右侧干扰区域。因此,所确定出的干扰区域的数量和位置根据实际情况而定。
作为一个例子,参见图3a,图中编号为1的虚线框为从图示初始标题区域中确定的上部干扰区域,图中编号为2的虚线框为从图示初始标题区域中确定的左侧干扰区域。
可以说明的是,预设区域的设定可以根据实际情况而定。例如,如果确定干扰区域通常存在于图像的上部和左侧,则可以将预设区域仅设定在这些区域,而无需再去图像的下部和右侧确定标记像素行或标记像素列,进而能够提高处理效率。
本实施例中,按照从边缘图像外部到边缘图像内部的顺序,将预设区域中第一个标记像素行(第一个标记像素列)确定为干扰区域的末尾边界像素行(末尾边界像素列),可以尽可能避免将靠近文字标题部分的图像确定为干扰区域内的部分,使干扰区域尽可能小,从而能够提高所确定的最终标题区域的准确性。当然,本实施例也可以将预设区域中第二个或第三个标记像素行(标记像素列)确定为干扰区域的末尾边界像素行(末尾边界像素列),这些都是可行的。
步骤S204:根据上述干扰区域,从初始标题区域中确定最终标题区域。
在本步骤中,从初始标题区域中确定最终标题区域时,可以为,将上述干扰区域从初始标题区域中去除,获得剩余的初始标题区域,将剩余的初始标题区域确定为最终标题区域。
为了进一步提高所确定的最终标题区域的准确范围,也可以在获得剩余的初始标题区域之后,进一步对剩余的初始标题区域进行修正,去除剩余的初始标题区域中的无字背景区域,获得最终标题区域。
作为一个例子,图3b为从图3a所示的初始标题区域中获得的最终标题区域,其中去除了初始标题区域上部和左侧的干扰因素。
步骤S205:对最终标题区域进行文字识别,获得待识别图像的文字标题。
在本步骤中,对最终标题区域进行文字识别时,可以采用光学字符识别(OpticalCharacter Recognition,OCR)技术对最终标题区域进行文字识别,也可以采用其他文字识别技术对最终标题区域进行文字识别。对图像进行文字识别属于现有技术,因此,本实施例对本步骤的具体实施过程不再赘述。
由上述内容可知,本实施例可以根据边缘图像中边缘像素点连成的线段确定标记位置,并根据边缘图像预设区域中的标记位置,确定干扰区域。去除初始标题区域中的干扰区域,即可以获得最终标题区域。最终标题区域中去除了干扰因素,可以使从最终标题区域中获得的文字标题更准确。因此,本实施例提供的方案能够提高识别文字标题时的准确率。
为了进一步提高所确定的干扰区域的准确性,在本申请的一种实施例中,步骤S203中将边缘图像中的连续边缘像素点连接成线段的步骤,具体可以包括:
步骤1:针对边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像。
其中,第一预设方向可以为上下方向或左右方向。在对边缘图像水平方向的像素点进行处理时,步骤1可以为,针对边缘图像中像素行中的每个像素点,当该像素点以及该像素点在上下方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点。在对边缘图像垂直方向的像素点进行处理时,步骤1可以为,针对边缘图像中像素列中的每个像素点,当该像素点以及该像素点在左右方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点。
可以说明的是,边缘图像中的像素点可能存在锯齿现象,即干扰区域与文字标题之间的分隔线可能并不是严格地位于一个像素行内或一个像素列内。因此,为了更准确地确定干扰区域的位置,需要更准确地确定线段。而本实施例中,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点的情况,均将该像素点更新为边缘像素点,可以兼容图像中的锯齿现象,使得所确定的干扰区域更准确。
步骤2:将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段。
其中,第二预设方向与第一预设方向垂直。第二预设方向也可以为上下方向或左右方向。当第一预设方向为上下方向时,第二预设方向为左右方向;当第一预设方向为左右方向时,第二预设方向为上下方向。
在对更新后的边缘图像的水平方向进行处理时,将更新后的边缘图像中的连续边缘像素点连接成线段时,可以为,将更新后的边缘图像中在左右方向上的连续边缘像素点连接成线段。在这种情况下所得到的线段为位于像素行中的线段。
在对更新后的边缘图像的垂直方向进行处理时,将更新后的边缘图像中的连续边缘像素点连接成线段时,可以为,将更新后的边缘图像中在上下方向上的连续边缘像素点连接成线段。在这种情况下所得到的线段为位于像素列中的线段。
相应的,步骤S203中根据边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域的步骤,具体可以包括:
根据更新后的边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域。
在本实施例中,相比于原来的边缘图像,更新后的边缘图像中的边缘像素点更多。根据更新后的边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域的步骤,与上述根据边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域的步骤的实施方式是类似的,具体可以参见步骤S203中的描述,此处不再赘述。
可见,在本实施例中,对边缘图像中的连续边缘像素点的处理,可以获得更新后的边缘图像,从边缘图像中确定连续边缘像素点所构成的线段时,能够兼容边缘图像中的锯齿现象,使确定出的线段更准确,最终使确定的干扰区域更准确。
进一步的,在本申请的另一实施例中,为了使确定的标记位置更准确,在确定长度大于预设长度阈值的线段所在位置之后,该方法还可以包括:
若更新后的边缘图像中存在连续第三预设数量个标记位置,则保留所述连续第三预设数量个标记位置中的一个标记位置,去除连续第三预设数量个标记位置中除该一个标记位置之外的其他标记位置。
其中,第三预设数量可以但不限于为3个或2个。
在本实施例中,可以先对更新后的边缘图像中存在的连续3个标记位置进行去除,然后针对去除标记位置之后的边缘图像,再对存在的连续2个标记位置进行去除。在连续3个标记位置中去除的两个标记位置,可以但不限于是连续3个标记位置中两侧的标记位置。在连续2个标记位置中去除的一个标记位置,可以是第一个标记位置或第二个标记位置。
可以说明的是,在考虑了边缘图像中的锯齿现象,对边缘图像中的边缘像素点进行增加获得更新后的边缘图像之后,在该更新后的边缘图像的基础上确定的标记位置会更多,存在冗余。为了减少这种冗余现象,可以对连续存在的3个标记位置或2个标记位置进行去除。
相应的,步骤S203中根据更新后的边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域的步骤,可以包括:
根据更新后的边缘图像预设区域中剩余的标记位置,确定初始标题区域中的干扰区域。
当更新后的标记位置为标记像素行时,预设区域为从更新后的边缘图像的边界像素行开始的第一预设数量个像素行内的区域。根据更新后的边缘图像预设区域中剩余的标记位置,确定初始标题区域中的干扰区域的步骤,具体可以包括:
若预设区域内存在剩余的标记像素行,则按照从更新后的边缘图像外部到更新后的边缘图像内部的顺序,将第一个标记像素行确定为初始标题区域中干扰区域的末尾边界像素行,将更新后的边缘图像的边界像素行确定为初始标题区域中干扰区域的起始边界像素行;
当更新后的标记位置为标记像素列时,预设区域为从更新后的边缘图像的边界像素列开始的第二预设数量个像素列内的区域。根据更新后的边缘图像预设区域中剩余的标记位置,确定初始标题区域中的干扰区域的步骤,具体可以包括:
若预设区域内存在剩余的标记像素列,则按照从更新后的边缘图像外部到更新后的边缘图像内部的顺序,将第一个标记像素列确定为初始标题区域中干扰区域的起始边界像素列,将更新后的边缘图像的边界像素列确定为初始标题区域中干扰区域的末尾边界像素列。
可以说明的是,原来的边缘图像与更新后的边缘图像的总像素行数量和总像素列数量是相同的,因此,在确定干扰区域时,采用原来的边缘图像或采用更新后的边缘图像,其处理操作均是相同的。
可见,本实施例中可以在更新了边缘图像并确定了标记位置之后,对标记位置进行冗余去除,使剩余的标记位置更准确,这样能够提高所确定的干扰区域的准确性。
下面以具体的实例进一步说明本申请的实施过程。
已知获得的边缘图像E中边缘像素点的像素值为1,背景像素点的像素值为0。针对边缘图像E中的每个像素点,当该像素点以及该像素点上下相邻像素点中存在至少一个像素值为1的像素点,则认为该像素点的像素值为1。将每一像素行中像素值为1的连续像素点确定为线段,对边缘图像E中的线段进行水平方向的投影,获得水平直方图中每个像素行对应的特征值Hhor[i]。具体的投影过程为:统计每一像素行i中目标线段包含的像素点总数量Numedge,如果Numedge>Thnum1,则将水平直方图该像素行的特征值Hhor[i]置为1,否则置为0。i的范围是[0,H-1]。H为边缘图像的总像素行数量。
目标线段为:每一像素行中包含的像素点的数量大于阈值Thlen1的线段。
为了去除分割线冗余,可以对水平直方图进行以下处理。对于水平直方图进行第一次遍历,如果出现Hhor[i]==1&&Hhor[i-1]==1&&Hhor[i+1]==1的情况,则令Hhor[i]==1,Hhor[i-1]==0,Hhor[i+1]==0;对于水平直方图进行第二次遍历,如果出现Hhor[i]==1&&Hhor[i+1]==1的情况,则令Hhor[i]==1,Hhor[i+1]==0;
遍历水平直方图[0,H*0.2]的范围,如果第一次出现Hhor[i]=1的情况,则将该像素行的位置y确定为最终标题区域的起点位置,即记录ystart=i,退出遍历;如果水平直方图[0,H*0.2]的范围中不存在Hhor[i]=1的情况,则将最终标题区域的起点位置确定为0,即记录ystart=0。
反方向遍历水平直方图[H,H*0.2]的范围,如果第一次出现Hhor[k]=1的情况,则将该像素行的位置y确定为最终标题区域的终点位置,即记录yend=k,退出遍历;如果水平直方图[H,H*0.2]的范围中不存在Hhor[k]=1的情况,则将最终标题区域的终点位置确定为H,即记录yend=H;
针对边缘图像E中的每个像素点,当该像素点以及该像素点左右相邻像素点中存在至少一个像素值为1的像素点,则认为该像素点的像素值为1。将每一像素列中像素值为1的连续像素点确定为线段,对边缘图像E进行垂直方向的投影,统计每一像素列j中符合下述条件的线段包含的像素点数量Numedge,如果Numedge>Thnum2,则将水平直方图Hver[i]的值置为1,否则置为0。i的范围是[0,W-1]。W为边缘图像的总像素列数量。
上述条件为:每一像素列中线段包含的像素点的数量大于阈值Thlen2
对于垂直直方图进行第一次遍历,如果出现Hver[j]==1&&Hver[j-1]==1&&Hver[j+1]==1的情况,则令Hver[j]==1,Hver[j-1]==0,Hver[j+1]==0;对于垂直直方图进行第二次遍历,如果出现Hver[j]==1&&Hver[j+1]==1的情况,令Hver[j]==1,Hver[j+1]==0。
遍历垂直直方图[0,W*0.2]的范围,如果第一次出现Hver[j]==1的情况,则将该像素列的位置x确定为最终标题区域的起点位置,即记录xstart=j,退出遍历;如果垂直直方图[0,W*0.2]的范围中不存在Hver[j]==1的情况,则将最终标题区域的起点位置确定为0,即记录xstart=0;
反方向遍历垂直直方图[W,W*0.2]的范围,如果第一次出现Hver[n]==1的情况,则将该像素列的位置x确定为最终标题区域的终点位置,即记录xend=n,退出遍历;如果垂直直方图[W,W*0.2]的范围中不存在Hver[n]==1的情况,则将最终标题区域的终点位置确定为W,即记录xend=W。
这样,在[0,H*0.2],[H,H*0.2],[0,W*0.2],[W,W*0.2]范围内均存在直方图值为1的情况时,确定的最终标题区域Rect(x,y,w,h)为:
Rect.x=xstart
Rect.y=ystart
Rect.w=xend-xstart
Rect.h=yend–ystart
其中,x和y为最终标题区域的起点坐标,w和h分别为最终标题区域的宽度和高度。
图4为本申请实施例提供的文字标题识别方法的另一种流程示意图。该实施例为对图2所示实施例加以改进之后得到的实施例。该方法应用于电子设备。
具体的,该方法包括以下步骤S401~步骤S407:
步骤S401:获取待识别图像,对待识别图像进行检测,获得初始标题区域。
步骤S402:对初始标题区域进行边缘提取,获得边缘图像。
步骤S403:将边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据边缘图像预设区域中的上述标记位置,确定初始标题区域中的干扰区域。
在本实施例中,上述步骤S401~步骤S403分别与图2所示实施例中的步骤S201~步骤S203对应相同,详细内容可以参见图2所示实施例,此处不再赘述。
步骤S404:从初始标题区域中去除上述干扰区域,获得待修正标题区域。
在本步骤中,从初始标题区域中去除上述干扰区域,获得待修正标题区域的步骤与图2所示实施例步骤S204中将上述干扰区域从初始标题区域中去除,获得剩余的初始标题区域的步骤相同,本实施例中即是将剩余的初始标题区域作为待修正标题区域。
可以说明的是,图2所示实施例能够去除初始标题区域中与文字标题区域之间存在分隔线的干扰区域。但是所得到的剩余初始标题区域可能仍然包含一些背景区域,这些背景区域仍会对文字识别产生干扰作用,也属于干扰因素。该背景区域为不包含文字部分的区域。
以图5a为例进行说明,图中虚线所框区域为背景区域,图5中实线所框区域为文字区域。
步骤S405:对待修正标题区域进行二值化处理,获得二值化标题图像。
本步骤中,对待修正标题区域进行二值化处理时,具体可以包括:将待修正标题区域转换为灰度图像或亮度图像,根据灰度图像或亮度图像中每个像素点确定二值化阈值,根据确定的二值化阈值将上述灰度图像或亮度图像转换为二值化标题图像。
作为一个例子,当初始标题区域是RGB图像时,待修正标题区域也为RGB图像。
将待修正标题区域转换为灰度图像时,具体可以采用公式Gray=R*0.299+G*0.587+B*0.114,将待修正标题区域转换为灰度图像。
将待修正标题区域转换为亮度图像时,可以将待修正标题区域转换为任意亮度色彩分离图像,从亮度色彩分离图像中获得亮度图像。具体的,可以采用L=(max(R,G,B)+min(R,G,B))/2公式,将待修正标题区域转换为亮度图像。
根据灰度图像或亮度图像中每个像素点确定二值化阈值时,可以为,将灰度图像或亮度图像作为待处理图像,根据待处理图像中的像素点,采用大津算法(OTSU算法),确定二值化阈值,具体过程包括:
将待处理图像划分为N个灰度,N小于等于256,提取待处理图像的N阶灰度直方图,灰度直方图中的每一灰度为t(0<=t<N)。可以采用以下方式确定二值化阈值:
其中,H表示图像的直方图,i表示N个灰度中的某个灰度,H(i)表示灰度属于[256/N*i,256/N*(i+1)]范围内的像素点总数占全图像的像素点总数的比例。将使最大的t对应的x(t)作为二值化阈值ThB
根据确定的二值化阈值将上述灰度图像或亮度图像转换为二值化标题图像时,可以将灰度图像或亮度图像中像素值不小于二值化阈值的像素点的像素值更新为255,将灰度图像或亮度图像中像素值小于二值化阈值的像素点的像素值更新为0,获得二值化标题图像。也就是说,二值化标题图像中包含两种像素值的像素点。
以上二值化过程只是部分具体的实施方式。对待修正标题区域进行二值化处理还可以采用其他的二值化算法,本申请对此不做具体限定。
步骤S406:根据文字标题中像素点的跳变特征,从二值化标题图像中确定文字区域,将确定的文字区域作为最终标题区域。
其中,二值化标题图像可以包括文字区域和背景区域,文字区域中相邻像素点像素值的变化比较大,即跳变特征明显;而背景区域中通常不包含文字部分,相邻像素点像素值的变化不明显。因此,可以根据文字标题中像素点的跳变特征,从二值化标题图像中确定文字区域。
根据文字标题中像素点的跳变特征,从二值化标题图像中确定文字区域时,具体可以对二值化标题图像进行水平投影和/或垂直投影,确定水平像素和值和/或垂直像素和值,根据水平像素和值和/或垂直像素和值,将像素和值存在锯齿状变化区域确定为文字区域。
作为一个例子,图5b为从图5a中的待修正标题区域中得到的最终标题区域。可见,该图5b中的最终标题区域不包含文字区域四周的背景区域,即干扰因素更少。
步骤S407:对最终标题区域进行文字识别,获得待识别图像的文字标题。
在本实施例中,上述步骤S407与图2所示实施例中的步骤S207相同,详细内容可以参见图2所示实施例,此处不再赘述。
可见,本实施例可以在图2所示实施例的基础上,从初始标题区域中去除干扰区域,获得待修正标题区域,对待修正标题区域进行二值化处理,获得二值化标题图像,根据文字标题的像素点跳变特征,从二值化标题图像中确定文字区域,将文字区域作为最终标题区域,从而去除待修正标题图像中文字区域四周的背景区域,使最终标题区域为卡在文字区域四周的准确区域,进一步提高所确定的最终标题区域的准确性,进一步提高所识别的文字标题的准确率。
在本申请的一种实施方式中,图4所示实施例中的步骤S406,根据文字标题中像素点的跳变特征,从二值化标题图像中确定文字区域时,可以按照图6所示流程示意图进行,具体包括以下步骤S406A~步骤S406B:
步骤S406A:根据文字标题中像素点的跳变特征,从二值化标题图像包含的两种像素值中确定背景像素值。
在本步骤中,根据文字标题中像素点的跳变特征,从二值化标题图像包含的两种像素值中确定背景像素值时,具体可以包括以下步骤1~步骤5:
步骤1:针对二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与第一指定像素点的像素值不同的像素点的第一像素点数量,将第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计目标像素行的行数量。
其中,第一指定像素点可以为像素行中指定位置处的像素点,例如,像素行中的第一个像素点或第二个像素点等。
可以理解的是,由于第一像素点数量为像素行中像素值与第一指定像素点的像素值不同的像素点的像素点数量,目标像素行为第一像素点数量小于第一预设数量阈值的像素行,也就是说该像素行中像素点跳变不明显,因此目标像素行可以理解为背景区域内的像素行。
步骤2:针对二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与第二指定像素点的像素值不同的像素点的第二像素点数量,将第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计目标像素列的列数量。
其中,第二指定像素点可以为像素列中指定位置处的像素点,例如,像素列中的第一个像素点或第二个像素点等。第二指定像素点可以与第一指定像素点相同,也可以不同,本实施例对此不做限定。第二预设数量阈值可以与第一预设数量阈值相同,也可以不同。
可以理解的是,由于第二像素点数量为像素列中像素值与第二指定像素点的像素值不同的像素点的像素点数量,目标像素列为第二像素点数量小于第二预设数量阈值的像素列,也就是说该像素列中像素点跳变不明显,因此目标像素列可以理解为背景区域内的像素列。
步骤3:计算目标像素行的第一指定像素点以及目标像素列的第二指定像素点的像素值和值。
步骤4:确定像素值平均值为:上述像素值和值与目标和值之商;该目标和值为:上述行数量与列数量之和。
步骤5:根据上述像素值平均值,从二值化标题图像包含的两种像素值中确定背景像素值。
在本步骤中,从二值化标题图像包含的两种像素值中确定背景像素值时,具体可以为,当上述像素值平均值小于中间值时,将二值化标题图像包含的第一种像素值确定为背景像素值,当上述像素值平均值不小于中间值时,将二值化标题图像包含的第二种像素值确定为背景像素值。其中,上述中间值为第一种像素值和第二种像素值的平均值,第一种像素值小于第二种像素值。
下面以具体实例说明上述确定背景像素值的过程。
参见图7,图7所示为本实施例中二值化标题图像的一种示例图。该二值化标题图像B中包含像素值为0和255的两种像素值。水平扫描该二值化标题图像B的每像素行,取该像素行第一个像素点为第一指定像素点,该第一指定像素点的像素值为color,统计该像素行中像素值不等于color的像素点的个数num,如果num<第一预设数量阈值Th1,则累计back_color=back_color+color,count=count+1。
垂直扫描二值化标题图像B的每像素列,取该像素列第一个像素点为第二指定像素点,该第二指定像素点的像素值为color,统计该像素列中像素值不等于color的像素点的个数num,如果num<第二预设数量阈值Th2,则back_color=back_color+color,count=count+1。
计算像素值平均值为:back_color=back_color/count,如果back_color<中间值128,则确定背景像素值为back_color=0,否则确定背景像素值为back_color=255。其中,中间值128=(0+255)/2=128。
步骤S406B:根据所确定的背景像素值,从二值化标题图像中确定文字区域。
在本步骤中,根据所确定的背景像素值,从二值化标题图像中确定文字区域时,具体可以包括以下步骤1~步骤6:
步骤1:确定二值化标题图像中每像素行中像素值与背景像素值不同的第一目标像素点。
步骤2:将二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行。
可以理解的是,第一目标像素点为像素行中像素值与背景像素值不同的像素点,当某像素行中第一目标像素点的数量小于第三预设数量阈值时,说明该像素行包含的所有像素点中背景像素点比较多,可以将该像素行认为是背景像素行;当某像素行中第一目标像素点的数量不小于第三预设数量阈值时,说明该像素行包含的所有像素点中背景像素点比较少,可以将该像素行认为是文字像素行。
步骤3:根据二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界。
在本步骤中,具体可以判断标记为背景像素行和文字像素行的像素行是否满足第一预设排列规律,如果是,则将连续文字像素行中最上部像素行和最下部像素行分别确定为文字区域的上边界和下边界。
例如,上述第一预设排列顺序可以为:两个背景像素行之间包含的连续文字像素行;或者,从二值化标题图像的起始像素行开始到第一个背景像素行之前的像素行均为标记的文字像素行;或者,从第一个背景像素行之后开始到二值化标题图像的末尾像素行之间的像素行均为标记的文字像素行。
下面举例说明上述确定文字区域的上边界和下边界的过程。已知二值化标题图像的宽度为w,高度为h。将二值化标题图像中标记为背景像素行的像素行的特征值确定为1,将标记为文字像素行的像素行的特征值确定为0,可以获得数据集Hb_hor[i]。其中,该数据集中包含每像素行i对应的特征值。
对数据集Hb_hor[i]进行遍历,在[0,h-1]范围内,如果(i==0||Hb_hor[i-1]==1)&&(Hb_hor[i]==0,Hb_hor[i+1]==0,…,Hb_hor[i+n]==0)&&(Hb_hor[i+n+1]==1||h-1),则将y方向的位置[i,i+n]作为文字区域,也就是说,文字区域的上边界ystart=i,上边界yend=i+n。
进一步的,当初始标题区域为纵向排列的文字标题时,待修正标题区域的上部和/或下部还可能包含透明背景导致的图像干扰。在本步骤中,可以对该图像干扰进行去除。
根据二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界时,具体可以包括,根据二值化标题图像中标记为背景像素行和文字像素行的像素行,确定二值化标题图像中的背景区域和待选文字区域。
在确定文字区域的上边界时,具体可以为,确定二值化标题图像中上部预设区域内的最长背景区域,作为目标背景区域,判断该目标背景区域上部的待选文字区域的长度是否小于预设长度阈值,如果小于,则将该目标背景区域的下边界确定为文字区域的上边界;如果不小于,则将二值化标题图像中上部预设区域内的次长背景区域作为目标背景区域,重复上述判断过程,直至确定文字区域的上边界。
在确定文字区域的下边界时,具体可以为,确定二值化标题图像中下部预设区域内的最长背景区域,作为目标背景区域,判断该目标背景区域下部的待选文字区域的长度是否小于预设长度阈值,如果小于,则将该目标背景区域的上边界确定为文字区域的下边界;如果不小于,则将二值化标题图像中下部预设区域内的次长背景区域作为目标背景区域,重复上述判断过程,直至确定文字区域的下边界。
可以理解的是,采用上述方式可以从纵向的待修正标题区域中去除透明背景所带来的图像干扰。
步骤4:确定二值化标题图像中每像素列中像素值与背景像素值不同的第二目标像素点。
步骤5:将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列。
可以理解的是,第二目标像素点为像素列中像素值与背景像素值不同的像素点,当某像素列中第二目标像素点的数量小于第四预设数量阈值时,说明该像素列包含的所有像素点中背景像素点比较多,可以将该像素列认为是背景像素列;当某像素列中第二目标像素点的数量不小于第四预设数量阈值时,说明该像素列包含的所有像素点中背景像素点比较少,可以将该像素列认为是文字像素列。
步骤6:根据二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
在本步骤中,具体可以判断标记为背景像素列和文字像素列的像素列是否满足第二预设排列规律,如果是,则将连续文字像素列中最左侧像素行和最右侧像素行分别确定为文字区域的左边界和右边界。
例如,上述第一预设排列顺序可以为:两个背景像素列之间包含的连续文字像素列;或者,从二值化标题图像的起始像素列开始到第一个背景像素列之前的像素列均为标记的文字像素列;或者,从第一个背景像素列之后开始到二值化标题图像的末尾像素列之间的像素列均为标记的文字像素列。
进一步的,当初始标题区域为横向排列的文字标题时,待修正标题区域的左侧和/或右侧还可能包含透明背景导致的图像干扰。在本步骤中,可以对该图像干扰进行去除。
根据二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界时,具体可以包括,根据二值化标题图像中标记为背景像素列和文字像素列的像素列,确定二值化标题图像中的背景区域和待选文字区域。
在确定文字区域的左边界时,具体可以为,确定二值化标题图像中左侧预设区域内的最长背景区域,作为目标背景区域,判断该目标背景区域左侧的待选文字区域的长度是否小于预设长度阈值,如果小于,则将该目标背景区域的右边界确定为文字区域的左边界;如果不小于,则将二值化标题图像中左侧预设区域内的次长背景区域作为目标背景区域,重复上述判断过程,直至确定文字区域的左边界。
在确定文字区域的右边界时,具体可以为,确定二值化标题图像中右侧预设区域内的最长背景区域,作为目标背景区域,判断该目标背景区域右侧的待选文字区域的长度是否小于预设长度阈值,如果小于,则将该目标背景区域的左边界确定为文字区域的右边界;如果不小于,则将二值化标题图像中右侧预设区域内的次长背景区域作为目标背景区域,重复上述判断过程,直至确定文字区域的右边界。
下面举例说明上述确定文字区域的左边界和右边界的过程。已知二值化标题图像的宽度为w,高度为h。将二值化标题图像中标记为背景像素列的像素列的特征值确定为1,将标记为文字像素列的像素列的特征值确定为0,可以获得数据集Hb_ver[j]。其中,该数据集中包含每像素列j对应的特征值。
从j=0开始遍历数据集Hb_ver,将每一个符合条件Hb_ver[j-1]==1&&(Hb_ver[j]==0,Hb_ver[j+1]==0,…,Hb_ver[j+n]==0)&&Hb_ver[j+n+1]=1的区域[j,j+n],确定为待选文字区域,记录进入text_region(元素以[start,end]组织)列表;将每一个符合条件Hb_ver[j-1]==0&&(Hb_ver[j]==1,Hb_ver[j+1]==1,…,Hb_ver[j+n]==1)&&Hb_ver[j+n+1]=0的区域[j,j+n],确定为背景区域,记录进入background_region(元素以[start,end]组织)列表。
寻找background_region列表中每个背景区域起点start在范围[0,w*ratio3]中,最长(endm–startm最大)的一个背景区域backmax[startm,endm],计算[0,startm]区域中包含的待选文字区域中元素的长度总和L,如果L<预设长度阈值ThL,则确定文字区域左侧的起点位置为xstart=endm,否则继续寻找该区域中第二、第三…长的背景区域,执行上述比较,直到有满足条件的情况出现,如果均不满足条件,则将文字区域左侧的起点位置确定为xstart=0。
寻找background_region列表中每个背景区域终点end范围在[W*ratio4,w]中,最长的一个背景区域backmax[startm,endm],计算[endm,w]区域中包含的待选文字区域中元素的长度总和L,如果L<ThL,则确定文字区域右侧的终点位置为xend=startm,否则继续寻找该区域中第二、第三…长的背景区域,执行上述比较,直到满足条件,如果均不满足条件,则将文字区域右侧的起点位置确定为xend=w。
最终,确定的文字区域Text_Rect(x,y,w1,h1)可以为:
Rect.x=xstart
Rect.y=ystart
Rect.w1=xend-xstart
Rect.h1=yend-ystart
其中,x和y为文字区域的起点坐标,w1和h1分别为文字区域的宽度和高度。
可见,在本实施例中,可以确定背景像素值,根据背景像素值从二值化标题图像中确定文字区域,能够提高所确定的文字区域的准确性。
可以说明的是,在本实施例中,步骤S406也可以根据文字标题中像素点的跳变特征,从二值化标题图像包含的两种像素值中确定文字像素值,根据所确定的文字像素值,从二值化标题图像中确定文字区域。具体的步骤与上述过程类似,此处不再赘述。
图8为本申请实施例提供的文字标题识别装置的一种结构示意图。该装置实施例应用于电子设备,且与图2所示方法实施例相对应。该装置包括:
标题检测模块801,用于获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
边缘提取模块802,用于对所述初始标题区域进行边缘提取,获得边缘图像;
干扰确定模块803,用于将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
标题确定模块804,用于根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
文字识别模块805,用于对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
在本申请的另一种实施例中,所述干扰确定模块803可以包括:
连线子模块(图中未示出),用于将所述边缘图像中的连续边缘像素点连接成线段;
标记子模块(图中未示出),用于确定长度大于预设长度阈值的线段所在的位置,作为标记位置,所述标记位置包括标记像素行和/或标记像素列;
确定子模块(图中未示出),用于根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
在本申请的另一种实施例中,当所述标记位置为标记像素行时,所述预设区域为从所述边缘图像的边界像素行开始的第一预设数量个像素行内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素行,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素行确定为所述初始标题区域中干扰区域的末尾边界像素行,将所述边缘图像的边界像素行确定为所述初始标题区域中干扰区域的起始边界像素行;
当所述标记位置为标记像素列时,所述预设区域为从所述边缘图像的边界像素列开始的第二预设数量个像素列内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素列,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素列确定为所述初始标题区域中干扰区域的起始边界像素列,将所述边缘图像的边界像素列确定为所述初始标题区域中干扰区域的末尾边界像素列。
在本申请的另一种实施例中,所述连线子模块,具体用于:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像,将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段,所述第二预设方向与所述第一预设方向垂直;
所述确定子模块,具体用于:
根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
在本申请的另一种实施例中,所述干扰确定模块803还可以包括:
去除子模块(图中未示出),用于在确定长度大于预设长度阈值的线段所在位置之后,若更新后的边缘图像中存在连续第三预设数量个标记位置,则去除所述连续第三预设数量个标记位置中除一个标记位置之外的其他标记位置;
所述确定子模块,具体可以用于:根据更新后的边缘图像预设区域中剩余的标记位置,确定所述初始标题区域中的干扰区域。
图9为本申请提供的文字标题识别装置的另一种结构示意图。该实施例为对图8所示实施例改进之后的实施例。该实施例应用于电子设备,与图4所示方法实施例相对应。该装置具体包括:标题检测模块901、边缘提取模块902、干扰确定模块903、标题确定模块904、文字识别模块905。其中,标题检测模块901、边缘提取模块902、干扰确定模块903、文字识别模块905分别与图8中实施例中的标题检测模块801、边缘提取模块802、干扰确定模块803、标题确定模块804、文字识别模块805相同,具体说明内容本实施例不再赘述。
在本实施例中,标题确定模块904包括:
修正子模块9041,用于从所述初始标题区域中去除所述干扰区域,获得待修正标题区域;
二值化子模块9042,用于对所述待修正标题区域进行二值化处理,获得二值化标题图像;
跳变子模块9043,用于根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域,将确定的文字区域作为最终标题区域。
在本申请的另一种实施例中,所述跳变子模块9043,包括:
背景确定单元(图中未示出),用于根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值;
文字确定单元(图中未示出),用于根据所确定的背景像素值,从所述二值化标题图像中确定文字区域。
在本申请的另一种实施例中,所述背景确定单元,包括:
第一统计子单元(图中未示出),用于针对所述二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
第二统计子单元(图中未示出),用于针对所述二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算子单元(图中未示出),用于计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
平均子单元(图中未示出),用于确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
第一确定子单元(图中未示出),用于根据所述像素值平均值,从所述二值化标题图像包含的两种像素值中确定背景像素值。
在本申请的另一种实施例中,所述文字确定单元,包括:
第二确定子单元(图中未示出),用于确定所述二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;
第一标记子单元(图中未示出),用于将所述二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将所述二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行;
第一边界确定子单元(图中未示出),用于根据所述二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界;
第三确定子单元(图中未示出),用于确定所述二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
第二标记子单元(图中未示出),用于将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列;
第二边界确定子单元(图中未示出),用于根据所述二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
由于上述装置实施例是基于方法实施例得到的,与该方法具有相同的技术效果,因此装置实施例的技术效果在此不再赘述。对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
图10为本申请实施例提供的电子设备的一种结构示意图。该电子设备包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信;
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现本申请实施例提供的文字标题识别方法。其中,该文字标题识别方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可见,本实施例可以根据边缘图像中边缘像素点连成的线段确定标记位置,并根据边缘图像预设区域中的标记位置,确定干扰区域。去除初始标题区域中的干扰区域,即可以获得最终标题区域。最终标题区域中去除了干扰因素,可以使从最终标题区域中获得的文字标题更准确。因此,本实施例提供的方案能够提高识别文字标题时的准确率。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文字标题识别方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的文字标题识别方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (18)

1.一种文字标题识别方法,其特征在于,所述方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
2.根据权利要求1所述的方法,其特征在于,当所述标记位置为标记像素行时,所述预设区域为从所述边缘图像的边界像素行开始的第一预设数量个像素行内的区域;所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
若所述预设区域内存在标记像素行,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素行确定为所述初始标题区域中干扰区域的末尾边界像素行,将所述边缘图像的边界像素行确定为所述初始标题区域中干扰区域的起始边界像素行;
当所述标记位置为标记像素列时,所述预设区域为从所述边缘图像的边界像素列开始的第二预设数量个像素列内的区域;所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
若所述预设区域内存在标记像素列,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素列确定为所述初始标题区域中干扰区域的起始边界像素列,将所述边缘图像的边界像素列确定为所述初始标题区域中干扰区域的末尾边界像素列。
3.根据权利要求1所述的方法,其特征在于,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段,所述第二预设方向与所述第一预设方向垂直;
所述根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
4.根据权利要求3所述的方法,其特征在于,在确定长度大于预设长度阈值的线段所在位置之后,所述方法还包括:
若更新后的边缘图像中存在连续第三预设数量个标记位置,则去除所述连续第三预设数量个标记位置中除一个标记位置之外的其他标记位置;
所述根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域的步骤,包括:
根据更新后的边缘图像预设区域中剩余的标记位置,确定所述初始标题区域中的干扰区域。
5.根据权利要求1所述的方法,其特征在于,所述根据所述干扰区域,从所述初始标题区域中确定最终标题区域的步骤,包括:
从所述初始标题区域中去除所述干扰区域,获得待修正标题区域;
对所述待修正标题区域进行二值化处理,获得二值化标题图像;
根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域;
将确定的文字区域作为最终标题区域。
6.根据权利要求5所述的方法,其特征在于,所述根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域的步骤,包括:
根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值;
根据所确定的背景像素值,从所述二值化标题图像中确定文字区域。
7.根据权利要求6所述的方法,其特征在于,所述根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值的步骤,包括:
针对所述二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
针对所述二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
根据所述像素值平均值,从所述二值化标题图像包含的两种像素值中确定背景像素值。
8.根据权利要求6所述的方法,其特征在于,所述根据所确定的背景像素值,从所述二值化标题图像中确定文字区域的步骤,包括:
确定所述二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;
将所述二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将所述二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行;
根据所述二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界;
确定所述二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列;
根据所述二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
9.一种文字标题识别装置,其特征在于,所述装置包括:
标题检测模块,用于获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
边缘提取模块,用于对所述初始标题区域进行边缘提取,获得边缘图像;
干扰确定模块,用于将所述边缘图像中的连续边缘像素点连接成线段,确定长度大于预设长度阈值的线段所在的位置,作为标记位置,根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域,所述标记位置包括标记像素行和/或标记像素列;
标题确定模块,用于根据所述干扰区域,从所述初始标题区域中确定最终标题区域;
文字识别模块,用于对所述最终标题区域进行文字识别,获得所述待识别图像的文字标题。
10.根据权利要求9所述的装置,其特征在于,所述干扰确定模块,包括:
连线子模块,用于将所述边缘图像中的连续边缘像素点连接成线段;
标记子模块,用于确定长度大于预设长度阈值的线段所在的位置,作为标记位置,所述标记位置包括标记像素行和/或标记像素列;
确定子模块,用于根据所述边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
11.根据权利要求10所述的装置,其特征在于,
当所述标记位置为标记像素行时,所述预设区域为从所述边缘图像的边界像素行开始的第一预设数量个像素行内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素行,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素行确定为所述初始标题区域中干扰区域的末尾边界像素行,将所述边缘图像的边界像素行确定为所述初始标题区域中干扰区域的起始边界像素行;
当所述标记位置为标记像素列时,所述预设区域为从所述边缘图像的边界像素列开始的第二预设数量个像素列内的区域;所述确定子模块,具体用于:
若所述预设区域内存在标记像素列,则按照从所述边缘图像外部到所述边缘图像内部的顺序,将第一个标记像素列确定为所述初始标题区域中干扰区域的起始边界像素列,将所述边缘图像的边界像素列确定为所述初始标题区域中干扰区域的末尾边界像素列。
12.根据权利要求10所述的装置,其特征在于,所述连线子模块,具体用于:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点在第一预设方向上的相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像,将更新后的边缘图像中在第二预设方向上的连续边缘像素点连接成线段,所述第二预设方向与所述第一预设方向垂直;
所述确定子模块,具体用于:
根据更新后的边缘图像预设区域中的所述标记位置,确定所述初始标题区域中的干扰区域。
13.根据权利要求12所述的装置,其特征在于,所述干扰确定模块还包括:
去除子模块,用于在确定长度大于预设长度阈值的线段所在位置之后,若更新后的边缘图像中存在连续第三预设数量个标记位置,则去除所述连续第三预设数量个标记位置中除一个标记位置之外的其他标记位置;
所述确定子模块,具体用于:
根据更新后的边缘图像预设区域中剩余的标记位置,确定所述初始标题区域中的干扰区域。
14.根据权利要求9所述的装置,其特征在于,所述标题确定模块,包括:
修正子模块,用于从所述初始标题区域中去除所述干扰区域,获得待修正标题区域;
二值化子模块,用于对所述待修正标题区域进行二值化处理,获得二值化标题图像;
跳变子模块,用于根据文字标题中像素点的跳变特征,从所述二值化标题图像中确定文字区域,将确定的文字区域作为最终标题区域。
15.根据权利要求14所述的装置,其特征在于,所述跳变子模块,包括:
背景确定单元,用于根据文字标题中像素点的跳变特征,从所述二值化标题图像包含的两种像素值中确定背景像素值;
文字确定单元,用于根据所确定的背景像素值,从所述二值化标题图像中确定文字区域。
16.根据权利要求15所述的装置,其特征在于,所述背景确定单元,包括:
第一统计子单元,用于针对所述二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
第二统计子单元,用于针对所述二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算子单元,用于计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
平均子单元,用于确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
第一确定子单元,用于根据所述像素值平均值,从所述二值化标题图像包含的两种像素值中确定背景像素值。
17.根据权利要求15所述的装置,其特征在于,所述文字确定单元,包括:
第二确定子单元,用于确定所述二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;
第一标记子单元,用于将所述二值化标题图像中每像素行中第一目标像素点的数量小于第三预设数量阈值的像素行标记为背景像素行,将所述二值化标题图像中每像素行中第一目标像素点的数量不小于第三预设数量阈值的像素行标记为文字像素行;
第一边界确定子单元,用于根据所述二值化标题图像中标记为背景像素行和文字像素行的像素行,确定文字区域的上边界和下边界;
第三确定子单元,用于确定所述二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
第二标记子单元,用于将所述二值化标题图像中每像素列中第二目标像素点的数量小于第四预设数量阈值的像素列标记为背景像素列,将所述二值化标题图像中每像素列中第二目标像素点的数量不小于第四预设数量阈值的像素列标记为文字像素列;
第二边界确定子单元,用于根据所述二值化标题图像中标记为背景像素列和文字像素列的像素列,确定文字区域的左边界和右边界。
18.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN201710754717.9A 2017-08-29 2017-08-29 一种文字标题识别方法及装置 Active CN107590447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710754717.9A CN107590447B (zh) 2017-08-29 2017-08-29 一种文字标题识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710754717.9A CN107590447B (zh) 2017-08-29 2017-08-29 一种文字标题识别方法及装置

Publications (2)

Publication Number Publication Date
CN107590447A true CN107590447A (zh) 2018-01-16
CN107590447B CN107590447B (zh) 2021-01-08

Family

ID=61050183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710754717.9A Active CN107590447B (zh) 2017-08-29 2017-08-29 一种文字标题识别方法及装置

Country Status (1)

Country Link
CN (1) CN107590447B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256508A (zh) * 2018-02-28 2018-07-06 北京奇艺世纪科技有限公司 一种新闻主副标题检测方法及装置
CN108288060A (zh) * 2018-02-23 2018-07-17 北京奇艺世纪科技有限公司 一种视频中的标题检测方法、装置及电子设备
CN108304825A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种文本检测方法及装置
CN108304824A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种基于区域颜色的新闻标题的识别方法及装置
CN108305284A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种文字笔画宽度的确定方法及装置
CN108388870A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种图像内容重复性检测方法及装置
CN108388872A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种基于字体颜色的新闻标题识别方法及装置
CN108391140A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种视频帧的分析方法及装置
CN108664626A (zh) * 2018-05-14 2018-10-16 北京奇艺世纪科技有限公司 一种标题一致性检测方法、装置及电子设备
CN109034153A (zh) * 2018-07-20 2018-12-18 泰康保险集团股份有限公司 一种应用于图像旋转的图像保真的方法及装置
CN109583438A (zh) * 2018-10-17 2019-04-05 龙马智芯(珠海横琴)科技有限公司 电子图像的文字的识别方法及图像处理装置
CN110147765A (zh) * 2019-05-21 2019-08-20 新华三信息安全技术有限公司 一种图像处理方法及装置
CN110378282A (zh) * 2019-07-18 2019-10-25 北京字节跳动网络技术有限公司 图像处理方法及装置
CN113033338A (zh) * 2021-03-09 2021-06-25 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质
CN115482244A (zh) * 2022-09-14 2022-12-16 南京索图科技有限公司 一种内镜镜下影像处理方法
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060245650A1 (en) * 2005-02-18 2006-11-02 Fujitsu Limited Precise grayscale character segmentation apparatus and method
CN102208023A (zh) * 2011-01-23 2011-10-05 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN107027067A (zh) * 2015-06-23 2017-08-08 讯飞智元信息科技有限公司 获取mv视频资源中字幕信息的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060245650A1 (en) * 2005-02-18 2006-11-02 Fujitsu Limited Precise grayscale character segmentation apparatus and method
CN102208023A (zh) * 2011-01-23 2011-10-05 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN107027067A (zh) * 2015-06-23 2017-08-08 讯飞智元信息科技有限公司 获取mv视频资源中字幕信息的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李默等: "新闻视频中标题条检测及文字内容提取算法", 《电视技术》 *
桑亮: "滚动与非滚动新闻字幕的定位与分割", 《中国优秀硕士论文全文数据库 信息科技辑(月刊)计算机软件及计算机应用》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288060B (zh) * 2018-02-23 2022-06-03 北京奇艺世纪科技有限公司 一种视频中的标题检测方法、装置及电子设备
CN108288060A (zh) * 2018-02-23 2018-07-17 北京奇艺世纪科技有限公司 一种视频中的标题检测方法、装置及电子设备
CN108256508B (zh) * 2018-02-28 2021-02-26 北京奇艺世纪科技有限公司 一种新闻主副标题检测方法及装置
CN108305284A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种文字笔画宽度的确定方法及装置
CN108256508A (zh) * 2018-02-28 2018-07-06 北京奇艺世纪科技有限公司 一种新闻主副标题检测方法及装置
CN108388870A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种图像内容重复性检测方法及装置
CN108388872A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种基于字体颜色的新闻标题识别方法及装置
CN108391140A (zh) * 2018-02-28 2018-08-10 北京奇艺世纪科技有限公司 一种视频帧的分析方法及装置
CN108391140B (zh) * 2018-02-28 2021-06-01 北京奇艺世纪科技有限公司 一种视频帧的分析方法及装置
CN108304825A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种文本检测方法及装置
CN108304824A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种基于区域颜色的新闻标题的识别方法及装置
CN108388872B (zh) * 2018-02-28 2021-10-22 北京奇艺世纪科技有限公司 一种基于字体颜色的新闻标题识别方法及装置
CN108304824B (zh) * 2018-02-28 2021-10-15 北京奇艺世纪科技有限公司 一种基于区域颜色的新闻标题的识别方法及装置
CN108664626A (zh) * 2018-05-14 2018-10-16 北京奇艺世纪科技有限公司 一种标题一致性检测方法、装置及电子设备
CN109034153B (zh) * 2018-07-20 2022-04-26 泰康保险集团股份有限公司 一种应用于图像旋转的图像保真的方法及装置
CN109034153A (zh) * 2018-07-20 2018-12-18 泰康保险集团股份有限公司 一种应用于图像旋转的图像保真的方法及装置
CN109583438B (zh) * 2018-10-17 2019-11-08 龙马智芯(珠海横琴)科技有限公司 电子图像的文字的识别方法及图像处理装置
CN109583438A (zh) * 2018-10-17 2019-04-05 龙马智芯(珠海横琴)科技有限公司 电子图像的文字的识别方法及图像处理装置
CN110147765A (zh) * 2019-05-21 2019-08-20 新华三信息安全技术有限公司 一种图像处理方法及装置
CN110378282A (zh) * 2019-07-18 2019-10-25 北京字节跳动网络技术有限公司 图像处理方法及装置
CN110378282B (zh) * 2019-07-18 2021-11-02 北京字节跳动网络技术有限公司 图像处理方法及装置
CN113033338A (zh) * 2021-03-09 2021-06-25 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质
CN113505745B (zh) * 2021-07-27 2024-04-05 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质
CN115482244B (zh) * 2022-09-14 2024-05-07 南京索图科技有限公司 一种内镜镜下影像处理方法
CN115482244A (zh) * 2022-09-14 2022-12-16 南京索图科技有限公司 一种内镜镜下影像处理方法
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质
CN117523570B (zh) * 2023-11-10 2024-05-14 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107590447B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN107590447A (zh) 一种文字标题识别方法及装置
CN106254933B (zh) 字幕提取方法及装置
CN107609546B (zh) 一种文字标题识别方法及装置
US20190188528A1 (en) Text detection method and apparatus, and storage medium
CA2867365C (en) Method, system and computer storage medium for face detection
CN104298982A (zh) 一种文字识别方法及装置
CN108737875B (zh) 图像处理方法及装置
CN108615030B (zh) 一种标题一致性检测方法、装置及电子设备
CN110569774B (zh) 基于图像处理与模式识别的折线图图像自动数字化方法
CN108875744A (zh) 基于矩形框坐标变换的多方向文本行检测方法
WO2019210707A1 (zh) 一种图像清晰度评测方法、装置及电子设备
CN115273115A (zh) 一种文档元素标注方法、装置、电子设备和存储介质
CN111222508B (zh) 基于roi的户型图比例尺识别方法、装置、计算机设备
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN109255311B (zh) 一种基于图像的信息识别方法及系统
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
CN111160340A (zh) 一种运动目标检测方法、装置、存储介质及终端设备
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN113378847B (zh) 字符分割方法、系统、计算机设备和存储介质
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
CN108304825B (zh) 一种文本检测方法及装置
CN110837789B (zh) 一种检测物体的方法、装置、电子设备及介质
CN113840135A (zh) 色偏检测方法、装置、设备及存储介质
CN108363981B (zh) 一种标题检测方法及装置
CN112070771A (zh) 基于hs通道的自适应阈值分割方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant