CN107609546A - 一种文字标题识别方法及装置 - Google Patents
一种文字标题识别方法及装置 Download PDFInfo
- Publication number
- CN107609546A CN107609546A CN201710754709.4A CN201710754709A CN107609546A CN 107609546 A CN107609546 A CN 107609546A CN 201710754709 A CN201710754709 A CN 201710754709A CN 107609546 A CN107609546 A CN 107609546A
- Authority
- CN
- China
- Prior art keywords
- pixel
- header
- area
- image
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000000926 separation method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供了一种文字标题识别方法及装置。该方法包括:获取待识别图像,对待识别图像进行检测,获得初始标题区域;对初始标题区域进行边缘提取,获得边缘图像;将边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定初始标题区域中的分割线;以分割线作为边界位置,将初始标题区域分割成各个子标题区域;对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。应用本申请实施例提供的方案,能够提高识别文字标题时的准确率。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种文字标题识别方法及装置。
背景技术
为了方便用户观看视频,视频画面上可以呈现出与视频内容相关的文字标题。例如,在电视台播出的新闻类视频中,视频画面上常常会呈现出与视频内容相关的标题。而对于视频类的应用来说,对每日播出的整条视频进行切分、上线,可以供用户对于其中感兴趣的每条新闻进行点击观看。在对视频进行切分时,需要对切分好的视频输入标题,上线到应用系统中。
现有技术中,在识别视频图像中的文字标题时,具体可以从视频图像中确定文字标题所在的标题区域,对标题区域进行文字识别,进而获得视频图像的文字标题。通常,采用该标题识别方法可以从视频图像中识别出文字标题。
但是,在实际应用中,视频图像中的文字标题有单行标题或单列标题,也有多行标题或多列标题。单行标题是指只包含一行文字内容的标题,单列标题是指只包含一列文字内容的标题,多行标题是指包含两行或两行以上文字内容的标题,多列标题是指包含两列或两列以上文字内容的标题。例如,图1所示为从某新闻视频图像中提取的标题区域,这些标题区域包含两行或三行文字内容,属于多行标题。
现有的文字识别技术只能识别图像中的单行文字或单列文字,无法识别多行文字或多列文字。针对视频图像的文字标题为多行标题或多列标题的情况,由于从视频图像中提取的标题区域包含多行文字或多列文字,因此对该标题区域进行文字识别时,无法得到准确的文字识别结果,例如可能会识别出乱码。因此,现有的标题识别方法在识别文字标题时准确率不高。
发明内容
本申请实施例的目的在于提供了一种文字标题识别方法及装置,以提高识别文字标题时的准确率。
为了达到上述目的,本申请实施例提供了一种文字标题识别方法,所述方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定所述初始标题区域中的分割线;
以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域;
对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,在获得初始标题区域之后,所述方法还包括:
根据所述初始标题区域的宽度和高度,确定所述初始标题区域为横向标题区域或纵向标题区域;
当所述初始标题区域为横向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
将所述边缘图像像素行中的连续边缘像素点连接成线段;
当所述初始标题区域为纵向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
将所述边缘图像像素列中的连续边缘像素点连接成线段。
可选的,当所述初始标题区域为横向标题区域时,所述根据所连接的线段,确定所述初始标题区域中的分割线的步骤,包括:
将长度大于第一预设长度阈值的线段所在的像素行确定为所述边缘图像中的分割线;或者,
从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为所述初始标题区域中的分割线;
当所述初始标题区域为纵向标题区域时,所述根据所连接的线段,确定所述初始标题区域中的分割线的步骤,包括:
将长度大于第一预设长度阈值的线段所在的像素列确定为所述边缘图像中的分割线;或者,
从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为所述初始标题区域中的分割线。
可选的,当所述初始标题区域为横向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像像素行中的连续边缘像素点连接成线段;
当所述初始标题区域为纵向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
可选的,在根据所连接的线段,确定所述初始标题区域中的分割线之后,所述方法还包括:
若所述初始标题区域中存在连续预设数量个分割线,则去除所述连续预设数量个分割线中除一个分割线之外的其他分割线;
所述以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域的步骤,包括:
以剩余的分割线作为边界位置,将所述初始标题区域分割成子标题区域。
可选的,所述以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域的步骤,包括:
以所述分割线作为边界位置,将所述初始标题区域预分割成各个次级标题区域;
对各个次级标题区域进行二值化处理,获得各个二值化标题图像;
根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置;
根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域;
其中,当所述初始标题区域为横向标题区域时,所述文字像素位置为文字像素行;当所述初始标题区域为纵向标题区域时,所述文字像素位置为文字像素列。
可选的,所述对各个次级标题区域进行二值化处理,获得各个二值化标题图像的步骤,包括:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
可选的,在从各个次级标题区域中确定各个子标题区域之后,所述方法还包括:
从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域;
所述对各个子标题区域进行文字识别,获得所述待识别图像的文字标题的步骤,包括:
对各个最终标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,当所述文字像素位置为文字像素行时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域;
当所述文字像素位置为文字像素列时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
可选的,在将所述初始标题区域预分割成各个次级标题区域之后,所述方法还包括:
对各个次级标题区域进行边缘提取,获得各个次级边缘图像;
当所述初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行;
当所述初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列;
当所述初始标题区域为横向标题区域时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域;
当所述初始标题区域为纵向标题区域时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
可选的,所述根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值;
根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
可选的,所述根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值的步骤,包括:
采用以下方式,确定每个二值化标题图像的背景像素值:
针对目标二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;所述目标二值化标题图像为各个二值化标题图像中的任一个;
针对所述目标二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
根据所述像素值平均值,从所述目标二值化标题图像包含的两种像素值中确定背景像素值。
可选的,当所述文字像素位置为文字像素行时,所述根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
采用以下方式,从每个二值化标题图像中确定文字标题所在的文字像素行:
确定目标二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;所述目标二值化标题图像为各个二值化标题图像中的任一个;
将所述目标二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行;
当所述文字像素位置为文字像素列时,所述根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
采用以下方式,从每个二值化标题图像中确定文字标题所在的文字像素列:
确定目标二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
将所述目标二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
为了达到上述目的,本申请实施例提供了一种文字标题识别装置,所述装置包括:
标题检测模块,用于获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
边缘提取模块,用于对所述初始标题区域进行边缘提取,获得边缘图像;
线段连接模块,用于将所述边缘图像中的连续边缘像素点连接成线段;
分割线确定模块,用于根据所连接的线段,确定所述初始标题区域中的分割线;
标题分割模块,用于以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域;
文字识别模块,用于对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,所述装置还包括:
横纵确定模块,用于在获得初始标题区域之后,根据所述初始标题区域的宽度和高度,确定所述初始标题区域为横向标题区域或纵向标题区域;
所述线段连接模块,具体用于:
当所述初始标题区域为横向标题区域时,将所述边缘图像像素行中的连续边缘像素点连接成线段;
所述线段连接模块,具体用于:
当所述初始标题区域为纵向标题区域时,将所述边缘图像像素列中的连续边缘像素点连接成线段。
可选的,所述分割线确定模块,具体用于:
当所述初始标题区域为横向标题区域时,将长度大于第一预设长度阈值的线段所在的像素行确定为所述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为所述初始标题区域中的分割线;
所述分割线确定模块,具体用于:
当所述初始标题区域为纵向标题区域时,将长度大于第一预设长度阈值的线段所在的像素列确定为所述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为所述初始标题区域中的分割线。
可选的,所述线段连接模块,具体用于:
当所述初始标题区域为横向标题区域时,针对所述边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素行中的连续边缘像素点连接成线段;
所述线段连接模块,具体用于:
当所述初始标题区域为纵向标题区域时,针对所述边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
可选的,所述装置还包括:
分割线去除模块,用于在根据所连接的线段,确定所述初始标题区域中的分割线之后,若所述初始标题区域中存在连续预设数量个分割线,则去除所述连续预设数量个分割线中除一个分割线之外的其他分割线;
所述标题分割模块,具体用于:
以剩余的分割线作为边界位置,将所述初始标题区域分割成子标题区域。
可选的,所述标题分割模块,包括:
预分割子模块,用于以所述分割线作为边界位置,将所述初始标题区域预分割成各个次级标题区域;
二值化子模块,用于对各个次级标题区域进行二值化处理,获得各个二值化标题图像;
位置确定子模块,用于根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置;
区域确定子模块,用于根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域;
其中,当所述初始标题区域为横向标题区域时,所述文字像素位置为文字像素行;当所述初始标题区域为纵向标题区域时,所述文字像素位置为文字像素列。
可选的,所述二值化子模块,具体用于:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
可选的,所述装置还包括:
区域筛选子模块,用于在从各个次级标题区域中确定各个子标题区域之后,从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域;
所述文字识别模块,具体用于:
对各个最终标题区域进行文字识别,获得所述待识别图像的文字标题。
可选的,所述区域确定子模块,具体用于:
当所述文字像素位置为文字像素行时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域;
所述区域确定子模块,具体用于:
当所述文字像素位置为文字像素列时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
可选的,所述装置还包括:
边缘提取子模块,用于在将所述初始标题区域预分割成各个次级标题区域之后,对各个次级标题区域进行边缘提取,获得各个次级边缘图像;
第一确定子模块,用于当所述初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行;
第二确定子模块,用于当所述初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列;
所述区域确定子模块,具体用于:
当所述初始标题区域为横向标题区域时,根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域;
所述区域确定子模块,具体用于:
当所述初始标题区域为纵向标题区域时,根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
可选的,所述位置确定子模块,包括:
背景确定单元,用于根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值;
位置确定单元,用于根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
可选的,所述背景确定单元,包括:
行确定子单元,用于针对每一二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
列确定子单元,用于针对每一二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算子单元,用于计算每一二值化标题图像中所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
平均子单元,用于确定每一二值化标题图像中的像素值平均值为:每一二值化标题图像中所述像素值和值与目标和值之商;所述目标和值为:每一二值化标题图像中所述行数量与列数量之和;
背景确定子单元,用于根据所述像素值平均值,从每一二值化标题图像包含的两种像素值中确定背景像素值。
可选的,所述位置确定单元,具体用于:
当所述文字像素位置为文字像素行时,确定每一二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;将每一二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行;
所述位置确定单元,具体用于:
当所述文字像素位置为文字像素列时,确定每一二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;将每一二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
本申请实施例还提供一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述文字标题识别方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述文字标题识别方法。
本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述文字标题识别方法。
本申请实施例提供的文字标题识别方法及装置,可以在从待识别图像中获得初始标题区域之后,对初始标题区域进行边缘提取,获得边缘图像,将边缘图像中的连续边缘像素点连接成线段,根据所连接的线段确定初始标题区域中的分割线,以该分割线作为边界位置将初始标题区域分割成各个子标题区域,对各个子标题区域进行文字识别,获得待识别图像的文字标题。
由于多行标题中每行标题背景部分的颜色值不同,或者多列标题中每列标题背景部分的颜色值不同,这样就在各行标题之间或两列标题之间形成了颜色上的分割线,本申请实施例可以根据边缘图像中的连续边缘像素点确定初始标题区域中的分割线,根据该分割线对初始标题区域进行分割,获得各个子标题区域,所获得的各个子标题区域包含单行或单列的标题,因此对各个子标题区域进行文字识别,能够提高识别文字标题时的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为从某新闻视频图像中提取的多行标题区域的示例图;
图2为本申请实施例提供的文字标题识别方法的一种流程示意图;
图3a和图3b分别为待识别图像和对应的初始标题区域的一种示例图;
图4为本申请实施例提供的文字标题识别方法的另一种流程示意图;
图5a为将初始标题区域分割成次级标题区域的一种示例图;
图5b为二值化标题图像的一种示例图;
图5c为图4中将初始标题区域分割成子标题区域的过程示例图;
图5d和图5e为二值化标题图像和次级边缘图像的两种对比图;
图5f为应用预设检测范围的一种示例图;
图6为图4中步骤S406的一种流程示意图;
图7和图8为本申请实施例提供的文字标题识别装置的两种结构示意图。
图9为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种文字标题识别方法及装置,能够提高识别文字标题时的准确率。下面通过具体实施例,对本申请进行详细说明。
图2为本申请实施例提供的文字标题识别方法的一种流程示意图。该方法应用于电子设备。该方法具体包括如下步骤S201~步骤S205:
步骤S201:获取待识别图像,对待识别图像进行检测,获得初始标题区域。
其中,待识别图像可以但不限于是视频中的帧图像或单个图像。待识别图像可以但不限于是RGB(红、绿、蓝)图像。
本步骤中,对待识别图像进行检测,获得初始标题区域时,具体可以是,将待识别图像中的指定区域确定为初始标题区域,其中,指定区域可以是预先设置的区域;也可以是,将待识别图像输入用于确定标题区域的目标网络,获取目标网络输出的检测结果,作为初始标题区域。该目标网络,用于根据该目标网络训练完成时获得的标题区域的特征,从输入的待识别图像中检测文字标题,作为检测结果进行输出。
作为一个例子,图3a为待识别图像的一个示例图。图3b为从图3a所示待识别图像中获得的初始标题区域的一个示例图。可见,图3b所示的初始标题区域中的文字标题为两行标题。由于现有的文字识别技术只能对单行标题或单列标题进行文字识别,因此直接对图3b所示的初始标题区域进行文字识别,所得到的识别结果准确率不高。为了提高识别出的文字标题的准确性,可以继续执行本实施例的以下步骤。
步骤S202:对初始标题区域进行边缘提取,获得边缘图像。
本步骤中,对初始标题区域进行边缘提取时,具体可以包括:将初始标题区域转换为灰度图像或亮度图像,提取灰度图像或亮度图像中每个像素点的边缘特征值,将边缘特征值大于预设特征阈值的像素点确定为边缘像素点,将边缘特征值不大于预设特征阈值的像素点确定为背景像素点,获得包含边缘像素点和背景像素点的边缘图像。
作为一个例子,当待识别图像是RGB图像时,初始标题区域也为RGB图像。
将初始标题区域转换为灰度图像时,具体可以采用公式Gray=R*0.299+G*0.587+B*0.114,将初始标题区域转换为灰度图像。
将初始标题区域转换为亮度图像时,可以将初始标题区域转换为任意亮度色彩分离图像,从亮度色彩分离图像中获得亮度图像。亮度色彩分离图像可以包括YUV(亮度、色度)图像、HSV(色调、饱和度、明度)图像、HSL(色调、饱和度、亮度)图像和LAB(亮度、色彩)图像。具体的,可以采用L=(max(R,G,B)+min(R,G,B))/2公式,将初始标题区域转换为亮度图像。
提取灰度图像或亮度图像中每个像素点的边缘特征值时,可以采用很多方法,例如采用Sobel算子、Canny算子等。下面以Sobel算子为例说明提取灰度图像或亮度图像中每个像素点的边缘特征值的过程。将灰度图像或亮度图像作为待提取特征图像,利用水平方向边缘梯度Sobel算子和垂直方向边缘梯度Sobel算子,分别对待提取特征图像进行卷积,获得水平边缘图Eh和垂直边缘图Ev,采用公式Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2),获得边缘强度图Eall中每一个像素点的边缘特征值Eall(x,y)。
将边缘特征值大于预设特征阈值的像素点确定为边缘像素点,将边缘特征值不大于预设特征阈值的像素点确定为背景像素点时,可以将边缘像素点和背景像素点的像素值确定为1(0)或0(1),也可以将边缘像素点和背景像素点的像素值确定为0(255)或255(0)。这样,即可以得到包含边缘像素点和背景像素点两种数值的边缘图像。
可以理解的是,在获得边缘图像之后,边缘图像中的边缘像素点和背景像素点是确定的。
步骤S203:将边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定初始标题区域中的分割线。
可以说明的是,初始标题区域中的文字标题可以是横向的,也可以是纵向的。一般来说,当初始标题区域为横向标题区域时,其中的文字标题也是横向的;当初始标题区域为纵向标题区域时,其中的文字标题也是纵向的。在将边缘图像中的连续边缘像素点连接成线段时,针对横向的初始标题区域和纵向的初始标题区域,所执行的步骤是不同的。
在本实施例中,在获得初始标题区域之后,该方法还可以包括以下确定初始标题区域是横向还是纵向的步骤:
根据初始标题区域的宽度和高度,确定初始标题区域为横向标题区域或纵向标题区域。
例如,当初始标题区域的宽度大于高度时,确定初始标题区域为横向标题区域;当初始标题区域的宽度不大于高度时,确定初始标题区域为纵向标题区域。或者,当初始标题区域的宽度与高度的比例大于预设比例阈值时,确定初始标题区域为横向标题区域;当初始标题区域的宽度与高度的比例不大于预设比例阈值时,确定初始标题区域为纵向标题区域。
对应的,当初始标题区域为横向标题区域时,将边缘图像中的连续边缘像素点连接成线段的步骤,具体可以为:将边缘图像像素行中的连续边缘像素点连接成线段。
当初始标题区域为纵向标题区域时,将边缘图像中的连续边缘像素点连接成线段的步骤,具体可以为:将边缘图像像素列中的连续边缘像素点连接成线段。
当初始标题区域为横向标题区域时,根据所连接的线段,确定初始标题区域中的分割线时,可以为:将长度大于第一预设长度阈值的线段所在的像素行确定为所述边缘图像中的分割线。
或者,也可以为,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为初始标题区域中的分割线。实际中可能会存在分割线中间断开的情况时,本实施方式能更准确地确定这种情况下的分割线。
当初始标题区域为纵向标题区域时,根据所连接的线段,确定初始标题区域中的分割线时,可以为:将长度大于第一预设长度阈值的线段所在的像素列确定为边缘图像中的分割线。
或者,也可以为,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为初始标题区域中的分割线。实际中可能会存在分割线中间断开的情况时,本实施方式能更准确地确定这种情况下的分割线。
其中,线段的长度可以理解为线段中边缘像素点的数量。预设长度阈值也可以理解为预设数量阈值。
例如,针对图3b中的初始标题区域,从该初始标题区域对应的边缘图像中可以确定出分割线,确定的分割线为如图3b中所标注的像素行位置。
当无法从所连接的线段中确定分割线时,可以直接对初始标题区域进行文字识别,也可以对初始标题区域进行其他处理之后再进行文字识别,本申请对此不做具体限定。
需要指出的是,实际中横向标题区域比纵向标题区域更加常见。为了使描述更简洁、清楚,本申请在举例时,以横向标题区域为例进行说明。
步骤S204:以分割线作为边界位置,将初始标题区域分割成各个子标题区域。
可以理解的是,初始标题区域中的分割线可以包含一个,也可以包含两个或两个以上,常见的是包含一个或两个分割线。以分割线作为边界位置,可以将初始标题区域分割成两个、三个或更多个子标题区域。下面以初始标题区域包含一个和两个分割线为例具体说明本步骤。
当初始标题区域为横向标题区域,且初始标题区域包含一个分割线时,可以得到以下各个子标题区域:上一行子标题区域的上边界为初始标题区域的上边界,下边界为分割线;下一行子标题区域的上边界为分割线,下边界为初始标题区域的下边界。各个子标题区域的左右边界均为初始标题区域的左右边界。
当初始标题区域为横向标题区域,且初始标题区域包含两个分割线时,可以得到以下各个子标题区域:上一行子标题区域的上边界为初始标题区域的上边界,下边界为第一分割线;中间一行子标题区域的上边界为第一分割线,下边界为第二分割线;下一行子标题区域的上边界为第二分割线,下边界为初始标题区域的下边界。各个子标题区域的左右边界均为初始标题区域的左右边界。其中,第一分割线位于第二分割线上方。
当初始标题区域为纵向标题区域,且初始标题区域包含一个分割线时,可以得到以下各个子标题区域:左侧子标题区域的左边界为初始标题区域的左边界,右边界为分割线;右侧子标题区域的左边界为分割线,右边界为初始标题区域的右边界。各个子标题区域的上下边界均为初始标题区域的上下边界。
当初始标题区域为纵向标题区域,且初始标题区域包含两个分割线时,可以得到以下各个子标题区域:左侧子标题区域的左边界为初始标题区域的左边界,右边界为第一分割线;中间一列子标题区域的左边界为第一分割线,右边界为第二分割线;右侧子标题区域的左边界为第二分割线,右边界为初始标题区域的右边界。各个子标题区域的上下边界均为初始标题区域的上下边界。其中,第一分割线位于第二分割线左侧。
步骤S205:对各个子标题区域进行文字识别,获得待识别图像的文字标题。
在本步骤中,对各个子标题区域进行文字识别时,可以采用光学字符识别(Optical Character Recognition,OCR)技术对各个子标题区域进行文字识别,也可以采用其他文字识别技术对各个子标题区域进行文字识别。对图像进行文字识别属于现有技术,因此,本实施例对本步骤的具体实施过程不再赘述。
由上述内容可知,由于多行标题中每行标题背景部分的颜色值不同,或者多列标题中每列标题背景部分的颜色值不同,这样就在各行标题之间或两列标题之间形成了颜色上的分割线,本实施例可以根据边缘图像中的连续边缘像素点确定初始标题区域中的分割线,根据该分割线对初始标题区域进行分割,获得各个子标题区域,所获得的各个子标题区域包含单行或单列的标题,因此对各个子标题区域进行文字识别,能够提高识别文字标题时的准确率。
为了进一步提高所确定的分割线的准确性,在本申请的另一实施例中,可以对图2中的步骤S203进行改进。
当初始标题区域为横向标题区域时,将边缘图像中的连续边缘像素点连接成线段的步骤,具体可以包括以下步骤1和步骤2:
步骤1:针对边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像。
步骤2:将更新后的边缘图像像素行中的连续边缘像素点连接成线段。
当初始标题区域为纵向标题区域时,将边缘图像中的连续边缘像素点连接成线段的步骤,具体可以包括以下步骤1和步骤2:
步骤1:针对边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像。
步骤2:将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
在本实施例中,相比于原来的边缘图像,更新后的边缘图像中的边缘像素点更多。可以说明的是,边缘图像中的像素点可能存在锯齿现象,即分割线可能并不是严格地位于一个像素行内或一个像素列内。因此,为了更准确地确定分割线的位置,需要更准确地确定各个线段。
可见,本实施例中,当该像素点以及该像素点在一定方向上的相邻像素点中至少存在一个像素点为边缘像素点时,均可以将该像素点更新为边缘像素点,这样可以兼容图像中的锯齿现象,使得所确定的线段更准确,进而提高所确定的分割线的准确性。
可以说明的是,在考虑了边缘图像中的锯齿现象,对边缘图像中的边缘像素点进行增加获得更新后的边缘图像之后,在此基础上确定的分割线会增多,存在冗余。为了减少这种冗余现象,可以对连续存在的多个分割线进行去除。
在本申请的另一实施例中,在步骤S302之后,即在根据所连接的线段,确定初始标题区域中的分割线之后,该方法还可以包括以下步骤:
若初始标题区域中存在连续预设数量个分割线,则去除连续预设数量个分割线中除一个分割线之外的其他分割线。其中,预设数量个可以但不限于为3个或2个等。
在本实施例中,可以先确定初始标题区域中存在的连续3个分割线,并去除其中的2个分割线。然后针对去除后的分割线,再确定存在的连续2个分割线,并去除其中的1个分割线。在连续3个分割线中去除一个分割线,可以但不限于是连续3个分割线中两侧的分割线。在连续2个分割线中去除的一个分割线,可以是第一个分割线或第二个分割线。
相应的,图2中的步骤S204,以分割线作为边界位置,将初始标题区域分割成各个子标题区域,具体可以为:以剩余的分割线作为边界位置,将初始标题区域分割成子标题区域。
上述步骤在具体实施时可以参见图2中步骤S204的具体描述,此处不再赘述。
可见,本实施例中可以从初始标题区域中存在的连续预设数量个分割线中保留一个分割线,去除该一个分割线之外的其他分割线,实现了对分割线的冗余去除,使剩余的分割线更准确,这样能够提高所确定的子标题区域的准确性。
下面以具体的实例进一步说明本实施例的实施过程。
已知初始标题区域为横向标题区域,且获得的边缘图像E中边缘像素点的像素值为1,背景像素点的像素值为0。针对边缘图像E中的每个像素点,当该像素点以及该像素点上下相邻像素点中存在至少一个像素值为1的像素点,则认为该像素点的像素值为1。将每一像素行中像素值为1的连续像素点确定为线段,对边缘图像E中的线段进行水平方向的投影,获得水平直方图中每个像素行对应的特征值H[i]。具体的投影过程为:统计每一像素行i中目标线段包含的像素点总数量Numedge,如果Numedge>Thnum1,则将水平直方图中该像素行的特征值H[i]置为1,即认为该像素行为分割线,否则置为0,即认为该像素行为非分割线。i的范围是[0,h0-1]。h0为边缘图像的总像素行数量,也是初始标题区域的的总像素行数量。
目标线段为:每一像素行中包含的像素点的数量大于阈值Thlen1的线段。
为了去除分割线冗余,可以对水平直方图进行以下处理。对于水平直方图进行第一次遍历,如果出现H[i]==1&&H[i-1]==1&&H[i+1]==1的情况,则令H[i]==1,H[i-1]==0,H[i+1]==0;对于水平直方图进行第二次遍历,如果出现H[i]==1&&H[i+1]==1的情况,则令H[i]==1,H[i+1]==0。
经过上述两次处理之后,可以确定剩余的分割线,即水平直方图中特征值H[i]为1的像素行。
记录初始标题图像中第一个子标题区域在y方向(纵向方向)的分割开始位置为0,对于水平直方图H,进行遍历,如果H[i]==1(为分割点),则此处作为第一个子标题区域y方向的分割结尾位置i,即得到第一个子标题区域的上下边界范围为[0,i],并将该范围记录在列表Pos中。记录第二个子标题区域在y方向的分割开始位置i+1,继续遍历水平直方图,如果存在H[i+n]==1(为分割点),则此处作为第二个子标题区域在y方向的分割结尾位置i+n;如果不存在H[i+n]==1,则将h0-1作为第二个子标题区域在y方向的分割结尾位置,并将获得的第二个子标题区域记录在列表Pos中。依此规律,直至所有位置遍历完成,将所有分割信息放入列表Pos。记录初始标题区域在y方向的最后一个位置h0-1,作为分割的结束位置,放入列表Pos。(如果初始标题区域不能分割,则列表Pos中只会记录[0,h0-1]这个范围)
对于列表Pos中每一个y方向的分割位置[i,i+n],生成各个子标题区域(y1,y2,w,h),其中,y1和y2分别为子标题区域的顶点y坐标,w和h分别为子标题区域的宽度和高度),获取初始标题区域中这个区域内的图像,作为子标题区域。
图4为本申请实施例提供的文字标题识别方法的另一种流程示意图。该实施例为对图2所示实施例加以改进之后得到的实施例。该方法应用于电子设备。
具体的,该方法包括以下步骤S401~步骤S408:
步骤S401:获取待识别图像,对待识别图像进行检测,获得初始标题区域。
步骤S402:对初始标题区域进行边缘提取,获得边缘图像。
步骤S403:将边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定初始标题区域中的分割线。
在本实施例中,上述步骤S401~步骤S403分别与图2所示实施例中的步骤S201~步骤S203对应相同,详细内容可以参见图2所示实施例,此处不再赘述。
步骤S404:以上述分割线作为边界位置,将初始标题区域预分割成各个次级标题区域。
在本步骤中,以上述分割线作为边界位置,将初始标题区域预分割成各个次级标题区域的步骤与图2所示实施例步骤S204中以分割线作为边界位置,将初始标题区域分割成各个子标题区域的步骤相同,本实施例即是将对初始标题区域分割后的各个部分作为次级标题区域。
可以说明的是,根据分割线对初始标题区域分割后得到的次级标题区域可能仍然不是单行标题或单列标题。例如,图5a所示为将某个初始标题区域从分割线处分割成的两个次级标题区域,可见上方的次级标题区域为单行标题,下方的次级标题区域不是单行标题,仍然可以再分割。为了对各个次级标题区域中的多行标题或多列标题进行进一步的分割,可以继续执行下述步骤。
步骤S405:对各个次级标题区域进行二值化处理,获得各个二值化标题图像。
本步骤中,对各个次级标题区域进行二值化处理时,具体可以包括:将各个次级标题区域转换为各个灰度图像或各个亮度图像,根据各个灰度图像或各个亮度图像中每个像素点确定二值化阈值,根据确定的二值化阈值将上述各个灰度图像或各个亮度图像转换为各个二值化标题图像。
作为一个例子,当初始标题区域是RGB图像时,各个次级标题区域也为RGB图像。
将各个次级标题区域转换为灰度图像时,具体可以采用公式Gray=R*0.299+G*0.587+B*0.114,将各个次级标题区域转换为灰度图像。
将各个次级标题区域转换为亮度图像时,可以将各个次级标题区域转换为任意亮度色彩分离图像,从亮度色彩分离图像中获得亮度图像。具体的,可以采用L=(max(R,G,B)+min(R,G,B))/2公式,将各个次级标题区域转换为亮度图像。
根据各个灰度图像或各个亮度图像中每个像素点确定二值化阈值时,可以为,将各个灰度图像或各个亮度图像作为待处理图像,根据待处理图像中的像素点,采用大津算法(OTSU算法),确定二值化阈值,具体过程包括:
将待处理图像划分为N个灰度,N小于等于256,提取待处理图像的N阶灰度直方图,灰度直方图中的每一灰度为t(0<=t<N)。可以采用以下方式确定二值化阈值:
其中,H表示图像的直方图,i表示N个灰度中的某个灰度,H(i)表示灰度属于[256/N*i,256/N*(i+1)]范围内的像素点总数占全图像的像素点总数的比例。将使最大的t对应的x(t)作为二值化阈值ThB。
根据确定的二值化阈值将上述各个灰度图像或各个亮度图像转换为二值化标题图像时,可以将灰度图像或亮度图像中像素值不小于二值化阈值的像素点的像素值更新为255,将灰度图像或亮度图像中像素值小于二值化阈值的像素点的像素值更新为0,获得各个二值化标题图像。也就是说,每个二值化标题图像中均包含两种像素值的像素点。
以上二值化过程只是部分具体的实施方式。对各个次级标题区域进行二值化处理还可以采用其他的二值化算法,本申请对此不做具体限定。
步骤S406:根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置。
其中,当初始标题区域为横向标题区域时,文字像素位置为文字像素行;当初始标题区域为纵向标题区域时,文字像素位置为文字像素列。
可以说明的是,二值化标题图像可以包括文字标题区域和背景区域,文字标题区域中相邻像素点像素值的变化比较大,即跳变特征明显;而背景区域中通常不包含文字部分,其相邻像素点像素值的变化不明显。因此,可以根据文字标题中像素点的跳变特征,从二值化标题图像中确定文字标题所在的像素行或像素列,作为文字像素行或文字像素列。
根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置时,具体可以对各个二值化标题图像进行水平投影和/或垂直投影,确定水平像素和值和/或垂直像素和值,根据水平像素和值和/或垂直像素和值,将像素和值中存在锯齿状变化的区域对应的像素行或像素列确定为文字像素行或文字像素列。
可以理解的是,各个次级标题区域中不存在颜色差异所形成的分割线,即各个次级标题区域的颜色差异不大。根据该特征,可以利用二值化图像中文字与背景之间的颜色差异确定文字所在的像素行或像素列,根据文字所在的像素行或像素列对各个次级标题区域进行分割。
作为一个例子,图5b为二值化标题图像的一个例子。根据文字标题中像素点的跳变特征,可以从该二值化标题图像中确定文字标题所在的文字像素行,图5b中右侧用大括号标出的像素行为文字像素行。
步骤S407:根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域。
在本步骤中,当文字像素位置为文字像素行时,根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域时,可以为:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
当文字像素位置为文字像素列时,根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域时,可以为:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
可以理解的是,当次级标题区域中的所有文字像素行均连续时,可以从该次级标题区域中确定出一个子标题区域。当次级标题区域中存在两部分或两部分以上连续文字像素行时,可以从该次级标题区域中确定出两个或两个以上的子标题区域。
当文字像素位置为文字像素行时,各个子标题区域的上下边界可以为连续文字像素行中上下边界处的文字像素行,左右边界可以为次级标题区域的左右边界。
当文字像素位置为文字像素列时,各个子标题区域的左右边界可以为连续文字像素列中左右边界处的文字像素列,上下边界可以为次级标题区域的上下边界。
并且,采用上述实施方式确定的各个子标题区域去除了文字标题区域之外的背景区域,使子标题区域更加准确。
作为一个例子,图5c为本实施例中获得各个子标题区域的过程示意图。具体的,该图中展示了将初始标题区域分割成各个次级标题区域,并将各个次级标题区域分割成各个子标题区域的过程。
步骤S408:对各个子标题区域进行文字识别,获得待识别图像的文字标题。
在本实施例中,上述步骤S408与图2所示实施例中的步骤S205相同,详细内容可以参见图2所示实施例,此处不再赘述。
可见,本实施例可以在图2所示实施例的基础上,对根据分割线分割得到的各个次级标题区域,将次级标题区域转换为二值化标题图像,根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素行或文字像素列,根据文字像素行或文字像素列,从各个次级标题区域中确定各个子标题区域,对各个子标题区域进行文字识别,获得待识别图像的文字标题。由于各个次级标题区域不包含分割线,对各个次级标题区域进行二值化,并根据文字标题中像素点的跳变特征,可以对各个次级标题区域进行进一步的分割,得到更多包含单行标题或单列标题的子标题区域,因此能够进一步提高所识别的文字标题的准确率。
在本申请的另一实施例中,图4中的步骤S407,在从各个次级标题区域中确定各个子标题区域之后,该方法还可以包括:
从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域。
其中,尺寸阈值可以是预设值,也可以是根据所有子标题区域的尺寸计算得到的,例如可以为所有子标题区域尺寸的平均值。
对应的,步骤S408,对各个子标题区域进行文字识别,获得待识别图像的文字标题,具体可以包括:
对各个最终标题区域进行文字识别,获得所述待识别图像的文字标题。
本步骤中,对各个最终标题区域进行文字识别也可以采用图2的步骤S205中提供的识别方法,具体内容不再赘述。
可见,本实施例可以根据尺寸对子标题区域进行筛选,区域无效的子标题区域,提高准确性。
为了进一步提高所确定的子标题区域的准确性,在本申请的另一实施例中,在图4中的步骤S404之后,在将初始标题区域预分割成各个次级标题区域之后,该方法还可以包括以下步骤1~步骤3:
步骤1:对各个次级标题区域进行边缘提取,获得各个次级边缘图像。
在本实施例中,本步骤可以采用图2的步骤S202中提供的边缘提取方法,具体内容此处不再赘述。
步骤2:当初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行。
步骤3:当所述初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列。
当初始标题区域为横向标题区域时,图4中的步骤S407,根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域,具体可以为:
根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域。
在本步骤中,可以将文字像素行和参考像素行均作为目标像素行,各个子标题区域的上下边界可以为连续目标像素行中上下边界处的目标像素行,左右边界可以为次级标题区域的左右边界。
当初始标题区域为纵向标题区域时,图4中的步骤S407,根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域,具体可以为:
根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
在本步骤中,可以将文字像素列和参考像素列均作为目标像素列,各个子标题区域的左右边界可以为连续目标像素列中左右边界处的目标像素列,上下边界可以为次级标题区域的上下边界。
可以说明的是,一方面,当待识别图像存在较大的压缩效应时,图像中的文字标题区域和背景区域可能由于压缩而挤压在一起,导致两者无法分割。另一方面,当文字行间距过密时,采用边缘图像确定的参考像素行可能均是连续的,这样就无法将包含多行或多列文字标题的次级标题区域分割成多个子标题区域。因此,为了提高在上述情况下所确定的子标题区域的准确性,可以采用边缘图像和二值化图像相融合的处理方式,进而提高准确性。
参见图5d和图5e所示例子。图5d中的上下两个图像分别为从一个次级标题区域得到的二值化标题图像和次级边缘图像。从该图中可见,二值化标题图像中文字标题所在的像素行均是连续的,各个文字标题之间的间距为0,无法分割两行文字标题。而从对应的次级边缘图像中文字标题所在的像素行并不是连续的,可以将两行文字标题分割开。图5e中的上下两个图像分别为从另一个次级标题区域得到的二值化标题图像和次级边缘图像。从该图中可见,二值化标题图像中文字标题所在的像素行不是连续的,各个文字标题之间存在间距,可以分割两行文字标题。而对应的次级边缘图像中文字标题所在的像素行均是连续的,各个文字标题之间的间距为0,无法分割各行文字标题。而将次级标题图像和二值化标题图像结合起来考虑,便可以更准确地对上述次级标题区域进行分割。
可见,本实施例可以在图4所示实施例的基础上获得各个次级标题区域对应的各个次级边缘图像,从各个次级边缘图像中确定文字标题所在的参考像素行或参考像素列,根据确定的文字像素行和参考像素行,或者根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。由于结合了次级边缘图像和二值化标题图像的结果,因此能够进一步提高所确定的子标题区域的准确性。
为了进一步提高准确性,在本申请的另一实施例中,图4中的步骤S405,对各个次级标题区域进行二值化处理,获得各个二值化标题图像,具体可以为:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
在确定待检测区域之后,还可以对各个待检测区域进行边缘提取,获得各个次级边缘图像。
可以理解的是,在待识别图像中所包含的标题区域可能是半透明样式的图层,并且这种图层的透明度在标题区域的某些位置中比较大,这导致所确定的初始标题区域中某些位置包含干扰图像。例如,图1中右侧一列第2个标题区域的最右端显示出了背景中的图像,该图像对文字识别会产生干扰作用。为了减少这种干扰,可以设定检测区域,对检测区域中的图像进行处理,以排除这部分图像干扰,以提高准确性。
其中,预设检测范围可以根据对大量的标题图像进行的统计结果确定。例如,可以将预设检测范围Rect(x,y,w,h)设置为:
Rect.x=w*Xratio1,Rect.y=0;
Rect.w=w*Xratio2,Rect.h=h0
其中,Xratio1,Xratio2均为预先设定的参数。w和h0分别为图像的宽度和高度。
本实施例中,根据预设检测范围,从各个次级标题区域中确定待检测区域时,可以为,将各个次级标题区域中的预设检测范围确定为待检测区域。
本实施例中,对各个待检测区域进行二值化处理时,可以采用图4的步骤S405中给出的二值化方法进行,具体内容不再赘述。对各个待检测区域进行边缘提取时,可以采用图2的步骤S202中给出的边缘提取方法进行,具体内容不再赘述。
作为一个例子,图5f为应用预设检测范围的一个例子,图中所示的上中下三个图像分别是次级标题区域以及对应的次级边缘图像和二值化标题图像,图中的方框范围即为一个预设检测范围。处于方框内的次级标题区域即为待检测区域,从该待检测区域得到的二值化标题图像和次级边缘图像为对应的方框内的部分。从图中可见,采用这种方式得到的二值化标题图像和次级边缘图像所包含的右侧的干扰图像较少,因此能够提高处理时的准确性。
可见,本实施例可以从各个次级标题区域中确定待检测区域,对待检测区域进行二值化处理和边缘提取处理,能够减少半透明样式图层带来的干扰,提高处理的准确性。
在本申请的另一实施例中,图4的步骤S406,根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,可以按照图6所示流程示意图进行,具体包括以下步骤S406A~步骤S406B:
步骤S406A:根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值。
在本步骤中,从各个二值化标题图像包含的两种像素值中确定背景像素值时,具体可以采用包括以下步骤1~步骤5的方式,确定每个二值化标题图像的背景像素值:
步骤1:针对目标二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与第一指定像素点的像素值不同的像素点的第一像素点数量,将第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计目标像素行的行数量。
其中,目标二值化标题图像为各个二值化标题图像中的任一个。每个二值化标题图像均可以通过步骤1~步骤5的方式确定背景像素值。
第一指定像素点可以为像素行中指定位置处的像素点,例如,像素行中的第一个像素点或第二个像素点等。可以理解的是,由于第一像素点数量为像素行中像素值与第一指定像素点的像素值不同的像素点的像素点数量,目标像素行为第一像素点数量小于第一预设数量阈值的像素行,也就是说该像素行中像素点跳变不明显,因此目标像素行可以理解为背景区域内的像素行。
步骤2:针对目标二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计目标像素列的列数量。
其中,第二指定像素点可以为像素列中指定位置处的像素点,例如,像素列中的第一个像素点或第二个像素点等。第二指定像素点可以与第一指定像素点相同,也可以不同,本实施例对此不做限定。第二预设数量阈值可以与第一预设数量阈值相同,也可以不同。
可以理解的是,由于第二像素点数量为像素列中像素值与第二指定像素点的像素值不同的像素点的像素点数量,目标像素列为第二像素点数量小于第二预设数量阈值的像素列,也就是说该像素列中像素点跳变不明显,因此目标像素列可以理解为背景区域内的像素列。
步骤3:计算目标像素行的第一指定像素点以及目标像素列的第二指定像素点的像素值和值。
步骤4:确定像素值平均值为:上述像素值和值与目标和值之商。目标和值为:上述行数量与列数量之和。
步骤5:根据上述像素值平均值,从目标二值化标题图像包含的两种像素值中确定背景像素值。
在本步骤中,从目标二值化标题图像包含的两种像素值中确定背景像素值时,具体可以为,当上述像素值平均值小于中间值时,将目标二值化标题图像包含的第一种像素值确定为背景像素值,当上述像素值平均值不小于中间值时,将目标二值化标题图像包含的第二种像素值确定为背景像素值。其中,上述中间值为第一种像素值和第二种像素值的平均值,第一种像素值小于第二种像素值。
下面以具体实例说明上述确定背景像素值的过程。
参见图5b,图5b所示为本实施例中二值化标题图像的一种示例图。该二值化标题图像B中包含像素值为0和255的两种像素值。水平扫描该二值化标题图像B的每像素行,取该像素行第一个像素点为第一指定像素点,该第一指定像素点的像素值为color,统计该像素行中像素值不等于color的像素点的个数num,如果num<第一预设数量阈值Th1,则累计back_color=back_color+color,count=count+1。
垂直扫描二值化标题图像B的每像素列,取该像素列第一个像素点为第二指定像素点,该第二指定像素点的像素值为color,统计该像素列中像素值不等于color的像素点的个数num,如果num<第二预设数量阈值Th2,则back_color=back_color+color,count=count+1。
计算像素值平均值为:back_color=back_color/count,如果back_color<中间值128,则确定背景像素值为back_color=0,否则确定背景像素值为back_color=255。其中,中间值128=(0+255)/2=128。
步骤S406B:根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
在本步骤中,当文字像素位置为文字像素行时,根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置时,具体可以包括:
采用以下步骤1~步骤2所示方式,从每个二值化标题图像中确定文字标题所在的文字像素行:
步骤1:确定目标二值化标题图像中每像素行中像素值与背景像素值不同的第一目标像素点。其中,目标二值化标题图像为各个二值化标题图像中的任一个。
步骤2:将目标二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行。
可以理解的是,第一目标像素点为像素行中像素值与背景像素值不同的像素点,当某像素行中第一目标像素点的数量小于第三预设数量阈值时,说明该像素行包含的所有像素点中背景像素点比较多,可以将该像素行认为是背景像素行;当某像素行中第一目标像素点的数量不小于第三预设数量阈值时,说明该像素行包含的所有像素点中背景像素点比较少,可以将该像素行认为是文字像素行。
当文字像素位置为文字像素列时,根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置时,具体可以包括:
采用以下步骤1~步骤2所示方式,从每个二值化标题图像中确定文字标题所在的文字像素列:
步骤1:确定目标二值化标题图像中每像素列中像素值与背景像素值不同的第二目标像素点。
步骤2:将目标二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
可以理解的是,第二目标像素点为像素列中像素值与背景像素值不同的像素点,当某像素列中第二目标像素点的数量小于第三预设数量阈值时,说明该像素列包含的所有像素点中背景像素点比较多,可以将该像素列认为是背景像素列;当某像素列中第二目标像素点的数量不小于第三预设数量阈值时,说明该像素列包含的所有像素点中背景像素点比较少,可以将该像素列认为是文字像素行。
可见,本实施例可以确定背景像素值,根据背景像素值从二值化标题图像中确定文字标题所在的文字像素行或文字像素列,能够提高所确定的文字像素行或文字像素列的准确性。
可以说明的是,在本实施例中,步骤S406也可以根据文字标题中像素点的跳变特征,从二值化标题图像包含的两种像素值中确定文字像素值,根据所确定的文字像素值,从二值化标题图像中确定文字标题所在的文字像素位置。具体的步骤与上述过程类似,此处不再赘述。
下面结合具体实例对本申请中上述步骤S406和步骤S407再做详细说明。
对于二值化标题图像B,对B进行水平方向投影,获得第一水平直方图中每像素行对应的特征值Hb。具体的投影方法为:统计每一像素行i中像素值不等于背景像素值back_color的第一目标像素点的数量numb,如果numb>=第三预设数量阈值Th3,则认为该行像素跳变点比较多,为文字像素行,将第一水平直方图中该像素行的特征值Hb[i]置为0,否则将Hb[i]置为1。i的范围是[0,h0-1],h0为二值化标题图像的高度。
对于次级边缘图像E进行水平方向投影,获得第二水平直方图中每像素行对应的特征值He。具体的投影方法为:统计每一像素行中像素值不等于0的像素的数量nume,如果nume>=第四预设数量阈值Th4,则认为该像素行为文字标题所在的参考像素行,将He[i]置为0,否则将He[i]置为1。其中,次级边缘图像E中的边缘像素点的像素值为1,非边缘像素点的像素值为0。
融合上述第一水平直方图和第二水平直方图中的特征值,获得每个融合特征值Hs:Hs[i]=He[i]|Hb[i]。其中,“|”为或符号。
对于融合后获得的特征Hs[i],在范围[0,h0-1]进行遍历,如果(i==0||Hs[i-1]==1)&&(Hs[i]==0,Hs[i+1]==0,…,Hs[i+n]==0)&&(Hs[i+n+1]==1||h0-1),则将这些y方向的像素行范围[i,i+n]确定为文字像素行,并记录在列表Postext中;如果没有任何一个区域符合上述条件,则认为整体不可分割,将整个像素行范围[0,h0-1]记录在列表Postext中。
已知列表Postext中的像素行范围数量为N,计算尺寸阈值Th5=h0/(N+1),如果列表Postext中的像素行范围[i,i+n]的高度n<Th5,则认为该像素行范围不是有效范围,删除这个像素行范围。
对于剩余的列表Postext中的每个像素行范围[i,i+n],确定对应的子标题区域(y1,y2,w,h),其中,y1和y2分别为子标题区域的顶点y坐标,w和h分别为子标题区域的宽度和高度。
图7为本申请实施例提供的文字标题识别装置一种结构示意图。该装置实施例与图2所示方法实施例相对应。该装置应用于电子设备,该装置包括:
标题检测模块701,用于获取待识别图像,对待识别图像进行检测,获得初始标题区域;
边缘提取模块702,用于对初始标题区域进行边缘提取,获得边缘图像;
线段连接模块703,用于将边缘图像中的连续边缘像素点连接成线段;
分割线确定模块704,用于根据所连接的线段,确定初始标题区域中的分割线;
标题分割模块705,用于以上述分割线作为边界位置,将初始标题区域分割成各个子标题区域;
文字识别模块706,用于对各个子标题区域进行文字识别,获得上述待识别图像的文字标题。
在本申请的另一实施例中,图7所示装置还可以包括:
横纵确定模块(图中未示出),用于在获得初始标题区域之后,根据初始标题区域的宽度和高度,确定上述初始标题区域为横向标题区域或纵向标题区域;
上述线段连接模块703,具体可以用于:当上述初始标题区域为横向标题区域时,将上述边缘图像像素行中的连续边缘像素点连接成线段;
上述线段连接模块703,具体可以用于:当上述初始标题区域为纵向标题区域时,将上述边缘图像像素列中的连续边缘像素点连接成线段。
在本申请的另一实施例中,图7的分割线确定模块704,具体可以用于:
当上述初始标题区域为横向标题区域时,将长度大于第一预设长度阈值的线段所在的像素行确定为上述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为上述初始标题区域中的分割线;
上述分割线确定模块704,具体用于:
当上述初始标题区域为纵向标题区域时,将长度大于第一预设长度阈值的线段所在的像素列确定为上述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为上述初始标题区域中的分割线。
在本申请的另一实施例中,图7的线段连接模块703具体可以用于:
当上述初始标题区域为横向标题区域时,针对上述边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素行中的连续边缘像素点连接成线段;
上述线段连接模块703,具体可以用于:
当上述初始标题区域为纵向标题区域时,针对上述边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
在本申请的另一实施例中,图7所示装置还可以包括:
分割线去除模块(图中未示出),用于在根据所连接的线段,确定初始标题区域中的分割线之后,若初始标题区域中存在连续预设数量个分割线,则去除连续预设数量个分割线中除一个分割线之外的其他分割线;
标题分割模块705,具体可以用于:
以剩余的分割线作为边界位置,将初始标题区域分割成子标题区域。
图8为本申请实施例提供的文字标题识别装置的另一种结构示意图。该装置实施例为对图7所示实施例改进之后得到的实施例。该装置实施例与图4所示方法实施例相对应。该装置包括:标题检测模块801、边缘提取模块802、线段连接模块803、分割线确定模块804、标题分割模块805和文字识别模块806。其中,标题检测模块801、边缘提取模块802、线段连接模块803、分割线确定模块804和文字识别模块806分别与图7中的标题检测模块701、边缘提取模块702、线段连接模块703、分割线确定模块704和文字识别模块706相同,,具体说明内容本实施例不再赘述。
本实施例中,标题分割模块805具体包括:
预分割子模块8051,用于以分割线作为边界位置,将初始标题区域预分割成各个次级标题区域;
二值化子模块8052,用于对各个次级标题区域进行二值化处理,获得各个二值化标题图像;
位置确定子模块8053,用于根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置;
区域确定子模块8054,用于根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域;
其中,当初始标题区域为横向标题区域时,文字像素位置为文字像素行;当初始标题区域为纵向标题区域时,文字像素位置为文字像素列。
在本申请的另一实施例中,图8中的二值化子模块8052具体可以用于:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
在本申请的另一实施例中,图8所示装置还可以包括:
区域筛选子模块(图中未示出),用于在从各个次级标题区域中确定各个子标题区域之后,从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域;
上述文字识别模块806具体可以用于:
对各个最终标题区域进行文字识别,获得待识别图像的文字标题。
在本申请的另一实施例中,图8中的区域确定子模块8054具体可以用于:
当文字像素位置为文字像素行时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域;
区域确定子模块8054具体可以用于:
当文字像素位置为文字像素列时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
在本申请的另一实施例中,图8所示装置还可以包括:
边缘提取子模块(图中未示出),用于在将初始标题区域预分割成各个次级标题区域之后,对各个次级标题区域进行边缘提取,获得各个次级边缘图像;
第一确定子模块(图中未示出),用于当初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行;
第二确定子模块(图中未示出),用于当初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列;
区域确定子模块8054具体可以用于:
当初始标题区域为横向标题区域时,根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域;
区域确定子模块8054具体可以用于:
当初始标题区域为纵向标题区域时,根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
在本申请的另一实施例中,图8中的位置确定子模块8053可以包括:
背景确定单元(图中未示出),用于根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值;
位置确定单元(图中未示出),用于根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
在本申请的另一实施例中,图8中的背景确定单元可以包括:
行确定子单元(图中未示出),用于针对每一二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与第一指定像素点的像素值不同的像素点的第一像素点数量,将第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计目标像素行的行数量;
列确定子单元(图中未示出),用于针对每一二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与第二指定像素点的像素值不同的像素点的第二像素点数量,将第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计目标像素列的列数量;
计算子单元(图中未示出),用于计算每一二值化标题图像中目标像素行的第一指定像素点以及目标像素列的第二指定像素点的像素值和值;
平均子单元(图中未示出),用于确定每一二值化标题图像中的像素值平均值为:每一二值化标题图像中像素值和值与目标和值之商;目标和值为:每一二值化标题图像中行数量与列数量之和;
背景确定子单元(图中未示出),用于根据像素值平均值,从每一二值化标题图像包含的两种像素值中确定背景像素值。
在本申请的另一实施例中,图8中的位置确定单元具体可以用于:
当文字像素位置为文字像素行时,确定每一二值化标题图像中每像素行中像素值与背景像素值不同的第一目标像素点;将每一二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行;
上述位置确定单元具体用于:
当文字像素位置为文字像素列时,确定每一二值化标题图像中每像素列中像素值与背景像素值不同的第二目标像素点;将每一二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
由于上述装置实施例是基于方法实施例得到的,与该方法具有相同的技术效果,因此装置实施例的技术效果在此不再赘述。对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
图9为本申请实施例提供的电子设备的一种结构示意图。该电子设备包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信;
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现本申请实施例提供的文字标题识别方法。该方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定所述初始标题区域中的分割线;
以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域;
对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可见,由于多行标题中每行标题背景部分的颜色值不同,或者多列标题中每列标题背景部分的颜色值不同,这样就在各行标题之间或两列标题之间形成了颜色上的分割线,本实施例可以根据边缘图像中的连续边缘像素点确定初始标题区域中的分割线,根据该分割线对初始标题区域进行分割,获得各个子标题区域,所获得的各个子标题区域包含单行或单列的标题,因此对各个子标题区域进行文字识别,能够提高识别文字标题时的准确率。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述实施例提供的任一文字标题识别方法。
本申请实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述文字标题识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (27)
1.一种文字标题识别方法,其特征在于,所述方法包括:
获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
对所述初始标题区域进行边缘提取,获得边缘图像;
将所述边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定所述初始标题区域中的分割线;
以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域;
对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。
2.根据权利要求1所述的方法,其特征在于,在获得初始标题区域之后,所述方法还包括:
根据所述初始标题区域的宽度和高度,确定所述初始标题区域为横向标题区域或纵向标题区域;
当所述初始标题区域为横向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
将所述边缘图像像素行中的连续边缘像素点连接成线段;
当所述初始标题区域为纵向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
将所述边缘图像像素列中的连续边缘像素点连接成线段。
3.根据权利要求1所述的方法,其特征在于,当所述初始标题区域为横向标题区域时,所述根据所连接的线段,确定所述初始标题区域中的分割线的步骤,包括:
将长度大于第一预设长度阈值的线段所在的像素行确定为所述边缘图像中的分割线;或者,
从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为所述初始标题区域中的分割线;
当所述初始标题区域为纵向标题区域时,所述根据所连接的线段,确定所述初始标题区域中的分割线的步骤,包括:
将长度大于第一预设长度阈值的线段所在的像素列确定为所述边缘图像中的分割线;或者,
从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为所述初始标题区域中的分割线。
4.根据权利要求1所述的方法,其特征在于,当所述初始标题区域为横向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像像素行中的连续边缘像素点连接成线段;
当所述初始标题区域为纵向标题区域时,所述将所述边缘图像中的连续边缘像素点连接成线段的步骤,包括:
针对所述边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;
将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
5.根据权利要求4所述的方法,其特征在于,在根据所连接的线段,确定所述初始标题区域中的分割线之后,所述方法还包括:
若所述初始标题区域中存在连续预设数量个分割线,则去除所述连续预设数量个分割线中除一个分割线之外的其他分割线;
所述以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域的步骤,包括:
以剩余的分割线作为边界位置,将所述初始标题区域分割成子标题区域。
6.根据权利要求1所述的方法,其特征在于,所述以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域的步骤,包括:
以所述分割线作为边界位置,将所述初始标题区域预分割成各个次级标题区域;
对各个次级标题区域进行二值化处理,获得各个二值化标题图像;
根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置;
根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域;
其中,当所述初始标题区域为横向标题区域时,所述文字像素位置为文字像素行;当所述初始标题区域为纵向标题区域时,所述文字像素位置为文字像素列。
7.根据权利要求6所述的方法,其特征在于,所述对各个次级标题区域进行二值化处理,获得各个二值化标题图像的步骤,包括:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
8.根据权利要求6所述的方法,其特征在于,在从各个次级标题区域中确定各个子标题区域之后,所述方法还包括:
从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域;
所述对各个子标题区域进行文字识别,获得所述待识别图像的文字标题的步骤,包括:
对各个最终标题区域进行文字识别,获得所述待识别图像的文字标题。
9.根据权利要求6所述的方法,其特征在于,当所述文字像素位置为文字像素行时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域;
当所述文字像素位置为文字像素列时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
10.根据权利要求6所述的方法,其特征在于,在将所述初始标题区域预分割成各个次级标题区域之后,所述方法还包括:
对各个次级标题区域进行边缘提取,获得各个次级边缘图像;
当所述初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行;
当所述初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列;
当所述初始标题区域为横向标题区域时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域;
当所述初始标题区域为纵向标题区域时,所述根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域的步骤,包括:
根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
11.根据权利要求6所述的方法,其特征在于,所述根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值;
根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
12.根据权利要求11所述的方法,其特征在于,所述根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值的步骤,包括:
采用以下方式,确定每个二值化标题图像的背景像素值:
针对目标二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;所述目标二值化标题图像为各个二值化标题图像中的任一个;
针对所述目标二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
确定像素值平均值为:所述像素值和值与目标和值之商;所述目标和值为:所述行数量与列数量之和;
根据所述像素值平均值,从所述目标二值化标题图像包含的两种像素值中确定背景像素值。
13.根据权利要求11所述的方法,其特征在于,当所述文字像素位置为文字像素行时,所述根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
采用以下方式,从每个二值化标题图像中确定文字标题所在的文字像素行:
确定目标二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;所述目标二值化标题图像为各个二值化标题图像中的任一个;
将所述目标二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行;
当所述文字像素位置为文字像素列时,所述根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置的步骤,包括:
采用以下方式,从每个二值化标题图像中确定文字标题所在的文字像素列:
确定目标二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;
将所述目标二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
14.一种文字标题识别装置,其特征在于,所述装置包括:
标题检测模块,用于获取待识别图像,对所述待识别图像进行检测,获得初始标题区域;
边缘提取模块,用于对所述初始标题区域进行边缘提取,获得边缘图像;
线段连接模块,用于将所述边缘图像中的连续边缘像素点连接成线段;
分割线确定模块,用于根据所连接的线段,确定所述初始标题区域中的分割线;
标题分割模块,用于以所述分割线作为边界位置,将所述初始标题区域分割成各个子标题区域;
文字识别模块,用于对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
横纵确定模块,用于在获得初始标题区域之后,根据所述初始标题区域的宽度和高度,确定所述初始标题区域为横向标题区域或纵向标题区域;
所述线段连接模块,具体用于:
当所述初始标题区域为横向标题区域时,将所述边缘图像像素行中的连续边缘像素点连接成线段;
所述线段连接模块,具体用于:
当所述初始标题区域为纵向标题区域时,将所述边缘图像像素列中的连续边缘像素点连接成线段。
16.根据权利要求14所述的装置,其特征在于,所述分割线确定模块,具体用于:
当所述初始标题区域为横向标题区域时,将长度大于第一预设长度阈值的线段所在的像素行确定为所述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素行中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素行,确定为所述初始标题区域中的分割线;
所述分割线确定模块,具体用于:
当所述初始标题区域为纵向标题区域时,将长度大于第一预设长度阈值的线段所在的像素列确定为所述边缘图像中的分割线;或者,从所连接的线段中确定长度大于第二预设长度阈值的目标线段,确定像素列中各个目标线段的总长度,将总长度大于预设第三长度阈值的像素列,确定为所述初始标题区域中的分割线。
17.根据权利要求14所述的装置,其特征在于,所述线段连接模块,具体用于:
当所述初始标题区域为横向标题区域时,针对所述边缘图像中的每个像素点,当该像素点以及该像素点的上下相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素行中的连续边缘像素点连接成线段;
所述线段连接模块,具体用于:
当所述初始标题区域为纵向标题区域时,针对所述边缘图像中的每个像素点,当该像素点以及该像素点的左右相邻像素点中至少存在一个像素点为边缘像素点时,将该像素点更新为边缘像素点,获得更新后的边缘图像;将更新后的边缘图像像素列中的连续边缘像素点连接成线段。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
分割线去除模块,用于在根据所连接的线段,确定所述初始标题区域中的分割线之后,若所述初始标题区域中存在连续预设数量个分割线,则去除所述连续预设数量个分割线中除一个分割线之外的其他分割线;
所述标题分割模块,具体用于:
以剩余的分割线作为边界位置,将所述初始标题区域分割成子标题区域。
19.根据权利要求14所述的装置,其特征在于,所述标题分割模块,包括:
预分割子模块,用于以所述分割线作为边界位置,将所述初始标题区域预分割成各个次级标题区域;
二值化子模块,用于对各个次级标题区域进行二值化处理,获得各个二值化标题图像;
位置确定子模块,用于根据文字标题中像素点的跳变特征,从各个二值化标题图像中确定文字标题所在的文字像素位置;
区域确定子模块,用于根据确定的文字像素位置,从各个次级标题区域中确定各个子标题区域;
其中,当所述初始标题区域为横向标题区域时,所述文字像素位置为文字像素行;当所述初始标题区域为纵向标题区域时,所述文字像素位置为文字像素列。
20.根据权利要求19所述的装置,其特征在于,所述二值化子模块,具体用于:
根据预设检测范围,从各个次级标题区域中确定待检测区域,对各个待检测区域进行二值化处理,获得各个二值化标题图像。
21.根据权利要求19所述的装置,其特征在于,所述装置还包括:
区域筛选子模块,用于在从各个次级标题区域中确定各个子标题区域之后,从各个子标题区域中筛选尺寸大于尺寸阈值的子标题区域,作为最终标题区域;
所述文字识别模块,具体用于:
对各个最终标题区域进行文字识别,获得所述待识别图像的文字标题。
22.根据权利要求19所述的装置,其特征在于,所述区域确定子模块,具体用于:
当所述文字像素位置为文字像素行时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素行组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域;
所述区域确定子模块,具体用于:
当所述文字像素位置为文字像素列时,针对每个次级标题区域,将该次级标题区域对应的连续文字像素列组合成子标题区域,获得该次级标题区域对应的至少一个子标题区域。
23.根据权利要求19所述的装置,其特征在于,所述装置还包括:
边缘提取子模块,用于在将所述初始标题区域预分割成各个次级标题区域之后,对各个次级标题区域进行边缘提取,获得各个次级边缘图像;
第一确定子模块,用于当所述初始标题区域为横向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素行中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素行确定为文字标题所在的参考像素行;
第二确定子模块,用于当所述初始标题区域为纵向标题区域时,针对每个次级边缘图像,统计该次级边缘图像每像素列中边缘像素点的数量,将该数量不小于第四预设数量阈值的像素列确定为文字标题所在的参考像素列;
所述区域确定子模块,具体用于:
当所述初始标题区域为横向标题区域时,根据确定的文字像素行和参考像素行,从各个次级标题区域中确定各个子标题区域;
所述区域确定子模块,具体用于:
当所述初始标题区域为纵向标题区域时,根据确定的文字像素列和参考像素列,从各个次级标题区域中确定各个子标题区域。
24.根据权利要求19所述的装置,其特征在于,所述位置确定子模块,包括:
背景确定单元,用于根据文字标题中像素点的跳变特征,从各个二值化标题图像包含的两种像素值中确定背景像素值;
位置确定单元,用于根据所确定的背景像素值,从各个二值化标题图像中确定文字标题所在的文字像素位置。
25.根据权利要求24所述的装置,其特征在于,所述背景确定单元,包括:
行确定子单元,用于针对每一二值化标题图像中每像素行的第一指定像素点,统计该像素行中像素值与所述第一指定像素点的像素值不同的像素点的第一像素点数量,将所述第一像素点数量小于第一预设数量阈值的像素行确定为目标像素行,统计所述目标像素行的行数量;
列确定子单元,用于针对每一二值化标题图像中每像素列的第二指定像素点,统计该像素列中像素值与所述第二指定像素点的像素值不同的像素点的第二像素点数量,将所述第二像素点数量小于第二预设数量阈值的像素列确定为目标像素列,统计所述目标像素列的列数量;
计算子单元,用于计算每一二值化标题图像中所述目标像素行的第一指定像素点以及所述目标像素列的第二指定像素点的像素值和值;
平均子单元,用于确定每一二值化标题图像中的像素值平均值为:每一二值化标题图像中所述像素值和值与目标和值之商;所述目标和值为:每一二值化标题图像中所述行数量与列数量之和;
背景确定子单元,用于根据所述像素值平均值,从每一二值化标题图像包含的两种像素值中确定背景像素值。
26.根据权利要求24所述的装置,其特征在于,所述位置确定单元,具体用于:
当所述文字像素位置为文字像素行时,确定每一二值化标题图像中每像素行中像素值与所述背景像素值不同的第一目标像素点;将每一二值化标题图像中第一目标像素点的数量不小于第三预设数量阈值的像素行确定为文字标题所在的文字像素行;
所述位置确定单元,具体用于:
当所述文字像素位置为文字像素列时,确定每一二值化标题图像中每像素列中像素值与所述背景像素值不同的第二目标像素点;将每一二值化标题图像中第二目标像素点的数量不小于第三预设数量阈值的像素列确定为文字标题所在的文字像素列。
27.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-13任一所述文字标题识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710754709.4A CN107609546B (zh) | 2017-08-29 | 2017-08-29 | 一种文字标题识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710754709.4A CN107609546B (zh) | 2017-08-29 | 2017-08-29 | 一种文字标题识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609546A true CN107609546A (zh) | 2018-01-19 |
CN107609546B CN107609546B (zh) | 2020-12-18 |
Family
ID=61056178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710754709.4A Active CN107609546B (zh) | 2017-08-29 | 2017-08-29 | 一种文字标题识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609546B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304562A (zh) * | 2018-02-08 | 2018-07-20 | 广东小天才科技有限公司 | 一种搜题方法、搜题装置及智能终端 |
CN108304825A (zh) * | 2018-02-28 | 2018-07-20 | 北京奇艺世纪科技有限公司 | 一种文本检测方法及装置 |
CN108304824A (zh) * | 2018-02-28 | 2018-07-20 | 北京奇艺世纪科技有限公司 | 一种基于区域颜色的新闻标题的识别方法及装置 |
CN108388872A (zh) * | 2018-02-28 | 2018-08-10 | 北京奇艺世纪科技有限公司 | 一种基于字体颜色的新闻标题识别方法及装置 |
CN108664626A (zh) * | 2018-05-14 | 2018-10-16 | 北京奇艺世纪科技有限公司 | 一种标题一致性检测方法、装置及电子设备 |
CN110944237A (zh) * | 2019-12-12 | 2020-03-31 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN111126285A (zh) * | 2019-12-22 | 2020-05-08 | 上海眼控科技股份有限公司 | 机动车牌证申请表的边界检测审核方法、设备及存储介质 |
CN112101323A (zh) * | 2020-11-18 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 标题列表的识别方法、系统、电子设备及存储介质 |
CN113033338A (zh) * | 2021-03-09 | 2021-06-25 | 太极计算机股份有限公司 | 电子报头版头条新闻位置识别方法及装置 |
CN113139533A (zh) * | 2021-04-06 | 2021-07-20 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
CN113902804A (zh) * | 2021-10-14 | 2022-01-07 | 北京卓越乐享网络科技有限公司 | 识别图像中的透明区域的方法及装置、设备和介质 |
CN114972157A (zh) * | 2022-01-10 | 2022-08-30 | 华为技术有限公司 | 边缘缺陷检测方法、装置及存储介质 |
CN113902804B (zh) * | 2021-10-14 | 2024-10-25 | 北京达佳互联信息技术有限公司 | 识别图像中的透明区域的方法及装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7929765B2 (en) * | 2002-12-26 | 2011-04-19 | Fujitsu Limited | Video text processing apparatus |
CN102332096A (zh) * | 2011-10-17 | 2012-01-25 | 中国科学院自动化研究所 | 一种视频字幕文本提取和识别的方法 |
CN102567952A (zh) * | 2010-12-16 | 2012-07-11 | 阿里巴巴集团控股有限公司 | 一种图像分割方法及系统 |
CN104504717A (zh) * | 2014-12-31 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种图像信息检测方法及装置 |
CN104616295A (zh) * | 2015-01-23 | 2015-05-13 | 河南理工大学 | 新闻图像中水平标题字幕的简单快速定位方法 |
-
2017
- 2017-08-29 CN CN201710754709.4A patent/CN107609546B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7929765B2 (en) * | 2002-12-26 | 2011-04-19 | Fujitsu Limited | Video text processing apparatus |
CN102567952A (zh) * | 2010-12-16 | 2012-07-11 | 阿里巴巴集团控股有限公司 | 一种图像分割方法及系统 |
CN102332096A (zh) * | 2011-10-17 | 2012-01-25 | 中国科学院自动化研究所 | 一种视频字幕文本提取和识别的方法 |
CN104504717A (zh) * | 2014-12-31 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种图像信息检测方法及装置 |
CN104616295A (zh) * | 2015-01-23 | 2015-05-13 | 河南理工大学 | 新闻图像中水平标题字幕的简单快速定位方法 |
Non-Patent Citations (2)
Title |
---|
徐峰 等: "新闻视频帧中的标题字幕探测", 《中国科技信息》 * |
郭超: "新闻视频图像文字定位与切分方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304562B (zh) * | 2018-02-08 | 2020-09-25 | 广东小天才科技有限公司 | 一种搜题方法、搜题装置及智能终端 |
CN108304562A (zh) * | 2018-02-08 | 2018-07-20 | 广东小天才科技有限公司 | 一种搜题方法、搜题装置及智能终端 |
CN108304824B (zh) * | 2018-02-28 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种基于区域颜色的新闻标题的识别方法及装置 |
CN108304825A (zh) * | 2018-02-28 | 2018-07-20 | 北京奇艺世纪科技有限公司 | 一种文本检测方法及装置 |
CN108304824A (zh) * | 2018-02-28 | 2018-07-20 | 北京奇艺世纪科技有限公司 | 一种基于区域颜色的新闻标题的识别方法及装置 |
CN108388872A (zh) * | 2018-02-28 | 2018-08-10 | 北京奇艺世纪科技有限公司 | 一种基于字体颜色的新闻标题识别方法及装置 |
CN108664626A (zh) * | 2018-05-14 | 2018-10-16 | 北京奇艺世纪科技有限公司 | 一种标题一致性检测方法、装置及电子设备 |
CN110944237A (zh) * | 2019-12-12 | 2020-03-31 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN110944237B (zh) * | 2019-12-12 | 2022-02-01 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN111126285A (zh) * | 2019-12-22 | 2020-05-08 | 上海眼控科技股份有限公司 | 机动车牌证申请表的边界检测审核方法、设备及存储介质 |
CN112101323A (zh) * | 2020-11-18 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 标题列表的识别方法、系统、电子设备及存储介质 |
CN113033338A (zh) * | 2021-03-09 | 2021-06-25 | 太极计算机股份有限公司 | 电子报头版头条新闻位置识别方法及装置 |
CN113033338B (zh) * | 2021-03-09 | 2024-03-29 | 太极计算机股份有限公司 | 电子报头版头条新闻位置识别方法及装置 |
CN113139533A (zh) * | 2021-04-06 | 2021-07-20 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
CN113139533B (zh) * | 2021-04-06 | 2022-08-02 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
CN113902804A (zh) * | 2021-10-14 | 2022-01-07 | 北京卓越乐享网络科技有限公司 | 识别图像中的透明区域的方法及装置、设备和介质 |
CN113902804B (zh) * | 2021-10-14 | 2024-10-25 | 北京达佳互联信息技术有限公司 | 识别图像中的透明区域的方法及装置、设备和介质 |
CN114972157A (zh) * | 2022-01-10 | 2022-08-30 | 华为技术有限公司 | 边缘缺陷检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107609546B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609546B (zh) | 一种文字标题识别方法及装置 | |
CN107590447B (zh) | 一种文字标题识别方法及装置 | |
US10896349B2 (en) | Text detection method and apparatus, and storage medium | |
US7379594B2 (en) | Methods and systems for automatic detection of continuous-tone regions in document images | |
CN108615030B (zh) | 一种标题一致性检测方法、装置及电子设备 | |
US9311533B2 (en) | Device and method for detecting the presence of a logo in a picture | |
US10748023B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
CN104298982A (zh) | 一种文字识别方法及装置 | |
JP5337563B2 (ja) | 帳票認識方法および装置 | |
US10438376B2 (en) | Image processing apparatus replacing color of portion in image into single color, image processing method, and storage medium | |
US20130259383A1 (en) | Image processing device that separates image into plural regions | |
CN111222508B (zh) | 基于roi的户型图比例尺识别方法、装置、计算机设备 | |
CN113569859B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
US8472078B2 (en) | Image processing apparatus for determining whether a region based on a combined internal region is a table region | |
CN108305284B (zh) | 一种文字笔画宽度的确定方法及装置 | |
CN113840135A (zh) | 色偏检测方法、装置、设备及存储介质 | |
CN110084117B (zh) | 基于二值图分段投影的文档表格线检测方法、系统 | |
CN108229476B (zh) | 标题区域检测方法及系统 | |
CN108388872B (zh) | 一种基于字体颜色的新闻标题识别方法及装置 | |
CN115908172A (zh) | 一种色差校正方法以及相关装置 | |
CN108304825B (zh) | 一种文本检测方法及装置 | |
CN112801112B (zh) | 一种图像二值化处理方法、装置、介质及设备 | |
CN108363981B (zh) | 一种标题检测方法及装置 | |
CN108171235A (zh) | 标题区域检测方法及系统 | |
CN111783807A (zh) | 图片提取方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |