CN113033338B - 电子报头版头条新闻位置识别方法及装置 - Google Patents

电子报头版头条新闻位置识别方法及装置 Download PDF

Info

Publication number
CN113033338B
CN113033338B CN202110254309.3A CN202110254309A CN113033338B CN 113033338 B CN113033338 B CN 113033338B CN 202110254309 A CN202110254309 A CN 202110254309A CN 113033338 B CN113033338 B CN 113033338B
Authority
CN
China
Prior art keywords
pixel
determining
title
area
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110254309.3A
Other languages
English (en)
Other versions
CN113033338A (zh
Inventor
王凤美
刘帆
杜宏
邓世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiji Computer Corp Ltd
Original Assignee
Taiji Computer Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiji Computer Corp Ltd filed Critical Taiji Computer Corp Ltd
Priority to CN202110254309.3A priority Critical patent/CN113033338B/zh
Publication of CN113033338A publication Critical patent/CN113033338A/zh
Application granted granted Critical
Publication of CN113033338B publication Critical patent/CN113033338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/13Type of disclosure document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种电子报头版头条新闻位置识别方法及装置,所述方法包括对所述版面图进行消除报头区域处理;灰度化、二值化处理后得到二值化图像,逐个像素行计算二值化图像的像素点,对空白图片的相应像素行进行特征值赋值,根据特征值得到特征向量从而确定头版头条标题所在的区域;根据版面图和头版头条区域确定头版头条标题所在位置的纵坐标,根据横坐标和纵坐标得到头版头条标题的坐标;获取版面图上文章热区的坐标范围,如果坐标在坐标范围内,将文章热区确定为头版头条新闻的位置。本发明通过对版面图的处理、分析及计算,按照标题最大即是头版头条这一原则来识别,不仅原理上更符合逻辑,且电子报头版头条新闻识别更加准确、维护成本低。

Description

电子报头版头条新闻位置识别方法及装置
技术领域
本发明属于媒体融合新闻信息处理技术领域,具体涉及一种电子报头版头条新闻位置识别方法及装置。
背景技术
随着媒体融合业务的深度发展,互联网新闻传播形态发生了巨大改变。网站、移动新闻客户端、微博、微信、自媒体平台等新媒体传播渠道的兴起,传统报社逐渐转到线上以电子报的形式进行报纸的发像素行和展示,这一改变使得相关媒体单位和公司可以通过对互联网上公开的电子报版面信息进行分析和采集,从而获取到具有高质量的头版头条新闻信息,为智能媒体集团的融合业务流程中的选题策划、传播分析、绩效考核等深度挖掘分析环节提供数据支撑。
相关技术中,电子报并不像一般新闻资讯门户网站一样会在网页排版过程中对头版头条新闻进行特别标注,其是遵循传统的报刊阅读习惯通过展示版面图片让读者自像素行辨别重要新闻和次要新闻,程序化的识别就需要从这种人为主观逻辑中去实现。传统的做法一般是根据页面中拿到的头版版面目录,默认第一篇文章就是头版头条,但是该种做法的有效性是基于版面目录顺序合理、且不夹杂其他信息,通常部分电子报头版目录第一条并不是头条新闻,并没有客观的逻辑支撑,误判率较高且维护成本大。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种电子报头版头条新闻位置识别方法及装置,以解决现有技术中电子报头版目录没有客观的逻辑支撑,误判率较高且维护成本大的问题。
为实现以上目的,本发明采用如下技术方案:一种电子报头版头条新闻位置识别方法,包括:
获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
进一步的,所述获取电子报头版的版面图,并对所述版面图进行消除报头区域处理,包括:
获取电子报头版的版面图图像链接并下载,得到版面图图像;
获取所述图像的长宽像素信息并生成与所述图像的长宽像素成预设比例的白色矩形块;
利用所述白色矩形块对所述版面图的报头进行遮盖。
进一步的,所述对消除报头区域处理得到的图像进行灰度化、二值化处理,包括:
对消除报头区域处理得到的图像进行灰度处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到二值化图像,将所述二值化图像确定为二值化图像。
进一步的,所述对所述灰度图像进行二值化处理,包括:
计算所述灰度图像的所有像素值,将所有像素值与预设像素阈值进行对比;
将像素值大于等于所述预设像素阈值的像素赋值为255,将像素值小于所述预设像素阈值的像素赋值为0,得到二值化图像。
进一步的,所述逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
进一步的,所述根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,包括:
将所述版面图宽像素的中点值作为所述头版头条标题所在位置的横坐标;
将所述头版头条标题所在的区域的最上边界和最下边界确定所述头版头条标题所在位置的纵坐标。
进一步的,所述获取所述版面图上文章热区的坐标范围,包括:
获取所述版面图的网页源码;
对所述网页源码进行解析获取文章热区以及文章热区的路径;
根据所述文章热区的路径获取所述文章热区在所述版面图中的坐标范围。
进一步的,若文章热区存在多个,逐一匹配验证,直至所有文章热区采集完毕。
本申请实施例提供一种电子报头版头条新闻位置识别装置,包括:
获取模块,用于获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
处理模块,用于对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
计算模块,用于逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
确定模块,用于根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
判断模块,用于获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
进一步的,所述逐像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种电子报头版头条新闻位置识别方法及装置,本申请通过对版面图的处理、分析、计算,按照标题最大即是头版头条这一基本原则来识别,不仅原理上更符合逻辑,也从根本上解决了传统方法在部分页面不规范电子报头版头条新闻识别上的问题。
除此之外,本发明通过图像识别方式,基于合理的图像分析逻辑判断和热区坐标定位,排除了各种由于页面排版所带来的问题,为媒体融合业务中的选题策划、传播分析、绩效考核提供更加准确的数据支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明电子报头版头条新闻位置识别方法的步骤示意图;
图2为版面图与处理报头和图片灰度化后图的对比图;
图3为灰度图与二值化图像的对比图;
图4为特征向量生成流程图;
图5为二值化图像与空白图片处理后的对比图;
图6为大标题纵坐标计算流程图;
图7为在原版面图上打点,显示程序最终判断的标题坐标示意图;
图8为本发明电子报头版头条新闻位置识别方法的流程示意图;
图9为本发明电子报头版头条新闻位置识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的电子报头版头条新闻位置识别方法及装置。
如图1所示,本申请实施例中提供的电子报头版头条新闻位置识别方法包括:
S101,获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
S102,对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
S103,逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
S104,根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
S105,获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
电子报头版头条新闻位置识别方法的工作原理为:本申请以下载当日的电子报头版的版面图为例,报头版的版面图因为报头区域的文字较大,影响对电子报头版头条的识别,因此本申请首先将报头区域用白色遮盖,然后对遮盖后的电子报头版进行处理,得到灰度、二值化后的图像,对二值化图像逐个像素行进行计算,对每个像素行的像素点值与预设阈值进行对比,从而对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域。通过版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,从而得到头版头条标题的坐标;通过爬虫技术获取版面图上文章热区的坐标范围,判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
本申请通过对版面图的处理、分析、计算,按照标题最大即是头版头条这一基本原则来识别,不仅原理上更符合逻辑,也从根本上解决了传统方法在部分页面不规范电子报头版头条新闻识别上的问题。通过图像识别方式,基于合理的图像分析逻辑判断和热区坐标定位,排除了各种由于页面排版所带来的问题,为媒体融合业务中的选题策划、传播分析、绩效考核提供更加准确的数据支撑。
一些实施例中,所述获取电子报头版的版面图,并对所述版面图进行消除报头区域处理,包括:
获取电子报头版的版面图图像链接并下载,得到版面图图像;
获取所述图像的长宽像素信息并生成与所述图像的长宽像素成预设比例的白色矩形块;
利用所述白色矩形块对所述版面图的报头进行遮盖。
具体的,如图2所示,报头区域的范围针对不同电子报都是固定的,而对绝大多数电子报,报头区域的大小也是有一定范围的,所以可以针对不同电子报设置不同的遮盖范围,遮盖上方1/N区域,N通常取6-8,然后对图片做灰度处理。可以理解的是,预设比例为相同宽度、1/N长度的白色矩形块对版面图报头进行遮盖,N可按实际情况取值,达到遮盖效果即可。可以理解的是,遮盖百分比可以根据不同报社版面样式进行自定义设置,通常采用固定值。
一些实施例中,所述对消除报头区域处理得到的图像进行灰度化、二值化处理,包括:
对消除报头区域处理得到的图像进行灰度处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到二值化图像,将所述二值化图像确定为二值化图像。
优选的,所述对所述灰度图像进行二值化处理,包括:
计算所述灰度图像的所有像素值,将所有像素值与预设像素阈值进行对比;
将像素值大于等于所述预设像素阈值的像素赋值为255,将像素值小于所述预设像素阈值的像素赋值为0,得到二值化图像。
具体的,在灰度处理后,如图3所示,正文中标题的灰度与正文的灰度有明显的区别,这种区别可以通过设定一个阈值P来进一步的放大,大于这一阈值的像素全部赋值为255,低于这一阈值的像素全部为0,以排除颜色所带来的后期计算差异。本申请中使用通用图像处理库对处理后的灰度图进行二值化处理,设定阈值P,将图片上灰度值大于阈值P的像素点全部赋值为255,小于等于阈值P的像素点赋值为0;阈值的设定更靠近黑色,可以去除图片上大部分模糊的像素点,只保留主要像素点。
一些实施例中,所述逐像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
优选的,所述根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,包括:
将所述版面图宽像素的中点值作为所述头版头条标题所在位置的横坐标;
将所述头版头条标题所在的区域的最上边界和最下边界确定所述头版头条标题所在位置的纵坐标。
具体的,如附图4所示,对二值化图像的像素行进行逐行计算,头版头条标题所在的那几行会有较多灰度为0的像素点,计算每行的0像素点个数,低于预设阈值Q个的像素行可以认为没有有效信息,将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,也就是将没有有效信息的行在空白图片上相应的行赋值为0,其他的高于预设阈值Q的像素行的特征值赋值为255,这样根据纵向的每个像素行的赋值可以得到一组特征向量L=[0,0,0,255,255,...,0],特征向量的长度即为图片的高度h,最终得到的图片如附图5所示。如图6所示,遍历特征向量L,当出现255时记录为起点y0也就是最上边界,出现0时记录为终点y1也就是最下边界,即L中索引在y0至y1范围内的数都是255,向量L中存在多个连续出现255的范围,记录下Max(y1-y0)时的y0和y1的值,其代表的版面图上的区域即为头版头条标题所在像素行的纵轴区域,取中间值(y0+y1)/2表示头版头条标题的纵坐标,如附图6所示。类似的,对于横坐标也可以用同样的方式确定,但是按照排版的习惯,一般头版头条都会横向占据版面的1/2以上,所以横坐标默认取中间值是合适的。最终坐标显示如图7中的点所示。
一些实施例中,所述获取所述版面图上文章热区的坐标范围,包括:
获取所述版面图的网页源码;
对所述网页源码进行解析获取文章热区以及文章热区的路径;
根据所述文章热区的路径获取所述文章热区在所述版面图中的坐标范围。
可以理解的是,本申请采用爬虫技术获取先获取电子报网页的网址信息,根据网址信息获取版面图的网页源码并保存为网页图片,通过对网页源码进行解析获取文章热区以及文章热区的路径,根据所述文章热区的路径获取文章热区在所述版面图中的坐标范围。需要说明的是,通过网页源码获取文章热区的坐标范围采用现有技术实现,本申请在此不做赘述。
一些实施例中,若文章热区存在多个,逐一匹配验证,直至所有文章热区采集完毕。
可以理解的是,获取到多个文章热区,需要将坐标与多个文章热区的坐标范围进行对比,将坐标范围存在坐标的文章热区确定为头版头条新闻的位置。
作为一个具体的实施方式,如图8所示,获取电子报首版的版面图,然后获取版面图的长宽属性,用相同版面宽度及1/N版面高度白色矩形遮盖报头,使用通用图像处理库对版面图进行灰度化处理,将RGB版面图转化为灰度图,使用通用图像处理库对灰度图进行二值化处理,阈值默认设定为P,计算二值化图片上每行灰度为0的像素点个数,个数大于Q则记录该行的特征值为255;逐行计算后得到一组特征向量[a0,a1,a2,...],具体的,假设本申请中提供的版面图是10*5像素;
根据特征向量,比如[0,0,255,255,255,255,255,0,0,255],那么版面图上的头版头条标题所在行就是第3像素到第7像素行。
计算头版头条标题所在位置的横坐标x=2=5/2;
计算头版头条标题所在位置的纵坐标y=5=(3+7)/2;
这是从图片判断出头版头条包含的像素点(x,y)那么坐标点(2,5)肯定在头版头条标题里;
假设现在有A、B、C三篇新闻也就是文章热区,但是哪个是头版头条新闻不知道,但是他们都有坐标范围;
根据根据坐标范围进行判断,(x,y)不在A内部,(x,y)在B内部,(x,y)不在C内部,判断得出B是头版头条。
本申请是通过版面图算出头版头条标题包含坐标(x,,y),但是仍不能确定头版头条是哪篇新闻;从网页源码上确定新闻在头版头条上的坐标范围,如果坐标(x,y)落到了B新闻所在的范围内,那么B新闻就是头版头条新闻。
如图9所示,本申请实施例提供一种电子报头版头条新闻位置识别装置,包括:
获取模块901,用于获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
处理模块902,用于对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
计算模块903,用于逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
确定模块904,用于根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
判断模块905,用于获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
本申请提供的电子报头版头条新闻位置识别装置的工作原理为,获取模块901获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;处理模块902对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;计算模块903逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;确定模块904根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;判断模块905获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。
一些实施例中,所述逐像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执像素行上述任一实施例提供的电子报头版头条新闻位置识别方法;
处理器用于调用并执像素行存储器中的计算机程序。
综上所述,本发明提供一种电子报头版头条新闻位置识别方法及装置,所述方法包括获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置。本申请通过对版面图的处理、分析及计算,按照标题最大即是头版头条这一基本原则来识别,不仅原理上更符合逻辑,且电子报头版头条新闻识别更加准确、维护成本低。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执像素行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执像素行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执像素行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种电子报头版头条新闻位置识别方法,其特征在于,包括:
获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置;
所述根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,包括:
将所述版面图宽像素的中点值作为所述头版头条标题所在位置的横坐标;
将所述头版头条标题所在的区域的最上边界和最下边界确定所述头版头条标题所在位置的纵坐标。
2.根据权利要求1所述的方法,其特征在于,所述获取电子报头版的版面图,并对所述版面图进行消除报头区域处理,包括:
获取电子报头版的版面图图像链接并下载,得到版面图图像;
获取所述图像的长宽像素信息并生成与所述图像的长宽像素成预设比例的白色矩形块;
利用所述白色矩形块对所述版面图的报头进行遮盖。
3.根据权利要求1或2所述的方法,其特征在于,所述对消除报头区域处理得到的图像进行灰度化、二值化处理,包括:
对消除报头区域处理得到的图像进行灰度处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到二值化图像,将所述二值化图像确定为二值化图像。
4.根据权利要求3所述的方法,其特征在于,所述对所述灰度图像进行二值化处理,包括:
计算所述灰度图像的所有像素值,将所有像素值与预设像素阈值进行对比;
将像素值大于等于所述预设像素阈值的像素赋值为255,将像素值小于所述预设像素阈值的像素赋值为0,得到二值化图像。
5.根据权利要求1所述的方法,其特征在于,所述逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
6.根据权利要求1所述的方法,其特征在于,所述获取所述版面图上文章热区的坐标范围,包括:
获取所述版面图的网页源码;
对所述网页源码进行解析获取文章热区以及文章热区的路径;
根据所述文章热区的路径获取所述文章热区在所述版面图中的坐标范围。
7.根据权利要求6所述的方法,其特征在于,
若文章热区存在多个,逐一匹配验证,直至所有文章热区采集完毕。
8.一种电子报头版头条新闻位置识别装置,其特征在于,包括:
获取模块,用于获取电子报头版的版面图,并对所述版面图进行消除报头区域处理;
处理模块,用于对消除报头区域处理得到的图像进行灰度化、二值化处理,得到二值化图像;
计算模块,用于逐个像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域;
确定模块,用于根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,根据所述横坐标和纵坐标得到所述头版头条标题的坐标;
判断模块,用于获取所述版面图上文章热区的坐标范围,并判断所述坐标是否在坐标范围内,如果所述坐标在坐标范围内,将所述文章热区确定为头版头条新闻的位置;
所述根据所述版面图确定所述头版头条标题所在位置的横坐标,根据所述头版头条标题所在的区域确定所述头版头条标题所在位置的纵坐标,包括:
将所述版面图宽像素的中点值作为所述头版头条标题所在位置的横坐标;
将所述头版头条标题所在的区域的最上边界和最下边界确定所述头版头条标题所在位置的纵坐标。
9.根据权利要求8所述的装置,其特征在于,所述逐像素行计算所述二值化图像的像素点,根据所述像素点对预创建空白图片的相应像素行进行特征值赋值,根据每个像素行的特征值得到特征向量,根据所述特征向量确定头版头条标题所在的区域,包括:
创建与所述版面图长宽相同的空白图片;
逐个像素行计算所述二值化图像上的像素点为0的个数,将所述像素点个数大于预设阈值的像素行确认为存在有效信息,并将所述空白图片上相应像素行的特征值赋值为255,其余像素行的特征值赋值为0,根据每像素行的赋值得到一组特征向量;
计算所述特征向量中连续出现255值的个数,将连续个数最多的像素行构成的区域确定为头版头条标题所在的区域。
CN202110254309.3A 2021-03-09 2021-03-09 电子报头版头条新闻位置识别方法及装置 Active CN113033338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110254309.3A CN113033338B (zh) 2021-03-09 2021-03-09 电子报头版头条新闻位置识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110254309.3A CN113033338B (zh) 2021-03-09 2021-03-09 电子报头版头条新闻位置识别方法及装置

Publications (2)

Publication Number Publication Date
CN113033338A CN113033338A (zh) 2021-06-25
CN113033338B true CN113033338B (zh) 2024-03-29

Family

ID=76467220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110254309.3A Active CN113033338B (zh) 2021-03-09 2021-03-09 电子报头版头条新闻位置识别方法及装置

Country Status (1)

Country Link
CN (1) CN113033338B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1146478A2 (en) * 2000-03-29 2001-10-17 Matsushita Electrical Ind. Co. A method for extracting titles from digital images
CN102177520A (zh) * 2008-08-13 2011-09-07 谷歌公司 将印刷媒体页面分割成文章
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103136521A (zh) * 2011-11-25 2013-06-05 方正国际软件有限公司 一种图像区域属性的展示方法与系统
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN107609546A (zh) * 2017-08-29 2018-01-19 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
JP2018097551A (ja) * 2016-12-13 2018-06-21 株式会社アイエスピー 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置
CN108304824A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种基于区域颜色的新闻标题的识别方法及装置
CN108446603A (zh) * 2018-02-28 2018-08-24 北京奇艺世纪科技有限公司 一种新闻标题检测方法及装置
CN108804978A (zh) * 2017-04-28 2018-11-13 腾讯科技(深圳)有限公司 一种版面分析方法及装置
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
US9098545B2 (en) * 2007-07-10 2015-08-04 Raj Abhyanker Hot news neighborhood banter in a geo-spatial social network

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1146478A2 (en) * 2000-03-29 2001-10-17 Matsushita Electrical Ind. Co. A method for extracting titles from digital images
CN102177520A (zh) * 2008-08-13 2011-09-07 谷歌公司 将印刷媒体页面分割成文章
CN103136521A (zh) * 2011-11-25 2013-06-05 方正国际软件有限公司 一种图像区域属性的展示方法与系统
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
JP2018097551A (ja) * 2016-12-13 2018-06-21 株式会社アイエスピー 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置
CN108804978A (zh) * 2017-04-28 2018-11-13 腾讯科技(深圳)有限公司 一种版面分析方法及装置
CN107609546A (zh) * 2017-08-29 2018-01-19 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN108304824A (zh) * 2018-02-28 2018-07-20 北京奇艺世纪科技有限公司 一种基于区域颜色的新闻标题的识别方法及装置
CN108446603A (zh) * 2018-02-28 2018-08-24 北京奇艺世纪科技有限公司 一种新闻标题检测方法及装置
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于移动终端的报纸版面分析及识别;张文杰;《中国优秀硕士学位论文全文数据库(电子期刊)》;16-25 *
新闻视频中标题文本检测定位技术研究;陶永宽;《中国优秀硕士学位论文全文数据库(电子期刊)》;31-38 *

Also Published As

Publication number Publication date
CN113033338A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108229386B (zh) 用于检测车道线的方法、装置和介质
CN110705405A (zh) 目标标注的方法及装置
CN111626123A (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN111444917A (zh) 车牌字符识别方法、装置、电子设备和存储介质
CN108830133A (zh) 合同影像图片的识别方法、电子装置及可读存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN111461133B (zh) 快递面单品名识别方法、装置、设备及存储介质
US20170017836A1 (en) Character segmenting apparatus, character recognition apparatus, and character segmenting method
CN110276759A (zh) 一种基于机器视觉的手机屏坏线缺陷诊断方法
JPH05258058A (ja) 位置サンプリングに基づく画像分析
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
CN113762274B (zh) 一种答题卡目标区域检测方法、系统、存储介质及设备
CN111814673A (zh) 一种修正文本检测边界框的方法、装置、设备及存储介质
CN112364807B (zh) 图像识别方法、装置、终端设备及计算机可读存储介质
CN113033338B (zh) 电子报头版头条新闻位置识别方法及装置
CN116863711B (zh) 基于公路监控的车道流量检测方法、装置、设备及介质
KR20200010658A (ko) 동일인 인식 방법, 이를 이용하는 컴퓨팅 시스템, 및 프로그램
CN113537184A (zh) Ocr模型训练方法、装置、计算机设备、存储介质
CN112084103A (zh) 界面测试方法、装置、设备和介质
CN107330470B (zh) 识别图片的方法和装置
CN113554033B (zh) 智能文本机器人的文本识别方法、装置及系统
CN108629786B (zh) 图像边缘检测方法及装置
CN111753722B (zh) 一种基于特征点类型的指纹识别方法及装置
CN116228644A (zh) 图像检测方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Fengmei

Inventor after: Liu Fan

Inventor after: Du Hong

Inventor after: Deng Shijie

Inventor before: Deng Shijie

Inventor before: Liu Fan

Inventor before: Du Hong

Inventor before: Wang Fengmei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant