CN117077619B - 电子报版面解析方法、装置、电子设备及存储介质 - Google Patents

电子报版面解析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117077619B
CN117077619B CN202311324617.4A CN202311324617A CN117077619B CN 117077619 B CN117077619 B CN 117077619B CN 202311324617 A CN202311324617 A CN 202311324617A CN 117077619 B CN117077619 B CN 117077619B
Authority
CN
China
Prior art keywords
layout
electronic newspaper
determining
coordinate point
positioning reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311324617.4A
Other languages
English (en)
Other versions
CN117077619A (zh
Inventor
邵德奇
李腾飞
袁升伟
王理瑞
赵光伟
朱晓风
张晶晶
刘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science And Technology Daily
Original Assignee
Science And Technology Daily
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science And Technology Daily filed Critical Science And Technology Daily
Priority to CN202311324617.4A priority Critical patent/CN117077619B/zh
Publication of CN117077619A publication Critical patent/CN117077619A/zh
Application granted granted Critical
Publication of CN117077619B publication Critical patent/CN117077619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请涉及智能媒体技术领域,提供了一种电子报版面解析方法、装置、电子设备及存储介质。该方法通过将电子报转换为html格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,进而确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条、二条和竖条,然后在html格式数据中获取对应的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高。

Description

电子报版面解析方法、装置、电子设备及存储介质
技术领域
本申请涉及智能媒体技术领域,尤其涉及一种电子报版面解析方法、装置、电子设备及存储介质。
背景技术
电子报纸是通过电脑、通信终端来阅读的报纸,它是多媒体、网络、通信技术再结合报刊出版、发行而出现的产物,优点是及时迅速、实效性强、容易传播、快捷方便等等。
现有技术中电子报通常以一期作为一个整体保存,这种保存方式不利于信息检索。一些解决方案中,可以通过人工解析的方式,将电子报中的各版面中的文章、作者、所在版面等信息分别存储。然而,这种解析方式效率低下,且容易出错。
发明内容
有鉴于此,本申请实施例提供了一种电子报版面解析方法、装置、电子设备及存储介质,以解决现有技术中无法方便、快捷地对电子报进行解析的问题。
本申请实施例的第一方面,提供了一种电子报版面解析方法,包括:
获取电子报,将电子报转换为纯文本html格式数据;
获取电子报的业务规则配置文件;
基于电子报的html格式数据中的区域标签确定电子报的全部版面热区坐标和热区链接;
基于业务规则配置文件确定电子报各版面的第一定位参照点;
基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点;
计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;
基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型;
基于各版面头条的热区坐标点确定各版面的第二定位参照点;
基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点;
计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和/或布局类型确定电子报的头版底条、二条和竖条;
在html格式数据中获取头条、头版底条、二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条、头版底条、二条或竖条确定为对应文章的版面标识;
将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报。
本申请实施例的第二方面,提供了一种电子报版面解析装置,包括:
获取模块,被配置为获取电子报,将电子报转换为纯文本html格式数据;
获取模块还被配置为获取电子报的业务规则配置文件;
确定模块,被配置为基于电子报的html格式数据中的区域标签确定电子报的全部版面热区坐标和热区链接;
解析模块,被配置为基于业务规则配置文件确定电子报各版面的第一定位参照点;
解析模块还被配置为基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点;
解析模块还被配置为计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;
解析模块还被配置为基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型;
解析模块还被配置为基于各版面头条的热区坐标点确定各版面的第二定位参照点;
解析模块还被配置为基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点;
解析模块还被配置为计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和/或布局类型确定电子报的头版底条、二条和竖条;
解析模块还被配置为在html格式数据中获取头条、头版底条、二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条、头版底条、二条或竖条确定为对应文章的版面标识;
存储模块,被配置为将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例通过将电子报转换为html格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,基于第一计算坐标点与第一定位参照点之间的第一距离确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条、二条和竖条,然后在html格式数据中获取头条、头版底条、二条和竖条的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种电子报版面解析方法的流程示意图。
图2是本申请实施例提供的基于业务规则配置文件确定电子报各版面的第一定位参照点的方法的流程示意图。
图3是本申请实施例提供的各热区的第一计算坐标点的方法的流程示意图。
图4是本申请实施例提供的各热区的第二计算坐标点的方法的流程示意图。
图5是本申请实施例提供的确定电子报头版的布局类型的方法的流程示意图。
图6是本申请实施例提供的确定各版面的第二定位参照点的方法的流程示意图。
图7是本申请实施例提供的确定电子报的头版底条、二条和竖条的方法的流程示意图。
图8是根据本申请实施例提供的电子报版面解析方法解析并保存的电子报数据的示意图。
图9是本申请实施例提供的一种电子报版面解析装置的示意图。
图10是本申请实施例提供的电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种电子报版面解析方法和装置。
上文提及,现有技术中电子报通常以一期作为一个整体保存,这种保存方式不利于信息检索。一些解决方案中,可以通过人工解析的方式,将电子报中的各版面中的文章、作者、所在版面等信息分别存储。然而,这种解析方式效率低下,且容易出错。
鉴于此,本申请实施例提供了一种电子报版面解析方法,通过将电子报转换为html格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,基于第一计算坐标点与第一定位参照点之间的第一距离确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条、二条和竖条,然后在html格式数据中获取头条、头版底条、二条和竖条的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高。
图1是本申请实施例提供的一种电子报版面解析方法的流程示意图。如图1所示,该电子报版面解析方法包括如下步骤:
在步骤S101中,获取电子报,将电子报转换为纯文本html格式数据。
在步骤S102中,获取电子报的业务规则配置文件。
在步骤S103中,基于电子报的html格式数据中的区域标签确定电子报的全部版面热区坐标和热区链接。
在步骤S104中,基于业务规则配置文件确定电子报各版面的第一定位参照点。
在步骤S105中,基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点。
在步骤S106中,计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条。
在步骤S107中,基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型。
在步骤S108中,基于各版面头条的热区坐标点确定各版面的第二定位参照点。
在步骤S109中,基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点。
在步骤S110中,计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和/或布局类型确定电子报的头版底条、二条和竖条。
在步骤S111中,在html格式数据中获取头条、头版底条、二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条、头版底条、二条或竖条确定为对应文章的版面标识。
在步骤S112中,将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报。
本申请实施例中,该电子报版面解析方法可以由终端或者服务器执行。为描述的方便,以下以该电子报版面解析方法由服务器执行为例进行说明。
本申请实施例中,服务器可以首先获取电子报,并将该电子报转换为纯文本html格式数据。其中,html格式数据中可以包括版面名称、每版图片、热区坐标、热区链接、版面标题和正文标等。
本申请实施例中,服务器还可以获取电子报的业务规则配置文件。其中,电子报的业务规则配置文件可以是预先存储的json、xml等格式的文件。进一步的,服务器或数据库中可以保存多种不同电子报的业务规则配置文件。因此,本申请实施例中,需要获取待解析电子报对应的业务规则配置文件。一示例中,可以通过电子报的标识来获取对应的业务规则配置文件。进一步的,服务器可以在加载了自数据库获取的业务规则配置文件后,生成对应的map映射关系,来解析电子报中的热区,并根据配置规则遍历热区,得到解析结果。
本申请实施例中,服务器还可以基于该电子报的html格式数据中的区域标签确定所述电子报的全部版面热区坐标和热区链接。其中,热区是指界面中可交互的部分(俗称可点击的地方),交互后会引发一个事件,这个事件可以是链接跳转,也可以是提交或者弹出对话框等。在电子报中,一个热区例如可以是一篇文章。电子报的html格式数据中的区域标签用于表示热区坐标,以及热区形状。例如,一项电子报的html格式数据中的区域标签可以为:<Area coords=”178,3,348,3,348,56,178,56” shape=”polygon” href=”content_553161.htm?div=-1">,其中,Area coords为热区坐标,shape为热区形状,href为热区链接。
本申请实施例中,服务器可以基于业务规则配置文件确定电子报各版面的第一定位参照点,其中,第一定位参照点用于确定电子报中各版面的头条。进一步的,可以基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点。接下来,计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,即可确定出第一距离最小的热区为该版面的头条。
本申请实施例中,在确定出电子报各版的头条后,还需要确定电子报的头版底条、各版面的二条和竖条。由于电子报的头版有多种不同的布局类型,因此可以首先基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型。然后基于各版面头条的热区坐标点确定各版面的第二定位参照点,并基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点。接下来计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和/或布局类型确定电子报的头版底条、二条和竖条。具体的计算方法参见后文详细描述。至此,可以确定出电子报所包括的全部头版底条、二条和竖条。
本申请实施例中,服务器可以在html格式数据中获取头条、头版底条、二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条、头版底条、二条或竖条确定为对应文章的版面标识。其中,文章标识可以包括记者表示、专栏名称等。最后,将每篇文章的版面标识、文章标识以及正文内容分别保存,即可得到解析后的电子报。进一步的,还可以同时保存每篇文章中各项数据的数据类型,数据长度、注释等。
根据本申请实施例提供的技术方案,通过将电子报转换为html格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,基于第一计算坐标点与第一定位参照点之间的第一距离确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条、二条和竖条,然后在html格式数据中获取头条、头版底条、二条和竖条的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高。
图2是本申请实施例提供的基于业务规则配置文件确定电子报各版面的第一定位参照点的方法的流程示意图。如图2所示,该方法包括如下步骤:
在步骤S201中,确定电子报中,左上坐标点为各版面的原点(0,0)。
在步骤S202中,自业务规则配置文件中确定电子报的标识logo区域。
在步骤S203中,确定logo区域的左下坐标点为电子报的头版的第一定位参照点。
在步骤S204中,确定电子报除头版外其他版面中,将原点的横坐标增加第一常数e、纵坐标减少第一常数e得到的坐标点,为其他版面的第一定位参照点。
其中e大于0且小于或者等于1。
本申请实施例中,在基于业务规则配置文件确定电子报各版面的第一定位参照点时,可以首先将电子报各版面的左上坐标点确定为原点(0,0)。然后自业务规则配置文件中确定电子报的标识logo区域。接下来,可以直接确定logo区域的左下坐标点为电子报的头版的第一定位参照点。以《科技日报》的电子报为例,根据业务规则,其电子报的logo区域的左下坐标为(0,-87),因此在可以确定该坐标点(0,-87)为《科技日报》电子报的头版的第一定位参照点。
进一步的,还可以确定电子报除头版外其他版面中,将原点的横坐标增加第一常数e、纵坐标减少常数e得到的坐标点,为其他版面的第一定位参照点。也就是说,对于除头版外其他版面,由于其不存在logo区域,因此可以直接将原点向右并向下移动一个很小的值,得到这些版面的第一定位参照点。仍然以《科技日报》的电子报为例,可以将坐标点(1,-1)确定为除头版外其他版面的第一定位参照点。
图3是本申请实施例提供的各热区的第一计算坐标点的方法的流程示意图。如图3所示,该方法包括如下步骤:
在步骤S301中,确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点。
在步骤S302中,将辅助计算坐标点的横坐标值减去第一定位参照点的横坐标值,纵坐标值减去第一定位参照点的纵坐标值,组成的坐标点确定为第一计算坐标点。
本申请实施例中,服务器可以基于业务规则配置文件确定电子报中各版面中,确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点。其中,选择右上坐标点或者右下坐标点是因为热区最右端的坐标点与第一定位参照点的距离最远。进一步的,由于热区的形状可能是不规则的,因此在某些情况下右上坐标点可能并非该热区距离第一定位参照点最远的点,此时应当选取该热区的右下坐标点作为辅助计算坐标点。同样的,当右下坐标点并非该热区距离第一定位参照点最远的点时,应当选取该热区的右上坐标点作为辅助计算坐标点。
更进一步的,服务器可以将辅助计算坐标点的横坐标值减去第一定位参照点的横坐标值,纵坐标值减去第一定位参照点的纵坐标值,组成的坐标点确定为第一计算坐标点。一示例中,若第一定位参照点的坐标为(0,-87),某热区的辅助坐标点为(36,-154),则可以确定第一计算坐标点为(36,-67)。
图4是本申请实施例提供的各热区的第二计算坐标点的方法的流程示意图。如图4所示,该方法包括如下步骤:
在步骤S401中,确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点。
在步骤S402中,将辅助计算坐标点的横坐标值减去第二定位参照点的横坐标值,纵坐标值减去第二定位参照点的纵坐标值,组成的坐标点确定为第二计算坐标点。
本申请实施例中,服务器可以基于业务规则配置文件确定电子报中各版面中,确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点。其中,选择右上坐标点或者右下坐标点是因为热区最右端的坐标点与第一定位参照点的距离最远。进一步的,由于热区的形状可能是不规则的,因此在某些情况下右上坐标点可能并非该热区距离第一定位参照点最远的点,此时应当选取该热区的右下坐标点作为辅助计算坐标点。同样的,当右下坐标点并非该热区距离第一定位参照点最远的点时,应当选取该热区的右上坐标点作为辅助计算坐标点。
更进一步的,服务器可以将辅助计算坐标点的横坐标值减去第二定位参照点的横坐标值,纵坐标值减去第二定位参照点的纵坐标值,组成的坐标点确定为第二计算坐标点。一示例中,若第一定位参照点的坐标为(1,-1),某热区的辅助坐标点为(65,-77),则可以确定第一计算坐标点为(64,-76)。
本申请实施例中,电子报头版的布局类型包括第一布局类型、第二布局类型和第三布局类型。
图5是本申请实施例提供的确定电子报头版的布局类型的方法的流程示意图。如图5所示,该方法包括如下步骤:
在步骤S501中,响应于最大横坐标值大于或者等于三分之二倍电子报的最大宽度,且小于或者等于1,确定电子报头版的布局类型为第一布局类型。
在步骤S502中,响应于最大横坐标值大于或者等于二分之一倍电子报的最大宽度,且小于三分之二倍电子报的最大宽度,确定电子报头版的布局类型为第二布局类型。
在步骤S503中,响应于最大横坐标值大于0,且小于二分之一倍电子报的最大宽度,确定电子报头版的布局类型为第三布局类型。
本申请实施例中,可以首先获取电子报的最大宽度,进一步的,还可以获取电子报的最大长度。需要说明的是,电子报的最大宽度通常由可显示版面宽度减去侧边空白部分宽度得到,最大长度通常由可显示版面长度减去上、下边空白部分长度得到。仍然以《科技日报》的电子报为例,其最大宽度通常为350毫米(mm),最大长度通常为550mm。
本申请实施例中,服务器还可以确定电子报的头版中,各热区的最大横坐标值。当确定出的最大横坐标值大于或者等于三分之二倍电子报的最大宽度,且小于或者等于1时,可以确定电子报头版的布局类型为第一布局类型。进一步的,当确定出的最大横坐标值大于或者等于二分之一倍电子报的最大宽度,且小于三分之二倍电子报的最大宽度时,可以确定电子报头版的布局类型为第二布局类型。更进一步的,当确定出的最大横坐标值大于0,且小于二分之一倍电子报的最大宽度时,可以确定电子报头版的布局类型为第三布局类型。
一示例中,若将电子报的布局类型用layout_type表示,电子报的最大宽度用paper_width表示,确定出的最大横坐标值用new max_X表示,则可以在(2/3)*paper_width<=new max_X<=1时,确定电子报头版的布局类型为第一布局类型layout_type1;在(1/2)*paper_width<=new max_X<(2/3)*paper_width时,确定电子报头版的布局类型为第一布局类型layout_type2;0<new max_X<(1/2)*paper_width时,确定电子报头版的布局类型为第一布局类型layout_type3。
采用这种方法,可以确定出电子报头版的布局类型,进而基于布局类型进一步解析头版中的其他内容,提取出头版底条、头版竖条等部分的内容。
图6是本申请实施例提供的确定各版面的第二定位参照点的方法的流程示意图。如图6所示,该方法包括如下步骤:
在步骤S601中,确定电子报中,左上坐标点为各版面的原点(0,0)。
在步骤S602中,响应于确定电子报头版的头版底条,在确定布局类型为第一布局类型或者第二布局类型时,确定电子报的左下坐标点为头版的第二定位参照点,在确定布局类型为第三布局类型时,将0为横坐标、纵坐标减少第二常数l得到的坐标点,确定为头版的第二定位参照点。
在步骤S603中,响应于确定电子报头版的竖条,将电子报最大宽度对应的值作为横坐标、原点减去电子报logo区域高度得到的值作为纵坐标组成的坐标点,确定为头版的第二定位参照点。
在步骤S604中,响应于确定电子报的二条,将待遍历的热区中的最小横坐标和第一最大纵坐标组成的坐标点确定为对应版面的第二定位参照点。
在步骤S605中,响应于确定电子报除头版外其他版面的竖条,将电子报最大宽度对应的值作为横坐标、0为纵坐标组成的坐标点确定为对应版面的第二定位参照点。
如前,在确定各类参照点和计算点时,需要将电子报的版面放置于一个统一的坐标系中。一示例中,可以将电子报各版面的左上坐标点确定为原点(0,0),电子报沿横坐标向右延伸,即电子报中各热区的横坐标均为正数,且越靠右横坐标值越大;同时,电子报沿纵坐标向下延伸,即电子报中各热区的纵坐标均为负数,且越靠下纵坐标的值越小。
本申请实施例中,在解析电子报不同版面的不同区域内容时,确定第二定位参照点的方法可能不同。具体的,在确定电子报头版的头版底条时,若确定电子报头版的布局类型为第一布局类型或者第二布局类型,则可以将电子报的左下坐标点确定为头版的第二定位参照点。若确定布局类型为第三布局类型时,则可以将0为横坐标、纵坐标减少第二常数l得到的坐标点,确定为头版的第二定位参照点。其中,第二常数l可以根据实际需要确定,第二常数l通常小于电子报的最大长度的一半。
仍然以《科技日报》的电子报为例,若确定其头版的布局类型为layout_type1或者layout_type2,则可以将其左下坐标点即坐标点(0,-550)确定为头版的第二定位参照点。若确定其头版的布局类型为layout_type3,第二常数l例如取值为200,则可以将坐标点(0,-350)确定为头版的第二定位参照点。
本申请实施例中,在确定电子报头版的头版竖条时,可以将电子报最大宽度对应的值作为横坐标、原点减去电子报logo区域高度得到的值作为纵坐标组成的坐标点,确定为头版的第二定位参照点。
仍然以《科技日报》的电子报为例,若确定logo区域高度为87mm,则可以在确定头版竖条时,将坐标点(350,-87)确定为头版的第二定位参照点。
本申请实施例中,在确定电子报的二条时,可以将待遍历的热区中的最小横坐标和第一最大纵坐标组成的坐标点确定为对应版面的第二定位参照点。在确定电子报除头版外其他版面的竖条,可以将电子报最大宽度对应的值作为横坐标、0为纵坐标组成的坐标点确定为对应版面的第二定位参照点。需要说明的是,这里的二条和其他版面的竖条通常为电子报的三版二条和三版竖条。进一步的,若根据电子报的业务规则,其他版面也存在二条和竖条,则其他版面中的二条和竖条的热区确定方法与上述三版二条和三版竖条的热区确定方法相同,此处不再赘述。
仍然以《科技日报》的电子报为例,在确定出三版头条后,可以遍历该三版的热区,得到各热区中最小横坐标和第一最大纵坐标组成的坐标点,并在确定三版二条时将该坐标点确定为三版的第二定位参照点。进一步的,还可以在确定三版竖条时将坐标点(350,0)确定为三版的第二定位参照点。
图7是本申请实施例提供的确定电子报的头版底条、二条和竖条的方法的流程示意图。如图7所示,该方法包括如下步骤:
在步骤S701中,响应于确定电子报头版的头版底条,将第二距离最小的热区确定为头版底条。
在步骤S702中,响应于确定电子报头版的竖条,遍历头版的热区,确定各热区的第二计算坐标点中的第二最大纵坐标。
在步骤S703中,在确定第二最大纵坐标的绝对值小于或者等于预设阈值,或者确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第一布局类型时,确定电子报不包括头版竖条;在确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第二布局类型时,确定第二距离最小的热区为电子报头版的竖条;在确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第三布局类型时,确定第二距离最小的热区为电子报头版的头条,并确定电子报不包括头版竖条。
在步骤S704中,响应于确定电子报的二条,将第二距离最小的热区确定为二条。
在步骤S705中,响应于确定电子报除头版外其他版面的竖条,将第二距离最小的热区确定为其他版面的竖条。
本申请实施例中,在确定电子报头版的头版底条时,可以遍历头版各热区,将第二距离最小的热区确定为头版底条。
本申请实施例中,在确定电子报头版的竖条时,可以首先遍历头版各热区,确定各热区的第二计算坐标点中的第二最大纵坐标。当确定第二最大纵坐标的绝对值小于或者等于预设阈值,或者确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第一布局类型时,可以确定该电子报不包括头版竖条,并停止解析头版竖条。
进一步的,当确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第二布局类型时,确定第二距离最小的热区为电子报头版的竖条。更进一步的,当确定第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第三布局类型时,确定第二距离最小的热区为电子报头版的头条,并确定电子报不包括头版竖条。
仍然以《科技日报》的电子报为例,若确定出头版各热区的第二计算坐标点中的第二最大纵坐标为max_Y_2,则需首先判断该max_Y_2的绝对值是否小于或者等于预设阈值。一示例中,预设阈值可以是75。此时若∣max_Y_2∣<=75,或者虽然∣max_Y_2∣>75,但该电子报头版的布局类型为layout_type1,则可以确定该电子报不包括头版竖条,此时无需继续操作。
另一方面,若确定∣max_Y_2∣>75,且该电子报头版的布局类型为layout_type2,则可以将第二距离最小的热区确定为电子报头版的竖条。若确定∣max_Y_2∣>75,且该电子报头版的布局类型为layout_type3,则可以将第二距离最小的热区确定为电子报头版的头条,同时确定电子报不包括头版竖条。
本申请实施例中,在确定电子报的二条时,可以直接将第二距离最小的热区确定为电子报对应版面的二条。在确定电子报除头版外其他版面的竖条,也可以直接将第二距离最小的热区确定为该电子报其他版面的竖条。
本申请实施例中,上述第一距离可以采用如下方式计算得到:以第一计算坐标点的横坐标值和纵坐标值的绝对值分别作为第一直角三角形的两个直角边边长,采用勾股定理计算得到第一直角三角形的斜边边长;确定第一直角三角形的斜边边长为第一距离。
类似的,上述第二距离可以采用如下方式计算得到:以第二计算坐标点的横坐标值和纵坐标值的绝对值分别作为第二直角三角形的两个直角边边长,采用勾股定理计算得到第二直角三角形的斜边边长;确定第二直角三角形的斜边边长为第二距离。
也就是说,若第一计算坐标点的横坐标值的绝对值为a,纵坐标值的绝对值为b,可以通过勾股定理计算公式c^2=a^2+b^2计算得到第一距离,其中c为第一距离。第二距离的计算方法与第一距离相同,此处不再赘述。
本申请实施例提供的电子报版面解析方法,首先通过网络请求电子报的html格式数据,html格式数据的内容包括版面名称、每版图片、热区坐标、热区链接、版面标题和正文标题等。然后将电子报的头条、竖条等业务规则通过配置文件进行存储,存储的格式包括但不限于json、xml格式。接着加载配置文件,生成对应的map映射关系,并解析电子报中的区域热点即热区信息,然后根据配置规则,遍历热区。遍历方法具体如下:
解析并提取数据。首先根据下载的电子报图片,动态获取电子报的最大长宽,记为max_X(以《科技日报》的电子报为例,约为350mm),max_Y(以《科技日报》的电子报为例,约为550mm)。利用电子报点击时需要热区的原理,根据“区域(area)”标签得到版面的热区坐标和文章。根据热区的坐标定位头条所在位置(规则:左上角),得到头条新闻,给该新闻打上头条标签。根据头条的区域判断头版竖条是否存在(规则:右侧顶部),给该新闻打上竖条标签。根据头条的区域判断二条是哪条(规则:头条下面一条),给该新闻打上二条标签。根据热区的坐标定位底条是否存在,如存在,得到底条(规则:左下角),给该新闻打上底条标签。根据热区链接抓取稿件正文内容。通过专属符号识别记者和专栏名称,给该新闻打上记者和专栏名称的标签。在数据库中保存打上标签的稿件列表。
图8是根据本申请实施例提供的电子报版面解析方法解析并保存的电子报数据的示意图。如图8所示,解析出的不同数据,例如布局类型、头版头条、二条、作者等数据,以不同的名称存储于数据库,进一步还保存了各数据的存储类型、数据长度、小数点信息、是否为空、键值和注释。
下面以《科技日报》的电子报为例,详细说明各版面的解析规则。针对头版,首先解析头条。可以将头版科技日报logo的左上角定位为(0,0)。然后给出logo左下的坐标点(0,-87)作为参照点,然后遍历头版各热区的坐标对,采用勾股定理(c^2=a^2+b^2)获得热区坐标对至参照点的距离c^2,获取其中最小的c^2,并找到最大的new max_X。根据new max_X的大小,确定头版布局类型layout_type,layout_type可以为layout_type1、layout_type2或者layout_type3。进一步的,可以将距离参照点最近的热点记为头版头条,并将其作为level=1保存于数据库。
然后解析头版底条。当确定layout_type为layout_type1或者layout_type2时,确定参照点为(0, -550),否则确定参照点为(350, -550)。遍历头版各热区坐标对,将距离最小的热区记为底条bottm_line,并将其作为level=5保存于数据库。
最后解析头版竖条。此时可以确定参照点为(350,-87)。如果某热区已经被记为头版头条,可以仍将其认定为头版头条。接下来首先找到绝对值最小的纵坐标max_Y_2,max_Y_2<= 75时不处理。然后将距离最小的热点记为竖条,并将其作为level=3保存于数据库。如果layout_type为layout_type3则更新为头条,并将其作为level=1保存于数据库;如果layout_type为layout_type1则不处理。也就是说们可以首先通过判断max_Y_2是否大于75确定此组热区是否值得处理,若max_Y_2<= 75,则不处理此组热点,并继续遍历下一组热点。遍历后将距离最小的热点记为竖条,在判断layout_type为layout_type1时,不处理此组热点,继续遍历下一组热点;在判断layout_type为layout_type3时,更新为头条,返回level值。
接下来解析电子报的二版。可以首先确定参照点为(1,-1),遍历二版中各热区的坐标对,将距离最小的记为top_line,确定其为二版头条,并将其作为level=0保存于数据库。
最后解析电子报的三版。可以首先确定参照点为(1,-1),遍历三版中各热区的坐标对,将距离最小的记为top_line,确定其为三版头条,并将其作为level=0保存于数据库。然后获取new_x_max和new_y_max值。然后确定参照点为(new_x_max,new_y_max),遍历三版中各热区的坐标对,将距离最小的记为two_line,确定其为三版二条,并将其作为level=2保存于数据库。
本申请实施例中,上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图9是本申请实施例提供的一种电子报版面解析装置的示意图。如图9所示,该电子报版面解析装置包括:
获取模块901,被配置为获取电子报,将电子报转换为纯文本html格式数据;
获取模块901还被配置为获取电子报的业务规则配置文件;
确定模块902,被配置为基于电子报的html格式数据中的区域标签确定电子报的全部版面热区坐标和热区链接;
解析模块903,被配置为基于业务规则配置文件确定电子报各版面的第一定位参照点;
解析模块903还被配置为基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点;
解析模块903还被配置为计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;
解析模块903还被配置为基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型;
解析模块903还被配置为基于各版面头条的热区坐标点确定各版面的第二定位参照点;
解析模块903还被配置为基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点;
解析模块903还被配置为计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和/或布局类型确定电子报的头版底条、二条和竖条;
解析模块903还被配置为在html格式数据中获取头条、头版底条、二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条、头版底条、二条或竖条确定为对应文章的版面标识;
存储模块904,被配置为将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报。
根据本申请实施例提供的技术方案,通过将电子报转换为html格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,基于第一计算坐标点与第一定位参照点之间的第一距离确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条、二条和竖条,然后在html格式数据中获取头条、头版底条、二条和竖条的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图10是本申请实施例提供的电子设备的示意图。如图10所示,该实施例的电子设备10包括:处理器1001、存储器1002以及存储在该存储器1002中并且可在处理器1001上运行的计算机程序1003。处理器1001执行计算机程序1003时实现上述各个方法实施例中的步骤。或者,处理器1001执行计算机程序1003时实现上述各装置实施例中各模块/单元的功能。
电子设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备10可以包括但不仅限于处理器1001和存储器1002。本领域技术人员可以理解,图10仅仅是电子设备10的示例,并不构成对电子设备10的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器1001可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器1002可以是电子设备的内部存储单元,例如,电子设备10的硬盘或内存。存储器1002也可以是电子设备10的外部存储设备,例如,电子设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。存储器1002还可以既包括电子设备10的内部存储单元也包括外部存储设备。存储器1002用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种电子报版面解析方法,其特征在于,包括:
获取电子报,将所述电子报转换为纯文本html格式数据;
获取所述电子报的业务规则配置文件;
基于所述电子报的html格式数据中的区域标签确定所述电子报的全部版面热区坐标和热区链接;
基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点;
基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点;
计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;
基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型;
基于各版面头条的热区坐标点确定各版面的第二定位参照点;
基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点;
计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于所述第二距离和/或所述布局类型确定所述电子报的头版底条、二条和竖条;
在所述html格式数据中获取所述头条、头版底条、二条和竖条的热区链接,基于所述热区链接确定各热区的文章标识和正文内容,并将所述头条、头版底条、二条或竖条确定为对应文章的版面标识;
将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报;
其中,所述电子报头版的布局类型包括第一布局类型、第二布局类型和第三布局类型;
所述基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型,包括:
响应于所述最大横坐标值大于或者等于三分之二倍所述电子报的最大宽度,且小于或者等于1,确定所述电子报头版的布局类型为第一布局类型;
响应于所述最大横坐标值大于或者等于二分之一倍所述电子报的最大宽度,且小于三分之二倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第二布局类型;
响应于所述最大横坐标值大于0,且小于二分之一倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第三布局类型;
所述基于各版面头条的热区坐标点确定各版面的第二定位参照点,包括:
确定所述电子报中,左上坐标点为各版面的原点(0,0);
响应于确定所述电子报头版的头版底条,在确定所述布局类型为第一布局类型或者第二布局类型时,确定所述电子报的左下坐标点为所述头版的第二定位参照点,在确定所述布局类型为第三布局类型时,将0为横坐标、纵坐标减少第二常数l得到的坐标点,确定为所述头版的第二定位参照点;
响应于确定所述电子报头版的竖条,将电子报最大宽度对应的值作为横坐标、原点减去电子报logo区域高度得到的值作为纵坐标组成的坐标点,确定为所述头版的第二定位参照点;
响应于确定所述电子报的二条,将待遍历的热区中的最小横坐标和第一最大纵坐标组成的坐标点确定为对应版面的第二定位参照点;
响应于确定所述电子报除头版外其他版面的竖条,将电子报最大宽度对应的值作为横坐标、0为纵坐标组成的坐标点确定为对应版面的第二定位参照点;
所述基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点,包括:
确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;
将所述辅助计算坐标点的横坐标值减去所述第一定位参照点的横坐标值,纵坐标值减去所述第一定位参照点的纵坐标值,组成的坐标点确定为所述第一计算坐标点;
所述基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点,包括:
确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;
将所述辅助计算坐标点的横坐标值减去所述第二定位参照点的横坐标值,纵坐标值减去所述第二定位参照点的纵坐标值,组成的坐标点确定为所述第二计算坐标点。
2.根据权利要求1所述的方法,其特征在于,所述基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点,包括:
确定所述电子报中,左上坐标点为各版面的原点(0,0);
自所述业务规则配置文件中确定所述电子报的标识logo区域;
确定所述logo区域的左下坐标点为所述电子报的头版的第一定位参照点;
确定所述电子报除头版外其他版面中,将原点的横坐标增加第一常数e、纵坐标减少第一常数e得到的坐标点,为所述其他版面的第一定位参照点,其中e大于0且小于或者等于1。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二距离和/或所述布局类型确定所述电子报的头版底条、二条和竖条,包括:
响应于确定所述电子报头版的头版底条,将所述第二距离最小的热区确定为所述头版底条;
响应于确定所述电子报头版的竖条,遍历所述头版的热区,确定各热区的第二计算坐标点中的第二最大纵坐标;
在确定所述第二最大纵坐标的绝对值小于或者等于预设阈值,或者确定所述第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第一布局类型时,确定所述电子报不包括头版竖条;在确定所述第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第二布局类型时,确定第二距离最小的热区为所述电子报头版的竖条;在确定所述第二最大纵坐标的绝对值大于预设阈值且头版的布局类型为第三布局类型时,确定所述第二距离最小的热区为所述电子报头版的头条,并确定所述电子报不包括头版竖条;
响应于确定所述电子报的二条,将所述第二距离最小的热区确定为所述二条;
响应于确定所述电子报除头版外其他版面的竖条,将所述第二距离最小的热区确定为所述其他版面的竖条。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一距离采用如下方式计算得到:
以所述第一计算坐标点的横坐标值和纵坐标值的绝对值分别作为第一直角三角形的两个直角边边长,采用勾股定理计算得到所述第一直角三角形的斜边边长;
确定所述第一直角三角形的斜边边长为所述第一距离;
所述第二距离采用如下方式计算得到:
以所述第二计算坐标点的横坐标值和纵坐标值的绝对值分别作为第二直角三角形的两个直角边边长,采用勾股定理计算得到所述第二直角三角形的斜边边长;
确定所述第二直角三角形的斜边边长为所述第二距离。
5.一种电子报版面解析装置,其特征在于,包括:
获取模块,被配置为获取电子报,将所述电子报转换为纯文本html格式数据;
所述获取模块还被配置为获取所述电子报的业务规则配置文件;
确定模块,被配置为基于所述电子报的html格式数据中的区域标签确定所述电子报的全部版面热区坐标和热区链接;
解析模块,被配置为基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点;
所述解析模块还被配置为基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点;
所述解析模块还被配置为计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;
所述解析模块还被配置为基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型;
所述解析模块还被配置为基于各版面头条的热区坐标点确定各版面的第二定位参照点;
所述解析模块还被配置为基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点;
所述解析模块还被配置为计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于所述第二距离和/或所述布局类型确定所述电子报的头版底条、二条和竖条;
所述解析模块还被配置为在所述html格式数据中获取所述头条、头版底条、二条和竖条的热区链接,基于所述热区链接确定各热区的文章标识和正文内容,并将所述头条、头版底条、二条或竖条确定为对应文章的版面标识;
存储模块,被配置为将每篇文章的版面标识、文章标识以及正文内容分别保存,得到解析后的电子报;
其中,所述电子报头版的布局类型包括第一布局类型、第二布局类型和第三布局类型;
所述基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型,包括:
响应于所述最大横坐标值大于或者等于三分之二倍所述电子报的最大宽度,且小于或者等于1,确定所述电子报头版的布局类型为第一布局类型;
响应于所述最大横坐标值大于或者等于二分之一倍所述电子报的最大宽度,且小于三分之二倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第二布局类型;
响应于所述最大横坐标值大于0,且小于二分之一倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第三布局类型;
所述基于各版面头条的热区坐标点确定各版面的第二定位参照点,包括:
确定所述电子报中,左上坐标点为各版面的原点(0,0);
响应于确定所述电子报头版的头版底条,在确定所述布局类型为第一布局类型或者第二布局类型时,确定所述电子报的左下坐标点为所述头版的第二定位参照点,在确定所述布局类型为第三布局类型时,将0为横坐标、纵坐标减少第二常数l得到的坐标点,确定为所述头版的第二定位参照点;
响应于确定所述电子报头版的竖条,将电子报最大宽度对应的值作为横坐标、原点减去电子报logo区域高度得到的值作为纵坐标组成的坐标点,确定为所述头版的第二定位参照点;
响应于确定所述电子报的二条,将待遍历的热区中的最小横坐标和第一最大纵坐标组成的坐标点确定为对应版面的第二定位参照点;
响应于确定所述电子报除头版外其他版面的竖条,将电子报最大宽度对应的值作为横坐标、0为纵坐标组成的坐标点确定为对应版面的第二定位参照点;
所述基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点,包括:
确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;
将所述辅助计算坐标点的横坐标值减去所述第一定位参照点的横坐标值,纵坐标值减去所述第一定位参照点的纵坐标值,组成的坐标点确定为所述第一计算坐标点;
所述基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点,包括:
确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;
将所述辅助计算坐标点的横坐标值减去所述第二定位参照点的横坐标值,纵坐标值减去所述第二定位参照点的纵坐标值,组成的坐标点确定为所述第二计算坐标点。
6.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
CN202311324617.4A 2023-10-13 2023-10-13 电子报版面解析方法、装置、电子设备及存储介质 Active CN117077619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311324617.4A CN117077619B (zh) 2023-10-13 2023-10-13 电子报版面解析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311324617.4A CN117077619B (zh) 2023-10-13 2023-10-13 电子报版面解析方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117077619A CN117077619A (zh) 2023-11-17
CN117077619B true CN117077619B (zh) 2024-03-29

Family

ID=88708336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311324617.4A Active CN117077619B (zh) 2023-10-13 2023-10-13 电子报版面解析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117077619B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007095102A (ja) * 2006-12-25 2007-04-12 Toshiba Corp 文書処理装置および文書処理方法
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法
CN109871743A (zh) * 2018-12-29 2019-06-11 口碑(上海)信息技术有限公司 文本数据的定位方法及装置、存储介质、终端
CN115171143A (zh) * 2022-05-29 2022-10-11 百望股份有限公司 一种电子发票全票面信息提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101990450B1 (ko) * 2012-03-08 2019-06-18 삼성전자주식회사 웹 페이지 상에서 본문 추출을 위한 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007095102A (ja) * 2006-12-25 2007-04-12 Toshiba Corp 文書処理装置および文書処理方法
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法
CN109871743A (zh) * 2018-12-29 2019-06-11 口碑(上海)信息技术有限公司 文本数据的定位方法及装置、存储介质、终端
CN115171143A (zh) * 2022-05-29 2022-10-11 百望股份有限公司 一种电子发票全票面信息提取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于B/S模式电子报纸系统的设计与实现;王豫峰;《科技广场》;20120930(第2012年09期期);第52-53页 *

Also Published As

Publication number Publication date
CN117077619A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
EP2291010A1 (en) Structure processing method and apparatus for layout file
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
US20100161693A1 (en) System and method for signing an electronic document
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
CN109002425B (zh) 企业上下游关系的获取方法、终端设备及介质
CN111552704A (zh) 一种数据报表生成方法、装置、计算机设备及存储介质
CN103309879A (zh) 一种管理word文档中的标记的方法及装置
CN106777281B (zh) 用于提高网络爬虫稳定性、可用性的数据处理方法及装置
CN117077619B (zh) 电子报版面解析方法、装置、电子设备及存储介质
CN113850056A (zh) 一种基于关键词拆分技术的文档关键信息提取方法和系统
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN113609825B (zh) 一种客户属性标签智能标识方法和装置
CN111695414A (zh) 文档处理方法及装置、电子设备、计算机可读存储介质
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN111125483B (zh) 网页数据抽取模板生成方法、装置、计算机装置及存储介质
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN114330240A (zh) Pdf文档解析方法、装置、计算机设备及存储介质
CN113065086A (zh) 网页正文提取方法、装置、电子设备及存储介质
CN110309501B (zh) 交叉引用方法与装置
CN112487319A (zh) 一种基于dom树路径匹配的文章解析方法
CN115035527B (zh) 一种识别电子签章位置的方法、装置及设备
TW466426B (en) System and method for extracting data from semi-structured text
CN116306526B (zh) 一种根据文本下标标记对应富文本的方法及装置
CN117931106B (zh) 基于边缘计算的云打印机数据处理方法以及相关装置
JP2012063822A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant