CN107943956A - 页面转换方法、装置和页面转换设备 - Google Patents

页面转换方法、装置和页面转换设备 Download PDF

Info

Publication number
CN107943956A
CN107943956A CN201711200872.2A CN201711200872A CN107943956A CN 107943956 A CN107943956 A CN 107943956A CN 201711200872 A CN201711200872 A CN 201711200872A CN 107943956 A CN107943956 A CN 107943956A
Authority
CN
China
Prior art keywords
page
converted
line segment
conversion
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711200872.2A
Other languages
English (en)
Inventor
黄文瀚
程浩
肖之屏
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201711200872.2A priority Critical patent/CN107943956A/zh
Publication of CN107943956A publication Critical patent/CN107943956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种页面转换方法、装置和页面转换设备,涉及网页转换的技术领域,该方法包括:获取待转换页面中包含的待转换对象和待转换对象的空间位置属性;提取各个表格单元格线段,根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,得到对应不同行的多个集合;对多个集合进行划分,得到以表格对象为单位的线段集合;根据线段集合生成表格,将文本对象回填至表格的单元格位置,以完成页面转换。本发明提供的页面转换方法、装置和页面转换设备,能够使转换后的表格保持原有的页面布局,避免出现表格位置错乱的现象,保证了文本的可读性,便于用户阅览,提高了用户的体验度。

Description

页面转换方法、装置和页面转换设备
技术领域
本发明涉及网页转换的技术领域,尤其是涉及一种页面转换方法、装置和页面转换设备。
背景技术
目前,众多网络平台都会公布相关的业务数据、报表内容或者政策法规等供用户下载,而通常发布这些权威内容的网络平台不希望内容被修改,因此,这些内容多以不可修改的文档格式,如,pdf文档,传给用户去阅览,但是pdf内容没办法被搜索引擎收录,同时不便于在浏览器中以自定义格式进行展示。
html(HyperText Mark-up Language)文件,是一种制作万维网页面的标准语言,具有可以自定义的样式,便于搜索引擎收录等优点,更适合在网页上进行展示。但是,在转换过程中,很难在html中保持pdf原有页面布局,往往会出现表格等位置错乱,导致文本不可读等现象,转换效率较低,不便于用户阅览,进而降低了用户的体验度。
发明内容
有鉴于此,本发明的目的在于提供一种页面转换方法、装置和页面转换设备,以缓解转换效率低导致的降低用户体验度的技术问题。
第一方面,本发明实施例提供了一种页面转换方法,该方法用于将pdf文件转化为html文件,包括:获取待转换页面中包含的待转换对象和待转换对象的空间位置属性,其中,待转换对象包括表格对象和表格对象包含的文本对象,表格对象包括组成表格对象的各个表格单元格线段;提取各个表格单元格线段,根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,得到对应不同行的多个集合;对多个集合进行划分,得到以表格对象为单位的线段集合;根据线段集合生成表格,其中,表格携带有单元格空间位置信息;根据空间位置信息将文本对象回填至表格的单元格位置,以完成页面转换。
在本发明较佳的实施例中,上述获取待转换页面中包含的待转换对象和待转换对象的空间位置属性包括:对待转换页面进行解析,按类别提取待转换对象和待转换对象的空间位置属性,生成文本对象的列表和表格单元格线段的列表;其中,文本对象的空间位置属性为文本对象包含的文本行的最小外接矩形的空间位置属性;表格对象的空间位置属性为组成表格对象的各个表格单元格线段的最小外接矩形的空间位置属性;空间位置属性包括:最小外接矩形的左下角距离待转换页面左边界的水平距离和左下角距离待转换页面下边界的垂直距离;以及,最小外接矩形的右上角距离待转换页面左边界的水平距离和右上角距离待转换页面下边界的垂直距离。
在本发明较佳的实施例中,上述根据空间位置属性对表格单元格线段进行聚合包括:以表格单元格线段的最小外接矩形的左下角距离待转换页面下边界的垂直距离为关键字,查找表格单元格线段的列表中,空间位置属性包含关键字的表格单元格线段;将包含关键字的表格单元格线段保存至关键字对应的集合中。
在本发明较佳的实施例中,上述对多个集合进行划分包括:根据空间位置属性对多个集合中的表格单元格线段中连续的竖直线段进行合并,得到合并后不连续的列线段;以表格对象为单位,对不连续的列线段进行存储;查找每个不连续的列线段划定的范围中包含的水平线段;对水平线段进行划分,形成每个表格对象的线段集合。
在本发明较佳的实施例中,上述根据线段集合生成表格包括:统计关键字的个数,根据个数确定表格的行数;以及,查找线段集合中每个关键字对应的水平线段,根据水平线段确定表格的列数;根据行数和列数生成表格。
在本发明较佳的实施例中,上述根据空间位置信息将文本对象回填至表格的单元格位置包括:获取表格的单元格位置和文本对象的空间位置属性;判断文本对象包括的文本行是否被单元格位置包围;如果是,确定文本行属于单元格位置;将文本行回填至单元格位置对应的空间位置信息。
在本发明较佳的实施例中,上述方法还包括:当待转换页面有多个时,按照页面浏览顺序,依次获取待转换页面,以对待转换页面进行转换。
第二方面,本发明实施例提供了一种页面转换装置,该装置用于将pdf文件转化为html文件,包括:获取模块,用于获取待转换页面中包含的待转换对象和待转换对象的空间位置属性,其中,待转换对象包括表格对象和表格对象包含的文本对象,表格对象包括组成表格对象的各个表格单元格线段;聚合模块,用于提取各个表格单元格线段,根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,得到对应不同行的多个集合;划分模块,用于对多个集合进行划分,得到以表格对象为单位的线段集合;表格生成模块,用于根据线段集合生成表格,其中,表格携带有单元格空间位置信息;文本回填模块,用于根据空间位置信息将文本对象回填至表格的单元格位置,以完成页面转换。
在本发明较佳的实施例中,上述装置还包括:顺序转换模块,用于当待转换页面有多个时,按照页面浏览顺序,依次获取待转换页面,以对待转换页面进行转换。
第三方面,本发明实施例提供了一种页面转换设备,该设备包括存储器以及处理器,存储器用于存储支持处理器执行第一方面所述方法的程序,处理器被配置为用于执行存储器中存储的程序
第四方面,本发明实施例提供了一种计算机存储介质,用于储存为上述页面转换装置所用的计算机软件指令,其包含用于执行上述方面为页面转换装置所设计的程序。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种页面转换方法、装置和页面转换设备,通过获取待转换页面中包含的待转换对象和待转换对象的空间位置属性来提取待转换对象中组成表格对象的各个表格单元格线段,并根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,进而对表格单元格线段进行划分,得到以表格对象为单位的线段集合,并根据线段集合生成表格,将待转换对象的文本对象回填至表格的单元格位置,以完成页面转换,在转换过程中通过空间位置属性对表格单元格线段进行聚合和划分,使待转换对象能够保持原有的页面布局,避免出现表格位置错乱的现象,保证了文本的可读性,也提高了页面转换效率,同时,也便于用户阅览,提高了用户的体验度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种页面转换方法的流程图;
图2为本发明实施例提供的另一种页面转换方法的流程图;
图3为本发明实施例提供的一种待转换页面中pdf格式表格的示意图;
图4为本发明实施例提供的一种html格式表格的示意图;
图5为本发明实施例提供的一种页面转换装置的结构示意图;
图6为本发明实施例提供的另一种页面转换装置的结构示意图;
图7为本发明实施例提供的一种页面转换设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,将pdf文件转换为html文件中的难点在于,如何在html中保持pdf原有页面布局,使新的html文件仍适合用户查阅。由于pdf和html中对表格的描述差别大,常常导致pdf表格的位置错乱导致文本不可读等情况,因此,表格提取是pdf转换至html的重点。
现有的转换pdf文件到html文件的程序,均使用元素定位的方式进行,即,使用html中的绝对定位技术,将pdf中的每个元素块按照位置在html文件中进行复刻,本质是一种脱离文档流的实现方法。该方法的优点是文档中的元素在pdf和html显示完全相同,但是浏览器在渲染脱离文档流的元素时需要大量的计算和存储消耗,尤其当有动画效果时,容易产生卡顿等不良体验。此外,由于绝对定位技术将文字等元素的位置尺寸信息写在整个文本中,想对其添加自定义样式,比较困难。
基于此,本发明实施例提供的一种页面转换方法、装置和页面转换设备,可以,提高转换下来,便于用户阅览。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种页面转换方法进行详细介绍。
在一种可能的实施例中,本发明提供了一种页面转换方法,该方法可以在页面转换设备,如网络平台服务器上实现,用于将pdf文件转化为html文件,如图1所示的一种页面转换方法的流程图,该方法包括以下步骤:
步骤S102,获取待转换页面中包含的待转换对象和待转换对象的空间位置属性,其中,待转换对象包括表格对象和表格对象包含的文本对象,表格对象包括组成表格对象的各个表格单元格线段;
通常,在一个pdf格式的文件里会包括多种直线和文本,而表格通常是以多条直线组成,因此,在进行页面转换时,上述待转换对象一般都包括表格对象和表格对象包含的文本对象,即表格的内容。
步骤S104,提取各个表格单元格线段,根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,得到对应不同行的多个集合;
通过上述步骤S104的过程,可以得到对应不同行的多个集合。
步骤S106,对多个集合进行划分,得到以表格对象为单位的线段集合;
对于一个页面中包含多个表格的情况,即表格对象有多个时,在上述步骤S104得到的多个集合中,就会出现属于不同表格的集合,为了能够准确生成表格,需要对上述集合进行划分,将每个表格对象对应的表格单元格线段存储在一个线段集合中。
步骤S108,根据线段集合生成表格,其中,表格携带有单元格空间位置信息;
步骤S110,根据空间位置信息将文本对象回填至表格的单元格位置,以完成页面转换。
本发明实施例提供的一种页面转换方法,通过获取待转换页面中包含的待转换对象和待转换对象的空间位置属性来提取待转换对象中组成表格对象的各个表格单元格线段,并根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,进而对表格单元格线段进行划分,得到以表格对象为单位的线段集合,并根据线段集合生成表格,将待转换对象的文本对象回填至表格的单元格位置,以完成页面转换,在转换过程中通过空间位置属性对表格单元格线段进行聚合和划分,使待转换对象能够保持原有的页面布局,避免出现表格位置错乱的现象,保证了文本的可读性,也提高了页面转换效率,同时,也便于用户阅览,提高了用户的体验度。
在实际使用时,上述步骤S102可以通过pdfminer软件实现,pdfminer是一个可以从pdf文档中提取信息的工具,与其他pdf相关的工具不同,它注重的完全是获取和分析文本数据。pdfminer允许获取某一页中文本的准确位置和一些诸如字体、行数的信息,利用该软件,上述步骤S102中所述的获取待转换页面中包含的待转换对象和待转换对象的空间位置属性包括:通过pdfminer软件对待转换页面进行解析,按类别提取待转换对象和待转换对象的空间位置属性,生成文本对象的列表和表格单元格线段的列表。
具体地,上述文本对象的空间位置属性为文本对象包含的文本行的最小外接矩形的空间位置属性;表格对象的空间位置属性为组成表格对象的各个表格单元格线段的最小外接矩形的空间位置属性;
进一步,空间位置属性包括:最小外接矩形的左下角距离待转换页面左边界的水平距离和左下角距离待转换页面下边界的垂直距离;以及,最小外接矩形的右上角距离待转换页面左边界的水平距离和右上角距离待转换页面下边界的垂直距离。
以pdf页面中包含表格为例进行说明,pdfminer对pdf的页面进行解析时,得到文本行和表格单元格线段,通常,用LTTextLine表示一个连续的文本行并,如段落中的一行,一个单元格中的一行等,文本行的最小外接矩形指明该文本行的空间位置属性;用LTRect表示页面中的表格单元格线段,可以据此来判断表格的开始和结束位置,表格单元格线段具有宽度,其最小外接矩形指明该表格单元格线段的空间位置属性,每个LTTextLine或LTRect的空间位置属性可以表示为:
x0:待转换对象左下角距离待转换页面中(以下简称页面)左边界的水平距离;
y0:待转换对象左下角距离页面下边界的垂直距离;
x1:待转换对象右上角距离页面左边界的水平距离;
y1:待转换对象右上角距离页面下边界的垂直距离。
此处将表格的一条水平线段分割成多个部分,每个部分都是一个LTRect对象;且水平线段也以其外接矩形来处理。
基于上述空间位置属性的定义方式,在图1所示方法的基础上,本发明在另一种可能的实施例中,还提供了另一种页面转换方法,如图2所示的另一种页面转换方法的流程图,包括以下步骤:
步骤S202,对待转换页面进行解析,按类别提取待转换对象和待转换对象的空间位置属性,生成文本对象的列表和表格单元格线段的列表;
具体地,在本发明实施例中,上述文本对象的列表中,每个文本对象用LTTextLine表示;表格单元格线段的列表为每个表格单元格线段的列表,包括组成表格对象的各个表格单元格线段,每个表格单元格线段用LTRect表示,因此,上述表格单元格线段的列表可以简称为LTRect列表。
步骤S204,提取各个表格单元格线段,以表格单元格线段的最小外接矩形的左下角距离待转换页面下边界的垂直距离为关键字,查找表格单元格线段的列表中,空间位置属性包含关键字的表格单元格线段;
步骤S206,将包含关键字的表格单元格线段保存至关键字对应的集合中;
在上述步骤S204~步骤S206中,以每个表格单元格线段在待转换页面中的高度,即y0为关键字,可以构建一个集合,或者字典,将LTRect列表中关键字为y0的对象的x0和x1存入字典的集合中,以使处于同一行的表格单元格线段存储在同一个以y0为关键字的集合中。
具体构建集合的伪代码如表1所示:
考虑到每个页面中可能存在多个表格,而每个表格内部的列线段是连续的,多个表格间会有明显的间隔,因此,在得到上述集合后,还需要对页面的垂直区域进行切分,具体地,需要对集合中的表格单元格线段进行划分,得到以表格对象为单位的线段集合的子集,进而根据每个子集中的线段生成表格,具体的划分过程如步骤S208~步骤S214所述。
步骤S208,根据空间位置属性对多个集合中的表格单元格线段中连续的竖直线段进行合并,得到合并后不连续的列线段;
在该步骤中,为了达到划分子集的效果,先根据空间位置属性中每个表格单元格线段的y0、y1属性对页面中连续的竖直线段进行合并,即首尾连接,得到多条平行的列线段,然后,将多条平行的列线段进行合并,由此得出页面中不连接的一个或多个列分段,每个列分段对应着一个表格对象占据的垂直位置。
步骤S210,以表格对象为单位,对不连续的列线段进行存储;
具体地,上述对页面中的列线段进行合并的伪代码如表2所示:
通过上述步骤对垂直区域切分完成后,可以按照垂直线段的y0和y1的划定的范围对LTRect列表的所有水平线段进行划分,即查找y0和y1的划定的范围内,水平线段的空间位置属性,划分后的水平线段集合即对应一个独立表格;具体地,对水平线段划分过程如步骤S212~步骤S214所示。
步骤S212,查找每个不连续的列线段划定的范围中包含的水平线段;
步骤S214,对水平线段进行划分,形成每个表格对象的线段集合;
具体地,上述对水平线段划分的过程是基于垂直线对水平线段进行划分的,即通过每个水平线段距离页面下边界的垂直距离判断每个水平线段是否在不连续的列线段划定的范围中。划分的具体过程可以参考表3所示的伪代码:
通过上述步骤得到了以表格对象为单位的线段集合。在页面转换过程中,生成表格,除需要获取上述表格对象的线段集合以外,还需要知道待生成表格的行数和列数,以及空间位置信息等,便于文本数据的回填,因此,具体生成表格的过程如步骤S216~S218所示。
步骤S216,统计关键字的个数,根据个数确定表格的行数;以及,查找线段集合中每个关键字对应的水平线段,根据水平线段确定表格的列数;
具体地,上述关键字的个数,可以通过统计表3中lines_table的关键字(y0)的个数得到,进而得到表格的行数,通过对lines_table中所有值(关键字y0所对应的各个值)的点进行去重复(将具有相同值的点进行合并),就能得到最终的表格的列数,由此,得出多个表格。
步骤S218,根据行数和列数生成表格;
具体的表格内部结构的确定,可以参考表4所示的伪代码实现:
通过上述步骤,转换后的表格的形状已经确定,还需要将表格对象包含的文本对象回填至表格的单元格位置,才能完成页面转换。
步骤S220,根据空间位置信息将文本对象回填至表格的单元格位置,以完成页面转换。
在实际使用时,该步骤S220的实现过程如下:(1)获取表格的单元格位置和文本对象的空间位置属性;其中,该单元格位置在上述生成表格的过程中可以获知,包括该单元格位置对应的空间位置信息等,都可以在生成表格的过程中获知;(2)判断文本对象包括的文本行是否被单元格位置包围;(3)如果是,确定文本行属于单元格位置;(4)将文本行回填至单元格位置对应的空间位置信息。
具体地,上述步骤S218得到的表格为带有单元格空间位置信息的表格,在步骤S202中已经获知上述文本对象(LTTextLine)的空间位置属性,因此,可以判断某个文本LTTextLine的空间位置是否被单元格所包围,如果是,则得出该文本属于这个单元格,具体回填文本对象的伪代码如表5所示:
应该理解,上述方法流程图考虑的是一个表格的生成过程,对于多个表格的生成,只需按照上述方法类推就可以实现,进一步,对于多个页面的pdf文件的页面转换,上述方法还包括:当待转换页面有多个时,按照页面浏览顺序,依次获取待转换页面,以对待转换页面进行转换。
为了便于对上述实施例所述的方法进行理解,图3示出了一种待转换页面中pdf格式表格的示意图,通过上述实施例所述的方法对图3所示的表格进行转换,得出html文件中的表格形式,如图4所示。由图3和图4可以看出,通过上述方法转换后的表格保持了pdf原有页面的布局,也没有出现表格位置错乱的情况,进一步,通过上述方法,用户还可以根据编程实现对表格的自定义样式,如字体居中显示,等等,在提高转换效率的同时,也能够增加转换的灵活性,进一步提高了用户的体验度。
在另一种可能的实施例中,本发明还提供了一种页面转换装置,该装置可以设置在页面转换设备,如网络平台服务器上,用于将pdf文件转化为html文件,如图5所示的一种页面转换装置的结构示意图,该装置包括以下结构:
获取模块50,用于获取待转换页面中包含的待转换对象和待转换对象的空间位置属性,其中,待转换对象包括表格对象和表格对象包含的文本对象,表格对象包括组成表格对象的各个表格单元格线段;
聚合模块52,用于提取各个表格单元格线段,根据空间位置属性对表格单元格线段进行聚合,使处于同一行的表格单元格线段存储在同一个集合中,得到对应不同行的多个集合;
划分模块54,用于对多个集合进行划分,得到以表格对象为单位的线段集合;
表格生成模块56,用于根据线段集合生成表格,其中,表格携带有单元格空间位置信息;
文本回填模块58,用于根据空间位置信息将文本对象回填至表格的单元格位置,以完成页面转换。
进一步,如图6所示的另一种页面转换装置的结构示意图,除图5所示的结构外,上述装置还包括:
顺序转换模块60,用于当待转换页面有多个时,按照页面浏览顺序,依次获取待转换页面,以对待转换页面进行转换。
本发明实施例提供的页面转换装置,与上述实施例提供的页面转换方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种页面转换设备,包括存储器以及处理器,所述存储器用于存储支持处理器执行上述页面转换方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
进一步,本发明实施例提供了一种计算机存储介质,用于储存为上述页面转换装置所用的计算机软件指令,其包含用于执行上述方面为页面转换装置所设计的程序。
参见图7所示的一种页面转换设备的结构示意图,包括:处理器700,存储器701,总线702和通信接口703,所述处理器700、通信接口703和存储器701通过总线702连接;处理器700用于执行存储器701中存储的可执行模块,例如计算机程序。
其中,存储器701可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口703(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线702可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器701用于存储程序,所述处理器700在接收到执行指令后,执行所述程序,前述本发明任一实施例揭示的页面转换装置所执行的方法可以应用于处理器700中,或者由处理器700实现。
处理器700可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器700可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701,处理器700读取存储器701中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的页面转换方法、装置和页面转换设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种页面转换方法,其特征在于,所述方法用于将pdf文件转化为html文件,所述方法包括:
获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性,其中,所述待转换对象包括表格对象和所述表格对象包含的文本对象,所述表格对象包括组成所述表格对象的各个表格单元格线段;
提取各个所述表格单元格线段,根据所述空间位置属性对所述表格单元格线段进行聚合,使处于同一行的所述表格单元格线段存储在同一个集合中,得到对应不同行的多个所述集合;
对多个所述集合进行划分,得到以所述表格对象为单位的线段集合;
根据所述线段集合生成表格,其中,所述表格携带有单元格空间位置信息;
根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置,以完成页面转换。
2.根据权利要求1所述的方法,其特征在于,所述获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性包括:
对所述待转换页面进行解析,按类别提取待转换对象和所述待转换对象的空间位置属性,生成所述文本对象的列表和表格单元格线段的列表;
其中,所述文本对象的空间位置属性为所述文本对象包含的文本行的最小外接矩形的空间位置属性;
所述表格对象的空间位置属性为组成所述表格对象的各个所述表格单元格线段的最小外接矩形的空间位置属性;
所述空间位置属性包括:所述最小外接矩形的左下角距离所述待转换页面左边界的水平距离和所述左下角距离所述待转换页面下边界的垂直距离;以及,所述最小外接矩形的右上角距离所述待转换页面左边界的水平距离和所述右上角距离所述待转换页面下边界的垂直距离。
3.根据权利要求2所述的方法,其特征在于,所述根据所述空间位置属性对所述表格单元格线段进行聚合包括:
以所述表格单元格线段的最小外接矩形的左下角距离所述待转换页面下边界的垂直距离为关键字,查找所述表格单元格线段的列表中,所述空间位置属性包含所述关键字的所述表格单元格线段;
将包含所述关键字的所述表格单元格线段保存至所述关键字对应的集合中。
4.根据权利要求3所述的方法,其特征在于,所述对多个所述集合进行划分包括:
根据所述空间位置属性对多个所述集合中的所述表格单元格线段中连续的竖直线段进行合并,得到合并后不连续的列线段;
以所述表格对象为单位,对所述不连续的列线段进行存储;
查找每个所述不连续的列线段划定的范围中包含的水平线段;
对所述水平线段进行划分,形成每个所述表格对象的线段集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述线段集合生成表格包括:
统计所述关键字的个数,根据所述个数确定所述表格的行数;
以及,查找所述线段集合中每个所述关键字对应的水平线段,根据所述水平线段确定所述表格的列数;
根据所述行数和所述列数生成所述表格。
6.根据权利要求1所述的方法,其特征在于,所述根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置包括:
获取所述表格的单元格位置和所述文本对象的空间位置属性;
判断所述文本对象包括的文本行是否被所述单元格位置包围;
如果是,确定所述文本行属于所述单元格位置;
将所述文本行回填至所述单元格位置对应的空间位置信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待转换页面有多个时,按照页面浏览顺序,依次获取所述待转换页面,以对所述待转换页面进行转换。
8.一种页面转换装置,其特征在于,所述装置用于将pdf文件转化为html文件,所述装置包括:
获取模块,用于获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性,其中,所述待转换对象包括表格对象和所述表格对象包含的文本对象,所述表格对象包括组成所述表格对象的各个表格单元格线段;
聚合模块,用于提取各个所述表格单元格线段,根据所述空间位置属性对所述表格单元格线段进行聚合,使处于同一行的所述表格单元格线段存储在同一个集合中,得到对应不同行的多个所述集合;
划分模块,用于对多个所述集合进行划分,得到以所述表格对象为单位的线段集合;
表格生成模块,用于根据所述线段集合生成表格,其中,所述表格携带有单元格空间位置信息;
文本回填模块,用于根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置,以完成页面转换。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
顺序转换模块,用于当所述待转换页面有多个时,按照页面浏览顺序,依次获取所述待转换页面,以对所述待转换页面进行转换。
10.一种页面转换设备,其特征在于,所述设备包括存储器以及处理器,所述存储器用于存储支持处理器执行权利要求1至7任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
CN201711200872.2A 2017-11-24 2017-11-24 页面转换方法、装置和页面转换设备 Pending CN107943956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711200872.2A CN107943956A (zh) 2017-11-24 2017-11-24 页面转换方法、装置和页面转换设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711200872.2A CN107943956A (zh) 2017-11-24 2017-11-24 页面转换方法、装置和页面转换设备

Publications (1)

Publication Number Publication Date
CN107943956A true CN107943956A (zh) 2018-04-20

Family

ID=61948900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711200872.2A Pending CN107943956A (zh) 2017-11-24 2017-11-24 页面转换方法、装置和页面转换设备

Country Status (1)

Country Link
CN (1) CN107943956A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032718A (zh) * 2019-04-12 2019-07-19 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN111949184A (zh) * 2019-05-16 2020-11-17 珠海金山办公软件有限公司 一种新建文档的方法及装置
CN112287742A (zh) * 2020-06-22 2021-01-29 上海柯林布瑞信息技术有限公司 文件中的流程图解析方法及装置、计算设备、存储介质
CN112487775A (zh) * 2020-12-03 2021-03-12 上海众言网络科技有限公司 网页代码转换方法和装置
CN112528612A (zh) * 2019-08-29 2021-03-19 小船出海教育科技(北京)有限公司 在文档中显示网页内容的方法、装置、存储介质及处理器
CN112818894A (zh) * 2021-02-08 2021-05-18 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN113505565A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 页面对象组合方法、装置、电子设备、介质及程序产品
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN113723362A (zh) * 2021-09-27 2021-11-30 上海合合信息科技股份有限公司 一种在图像中检测表格线的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. AFZAL BHATTI 等: "PDF to HTML Conversion: Having a Usable Web Document", 《2006 1ST INTERNATIONAL CONFERENCE ON DIGITAL INFORMATION MANAGEMENT》 *
唐皓瑾: "一种面向PDF文件的表格数据抽取方法的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032718B (zh) * 2019-04-12 2023-04-18 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN110032718A (zh) * 2019-04-12 2019-07-19 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN111949184A (zh) * 2019-05-16 2020-11-17 珠海金山办公软件有限公司 一种新建文档的方法及装置
CN111949184B (zh) * 2019-05-16 2023-10-31 珠海金山办公软件有限公司 一种新建文档的方法及装置
CN112528612A (zh) * 2019-08-29 2021-03-19 小船出海教育科技(北京)有限公司 在文档中显示网页内容的方法、装置、存储介质及处理器
CN112528612B (zh) * 2019-08-29 2024-03-22 小船出海教育科技(北京)有限公司 在文档中显示网页内容的方法、装置、存储介质及处理器
CN112287742A (zh) * 2020-06-22 2021-01-29 上海柯林布瑞信息技术有限公司 文件中的流程图解析方法及装置、计算设备、存储介质
CN112287742B (zh) * 2020-06-22 2023-12-26 上海柯林布瑞信息技术有限公司 文件中的流程图解析方法及装置、计算设备、存储介质
CN112487775A (zh) * 2020-12-03 2021-03-12 上海众言网络科技有限公司 网页代码转换方法和装置
CN112818894B (zh) * 2021-02-08 2023-12-15 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN112818894A (zh) * 2021-02-08 2021-05-18 深圳万兴软件有限公司 识别pdf文件中文本框的方法、装置及计算机设备及存储介质
CN113505565A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 页面对象组合方法、装置、电子设备、介质及程序产品
CN113505565B (zh) * 2021-05-25 2024-02-13 北京北大方正电子有限公司 页面对象组合方法、装置、电子设备、介质及程序产品
CN113723362A (zh) * 2021-09-27 2021-11-30 上海合合信息科技股份有限公司 一种在图像中检测表格线的方法及装置
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置

Similar Documents

Publication Publication Date Title
CN107943956A (zh) 页面转换方法、装置和页面转换设备
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
CN103793145B (zh) 一种基于AutoCAD的图框参数识别与图纸输出方法
US7492366B2 (en) Method and system of character placement in opentype fonts
CN103902513A (zh) 在终端设备中显示字体的方法及装置
CN111428457B (zh) 数据表的自动格式化
CN103605783B (zh) 网页显示方法及装置
JP2007095102A (ja) 文書処理装置および文書処理方法
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
US8386943B2 (en) Method for query based on layout information
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112818457A (zh) 基于cad图纸的bim模型智能生成方法及系统
CN110020312A (zh) 提取网页正文的方法和装置
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN107590288A (zh) 用于抽取网页图文块的方法和装置
CN107832418A (zh) 一种热点话题发现方法、系统及一种热点话题发现设备
CN109325204B (zh) 网页内容自动提取方法
CN106528509A (zh) 网页信息提取方法及装置
CN102375889A (zh) 一种通过网页构建数据库构建网页的方法
CN112749536A (zh) 文书生成方法、装置和设备
CN105975218A (zh) 一种基于数据转换器的图形文件浏览及打印装置和方法
CN114637732A (zh) 一种dwg图纸数据的转换方法及系统
CN112766269B (zh) 一种图片文本检索方法、智能终端及存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
KR101564616B1 (ko) 연관규칙탐사 분석 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination