CN113536182A

CN113536182A - 长文本网页的生成方法、装置、电子设备和存储介质

Info

Publication number: CN113536182A
Application number: CN202110784120.5A
Authority: CN
Inventors: 黄进然; 陈晓珠; 林璟; 司亚彪; 雪年波
Original assignee: Guangzhou Wondfo Biotech Co Ltd
Current assignee: Guangzhou Wondfo Biotech Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-22

Abstract

本申请实施例提供一种长文本网页的生成方法、装置、电子设备和存储介质，通过获取原始数据文件，对原始数据文件进行预处理，得到原始数据文件的超文本标记语言HTML标准文档，对HTML标准文档进行分块处理和类型推断，得到HTML标准文档对应的内容块序列和类型序列，根据类型序列，按照预设的排版样式对内容块序列中的内容块进行排版，得到长文本网页，能够基于多源异构原始数据文件生成统一排版的长文本网页，解决了现有技术在生成长文本网页过程存在的诸多问题，提升了用户的使用体验。

Description

长文本网页的生成方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种长文本网页的生成方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的不断发展，Web网页内容的排版与呈现也越来越多样化、个性化，一般的Web网页已无法满足信息的展示需求，长文本网页应运而生。相比于普通Web网页，长文本网页已经不再是单一的文字或表格，而是由多种媒体元素(包括图片、视频、音频等) 交叉组合排版而成，能够同时可以呈现更加丰富和多样化的内容。

目前，大多互联网产品会提供灵活的内容编辑工具，由平台人员或者用户自行对原始文件进行手工编辑、排版或修改之后，生成并发布长文本网页，又或者预设少数的设计模板，不同模板对应着不同的版式或风格，在平台人员或者用户在对原始文件进行处理时，可指定进行内容展现的模板。但这些模板并不能很好地展现原始文件中的各种元素，常常需要进行二次编辑。

实际上会面临这样一种情况，当需要处理大量的原始文件，生成长文本网页时，由于这些原始文件可能是不同格式的文本文件，如PDF、Word、txt等，也可能是来源于不同网站的网页文件，而不同网站的网页文件展现版式不同。如果仍然采用人工进行重新排版或编辑的方式，将这些多源异构的原始文件集中起来，并以统一的版式和风格展现在某个互联网产品的页面上，显然不大可行。即使是从不同网站自动采集下来的网页文件，经过直接解析之后，页面展现也会出现诸多问题，如内容排版错乱、图片链接失效而不显示、表格内容显示不对等、不一致、不和谐等以及格式上很难与产品的版式和风格保持一致等。

因此，如何基于多源异构原始文件生成统一排版的长文本网页成为亟需解决的问题。

发明内容

本申请实施例提供一种长文本网页的生成方法、装置、电子设备和存储介质，能够基于多源异构原始文件生成统一排版的长文本网页。

第一方面，本申请实施例提供一种长文本网页的生成方法，包括：

获取原始数据文件，所述原始数据文件为PDF文件、Word文件、txt文件或Web网页文件；

对所述原始数据文件进行预处理，得到所述原始数据文件的超文本标记语言HTML标准文档；

对所述HTML标准文档进行分块处理和类型推断，得到所述HTML标准文档对应的内容块序列和类型序列；

根据所述类型序列，按照预设的排版样式对所述内容块序列中的内容块进行排版，得到长文本网页。

可选地，所述对所述原始数据文件进行预处理，得到所述原始数据文件的超文本标记语言HTML标准文档，包括：

对所述原始数据文件进行转化处理，得到所述原始数据文件的HTML初始文档，所述 HTML初始文档中包括所述原始数据文件的文本内容和对应的HTML代码；

遍历所述HTML初始文档中的目标元素，并按照预设规则对所述目标元素进行处理，得到所述HTML标准文档，所述目标元素包括图片、视频、音频和表格。

可选地，若所述目标元素为图片、视频或音频，所述按照预设规则对所述目标元素进行处理，包括：

获取所述HTML初始文档中所述目标元素的统一资源定位符URL地址的第一位置；

下载所述目标元素，并将所述目标元素保存到本地路径；

根据所述本地路径，生成新的URL地址；

根据所述第一位置，采用新的URL地址对所述HTML初始文档的URL地址进行替换。

可选地，若所述目标元素为表格，所述按照预设规则对所述目标元素进行处理，包括：

获取所述HTML初始文档中的所述目标元素和所述目标元素的第二位置；

采用消息摘要算法计算所述目标元素的指纹编码，得到目标元素与指纹编码的映射关系；

根据所述第二位置和所述目标元素与指纹编码的映射关系，采用指纹编码对所述HTML 初始文档中的目标元素进行替换。

可选地，所述对所述HTML标准文档进行分块处理和类型推断，得到所述HTML标准文档对应的内容块序列和类型序列，包括：

根据所述HTML标准文档中的HTML标签，对所述HTML标准文档进行分块，得到所述HTML标准文档包括的至少一个内容块；

按照所述至少一个内容块在所述HTML标准文档中出现的顺序，对所述至少一个内容块进行排序，得到所述HTML标准文档对应的内容块序列；

采用内容块分类模型对所述内容块序列中的内容块进行类型推断，得到所述内容块序列对应的类型序列。

可选地，所述按照所述至少一个内容块在所述HTML标准文档中出现的顺序，对所述至少一个内容块进行排序，得到所述HTML标准文档对应的内容块序列之前，所述方法还包括：

确定各内容块是否为指纹编码；

若确定目标内容块为指纹编码，则根据表格与指纹编码的映射关系，将所述目标内容块替换为对应的表格。

可选地，所述内容块分类模型包括嵌入层、网络层和条件随机场CRF层，所述采用内容块分类模型对所述内容块序列中的内容块进行类型推断，得到所述内容块序列对应的类型序列，包括：

采用所述嵌入层提取所述内容块序列中各内容块的特征信息，得到特征向量矩阵，所述特征向量矩阵中的元素为各内容块的特征值；

采用所述网络层根据所述特征向量矩阵，对各内容块的特征向量进行学习，得到状态概率矩阵，所述状态概率矩阵中的元素为各内容块被标注为候选类型的状态概率，各内容块的特征向量由各内容块的特征值构成；

采用所述CRF层根据所述状态概率矩阵，基于CRF算法和Viterbi算法，确定所述内容块序列对应的类型序列。

可选地，所述特征信息包括：核心关键词、核心关键词在内容块中首次出现的位置、内容块的长度、内容块头部出现的标号和内容块的类型中的至少一项。

可选地，所述网络层由前向长短期记忆LSTM和后向长短期记忆LSTM构成，所述前向 LSTM以各内容块正序的特征向量为输入，所述后向LSTM以各内容块倒序的特征向量为输入。

可选地，所述CRF算法用于根据所述状态概率矩阵，计算各内容块被标注为候选类型的条件概率；所述Viterbi算法用于根据所述条件概率，从候选类型中寻找各内容块的最优类型，并根据各内容块的最优类型，生成所述类型序列。

第二方面，本申请实施例提供一种长文本网页的生成装置，包括：

获取模块，用于获取原始数据文件，所述原始数据文件为PDF文件、Word文件、txt文件或Web网页文件；

处理模块，用于对所述原始数据文件进行预处理，得到所述原始数据文件的超文本标记语言HTML标准文档；对所述HTML标准文档进行分块处理和类型推断，得到所述HTML标准文档对应的内容块序列和类型序列；

展示模块，用于根据所述类型序列，按照预设的排版样式对所述内容块序列中的内容块进行排版，得到长文本网页。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述的长文本网页的生成方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的长文本网页的生成方法。

本申请实施例提供的长文本网页的生成方法、装置、电子设备和存储介质，通过获取原始数据文件，原始数据文件为PDF文件、Word文件、txt文件或Web网页文件，对原始数据文件进行预处理，得到原始数据文件的超文本标记语言HTML标准文档，对HTML标准文档进行分块处理和类型推断，得到HTML标准文档对应的内容块序列和类型序列，根据类型序列，按照预设的排版样式对内容块序列中的内容块进行排版，得到长文本网页，能够基于多源异构原始数据文件生成统一排版的长文本网页，解决了现有技术在生成长文本网页过程存在的诸多问题，例如图片链接失效而显示不出、表格未能完整展现、发生错位、各级标题未能以有别于正文内容的形式显示等，提升了用户的使用体验。

附图说明

图1为本申请实施例一提供的长文本网页的生成方法的流程示意图；

图2为本申请实施例一提供的内容块分类模型的结构示意图；

图3为本申请实施例二提供的长文本网页的生成装置的结构示意图；

图4为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

本申请技术方案的主要思路：基于现有技术中存在的技术问题，本申请实施例提供一种长文本网页的生成的技术方案，通过将不同来源、不同排版结构的原始文件，即多源异构原始文件，统一转换为超文本标记语言(hyper text markup language，HTML)格式的内容数据，得到各原始文件对应的HTML文档，对于每个HTML文档，首先，在按照预设规则对HTML 文档中的图片、视频、音频和表格进行处理之后，对HTML文档进行分块，得到HTML文档的多个内容块，然后，采用预先构建的内容块分类模型推断各内容块的类型，最后，根据不同的类型，采用不同的样式对各内容块进行排版并展示，最终生成长文本网页。一方面，本申请的技术方案中通过将不同格式的原始文件统一转换为HTML文档，通过HTML解析可以更加有效地对内容进行分块，得到各级文本标题(一级、二级、……)、正文、图片、图片标题、表格、表格标题、视频、视频标题、音频、音频标题等不同的内容块，能够满足采用不同的样式对不同内容分别进行排版的需求。另一方面，本申请的技术方案中的内容块分类模型是预先基于双向长短期记忆(Bi-directional long short-term memory，BiLSTM)网络和条件随机场(conditional random field，CRF)算法(以下简称BiLSTM-CRF算法)构建的，通过内容块分类模型可以对当前内容块以及前后内容块的特征信息进行综合分析，从而预测出当前内容块的类型，与传统的基于设计规则进行类型判断的方法相比，能够更好地分析出原始文件中前后段落的结构关系，从而大大提高了类型推断的准确度。再一方面，本申请的技术方案中，通过按照预设规则对HTML文档中的图片、视频、音频和表格进行处理，有效解决了多来源异构原始文件生成长文本网页过程中出现的诸多问题，例如图片链接失效而显示不出、表格未能完整展现、发生错位、各级标题未能以有别于正文内容的形式显示等。

实施例一

图1为本申请实施例一提供的长文本网页的生成方法的流程示意图，本实施例的方法可以由本申请实施例所提供的长文本网页的生成装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于服务器以及智能终端等电子设备中。如图1所示，本实施例的长文本网页的生成方法，包括：

S101、获取原始数据文件。

本步骤中，获取生成长文本网页所需的到少一个原始数据文件，每个原始数据文件的格式可以为PDF、Word、txt或Web网页中的任一种，这些原始数据文件是预先通过自动采集、下载或手工整理等方式得到的。

相应地，本步骤中，可以通过有线或无线的方式中从其他设备，如移动硬盘中获取本次生成长文本网页所需的原始数据文件，也可以从本地磁盘中获取本次生成长文本网页所需的原始数据文件。

S102、对原始数据文件进行预处理，得到原始数据文件的HTML标准文档。

由于不同原始数据文件的来源、格式、排版、样式等各不相同，为最终得到排版、样式等一致的长文本文件，本实施例中，通过预处理的方式对获取的到的各原始数据文件中的图片、视频、音频及表格等元素进行处理和对各原始数据文件进行的格式进行统一。另外，由于HTML作为标识性语言的特点，包括一系列标签，并可由HTML命令组成的描述性文本，对文字、图形、动画、表格、链接等加以说明，本实施例中，将原始数据文件统一转化为HTML文档，并将对HTML文档中图片、视频、音频及表格等元素加以处理后得到的文档，叫做HTML标准文档。

在一种可能的实施方式中，本实施例中，通过如下步骤得到分别对各原始数据文件进行预处理，得到各原始数据文件对应的HTML标准文档：

(1)对原始数据文件进行转化处理，得到原始数据文件对应的HTML初始文档。

本实施例中，HTML初始文档中包括原始数据文件的文本内容和对应的HTML代码，即是由原始数据文件的文本内容和对应的HTML代码进行组合后得到的。对于PDF、Word、txt等格式的原始数据文件，本步骤中，可以采用相应的格式转化工具对其进行转化，得到对应的HTML初始文档。而对于Web网页格式的原始数据文件，可以在采集数据时连同其HTML代码一起采集，本步骤中，可以通过将Web网页的文本内容与对应的HTML代码进行组合，得到对应的HTML初始文档。

(2)遍历HTML初始文档中的目标元素，并按照预设规则对目标元素进行处理，得到HTML标准文档。

由于图片、视频、音频和表格等在生成长文本网页时比较容易出现问题，因此，在预处理过程中，本实施例中，还要对HTML初始文档中的图片、视频、音频和表格进行处理，以保证后续生成的长文本网页的显示效果。为便于描述，本步骤中，将图片、视频、音频和表格统称目标元素。

本步骤中，可以先通过遍历的方式确定出各原始数据文件中包括目标元素，并确定目标元素的具体类别，再根据目标元素的具体类别，采用对应的预设规则对分别对各目标元素进行处理，得到HTML标准文档。

可选地，若目标元素为图片、视频或音频，本实施例中，通过如下规则对图片、视频或音频进行处理：

a、获取HTML初始文档中图片、视频或音频的统一资源定位符(uniform resourcelocator， URL)地址的第一位置；

b、下载图片、视频或音频，并图片、视频或音频保存到本地路径；

c、根据本地路径，生成新的URL地址；

d、根据第一位置，采用新的URL地址对HTML初始文档的URL地址进行替换。

为便于区分，本实施例中，将图片、视频或音频的URL地址在HTML初始文档中的位置叫做第一位置。

示例性地，假设HTML初始文档为H，可通过如下具体步骤对H中的图片、视频和音频元素进行处理，得到HTML第一过程文档H′：

批量提取出HTML初始文档H中的URL及其对应的位置，生成URL向量A＝[a₁，a₂，…，a_n1]以及第一位置向量L＝[l₁，l₂，…，l_n1]，其中，a_i为第i个URL，l_i为第i个URL在HTML 初始文档H中的位置，n1为URL个数。

初始化：HTML第一过程文档H′←HTML初始文档H

For i＝1to n1{

根据第i个URL a_i，下载对应的文件(图片、视频或音频)d_i并保存至本地路径；

根据文件d_i及所在的本地路径，生成新的URL

通过URL位置l_i，将HTML初始文档H中的URL a_i替换为新的URL

}

本实施例中，对于图片、视频和音频，通过采取提取URL采下载保存文件→替换URL的做法，将文件保存至本地，同时将链接替换为本地路径的链接，可以避免长文本网页中出现的图片、视频和音频等文件链接失效的发生。

可选地，若目标元素为表格，本实施例中，通过如下规则对表格进行处理：

a、获取HTML初始文档中的表格和各表格在HTML初始文档中的第二位置；

b、采用消息摘要算法计算各表格的指纹编码，得到表格与指纹编码的映射关系；

c、根据各表格的第二位置和表格与指纹编码的映射关系，采用指纹编码对HTML初始文档中的各表格进行替换。

为便于区分，本实施例中，将表格在HTML初始文档中的位置叫做第二位置。

示例性地，在HTML第一过程文档H′的基础上，可通过如下具体步骤对H′中的表格进行处理，得到HTML第二过程文档H″：

批量提取出HTML第一过程文档H′的表格(由标签<table>…</table>确定的内容)及表格在HTML第一过程文档H′中的位置，生成表格向量A′＝[a′₁,a'₂,…,a'_n2]以及第二位置向量 L′＝[l′₁,l'₂,…,l'_n2]，其中，a′_i为第i个表格，l′_i为第i个表格在HTML第一过程文档H′中的位置，n₂为表格个数。

初始化：HTML第二过程文档H″←HTML第一过程文档H′

For i＝1to n₂{

将第i个表格a′_i转换为对应的指纹编码e_i，并生成表格a′_i与指纹编码e_i的映射关系；

通过位置l′_i和映射关系，将HTML第一过程文档H′中的a′_i替换为指纹编码e_i，得到HTML第二过程文档H″

}

本实施例中，使用的指纹编码可以为任意一种形式的消息摘要(message digest，MD) 编码，优先为MD5编码。

本实施例中，通过对将HTML初始文档中出现的表格(“<table>…</table>”所限定的内容)整块转换为相应的指纹编码，在HTML解析时，再将指纹编码还原为对应的表格(“<table>…</table>”所限定的内容)，能够保证表格在长文本网页中能够完整地展现出来。为便于后续将指纹编码还原为表格时使用，本实施例中，可以将上述生成的表格与指纹编码的映射关系存在特定的关系向量中，如关系向量R中。

本实施例中，通过识别出各原始数据文件对应的HTML初始文档中的所有图片、视频、音频和表格，并采用对应的规则对各HTML初始文档中的图片、视频、音频和表格分别进行处理，得到各原始数据文件对应的HTML标准文档。

S103、对HTML标准文档进行分块处理和类型推断，得到HTML标准文档对应的内容块序列和类型序列。

本步骤中，对各原始数据文件对应的HTML标准文档先进行分块处理，得到各HTML标准文档对应的内容块序列，再通过内容块分类模型对内容块序列中的内容块进行类型推断，得到各HTML标准文档的内容块序列对应的类型序列。

本实施例中，分块处理的目的是，将原始数据文件中不同的元素均划分为独立的内容块，如将表格、表格标题、图片、图片标题、视频、视频标题、音频、音频标题以及不同级别的正文标题、不同的正文段落进行划分，形成不同的内容块。类型推断的目的是，由于在进行分块处理后得到的各内容块的类型是未知，因此，需要通过类型推断以确定各内容块的类型。

可选地，本实施例中，内容块的类型可以包括表格、表格标题、图片、图片标题、视频、视频标题、音频、音频标题、一级标题、二级标题、三级标题、正文。根据不同的实际情况和排版的需要，内容块的类型也可以有不同，例如若实际场景中长文本网页中可能出现图片、表格和文字，则的内容块的类型也可以划分为：表格、表格标题、图片、图片标题、一级标题、二级标题、三级标题、正文几种。

内容块序列，是对划分得到的内容块进行排序后得到的序列。

类型序列，是与内容块序列中内容块的顺序对应的各内容块的类型构成的序列。

可以理解的是，本实施例中，同一HTML标准文档的内容块序列与类型序列中元素的数量相等，且内容块序列中的内容块与类型序列中的类型是一一对应的关系，例如，某HTML 标准文档的内容块序列表示为X＝{x₁,x₂,…,x_n}，类型序列表示为Y＝{y₁,y₂,…,y_n}，y_n与x_n对应，即x_n表示第n个内容块，y_n表示第n个内容块的类型。

下面将分别对内容块序列和类型序列的生成过程加以说明。

(1)内容块序列的生成

根据HTML标准文档中的HTML标签，对HTML标准文档进行分块，得到HTML标准文档包括的至少一个内容块，按照至少一个内容块在HTML标准文档中出现的先后顺序，对至少一个内容块进行排序，得到HTML标准文档对应的内容块序列。

其中，HTML标签是HTML定义的不同内容的标识标签，对于不同的网站，HTML标签的写法可能不同，如“<p>…</p>”为块级标签，“<table>…</table>”为表格标签等。

可以理解的是，在生成文本块时，可以去除掉HTML标准文档中的HTML代码，而仅保留文本内容。

可选地，为便于后续对文本块进行数据分析，在得到HTML标准文档包括的至少一个内容块之后，需要将HTML标准文档中的指纹编码还原成表格。具体地，可依次判断内容块序列中的每一个内容块是否为指纹编码，若指纹编码，则根据事先生成的表格与指纹编码的映射关系，将其替换为相应的表格(“<table>…</table>”所限定的内容)。具体实现逻辑如下：

将内容块序列中的指纹编码还原为表格之后，再对各内容块进行排序，得到内容块序列。

(2)类型序列的生成

本实施例中，考虑到表格、图片、视频、音频等，可以通过规则直接判断出来，而对于文字内容的类型判断，如具体是标题还是正文、如果是标题是几级标题(一级标题/二级标题 /……)、如果是标题是什么类型的标题(表格标题/图片标题/……)，通过设计规则的方式则难以实现。为此，本实施例中，预先基于BiLSTM-CRF算法构建并训练得到内容块分类模型，该内容块分类模型不仅能够识别出表格、图片、视频、音频等内容的类型，还能对文字内容的类型加以区分和判断。

示例性地，图2为本申请实施例一提供的内容块分类模型的结构示意图，如图2所示，本实施例中的内容块分类模型包括Embedding嵌入层、BiLSTM网络层、CRF层。其中，Embedding嵌入层，用于根据输入的内容块序列提取相关的特征信息，进而通过分布式表达进一步映射为对应的低维嵌入向量表示。BiLSTM网络层，用于基于Embedding嵌入层输出的特征向量，学习文本块序列的时序特征和上下文信息。CRF层，用于预测出最终的类型序列。

下面将对各层的实现原理进行具体介绍。

a、Embedding嵌入层

Embedding嵌入层的作用是从输入的内容块序列的各内容块中分别提取出相关的特征信息，然后进一步映射到词向量空间，进而转化为深度学习模型能够识别并进行计算的形式，得到特征向量矩阵。

可选地，本实施例中，Embedding嵌入层从内容块中提取出的特征信息包括：

1)核心关键词。对于文字内容考虑到有些词出现在标题中的可能性远大于出现在正文中，例如摘要、概述、背景等，因此，在Embedding嵌入层将核心关键词作为一项特征信息。

本实施例中，可以在模型训练阶段，确定出一些对于区分文字内容作用不大或容易形成干扰的停用词，并确定出通过词频-逆文本频率(term frequency–inversedocument frequency， TF-IDF)算法确定核心关键词的过程中需要用到的TF-IDF阈值。

相应地，在Embedding嵌入层中，可以先通过对各内容块进行分词，并通过过滤去掉各内容块中的停用词，得到各内容块的关键词；然后，通过计算各关键词的TF-IDF值来评估每个关键词在内容块中的重要程度，并根据TF-IDF阈值提取出各个内容块的少数几个核心关键词。

示例性地，对于某个内容块x_i来说，该内容块中第j个关键词w_j的TF-IDF_ij值计算公式如下：

TF-IDF_ij＝TF_ij×IDF_j (1)

其中，TF_ij表示关键词w_j在内容块x_i中出现的频率，IDF_j指逆向文本频率。

TF_ij可通过如下公式进行计算：

TF_ij＝P₀/P_总 (2)

其中，P₀为关键词w_j在内容块x_i中出现的次数，P_总内容块x_i中的关键词个数。

IDF_j可通过如下公式计算：

其中，n为内容块序列中内容块的个数，n₀为内容块序列中包含关键词w_j的内容块个数。

由上述公式(1)-(3)可知，在内容块序列中含关键词w_j的内容块个数越少，IDF_j值越大，相应地，TF-IDF_ij的值越大，说明关键词w_j的类别区分能力越好，关键词w_j在内容块 x_i中的重要性越高。

对于一个内容块序列，在采用上述公式(1)-(3)计算出各内容块中每个关键词的TF-IDF 值之后，判断每个关键词的TF-IDF值是否大于TF-IDF阈值，将各内容块中TF-IDF值大于 TF-IDF阈值的关键词确定为核心关键词。

可以理解的是，若某内容块中所有关键词的TF-IDF值均不大于TF-IDF阈值，则说明该内容块中不存在核心关键词，如对于表格、图片、视频等内容块，就不存在核心关键词。

2)核心关键词在内容块中首次出现的位置。

对于存在核心关键词的内容块，Embedding嵌入层进一步提取各核心关键词在对应内容块中首次出现的位置，如第几个字符，以表示出核心关键词在内容块中出现的先后次序。通过预先采用具有不同关键词及关键词标注的样本数据，对模型中的Embedding嵌入层进行训练，就可以使Embedding嵌入层识别特定关键词在内容块中出现位置的能力。

3)内容块的长度，即字符个数。

一般来说，标题的字符长度要小于正文的字符长度。因此，Embedding嵌入层将内容块的长度也作为一项特征信息。

4)内容块头部出现的标号。

由于标题，如一级标题、二级标题开头一般会出现标号，例如“一、”、“1、”、“(一)”、“(1)”、等等。因此，Embedding嵌入层将内容块头部出现的标号也作为一项特征信息，通过采用头部具有这些标号样本数据对模型的Embedding嵌入层进行训练，就可以使Embedding嵌入层具有对内容块头部出现的标号进行识别的能力。

5)内容块的类型。

由于表格、图片、视频、音频等类型的内容，可以直接通过规则直接判断出来。本实施例中，可以事先设置判断规则，并采用具有表格、图片、视频、音频和相关标记的数据，对模型的Embedding嵌入层进行训练，使Embedding嵌入层具有对这些内容块进行类别识别的能力。这样当将类型未知的内容块序列输入到模型时，就可以先由Embedding嵌入层初步推断出表格、图片、视频、音频、动画等内容块的类型。本实施例中，通过以内容块的类型作为特征信息，可以提高整个模型对进行内容块类型推断的准备性。

本实施例中，可以分别提取各内容块的上述5种特征信息，并进行记录，可以理解的是，对于内容块存在的特征信息，可以记录为实际的内容，如列举出对应的核心关键词、各核心关键词在该内容块中首次出现的位置、内容块的长度等，对于内容块中不存在的特征信息，则可采用特定的符号，如0进行标记，如对图片内容块，其对应的核心关键词、核心关键词在该内容块中首次出现的位置等均可标记为0。

表1

	内容块1	内容块2	……	内容块n
					核心关键词1
核心关键词1首次出现的位置
					核心关键词2
核心关键词2首次出现的位置
					……
核心关键词n<sub>k</sub>
					核心关键词n<sub>k</sub>中首次出现的位置
内容块的长度
					内容块头部出现的标号
内容块的类型

为便于后续数据处理，进一步，在Embedding嵌入层可以将得到特征信息映射到一个低密度稀疏的特征向量空间，得到特征向量矩阵X′。示例性地，在对于某个具有n个内容块的内容块序列，在确定出各内容块的核心关键词之后，提取出n个内容块的所有的核心关键词，并进行去重，假设最终一共得到n_k个核心关键词，则得的到特征向量矩阵X′的大小为 (2n_k+3)×n。

示例性地，特征向量空间的结构可以表1进行简单表示，通过将输入内容块序列的各内容块的特征值映射到表1所示的特征向量空间，就可以得到该内容块序列对应的特征向量矩阵X′。

b、BiLSTM网络层

本实施例中采用的BiLSTM网络层由前向LSTM和后向LSTM组成，前向LSTM用于学习前向的序列信息，后向LSTM用于学习后向的序列信息，通过二者结合考虑内容块前后的信息，达到充分结合上下文的特征的目的。

本实施例中，BiLSTM网络层以Embedding嵌入层得到的特征向量矩阵X′为输入。由表 1可知，对于每个文本块由其特征值都可以构成一个特征向量，如可以表示为[核心关键词1，核心关键词1首次出现的位置，……，核心关键词n_k，核心关键词n_k中首次出现的位置，内容块的长度，内容块头部出现的标号，内容块的类型]。

假设每个内容块可能的标注类型(即候选类型)有m种，例如，若候选类型包括表格、表格标题、图片、图片标题、一级标题、二级标题、正文，则m＝7。本实施例中，可以根据这些候选类型对模型的BiLSTM网络层进行训练，使BiLSTM网络层能够基于输入的特征向量矩阵X′，计算各文本块被标注为候选类型的状态概率的能力。

本实施例中，对于每个内容块，通过将正序的特征向量输入到前向LSTM，计算该内容块被标注为各候选类型的状态概率，得到输出序列[h_L1,h_L2,…,h_Lm]，通过将倒序的特征向量输入到后向LSTM，计算该内容块被标注为各候选类型的状态概率，得到输出序列[h_R1,h_R2,…,h_Rm]，再通过将[h_L1,h_L2,…,h_Lm]和[h_R1,h_R2,…,h_Rm]进行组合，得到 [(h_L1，h_R1)，(h_L2，h_R2)，…(h_Lm，h_Rm)]，记为[h₁，h₂，…，h_m]，即为最终确定的该内容块被标注为各候选类型的状态概率。

通过采用上述方式，分别计算内容块序列中各内容块被标注为候选类型的状态概率，并生成一个n×m行的状态概率矩阵，状态概率矩阵中的元素为各内容块被标注为候选类型的状态概率。示例性地，状态概率矩阵的空间结构可以如表2所示，其中，h_nm表示第n内容块被标注为第m种候选类型的状态概率。

表2

	候选类型1	候选类型2	……	候选类型m
					内容块1	h<sub>11</sub>	h<sub>12</sub>	……	h<sub>1m</sub>
内容块2	h<sub>21</sub>	h<sub>22</sub>	……	h<sub>2m</sub>
					……	……	……	……	……
内容块n	h<sub>n1</sub>	h<sub>n2</sub>	……	h<sub>nm</sub>

本实施例中，前向LSTM和后向LSTM是通过门结构来实现输出序列计算，其具体实现方式与现有技术中LSTM的实现类似，此处不做过多介绍。

c、CRF层

对于每个内容块序列，假设其包含有n个内容块，每个内容块又有m个可能的类型取值 (由m种候选类型决定)，因此，该内容块序列总共有

种可能类型序列。为减少计算量和降低计算复杂度，本实施例中，在模型的CRF层，采用CRF算法与Viterbi算法相结合的方式，找出最优的类型序列。

对于每一个内容块x_i，CRF算法通过两种特征函数计算出x_i的类型为y_i的条件概率，分别为转移函数t_k1(y_i-1，y_i，i)和状态函数s_k2(y_i，X，i)。其中，转移函数t_k1(y_i-1,y_i,i)依赖于当前位置和前一个位置，表示上一个内容块x_i-1对应的类型y_i-1转移到当前内容块x_i对应的类型 y_i的概率，即转移概率；状态函数s_k2(y_i，X，i)仅依赖于当前位置，表示当前内容块x_i的类型为y_i的概率，即状态概率(对应BiLSTM网络层计算的状态概率)。

CRF计算条件概率参数化形式如下：

其中，P(y|x)表示x的类型为y的条件概率，i为内容块的编号(i＝1，2，…，n)，k为特征函数的编号(k＝1，2，…，K，K为特征函数的数量)，f_k(y_i-1,y_i,X,i)为特征函数，是转移函数t_k1(y_i-1,y_i,i)和状态函数s_k2(y_i,X,i)的统一符号表示，ω_k为特征函数的权重，是转移函数 t_k1(y_i-1,y_i,i)的权重和状态函数s_k2(y_i,X,i)的权重统一符号表示，Z(x)是规范化因子，可以用公式表示为：

本实施例中，可以事先在模型训练阶段训练出进行条件概率计算所需的转移函数t_k1(y_i-1,y_i,i)和权重ω_k，作为CRF层的已知参数，相应地，本实施例中的CRF层，通过BiLSTM网络层计算的状态概率矩阵作为输入，并基于上述公式(3)和(4)就可以计算出内容块序列中的各内容块被标记为候选类型的条件概率，得到每个内容块被标注为候选类型的条件概率。示例性地，表3示出了各内容块被标注为候选类型对应的条件概率，其中，P_nm表示第n内容块被标注为第m种候选类型的条件概率。

表3

	候选类型1	候选类型2	……	候选类型m
					内容块1	P<sub>11</sub>	P<sub>12</sub>	……	P<sub>1m</sub>
内容块2	P<sub>21</sub>	P<sub>22</sub>	……	P<sub>2m</sub>
					……	……	……	……	……
内容块n	P<sub>n1</sub>	P<sub>n2</sub>	……	P<sub>nm</sub>

进一步地，本实施例中，利用Viterbi算法求解每个内容块的条件概率的最优值，得到每个内容块的最优标注类型，进而找出最优的类型序列Y^*＝[y₁ ^*,y₂ ^*,y₃ ^*,…,y_n ^*]，即求解条件概率 P(y|x)的最优值，

Viterbi算法基于这样的假定：最优路径的子路径也一定是最优的。其算法思路是，从根节点出发，每走一步，比较根节点到上层节点的最短路径+上层节点到当前节点的最短距离，递归计算到达该点的最短路径，一直走到终点。

记δ_i(l)为内容块序列中第i个内容块x_i的类型为l(可能取值1,2,…,m)的条件概率的最大值。根据Viterbi算法，在第i+1个内容块x_i+1标注为l的条件概率的最大值δ_i+1(l)表示为：

记φ_i+1(l)为使δ_i+1(l)达到最大值的第i个字符的标注取值，则φ_i+1(l)表示为：

示例性地，对于输入为X＝x₁，x₂，…，x_n的内容块序列，CRF层内部基于CRF算法和Viterbi算法的类型序列预测流程如下：

1)初始化：

f₁(l)＝start,l＝1,2,L,m (9)

2)对于i＝1，2，…，n-1，通过公式(6)和(7)依次递推计算；

3)i＝n，终止，计算得到最优的

4)回溯，依次计算得到最优的

i＝n-1，n-2，…，1：

5)得到目标类型序列Y^*＝[y₁ ^*,y₂ ^*,y₃ ^*,…,y_n ^*]。

上述类型序列Y^*＝[y₁ ^*,y₂ ^*,y₃ ^*,…,y_n ^*]，即为内容块分类模型最终输出的类型序列。

需要说明的是，当原始数据文件有多个时，本实施例中，可以分别对各原始数据文件对应的HTML标准文档进行分块处理，得到各原始数据文件对应的内容块序列，再分别将各内容块序列输入到内容块分类模型进行类型推断，得到各内容块序列对应的类型序列，也即各原始数据文件对应的类型序列。

为便于后续排版使用，在得到各原始数据文件的内容块序列和类型序列后，本实施例中，可以原始数据文件为单位，将内容块、内容块的类型及在原始数据文件中出现的顺序进行对应存储，例如，将每一个内容块、类型及其原始数据文件中出现的顺序一行数据，写入后台表，后台表的样式可以如表4所示，其中，序号表示该内容块在原始数据文件中出现的顺序。

表4

序号	内容块	类型
			1	x<sub>1</sub>	y<sub>1</sub>
2	x<sub>2</sub>	y<sub>2</sub>
			3	x<sub>3</sub>	y<sub>3</sub>
……	……	……
			n	x<sub>n</sub>	y<sub>n</sub>

S104、根据类型序列，按照预设的排版样式对内容块序列中的内容块进行排版，得到原始数据文件对应的长文本网页。

本实施例中，在类型序列确定以后，各内容块的类型也就确定了，相应地，根据用户要求，按照各种类型对应的预设排版样式，对内容块序列中的内容块进行排版，如根据各内容块在内容块序列中的顺序和类型序列中对应的类型，采用预设的排版样式，对各内容块按照从上到下，从左到右的顺序进行排版，即依据内容块出现的顺序，在前端页面上自上而下或自左往右依次显示内容块，同时，根据内容块的类型，按照指定的样式来显示，得到对应的长文本网页。在长文本网页中不同类型的内容，显示样式不同。

示例性地，以内容块的类型包括表格、表格标题、图片、图片标题、视频、视频标题、音频、音频标题、一级标题、二级标题、正文为例，本实施例中，可通过做法对不同类型的内容块进行排版：

需要说明的是，当原始数据文件有多个时，本实施例中，可以根据用户对不同原始数据文件在长文本网页中出现的顺序要求，采用S104对分别各原始数据文件的内容块分别进行排版，得到包含多个原始数据文件内容的长文本网页。

本实施例中，通过获取原始数据文件，原始数据文件为PDF文件、Word文件、txt文件或Web网页文件，对原始数据文件进行预处理，得到原始数据文件的超文本标记语言HTML 标准文档，对HTML标准文档进行分块处理和类型推断，得到HTML标准文档对应的内容块序列和类型序列，根据类型序列，按照预设的排版样式对内容块序列中的内容块进行排版，得到长文本网页，能够基于多源异构原始数据文件生成统一排版的长文本网页，解决了现有技术在生成长文本网页过程存在的诸多问题，例如图片链接失效而显示不出、表格未能完整展现、发生错位、各级标题未能以有别于正文内容的形式显示等，提升了用户的使用体验。

实施例二

图3为本申请实施例二提供的长文本网页的生成装置的结构示意图，如图3所示，本实施例中长文本网页的生成装置10包括：

获取模块11、处理模块12和展示模块13。

其中，获取模块11，用于获取原始数据文件，所述原始数据文件为PDF文件、Word文件、txt文件或Web网页文件；

处理模块12，用于对所述原始数据文件进行预处理，得到所述原始数据文件的超文本标记语言HTML标准文档；对所述HTML标准文档进行分块处理和类型推断，得到所述HTML 标准文档对应的内容块序列和类型序列；

展示模块13，用于根据所述类型序列，按照预设的排版样式对所述内容块序列中的内容块进行排版，得到长文本网页。

可选地，处理模块12具体用于：

可选地，若所述目标元素为图片、视频或音频，处理模块12具体用于：

下载所述目标元素，并将所述目标元素保存到本地路径；

根据所述本地路径，生成新的URL地址；

可选地，若所述目标元素为表格，处理模块12具体用于：

可选地，处理模块12具体用于：

可选地，处理模块12还用于：

确定各内容块是否为指纹编码；

可选地，所述内容块分类模型包括嵌入层、网络层和条件随机场CRF层，处理模块12 具体用于：

本实施例所提供的长文本网页的生成装置可执行上述方法实施例所提供的长文本网页的生成方法，具备执行方法相应的功能模块和有益效果。本实施例的实现原理和技术效果与上述方法实施例类似，此处不再一一赘述。

实施例三

图4为本申请实施例三提供的一种电子设备的结构示意图，如图4所示，该电子设备20 包括存储器21、处理器22及存储在存储器上并可在处理器上运行的计算机程序；电子设备 20处理器22的数量可以是一个或多个，图4中以一个处理器22为例；电子设备20中的处理器22、存储器21可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器21作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的获取模块11、处理模块12和展示模块13对应的程序指令/模块。处理器22通过运行存储在存储器21中的软件程序、指令以及模块，从而执行设备/终端 /服务器的各种功能应用以及数据处理，即实现上述的长文本网页的生成方法。

存储器21可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器21可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器21可进一步包括相对于处理器22远程设置的存储器，这些远程存储器可以通过网格连接至设备/终端/服务器。上述网格的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本申请实施例四还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由计算机处理器执行时用于执行一种长文本网页的生成方法，该方法包括：

当然，本申请实施例所提供的一种包计算机可读存储介质，其计算机程序不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的长文本网页的生成方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory， RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述长文本网页的生成装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种长文本网页的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始数据文件进行预处理，得到所述原始数据文件的超文本标记语言HTML标准文档，包括：

对所述原始数据文件进行转化处理，得到所述原始数据文件的HTML初始文档，所述HTML初始文档中包括所述原始数据文件的文本内容和对应的HTML代码；

3.根据权利要求2所述的方法，其特征在于，若所述目标元素为图片、视频或音频，所述按照预设规则对所述目标元素进行处理，包括：

下载所述目标元素，并将所述目标元素保存到本地路径；

根据所述本地路径，生成新的URL地址；

4.根据权利要求2所述的方法，其特征在于，若所述目标元素为表格，所述按照预设规则对所述目标元素进行处理，包括：

根据所述第二位置和所述目标元素与指纹编码的映射关系，采用指纹编码对所述HTML初始文档中的目标元素进行替换。

5.根据权利要求1所述的方法，其特征在于，所述对所述HTML标准文档进行分块处理和类型推断，得到所述HTML标准文档对应的内容块序列和类型序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述至少一个内容块在所述HTML标准文档中出现的顺序，对所述至少一个内容块进行排序，得到所述HTML标准文档对应的内容块序列之前，所述方法还包括：

确定各内容块是否为指纹编码；

7.根据权利要求5所述的方法，其特征在于，所述内容块分类模型包括嵌入层、网络层和条件随机场CRF层，所述采用内容块分类模型对所述内容块序列中的内容块进行类型推断，得到所述内容块序列对应的类型序列，包括：

8.根据权利要求7所述的方法，其特征在于，所述特征信息包括：核心关键词、核心关键词在内容块中首次出现的位置、内容块的长度、内容块头部出现的标号和内容块的类型中的至少一项。

9.根据权利要求7所述的方法，其特征在于，所述网络层由前向长短期记忆LSTM和后向长短期记忆LSTM构成，所述前向LSTM以各内容块正序的特征向量为输入，所述后向LSTM以各内容块倒序的特征向量为输入。

10.根据权利要求7所述的方法，其特征在于，所述CRF算法用于根据所述状态概率矩阵，计算各内容块被标注为候选类型的条件概率；所述Viterbi算法用于根据所述条件概率，从候选类型中寻找各内容块的最优类型，并根据各内容块的最优类型，生成所述类型序列。

11.一种长文本网页的生成装置，其特征在于，包括：

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的长文本网页的生成方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的长文本网页的生成方法。