CN113515928B - 电子文本生成方法、装置、设备及介质 - Google Patents

电子文本生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN113515928B
CN113515928B CN202110791957.2A CN202110791957A CN113515928B CN 113515928 B CN113515928 B CN 113515928B CN 202110791957 A CN202110791957 A CN 202110791957A CN 113515928 B CN113515928 B CN 113515928B
Authority
CN
China
Prior art keywords
document
document segment
content
attribute information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110791957.2A
Other languages
English (en)
Other versions
CN113515928A (zh
Inventor
郑佳锋
张玮维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202110791957.2A priority Critical patent/CN113515928B/zh
Publication of CN113515928A publication Critical patent/CN113515928A/zh
Priority to PCT/CN2022/103911 priority patent/WO2023284588A1/zh
Application granted granted Critical
Publication of CN113515928B publication Critical patent/CN113515928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

本公开实施例涉及一种电子文本生成方法、装置、设备及介质,涉及数据处理技术领域,其中该方法包括:解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置;在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。由此,根据出版文档的原始显示属性信息转换成电子文本,且对出版文档的各种类型的文档段无差别转换,不但实现了在电子文本中的图文混排效果,而且保留了出版文档的原始显示方式。

Description

电子文本生成方法、装置、设备及介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种电子文本生成方法、装置、设备及介质。
背景技术
随着计算机技术的发展,用户的电子阅读需求也愈发普遍,为了满足用户的电子阅读需求,各种阅读器应运而生。
相关技术中,可以将出版文档等网页内容中的文字提取出来,根据阅读器的默认字号等,对提取出来的文字进行排版显示。
然而,上述提取文字展示的阅读器排版显示方式,仅仅针对出版文档中的文字内容进行显示和排版,且排版文字内容时,根据阅读器的默认字号等显示对应的文字内容,一方面,没有对出版文档中的图片等非文字内容进行排版,另一方面,显示文字内容是根据阅读器的默认字号等进行显示的,没有呈现文字内容在出版文档中的显示属性。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种电子文本的生成方法、装置、设备及介质,根据出版文档的原始显示属性信息转换成电子文本,且对出版文档的各种类型的文档段无差别转换,不但实现了在电子文本中的图文混排效果,而且保留了出版文档的原始显示方式。
本公开实施例提供了一种电子文本生成方法,所述方法包括:解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;根据预设的电子阅读器的排版属性信息和所述显示属性信息,确定每个所述文档段内容的排版位置;在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
本公开实施例还提供了一种电子文本生成装置,所述装置包括:第一确定模块,用于解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;第二确定模块,用于根据预设的电子阅读器的排版属性信息和所述显示属性信息,确定每个所述文档段内容的排版位置;生成模块,用于在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的电子文本生成方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的电子文本生成方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种,进而,根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置,在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。由此,根据出版文档的原始显示属性信息转换成电子文本,且对出版文档的各种类型的文档段无差别转换,不但实现了在电子文本中的图文混排效果,而且保留了出版文档的原始显示方式。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为现有技术的一种出版文档的分页显示场景示意图;
图2为本公开实施例提供的一种出版文档分页显示的场景示意图;
图3为本公开实施例提供的一种电子文本的生成方法的流程示意图;
图4为本公开实施例所提供的一种文档段内容提取结果示意图;
图5为本公开实施例提供的另一种电子文本的生成方法的流程示意图;
图6为本公开实施例提供的另一种出版文档分页显示的场景示意图;
图7为本公开实施例提供的另一种出版文档分页显示的场景示意图;
图8为本公开实施例提供的另一种电子文本的生成方法的流程示意图;
图9为本公开实施例提供的另一种出版文档分页显示的场景示意图;
图10为本公开实施例提供的另一种电子文本的生成方法的流程示意图;
图11(a)为本公开实施例提供的另一种出版文档分页显示的场景示意图;
图11(b)本公开实施例提供的另一种出版文档分页显示的场景示意图;
图12为本公开实施例提供的另一种电子文本的生成方法的流程示意图;
图13为本公开实施例提供的一种目录段落的层级结构的示意图;
图14为本公开实施例提供的一种出版文档的分页装置的结构示意图;
图15为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了对本领域的人员更加清楚的了解本公开的实施例,首先介绍本公开涉及的几个概念的含义:
出版文档:可为可供线上预览的出版物对应的网页内容,包括图片、文字等,比如,某个线上小说等,也可以为纸质出版物的图片等。
电子阅读器:用于排版显示出版文档的应用,电子阅读器的排版后的文档根据其所在的终端设备的显示屏幕的尺寸进行分页显示,上述终端设备,包括但不限于手机、电脑、平板等带有显示屏幕的任意设备。
相关技术中,正如上述背景技术中提到的,电子阅读器转换出版文档时,仅仅对出版文档中的文字提取,电子阅读器仅仅显示出版文档中的文字,无法还原出版文档的其他信息,导致影响阅读体验。
举例而言,当出版文档中包括如图1左图所示的“我是最棒的”加粗、黄色(图中以灰度值标识颜色)、宋体14磅的文字以及一张点赞图片时,现有技术中,如图1右图所示,仅仅在电子阅读器上显示对应电子阅读器默认的字号样式的“我是最棒的”,文字样式为黑色,宋体,8磅。
显然现有技术中,不但无法还原出版文档中文字的显示方式,而且无法显示出版文档中的点赞图片等非文字内容。
为了解决上述问题,本公开实施例提供了一种电子文本生成方法,在该方法中,实现了在电子阅读器的上可以排版绘制出与出版文档显示形式和内容均一致的排版效果。
举例而言,当出版文档中包括如图2左图所示的“我是最棒的”加粗、黄色(图中以灰度值标识颜色)、宋体14磅的文字以及一张点赞图片时,在本公开实施例中的电子阅读器的排版后的电子文本上,如图2右图所示,排版显示出“我是最棒的”加粗、黄色(图中以灰度值标识颜色)、宋体14磅的文字以及一张点赞图片。
下面结合具体的实施例对该电子文本生成方法进行介绍。
图3为本公开实施例提供的一种电子文本生成方法的流程示意图,该方法可以由电子文本生成装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图3所示,该方法包括:
步骤301,解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个文档段内容的显示属性信息。
其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种。
在本公开的实施例中,为了识别正文文档段类型的文档段内容,可以根据出版文档的段落顺序识别每个文档段,并确定每个文档段的文档段类型,根据文档段类型确定正文文档段并获取对应的显示属性信息。
其中,在本实施例中,可以根据文档段对应的文档代码标识或者文档位置等确定正文文档段类型,比如,当出版文档是电子文档时,确定文档段内容代码的类型属性值,若是类型属性值属于预设的正文文档段类型的属性值,则确定对应的文档段内容为正文文档段等。
在本实施例中,也可以根据文档段对应的文档代码标识或者文档位置等,确定文档段类型是否为扉页文档段类型,比如,当确定正文文档段后,确定出版文档中第一个正文文档段之前相邻的文档段为扉页文档段等。其中,正文文档段的文档段内容可以包括文字文档段,也可以包括图片文档段等,显示属性信息包括尺寸显示属性信息和样式显示属性信息中的至少一种,当文档段内容为文字内容时,对应的尺寸显示属性信息为与字号相关的字体、字体是否加粗、字号、字体是否倾斜等,对应的样式显示属性信息为颜色、动画效果等。当文档段内容为图片内容时,对应的尺寸显示属性信息为与图片大小相关的图片长度、图片宽度等,对应的样式显示属性信息为图片的颜色、图片的动画效果等。
需要说明的是,在不同的应用场景中,确定出版文档每个文档段内容,以及对应的显示属性信息的方式不同,示例如下:
示例一:
在本示例中,出版文档为网页内容。
在本实施例中,识别与预设文档段类型对应的出版文档中的文档段开始标记和文档段结束标记,提取每个文档段开始标记到下一个文档段结束标记之间的内容为每个文档段内容。
其中,上述文档段开始标记和文档段结束标记可以为根据网页代码提取出的每段内容的开始代码和结束代码。
举例而言,当出版文档的HTML代码如下时,则文档段开始标记和文档段结束标记可以为“h1”、“/h1”,“P”、“/P”等。
Figure BDA0003161397400000071
进一步的,根据HTML文件对应的CSS文件,可以确定对应的显示属性信息,比如,上述HTML对应的CSS文件为:
CSS
h1
{
color:#EE920B;
}
p
{
color:#FE4D40;
}
.title{
font-weight:bold;
}
基于对应的CSS文件,
则在本示例中,获取到的文档段内容和显示属性信息组成的富文本如图4所示,其中,对文档段内容“第五章:喋血广济”使用了css里面的h1和title属性,所以对应的显示属性信息就是对字符进行了加粗和设置#EE920B的颜色,对文档段内容“1938年5月,A攻陷了B”使用了css里面的color属性,所以对应的显示属性信息就是对字符设置了“color:#FE4D40”的颜色。
示例二:
在本示例中,出版文档为图片形式。
在本示例中,对出版文档中预设文档段类型对应的图片二值化处理,获取出版文档的图片对应的多个连通域,确定每个连通域内对应的内容为一个文档段内容,进而,解析每个连通域内内容的图像特征,根据图像特征确定每个文档段内容的显示属性信息,比如,根据颜色图像特征确定颜色属性信息等。
步骤302,根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置。
步骤303,在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。
在本实施例中,预设的电子阅读器的排版属性信息是电子阅读器为了本身的阅读器显示风格所设置的默认样式属性信息和默认尺寸显示属性信息等,该默认样式属性信息包括但不限于字体大小、默认尺寸显示属性信息包括每一行的显示的尺寸以及每一列的显示的尺寸等。
在本实施例中,为了保留文档段内容在出版文档中的显示样式等,结合排本属性信息和显示属性信息确定每个文档段内容的排版位置,进而,在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。
应当理解的是,在根据显示属性信息和排版属性信息,确定每个所述文档段内容的排版位置时,任意可以实现结合显示属性信息和排版属性信息排版显示的方式均可,为了使得本领域的技术人员更加清楚的了解本方案,下面结合具体的示例进行说明:
在本公开的一个实施例中,如图5所示,根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置,包括:
步骤501,根据显示属性信息确定每个文档段内容中每个内容单元的第一显示尺寸。
在本实施例中,当内容单元为文本内容时,获取文本内容的字号样式和字体样式,根据字号样式和字体样式确定文本内容的第一显示尺寸,其中字体样式包括但不限于字体是否倾斜、字体类型、字体是否加粗等,在本实施例中,可以预先构建深度学习模型,将字号样式和字体样式输入对应的深度学习模型,获取对应的第一显示尺寸,当内容单元为图片内容时,获取图片内容的图片尺寸,根据图片尺寸确定图片内容的第一显示尺寸,在本实施例中,该图片尺寸可以通过对出版文档中图片的尺寸代码获取等,可以将图片尺寸作为第一显示尺寸。
步骤502,根据排版属性信息确定电子阅读器中每个显示单元的第二显示尺寸。
其中,每个显示单元可以为电子阅读器进行显示时候的最小显示单元,比如,一行或者一列等,若是电子阅读器是按照棋盘格进行单元格显示的,则对应的显示单元为一个单元格的尺寸。
从而,每个显示单元的第二显示尺寸可以为电子阅读器的行宽、列高等。
步骤503,根据第二显示尺寸和第一显示尺寸对每个内容单元排版,以确定每个文档段内容的排版位置。
在本实施例中,根据第二显示尺寸和第一显示尺寸对每个内容单元排版,以确定每个文档段内容的排版位置,比如,内容显示单元A所需要的第一显示尺寸为行宽为2,列高为5,而第二显示尺寸为电子阅读器的行宽为10,列高为1,则确定排版位置为在下一个排版初始位置开始,取行宽2,且占据5列的位置为排版位置。在排版位置根据显示属性信息进行排版绘制处理,生成了对应的保留了出版文档中显示属性的电子文本。
举例而言,若相应的文档段内容为“我是最棒的”,显示属性信息如图6所示,则可以先根据显示属性信息,对“我是最棒的”处理为对应的富文本内容,进而,按照目标阅读器的排版属性信息排版,生成对应的电子文本。
在本公开的另一个实施例中,不考虑相应文档段内容的显示属性信息,首先根据排版属性信息对对应的文档段内容进行排版,生成排版内容。
举例而言,若相应的文档段内容为“我是最棒的”,显示属性信息如图7,则可以先根据排版属性信息,对“我是最棒的”按照电子阅读器的默认显示属性信息排版,生成对应的排版内容。
在本实施例中,在对相应文档段内容排版生成排版内容后,每文档段内容中的每个内容单元基本确定了初始位置,进而,再根据显示属性信息对排版内容按照显示属性信息进行排版,得到最后的排版绘制位置即为最后的排版位置。
继续以上述示例为例,继续参照图7,在得到排版内容后,根据对应的显示属性信息对排版内容确定排版位置,得到最后的排版位置,还原了出版文档中对“我是最棒的”的显示效果。
当然,在实际执行过程中,为了避免电子阅读器上无法完全呈现出版文档中文档段内容的显示属性信息,还可以根据不同的应用场景,对显示属性信息进行不同的折中处理,示例如下:
示例一:
在本示例中,预先设置电子阅读器可显示的显示属性信息的范围,比如,显示属性的种类范围,比如,可显示的字号范围、图片尺寸范围等。
在根据显示属性信息和排版属性信息,对相应的文档段内容进行排版绘制处理之前,判断出版文档的文档段内容对应的显示属性信息是否超出预设的显示属性信息的范围,若是超出,则将超出的显示属性信息替换为电子阅读器的对应默认的显示属性信息。
示例二:
在本示例中,预先设置电子阅读器可显示的显示属性信息的最大值,比如,可显示的字号最大值、图片尺寸最大值等。
在根据显示属性信息和排版属性信息,对相应的文档段内容进行排版绘制处理之前,判断显示属性信息是否超出显示属性信息的最大值,若超出,则计算出版文档的文档段内容超出的显示属性信息,与对应的最大值的比例,根据该比例缩放对应的文档段内容超出的显示属性信息。
在实际执行过程中,还需要说明的是,对于相应的文档段内容缺少的显示属性信息,即在出版文档中没有特别指定的显示属性信息,以电子阅读器的默认显示属性信息为准。
基于上述描述,示例说明了如何对文档段内容进行排版绘制,但是在实际应用中,有些文档段内容可能还对应了其他信息,比如,对于出版文档扉页的文档段内容而言,还可能包括背景图片等,因此,在本公开的一个实施例中,还可以对扉页上的文档段内容渲染背景图片,以进一步还原出版文档上的显示方式。
在本实施例中,在对相应的文档段内容进行排版绘制处理之前,还获取相应的文档段内容的背景图片属性值,根据背景图片属性值,判断相应的文档段内容是否存在对应的背景图片,比如,当出版文档为网页形式时,则对应的背景图片属性值为chapter_type字段对应的值,若是该chapter_type字段对应的值为1,则表明相应的文档段内容存在对应的背景图片。
即获取对应的背景图片,比如,从网页内容的HTML中读取与chapter_type字段对应的背景图片数据等,进而,对相应的文档段内容进行排版绘制处理时,根据相应的文档段内容的显示属性信息和排版属性信息,确定相应的文档段内容的排本位置,进而,在排版位置上渲染背景图片,在背景图片上,根据相应的文档段内容的显示属性信息和排版属性信息,对相应的文档段内容进行排版绘制处理,即首先渲染背景图片,然后再排版绘制对应的文档段内容。
综上,本公开实施例的电子文本生成方法,解析出版文档的属于预设文档段类型的多个文档段内容,并确定所每个文档段内容的显示属性信息,其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种,进而,根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置,最后,在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。由此,根据出版文档的原始显示属性信息转换成电子文本,且对出版文档的各种类型的文档段无差别转换,不但实现了在电子文本中的图文混排效果,而且保留了出版文档的原始显示方式。
需要说明的是,电子阅读器电子文本最终显示在终端设备的屏幕上时的效果,还会根据电子阅读器所在的目标显示设备的显示尺寸进行分页,因此,如图8所示,在本公开的一个实施例中,该方法还包括:
步骤801,获取目标显示设备的显示尺寸信息。
其中,显示尺寸信息对应于目标显示设备的显示电子阅读器时的屏幕尺寸。
步骤802,根据显示尺寸信息和排版属性信息对电子文本分页处理,以生成与电子文本对应的多个分页。
可以理解的是,显示尺寸信息决定了当前电子阅读器在目标显示设备上,显示的每个分页的尺寸,比如,每个分页的显示长度、显示高度,显示行数或者显示列数等。
在本实施例中,当排版属性信息对应的排本方式是逐行排列时,则根据显示尺寸信息对应的可显示的高度,从而,确定电子文本每隔多少行作为一个分页,当然,若是此时排版属性信息中的排本行宽和目标显示设备的显示行宽不一致,则可以调整电子文本中的每一行显示尺寸的大小,比如,当目标显示设备的显示行宽相对于电子文本中的每一行的行宽较小,则可以根据目标显示设备的显示行宽和电子文本中的每一行的行宽的比值缩小子文本中的每一行的显示内容等。
根据排版属性信息中的尺寸信息可以将文档段内容布局成至少一个分页,并且根据显示属性信息对文档段内容显示,保留了出版文档中原有的显示方式,继续以图4所示的示例举例,根据显示属性信息和排版属性信息,按照段落顺序对相应的文档段内容进行排版绘制处理后,如图9所示(图中以灰度值标识颜色),阅读器分页中保留了对应的显示属性信息。
在进行排版绘制处理时,为了进一步提高阅读体验,还可以对一些关联性比较强的文档段内容处理为同一页显示。其中,关联性比较强的文档段内容可以为类型相关的,比如,附图说明所在的文档段内容和对应附图所在的文档段内容,也可以为内容相关的,比如,章节数字所在的文档段内容,和章节题目所在的文档段内容等。
在本公开的一个实施例中,如图10所示,该方法还包括:
步骤1001,识别多个文档段内容中是否包含满足预设关联条件的至少一个文档段内容组,其中,每个文档段内容组中包含多个满足预设关联条件的文档段内容。
在本实施例中,识别多个文档段内容中是否包含满足预设关联条件的至少一个文档段内容组,其中,每个文档段内容组中包含多个满足预设关联条件的文档段内容。其中,预设关联条件可以用于限制上述提到的附图说明对应的文档段内容和附图对应的文档段内容等。
步骤1002,若包含至少一个文档段内容组,则判断每个文档段内容组中的多个文档段内容是否在同一个分页上。
举例而言,若是文档段内容按照在出版文档中的顺序逐段排列,则若当前待进行排版绘制处理的文档段内容为第n个文档段内容,且n大于1,判断前n-1个文档段内容中是否包括与第n个文档段内容关联的目标文档段内容。正如以上所说的,关联的目标文档段内容可以为类型相关的,也可以为内容相关的等。
需要说明的是,在不同的应用场景中,判断前n-1个文档段内容中是否包括与第n个文档段内容关联的目标文档段内容的方式不同,示例说明如下:
示例一:
在本示例中,出版文档是网页形式,则可查询前n-1个文档段内容和第n个文档段内容中每个文档段内容的groupId属性,若是groupId属性相同,则认为对应的文档段内容为第n个文档段内容的目标文档段内容。
示例二:
在本示例中,针对相邻文档段内容的相关度的识别,可识别第n个文档段内容的文档段内容类型,识别第n-1段的文档段内容的段落类型,若是第n-1段的文档段内容的段落类型,属于第n个文档段内容的文档段内容类型的相关文档段内容类型,则确定第n-1段的文档段内容为第n个文档段内容的目标文档段内容。
进而,若包括目标文档段内容,则确定目标文档段内容所在的第一阅读器分页。
在一些可能的实现方式中,阅读器分页根据从前到后排序,可以预先构建每个文档段内容和所在阅读器分页的排序编号的对应关系,从而,查询该对应关系,确定目标文档段内容所在的第一阅读器分页。
进一步的,根据第n个文档段内容的显示属性信息和排版属性信息,确定第n个段落所在的第二阅读器分页。
在本实施例中,可以在第n-1排版绘制后,确定所在阅读器分页上的下一个显示位置为第n个文档段内容的起始排版位置,其中,若是阅读器分页逐行排序,则下一个显示位置为第n-1排版绘制后的第一个空白行,若是阅读器分页逐列排序,则下一个显示位置为第n-1排版绘制后的第一个空白列,当下一个显示位置位于下一个分页时,则对应的起始排版位置为下一个分页的首个显示位置。
从第n个文档段内容的起始排版位置开始,根据第n个文档段内容的显示属性信息和排版属性信息进行排版绘制,得到第n个段落所在的第二阅读器分页。
在获知第二阅读器分页后,判断第一阅读器分页和第二阅读器分页是否相同。
比如,确定第一阅读器分页的页码排序编号与第二阅读器的页码排序编号是否相同等。
步骤1003,若不在同一个分页上,则根据预设的调整策略将对应的文档段内容组中的多个文档段内容调整至同一个分页。
在本实施例中,若是不在同一个分页,则根据预设的调整策略将对应的文档段内容组中的多个文档段内容调整至同一个分页。
比如,可以调整对应的文档段内容组中的至少一个文档段内容的排版位置,以使得对应的文档段内容组中的多个文档段内容属于同一个分页,比如,可以调整对应的文档段内容组中的至少一个文档段内容的内容显示尺寸,以使得对应的文档段内容组中的多个文档段内容属于同一个分页等。
继续以上述示例为例,若是第一阅读器分页和第二阅读器分页不同,则调整目标文档段内容,或,第n个文档段内容所在的阅读器分页,以使得第n个文档段内容和目标文档段内容排版在相同的阅读器分页。
在本实施例中,若是第一阅读器分页和第二阅读器分页不同,则为了使得目标文档段内容和第n个文档段内容同页显示,调整目标文档段内容,或,第n个文档段内容所在的阅读器分页,以使得第n个文档段内容和目标文档段内容排版在相同的阅读器分页。
需要说明的是,在不同的应用场景中,使得第n个文档段内容和目标文档段内容排版在相同的阅读器分页的方式不同,示例如下:
示例一:
在本示例中,确定目标文档段内容的起始排版位置,将目标文档段内容的起始排版位置更新为第二阅读器分页的首个排版位置,对目标文档段内容进行排版,进而,在目标文档段内容后排版绘制第n个文档段内容,从而,使得第n个文档段内容和目标文档段内容排版在相同的阅读器分页。
举例而言,如图11(a)所示,目标文档段内容为“图01”所在的文档段内容,第n个文档段内容为对应的图片,则由于“图01”和图片不在一页,则将图01移动到图片所在阅读器页面的首行渲染,图片渲染在“图01”的文档段内容后,实现了“图01”和图片在同一个阅读器页面上。
示例二:
在本示例中,缩小目标文档段内容,和/或,第n个文档段内容的尺寸,使得第n个文档段内容和所述目标文档段内容排版在相同的阅读器分页。尺寸的缩小根据每个阅读页面的显示尺寸确定,具体实现方式可由现有技术实现,在此不在赘述。
举例而言,如图11(b)所示,目标文档段内容为“图01”所在的文档段内容,第n个文档段内容为对应的图片,则由于“图01”和图片不在一页,但是“图01”所在页有剩余空白区域,因此,可根据剩余空白区域缩小图片的尺寸,使得“图01”和图片显示在同一阅读器页面上。
需要强调的是,上述关联文档段内容的处理方式,仅仅是一种可能的示例说明,任意将关联段落可以处理为同一页的发公式都应当是本实施例可执行的方式,在此不一一举例说明,当然,若是关联文档段内容较多,则无法在一个页面上显示,也可以不进行上述的处理方式。
综上,本公开实施例的电子文本生成方法,在生成与电子阅读器对应的电子文本后,还可以根据目标显示设备对电子文本进行分页显示,且分页显示时不但可以显示出版文档中的文字内容,还可以显示对应的图片内容等其他非文字内容,且显示时体现了出版文档中的显示属性信息,提升了阅读体验。
基于上述实施例,还需要特殊说明的是出版文档的目录部分,出版物的目录不同于以往见到的小说,小说的目录设计一般都是单层结构,即一章就是一个独立的章节结构,不会存在章内还有小节的情况。出版物则有所不同,出版物的目录结构可能存在卷、章、节,甚至节下还可能存在一些分点标号的子目录,这就形成了一个多层级的目录结构,如果以小说平铺式的展示出版物的目录结构的话,展示不够明确,卷、章、节属于同一层,比较混乱,用户体验不好。
因此,在本公开的一个实施例中,还对目录进行层级结构的构架,具体方法如图12所示:
步骤1201,获取出版文档的所有目录标题。
在本实施例中,确定出版文档的所有文档段内容中的目录标题,比如,当出版文档为网页内容时,可以获取类型属性为目录属性的内容为目录标题。又比如,可以单独对出版文档中的文档段内容识别,直接确定对应的文档段内容为目录标题。
步骤1202,根据出版文档的网页代码,获取每个目录标题的目录层级标识,并根据目录层级标识构建所有目录标题的层级结构顺序;根据排版属性信息对所述所有目录标题按照所述层级结构顺序进行排本绘制处理。
其中,目录层级标识用于确定目录所在的章、节等层级,目录层级标识可以是节点id也可以是文字形式或者字母形式等。
在一些可能的实施例中,目录层级标识可以是节点id形式时,可以包括catalog_id、item_id、parent_catalog_id等。
正如以上提到的,目录层级标识用于确定目录所在的章、节等层级,因此,可以根据目录层级标识构建目标段落的层级结构,根据目录层级标识确定相应目录段落所属的卷、章、节等,根据所有目录文档段内容的卷、章、节等构建目标段落的层级结构。
继续以目录层级标识是节点id为例,若是目录段落对应的json代码如下,则目录结构中catalog_id来作为这个目录节点的唯一标志,而parent_catalog_id则作为目录节点索引到其父节点的标志,比如,对于目录段落:“作者简介”而言,其对应的parent_catalog_id为1,而目目录段落“乾隆皇帝·风华初露”对应的catalog_id为1,则显然“作者简介”对应的上一级层级目录段落为“乾隆皇帝·风华初露”,基于有关节点id即可获取目录段落的层级结构。
Figure BDA0003161397400000181
/>
Figure BDA0003161397400000191
在本实施例中,为了直观的给用于以目录引导,根据层级结构预设的排版显示信息,调整目录段落在对应阅读器分页的排版位置,使得调整排版位置后的目录段落直观体现层级关系,其中,层级结构预设的排版显示信息可以为任意控制目标段落按照目录层级标识层级排版的信息。
比如,可以为如图13所示的,确定每个层级对应的目录段落排版前的留白尺寸,根据留白尺寸控制每个层级的目录段落的排版位置,通常,层级越低的目录段落的前面的留白尺寸越大,也可以为如图13所示的,在有关层级对应的目录段落排版前加与上一层级的目录段落对应的“箭头”等链接指示符。
进一步的,考虑到现有技术中,混在一起的目录标题在切换的时候,会给用户非常不好的体验,在本公开的一个实施例中,可以控制章的目录段落跳转到了章第一页,节的目录段落则跳转到章内节对应的阅读器页面。
具体而言,在构建了上述层级结构之后,该方法还包括:
确定出版文档的正文文档段类型的所有正文文档段内容,根据出版文档的网页代码,获取正文段落的所属目录层级标识,确定出版文档的所有文档段内容中的正文段落,获取正文文档段内容的所属目录层级标识,比如,确定正文文档段内容对应的层级标识id等。
进一步的,根据所属目录层级标识和目录层级标识,在正文文档段内容中确定与目录标题对应的目标正文段落,在至少一个阅读器分页中,确定目标正文文档段内容对应的排版起始位置,比如,对应的首个阅读器分页,构建目录段落和对应的排版起始位置的对应关系,以便于根据对应关系响应对目录段落的跳转操作。
继续以上述示例为例,解析阶段正文段落的html文件中的节会带有跟目录段落中一样的fragment_id,所以在目录点击节跳转时,会通过章节id获取章节所有的排版起始位置,比如,阅读器分页,遍历搜索所有的排版位置找到与目录的fragment_id对应的排版起始位置进行跳转,比如,遍历所有的阅读器分页找到与目录的fragment_id对应的阅读器分页进行跳转。
可以基于catalog_id等跳转到某个章节的第一节,由此,不仅可以跳转到章节的第一页,还可以跳转到章内的节,即章内的某一页。
综上,本公开实施例的电子文本生成方法,对目录标题多层级显示,提高了目录标题排版显示的直观性,进一步提升了阅读体验。
为了实现上述实施例,本公开还提出了一种电子文本生成装置。
图14为本公开实施例提供的一种电子文本生成装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图14所示,该装置包括:第一确定模块1410、第二确定模块1420、生成模块1430,其中,
第一确定模块1410,用于解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个文档段内容的显示属性信息,其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种
第二确定模块1420,用于根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置;
生成模块1430,用于在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。
本公开实施例所提供的出版文档的分页装置可执行本公开任意实施例所提供的电子文本的生成方法,具备执行方法相应的功能模块和有益效果,其实现原理类似,在此不再赘述。
为了实现上述实施例,本公开还提出一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开任意实施例所提供的电子文本生成方法,具备执行方法,其实现原理类似,在此不再赘述。
图15为本公开实施例提供的一种电子设备的结构示意图。
下面具体参考图15,其示出了适于用来实现本公开实施例中的电子设备1500的结构示意图。本公开实施例中的电子设备1500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图15示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,电子设备1500可以包括处理装置(例如中央处理器、图形处理器等)1501,其可以根据存储在只读存储器(ROM)1502中的程序或者从存储装置1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有电子设备1500操作文字所需的各种程序和数据。处理装置1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。
通常,以下装置可以连接至I/O接口1505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1507;包括例如磁带、硬盘等的存储装置1508;以及通信装置1509。通信装置1509可以允许电子设备1500与其他设备进行无线或有线通信以交换数据。虽然图15示出了具有各种装置的电子设备1500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1509从网络上被下载和安装,或者从存储装置1508被安装,或者从ROM 1502被安装。在该计算机程序被处理装置1501执行时,执行本公开实施例的电子文本的生成方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
解析出版文档的属于预设文档段类型的多个文档段内容,并确定所每个文档段内容的显示属性信息,其中,预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种,进而,根据预设的电子阅读器的排版属性信息和显示属性信息,确定每个文档段内容的排版位置,最后,在排版位置根据显示属性信息对多个文档段内容进行排版绘制处理,以生成与出版文档对应的电子文本。由此,根据出版文档的原始显示属性信息转换成电子文本,且对出版文档的各种类型的文档段无差别转换,不但实现了在电子文本中的图文混排效果,而且保留了出版文档的原始显示方式。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,本公开提供了一种电子文本生成方法,包括:解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;
根据预设的电子阅读器的排版属性信息和所述显示属性信息,确定每个所述文档段内容的排版位置;
在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,所述解析出版文档的属于预设文档段类型的多个文档段内容,包括:
确定与所述预设文档段类型对应的文档段开始标记和文档段结束标;
解析每个所述文档段开始标记到相邻的文档段结束标记之间的文档内容,以获取所述多个文档段内容。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,所述根据预设的电子阅读器的排版属性信息和所述显示属性信息,确定每个所述文档段内容的排版位置,包括:
根据所述显示属性信息确定每个所述段落文档段内容中每个内容单元的第一显示尺寸;
根据所述排版属性信息确定所述电子阅读器中每个显示单元的第二显示尺寸;
根据所述第二显示尺寸和所述第一显示尺寸对所述每个内容单元排版,以确定每个所述文档段内容的排版位置。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,所述根据所述显示属性信息确定每个所述文档段内容中每个内容单元的第一显示尺寸,包括:
当内容单元为文本内容时,获取所述文本内容的字号样式和字体样式;
根据所述字号样式和字体样式确定所述文本内容的第一显示尺寸;
当内容单元为图片内容时,获取所述图片内容的图片尺寸;
根据所述图片尺寸确定所述图片内容的第一显示尺寸。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,当所述预设文档段类型为扉页文档段类型时,在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理之后,还包括:
获取所述扉页段的背景图片;
在所述扉页段对应的排版位置的背景区域渲染所述背景图片。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,还包括:
获取所述出版文档的所有目录标题;
根据所述出版文档的网页代码,获取每个所述目录标题的目录层级标识,并根据所述目录层级标识构建所述所有目录标题的层级结构顺序;根据所述排版属性信息对所述所有目录标题按照所述层级结构顺序进行排本绘制处理。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,确定所述出版文档的正文文档段类型的所有正文文档段内容;
根据所述出版文档的网页代码,获取所述正文段落的所属目录层级标识;
根据所述所属目录层级标识,在所述所有正文文档段内容中确定与所述所有目录标题对应的目标正文段落;
根据所述目标正文段落的排本位置,构建所述目标正文段落的排版起始位置和对应的目录标题的对应关系,以便于根据所述对应关系响应对所述目录标题的触发操作跳转到对应的排版起始位置。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,还包括:
获取目标显示设备的显示尺寸信息;
根据所述显示尺寸信息和所述排版属性信息对所述电子文本分页处理,以生成与所述电子文本对应的多个分页。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,还包括:
识别所述多个文档段内容中是否包含满足预设关联条件的至少一个文档段内容组,其中,每个所述文档段内容组中包含多个满足所述预设关联条件的文档段内容;
若包含所述至少一个文档段内容组,则判断每个所述文档段内容组中的多个文档段内容是否在同一个分页上;
若不在同一个分页上,则根据预设的调整策略将对应的所述文档段内容组中的多个文档段内容调整至同一个分页。
根据本公开的一个或多个实施例,本公开提供的电子文本生成方法中,所述根据预设的调整策略将对应的所述文档段内容组中的多个文档段内容调整至同一个分页,包括:
调整所述对应的所述文档段内容组中的至少一个文档段内容的排版位置,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页;和/或,
调整所述对应的所述文档段内容组中的至少一个文档段内容的内容显示尺寸,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页。
根据本公开的一个或多个实施例,本公开提供了一种电子文本生成装置,包括:
第一确定模块,用于解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种
第二确定模块,用于根据预设的电子阅读器的排版属性信息和所述显示属性信息,确定每个所述文档段内容的排版位置;
生成模块,用于在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述第一确定模块,具体用于:
确定与所述预设文档段类型对应的文档段开始标记和文档段结束标;
解析每个所述文档段开始标记到相邻的文档段结束标记之间的文档内容,以获取所述多个文档段内容。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述第二确定模块,具体用于:
根据所述显示属性信息确定每个所述文档段内容中每个内容单元的第一显示尺寸;
根据所述排版属性信息确定所述电子阅读器中每个显示单元的第二显示尺寸;
根据所述第二显示尺寸和所述第一显示尺寸对所述每个内容单元排版,以确定每个所述文档段内容的排版位置。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述第二确定模块,具体用于:
当内容单元为文本内容时,获取所述文本内容的字号样式和字体样式;
根据所述字号样式和字体样式确定所述文本内容的第一显示尺寸;
当内容单元为图片内容时,获取所述图片内容的图片尺寸;
根据所述图片尺寸确定所述图片内容的第一显示尺寸。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,当所述预设文档段类型为扉页文档段类型时,还包括:渲染模块,用于:
获取所述扉页段的背景图片;
在所述扉页段对应的排版位置的背景区域渲染所述背景图片。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,还包括:标题构建模块,用于:
获取所述出版文档的所有目录标题;
根据所述出版文档的网页代码,获取每个所述目录标题的目录层级标识,并根据所述目录层级标识构建所述所有目录标题的层级结构顺序;根据所述排版属性信息对所述所有目录标题按照所述层级结构顺序进行排本绘制处理。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述标题构建模块,还用于:
确定所述出版文档的正文文档段类型的所有正文文档段内容;
根据所述出版文档的网页代码,获取所述正文段落的所属目录层级标识;
根据所述所属目录层级标识,在所述所有正文文档段内容中确定与所述所有目录标题对应的目标正文段落;
根据所述目标正文段落的排本位置,构建所述目标正文段落的排版起始位置和对应的目录标题的对应关系,以便于根据所述对应关系响应对所述目录标题的触发操作跳转到对应的排版起始位置。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,还包括:分页模块,用于:
获取目标显示设备的显示尺寸信息;
根据所述显示尺寸信息和所述排版属性信息对所述电子文本分页处理,以生成与所述电子文本对应的多个分页。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述分页模块,还用于:
识别所述多个文档段内容中是否包含满足预设关联条件的至少一个文档段内容组,其中,每个所述文档段内容组中包含多个满足所述预设关联条件的文档段内容;
若包含所述至少一个文档段内容组,则判断每个所述文档段内容组中的多个文档段内容是否在同一个分页上;
若不在同一个分页上,则根据预设的调整策略将对应的所述文档段内容组中的多个文档段内容调整至同一个分页。
根据本公开的一个或多个实施例,本公开提供的电子文本生成装置中,所述分页模块,还用于:
调整所述对应的所述文档段内容组中的至少一个文档段内容的排版位置,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页;和/或,
调整所述对应的所述文档段内容组中的至少一个文档段内容的内容显示尺寸,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页。
根据本公开的一个或多个实施例,本公开提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开提供的任一所述的电子文本生成方法。
根据本公开的一个或多个实施例,本公开提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开提供的任一所述的电子文本生成方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (12)

1.一种电子文本生成方法,其特征在于,包括:
解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;
根据所述显示属性信息确定每个所述文档段内容中每个内容单元的第一显示尺寸,并根据所述排版属性信息确定电子阅读器中每个显示单元的第二显示尺寸;
根据所述第二显示尺寸和所述第一显示尺寸对所述每个内容单元排版,以确定每个所述文档段内容的排版位置;
在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
2.如权利要求1所述的方法,其特征在于,所述解析出版文档的属于预设文档段类型的多个文档段内容,包括:
确定与所述预设文档段类型对应的文档段开始标记和文档段结束标;
解析每个所述文档段开始标记到相邻的文档段结束标记之间的文档内容,以获取所述多个文档段内容。
3.如权利要求1所述的方法,其特征在于,所述根据所述显示属性信息确定每个所述文档段内容中每个内容单元的第一显示尺寸,包括:
当内容单元为文本内容时,获取所述文本内容的字号样式和字体样式;
根据所述字号样式和字体样式确定所述文本内容的第一显示尺寸;
当内容单元为图片内容时,获取所述图片内容的图片尺寸;
根据所述图片尺寸确定所述图片内容的第一显示尺寸。
4.如权利要求1所述的方法,其特征在于,当所述预设文档段类型为扉页文档段类型时,在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理之后,还包括:
获取扉页文档段的背景图片;
在所述扉页文档段对应的排版位置的背景区域渲染所述背景图片。
5.如权利要求1-4任一所述的方法,其特征在于,还包括:
获取所述出版文档的所有目录标题;
根据所述出版文档的网页代码,获取每个所述目录标题的目录层级标识,并根据所述目录层级标识构建所述所有目录标题的层级结构顺序;根据所述排版属性信息对所述所有目录标题按照所述层级结构顺序进行排本绘制处理。
6.如权利要求5所述的方法,其特征在于,
确定所述出版文档的正文文档段类型的所有正文文档段内容;
根据所述出版文档的网页代码,获取正文文档段的所属目录层级标识;
根据所述所属目录层级标识,在所述所有正文文档段内容中确定与所述所有目录标题对应的目标正文文档段;
根据所述目标正文文档段的排本位置,构建所述目标正文文档段的排版起始位置和对应的目录标题的对应关系,以便于根据所述对应关系响应对所述目录标题的触发操作跳转到对应的排版起始位置。
7.如权利要求1-4任一所述的方法,其特征在于,还包括:
获取目标显示设备的显示尺寸信息;
根据所述显示尺寸信息和所述排版属性信息对所述电子文本分页处理,以生成与所述电子文本对应的多个分页。
8.如权利要求7所述的方法,其特征在于,还包括:
识别所述多个文档段内容中是否包含满足预设关联条件的至少一个文档段内容组,其中,每个所述文档段内容组中包含多个满足所述预设关联条件的文档段内容;
若包含所述至少一个文档段内容组,则判断每个所述文档段内容组中的多个文档段内容是否在同一个分页上;
若不在同一个分页上,则根据预设的调整策略将对应的所述文档段内容组中的多个文档段内容调整至同一个分页。
9.如权利要求8所述的方法,其特征在于,所述根据预设的调整策略将对应的所述文档段内容组中的多个文档段内容调整至同一个分页,包括:
调整所述对应的所述文档段内容组中的至少一个文档段内容的排版位置,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页;和/或,
调整所述对应的所述文档段内容组中的至少一个文档段内容的内容显示尺寸,以使得对应的所述文档段内容组中的多个文档段内容属于同一个分页。
10.一种电子文本生成装置,其特征在于,包括:
第一确定模块,用于解析出版文档的属于预设文档段类型的多个文档段内容,并确定每个所述文档段内容的显示属性信息,其中,所述预设文档段类型包括正文文档段类型、扉页文档段类型中的至少一种;
第二确定模块,用于根据所述显示属性信息确定每个所述文档段内容中每个内容单元的第一显示尺寸,并根据所述排版属性信息确定电子阅读器中每个显示单元的第二显示尺寸,根据所述第二显示尺寸和所述第一显示尺寸对所述每个内容单元排版,以确定每个所述文档段内容的排版位置;
生成模块,用于在所述排版位置根据所述显示属性信息对所述多个文档段内容进行排版绘制处理,以生成与所述出版文档对应的电子文本。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9中任一所述的电子文本生成方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9中任一所述的电子文本生成方法。
CN202110791957.2A 2021-07-13 2021-07-13 电子文本生成方法、装置、设备及介质 Active CN113515928B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110791957.2A CN113515928B (zh) 2021-07-13 2021-07-13 电子文本生成方法、装置、设备及介质
PCT/CN2022/103911 WO2023284588A1 (zh) 2021-07-13 2022-07-05 电子文本生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110791957.2A CN113515928B (zh) 2021-07-13 2021-07-13 电子文本生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113515928A CN113515928A (zh) 2021-10-19
CN113515928B true CN113515928B (zh) 2023-03-28

Family

ID=78067124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110791957.2A Active CN113515928B (zh) 2021-07-13 2021-07-13 电子文本生成方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN113515928B (zh)
WO (1) WO2023284588A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515928B (zh) * 2021-07-13 2023-03-28 抖音视界有限公司 电子文本生成方法、装置、设备及介质
CN115146608A (zh) * 2022-05-13 2022-10-04 北京字节跳动网络技术有限公司 内容排版方法、装置、设备和存储介质
CN115690806B (zh) * 2022-10-11 2023-06-13 杭州瑞成信息技术股份有限公司 一种基于图像数据处理的非结构化文档格式识别方法
CN116451671B (zh) * 2023-06-16 2023-11-07 上海森亿医疗科技有限公司 文档格式数据加载渲染方法、终端、介质及web编辑器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986290A (zh) * 2010-06-30 2011-03-16 汉王科技股份有限公司 电子阅读器文档排版方法及电子阅读器
CN103593333A (zh) * 2013-10-16 2014-02-19 小米科技有限责任公司 一种电子书文档的处理方法、终端及电子设备
CN104111922A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN104239305A (zh) * 2013-06-07 2014-12-24 阿里巴巴集团控股有限公司 生成及展现电子文档的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2814562A1 (fr) * 2000-09-22 2002-03-29 Cytale Procede pour afficher un document numerique, dispositif electronique, logiciel, publication numerique, support de donneees et procede de telechargement
US20080320386A1 (en) * 2007-06-23 2008-12-25 Advancis.Com, Inc. Methods for optimizing the layout and printing of pages of Digital publications.
US8819541B2 (en) * 2009-02-13 2014-08-26 Language Technologies, Inc. System and method for converting the digital typesetting documents used in publishing to a device-specfic format for electronic publishing
CN103186510B (zh) * 2011-12-30 2016-08-03 北大方正集团有限公司 一种转换文档格式的方法和装置
CN104346322B (zh) * 2013-08-08 2018-07-10 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN105446946B (zh) * 2014-07-17 2019-08-02 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN104391886B (zh) * 2014-11-07 2018-10-23 武汉大学 一种电子书发送方法及装置
FI20176151A1 (en) * 2017-12-22 2019-06-23 Vuolearning Ltd A heuristic method for analyzing the contents of an electronic document
CN112686000B (zh) * 2020-12-24 2021-09-28 掌阅科技股份有限公司 电子书文档的格式转换方法、电子设备及存储介质
CN113515928B (zh) * 2021-07-13 2023-03-28 抖音视界有限公司 电子文本生成方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986290A (zh) * 2010-06-30 2011-03-16 汉王科技股份有限公司 电子阅读器文档排版方法及电子阅读器
CN104111922A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN104239305A (zh) * 2013-06-07 2014-12-24 阿里巴巴集团控股有限公司 生成及展现电子文档的方法及装置
CN103593333A (zh) * 2013-10-16 2014-02-19 小米科技有限责任公司 一种电子书文档的处理方法、终端及电子设备

Also Published As

Publication number Publication date
CN113515928A (zh) 2021-10-19
WO2023284588A1 (zh) 2023-01-19

Similar Documents

Publication Publication Date Title
CN113515928B (zh) 电子文本生成方法、装置、设备及介质
Asakawa et al. Transcoding
US9542363B2 (en) Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods
US20070174291A1 (en) Dynamic optimization of available display space
US9158742B2 (en) Automatically detecting layout of bidirectional (BIDI) text
CN111368562B (zh) 翻译图片中的文字的方法、装置、电子设备、及存储介质
CN111666776B (zh) 文档翻译方法和装置、存储介质和电子设备
CN109933751B (zh) 图文绘制方法、装置、计算机可读存储介质和计算机设备
CN105005472B (zh) 一种web上显示维吾尔文字的方法及装置
CN110309457B (zh) 网页数据处理方法、装置、计算机设备和存储介质
CN111680491B (zh) 文档信息的抽取方法、装置和电子设备
US20120089899A1 (en) Method and system for redisplaying a web page
CN115268904A (zh) 一种用户界面设计文件生成方法、装置、设备及介质
CN111143749A (zh) 一种网页展示方法、装置、设备及存储介质
CN111859931A (zh) 文本的提取处理方法、装置、终端和存储介质
CN109977873B (zh) 基于手写笔迹的笔记生成方法、电子设备及存储介质
JP5715172B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
EP4195011A1 (en) Character display method and apparatus, and electronic device and computer-readable storage medium
CN114625996A (zh) 网页内容的分页方法、装置、电子设备及可读存储介质
CN113705190A (zh) 一种文本处理方法、装置及设备
US20100017708A1 (en) Information output apparatus, information output method, and recording medium
CN112445478A (zh) 图形文件的处理方法、装置、设备及介质
US20150095314A1 (en) Document search apparatus and method
CN113221572A (zh) 一种信息处理方法、装置、设备及介质
CN104850316A (zh) 电子图书字体调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant