CN115048908A - 一种生成文本目录的方法及装置 - Google Patents

一种生成文本目录的方法及装置 Download PDF

Info

Publication number
CN115048908A
CN115048908A CN202210750036.6A CN202210750036A CN115048908A CN 115048908 A CN115048908 A CN 115048908A CN 202210750036 A CN202210750036 A CN 202210750036A CN 115048908 A CN115048908 A CN 115048908A
Authority
CN
China
Prior art keywords
page
page number
text
title
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210750036.6A
Other languages
English (en)
Inventor
邓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Baohaowan Technology Co Ltd
Original Assignee
Zhuhai Baohaowan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Baohaowan Technology Co Ltd filed Critical Zhuhai Baohaowan Technology Co Ltd
Priority to CN202210750036.6A priority Critical patent/CN115048908A/zh
Publication of CN115048908A publication Critical patent/CN115048908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种生成文本目录的方法及装置,涉及文档处理技术领域。为解决文本从目录跳转到标题所在的文本页时发生错误的问题而发明。所述生成文本目录的方法,包括遍历目标文本的各文本页,以从文本页中获取目标文本自带的目录页及目录页的排序页码,排序页码与各文本页在目标文本中的前后排序相对应;提取目录页中的标题和标题对应的标题页码;从与标题页码相等的排序页码对应的文本页中,搜索相应标题,得到第一搜索结果;根据第一搜索结果,利用标题页码作为跳转页码或对标题页码调整得到对应的跳转页码,并基于跳转页码为目标文本生成跳转目录。适用于需要避免文本从目录跳转到标题所在的文本页时发生错误,提高用户体验的应用场景。

Description

一种生成文本目录的方法及装置
技术领域
本发明涉及文档处理技术领域。尤其是涉及一种生成文本目录的方法及装置。
背景技术
目前,在生成文本的目录时,一般是提取文本中自带的目录页中的标题的页码,直接将标题的页码作为标题的跳转页码,生成具有页面跳转功能的目录。但是在一些文本中自带的目录页中对封面进行了编码,在另一些文本中自带的目录页中没有对封面进行编码,这就导致基于目录页中的标题的页码与标题的跳转页码可能不一致。因此,直接将标题的页码作为标题的跳转页码,生成具有页面跳转功能的目录,会导致一些文本从目录跳转到标题所在的文本页时发生错误,造成用户体验差。
发明内容
有鉴于此,本发明实施例提供一种生成文本目录的方法及装置,能够避免文本从目录跳转到标题所在的文本页时发生错误,提高用户体验。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种生成文本目录的方法,包括:遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页;提取所述目录页中的标题和所述标题对应的标题页码;从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;其中,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应;根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
根据本发明实施例的一种具体实现方式,在所述从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题之前,所述方法还包括:基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码。
根据本发明实施例的一种具体实现方式,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页包括:遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码。
根据本发明实施例的一种具体实现方式,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码,包括:基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容;将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配;若匹配成功,则确定该排序页码对应的文本页为所述目录页,以获取所述目标文本自带的目录页及所述目录页的排序页码。
根据本发明实施例的一种具体实现方式,所述根据第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;或者若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码;从与所述第一检测页码相等的排序页码对应的文本页中,搜索相应的标题,得到第二搜索结果;根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
根据本发明实施例的一种具体实现方式,所述若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码,包括:若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,将所述标题页码加上所述目录页的排序页码减去一,得到对应的第一检测页码。
根据本发明实施例的一种具体实现方式,所述根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;或者若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则在与所述第一检测页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;若从与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
第二方面,本发明实施例提供一种生成文本目录的装置,包括:目录页信息获取模块,用于遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页;标题信息提取模块,用于提取所述目录页中的标题和所述标题对应的标题页码;第一标题信息确认模块,用于从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;其中,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应;跳转页码获取模块,用于根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
根据本发明实施例的一种具体实现方式,所述生成文本目录的装置还包括:文件结构获取模块,用于基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;排序页码获取模块,用于通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码。
根据本发明实施例的一种具体实现方式,所述目录页信息获取模块,具体用于:遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码。
根据本发明实施例的一种具体实现方式,所述目录页信息获取模块,具体用于:基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容;将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配;若匹配成功,则确定该排序页码对应的文本页为所述目录页,以获取所述目标文本自带的目录页及所述目录页的排序页码。
根据本发明实施例的一种具体实现方式,所述跳转页码获取模块,包括:第一跳转目录生成模块,用于若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;第一检测页码生成模块,用于若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码;第二标题信息确认模块,用于从与所述第一检测页码相等的排序页码对应的文本页中,搜索相应的标题,得到第二搜索结果;第一检测页码确认模块,用于根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
根据本发明实施例的一种具体实现方式,所述第一跳转目录生成模块,具体用于:若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,将所述标题页码加上所述目录页的排序页码减去一,得到对应的第一检测页码。
根据本发明实施例的一种具体实现方式,所述第一检测页码确认模块,包括:第二跳转目录生成模块,用于若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;标题搜索模块,用于若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则在与所述第一检测页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;第三跳转目录生成模块,用于若从与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
第三方面,本发明实施例提供一种电子设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述第一方面中任一所述的生成文本目录的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述第一方面中任一所述的生成文本目录的方法。
本发明实施例提供的生成文本目录的方法及装置,通过遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页,提取所述目录页中的标题和所述标题对应的标题页码,从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果,根据第一搜索结果的不同,可以直接利用标题页码作为跳转页码,或对标题页码进行调整后得到跳转页码,从而使跳转页码与标题更加吻合,使基于跳转页码生成的跳转目录更加准确,有效提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例生成文本目录的方法的流程示意图;
图2为本发明一实施例生成文本目录的装置的模块示意图;
图3为本发明一实施例电子设备的模块示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
参看图1所示,本发明实施例提供的生成文本的跳转目录的方法,包括:
S110、遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页。
目标文本可以指需要生成跳转目录的文本,具体的文件类型不限,例如可以为PDF类型、doc类型等。目标文本可以具有一个或多个文本页,其中一部分文本页可以用于显示文本的具体内容,另一部分文本页可以用于显示各项具体内容对应的目录,这样的用于显示目录的文本页即为目标文本自带的目录页。
所谓遍历是指,沿着某条搜索路线,依次对树(或图)中的每个节点做一次访问,也适合于多元素集合的情况。在本申请中具体是指沿着预设搜索路线,例如各文本页在目标文本中的前后排序,依次对目标文本的各文本页做一次访问。
S120、提取所述目录页中的标题和所述标题对应的标题页码。
其中,目录页中的标题可以指文本具体内容的标题,例如第几章、第几节等,标题对应的标题页码可以指在目录页中显示的、每个标题对应的页码。
S130、从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;其中,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应。例如在一PDF类型的文本的页面缩略图导航中,各页面缩略图的下方分别具有一个对应的页码,与各页面缩略图在页面缩略图导航中的前后排序相对应,该页码即为该PDF类型的文本中相应文本页的排序页码。
S140、根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
第一搜索结果可以是在与所述标题页码相等的排序页码对应的文本页中存在相应的标题,也可以是在与所述标题页码相等的排序页码对应的文本页中不存在相应的标题,本步骤中,根据这两种不同的搜索结果,可以选择通过不同的方式得到相应的跳转页码,从而使跳转页码与标题更加吻合,使基于跳转页码生成的跳转目录更加准确。
其中,对所述标题页码调整,是为了获得一个或者多个排序页码,以作进一步搜索,确定存在相应标题的文本页的排序页码。
本发明实施例提供的生成文本目录的方法,通过遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页,提取所述目录页中的标题和所述标题对应的标题页码,从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果,根据第一搜索结果的不同,可以直接利用标题页码作为跳转页码,或对标题页码进行调整后得到跳转页码,从而使跳转页码与标题更加吻合,使基于跳转页码生成的跳转目录更加准确,有效提升用户体验。
在一实施例中,在所述从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题之前,所述方法还包括:基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码。
在一个例子中,基于ISO/DIS19005-1对便携式文档格式(Portable DocumentFormat,PDF)的一文本进行分析,获得该文本的文件头(Header)、对象集合(body)、交叉引用表(Xref table)和文件尾(Trailer),通过分析该文件的交叉引用表获取该文件的目录对象,通过分析该文件的目录对象获取该文件的页面组对象,通过分析该文件的页面组对象获得该文件页面数,从而得到各文本页的排序页码。
在一实施例中,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页包括:遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码。
具体的,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码,包括:基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容;将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配;若匹配成功,则确定该排序页码对应的文本页为所述目录页,以获取所述目标文本自带的目录页及所述目录页的排序页码。
在上述该文件的交叉引用表中还列出了该文件中每个对象的位置,因此,在遍历目标文本的各文本页时,可以基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容。
在获取与所述排序页码对应的文本页中的文本内容后,将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配时,若匹配成功,则记录该排序页码及目录页,继续执行后续步骤,若匹配失败,则返回基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容,并继续执行以后的步骤。
其中,预设排版样式可以为直线目录排版、格子目录排版、分栏目录排版和轴目录排版。
目标文本的文件结构可以直观反映目标文件的数据结构,尤其便于反映高度结构化的文本的数据结构,通过将目标文本的文件结构引入到遍历目标文本的各文本页中,能够降低访问文本中的文本页中的文本内容的过程中发生错误的概率,提高获取目录页及目录页的排序页码的概率,从而提高生成跳转目录的准确性,进而提高用户体验。
在一实施例中,所述根据第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;或者若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码;从与所述第一检测页码相等的排序页码对应的文本页中,搜索相应的标题,得到第二搜索结果;根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在目标文本自带的目录页中对封面进行了排序,目录页中与标题相应标题页码和目标文本的文本页的排序页码一致,因此,利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时不会发生错误。
若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在目标文本自带的目录页中未对封面进行排序,目录页中与标题相应标题页码和目标文本的文本页的排序页码不一致,此时,利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时会发生错误,因此,需要对所述标题页码调整以得到对应的跳转页码。
在获得目标文本的文件结构之后,首先可以基于目标文本的文件结构获取目录页的数据,建立一正则表达式,在目录页的数据中提取目录页中的标题和标题对应的标题页码。然后可以基于目标文本的文件结构获取与所述标题页码相等的排序页码对应的文本页数据,利用字符串匹配算法,从与所述标题页码相等的排序页码对应的文本页数据中搜索相应的标题,以确定在与所述标题页码相等的排序页码对应的文本页中是否存在相应的标题,即得到第一搜索结果。同理,可以通过相同的方法获得第二搜索结果。
本领域的技术人员可以理解,虽然在这里给出了在获得目标文本的文件结构之后,通过建立一正则表达式提取目录页中的标题和标题对应的标题页码,和利用字符串匹配算法从与所述标题页码相等的排序页码对应的文本页中搜索相应的标题的示例,但是本发明的技术方案并不限制具体采用何种现有技术来实现上述过程。而且,提取目录页中的标题和标题对应的标题页码,或者从与所述标题页码相等的排序页码对应的文本页中搜索相应的标题,可以以任何已知的算法、过程、方式来实现,而该实现方式的变换不影响本发明的保护范围。
在本申请实施例中,如果从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,如果未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,这样,通过对基于第一检测页码获得的跳转页码作搜索验证,能够确保与跳转目录中的跳转页码相对应的文本页中存在相应的标题,从而能够避免文本从目录跳转到标题所在的文本页时发生错误,提高用户体验。
在一实施例中,所述若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码,包括:若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,将所述标题页码加上所述目录页的排序页码减去一,得到对应的第一检测页码。例如,一文本的目录页中的一标题对应的标题页码为21,未从排序页码为21的文本页中搜索到相应的标题,获取的目录页的排序页码为5。此时,通过21+5-1得到对应的第一检测页码为25,即该标题对应的跳转页码为25。
通过前述可知,若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在目标文本自带的目录页中未对封面进行排序,在此基础上,将标题对应的标题页码加上封面的排序页码,即可得到标题所在文本页的排序页码。通过将目录页的排序页码减去一可以得到封面的排序页码,因此,将所述标题页码加上所述目录页的排序页码减去一,得到的对应的第一检测页码即为标题所在文本页的排序页码,利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时不会发生错误。
其中,目录页的排序页码是指目录页的第一页目录页的排序页码。可以理解的是目录页的排序页码也可以是指目录页的其他页的排序页码,例如第二页目录页的排序页码,此时,将所述标题页码加上所述目录页的排序页码减去二,得到对应的第一检测页码。
在文本使用过程中,文本可能会被修改或者损坏,若未更新目录,则会导致文本自带的目录页中的中的标题对应的标题页码,与文本中标题对应的排序页码不同,此时,在通过上述方法得到的第一检测页码中,不能搜索到相应的标题。为解决上述问题,在一实施例中,所述根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;或者若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则在与所述第一检测页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;若从与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
进一步的,若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,还可以在与所述标题页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;若从与所述标题页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在文本使用过程中,文本被修改或者损坏,通过调整标题的标题页码得到的相应的第一检测页码,是标题所在文本页的排序页码,因此,利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时不会发生错误。
若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在文本使用过程中,文本被修改或者损坏,通过调整标题的标题页码得到的相应的第一检测页码,不是标题所在文本页的排序页码,此时,利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时会发生错误,因此,需要对所述第一检测页码调整以得到对应的跳转页码。
在文本被修改或者损坏程度较小时,标题所在文本页的排序页码,与和标题的排序页码相等的排序页码或者和第一检测页码相等的排序页码的差值也较小,因此,在与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,或者与所述标题页码相等的排序页码的预设范围内的一排序页码对应的文本页中,能够搜索相应的标题。其中,预设范围可以是与所述第一检测页码相等的排序页码的前2或3页,和后2或3页。
实施例二
参看图2所示,本发明实施例提供的生成文本目录的方法,包括:目录页信息获取模块201,用于遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应;标题信息提取模块202,用于提取所述目录页中的标题和所述标题对应的标题页码;第一标题信息确认模块203,用于从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;跳转页码获取模块204,用于根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
本发明实施例提供的生成文本目录的装置,通过目录页信息获取模块201遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页,通过标题信息提取模块202提取所述目录页中的标题和所述标题对应的标题页码,通过第一标题信息确认模块203从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果,根据第一搜索结果的不同,可以直接利用标题页码作为跳转页码,或对标题页码进行调整后得到跳转页码,从而使跳转页码与标题更加吻合,使基于跳转页码生成的跳转目录更加准确,有效提升用户体验。
在一实施例中,所述生成文本目录的装置还包括:文件结构获取模块,用于基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;排序页码获取模块,用于通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码;所述目录页信息获取模块201,具体用于:基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容;将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配;若匹配成功,则确定该排序页码对应的文本页为所述目录页,以获取所述目标文本自带的目录页及所述目录页的排序页码。
目标文本的文件结构可以直观反映目标文件的数据结构,尤其便于反映高度结构化的文本的数据结构,通过文件结构获取模块将目标文本的文件结构引入到通过目录页信息获取模块201遍历目标文本的各文本页中,能够降低访问文本中的文本页中的文本内容的过程中发生错误的概率,提高获取目录页及目录页的排序页码的概率,从而提高生成跳转目录的准确性,进而提高用户体验。
在一实施例中,所述跳转页码获取模块204,包括:第一跳转目录生成模块,用于若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;第一检测页码生成模块,用于若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码;第二标题信息确认模块,用于从与所述第一检测页码相等的排序页码对应的文本页中,搜索相应的标题,得到第二搜索结果;第一检测页码确认模块,用于根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
在本申请实施例中,如果从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则通过第一检测页码确认模块利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,如果未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则通过第一检测页码确认模块对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,这样,通过对基于第一检测页码获得的跳转页码作搜索验证,能够确保与跳转目录中的跳转页码相对应的文本页中存在相应的标题,从而能够避免文本从目录跳转到标题所在的文本页时发生错误,提高用户体验。
在一实施例中,所述第一跳转目录生成模块,具体用于:若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述标题页码加上所述目录页的排序页码减去一,得到对应的第一检测页码。
通过前述可知,若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则认为在目标文本自带的目录页中未对封面进行排序,在此基础上,将标题对应的标题页码加上封面的排序页码,即可得到标题所在文本页的排序页码。通过将目录页的排序页码减去一可以得到封面的排序页码,因此,将所述标题页码加上所述目录页的排序页码减去一,得到的对应的第一检测页码即为标题所在文本页的排序页码,利用所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成的跳转目录,在跳转到标题所在的文本页时不会发生错误。
在一实施例中,所述第一检测页码确认模块,包括:第二跳转目录生成模块,用于若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;标题搜索模块,用于若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则在与所述第一检测页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;第三跳转目录生成模块,用于若从与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
在另一实施例中,所述标题搜索模块,还用于若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,在与所述标题页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;所述第一检测页码确认模块,还包括第四跳转目录生成模块,用于若从与所述标题页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
在文本被修改或者损坏程度较小时,标题所在文本页的排序页码,与和标题的排序页码相等的排序页码或者和第一检测页码相等的排序页码的差值也较小,因此,在与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,或者与所述标题页码相等的排序页码的预设范围内的一排序页码对应的文本页中,能够搜索相应的标题。其中,预设范围可以是与所述第一检测页码相等的排序页码的前2或3页,和后2或3页。
实施例三
参看图3,本发明实施例提供一种电子设备,所述电子设备包括:壳体301、处理器302、存储器303、电路板304和电源电路305,其中,电路板304安置在壳体301围成的空间内部,处理器302和存储器303设置在电路板304上;电源电路305,用于为上述电子设备的各个电路或器件供电;存储器303用于存储可执行程序代码;处理器302通过读取存储器303中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述实施例一中任一所述的系统屏幕保护壁纸的显示方法。
处理器302对上述步骤的具体执行过程以及处理器302通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器302、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
实施例四
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例一中任一所述的系统屏幕保护壁纸的显示方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,各个实施例之间描述的方案的侧重点不同,但是各个实施例又存在某种相互关联的关系,在理解本发明方案时,各个实施例之间可相互参照;另外,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种生成文本目录的方法,其特征在于,包括:
遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页;
提取所述目录页中的标题和所述标题对应的标题页码;
从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;其中,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应;
根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
2.根据权利要求1所述的生成文本目录的方法,其特征在于,在所述从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题之前,所述方法还包括:
基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;
通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码。
3.根据权利要求1所述的生成文本目录的方法,其特征在于,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页包括:
遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码。
4.根据权利要求3所述的生成文本目录的方法,其特征在于,所述遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码,包括:
基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容;
将与所述排序页码对应的文本页中的文本内容,与预设排版样式相匹配;
若匹配成功,则确定该排序页码对应的文本页为所述目录页,以获取所述目标文本自带的目录页及所述目录页的排序页码。
5.根据权利要求1所述的生成文本目录的方法,其特征在于,所述根据第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:
若从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则利用所述标题页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;
或者
若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码;
从与所述第一检测页码相等的排序页码对应的文本页中,搜索相应的标题,得到第二搜索结果;
根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
6.根据权利要求5所述的生成文本目录的方法,其特征在于,所述若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,基于所述目录页的排序页码,调整所述标题页码得到对应的第一检测页码,包括:
若未从与所述标题页码相等的排序页码对应的文本页中,搜索到相应的标题,则获取所述目录页的排序页码,将所述标题页码加上所述目录页的排序页码减去一,得到对应的第一检测页码。
7.根据权利要求5所述的生成文本目录的方法,其特征在于,所述根据所述第二搜索结果,利用所述第一检测页码作为跳转页码或对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录,包括:
若从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则将所述第一检测页码作为跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录;
或者
若未从与所述第一检测页码相等的排序页码对应的文本页中,搜索到相应的标题,则在与所述第一检测页码相等的排序页码的预设范围内的排序页码对应的各文本页中,搜索相应的标题;
若从与所述第一检测页码相等的排序页码的预设范围内的一排序页码对应的文本页中,搜索到相应的标题,则将该排序页码作为对所述第一检测页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
8.一种生成文本目录的装置,其特征在于,包括:
目录页信息获取模块,用于遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页;
标题信息提取模块,用于提取所述目录页中的标题和所述标题对应的标题页码;
第一标题信息确认模块,用于从与所述标题页码相等的排序页码对应的文本页中,搜索相应的标题,得到第一搜索结果;其中,所述排序页码与各所述文本页在所述目标文本中的前后排序相对应;
跳转页码获取模块,用于根据所述第一搜索结果,利用所述标题页码作为跳转页码或对所述标题页码调整得到对应的跳转页码,并基于所述跳转页码为所述目标文本生成跳转目录。
9.根据权利要求8所述的生成文本目录的装置,其特征在于,还包括:
文件结构获取模块,用于基于所述目标文本的格式的标准文件对所述目标文本进行分析,以获得所述目标文本的文件结构;
排序页码获取模块,用于通过分析所述目标文本的文件结构,获得所述目标文本的各文本页的排序页码。
10.根据权利要求8所述的生成文本目录的装置,其特征在于,所述目录页信息获取模块,具体用于:
遍历目标文本的各文本页,以从所述文本页中获取所述目标文本自带的目录页及所述目录页的排序页码。
CN202210750036.6A 2022-06-29 2022-06-29 一种生成文本目录的方法及装置 Pending CN115048908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210750036.6A CN115048908A (zh) 2022-06-29 2022-06-29 一种生成文本目录的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210750036.6A CN115048908A (zh) 2022-06-29 2022-06-29 一种生成文本目录的方法及装置

Publications (1)

Publication Number Publication Date
CN115048908A true CN115048908A (zh) 2022-09-13

Family

ID=83164802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210750036.6A Pending CN115048908A (zh) 2022-06-29 2022-06-29 一种生成文本目录的方法及装置

Country Status (1)

Country Link
CN (1) CN115048908A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493712A (zh) * 2023-12-29 2024-02-02 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质
CN117493712B (zh) * 2023-12-29 2024-06-21 浙江华东工程数字技术有限公司 Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109508391B (zh) 基于知识图谱的输入预测方法、装置和电子设备
US8290925B1 (en) Locating product references in content pages
CN109684497B (zh) 一种图文匹配的信息发送方法、装置及电子设备
CN109656385B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN111680079A (zh) 一种将Json数据转换为字典数据的方法、装置及电子设备
CN110808065A (zh) 副歌检测方法、装置、电子设备及存储介质
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN115048908A (zh) 一种生成文本目录的方法及装置
CN105868424B (zh) 音频文件命名方法、装置及电子设备
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN110652728A (zh) 一种游戏资源管理方法、装置、电子设备及存储介质
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
US8655865B1 (en) Method and apparatus for indexing rich internet content using contextual information
CN116634246A (zh) 视频生成方法、装置、设备、介质及程序产品
CN104750661A (zh) 一种对文本进行选定词句的方法和装置
CN112825088A (zh) 信息展示方法、装置、设备及存储介质
CN112036132B (zh) 一种文档的页眉页脚编辑方法、装置及电子设备
CN112036133B (zh) 一种文件保存方法、装置、电子设备及存储介质
CN113987335A (zh) 一种数据收集方法及装置、电子设备、存储介质
CN111368208A (zh) 一种向用户推荐目标对象的方法、装置及电子设备
CN115526145A (zh) 文档的侧边栏导航目录的生成方法、装置及电子设备
CN114297232A (zh) 一种页面插入方法、装置、电子设备及存储介质
CN112035804A (zh) 一种在文档页面中插入水印标识的方法、装置、电子设备及存储介质
CN115145867A (zh) 一种导航目录生成方法及装置、电子设备、存储介质
CN112214181B (zh) 一种打印机web信息提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination