CN115099187A - 一种准确识别文档目录并展示目录的方法及装置 - Google Patents

一种准确识别文档目录并展示目录的方法及装置 Download PDF

Info

Publication number
CN115099187A
CN115099187A CN202210724595.XA CN202210724595A CN115099187A CN 115099187 A CN115099187 A CN 115099187A CN 202210724595 A CN202210724595 A CN 202210724595A CN 115099187 A CN115099187 A CN 115099187A
Authority
CN
China
Prior art keywords
characteristic
value
directory
characteristic value
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210724595.XA
Other languages
English (en)
Inventor
邓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Baohaowan Technology Co Ltd
Original Assignee
Zhuhai Baohaowan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Baohaowan Technology Co Ltd filed Critical Zhuhai Baohaowan Technology Co Ltd
Priority to CN202210724595.XA priority Critical patent/CN115099187A/zh
Publication of CN115099187A publication Critical patent/CN115099187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例公开了一种准确识别文档目录并展示目录的方法及装置,涉及文档技术领域,为便于提高用户浏览文档的效率而发明。所述方法,包括:遍历目标文档,获取所述目标文档中的目录特征;根据预设计分规则,获得所述目录特征的特征值;比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;若存在目录,则通过所述目标文档中的第一页面呈现给用户。本申请适于将目录呈现给用户。

Description

一种准确识别文档目录并展示目录的方法及装置
技术领域
本申请涉及文档技术领域,尤其涉及一种准确识别文档目录并展示目录的方法、装置、电子设备及可读存储介质。
背景技术
文档作为记载信息的载体,在日常生活和工作中经常被用到,为了提高浏览文档的效率,用户可以通过文档的目录了解文档包括的内容及对应的位置,现有技术中,用户想浏览目录首先需要手动查找是否存在目录及目录所在的页面,这样,导致用户浏览文档的效率较低。
发明内容
有鉴于此,本申请实施例提供一种准确识别文档目录并展示目录的方法、装置、电子设备及可读存储介质,便于提高用户浏览文档的效率。
第一方面,本申请实施例提供一种准确识别文档目录并展示目录的方法,包括:遍历目标文档,获取所述目标文档中的目录特征;根据预设计分规则,获得所述目录特征的特征值;比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;若存在目录,则通过所述目标文档中的第一页面呈现给用户。
根据本申请实施例的一种具体实现方式,所述目录特征包括文字特征和/或格式特征;所述遍历目标文档,获取所述目标文档中的目录特征,包括:遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;所述根据预设计分规则,获得所述目录特征的特征值,包括:根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;所述比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,包括:比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
根据本申请实施例的一种具体实现方式,所述目录特征为文字特征;所述文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字;所述遍历目标文档,获取所述目标文档中的文字特征和/或格式特征,包括:遍历目标文档,获取所述目标文档中的所述目录关键字、所述粗体文字和/或所述章节文字;所述根据预设的文字特征与特征值的对应关系,获取所述文字特征的第一总特征值,包括:根据预设的文字特征与特征值的对应关系,获取所述目录关键字的第一特征值、所述粗体文字的第二特征值和/或所述章节文字的第三特征值;将所述第一特征值、所述第二特征值和/或所述第三特征值相加,得到第一总特征值。
根据本申请实施例的一种具体实现方式,所述根据预设的文字特征与特征值的对应关系,获取所述粗体文字的第二特征值,包括:根据单个粗体文字与特征值的对应关系,将各个所述粗体文字的特征值相加,得到第二特征值。
根据本申请实施例的一种具体实现方式,所述根据预设的文字特征与特征值的对应关系,获取所述章节文字的第三特征值,包括:根据单个章节文字与特征值的对应关系,将各个所述章节文字的特征值相加,得到第三特征值。
根据本申请实施例的一种具体实现方式,所述目录特征为格式特征;所述格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值;所述遍历目标文档,获取所述目标文档中的格式特征,包括:遍历目标文档,获取以数字结尾的行;和/或,遍历目标文档的每一行,确定每一行的宽度;将所述目标文档的所有行的宽度相加,得到所有行的宽度的平均值;将每一行的宽度和所述平均值的比值,与所述第二预设阈值比较,确定每行对应的所述比值是否小于所述第二预设阈值;所述根据预设的格式特征与特征值的对应关系,获取所述格式特征的第二总特征值,包括:根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于所述第二预设阈值的第五特征值;将所述第四特征值和/或所述第五特征值相加,得到第二总特征值。
根据本申请实施例的一种具体实现方式,所述根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值,包括:根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
根据本申请实施例的一种具体实现方式,所述根据预设的格式特征与特征值的对应关系,获取基于行宽的比值小于所述第二预设阈值的第五特征值,包括:根据单行基于行宽的比值小于所述第二预设阈值与特征值的对应关系,将各个基于行宽的比值小于所述第二预设阈值的行的特征值相加,得到第五特征值。
第二方面,本申请实施例提供准确识别文档目录并展示目录的装置,包括:第一获取模块,用于遍历目标文档,获取所述目标文档中的目录特征;第二获取模块,用于根据预设计分规则,获得所述目录特征的特征值;确定模块,用于比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;呈现模块,用于若存在目录,则通过所述目标文档中的第一页面呈现给用户。
根据本申请实施例的一种具体实现方式,所述目录特征包括文字特征和/或格式特征;所述第一获取模块,包括:第一获取子模块,用于遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;所述第二获取模块,包括:第二获取子模块,用于根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;所述确定模块,包括:第一确定子模块,比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,得到子模块,用于比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;第二确定子模块,用于将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
根据本申请实施例的一种具体实现方式,所述目录特征为文字特征;所述文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字;所述第一获取子模块,包括:第一获取单元,用于遍历目标文档,获取所述目标文档中的所述目录关键字、所述粗体文字和/或所述章节文字;所述第二获取子模块,包括:第二获取单元,用于根据预设的文字特征与特征值的对应关系,获取所述目录关键字的第一特征值、所述粗体文字的第二特征值和/或所述章节文字的第三特征值;得到单元,用于将所述第一特征值、所述第二特征值和/或所述第三特征值相加,得到第一总特征值。
根据本申请实施例的一种具体实现方式,所述第二获取单元,具体用于:根据单个粗体文字与特征值的对应关系,将各个所述粗体文字的特征值相加,得到第二特征值。
根据本申请实施例的一种具体实现方式,所述第二获取单元,具体用于:根据单个章节文字与特征值的对应关系,将各个所述章节文字的特征值相加,得到第三特征值。
根据本申请实施例的一种具体实现方式,所述目录特征为格式特征;所述格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值;所述第一获取子模块,包括:第三获取单元,用于遍历目标文档,获取以数字结尾的行;和/或,第一确定单元,用于遍历目标文档的每一行,确定每一行的宽度;第一得到单元,用于将所述目标文档的所有行的宽度相加,得到所有行的宽度的平均值;第二确定单元,用于将每一行的宽度和所述平均值的比值,与所述第二预设阈值比较,确定每行对应的所述比值是否小于所述第二预设阈值;所述第二获取子模块,包括:第四获取单元,用于根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于所述第二预设阈值的第五特征值;第二得到单元,用于将所述第四特征值和/或所述第五特征值相加,得到第二总特征值。
根据本申请实施例的一种具体实现方式,所述第四获取单元,具体用于:根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
根据本申请实施例的一种具体实现方式,所述第四获取单元,具体用于:根据单行基于行宽的比值小于所述第二预设阈值与特征值的对应关系,将各个基于行宽的比值小于所述第二预设阈值的行的特征值相加,得到第五特征值。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实现方式所述的准确识别文档目录并展示目录的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一实现方式所述的准确识别文档目录并展示目录的方法。
本实施例的准确识别文档目录并展示目录的方法、装置、电子设备及可读存储介质,首先通过遍历目标文档,获取所述目标文档中的目录特征,根据预设计分规则,获得所述目录特征的特征值,再比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,如果存在目录,则通过所述目标文档中的第一页面呈现给用户,避免了现有技术中手动查找是否存在目录以及目录所在位置而导致的用户浏览文档效率较低的问题,便于提高用户浏览文档的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一实施例提供的文档目录的识别方法的流程示意图;
图2为本申请一实施例提供的文档目录的识别装置的结构示意图;
图3为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为使本领域技术人员更好地理解本申请实施例的技术构思、实施方案和有益效果,下面通过具体实施例进行详细说明。
本申请一实施例提供的一种准确识别文档目录并展示目录的方法,包括:遍历目标文档,获取所述目标文档中的目录特征;根据预设计分规则,获得所述目录特征的特征值;比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;若存在目录,则通过所述目标文档中的第一页面呈现给用户,便于提高用户浏览文档的效率。
图1为本申请一实施例提供的准确识别文档目录并展示目录的方法的流程示意图,如图1所示,本实施例的准确识别文档目录并展示目录的方法,可以包括:
S101、遍历目标文档,获取目标文档中的目录特征。
目标文档可为电子文档,如PDF文档、word文档,在一些例子中,目标文档为PDF文档。
目录可指文档正文前所记载的目次,按照一定次序开列出来的以供查考。
目录可由目录特征构成。
对目标文档承载的内容进行遍历,获取目录文档中的目录特征。
S102、根据预设计分规则,获得目录特征的特征值。
可以理解的是,本实施例中的预设计分规则,可为存在目录特征对应的特征值;也可为目录特征对应的特征值,当目录特征为多个时,本实施例中的目录特征的特征值可为各个目录特征的总特征值。
S103、比较特征值与第一预设阈值,确定目标文档中是否存在目录。
将目录特征的特征值与第一预设阈值进行比较,如果目录特征的特征值大于等于第一预设阈值,则可以确定目标文档中存在目录,如果目录特征的特征值小于第一预设阈值,则可以确定目标文档中不存在目录。
S104、若存在目录,则通过目标文档中的第一页面呈现给用户。
如果存在目录,可基于文本解析协议,获取目标文档的各个页面的每行内容;遍历各个页面中的第二页面,将所述第一页面中的每行内容与预设的目录样式比较,确定所述第一页面中存在的行内容与预设的目标样式一致的行数;如果行数大于预定阈值,则认为第二页面中的内容为目录,可将该目录通过目标文档中的第一页面呈现给用户。
在一些例子中,首先可基于pdf协议如ISO/DIS19005-1,对便携式文档格式(Portable Document Format,PDF)的文本进行分析,获得该文本的文件头(Header)、文件体(body)、交叉引用表(xref table)和文件尾(trailer),通过分析该文件的交叉引用表获取该文件的目录对象,通过分析该文件的目录对象获取该文件的页面组对象,通过分析该文件的页面组对象获得该文件页面数,从而得到各文本页的排序页码。而且,在该文件的交叉引用表中还列出了该文件中每个对象的位置,因此,在遍历目标文本的各文本页时,可以基于所述目标文本的各文本页的排序页码遍历目标文本的各文本页,以获取与所述排序页码对应的文本页中的文本内容。
在获取与所述排序页码对应的文本页中的文本内容后,将与所述排序页码对应的文本页中的文本内容的行,与预设排版样式比较,若匹配成功,则记录该排序页码及目录页。
本实施例,通过遍历目标文档,获取所述目标文档中的目录特征,根据预设计分规则,获得所述目录特征的特征值,再比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,如果存在目录,则通过所述目标文档中的第一页面呈现给用户,避免了现有技术中手动查找是否存在目录以及目录所在位置而导致的用户浏览文档效率较低的问题,便于提高用户浏览文档的效率。
为了提高识别文档目录的效率,在一些例子中,可遍历文档的第1页到第n页之间的页面,获取第1页到第n页的目录特征,通过判断存在目录,则可以从第1页-第n页的内容中确定目录页,并将目录向用户展示。
目录为了实现自身功能,里面具有特定的文字特征和/或格式特征,本申请又一实施例,与上述实施例基本相同,不同之处在于,本实施例的目录特征可以包括文字特征和/或格式特征;
本实施例中的遍历目标文档,获取所述目标文档中的目录特征(S101),可以包括:
S101a、遍历目标文档,获取目标文档中的文字特征和/或格式特征。
与S101a对应地,本实施例中的根据预设计分规则,获得目录特征的特征值(S102),可以包括:
S102a、根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得文字特征的第一总特征值和/或格式特征的第二总特征值。
当目标文档中存在文字特征时,可根据预设的文字特征与特征值的对应关系,获取文字特征的第一总特征值。
当目标文档存在格式特征时,可根据预设的格式特征与特征值的对应关系,确定格式特征的第二总特征值。
与S101a以及S102a对应的,本实施例中的比较特征值与第一预设阈值,确定目标文档中是否存在目录(S103),可以包括:
S103a、比较文字特征的第一总特征值或格式特征的第二总特征值与第一预设阈值进行比较,确定目标文档中是否存在目录。
在目录特征只包括文字特征时,可以将文字特征的第一总特征值与第一预设阈值进行比较,确定第一页面中是否存在目录。
在目录特征只包括格式特征时,可以将格式特征的第二总特征值与第一预设阈值进行比较,确定第一页面中是否存在目录。
在目录特征包括文字特征和格式特征时,本实施例中的比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录(S103),可以包括:
S103b、比较文字特征的第一总特征值和格式特征的第二总特征值相加,得到第三总特征值。
S103c、将第三总特征值与第一预设阈值进行比较,确定目标文档中是否存在目录。
将第三总特征值与第一预设阈值进行比较,确定目标文档中是否存在目录。
将文字特征和格式特征的特征值相加而得到的第三总特征值与第一预设阈值比较,能够更加准确地确定目标文档是否存在目录。
在目录特征为文字特征的情况下,在一些例子中,文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字。
本实施例中遍历目标文档,获取所述目标文档中的文字特征(S101a),可以包括:
S101b、遍历目标文档,获取目标文档中的目录关键字、粗体文字和/或章节文字。
粗体文字可为字体为加粗的文字;章节文字包括“一”、“二”、“章”、“节”、“1.1”“2.1”、“1.1.1”等等。本实施例中的文字可为汉字也可为其它语种中的单词,如中文中的“目录”,对应的英文单词为“contents”。
对应地,本实施例中的根据预设的文字特征与特征值的对应关系,获取文字特征的第一总特征值,可以包括:
A1、根据预设的文字特征与特征值的对应关系,获取目录关键字的第一特征值、粗体文字的第二特征值和/或章节文字的第三特征值。
根据预设的文字特征与特征值的对应关系,分别确定目录关键字的特征值,粗体文字的特征值和/或章节文字的特征值。
在一些例子中,在第一页面存在粗体文字的情况下,且存在多个粗体文字的情况下,根据预设的文字特征与特征值的对应关系,获取粗体文字的第二特征值,可以包括:
根据单个粗体文字与特征值的对应关系,将各个粗体文字的特征值相加,得到第二特征值。
本实施例中,遍历目标文档,出现一个粗体文字,按照单个粗体文字与特征值的对应关系,得到一个粗体文字的特征值,再出现粗体文字时,将该特征值与之前得到的粗体文字的特征值相加,以此类推,得到各个粗体文字的第二特征值。
在又一些例子中,在目标文档中存在章节文字,且存在多个章节文字的情况下,根据预设的文字特征与特征值的对应关系,获取章节文字的第三特征值,可以包括:
根据单个章节文字与特征值的对应关系,将各个章节文字的特征值相加,得到第三特征值。
本实施例中,遍历目标文档,出现一个章节文字,按照单个章节文字与特征值的对应关系,得到一个章节文字的特征值,再出现章节文字时,将该特征值与之前得到的章节文字的特征值相加,以此类推,得到各个章节文字的第三特征值。
A2、将第一特征值、第二特征值和/或第三特征值相加,得到第一总特征值。
在目录特征为格式特征的情况下,在一些例子中,格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值。
本实施例中遍历目标文档,获取目标文档中的格式特征(S101),可以包括:
S101c、遍历目标文档,获取以数字结尾的行;和/或,
S101d、遍历目标文档的每一行,确定每一行的宽度。
每一行的宽度可为一行中从最左边的文字的位置到最右边的文字的位置之间的距离。
S101e、将目标文档的所有行的宽度相加,得到所有行的宽度的平均值。
S101f、将每一行的宽度和平均值的比值,与第二预设阈值比较,确定每行对应的比值是否小于第二预设阈值。
对应地,本实施例中的根据预设的格式特征与特征值的对应关系,获取格式特征的第二总特征值,可以包括:
B1、根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于第二预设阈值的第五特征值。
根据预设的文字特征与特征值的对应关系,分别确定以数字结尾的行的特征值和/或基于行宽的比值小于第二预设阈值的特征值。
在一些例子中,在第一页面存在以数字结尾的行的情况下,且存在多个以数字结尾的行的情况下,根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值,可以包括:
根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
本实施例中,遍历目标文档,出现一个以数字结尾的行,按照单个以数字结尾的行与特征值的对应关系,得到一个以数字结尾的行的特征值,在出现以数字结尾的行时,将该特征值与之前得到的以数字结尾的行的特征值相加,以此类推,得到各个以数字结尾的行的第四特征值。
在又一些例子中,在目标文档存在基于行宽的比值小于第二预设阈值时,且存在多行的基于行宽的比值小于所述第二预设阈值,根据预设的格式特征与特征值的对应关系,获取基于行宽的比值小于第二预设阈值的第五特征值,可以包括:
根据单行基于行宽的比值小于第二预设阈值与特征值的对应关系,将各个基于行宽的比值小于第二预设阈值的行的特征值相加,得到第五特征值。
本实施例中,遍历目标文档,出现一个基于行宽的比值小于第二预设阈值的行时,按照单行基于行宽的比值小于所述第二预设阈值与特征值的对应关系,得到一个基于行宽的比值小于第二预设阈值的行的特征值,再出现基于行宽的比值小于第二预设阈值时,将该特征值与之前得到的特征值相加,以此类推,得到多个基于行宽的比值小于第二预设阈值的行的第五特征值。
B2、将第四特征值和/或第五特征值相加,得到第二总特征值。
下面以一具体实施例,对本申请的方案进行详细说明。
参见图2,本实施例的文档目录的识别方法,可以包括:
1、遍历文档,确定存在“目录”和/或“Contents”等关键字(不仅限于中文、英文,还可以是其它语言),加1分。
2、对第一页面中的所有行的宽度求平均值,并取每一行与平均值的差值的绝对值再除以平均值,当该比值小于0.2,每一个加0.1分。
3、存在加粗文字或者单词,每一个加0.1分。
4、文档中行文字的末尾为数字,每一个加0.1分。
5、当文档中,存在“一”、“二”等数字,或者“章”、“节”等(此处同样不限于中文,还可以是其它语言),每一个加0.1分。
6、当文档中,存在“1.1”,“1.2”,“2.1”等数字,每一个加0.1分。
将上述特征值求和,当该和大于3(该数值可能会根据实际情况进行调整)时,则认为该文档中存在目录。
上述实施例中每个特征的特征值以及0.2和3,可根据各个特征对目录的影响大小进行评分而得到。
本申请一实施例提供的准确识别文档目录并展示目录的装置,包括:第一获取模块,用于遍历目标文档,获取所述目标文档中的目录特征;第二获取模块,用于根据预设计分规则,获得所述目录特征的特征值;确定模块,用于比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;呈现模块,用于若存在目录,则通过所述目标文档中的第一页面呈现给用户,便于提高用户浏览文档的效率。
图2为本申请一实施例提供的准确识别文档目录并展示目录的装置的结构示意图,如图2所示,本实施例的准确识别文档目录并展示目录的装置,可以包括:第一获取模块11,用于遍历目标文档,获取所述目标文档中的目录特征;第二获取模块12,用于根据预设计分规则,获得所述目录特征的特征值;确定模块13,用于比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;呈现模块14,用于若存在目录,则通过所述目标文档中的第一页面呈现给用户。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例的装置,通过遍历目标文档,获取所述目标文档中的目录特征,根据预设计分规则,获得所述目录特征的特征值,再比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,如果存在目录,则通过所述目标文档中的第一页面呈现给用户,避免了现有技术中手动查找是否存在目录以及目录所在位置而导致的用户浏览文档效率较低的问题,便于提高用户浏览文档的效率。
作为一可选实施方式,所述目录特征包括文字特征和/或格式特征;所述第一获取模块,包括:第一获取子模块,用于遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;所述第二获取模块,包括:第二获取子模块,用于根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;所述确定模块,包括:第一确定子模块,比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,得到子模块,用于比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;第二确定子模块,用于将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
作为一可选实施方式,所述目录特征为文字特征;所述文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字;所述第一获取子模块,包括:第一获取单元,用于遍历目标文档,获取所述目标文档中的所述目录关键字、所述粗体文字和/或所述章节文字;所述第二获取子模块,包括:第二获取单元,用于根据预设的文字特征与特征值的对应关系,获取所述目录关键字的第一特征值、所述粗体文字的第二特征值和/或所述章节文字的第三特征值;得到单元,用于将所述第一特征值、所述第二特征值和/或所述第三特征值相加,得到第一总特征值。
作为一可选实施方式,所述第二获取单元,具体用于:根据单个粗体文字与特征值的对应关系,将各个所述粗体文字的特征值相加,得到第二特征值。
作为一可选实施方式,所述第二获取单元,具体用于:根据单个章节文字与特征值的对应关系,将各个所述章节文字的特征值相加,得到第三特征值。
作为一可选实施方式,所述目录特征为格式特征;所述格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值;所述第一获取子模块,包括:第三获取单元,用于遍历目标文档,获取以数字结尾的行;和/或,第一确定单元,用于遍历目标文档的每一行,确定每一行的宽度;第一得到单元,用于将所述目标文档的所有行的宽度相加,得到所有行的宽度的平均值;第二确定单元,用于将每一行的宽度和所述平均值的比值,与所述第二预设阈值比较,确定每行对应的所述比值是否小于所述第二预设阈值;所述第二获取子模块,包括:第四获取单元,用于根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于所述第二预设阈值的第五特征值;第二得到单元,用于将所述第四特征值和/或所述第五特征值相加,得到第二总特征值。
作为一可选实施方式,所述第四获取单元,具体用于:根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
作为一可选实施方式,所述第四获取单元,具体用于:根据单行基于行宽的比值小于所述第二预设阈值与特征值的对应关系,将各个基于行宽的比值小于所述第二预设阈值的行的特征值相加,得到第五特征值。
上述实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3为本申请一实施例提供的电子设备的结构示意图,如图3所示,可以包括:壳体61、处理器62、存储器63、电路板64和电源电路65,其中,电路板64安置在壳体61围成的空间内部,处理器62和存储器63设置在电路板64上;电源电路65,用于为上述电子设备的各个电路或器件供电;存储器63用于存储可执行程序代码;处理器62通过读取存储器63中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述实施例提供的任一种准确识别文档目录并展示目录的方法,因此也能实现相应的有益技术效果,前文已经进行了详细说明,此处不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(4)其他具有数据交互功能的电子设备。
相应的,本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种准确识别文档目录并展示目录的方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本申请时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种准确识别文档目录并展示目录的方法,其特征在于,包括:
遍历目标文档,获取所述目标文档中的目录特征;
根据预设计分规则,获得所述目录特征的特征值;
比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;
若存在目录,则通过所述目标文档中的第一页面呈现给用户。
2.根据权利要求1所述的方法,其特征在于,所述目录特征包括文字特征和/或格式特征;
所述遍历目标文档,获取所述目标文档中的目录特征,包括:
遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;
所述根据预设计分规则,获得所述目录特征的特征值,包括:
根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;
所述比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,包括:
比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,
比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;
将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
3.根据权利要求2所述的方法,其特征在于,所述目录特征为文字特征;所述文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字;
所述遍历目标文档,获取所述目标文档中的文字特征,包括:
遍历目标文档,获取所述目标文档中的所述目录关键字、所述粗体文字和/或所述章节文字;
所述根据预设的文字特征与特征值的对应关系,获取所述文字特征的第一总特征值,包括:
根据预设的文字特征与特征值的对应关系,获取所述目录关键字的第一特征值、所述粗体文字的第二特征值和/或所述章节文字的第三特征值;
将所述第一特征值、所述第二特征值和/或所述第三特征值相加,得到第一总特征值。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的文字特征与特征值的对应关系,获取所述粗体文字的第二特征值,包括:
根据单个粗体文字与特征值的对应关系,将各个所述粗体文字的特征值相加,得到第二特征值。
5.根据权利要求3所述的方法,其特征在于,所述根据预设的文字特征与特征值的对应关系,获取所述章节文字的第三特征值,包括:
根据单个章节文字与特征值的对应关系,将各个所述章节文字的特征值相加,得到第三特征值。
6.根据权利要求2所述的方法,其特征在于,所述目录特征为格式特征;所述格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值;
所述遍历目标文档,获取所述目标文档中的格式特征,包括:
遍历目标文档,获取以数字结尾的行;和/或,
遍历目标文档的每一行,确定每一行的宽度;
将所述目标文档的所有行的宽度相加,得到所有行的宽度的平均值;
将每一行的宽度和所述平均值的比值,与所述第二预设阈值比较,确定每行对应的所述比值是否小于所述第二预设阈值;
所述根据预设的格式特征与特征值的对应关系,获取所述格式特征的第二总特征值,包括:
根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于所述第二预设阈值的第五特征值;
将所述第四特征值和/或所述第五特征值相加,得到第二总特征值。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值,包括:
根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
8.根据权利要求6所述的方法,其特征在于,所述根据预设的格式特征与特征值的对应关系,获取基于行宽的比值小于所述第二预设阈值的第五特征值,包括:
根据单行基于行宽的比值小于所述第二预设阈值与特征值的对应关系,将各个基于行宽的比值小于所述第二预设阈值的行的特征值相加,得到第五特征值。
9.一种准确识别文档目录并展示目录的装置,其特征在于,包括:
第一获取模块,用于遍历目标文档,获取所述目标文档中的目录特征;
第二获取模块,用于根据预设计分规则,获得所述目录特征的特征值;
确定模块,用于比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;
呈现模块,用于若存在目录,则通过所述目标文档中的第一页面呈现给用户。
10.根据权利要求9所述的装置,其特征在于,所述目录特征包括文字特征和/或格式特征;
所述第一获取模块,包括:
第一获取子模块,用于遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;
所述第二获取模块,包括:
第二获取子模块,用于根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;
所述确定模块,包括:
第一确定子模块,比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,
得到子模块,用于比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;
第二确定子模块,用于将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
CN202210724595.XA 2022-06-24 2022-06-24 一种准确识别文档目录并展示目录的方法及装置 Pending CN115099187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210724595.XA CN115099187A (zh) 2022-06-24 2022-06-24 一种准确识别文档目录并展示目录的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210724595.XA CN115099187A (zh) 2022-06-24 2022-06-24 一种准确识别文档目录并展示目录的方法及装置

Publications (1)

Publication Number Publication Date
CN115099187A true CN115099187A (zh) 2022-09-23

Family

ID=83292218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210724595.XA Pending CN115099187A (zh) 2022-06-24 2022-06-24 一种准确识别文档目录并展示目录的方法及装置

Country Status (1)

Country Link
CN (1) CN115099187A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024564A1 (en) * 2007-07-19 2009-01-22 Sun Microsystems, Inc. Method and system for accessing a file system
CN101458680A (zh) * 2008-09-03 2009-06-17 北京大学 一种自动识别数字文档目录的方法及装置
CN109471838A (zh) * 2018-10-19 2019-03-15 天津字节跳动科技有限公司 目录文档的操作方法、装置、电子设备、可读存储介质
CN111444750A (zh) * 2019-01-17 2020-07-24 珠海金山办公软件有限公司 一种pdf文档识别方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024564A1 (en) * 2007-07-19 2009-01-22 Sun Microsystems, Inc. Method and system for accessing a file system
CN101458680A (zh) * 2008-09-03 2009-06-17 北京大学 一种自动识别数字文档目录的方法及装置
CN109471838A (zh) * 2018-10-19 2019-03-15 天津字节跳动科技有限公司 目录文档的操作方法、装置、电子设备、可读存储介质
CN111444750A (zh) * 2019-01-17 2020-07-24 珠海金山办公软件有限公司 一种pdf文档识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
CN108572990B (zh) 信息推送方法和装置
US9904936B2 (en) Method and apparatus for identifying elements of a webpage in different viewports of sizes
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
US9514113B1 (en) Methods for automatic footnote generation
CN110020312B (zh) 提取网页正文的方法和装置
CN112380337A (zh) 基于富文本的高亮方法及装置
CN112579937A (zh) 一种字符的高亮显示方法及装置
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
CN110489740B (zh) 语义解析方法及相关产品
CN115099187A (zh) 一种准确识别文档目录并展示目录的方法及装置
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN115048908A (zh) 一种生成文本目录的方法及装置
CN113761906B (zh) 解析文档的方法、装置、设备和计算机可读介质
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN114610808A (zh) 数据存储方法、装置、电子设备及介质
CN110427541B (zh) 一种网页内容提取方法、系统、电子设备及介质
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
CN115310436A (zh) 一种文档提纲的抽取方法、装置、电子设备及存储介质
CN112800078A (zh) 基于javascript的轻量级文本标注方法、系统、设备及存储介质
CN113435166B (zh) 一种加下划线方法和系统、计算机装置、可读存储介质
CN114416954B (zh) 文本检索方法、装置、设备及存储介质
CN111274352B (zh) 工具书中特征字的标注方法和设备
CN111061955B (zh) 网页正文的提取方法、装置、服务器和存储介质
US20240220522A1 (en) Data display method, device, computer apparatus and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination