CN115310436A - 一种文档提纲的抽取方法、装置、电子设备及存储介质 - Google Patents

一种文档提纲的抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115310436A
CN115310436A CN202110497223.3A CN202110497223A CN115310436A CN 115310436 A CN115310436 A CN 115310436A CN 202110497223 A CN202110497223 A CN 202110497223A CN 115310436 A CN115310436 A CN 115310436A
Authority
CN
China
Prior art keywords
outline
title
titles
target
hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110497223.3A
Other languages
English (en)
Inventor
陈启贤
余燕
王浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202110497223.3A priority Critical patent/CN115310436A/zh
Publication of CN115310436A publication Critical patent/CN115310436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供了一种提纲列表的生成方法、装置、电子设备及存储介质,应用于计算机技术领域,该抽取方法包括:获取目标文档中的多个提纲标题;基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级;将归属于预定层级的多个所述提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。

Description

一种文档提纲的抽取方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种文档提纲的抽取方法、装置、电子设备及存储介质。
背景技术
为了辅助读者从较多的文档数据中快速了解文档的内容,通常需要从文档中抽取文档提纲,从而使得读者能够基于文档的提纲来了解文档的内容。
现有技术中,在对目标文档进行提纲抽取时,遍历目标文档,基于预设的正则表达式,从目标文档中提取出提纲标题,并对抽取出的提纲标题进行排序,得到目标文档的提纲列表。
然而,目标文档中通常存在多个层级的提纲,例如:第一层级:第一、第二;第二层级:其一、其二;第三层级:1、2等等,在具体应用时,用户存在只查看由部分层级的提纲标题构成的提纲列表,例如:只需要查看由第一层级和第二层级的提纲标题构成的提纲列表。而通过现有技术所得到的提纲列表,为从目标文档中提取出的所有提纲标题构成的,无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差。
发明内容
本发明实施例的目的在于提供一种文档提纲的抽取方法、装置、电子设备及存储介质,以解决无法根据用户的提纲标题查看需求,生成对应的提纲列表的问题。具体技术方案如下:
第一方面,本发明实施例提供了一种提纲列表的生成方法,包括:
获取目标文档中的多个提纲标题;
基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
可选地,所述获取目标文档中的多个提纲标题,包括:
按照段落在所述目标文档的位置顺序,依次从所述目标文档中提取多个所述段落;
针对每一段落,识别所述段落的位置最靠前的句子,作为目标句;
从识别出的多个目标句中,确定多个提纲标题。
可选地,所述从识别出的多个目标句中,确定多个提纲标题,包括:
根据预定的正则表达式,从识别出的多个目标句中,匹配出提纲标题;其中,所述预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。
可选地,所述获取目标文档中的多个提纲标题,包括:
从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置;
将所述提纲标题按照命名结构进行分组,得到多个提纲标题组;
按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。
可选地,所述从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,包括:
根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。
可选地,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与该类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
可选地,基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:
将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
可选地,所述基于各提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定各提纲标题所属的层级,还包括:
从当前确定的层级中,查找最低层级,得到当前层级;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于该当前层级的提纲标题;
将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。
可选地,将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组;
针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;
根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。
可选地,所述基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:
将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
可选地,所述基于各提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定各提纲标题所属的层级,还包括:
从当前所确定的层级中,查找最低层级,得到当前层级;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题;
在所述第一提纲标题不是所述当前层级的最后一个提纲标题的情况下,将在所述目标文档中位于所述第一提纲标题和第二提纲标题之间、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题,其中,所述第二提纲标题为与所述第一提纲标题所属层级相同,且与所述第一提纲标题相邻的提纲标题;
在所述第一提纲标题是所述当前层级的最后一个提纲标题的情况下,将所述目标文档中位于所述第一提纲标题之后、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题。
可选地,所述方法还包括:为每一提纲标题附加一模式标识;其中,所述模式标识为与所述提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
可选地,所述将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
从所述多个提纲标题中,确定归属于预定层级的多个提纲标题,得到多个目标提纲标题;
针对每一目标提纲标题,确定所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的目标提纲标题;
根据该目标提纲标题在所述目标文档中的位置顺序,将该目标提纲标题融合至各基准提纲标题之间、或者最后一个基准提纲标题之后,得到所述目标文档的提纲列表。
可选地,在所述获取目标文档中的多个提纲标题之前,还包括:
确定预定层级,所述预定层级为待融合入所述目标提纲列表的层级。
第二方面,本发明实施例提供了一种提纲列表的生成方法,应用于电子设备,包括:
接收针对目标文档的用户操作;
响应于所述用户操作,以生成所述目标文档的目标提纲列表,其中,所述目标提纲列表为按照上述任一项所述的提纲列表的生成方法所生成的;
显示第一页面,所述第一页面显示有所述目标提纲列表。
第三方面,本发明实施例提供了一种提纲列表的生成装置,包括:
提纲获取模块,用于获取目标文档中的多个提纲标题,其中,所获取的多个提纲标题按照在所述目标文档中的位置顺序排序;
层级确定模块,用于基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
提纲融合模块,用于将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
第四方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明实施例提供的一种提纲列表的生成方法的步骤。
第五方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的一种提纲列表的生成方法的步骤。
本发明实施例有益效果:
本发明实施例提供的方案,获取目标文档中的多个提纲标题,其中,所获取的所述多个提纲标题按照在所述目标文档中的位置顺序排序;基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级;将归属于预定层级的多个所述提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。从而可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例的一种提纲列表的生成方法的流程图;
图2为本发明实施例的一种提纲列表的生成方法的另一流程图;
图3为本发明实施例的一种提纲列表的生成方法的又一流程图;
图4为本发明实施例的一种文档提纲的抽取装置的结构示意图;
图5为本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决无法根据用户的提纲标题查看需求,生成对应的提纲列表的问题,本发明实施例提供了一种提纲列表的生成方法方法、装置、电子设备及存储介质。
需要说明的是,本发明实施例所提供的一种提纲列表的生成方法可以应用于电子设备,在实际应用中,该电子设备可以为:智能手机、平板电脑、笔记本电脑等设备,这都是合理的。具体而言,本发明实施例所提供的一种提纲列表的生成方法的执行主体可以为运行于电子设备中的办公软件的插件,例如:word文档软件的插件、wps文档软件的插件等,也可以为运行于电子设备中的实现文档提纲抽取的应用软件。
本发明实施例所针对的文档可以为任一电子文档,例如人民日报社评等。其中,每一电子文档中可以包含多个提纲标题,该多个提纲标题可以生成对应的提纲列表,每一提纲标题包含该提纲标题的标题序号和提纲正文。例如:提纲列表为:第一,测试1;其一,测试2;其二,测试3。那么,“第一,测试1”、“其一,测试2”和“其二,测试3”为构成该提纲列表的多个提纲标题,“第一”、“其一”和“其二”为该提纲标题的标题序号,“测试1”、“测试2”和“测试3”为提纲正文。
另外,本实施例中,每一提纲序号还可以满足预定的命名结构。需要注意的是,下文中涉及的提纲标题的命名结构,与提纲序号的命名结构,描述的是同一个概念。
示例性的,假设一文档中的多个提纲标题的标题序号包括:第一、第二、其一、其二、(一)和(二),其中,包含第一的提纲标题和包含第二的提纲标题为命名结构相同的提纲标题,包含其一的提纲标题和包含其二的提纲标题为命名结构相同的提纲标题,包含(一)的提纲标题和包含(二)的提纲标题为命名结构相同的提纲标题。
进一步的,本发明实施例的电子文档中的每一提纲标题均对应有一层级,且每一层级的提纲标题可以对应一种或多种命名结构,即,每一层级的提纲标题可以包括多种标题序号。例如,目标文档的提纲列表为:第一,测试。1.测试。2.测试;第二,测试。其一,测试。其二,测试;第三,测试。1.测试。2.测试。那么,该提纲列表中,第一层级的提纲标题为:“第一,测试”、“第二,测试”和“第三,测试”,即第一层级的提纲标题对应一种命名结构。第二层级的提纲标题为:“其一,测试”、“其二,测试”、“1.测试”和“2.测试”,即第二层级的提纲标题对应两种命名结构,以此类推。
文档提纲的层级关系可以为由高到低的关系,并且,针对属于同一层级的多个提纲标题而言,该属于同一层级的每一提纲标题下,可以存在多个低层级的提纲标题。例如,第一层级为最高层级,第二层级、第三层级为低层级,且第一层级包含第一、第二、第三等标题序号,第二层级包含其一、其二等标题序号,第三层级包含(一)、(二)等标题序号,那么,文档提纲的层级关系可以依次为第一层级、第二层级、第三层级,属于第一层级的第一和第二的标题序号之间,可以存在其一、其二、(一)、(二)等低层级的标题序号。
本发明实施例所提供的一种提纲列表的生成方法,可以包括如下步骤:
获取目标文档中的多个提纲标题,其中,所获取的所述多个提纲标题按照在所述目标文档中的位置顺序排序;
基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级;
将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。从而可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。
下面结合附图对本发明实施例所提供的一种提纲列表的生成方法进行介绍。
如图1所示,本发明实施例所提供的一种提纲列表的生成方法可以包括如下步骤:
S101,获取目标文档中的多个提纲标题;
在一实施例中,获取的多个提纲标题按照在该目标文档中的位置顺序排序。位置顺序指的是提纲标题按照其在目标文档中的位置进行排序得到的顺序。并且,对所获取的多个提纲标题进行排序的过程可以在获取目标文档中的多个提纲标题之前进行排序,也可以在获取到该多个提纲标题之后进行排序,也可以在获取该多个提纲标题之时进行排序,这都是合理的。本发明实施例对该多个提纲标题的排序方式不做具体限定,例如:按照该多个提纲标题在目标文档中的位置,为每一提纲标题进行数字化编号,并根据该数字化编号,对该多个提纲标题进行排序等等。
可以理解的是,任一存在文档提纲列表的生成需求的电子文档,均可以作为目标文档。其中,目标文档中所包含的多个提纲标题中,每一提纲标题可以对应一类命名结构,多个提纲标题可以属于同一类命名结构。
其中,获取目标文档中的多个提纲标题的实现方式存在多种,如:按照抽取规则获取,或者按照段落的方式获取等。
1、按照抽取规则获取
示例性的,在一种实现方式中,获取目标文档中的多个提纲标题可以包括:根据该多个提纲标题的命名结构,确定抽取规则,并根据该抽取规则,从该目标文档中,抽取该多个提纲标题。其中,每一类命名结构对应一类抽取规则。其中,抽取规则可以使用预先定义的正则表达式进行表示。进一步的,在使用正则表达式获取目标文档中的提纲标题时,还可以同时记录该提纲标题在目标文档中的位置,并依据该位置的顺序对提取到的提纲标题进行排序,得到按照在该目标文档中的位置顺序排序的多个提纲标题。
2、按照段落的方式获取
示例性的,在另一种实现方式中,获取目标文档中的多个提纲标题可以包括:按照段落在目标文档的位置顺序,依次从目标文档中提取多个段落;针对每一段落,识别该段落的位置最靠前的句子,作为目标句;从所识别出的多个目标句中,确定多个提纲标题。
可以理解的是,目标文档中通常存在多个段落,提纲标题则可以是位于段落的位置最靠前的句子中。最靠前的句子可以表示该段落中的第一个句子,可以是以句号、回车符等符号作为句子结束标志的字符串。那么,在获取目标文档的多个提纲标题时,可以按照段落在目标文档的位置顺序,依次从目标文档中提取多个段落,并识别每一段落中位置最靠前的句子,从而确定出该目标文档的多个提纲标题。这样,在确定出该目标文档的多个提纲标题后,该多个提纲标题的提取顺序与其在目标文档中的位置顺序相匹配。
考虑到该多个提纲标题的命名结构可以存在多种,那么,从所识别出的多个目标句中,确定多个提纲标题的实现方式可以存在多种。
示例性的,在一种实现方式中,从所识别出的多个目标句中,确定多个提纲标题,可以包括:根据预定的正则表达式,从所识别出的多个目标句中,匹配出提纲标题;其中,预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。
该预定的正则表达式的形式可以包括多种,示例性的,在一种实现方式中,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与该类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
可以理解的是,为了方便描述该多个预定的正则表达式,示例性的,该多个预定的正则表达式的具体形式可以为:startpattern+numberpattern+endpattern。相应的,startpattern可以对应起始部分,numberpattern可以对应数字部分,endpattern可以对应结束部分。
示例性的,各部分所包含的多类元素值可以为:
numberpattern=['[一二三四五六七八九十]+','[1-9][0-9]?']
startpattern=['['+flag+']'for flag in'((第其']
endpattern=['['+flag+']'for flag in'..,,、))是要']
其中,“[]”两字符之间的元素值是或的关系,只要其中的任一个出现一次即可匹配。
其中,“?”字符表征位于“?”之前的元素值或表达式的出现次数可以为一次或者零次。例如:假设正则表达式为“colou?r”,那么,“?”表示“u”出现的次数为一次或者零次,即,该正则表达式可以用于匹配到“color”或者“colour”两种字符串。
其中,flag为待匹配的目标元素值,例如:“for flag in'((第其'表征,从((第其”表示“((第其'表征,从((第其”中的任何一个元素值,均可以视为待匹配的目标元素值flag。
其中,“+”字符表征位于“+”之前的元素值出现次数为一次或多次,如,“[一二三四五六七八九十]+”表示“[一二三四五六七八九十]”中的任一元素值出现的次数为一次或多次,可以匹配出现一次的情况,如“一”、“二”或“三”等;也可以匹配出现多次的情况,如“十一”、“十二”或“十三”等。
示例性的,假设该目标文档的提纲标题包括:第一,测试、第二,测试;其一,测试、其二,测试。那么,在抽取该目标文档的提纲标题时,该预定的正则表达式的起始部分的元素值“第”,可以与“第一,测试”以及“第二,测试”中的“第”进行匹配;元素值“其”可以与“其一,测试”和“其二,测试”进行匹配。这样,当起始部分能够匹配出具体的元素值时,则进行数字部分的元素值的匹配,并在该数据部分匹配出具体的元素值后,进行结束部分的元素值的匹配。本发明实施例中,采用的预定的正则表达式,包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与该部分相匹配的多类元素值,在提取提纲标题时,可以覆盖文档中的各个提纲标题的命名结构,从而提高了标题抽取的全面性。
示例性的,在另一种实现方式中,该多个预定的正则表达式可以包括:公式一:[第]([一二三四五六七]+[,];公式二:[1-9]?[0-9][.];公式三:[1-9]?[0-9][],其中,公式一可以用于匹配如“第一,测试”、“第二,测试”和“第三,测试”等提纲标题;……。那么,相应的,在另一种实现方式中,根据多个预定的正则表达式,从所识别出的多个目标句中,匹配出多个提纲标题,可以包括:对每一目标句,依次采用该公式一、公式二和公式三进行识别,直到能够匹配或者所有公式均已使用为止。从而,从所识别出的多个目标句中,匹配出多个提纲标题。
为了满足不同用户的提纲列表生成需求,该预定的正则表达式的数量也可以为一个。那么,当该预定的正则表达式为一个时,可以一次性从目标文档中获取所有种类的命名结构的提纲标题,且所获取到的提纲标题是按照在该目标文档中的位置顺序排序。
示例性的,在一种实现方式中,当该预定的正则表达式为一个时,该预定的正则表达式的可以为:[第其]?([一二三四五六七八九十]+|[1-9]?[0-9])[.)]?。
需要注意的是,由于采用一个预定的正则表达式对目标文档中的所有种类的命名结构的提纲标题进行提取,所提取出来的提纲标题是按照在该目标文档中的位置顺序排序。
S102,基于该多个提纲标题的命名结构,以及在该目标文档中的位置顺序,确定该多个提纲标题所属的层级。
其中,每一提纲标题的命名结构中至少包括该提纲标题的标题序号。例如:提纲标题“1测试”中的“1”、提纲标题“2测试”中的“2”、提纲标题“第一测试”中的“第一”和提纲标题“第二测试”中的“第二”等等。
进一步的,为了满足用户对不同层级的提纲标题的列表生成请求,在获取到目标文档的多个提纲标题后,可以对各提纲标题所属的层级进行确定。
示例性的,在一种实现方式中,基于该多个提纲标题的命名结构,以及在该目标文档中的位置顺序,确定该多个提纲标题所属的层级,可以包括:将该目标文档中位置最靠前的提纲标题,以及与该位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
示例性的,在另一种实现方式中,基于该多个提纲标题的命名结构,以及在该目标文档中的位置顺序,确定该多个提纲标题所属的层级,还可以包括:
从当前所确定的层级中,查找最低层级,得到当前层级;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于该当前层级的提纲标题;
将在所述目标文档中位于所述第一提纲标题和第二提纲标题之间的、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题,其中,所述第二提纲标题为与所述第一提纲标题所属层级相同,且与所述第一提纲标题相邻的提纲标题。
可以理解的是,为了提高层级确定的准确性,按照各提纲标题在目标文档中的位置顺序,依次确定出各层级所对应的提纲标题。例如:将该目标文档中位置最靠前的提纲标题,作为最高层级对应的提纲标题,并在确定出最高层级对应的提纲标题后,将与该最高层级对应的提纲标题相邻的提纲标题,作为第二层级对应的提纲标题,依次类推。其中,与该最高层级对应的提纲标题相邻可以理解为:与该最高层级对应的提纲标题在目标文档中的位置顺序相邻。
那么,示例性的,假设在需要确定第三层级对应的提纲标题时,可以从当前所确定的层级中,查找最低层级,即第二层级,并将第二层级作为当前层级,依次进行剩余层级的确定。
考虑到当前层级的下一层级对应的提纲标题,往往紧随在当前层级对应的提纲标题之后,那么,在确定当前层级的下一层级时,可以将当前层级所对应的第一提纲标题和第二提纲标题之间,且在目标文档中紧随第一提纲标题之后的提纲标题,确定为下一层级所对应的提纲标题。
S103,将归属于预定层级的多个目标提纲标题,按照该层级的先后顺序进行融合,得到目标提纲列表。
其中,提纲标题在目标文档中是以层级进行划分,高层级的提纲标题之间或之后嵌套有低层级的提纲标题。层级的先后顺序指的是提纲标题按照从高层级到低层级进行排列的顺序,即可以按照第一层级、第二层级、第三层级……的顺序进行排列,其中,第二层级嵌套于第一层级中,第三层级嵌套于第二层级中。
需要注意的是,步骤S102和步骤S103的具体执行过程可以为先执行S102,再执行S103,即:先确定出每一提纲标题所属的层级,再对归属于预定层级的多个目标提纲标题,按照该层级的先后顺序进行融合,得到目标提纲列表。也可以为步骤S102和步骤S103交叉执行,即:针对每一提纲标题,在步骤S102中,确定该提纲标题的层级后,执行步骤S103,以识别该提纲标题是否为归属于预定层级的目标提纲标题;若是,则按照该目标提纲标题的层级进行融合;若否,则忽略该提纲标题,继续在步骤102中确定下一提纲标题的层级,直至将所有归属于预定层级的目标提纲标题全部融合,得到目标提纲列表。
另外,融合的过程即将目标提纲标题添加到目标提纲列表的过程,在融合结束后,得到最终的目标提纲列表。
另外,该多个目标提纲标题可以为所获取到的目标文档中所有提纲标题中的部分提纲标题,也可以为所有的提纲标题。也就是说,为了满足用户对不同层级的提纲标题的列表生成需求,可以在生成提纲列表时,从多个提纲标题中,确定归属于预定层级的多个提纲标题,用于生成提纲列表。其中,该预定层级可以为用户选取的层级,当然,当用户未选取层级时,该预定层级可以为默认层级,例如:所有层级,或者上一次生成提纲列表时所选取的层级等,这都是合理的。
另外,用户选取待生成提纲列表的层级的实现方式可以存在多种,例如:用户通过点击提纲列表生成界面的功能按钮,以使该界面弹出层级选取对话框。本发明实施例中,对该功能按钮的具体形式不做限定,示例性的,该功能按钮可以为下拉菜单栏,或者快捷键等等。
示例性的,在一种实现方式中,将归属于预定层级的多个目标提纲标题,按照该层级的先后顺序进行融合,得到目标提纲列表,可以包括:
从该多个提纲标题中,确定归属于预定层级的多个提纲标题,得到多个目标提纲标题;
针对每一目标提纲标题,确定该目标提纲标题对应的基准提纲标题;其中,目标提纲标题对应的基准提纲标题为该目标提纲标题的上一层级对应的目标提纲标题;
根据该目标提纲标题在该目标文档中的位置顺序,将该目标提纲标题融合至各基准提纲标题之间、或者最后一个基准提纲标题之后,得到该目标文档的提纲列表。
为了方便将多个目标提纲标题进行融合,可以在融合时,确定每一目标提纲标题的上一层级对应的目标提纲标题,即基准提纲标题,并在融合时,将该目标提纲标题融合至各基准提纲标题之间、或者最后一个基准提纲标题之后。
当然,在进行目标提纲标题的融合时,可以按照层级顺序,依次对各层级对应的提纲标题进行融合,示例性的,可以先将归属于最高层级,如第一层级的多个目标提纲标题,按照在目标文档中的位置顺序进行排序融合,并在融合后,进行第二层级对应的目标提纲标题的融合。
此外,示例性的,在进行融合时还可以将已排好序的,归属于同一层级的多个目标提纲标题作为一个整体,进行融合。示例性的,假设,目标文档的所有提纲标题按照在目标文档的出现顺序,依次为:第一,测试;其一,测试;其二,测试;第二,测试;其一,测试X;1,测试;2,测试;其二,测试X;第三,测试;一、测试;二、测试。可以根据步骤S102确定各提纲标题的层级,如,确定第一层级所包括的目标提纲标题为:第一,测试;第二,测试;第三,测试。第二层级所包括的目标提纲标题为:其一,测试;其二,测试;其一,测试X;其二,测试X。那么,在融合第二层级对应的各目标提纲标题时,可以将已排序的第二层级对应的“其一,测试;其二,测试”和“其一,测试X;其二,测试X”分别作为一个整体,融合至“第一,测试”和“第二,测试”之间,以及“第二,测试”和“第三,测试”之间。另外,由于“第三,测试”是最后一个基准提纲标题,则将其后的“一、测试”“二、测试”融合至“第三,测试”之后。进一步的,如果预定的层级只包括第一层级和第二层级,则“其一,测试X”和“其二,测试X”作为第三层级的提纲标题,不会被融合到目标提纲列表中。
可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。从而可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。
可选地,本发明的另一实施例中,该提纲列表生成方法还可以包括:
在提取提纲标题之时或者之后,为每一提纲标题附加一模式标识;其中,该模式标识为与该提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
本发明实施例中,对模式标识的形式不做具体限定,例如:该模式标识可以为数字形式,如:1、2、3等等,或者,字母形式,如:A、B、C,a、b、c等等。
可选地,在获取目标文档中的多个提纲标题之前,该方法还可以包括:
确定预定层级,该预定层级为待融合入目标提纲列表的层级。其中,该预定层级可以为用户指定的层级,也可以为默认层级等。
为了说明清楚,本实施例中,将以一具体的实施例对完整的方法流程进行说明。
本发明实施例所提供的一种提纲列表的生成方法,可以包括如下步骤(1)-(5):
(1)根据预设的段落抽取条件,对目标文档中的段落进行抽取,并将抽取出的多个段落,按照段落在目标文档中的位置顺序,生成段落列表。
在一实施例中,预设的段落抽取条件可以包括:段落长度、标点符号缺失和段落最小句子数中的一个或多个。本发明实施例对目标文档的段落抽取的具体实现过程不做限定,例如:采用Word to Vector(Word2Vec)模型、文本分类(TextCNN)模型以及注意力(Attention模型)实现对目标文档的段落抽取。其中,Attention模型用于对段落进行打分,打分区间可以在0~1之间,或者0~100之间等,得分越高,则对应的文本是段落的概率越高。
示例性的,段落打分时可以采用以段落为单位的批处理(Batch)操作,例如,以单个段落打分流程为例:经过jieba分词处理后得到该段落的单词表示,经过在高质量预料上预训练的Word2Vec模型进行词向量化,得到每个段落的词向量表示(representationfeature map)。在卷积前进行Attention操作,通过Attention矩阵计算出相应段落的注意力表示(Attention feature map),连同段落表示(representation feature map)一起输入到卷积层,对卷积结果进行池化和预设的归一化(如Softmax)求解得到最终的打分数值。
其中,Softmax求解公式包括:
Figure BDA0003054901610000161
其中,z表征每个元素的数值,k表征元素种类的总数,i表征当前元素,a表征得分。Attention操作可以分为权重关联、参数归一化和加权求和三部分。本发明对权重关联部分采取了点积(dot)操作,得到Attention矩阵的权重后进行Softmax归一化,与输入数据进行加权求和得到注意力图(Attention map),结合输入数据一起得到最终经过Attention的输出结果,再接后续的相应过程。
当然,在又一实施例中,也可以提取出目标文档中的所有段落,而不作另外的抽取条件来实现筛选的操作。
(2)按照段落列表中多个段落的顺序,依次识别每一段落的首句。之后,通过预定的多个正则表达式,分别尝试从识别出的首句中,匹配提纲标题,若有一正则表达式,可以从该首句中匹配出提纲标题,则记录该匹配得到的提纲标题对应着该正则表达式的模式id;
其中,该预定的多个正则表达式参见上述实施例中的正则表达式。示例性的,该段落列表对应的提纲标题的匹配结果可以为:(其一、测试,3),(一、测试X,2),(1、测试,4),(2、测试,4),(二、测试X,2),(其二、测试,3),(一、测试X,2),(二、测试X,2),(第一、测试,8),(其三、测试,3),(一、测试Y,2),(二、测试Y,2),(1、测试,4),(2、测试,4)其中,每一括号内的提纲标题后跟随的数字为该提纲标题对应的模式id,例如:提纲标题“其一、测试”对应的,模式id为3,“一、测试X”对应的模式id为2等等。
可以理解的是,在匹配提纲标题时,是按照提纲标题在目标文档的位置顺序,依次进行的匹配,那么,匹配出的提纲标题,也可以是按照在目标文档的位置顺序进行的排序。
(3)查找出现位置最靠前的提纲标题,并将该位置最靠前的提纲标题对应的模式id,作为一级提纲标题对应的模式id,并将该模式id对应的所有提纲标题,作为一级提纲对应的提纲标题。
示例性的,如假设,模式id为3的提纲标题出现在第一位,则将模式id为3的所有提纲标题作为一级提纲标题。如:(其一测试,3),(其二测试,3),(其三测试,3)为一级提纲标题。
(4)查找紧随一级提纲标题之后,且与一级提纲标题对应的模式id不同的一提纲标题,作为二级提纲标题,且记录该二级提纲标题对应的模式id。在两个相邻的一级提纲标题之间,搜索所有具有该二级提纲标题对应的模式id的提纲标题,作为二级提纲标题,并插入到上述的两个相邻的一级提纲标题之间。当一级提纲标题为最后一个一级提纲标题时,则在该最后一个一级提纲标题之后,搜索所有具有该二级提纲标题对应的模式id的提纲标题,作为二级提纲标题,并插入到该最后一个一级提纲标题之后。
示例性的,如假设,提纲标题(一、测试X,2)位于第二个位置,且紧随一级提纲标题(其一、测试,3)之后出现,则将位于一级提纲标题(其一、测试,3)和一级提纲标题(其二、测试,3)之间的、所有模式id为2的提纲标题作为二级提纲标题,即(一测试X,2),(二测试X,2)。之后将该二级提纲标题,插入到一级提纲标题(其一测试,3)和一级提纲标题(其二测试,3)之间,其结果可以为:(其一测试,3),(一测试X,2),(二测试X,2),(其二测试,3),(其三测试,3)。同理,可以搜索到一级提纲标题(其二测试,3)和一级提纲标题(其三测试,3)之间的二级提纲标题为(一、测试X,2),(二、测试X,2),插入的结果为:(其一测试,3)和一级提纲标题(其二测试,3)之间,其结果可以为:(其一测试,3),(一测试X,2),(二测试X,2),(其二测试,3),(一测试X,2),(二测试X,2),(其三测试,3)。同理,最后一个一级提纲标题(其三测试,3)之后的二级提纲标题为(一、测试Y,2),(二、测试Y,2),插入之后的结果为:(其一测试,3)和一级提纲标题(其二测试,3)之间,其结果可以为:(其一测试,3),(一测试X,2),(二测试X,2),(其二测试,3),(一测试X,2),(二测试X,2),(其三测试,3)(一、测试Y,2),(二、测试Y,2)。
(5)如果预定层级只包括一级和二级,则将上述的最后结果作为目标提纲列表输出;如果预定层级还包括三级,则继续按照类似上述搜索二级提纲标题的方式继续搜索三级提纲标题,并插入,直到所有预定层级均插入完毕为止,将最后结果作为目标提纲列表输出。
以上的实施方式既可以适用于同一层级采用一种命名结构的情况,也可以适用于同一层级采用多种命名结构的情况。以下,将说明一种适用于同一层级采用一种命名结构、且实现更加简便的实施方式。
具体的,如图2所示,上述的步骤S101-步骤S103,可以细化为如下步骤S110-S170:
S110、从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置。
本实施例中,可以根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录提纲标题在目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。
在一实施例中,该多个预定的正则表达式的形式可以包括多种,示例性的,在一种实现方式中,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与该类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
可以理解的是,为了方便描述该多个预定的正则表达式,示例性的,该多个预定的正则表达式的具体形式可以为:startpattern+numberpattern+endpattern。相应的,startpattern可以对应起始部分,numberpattern可以对应数字部分,endpattern可以对应结束部分。
进一步的,当使用正则表达式匹配到提纲标题时,还可以记录该提纲标题在目标文档中的位置,如,该位置可以记录为该提纲标题是从目标文档中的第N个字符到第M个字符,其中,N和M为正整数。又如,该位置可以记录为该提纲标题是从目标文档中的第N个字符开始的、且总长度为T。来记录该位置。如“这个一条提纲标题”,当匹配的是“提纲标题”这几个字时,可以可以记录为(5,8)或者(5,4),其中,5表示“提纲标题”是从“这个一条提纲标题”中的第5个字符开始;8表示“提纲标题”是从“这个一条提纲标题”中的第8个字符结束;4表示“提纲标题”的字符串包括4个字符,即字符串的总长度为4。
S120、将所述提纲标题按照命名结构进行分组,得到多个提纲标题组。
在一实施例中,在提取提纲标题之时或者之后,为每一提纲标题附加一模式标识;其中,该模式标识为与该提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
本发明实施例中,对模式标识的形式不做具体限定,例如:该模式标识可以为数字形式,如:1、2、3等等,或者,字母形式,如:A、B、C,a、b、c等等。
进一步的,可以将带有同样模式标识的提纲标题认为是采用同一命名结构。也就是说,可以将带有同样模式标识的提纲标题,分为同一提纲标题组。
S130、按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。
在一实施例中,可以根据提纲标题在所述目标文档中的位置的先后进行进行排序。在又一实施例中,还可以根据提纲标题中的序号进行排序。
S140、基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级。
具体的,多个提纲标题组可以包括如下两种情况:最高层级对应的提纲标题组、低层级对应的提纲标题组。
1、最高层级对应的提纲标题组
本实施例中,将所述目标文档中位置最靠前的提纲标题所在的提纲标题组,作为最高层级对应的提纲标题组。
2、低层级对应的提纲标题组
本实施例中,从当前确定的层级的提纲标题组中,查找最低层级的提纲标题组,得到当前层级的提纲标题组;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题的后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题组中的提纲标题;
将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。
S150、从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组。
其中,该多个目标提纲标题组可以为所获取到的目标文档中所有提纲标题组中的部分提纲标题组,也可以为所有的提纲标题组。也就是说,为了满足用户对不同层级的提纲标题的列表生成需求,可以在生成提纲列表时,从多个提纲标题组中,确定归属于预定层级的多个提纲标题组,用于生成提纲列表。其中,该预定层级可以为用户选取的层级,当然,当用户未选取层级时,该预定层级可以为默认层级,例如:所有层级,或者上一次生成提纲列表时所选取的层级等,这都是合理的。
另外,用户选取待生成提纲列表的层级的实现方式可以存在多种,例如:用户通过点击提纲列表生成界面的功能按钮,以使该界面弹出层级选取对话框。本发明实施例中,对该功能按钮的具体形式不做限定,示例性的,该功能按钮可以为下拉菜单栏,或者快捷键等等。
S160、针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;
S170、根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。
在一实施例中,在确定各目标提纲标题在所述目标文档中的位置顺序之后,还可以确定各目标提纲标题与各基准提纲标题之间的相对位置关系,该相对位置关系可以确定目标提纲标题是在某个提纲标题之后,还可以确定目标提纲标题位于哪两个基准提纲标题之间。进一步的,可以根据确定的该相对位置关系,将目标提纲标题融合至与目标提纲标题具有相对位置关系的基准提纲标题之后。
示例性的,假设目标文档的所有提纲标题按照在目标文档的出现顺序,依次为:(一)、测试;(1)、测试;(2)、测试;(3)、测试;(二)、测试;(三)、测试;(1)、测试;(2)、测试。
那么,首先,从目标文档中,按照上述出现顺序,将多个提纲标题抽取出,并记录各提纲标题在目标文档中的位置。
其次,按照命名结构对各提纲标题进行分组,将“(一)、测试;(二)、测试;(三)、测试”分为一组,并将“(1)、测试;(2)、测试;(3)、测试,以及(1)、测试;(2)、测试”分为一组。根据所记录的各提纲标题在目标文档中的位置,确定出“(一)、测试”为一级提纲(最高层级)对应的提纲标题,那么,“(1)、测试;(2)、测试;(3)、测试,以及(1)、测试;(2)、测试”等则为二级提纲对应的提纲标题。
再次,将二级提纲对应的提纲标题插入至一级提纲对应的提纲标题中,得到:(一)、测试;(1)、测试;(2)、测试;(3)、测试;
(二)、测试;
(三)、测试;(1)、测试;(2)、测试。
其中,3个目标提纲标题“(1)、测试;(2)、测试;(3)、测试”与2个基准提纲标题“(一)、测试”和“(二)、测试”具有相对位置关系,可以将3个目标提纲标题“(1)、测试;(2)、测试;(3)、测试”融合至与2个基准提纲标题“(一)、测试”和“(二)、测试”之间,即基准提纲标题“(一)、测试”之后;2个目标提纲标题“(1)、测试;(2)、测试”与基准提纲标题“(三)具有相对位置关系,可以将2个目标提纲标题“(1)、测试;(2)、测试”融合至与基准提纲标题“(三)、测试”之后。
可以理解的是,由于“(1)、测试;(2)、测试;(3)、测试”,以及“(1)、测试;(2)、测试”可以根据其在目标文档中的位置,被区分成两组,那么,可以对各组内部按照数字模式进行排序,得到最终的提纲标题列表。
下面从执行主体为电子设备的角度,对本发明实施例提供的一种提纲列表的生成方法进行介绍。
如图3所示,本发明实施例所提供的一种提纲列表的生成方法,应用于电子设备,可以包括:
S201,接收针对目标文档的用户操作;
S202,响应于所述用户操作,以生成所述目标文档的目标提纲列表;
其中,所述目标提纲列表为上述任一项所述的提纲列表的生成方法所生成的;
S203,显示第一页面,所述第一页面显示有所述目标提纲列表。
其中,对针对目标文档的用户操作的方式不做具体限定,例如:针对目标文档的用户操作可以包括点击列表生成功能按钮等。并且,该第一页面的页面形式可以为现有技术的任一种页面形式,在此不做限定。
本发明实施例中,在接收针对目标文档的用户操作后,可以响应于所述用户操作,以生成所述目标文档的目标提纲列表,并在第一页面显示,从而可以根据用户需要,生成对应的目标提纲列表,提高了用户体验。
相对于上述方法的实施例,如图4所示,本发明实施例提供了一种提纲列表的生成装置,包括:
提纲获取模块310,用于获取目标文档中的多个提纲标题,其中,所获取的多个提纲标题按照在所述目标文档中的位置顺序排序;
层级确定模块320,用于基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
提纲融合模块330,用于将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。从而可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。
可选地,所述提纲获取模块310包括:提纲确定子模块,所述提纲确定子模块,用于按照段落在所述目标文档的位置顺序,依次从所述目标文档中提取多个所述段落;针对每一段落,识别该段落的位置最靠前的句子,作为目标句;从识别出的多个目标句中,确定多个提纲标题。具体的,可以根据预定的正则表达式,从识别出的多个目标句中,匹配提纲标题;其中,所述预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。
可选地,所述提纲获取模块310包括:提纲抽取子模块,所述提纲抽取子模块用于:
从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置;
将所述提纲标题按照命名结构进行分组,得到多个提纲标题组;
按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。
可选地,所述提纲抽取子模块具体用于根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。
可选地,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与所述类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
可选地,所述层级确定模块320具体用于,将所述目标文档中位置最靠前的提纲标题所在的提纲标题组,作为最高层级对应的提纲标题组
可选地,所述层级确定模块320具体还用于
从当前确定的层级的提纲标题组中,查找最低层级的提纲标题组,得到当前层级的提纲标题组;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题的后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题组中的提纲标题;
将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。
可选地,所述提纲融合模块330具体用于,从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组;
针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;
根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。
可选地,层级确定模块320具体用于,将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
可选地,所述层级确定模块320还用于,从当前所确定的层级中,查找最低层级,得到当前层级;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题;
在所述第一提纲标题不是所述当前层级的最后一个提纲标题的情况下,将在所述目标文档中位于所述第一提纲标题和第二提纲标题之间、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题,其中,所述第二提纲标题为与所述第一提纲标题所属层级相同,且与所述第一提纲标题相邻的提纲标题;
在所述第一提纲标题是所述当前层级的最后一个提纲标题的情况下,将所述目标文档中位于所述第一提纲标题之后、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题。
可选地,所述装置还包括:标识附加模块,用于为每一提纲标题附加一模式标识;其中,所述模式标识为与所述提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
可选地,所述提纲融合模块330具体用于从所述多个提纲标题中,确定归属于预定层级的多个提纲标题,得到多个目标提纲标题;
针对每一目标提纲标题,确定该目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为该目标提纲标题的上一层级对应的目标提纲标题;
根据该目标提纲标题在所述目标文档中的位置顺序,将该目标提纲标题融合至各基准提纲标题之间、或者最后一个基准提纲标题之后,得到所述目标文档的提纲列表。
可选地,所述装置还包括:预定层级模块,用于在所述提纲获取模块310之前,确定预定层级,所述预定层级为待融合入所述目标提纲列表的层级。
本发明实施例提供了一种提纲列表的生成装置,包括:
操作接收模块,用于接收针对目标文档的用户操作;
操作响应模块,用于响应于所述用户操作,以生成所述目标文档的目标提纲列表,其中,所述目标提纲列表为按照上述任一项所述的提纲列表的生成方法所生成的;
页面显示模块,用于显示第一页面,所述第一页面显示有所述目标提纲列表。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信;
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现任一种文档提纲的抽取方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种提纲列表的生成方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一种提纲列表的生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (18)

1.一种提纲列表的生成方法,其特征在于,包括:
获取目标文档中的多个提纲标题;
基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文档中的多个提纲标题,包括:
按照段落在所述目标文档的位置顺序,依次从所述目标文档中提取多个所述段落;
针对每一段落,识别所述段落的位置最靠前的句子,作为目标句;
从识别出的多个目标句中,确定多个提纲标题。
3.根据权利要求2所述的方法,其特征在于,所述从识别出的多个目标句中,确定多个提纲标题,包括:
根据预定的正则表达式,从识别出的多个目标句中,匹配提纲标题;其中,所述预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。
4.根据权利要求1所述的方法,其特征在于,所述获取目标文档中的多个提纲标题,包括:
从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置;
将所述提纲标题按照命名结构进行分组,得到多个提纲标题组;
按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。
5.根据权利要求4所述的方法,其特征在于,所述从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,包括:
根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。
6.根据权利要求3或5所述的方法,其特征在于,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与所述类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
7.根据权利要求4所述的方法,其特征在于,基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级,包括:
将所述目标文档中位置最靠前的提纲标题所在的提纲标题组,作为最高层级对应的提纲标题组。
8.根据权利要求7所述的方法,其特征在于,基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级,还包括:
从当前确定的层级的提纲标题组中,查找最低层级的提纲标题组,得到当前层级的提纲标题组;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题的后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题组中的提纲标题;
将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。
9.根据权利要求7所述的方法,其特征在于,将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组;
针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;
根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。
10.根据权利要求1项所述的方法,其特征在于,所述基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:
将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
11.根据权利要求10所述的方法,其特征在于,所述基于各提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定各提纲标题所属的层级,还包括:
从当前所确定的层级中,查找最低层级,得到当前层级;
确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题;
在所述第一提纲标题不是所述当前层级的最后一个提纲标题的情况下,将在所述目标文档中位于所述第一提纲标题和第二提纲标题之间、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题,其中,所述第二提纲标题为与所述第一提纲标题所属层级相同,且与所述第一提纲标题相邻的提纲标题;
在所述第一提纲标题是所述当前层级的最后一个提纲标题的情况下,将所述目标文档中位于所述第一提纲标题之后、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题。
12.根据权利要求10或11任一项所述的方法,其特征在于,所述方法还包括:为每一提纲标题附加一模式标识;其中,所述模式标识为与所述提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
13.根据权利要求1所述的方法,其特征在于,所述将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
从所述多个提纲标题中,确定归属于预定层级的多个提纲标题,得到多个目标提纲标题;
针对每一目标提纲标题,确定所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的目标提纲标题;
根据所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之间、或者最后一个基准提纲标题之后,得到所述目标文档的提纲列表。
14.根据权利要求1所述的方法,其特征在于,在所述获取目标文档中的多个提纲标题之前,还包括:
确定预定层级,所述预定层级为待融合入所述目标提纲列表的层级。
15.一种提纲列表的生成方法,其特征在于,应用于电子设备,包括:
接收针对目标文档的用户操作;
响应于所述用户操作,以生成所述目标文档的目标提纲列表,其中,所述目标提纲列表为按照权利要求1-14任一项所述的提纲列表的生成方法所生成的;
显示第一页面,所述第一页面显示有所述目标提纲列表。
16.一种提纲列表的生成装置,其特征在于,包括:
提纲获取模块,用于获取目标文档中的多个提纲标题;
层级确定模块,用于基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
提纲融合模块,用于将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-14或15任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-14或15任一所述的方法步骤。
CN202110497223.3A 2021-05-07 2021-05-07 一种文档提纲的抽取方法、装置、电子设备及存储介质 Pending CN115310436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110497223.3A CN115310436A (zh) 2021-05-07 2021-05-07 一种文档提纲的抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110497223.3A CN115310436A (zh) 2021-05-07 2021-05-07 一种文档提纲的抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115310436A true CN115310436A (zh) 2022-11-08

Family

ID=83853869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110497223.3A Pending CN115310436A (zh) 2021-05-07 2021-05-07 一种文档提纲的抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115310436A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952279A (zh) * 2022-12-02 2023-04-11 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952279A (zh) * 2022-12-02 2023-04-11 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质
CN115952279B (zh) * 2022-12-02 2023-09-12 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质

Similar Documents

Publication Publication Date Title
US9384214B2 (en) Image similarity from disparate sources
CN107122400B (zh) 使用视觉提示细化查询结果的方法、计算系统及存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
US20130110839A1 (en) Constructing an analysis of a document
US20110153595A1 (en) System And Method For Identifying Topics For Short Text Communications
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
US20100257177A1 (en) Document rating calculation system, document rating calculation method and program
CN110716991B (zh) 基于电子书的实体关联信息的展示方法及电子设备
CN107688616A (zh) 使实体的独特事实显现
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN115310436A (zh) 一种文档提纲的抽取方法、装置、电子设备及存储介质
CN110232071A (zh) 药品数据的检索方法、装置及存储介质、电子装置
TWI674511B (zh) 商品資訊顯示系統、商品資訊顯示方法、及程式產品
US20210271637A1 (en) Creating descriptors for business analytics applications
CN112748811A (zh) 一种英文单词输入方法及装置
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN109145261B (zh) 一种生成标签的方法和装置
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
WO2023146585A1 (en) Flexibly identifying and playing media content from any webpage
CN114661975A (zh) 一种web首页指纹特征的提取方法、装置及介质
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination