CN117151106A - 文档大纲生成方法、装置、电子设备及存储介质 - Google Patents

文档大纲生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117151106A
CN117151106A CN202210565809.3A CN202210565809A CN117151106A CN 117151106 A CN117151106 A CN 117151106A CN 202210565809 A CN202210565809 A CN 202210565809A CN 117151106 A CN117151106 A CN 117151106A
Authority
CN
China
Prior art keywords
outline
item
document
determining
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210565809.3A
Other languages
English (en)
Inventor
黄达一
熊龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202210565809.3A priority Critical patent/CN117151106A/zh
Publication of CN117151106A publication Critical patent/CN117151106A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及一种文档大纲生成方法、装置、电子设备及存储介质,所述方法包括:从待识别文档中提取大纲条目集合;提取所述大纲条目集合中每个大纲条目的特征信息;基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系;基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。由此,可以实现智能地生成文档大纲。

Description

文档大纲生成方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及计算机领域,尤其涉及一种文档大纲生成方法、装置、电子设备及存储介质。
背景技术
文档大纲指的是整个文档的纲要,也即内容要点,并且大纲条目的排列具有一定的逻辑性。通过阅读文档大纲,用户可以快速了解文档的构造,以及对文档内容具备整体的把握。在一些应用场景中,用户还可以通过文档大纲来实现对文档的跳转阅读。
然而,在实践中,用户编辑文档时,并非一定会构建文档大纲,这就使得现有技术中亟需一种能够智能生成文档大纲的技术方案。
发明内容
鉴于此,为实现智能地生成文档大纲,本发明实施例提供一种文档大纲生成方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种文档大纲生成方法,包括:
从待识别文档中提取大纲条目集合;
提取所述大纲条目集合中每个大纲条目的特征信息;
基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系;
基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。
在一可能的实施方式中,所述从待识别文档中提取大纲条目集合,包括:
对所述待识别文档进行段落分割,得到所述待识别文档的多个段落;
针对每个所述段落,对所述段落进行摘要提取,将提取到的摘要确定为大纲条目,并归入大纲条目集合。
在一可能的实施方式中,所述提取所述大纲条目集合中每个大纲条目的特征信息,包括:
针对所述大纲条目集合中的每个大纲条目执行以下处理:
对所述大纲条目进行语义提取,以及确定所述大纲条目对应的段落在所述待识别文档中的位置信息,并将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,并将提取到的所述语义信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述从待识别文档中提取大纲条目集合,包括:
将所述待识别文档中满足预设条件的文本行确定为大纲条目,并归入大纲条目集合,所述预设条件包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。
在一可能的实施方式中,所述提取所述大纲条目集合中每个大纲条目的特征信息,包括:
针对所述大纲条目集合中的每个大纲条目执行以下处理:
确定所述大纲条目在所述待识别文档中的位置信息,并将所述位置信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,并将提取到的语义信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,以及确定所述大纲条目对应的段落在所述待识别文档中的位置信息,并将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系,包括:
将每个所述大纲条目的位置信息与预设的层级结构规则进行匹配;
基于匹配结果确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
在一可能的实施方式中,所述基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,包括:
以每个所述大纲条目的特征信息作为一个节点构造无向图;
将所述无向图输入至已训练的图卷积神经网络,得到包含每个所述节点以及节点间有向连接边的邻接矩阵;
基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系。
在一可能的实施方式中,所述基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,包括:
基于所述邻接矩阵中每个有向连接边的指向,确定所述大纲条目间的从属关系,其中,所述有向连接边的端点所连接节点对应的大纲条目从属于所述有向连接边所指向的节点对应的大纲条目;
基于所述大纲条目间的从属关系确定每个所述大纲条目的大纲级别。
第二方面,本发明实施例提供一种文档大纲生成装置,包括:
条目提取模块,用于从待识别文档中提取大纲条目集合;
特征提取模块,用于提取所述大纲条目集合中每个大纲条目的特征信息;
层级确定模块,用于基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系;
大纲生成模块,用于基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。
在一可能的实施方式中,所述条目提取模块包括:
段落分割单元,用于对所述待识别文档进行段落分割,得到所述待识别文档的多个段落;
摘要提取单元,用于针对每个所述段落,对所述段落进行摘要提取,将提取到的摘要确定为大纲条目,并归入大纲条目集合。
在一可能的实施方式中,所述特征提取模块包括:
语义提取单元,用于针对所述大纲条目集合中的每个大纲条目,对所述大纲条目进行语义提取;
位置确定单元,用于确定每个所述大纲条目对应的段落在所述待识别文档中的位置信息;
特征确定单元,用于将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述条目提取模块包括:
文本行选取单元,用于将所述待识别文档中满足预设条件的文本行确定为大纲条目,并归入大纲条目集合,所述预设条件包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。
在一可能的实施方式中,所述特征提取模块包括:
位置确定单元,用于针对所述大纲条目集合中的每个大纲条目,确定所述大纲条目在所述待识别文档中的位置信息;
语义提取单元,用于针对所述大纲条目集合中的每个大纲条目,对所述大纲条目进行语义提取,并将提取到的语义信息确定为所述大纲条目的特征信息;
特征确定单元,用于将所述位置信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述层级确定模块包括:
匹配单元,用于将每个所述大纲条目的位置信息与预设的层级结构规则进行匹配;
第二确定单元,用于基于匹配结果确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
在一可能的实施方式中,所述层级确定模块包括:
图构造单元,用于以每个所述大纲条目的特征信息作为一个节点构造无向图;
图处理单元,用于将所述无向图输入至已训练的图卷积神经网络,得到包含每个所述节点以及节点间有向连接边的邻接矩阵;
第一确定单元,用于基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
在一可能的实施方式中,所述第一确定单元具体用于:
基于所述邻接矩阵中每个有向连接边的指向,确定所述大纲条目间的从属关系,其中,所述有向连接边的端点所连接节点对应的大纲条目从属于所述有向连接边所指向的节点对应的大纲条目;
基于所述大纲条目间的从属关系确定每个所述大纲条目的大纲级别。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文档大纲生成程序,以实现第一方面中任一项所述的文档大纲生成方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的文档大纲生成方法。
本发明实施例提供的技术方案,通过从待识别文档中提取大纲条目集合,确定大纲条目集合中每个大纲条目的特征信息,基于每个大纲条目的特征信息,确定每个大纲条目的大纲级别以及大纲条目间的从属关系,基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲,实现了智能地生成文档大纲。
附图说明
图1为本发明实施例提供的一种文档大纲生成方法的实施例流程图;
图2为本发明实施例提供的有层级结构文档的一种示例;
图3为本发明实施例提供的无层级结构文档的一种示例;
图4为本发明实施例提供的文档大纲的一种示例;
图5为本发明实施例提供的另一种文档大纲生成方法的实施例流程图;
图6为本发明实施例提供的文档段落分割结果的一种示例;
图7为本发明实施例提供的基于图卷积神经网络得到有向图的一种示例;
图8为本发明实施例提供的文档大纲的另一种示例;
图9为本发明实施例提供的图3所示文档对应大纲的一种示例;
图10为本发明实施例提供的又一种文档大纲生成方法的实施例流程图;
图11为本发明实施例提供的图2所示文档中满足预设条件的文本行的一种示例;
图12为本发明实施例提供的图2所示文档对应大纲的一种示例;
图13为本发明实施例提供的又一种文档大纲生成方法的实施例流程图;
图14为本发明实施例提供的再一种文档大纲生成方法的实施例流程图;
图15为本发明实施例提供的一种文本大纲生成装置的实施例框图;
图16为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图以具体实施例对本发明提供的文档大纲生成方法做出解释说明,实施例并不构成对本发明实施例的限定。
参见图1,为本发明实施例提供的一种文档大纲生成方法的实施例流程图。如图1所示,该流程可包括以下步骤:
步骤101、从待识别文档中提取大纲条目集合。
上述待识别文档可以是Word文档、PDF文档,或者TXT文档等。在实践中,待识别文档也可以是由图片转换而得到,例如,可通过OCR(Optical Character Recognition,光学字符识别)技术对图片进行识别,得到待识别文档。本发明实施例对待识别文档的具体形式不做限制。
本发明实施例中,可按照设定的大纲提取方式,从待识别文档中提取大纲条目集合,大纲条目集合中可包括多个大纲条目。进一步的,对于不同类型的待识别文档,上述设定的大纲提取方式可以有所不同。这里所说的类型可包括:有层级结构文档、无层级结构文档。
其中,有层级结构文档是指:文档本身具有层次结构。通常情况下,用户在编辑文档时,可采用以下形式来表现出文档的层次结构:多级标题、段落首行加粗显示、采用序号或者项目编号等形式。例如,参见图2,为有层级结构文档的一种示例。
无层级结构的文档是指:文档本身并不具有层次结构。例如,参见图3,为无层级结构文档的一种示例。
至于具体是如何按照设定的大纲提取方式从待识别文档中提取大纲条目集合的,在下文中通过图5和图10所示流程,分别从无层级结构文档和有层级结构文档两个方面作出解释说明,这里先不详述。
步骤102、提取大纲条目集合中每个大纲条目的特征信息。
在一实施例中,对于不同类型的待识别文档,大纲条目的特征信息可以有所不同。这里的类型指上述描述的有层级结构文档和无层级结构文档。
可选的,对于有层级结构的待识别文档,大纲条目的特征信息可以是大纲条目对应的文本内容在待识别文档中的位置信息,也可以是大纲条目的语义信息,还可以是上述位置信息和语义信息。
可选的,对于无层级结构的待识别文档,大纲条目的特征信息可以是大纲条目的语义信息,也可以是大纲条目的语义信息和大纲条目对应的文本内容在待识别文档中的位置信息。
上述位置信息包括:页码和页内坐标。可选的,页内坐标指大纲条目对应文本内容中的首个字符在页面坐标系中的坐标。这里的页面坐标系通常设置为以页面左上角为坐标原点,以水平向右为x轴正方向,以垂直向下为y轴正方向。当然,上述页内坐标指首个字符在页面坐标系中的坐标仅仅是一种示例,在实践中,页内坐标可以指大纲条目对应文本内容中的任一字符在页面坐标系中的坐标。
步骤103、基于每个大纲条目的特征信息,确定每个大纲条目的大纲级别以及大纲条目间的从属关系。
上述大纲级别指大纲条目的层级,可用于表征大纲条目的层级结构。可选的,大纲级别可包括级别1、级别2、级别3、级别4等。其中,级别1表示的是第一层级,级别2表示的是第二层级,级别3表示的是第三层级,以此类推。
上述大纲条目间的从属关系表示的是大纲条目间的依存、附属关系。其中,从属关系和大纲级别存在关联关系。例如,级别为2的大纲条目从属于级别为1的大纲条目,级别为3的大纲条目从属于级别为2的大纲条目。
这里需要说明的是,由于同一级别的大纲条目数量并非一定为1,也可能大于1,因此,大纲级别无法完全表征出大纲条目间的从属关系。也即,在同一级别的大纲条目的数量大于1的情况下,通过大纲条目的大纲级别和大纲条目间的从属关系这两者,才能够完整、准确地反映出大纲条目间的逻辑关系。
举例来说,假设待识别文档为一份关于年度表彰会议召开的通知,并假设经执行上述步骤101从中提取到以下大纲条目:年度表彰会议召开通知、时间问题、签到时间、会议时间、用餐时间、地点问题、会议地点、住宿地点、参会人员、会议流程、代表讲话、表彰环节、抽奖环节。
经执行上述步骤102和步骤103得出:年度表彰会议召开通知的大纲级别为级别1;时间问题、地点问题、参会人员、会议流程的大纲级别为级别2;签到时间、会议时间、用餐时间、会议地点、住宿地点、代表讲话、表彰环节、抽奖环节的大纲级别为级别3。时间问题、地点问题、参会人员、会议流程从属于年度表彰会议召开通知;签到时间、会议时间、用餐时间从属于时间问题;会议地点、住宿地点从属于地点问题;代表讲话、表彰环节、抽奖环节从属于会议流程。
步骤104、基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
由上述描述可知,通过大纲条目的大纲级别和大纲条目间的从属关系这两者能够完整、准确地反映出大纲条目间的逻辑关系,基于此,本步骤104中,基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
以上述步骤103中的举例来说,基于每个大纲条目的大纲级别以及大纲条目间的从属关系,可生成如图4所示例的大纲。
本发明实施例提供的技术方案,通过从待识别文档中提取大纲条目集合,确定大纲条目集合中每个大纲条目的特征信息,基于每个大纲条目的特征信息,确定每个大纲条目的大纲级别以及大纲条目间的从属关系,基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲,实现了智能地生成文档大纲。
参见图5,为本发明实施例提供的另一种文档大纲生成方法的实施例流程图。该图5所示流程在上述图1所示流程的基础上,着重描述对于无层级结构文档,如何生成文档大纲。如图5所示,该流程可包括以下步骤:
步骤501、对待识别文档进行段落分割,得到待识别文档的多个段落。
在一实施例中,可通过预设的文本分割器对待识别文档进行段落分割,得到待识别文档的多个段落。
以图3所示的文档为例,通过对该文档进行段落分割,可得到如图6所示例的分割结果。图6中,一个矩形框所涵盖的文本内容为一个段落。
步骤502、针对每个段落,对该段落进行摘要提取,将提取到的摘要作为大纲条目,并归入大纲条目集合。
在一实施例中,可利用NLP(Natural Language Processing,自然语言处理)中的摘要提取技术(例如Text Rank技术),来对步骤501得到的每个段落分别进行摘要提取,将提取到的摘要作为大纲条目,并归入大纲条目集合。
步骤503、针对大纲条目集合中的每个大纲条目,对该大纲条目进行语义提取,将提取到的语义信息确定为该大纲条目的特征信息。
由上述图1所示流程中的相关描述可知,对于无层级结构的待识别文档,大纲条目的特征信息可以包括大纲条目的语义信息。基于此,本步骤503中,针对大纲条目集合中的每个大纲条目,对该大纲条目进行语义提取,将提取到的语义信息确定为该大纲条目的特征信息。
在一实施例中,可利用NLP中的语义提取技术(例如Bert技术),对大纲条目集合中的每个大纲条目进行语义提取。
此外,由上述图1所示流程中的相关描述可知,对于无层级结构的待识别文档,大纲条目的特征信息还可以包括大纲条目对应的文本内容在待识别文档中的位置信息。其中,对于无层级结构的待识别文档,大纲条目对应的文本内容指该大纲条目对应的段落。
基于此,本发明实施例中,还可以针对大纲条目集合中的每个大纲条目,确定该大纲条目对应的段落在待识别文档中的位置信息,将该位置信息和上述语义信息共同确定为该大纲条目的特征信息。
可选的,上述位置信息包括段落所在页码和段落中的首个字符在页面坐标系中的坐标。需要说明的是,当段落分布在两个页面时,上述段落所在的页码可以指两个页面中较小的页码。
这里需要说明的是,由于无层级结构文档本身并不具有层次结构,因此仅通过大纲条目在无层级结构文档中的位置信息是无法确定大纲条目的大纲级别以及大纲条目间的从属关系的,因此,对于无层级结构文档而言,上述特征信息至少包括大纲条目的语义信息。
步骤504、以每个大纲条目的特征信息作为一个节点构造无向图。
步骤505、将无向图输入至已训练的图卷积神经网络,得到包含每个节点以及节点间有向连接边的邻接矩阵。
步骤506、基于邻接矩阵,确定每个大纲条目的大纲级别以及大纲条目间的从属关系。
以下对步骤504至步骤506进行统一说明:
图卷积神经网络能够基于图数据的特征进行节点分类、图分类、边预测等。基于此,在一实施例中,采用图卷积神经网络来对大纲条目的大纲级别,以及大纲条目间的从属关系进行预测。
以大纲条目集合中包括4个大纲条目(为描述方便,称为大纲条目1、大纲条目2、大纲条目3、大纲条目4)为例,将该4个大纲条目的特征信息分别作为一个节点,可构造出如图7的左侧所示例出的无向图。之后,将该无向图输入至已训练的图卷积神经网络,可得到包含每个节点以及节点间有向连接边的邻接矩阵,该邻接矩阵所表示的有向图如图7的右侧所示。
基于图7所示例的邻接矩阵,可基于该邻接矩阵中每个有向连接边的指向,确定大纲条目间的从属关系,其中,有向连接边的端点所连接节点对应的大纲条目从属于有向连接边所指向的节点对应的大纲条目。之后,则可基于大纲条目间的从属关系确定每个大纲条目的大纲级别。
以图7所示邻接矩阵为例,可生成以下大纲条目的大纲级别以及大纲条目间的从属关系:大纲条目1的大纲级别为级别1;大纲条目4的大纲级别为级别2,且大纲条目4从属于大纲条目1;大纲条目3的大纲级别为级别3,且大纲条目3从属于大纲条目4;大纲条目2的大纲级别为级别4,且大纲条目2从属于大纲条目3。
步骤507、基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
以步骤506中的举例来说,基于每个大纲条目的大纲级别以及大纲条目间的从属关系,可生成如图8所示例的大纲。
再以图3所示文档举例来说,参见图9,为图3所示文档对应大纲的一种示例。
通过图5所示流程,能够实现针对无层级结构文档,智能地生成文档大纲。
此外,需要说明的是,上述图5所示流程,不仅可用于针对无层级结构文档生成文档大纲,还可以用于针对有层级结构文档生成文档大纲。也即上述图5所示流程可适用于针对任何类型的文档生成文档大纲。
参见图10,为本发明实施例提供的又一种文档大纲生成方法的实施例流程图。该图10所示流程在上述图1所示流程的基础上,着重描述对于有层级结构文档,如何生成文档大纲。如图10所示,该流程可包括以下步骤:
步骤1001、将待识别文档中满足预设条件的文本行确定为大纲条目,并归入大纲条目集合。
基于上述图1所示流程中对有层级结构文档的相关描述,在一实施例中,上述预设条件可包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。上述特定的文本内容包括但不限于:标题、序号、项目编号等;上述特定格式包括但不限于:加粗格式、带下划线格式等。
在一实施例中,可基于深度学习的目标检测技术来确定待识别文档中是否存在满足上述预设条件的文本行。
参见图11,为图2所示文档中满足预设条件的文本行的一种示例。图11中,一个矩形框所涵盖的文本行为一个满足上述预设条件的文本行。
步骤1002、提取大纲条目集合中每个大纲条目的特征信息。
由上述图1所示流程中的相关描述可知,对于有层级结构的待识别文档,大纲条目的特征信息可以包括大纲条目在待识别文档中的位置信息,或者包括大纲条目的语义信息,再或者包括大纲条目在待识别文档中的位置信息和大纲条目的语义信息。
基于此,本步骤1002中,提取大纲条目集合中每个大纲条目的特征信息的具体实现可包括:针对大纲条目集合中的每个大纲条目,确定大纲条目在待识别文档中的位置信息,将位置信息确定为大纲条目的特征信息,或者,对大纲条目进行语义提取,将提取到的语义信息确定为大纲条目的特征信息,再或者,确定大纲条目在待识别文档中的位置信息,以及对大纲条目进行语义提取,将位置信息和提取到的语义信息共同确定为大纲条目的特征信息。
在一实施例中,可利用NLP中的语义提取技术(例如Bert技术),对大纲条目集合中的每个大纲条目进行语义提取。
可选的,上述位置信息包括满足预设条件的文本行所在页码和该文本行中的首个字符在页面坐标系中的坐标。
步骤1003、以每个大纲条目的特征信息作为一个节点构造无向图。
步骤1004、将无向图输入至已训练的图卷积神经网络,得到包含每个节点以及节点间有向连接边的邻接矩阵。
步骤1005、基于邻接矩阵,确定每个大纲条目的大纲级别以及大纲条目间的从属关系。
步骤1006、基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
步骤1003至步骤1006的详细描述可参见上述图5所示流程中的相关描述,这里不再赘述。
以图2所示文档为例,参见图12,为图2所示文档对应大纲的一种示例。
通过图10所示流程,实现了针对存在层级结构,但用户并未构建其大纲的文档,智能地生成文档大纲。
参见图13,为本发明实施例提供的又一种文档大纲生成方法的实施例流程图。该图13所示流程在上述图1所示流程的基础上,着重描述另外一种对于有层级结构文档生成文档大纲的实现方式。如图13所示,该流程可包括以下步骤:
步骤1301、将待识别文档中满足预设条件的文本行作为大纲条目,并归入大纲条目集合。
步骤1302、针对大纲条目集合中的每个大纲条目,确定大纲条目在待识别文档中的位置信息,将位置信息确定为大纲条目的特征信息。
上述步骤1301和步骤1302的详细描述,可参见上述图10所示流程中的相关描述,这里不再赘述。
步骤1303、将每个大纲条目的位置信息与预设的层级结构规则进行匹配。
上述步骤1303中的位置信息即大纲条目的特征信息。
步骤1304、基于匹配结果确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
以下对步骤1303和步骤1304进行统一说明:
在一实施例中,上述层级结构规则用于表征不同的大纲级别对应的x轴坐标范围。例如,级别1对应的x轴坐标范围为(2,7),级别2对应的x轴坐标范围为(7,12),级别3对应的x轴坐标范围为(13,18)等。这里,坐标单位为像素。
基于此,在该实施例中,上述步骤1303和步骤1304的具体实现可包括:针对大纲条目集合中的每个大纲条目,确定该大纲条目对应的x轴坐标落入哪一级别对应的x轴坐标范围,进而确定该大纲条目的大纲级别。例如,假设某一大纲条目对应的x轴坐标落入上述级别2对应的x轴坐标范围,则可确定该大纲条目的大纲级别为级别2。
进一步的,还可根据大纲条目对应的页码以及y轴坐标,确定大纲条目间的从属关系。以大纲条目集合包括4个大纲条目(为描述方便,称为大纲条目1、大纲条目2、大纲条目3、大纲条目4)为例,假设该4个大纲条目的大纲级别依次为级别1、级别2、级别2、级别3,并假设按照页码以及y轴坐标从小到大的顺序,也即按照在待识别文档中出现的先后顺序对该4个大纲条目进行排序,排序结果为大纲条目1、大纲条目2、大纲条目3、大纲条目4,那么结合该4个大纲条目的大纲级别,可以得知:大纲条目2和大纲条目3都从属于大纲条目1。
在一实施例中,上述层级结构规则用于表征不同级别的大纲条目在页面坐标系中的偏移关系。例如,可将文档中出现的首个大纲条目的大纲级别确定为级别1,若其下一个大纲条目的x轴坐标相较于该首个大纲条目而言偏x轴正方向,则将该下一个大纲条目的大纲级别确定为级别2,若其下一个大纲条目的x轴坐标与该首个大纲条目的x轴坐标相同,或者相较于该首个大纲条目而言微微偏x轴负方向(考虑到用户编辑文档时出现人为操作失误的情况),则将该下一个大纲条目的大纲级别确定为级别1。
再以大纲级别为级别2的大纲条目为例,若其下一个大纲条目的x轴坐标相较于该大纲条目而言偏x轴正方向,则将该下一个大纲条目的大纲级别确定为级别3,若其下一个大纲条目的x轴坐标与该首个大纲条目的x轴坐标相同,或者相较于该首个大纲条目而言微微偏x轴负方向(考虑到编辑文档时出现细微差异的情况),则将该下一个大纲条目的大纲级别确定为级别2。以此类推。
基于此,在该实施例中,可首先确定待识别文档中最先出现的大纲条目,将该大纲条目的大纲级别确定为级别1。然后,按照页码以及y轴坐标从小到大的顺序,也即按照在待识别文档中出现的先后顺序,依次遍历每个大纲条目,确定当前遍历到的大纲条目与其上一个大纲条目在x轴方向的偏移关系,基于该偏移关系、其上一个大纲条目的大纲级别,匹配上述层级结构规则,基于匹配结果确定每个大纲条目的大纲级别以及大纲条目间的从属关系。
步骤1305、基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
通过图13所示流程,实现了针对存在层级结构,但用户并未构建其大纲的文档,智能地生成文档大纲。
参见图14,为本发明实施例提供的再一种文档大纲生成方法的实施例流程图。该图14所示流程在上述图1、图5、图10所示流程的基础上,可包括以下步骤:
步骤1401、确定待识别文档中是否存在满足预设条件的文本行;若存在,则执行步骤1402,若不存在,则执行步骤1403。
步骤1402、将满足预设条件的文本行作为大纲条目,并归入大纲条目集合;执行步骤1405。
在一些实施例中,预设条件可包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。上述特定的文本内容包括但不限于:标题、序号、项目编号等;上述特定格式包括但不限于:加粗格式、带下划线格式等。
步骤1403、对待识别文档进行段落分割,得到待识别文档的多个段落。
步骤1404、针对每个段落,对该段落进行摘要提取,将提取到的摘要作为大纲条目,并归入大纲条目集合。
步骤1405、提取大纲条目集合中每个大纲条目的特征信息。
步骤1406、基于每个大纲条目的特征信息,确定每个大纲条目的大纲级别以及大纲条目间的从属关系。
步骤1407、基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。
由上述步骤1401至步骤1407的描述可见,在一实施例中,由于本发明实施例的执行主体并不知晓待识别文档的类型(有层级结构文档或无层级结构文档),因此,本发明实施例的执行主体可首先确定待识别文档中存在满足预设条件的文本行。若存在,则意味着待识别文档为有层级结构文档,进而本发明实施例的执行主体可按照有层级结构文档的处理方式来生成待识别文档的大纲。若不存在,则意味着待识别文档为无层级结构文档,进而本发明实施例的执行主体可按照无层级结构文档的处理方式来生成待识别文档的大纲。
至于具体是如何按照有层级结构文档的处理方式来生成待识别文档的大纲的,可参见上述图10和图13所示流程中的描述,这里不再赘述。
至于具体是如何按照无层级结构文档的处理方式来生成待识别文档的大纲的,可参见上述图5所示流程中的描述,这里不再赘述。
本发明实施例提供的技术方案,通过确定待识别文档中是否存在满足预设条件的文本行;若存在,则将满足预设条件的文本行作为大纲条目归入大纲条目集合,若不存在,则对待识别文档进行段落分割,得到待识别文档的多个段落。之后,提取大纲条目集合中每个大纲条目的特征信息,基于每个大纲条目的特征信息,确定每个大纲条目的大纲级别以及大纲条目间的从属关系。最后基于每个大纲条目的大纲级别以及大纲条目间的从属关系,生成待识别文档的大纲。实现了针对存在层级结构,但用户并未构建其大纲的文档,以及不存在层级结构的文档,都能够智能地生成文档大纲。
参见图15,为本发明实施例提供的一种文本大纲生成装置的实施例框图。如图15所示,该装置可包括:
条目提取模块1501,用于从待识别文档中提取大纲条目集合;
特征提取模块1502,用于提取所述大纲条目集合中每个大纲条目的特征信息;
层级确定模块1503,用于基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系;
大纲生成模块1504,用于基于每个所述大纲条目的大纲级别以及大纲条目间的从属关系,生成所述待识别文档的大纲。
在一可能的实施方式中,所述条目提取模块1501包括:
段落分割单元,用于对待识别文档进行段落分割,得到所述待识别文档的多个段落;
摘要提取单元,用于针对每个所述段落,对所述段落进行摘要提取,将提取到的摘要确定为大纲条目,并归入大纲条目集合。
在一可能的实施方式中,所述特征提取模块1502包括:
语义提取单元,用于针对所述大纲条目集合中的每个大纲条目,对所述大纲条目进行语义提取;
位置确定单元,用于确定每个所述大纲条目对应的段落在所述待识别文档中的位置信息;
特征确定单元,用于将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述条目提取模块1501包括:
文本行选取单元,用于将所述待识别文档中满足预设条件的文本行确定为大纲条目,并归入大纲条目集合,所述预设条件包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。
在一可能的实施方式中,所述特征提取模块1502包括:
位置确定单元,用于针对所述大纲条目集合中的每个大纲条目,确定所述大纲条目在所述待识别文档中的位置信息;
语义提取单元,用于针对所述大纲条目集合中的每个大纲条目,对所述大纲条目进行语义提取,并将提取到的语义信息确定为所述大纲条目的特征信息;
特征确定单元,用于将所述位置信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息确定为所述大纲条目的特征信息;或者,将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息。
在一可能的实施方式中,所述层级确定模块1503包括:
匹配单元,用于将每个所述大纲条目的位置信息与预设的层级结构规则进行匹配;
第二确定单元,用于基于匹配结果确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
在一可能的实施方式中,所述层级确定模块1503包括:
图构造单元,用于以每个所述大纲条目的特征信息作为一个节点构造无向图;
图处理单元,用于将所述无向图输入至已训练的图卷积神经网络,得到包含每个所述节点以及节点间有向连接边的邻接矩阵;
第一确定单元,用于基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
在一可能的实施方式中,所述第一确定单元具体用于:
基于所述邻接矩阵中每个有向连接边的指向,确定所述大纲条目间的从属关系,其中,所述有向连接边的端点所连接节点对应的大纲条目从属于所述有向连接边所指向的节点对应的大纲条目;
基于所述大纲条目间的从属关系确定每个所述大纲条目的大纲级别。
图16为本发明实施例提供的一种电子设备的结构示意图,图16所示的电子设备1600包括:至少一个处理器1601、存储器1602、至少一个网络接口1604和其他用户接口1603。电子设备1600中的各个组件通过总线系统1605耦合在一起。可理解,总线系统1605用于实现这些组件之间的连接通信。总线系统1605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图16中将各种总线都标为总线系统1605。
其中,用户接口1603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball))、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器1602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器1602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统16021和应用程序16022。
其中,操作系统16021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序16022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序16022中。
在本发明实施例中,通过调用存储器1602存储的程序或指令,具体的,可以是应用程序16022中存储的程序或指令,处理器1601用于执行各方法实施例所提供的方法步骤,例如包括:
从待识别文档中提取大纲条目集合;
提取所述大纲条目集合中每个大纲条目的特征信息;
基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系;
基于每个所述大纲条目的大纲级别以及大纲条目间的从属关系,生成所述待识别文档的大纲。
上述本发明实施例揭示的方法可以应用于处理器1601中,或者由处理器1601实现。处理器1601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1601可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1602,处理器1601读取存储器1602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图16中所示的电子设备,可执行如图1、5、10、13以及14中文档大纲生成方法的所有步骤,进而实现图1、5、10、13以及14中文档大纲生成方法的技术效果,具体请参照图1、5、10、13以及14相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的文档大纲生成方法。
所述处理器用于执行存储器中存储的文档大纲生成程序,以实现以下在电子设备侧执行的文档大纲生成方法的步骤:
从待识别文档中提取大纲条目集合;
提取所述大纲条目集合中每个大纲条目的特征信息;
基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系;
基于每个所述大纲条目的大纲级别以及大纲条目间的从属关系,生成所述待识别文档的大纲。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档大纲生成方法,其特征在于,包括:
从待识别文档中提取大纲条目集合;
提取所述大纲条目集合中每个大纲条目的特征信息;
基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系;
基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。
2.根据权利要求1所述的方法,其特征在于,所述从待识别文档中提取大纲条目集合,包括:
对所述待识别文档进行段落分割,得到所述待识别文档的多个段落;
针对每个所述段落,对所述段落进行摘要提取,将提取到的摘要确定为大纲条目,并归入大纲条目集合。
3.根据权利要求2所述的方法,其特征在于,所述提取所述大纲条目集合中每个大纲条目的特征信息,包括:
针对所述大纲条目集合中的每个大纲条目执行以下处理:
对所述大纲条目进行语义提取,以及确定所述大纲条目对应的段落在所述待识别文档中的位置信息,并将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,并将提取到的所述语义信息确定为所述大纲条目的特征信息。
4.根据权利要求1所述的方法,其特征在于,所述从待识别文档中提取大纲条目集合,包括:
将所述待识别文档中满足预设条件的文本行确定为大纲条目,并归入大纲条目集合,所述预设条件包括:文本行中包括特定的文本内容和/或文本行中的文本内容被设置为特定格式。
5.根据权利要求4所述的方法,其特征在于,所述提取所述大纲条目集合中每个大纲条目的特征信息,包括:
针对所述大纲条目集合中的每个大纲条目执行以下处理:
确定所述大纲条目在所述待识别文档中的位置信息,并将所述位置信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,并将提取到的语义信息确定为所述大纲条目的特征信息;或者,
对所述大纲条目进行语义提取,以及确定所述大纲条目对应的段落在所述待识别文档中的位置信息,并将提取到的语义信息和所述位置信息确定为所述大纲条目的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系,包括:
将每个所述大纲条目的位置信息与预设的层级结构规则进行匹配;
基于匹配结果确定每个所述大纲条目的大纲级别以及大纲条目间的从属关系。
7.根据权利要求1~6任一所述的方法,其特征在于,所述基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,包括:
以每个所述大纲条目的特征信息作为一个节点构造无向图;
将所述无向图输入至已训练的图卷积神经网络,得到包含每个所述节点以及所述节点间有向连接边的邻接矩阵;
基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系。
8.根据权利要求7所述的方法,其特征在于,所述基于所述邻接矩阵,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,包括:
基于所述邻接矩阵中每个有向连接边的指向,确定所述大纲条目间的从属关系,其中,所述有向连接边的端点所连接节点对应的大纲条目从属于所述有向连接边所指向的节点对应的大纲条目;
基于所述大纲条目间的从属关系确定每个所述大纲条目的大纲级别。
9.一种文档大纲生成装置,其特征在于,包括:
条目提取模块,用于从待识别文档中提取大纲条目集合;
特征提取模块,用于提取所述大纲条目集合中每个大纲条目的特征信息;
层级确定模块,用于基于每个所述大纲条目的特征信息,确定每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系;
大纲生成模块,用于基于每个所述大纲条目的大纲级别以及所述大纲条目间的从属关系,生成所述待识别文档的大纲。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~8中任一项所述的文档大纲生成方法。
CN202210565809.3A 2022-05-19 2022-05-19 文档大纲生成方法、装置、电子设备及存储介质 Pending CN117151106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210565809.3A CN117151106A (zh) 2022-05-19 2022-05-19 文档大纲生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210565809.3A CN117151106A (zh) 2022-05-19 2022-05-19 文档大纲生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117151106A true CN117151106A (zh) 2023-12-01

Family

ID=88904751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210565809.3A Pending CN117151106A (zh) 2022-05-19 2022-05-19 文档大纲生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117151106A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633214A (zh) * 2024-01-27 2024-03-01 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633214A (zh) * 2024-01-27 2024-03-01 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质
CN117633214B (zh) * 2024-01-27 2024-04-19 北京澜舟科技有限公司 一种文章大纲生成方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US20210201182A1 (en) Method and apparatus for performing structured extraction on text, device and storage medium
JP7299939B2 (ja) テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US8347206B2 (en) Interactive image tagging
US20220156300A1 (en) Deep document processing with self-supervised learning
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP3940491B2 (ja) 文書処理装置および文書処理方法
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
US8838657B1 (en) Document fingerprints using block encoding of text
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
WO2023138023A1 (zh) 基于图神经网络的多模态文档信息抽取方法、设备、介质
BRPI0403881B1 (pt) Método para processamento de um documento digital contendo uma anotação à tintadigital
JP2007095102A (ja) 文書処理装置および文書処理方法
US11462039B2 (en) Method, device, and storage medium for obtaining document layout
US20220327286A1 (en) Iterative training for text-image-layout transformer
JP6577692B1 (ja) 学習システム、学習方法、及びプログラム
CN110633660A (zh) 一种文档识别的方法、设备和存储介质
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN117151106A (zh) 文档大纲生成方法、装置、电子设备及存储介质
US20230138491A1 (en) Continuous learning for document processing and analysis
US11687578B1 (en) Systems and methods for classification of data streams
CN116204692A (zh) 网页数据提取方法、装置、电子设备及存储介质
Ishihara et al. Analyzing visual layout for a non-visual presentation-document interface
CN114091451A (zh) 一种文本分类方法、装置、设备及存储介质
Pham et al. A deep learning approach for text segmentation in document analysis
JP2020113002A (ja) 表示比較プログラム、装置、及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination