CN113221792A - 一种章节检测模型构建方法、编目方法及其相关设备 - Google Patents
一种章节检测模型构建方法、编目方法及其相关设备 Download PDFInfo
- Publication number
- CN113221792A CN113221792A CN202110560295.8A CN202110560295A CN113221792A CN 113221792 A CN113221792 A CN 113221792A CN 202110560295 A CN202110560295 A CN 202110560295A CN 113221792 A CN113221792 A CN 113221792A
- Authority
- CN
- China
- Prior art keywords
- sample document
- chapter
- layer
- paragraph
- text line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
- G06V2201/132—Book chapter
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种章节检测模型构建方法、编目方法及其相关设备,先依据样本文书和该样本文书的实际章节信息构建章节检测模型,以使构建好的章节检测模型能够准确地从该样本文书中检测出该样本文书的章节信息;再在获取到M个待处理图像之后,利用该构建好的章节检测模型从该M个待处理图像中检测出该M个待处理图像对应的章节信息,以便后续能够利用该M个待处理图像对应的章节信息生成该M个待处理图像对应的目录,以使该目录能够准确地表示出该M个待处理图像所属的文书结构,如此能够实现章节级编目处理。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种章节检测模型构建方法、编目方法及其相关设备。
背景技术
随着移动互联网信息技术的进步,无纸化办公(也就是,数字化办公)已深入各行各业。其中,无纸化办公是指由电子图文材料管理系统借助数字化文件材料(如,文字、图片、表格等)的管理方式实现针对纸质文件材料进行管理;而且其实现方式具体可以为:利用扫描仪器针对纸质文件材料(如,历史累积的纸质档案或者纸质输入文档)进行数字化转存管理,得到这些纸质文件材料对应的数字化文件材料(如,图片),以使这些数字化文件材料能够通过计算机进行存储并通过计算机网络传输进行查阅。
然而,因扫描仪器是以页为单位进行扫描的,使得上述纸质文件材料对应的数字化文件材料所属的文书结构需要在扫描完上述纸质文件材料之后重新建立(也就是,需要针对这些数字化文件材料进行编目),如此使得如何实现编目成为一项亟待解决的技术问题。
发明内容
为了解决相关技术中存在的以上技术问题,本申请提供一种章节检测模型构建方法、编目方法及其相关设备,能够从数字化文件材料中准确地提取出章节信息,以使后续能够基于这些章节信息进行编目处理,如此能够实现章节级编目处理。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种章节检测模型构建方法,所述方法包括:
获取样本文书和所述样本文书的实际章节信息;
对所述样本文书进行文字识别,得到所述样本文书中各个文本行的文字识别结果;
根据所述样本文书中各个文本行的文字识别结果和所述样本文书中各个文本行的上下文信息,确定所述样本文书中各个文本行的表征特征;
根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型。
在一种可能的实施方式中,若所述文字识别结果包括字符识别结果和位置识别结果,且所述样本文书包括N个文本行,则所述样本文书中第n个文本行的表征特征的确定过程,包括:
根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据;
根据所述第n个文本行的字符识别结果、所述第n个文本行的上下文信息的字符识别结果和所述第n个文本行的位置表征数据,确定所述第n个文本行的表征特征。
在一种可能的实施方式中,所述根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据,包括:
根据所述第n个文本行的位置识别结果、所述第n个文本行的上下文信息的位置识别结果和所述第n个文本行对应的页面尺寸,确定所述第n个文本行的位置表征数据。
在一种可能的实施方式中,所述根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型,包括:
将所述样本文书中各个文本行的表征特征输入待训练模型,得到所述待训练模型输出的所述样本文书的预测章节信息;
根据所述样本文书的预测章节信息和所述样本文书的实际章节信息,更新所述待训练模型,并继续执行所述将所述样本文书中各个文本行的表征特征输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述章节检测模型。
在一种可能的实施方式中,若所述待训练模型包括段落关联关系检测层、自然段落确定层、单行段落确定层、标题识别层、章节检测层;
所述样本文书的预测章节信息的生成过程,包括:
将所述样本文书中各个文本行的表征特征输入所述段落关联关系检测层,得到所述段落关联关系检测层输出的所述样本文书中各个文本行的段落关联关系识别结果;
将所述样本文书中各个文本行的段落关联关系识别结果输入所述自然段落确定层,得到所述自然段落确定层输出的所述样本文书中各个预测自然段落;
将所述样本文书中各个预测自然段落输入所述单行段落确定层,得到所述单行段落确定层输出的所述样本文书中各个预测单行段落;
将所述样本文书中各个预测单行段落输入所述标题识别层,得到所述标题识别层输出的所述样本文书的标题识别结果;
将所述样本文书的标题识别结果和所述样本文书中各个预测自然段落输入所述章节检测层,得到所述章节检测层输出的所述样本文书的预测章节信息。
在一种可能的实施方式中,若所述章节检测层包括章节信息提取层、邻近文本行提取层、章节关联关系检测层和章节信息确定层,则所述样本文书的预测章节信息的确定过程,包括:
若所述样本文书的标题识别结果表示所述样本文书中存在标题,则由所述章节信息提取层依据所述样本文书的标题识别结果和预设标题提取规则,从所述样本文书中各个预测自然段落提取出所述样本文书的预测章节信息;
若所述样本文书的标题识别结果表示所述样本文书中不存在标题,则将所述样本文书中各个预测自然段落输入所述邻近文本行提取层,得到所述邻近文本行提取层输出的所述样本文书中各对相邻预测自然段落之间的邻近文本行;将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述章节关联关系检测层,得到所述章节关联关系检测层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果;将所述样本文书中各对相邻预测自然段落的章节关联关系识别结果输入所述章节信息确定层,得到所述章节信息确定层输出的所述样本文书的预测章节信息。
在一种可能的实施方式中,若所述章节关联关系检测层包括第一语义特征提取层和章节关联关系识别层,则所述样本文书中各对相邻预测自然段落的章节关联关系识别结果的生成过程,包括:
将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述第一语义特征提取层,得到所述第一语义特征提取层输出的所述各个邻近文本行的语义特征;
将所述各个邻近文本行的语义特征输入所述章节关联关系识别层,得到所述章节关联关系识别层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果。
在一种可能的实施方式中,若所述表征特征包括文本表征数据和位置表征数据,且所述段落关联关系检测层包括第二语义特征提取层、第一特征拼接层和段落关联关系识别层,则所述样本文书中各个文本行的段落关联关系识别结果的生成过程,包括:
将所述样本文书中各个文本行的文本表征数据输入所述第二语义特征提取层,得到所述第二语义特征提取层输出的所述样本文书中各个文本行的语义特征;
将所述样本文书中各个文本行的语义特征和所述样本文书中各个文本行的位置表征数据输入所述第一特征拼接层,得到所述第一特征拼接层输出的所述样本文书中各个文本行的拼接特征;
将所述样本文书中各个文本行的拼接特征输入所述段落关联关系识别层,得到所述段落关联关系识别层输出的所述样本文书中各个文本行的段落关联关系识别结果。
在一种可能的实施方式中,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层和第一标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征输入所述第一标题检测层,得到所述第一标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
在一种可能的实施方式中,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层、第二特征拼接层和第二标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征和所述样本文书中各个预测单行段落的位置表征数据输入所述第二特征拼接层,得到所述第二特征拼接层输出的所述样本文书中各个预测单行段落的拼接特征;
将所述样本文书中各个预测单行段落的拼接特征输入所述第二标题检测层,得到所述第二标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
本申请实施例还提供了一种编目方法,所述方法包括:
获取M个待处理图像;其中,M为正整数;
对第m个待处理图像进行文字识别,得到所述第m个待处理图像的文字识别结果;其中,m为正整数,m≤M;
根据所述第m个待处理图像的文字识别结果,确定所述第m个待处理图像中各个文本行的文字识别结果;其中,m为正整数,m≤M;
根据所述第m个待处理图像中各个文本行的文字识别结果和所述第m个待处理图像中各个文本行的上下文信息,确定所述第m个待处理图像中各个文本行的表征特征;
根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息;其中,所述章节检测模型是利用本申请实施例提供的章节检测模型构建方法的任一实施方式进行构建的;
依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录。
在一种可能的实施方式中,所述方法还包括:
依据所述M个待处理图像的文字识别结果,对所述M个待处理图像进行文书划分,得到至少一个待处理文书,以使所述待处理文书包括至少一个待处理图像;
所述根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息,包括:
根据各个待处理文书内待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述各个待处理文书的章节信息;
所述依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录,包括:
依据所述各个待处理文书的章节信息,生成所述各个待处理文书的目录。
本申请实施例还提供了一种章节检测模型构建装置,包括:
第一获取单元,用于获取样本文书和所述样本文书的实际章节信息;
第一识别单元,用于对所述样本文书进行文字识别,得到所述样本文书中各个文本行的文字识别结果;
第一确定单元,用于根据所述样本文书中各个文本行的文字识别结果和所述样本文书中各个文本行的上下文信息,确定所述样本文书中各个文本行的表征特征;
模型构建单元,用于根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型。
本申请实施例还提供了一种编目装置,包括:
第二获取单元,用于获取M个待处理图像;其中,M为正整数;
第二识别单元,用于对第m个待处理图像进行文字识别,得到所述第m个待处理图像的文字识别结果;其中,m为正整数,m≤M;
第二确定单元,用于根据所述第m个待处理图像的文字识别结果,确定所述第m个待处理图像中各个文本行的文字识别结果;其中,m为正整数,m≤M;
第三确定单元,用于根据所述第m个待处理图像中各个文本行的文字识别结果和所述第m个待处理图像中各个文本行的上下文信息,确定所述第m个待处理图像中各个文本行的表征特征;
第四确定单元,用于根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息;其中,所述章节检测模型是利用本申请实施例提供的章节检测模型构建方法的任一实施方式进行构建的;
目录生成单元,用于依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
与相关技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,先依据样本文书和该样本文书的实际章节信息构建章节检测模型,以使构建好的章节检测模型能够准确地从该样本文书中检测出该样本文书的章节信息;再在获取到M个待处理图像之后,利用该构建好的章节检测模型从该M个待处理图像中检测出该M个待处理图像对应的章节信息,以便后续能够利用该M个待处理图像对应的章节信息生成该M个待处理图像对应的目录。可见,因构建好的章节检测模型具有较好的章节信息检测性能,使得利用构建好的章节检测模型提取出的M个待处理图像对应的章节信息能够准确地表示出在该M个待处理图像中携带的章节信息,从而使得基于该M个待处理图像对应的章节信息生成的目录能够准确地表示出该M个待处理图像所属的文书结构,如此能够实现章节级编目处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种章节检测模型构建方法的流程图;
图2为本申请实施例提供的一种位置识别结果的示意图;
图3为本申请实施例提供的一种待训练模型的结构示意图;
图4为本申请实施例提供的一种段落关联关系检测层301的结构示意图;
图5为本申请实施例提供的一种标题识别层304的结构示意图;
图6为本申请实施例提供的另一种标题识别层304的结构示意图;
图7为本申请实施例提供的一种章节检测层305的结构示意图;
图8为本申请实施例提供的一种章节关联关系检测层703的结构示意图;
图9为本申请实施例提供的一种编目方法的流程图;
图10为本申请实施例提供的一种章节检测模型构建装置的结构示意图;
图11为本申请实施例提供的一种编目装置的结构示意图。
具体实施方式
发明人针对编目处理的研究中发现,对于包括多个自然段落的文书来说,该文书中存在两种关联关系,而且该两种关联关系具体为:因一个自然段落中各个文本行之间语义是关联的,使得该自然段落中各个文本行之间存在段落关联关系;又因一个章节中各对相邻自然段落之间在文本结构和/或语义上是关联的,使得该章节中各对相邻自然段落之间存在章节关联关系。
基于上述两种关联关系可知,对于文书中任意两个文本行来说,如果这两个文本行属于同一个自然段落,则这两个文本行之间存在段落关联关系;如果这两个文本行不属于同一个自然段落,则这两个文本行之间不存在段落关联关系。另外,对于文书中任意两个相邻自然段落来说,若这两个相邻自然段落属于同一个章节,则该两个相邻自然段落之间存在章节关联关系;若这两个相邻自然段落不属于同一个章节,则该两个相邻自然段落之间不存在章节关联关系。
另外,因文书中各类标题独立成段,使得各类标题均与其前后文本行之间均不存在段落关联关系;又因文书中各类标题均不属于章节内容,使得各类标题均与该文书中除了该标题以外的其他任一自然段之间不存在章节关联关系。
基于上述发现,本申请实施例提供了一种章节检测模型构建方法和编目方法,在这些方法中,可以先依据样本文书和该样本文书的实际章节信息构建章节检测模型,以使构建好的章节检测模型能够准确地从该样本文书中检测出该样本文书的章节信息;再在获取到M个待处理图像之后,利用该构建好的章节检测模型从该M个待处理图像中检测出该M个待处理图像对应的章节信息,以便后续能够利用该M个待处理图像对应的章节信息生成该M个待处理图像对应的目录。
可见,因构建好的章节检测模型具有较好的章节信息检测性能,使得利用构建好的章节检测模型提取出的M个待处理图像对应的章节信息能够准确地表示出在该M个待处理图像中携带的章节信息,从而使得基于该M个待处理图像对应的章节信息生成的目录能够准确地表示出该M个待处理图像所属的文书结构,如此能够实现章节级编目处理。
另外,本申请实施例不限定章节检测模型构建方法的执行主体,例如,本申请实施例提供的章节检测模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
此外,本申请实施例也不限定编目方法的执行主体,例如,本申请实施例提供的编目方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请实施例提供的一种章节检测模型构建方法的流程图。
本申请实施例提供的章节检测模型构建方法,包括S101-S104:
S101:获取样本文书和该样本文书的实际章节信息。
其中,样本文书是一种数字化文件材料。另外,样本文书可以包括至少一张样本图像,而且该至少一张样本图像是按照该样本文书对应的实际纸张排列顺序进行排序。
需要说明的是,本申请实施例不限定样本图像的获取方式,例如,样本图像可以通过扫描仪器针对纸质文件材料进行扫描获得。
样本文书的实际章节信息用于描述该样本文书中实际存在的章节。另外,本申请实施例不限定样本文书的实际章节信息,例如,样本文书的实际章节信息可以包括该样本文书中各个章节的实际位置描述信息。此外,为了进一步提高样本文书的实际章节信息的准确性,该样本文书的实际章节信息可以包括该样本文书中各个章节的实际位置描述信息、该样本文书中各个自然段的实际位置描述信息、该样本文书中各个标题的实际位置描述信息以及各个标题的标题类型(如,页面标题、正文一级标题、正文二级标题、正文三级标题……)。
另外,本申请实施例不限定样本文书的实际章节信息的表示方式,例如,该样本文书的实际章节信息可以采用以下表示方式:在样本文书中,对于各个自然段落来说,可以在各个自然段落的尾部标记“/p”,以便后续能够基于“/p”来描述各个自然段落的起始位置以及终止位置;对于各个章节来说,可以在各个章节的尾部标记“/s”,以使后续能够基于“/s”来描述各个章节的起始位置以及终止位置;对于各个标题来说,可以在各个标题的尾部标记“/t_i”且i为非负整数,以使t_0表示页面标题、t_1表示正文一级标题、t_2表示正文二级标题、t_3表示正文三级标题……,从而使得后续能够基于“/t_i”描述出各个标题在样本文书中所处位置以及各个标题所属的标题类型。
S102:对样本文书进行文字识别,得到该样本文书中各个文本行的文字识别结果。
其中,文字识别用于针对图像中字符进行识别处理。另外,本申请实施例不限定“文字识别”的实施方式,可以采用现有的或者未来出现的任一种能够进行文字识别处理的方法(如,OCR)进行实施。
另外,本申请实施例不限定文字识别结果,例如,文字识别结果可以包括字符识别结果和/或位置识别结果。
其中,字符识别结果用于表示针对样本文书中各个文本行的组成字符进行字符特征识别得到的;而且本申请实施例不限定上述字符识别结果的表示方式,例如,可以直接利用该文本行中各个字符的字符本身(如,字符“好”)进行表示,也可以利用该文本行中各个字符的字符标识(如,该字符在预设字典中的字符索引)进行表示。
位置识别结果用于表示针对样本文书中各个文本行在该样本文书中所处位置进行识别得到的;而且本申请实施例不限定位置识别结果的表示方式,例如,可以直接利用该文本行在该样本文书中所处位置坐标进行表示(如图2所示,样本文书中第n个文本行的位置识别结果可以利用{xn,yn,Wn,Hn}进行表示,xn表示该文本行的左顶点的横坐标,yn表示该文本行的左顶点的纵坐标,Wn表示该文本行的宽度,Hn表示该文本行的高度)。其中,n为正整数,n≤N,N表示样本文书中文本行的个数。
S103:根据样本文书中各个文本行的文字识别结果和该样本文书中各个文本行的上下文信息,确定样本文书中各个文本行的表征特征。
其中,上下文信息用于描述样本文书中一个文本行的上下文内容;而且本申请实施例不限定上下文信息,例如,样本文书中第n个文本行的上下文信息可以包括第n-1个文本行、第n-2个文本行、……、第n-Q1个文本行以及第n+1个文本行、第n+2个文本行、……、第n+Q2个文本行中的至少一个,且Q1为正整数,Q2为正整数。
另外,本申请实施例不限定上下文信息的确定方式,例如,可以依据预设上下文窗口M确定。例如,若M=2,则可以确定样本文书中第n个文本行的上下文信息可以包括第n-1个文本行;或者,可以确定该第n个文本行的上下文信息可以包括第n+1个文本行。
需要说明的是,对于样本文书中第t个样本图像内第一个文本行来说,可以利用第t-1个样本图像内文本行以及第t个样本图像内文本行,确定该第t个样本图像内第一个文本行的上下文信息;也可以直接将该第t个样本图像内第一个文本行的上下文信息确定为空。其中,t为正整数,t≤T,T为正整数,T表示样本文书中样本图像个数。
表征特征用于表示样本文书中一个文本行的相关信息(如,字符特征和/或位置特征等)。另外,本申请实施例不限定表征特征,例如,该表征特征可以包括文本表征数据和位置表征数据。其中,文本表征数据用于描述与该文本行相关的字符特征。位置表征数据用于描述与该文本行相关的位置特征。
另外,本申请实施例不限定位置表征数据的表示方式,例如,一个文本行的位置表征数据可以利用该文本行的位置识别结果进行表示。
此外,因样本文书中不同样本图像的尺寸大小可能会不一样,故为了能够进一步提高位置表征数据的准确性,一个文本行的位置表征数据可以利用相对位置进行表示。例如,如图2所示,若样本文书中第n个文本行的位置识别结果为{xn,yn,Wn,Hn},Pw表示包括该第n个文本的样本图像的宽度,且Ph表示包括该第n个文本的样本图像的高度,则该第n个文本行的位置表征数据可以利用{ln,rn,wn,hn,y_dpn→n-j}进行表示,ln=xn/Pw且该ln表示该第n个文本行的左边界与包括该第n个文本行的样本图像中页面左边界之间的相对距离,rn=1-(xn+Wn)/Pw且该rn表示该第n个文本行的右边界与包括该第n个文本行的样本图像中页面右边界之间的相对距离,wn=(xn+Wn)/Pw且该w表示该第n个文本行在包括该第n个文本行的样本图像中的相对宽度,y_dpn→n-j=(yn-yn-j-Hn-j)/Ph表示该第n个文本行的顶部与第n-j个文本行的底部之间在在包括该第n个文本行的样本图像中的相对距离,Hn-j表示第n-j个文本行的高度。
另外,本申请实施例不限定表征特征的获取方式,例如,在一种可能的实施方式中,若文字识别结果包括字符识别结果和位置识别结果,则样本文书中第n个文本行的表征特征的确定过程可以包括步骤11-步骤12:
步骤11:根据样本文书中第n个文本行的位置识别结果和该第n个文本行的上下文信息的位置识别结果,确定该第n个文本行的位置表征数据。
其中,第n个文本行的位置表征数据用于表示该第n个文本行在包括该第n个文本行的样本图像中的位置。另外,本申请实施例不限定该第n个文本行的位置表征数据,例如,若该第n个文本行的上下文信息包括第n-1个文本行和第n-2个文本行,则该第n个文本行的位置表征数据可以为{ln,rn,wn,hn,y_dpn→n-1,y_dpn→n-2}。
另外,本申请实施例不限定步骤11的实施方式,例如,步骤11具体可以包括:根据第n个文本行的位置识别结果、该第n个文本行的上下文信息的位置识别结果和该第n个文本行对应的页面尺寸,确定该第n个文本行的位置表征数据。其中,第n个文本行对应的页面尺寸是指包括该第n个文本行的样本图像的尺寸(如,上文Pw和Ph)。
步骤12:根据样本文书中第n个文本行的字符识别结果、该第n个文本行的上下文信息的字符识别结果和该第n个文本行的位置表征数据,确定该第n个文本行的表征特征。
作为示例,若表征特征包括文本表征数据和位置表征数据,则步骤12具体可以包括:先将样本文书中第n个文本行的字符识别结果与该第n个文本行的上下文信息的字符识别结果进行拼接,得到该第n个文本行的文本表征数据;再将样本文书中第n个文本行的位置表征数据和该第n个文本行的文本表征数据的集合,确定为该第n个文本行的表征特征。
基于上述S103的相关内容可知,对于样本文书中第n个文本行来说,在获取到该第n个文本行的文字识别结果和该第n个文本行的上下文信息之后,可以依据该第n个文本行的文字识别结果及其上下文信息的文字识别结果,确定该第n个文本行的表征特征,以使该第n个文本行的表征特征能够准确地表示出该第n个文本行在该样本文书中所具有的字符特征以及位置特征。
S104:根据样本文书中各个文本行的表征特征和该样本文书的实际章节信息,构建章节检测模型。
其中,章节检测模型用于针对该章节检测模型的输入数据进行章节信息检测。
另外,本申请实施例不限定章节检测模型的构建过程(也就是,S104的实施方式),例如,S104具体可以包括S1041-S1044:
S1041:将样本文书中各个文本行的表征特征输入待训练模型,得到该待训练模型输出的该样本文书的预测章节信息。
其中,样本文书的预测章节信息用于描述该样本文书中预测存在的章节。另外,本申请实施例不限定样本文书的预测章节信息,例如,样本文书的预测章节信息类似于上文“样本文书的实际章节信息”。
待训练模型用于针对该待训练模型的输入数据进行章节信息预测。另外,本申请实施例不限定待训练模型的结构,例如,在一种可能的实施方式中,如图3所示,待训练模型300可以包括段落关联关系检测层301、自然段落确定层302、单行段落确定层303、标题识别层304和章节检测层305。其中,自然段落确定层302的输入数据包括段落关联关系检测层301的输出数据;单行段落确定层303的输入数据包括自然段落确定层302的输出数据;标题识别层304的输入数据包括单行段落确定层303的输出数据;章节检测层305的输入数据包括标题识别层304的输出数据和自然段落确定层302的输出数据。
为了便于理解待训练模型300的工作原理,下面以样本文书的预测章节信息的生成过程为例进行说明。
作为示例,利用待训练模型300生成样本文书的预测章节信息的过程具体可以包括步骤21-步骤25:
步骤21:将样本文书中各个文本行的表征特征输入段落关联关系检测层301,得到该段落关联关系检测层301输出的该样本文书中各个文本行的段落关联关系识别结果。
其中,段落关联关系识别结果用于描述一个文本行与该文本行的上下文信息之间是否存在段落关联关系,从而使得该段落关联关系识别结果能够表示出一个文本行与该文本行的上下文信息是否属于同一个自然段落。
段落关联关系检测层301用于针对该段落关联关系检测层301的输入数据进行段落关联关系检测。另外,本申请实施例不限定段落关联关系检测层301,例如,在一种可能的实施方式中,若表征特征包括文本表征数据和位置表征数据,则该段落关联关系检测层301可以包括第二语义特征提取层401、第一特征拼接层402和段落关联关系识别层403。其中,第二语义特征提取层401的输入数据包括该段落关联关系检测层301的输入数据中的文本表征数据;第一特征拼接层402的输入数据包括第二语义特征提取层401的输出数据和该段落关联关系检测层301的输入数据中的位置表征数据;段落关联关系识别层403的输入数据包括第一特征拼接层402的输出数据。
为了便于理解段落关联关系检测层301的工作原理,下面以样本文书中各个文本行的段落关联关系识别结果的生成过程为例进行说明。
作为示例,利用段落关联关系检测层301生成样本文书中各个文本行的段落关联关系识别结果的过程可以包括步骤31-步骤33:
步骤31:将样本文书中各个文本行的文本表征数据输入第二语义特征提取层401,得到该第二语义特征提取层401输出的该样本文书中各个文本行的语义特征。
其中,第二语义特征提取层401用于针对该第二语义特征提取层401的输入数据进行语义特征提取。另外,本申请实施例不限定第二语义特征提取层401的实施方式,可以采用现有的或者未来出现的任一种能够实现语义特征提取的方法(如,双向长短期记忆人工神经网络(Long Short-Term Memory,LSTM))进行实施。
基于上述步骤31的相关内容可知,若样本文书包括N个文本行,则在将该样本文书中第n个文本行的文本表征数据输入第二语义特征提取层401之后,可以由该第二语义特征提取层401针对该第n个文本行的文本表征数据进行语义特征提取,得到并输出该第n个文本行的语义特征,以使该第n个文本行的语义特征能够准确地表示出该第n个文本行携带的语义信息。其中,n为正整数,n≤N,N为正整数。
步骤32:将样本文书中各个文本行的语义特征和该样本文书中各个文本行的位置表征数据输入第一特征拼接层402,得到该第一特征拼接层402输出的该样本文书中各个文本行的拼接特征。
其中,第一特征拼接层402用于将该第一特征拼接层402的输入数据进行数据拼接处理。另外,本申请实施例不限定第一特征拼接层402的实施方式,可以采用现有的或者未来出现的任一种能够实现数据拼接的方法进行实施。
基于上述步骤32的相关内容可知,若样本文书包括N个文本行,则在将该样本文书中第n个文本行的语义特征和该第n个文本行的位置表征数据输入第一特征拼接层402之后,由该第一特征拼接层402针对该第n个文本行的语义特征与该第n个文本行的位置表征数据进行数据拼接处理,得到并输出该第n个文本行的拼接特征,以使该第n个文本行的拼接特征能够表示出该第n个文本行的携带的语义信息以及位置信息。其中,n为正整数,n≤N,N为正整数。
步骤33:将样本文书中各个文本行的拼接特征输入段落关联关系识别层403,得到该段落关联关系识别层403输出的该样本文书中各个文本行的段落关联关系识别结果。
其中,段落关联关系识别层403用于针对该段落关联关系识别层403的输入数据进行段落关联关系判断。另外,本申请实施例不限定段落关联关系识别层403的结构,例如,该段落关联关系识别层403可以包括第一线性全连接层和第一激活输出层,且该第一激活输出层的输入数据包括该第一线性全连接层的输出数据。
第一线性全连接层用于针对该第一线性全连接层的输入数据进行线性全连接处理;而且本申请实施例不限定第一线性全连接层的实施方式,可以采用现有的或者未来出现的任一种能够实现线性全连接的方法进行实施。
本申请实施例也不限定第一激活输出层的实施方式,可以采用现有的或者未来出现的任一种激活层进行实施。
基于上述步骤33的相关内容可知,若样本文书包括N个文本行,则在将该样本文书中第n个文本行的拼接特征输入段落关联关系识别层403之后,由该段落关联关系识别层403针对该第n个文本行的拼接特征进行段落关联关系识别,得到并输出该第n个文本行的段落关联关系识别结果,以使该第n个文本行的段落关联关系识别结果能够表示出该第n个文本行与该第n个文本行的上下文信息之间是否存在段落关联关系,从而使得该第n个文本行的段落关联关系识别结果能够表示出该第n个文本行与该第n个文本行的上下文信息是否属于同一个自然段。其中,n为正整数,n≤N,N为正整数。
步骤22:将样本文书中各个文本行的段落关联关系识别结果输入自然段落确定层302,得到该自然段落确定层302输出的该样本文书中各个预测自然段落。
其中,自然段落确定层302用于针对该自然段落确定层302的输入数据进行自然段落划分;而且该自然段落确定层302的工作原理可以是:对于样本文书中第n个文本行的段落关联关系识别结果来说,若该第n个文本行的段落关联关系识别结果表示该第n个文本行与该第n个文本行的上下文信息之间存在段落关联关系,则可以将该第n个文本行与该第n个文本行的上下文信息划分到同一个自然段落中;若第n个文本行的段落关联关系识别结果表示该该第n个文本行与该第n个文本行的上下文信息之间不存在段落关联关系,则可以将该第n个文本行与该第n个文本行的上下文信息划分到不同自然段落中。
预测自然段落是指由自然段落确定层302依据该样本文书中各个文本行的段落关联关系识别结果划分出的自然段落。
基于上述步骤22的相关内容可知,若样本文书包括N个文本行,则在将该样本文书中N个文本行的段落关联关系识别结果输入自然段落确定层302之后,可以由该自然段落确定层302依据第1个文本行的段落关联关系识别结果来确定是否将该第1个文本行与该第1个文本行的上下文信息划分到同一个自然段落,并依据第2个文本行的段落关联关系识别结果来确定是否将该第2个文本行与该第2个文本行的上下文信息划分到同一个自然段落,……,并依据第N个文本行的段落关联关系识别结果来确定是否将该第N个文本行与该第N个文本行的上下文信息划分到同一个自然段落,得到并输出该样本文书中各个预测自然段落。
步骤23:将样本文书中各个预测自然段落输入单行段落确定层303,得到该单行段落确定层303输出的该样本文书中各个预测单行段落。
其中,单行段落确定层303用于针对该单行段落确定层303进行单行段落识别;而且该单行段落确定层303的工作原理是:判断样本文书中第r个预测自然段落是否只包括一个文本行;若该第r个预测自然段落只包括一个文本行,则确定该第r个预测自然段落属于单行段落;若该第r个预测自然段落包括多个文本行,则确定该第r个预测自然段落不属于单行段落。其中,r为正整数,r≤R,R为正整数,R表示样本文书中预测自然段落的个数。
预测单行段落是指该样本文书中预测存在的单行段落。
基于上述步骤23的相关内容可知,若样本文书中包括R个预测自然段落,则在将该样本文书中第r个预测自然段落输入单行段落确定层303之后,该单行段落确定层303可以依据该第1个预测自然段落中文本行的个数,确定该第1个预测自然段落是否属于单行段落,并依据该第2个预测自然段落中文本行的个数,确定该第2个预测自然段落是否属于单行段落,……,并依据该第R个预测自然段落中文本行的个数,确定该第R个预测自然段落是否属于单行段落;再将各个属于单行段落的预测自然段落均作为该样本文书中各个预测单行段落进行输出,以便后续能够从这些预测单行段落中确定出该样本文书中的标题信息。
步骤24:将样本文书中各个预测单行段落输入标题识别层304,得到该标题识别层304输出的该样本文书的标题识别结果。
其中,样本文书的标题识别结果用于表示该样本文书中预测存在的标题及其相关信息(如标题类型)。
另外,本申请实施例不限定样本文书的标题识别结果,例如,该样本文书的标题识别结果可以包括该样本文书中各个预测单行段落的标题检测结果。其中,标题检测结果用于表示一个预测单行段落是否是标题(以及所属的标题类型)。
标题识别层304用于针对该标题识别层304的输入数据进行标题识别处理。另外,本申请实施例不限定标题识别层304的结构,为了便于理解,下面结合两种可能的实施方式进行说明。
在一种可能的实施方式中,如图5所示,标题识别层304包括特征抽取层501和第一标题检测层502;而且该第一标题检测层502的输入数据包括该特征抽取层501的输出数据。
为了便于理解图5所示的标题识别层304的工作原理,下面以样本文书的标题识别结果的生成过程为例进行说明。
作为示例,利用图5所示的标题识别层304生成样本文书的标题识别结果的过程可以包括步骤41-步骤42:
步骤41:将样本文书中各个预测单行段落输入特征抽取层501,得到该特征抽取层501输出的该样本文书中各个预测单行段落的抽取特征。
其中,特征抽取层501用于针对该特征抽取层501的输入数据进行特征抽取。另外,本申请实施例不限定特征抽取层501的实施方式,可以采用现有的或者未来出现的任一种能够进行特征抽取的方法(如,双向循环网络特征抽取方法)进行实施。
基于上述步骤41的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落输入特征抽取层501之后,由该特征抽取层501针对该第d个预测单行段落进行特征提取,得到并输出该第d个预测单行段落的抽取特征。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
步骤42:将样本文书中各个预测单行段落的抽取特征输入第一标题检测层502,得到该第一标题检测层502输出的该样本文书中各个预测单行段落的标题检测结果。
其中,第一标题检测层502用于针对该第一标题检测层502的输入数据进行标题识别(如,识别是标题还是正文文本,和/或,识别是正文一级标题、正文二级标题、正文三级标题……)。
另外,本申请实施例不限定第一标题检测层502的结构,例如,在一种可能的实施方式中,第一标题检测层502可以包括第二线性全连接层和第二激活输出层,且该第二激活输出层的输入数据包括该第二线性全连接层的输出数据。
第二线性全连接层用于针对该第二线性全连接层的输入数据进行线性全连接处理;而且本申请实施例不限定第二线性全连接层的实施方式,可以采用现有的或者未来出现的任一种能够实现线性全连接的方法进行实施。
本申请实施例也不限定第二激活输出层的实施方式,可以采用现有的或者未来出现的任一种激活层进行实施。
基于上述步骤42的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落的抽取特征输入第一标题检测层502之后,可以由第一标题检测层502针对该第d个预测单行段落的抽取特征进行标题识别,得到并输出该第d个预测单行段落的标题检测结果,以使该第d个预测单行段落的标题检测结果能够表示出该第d个预测单行段落是属于标题(如,正文一级标题、正文二级标题、正文三级标题……)还是属于正文文本。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
基于上述如图5所示的标题识别层304的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落输入该标题识别层304,可以由该标题识别层304针对该第d个预测单行段落依次进行特征抽取以及标题识别,得到并输出该第d个预测单行段落的标题检测结果,以使该第d个预测单行段落的标题检测结果能够表示出该第d个预测单行段落是属于标题(如,正文一级标题、正文二级标题、正文三级标题……)还是属于正文文本。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
在另一种可能的实施方式中,如图6所示,标题识别层304包括特征抽取层601、第二特征拼接层602和第二标题检测层603;而且该第二特征拼接层602的输入数据包括特征抽取层601的输出数据,该第二标题检测层603包括该第二特征拼接层602的输出数据。
为了便于理解图6所示的标题识别层304的工作原理,下面以样本文书的标题识别结果的生成过程为例进行说明。
作为示例,利用图6所示的标题识别层304生成样本文书的标题识别结果的过程可以包括步骤51-步骤53:
步骤51:将样本文书中各个预测单行段落输入特征抽取层601,得到该特征抽取层601输出的样本文书中各个预测单行段落的抽取特征。
需要说明的是,步骤51的相关内容与上文步骤41的相关内容类似,只需将上文步骤41的相关内容中“特征抽取层501”替换为“特征抽取层601”即可。
步骤52:将样本文书中各个预测单行段落的抽取特征和该样本文书中各个预测单行段落的位置表征数据输入第二特征拼接层602,得到该第二特征拼接层602输出的该样本文书中各个预测单行段落的拼接特征。
其中,一个预测单行段落的位置表征数据用于描述该预测单行段落在样本文书中所处位置;而且一个预测单行段落的位置表征数据可以根据该预测单行段落中文本行的位置表征数据进行确定。例如,若样本文书中第d个预测单行段落包括该样本文书中第一文本行,则可以将第一文本行的位置表征数据,确定为该第d个预测单行段落的位置表征数据。
另外,第二特征拼接层602用于将该第二特征拼接层602的输入数据进行数据拼接处理。另外,本申请实施例不限定第二特征拼接层602的实施方式,可以采用现有的或者未来出现的任一种能够实现数据拼接的方法进行实施。
基于上述步骤52的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落的抽取特征和该第d个预测单行段落的位置表征数据输入第二特征拼接层602之后,由该第二特征拼接层602针对该第d个预测单行段落的抽取特征和该第d个预测单行段落的位置表征数据进行数据拼接处理,得到并输出该第d个预测单行段落的拼接特征。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
步骤53:将样本文书中各个预测单行段落的拼接特征输入第二标题检测层603,得到该第二标题检测层603输出的该样本文书中各个预测单行段落的标题检测结果。
其中,第二标题检测层603用于针对该第二标题检测层603的输入数据进行标题识别(如,识别是标题还是正文文本,和/或,识别是正文一级标题、正文二级标题、正文三级标题……)。
另外,本申请实施例不限定第二标题检测层603的结构,例如,在一种可能的实施方式中,第二标题检测层603可以包括第三线性全连接层和第三激活输出层,且该第三激活输出层的输入数据包括该第三线性全连接层的输出数据。
第三线性全连接层用于针对该第三线性全连接层的输入数据进行线性全连接处理;而且本申请实施例不限定第三线性全连接层的实施方式,可以采用现有的或者未来出现的任一种能够实现线性全连接的方法进行实施。
本申请实施例也不限定第三激活输出层的实施方式,可以采用现有的或者未来出现的任一种激活层进行实施。
基于上述步骤53的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落的拼接特征输入第二标题检测层603之后,可以由第二标题检测层603针对该第d个预测单行段落的拼接特征进行标题识别,得到并输出该第d个预测单行段落的标题检测结果,以使该第d个预测单行段落的标题检测结果能够表示出该第d个预测单行段落是属于标题(如,正文一级标题、正文二级标题、正文三级标题……)还是属于正文文本。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
基于上述如图6所示的标题识别层304的相关内容可知,若样本文书包括D个预测单行段落,则在将该样本文书中第d个预测单行段落及其位置表征数据输入该标题识别层304,可以由该标题识别层304先针对该第d个预测单行段落进行特征抽取;再针对该第d个预测单行段落的抽取特征及其位置表征数据进行数据拼接处理以及标题识别处理,得到并输出该第d个预测单行段落的标题检测结果,以使该第d个预测单行段落的标题检测结果能够表示出该第d个预测单行段落是属于标题(如,正文一级标题、正文二级标题、正文三级标题……)还是属于正文文本。其中,d为正整数,d≤D,D为正整数,D表示样本文书中预测单行段落的个数。
基于上述步骤24的相关内容可知,在将样本文书中各个预测单行段落输入标题识别层304之后,可以由该标题识别层304针对该样本文书中各个预测单行段落分别进行标题识别,得到该样本文书中各个预测单行段落的的标题识别结果,并将该样本文书中各个预测单行段落的的标题识别结果的集合作为该样本文书的标题识别结果进行输出,以便后续能够基于该样本文书的标题识别结果确定出样本文书中预测存在的各类标题。
步骤25:将样本文书的标题识别结果和该样本文书中各个预测自然段落输入章节检测层305,得到该章节检测层305输出的该样本文书的预测章节信息。
其中,章节检测层305用于针对该章节检测层305的输入数据进行章节预测。另外,本申请实施例不限定章节检测层305的结构,例如,如图7所示,该章节检测层305可以包括章节信息提取层701、邻近文本行提取层702、章节关联关系检测层703和章节信息确定层704,而且该章节关联关系检测层703的输入数据包括该邻近文本行提取层702的输出数据,该章节信息确定层704的输入数据包括该章节关联关系检测层703的输出数据。
为了便于理解图7所示的章节检测层305的工作原理,下面以样本文书的预测章节信息的生成过程为例进行说明。
作为示例,利用图7所示的章节检测层305生成样本文书的预测章节信息的过程可以包括步骤61-步骤62:
步骤61:若样本文书的标题识别结果表示该样本文书中存在标题,则由章节信息提取层701依据该样本文书的标题识别结果和预设标题提取规则,从该样本文书中各个预测自然段落提取出该样本文书的预测章节信息。
其中,章节信息提取层701用于依据预设标题提取规则针对该章节信息提取层701的输入数据进行章节信息提取。
预设标题提取规则可以预先设定,例如,该预设标题提取规则可以包括:以当前标题的下一个文本行作为一个章节的开始位置,下一标题的前一文本行作为该章节的结束位置。其中,上文“当前标题”的标题类型与上文“下一标题”的标题类型一致。
基于上述步骤61的相关内容可知,在获取到样本文书的标题识别结果之后,若依据该样本文书的标题识别结果确定该样本文书中存在标题,则可以由章节信息提取层701依据该样本文书的标题识别结果和预设标题提取规则,从该样本文书中各个预测自然段落提取出该样本文书的预测章节信息。例如,若样本文书中第d个预测单行段落属于正文一级标题,则可以将该样本文书中第d个预测单行段落的下一个文本行作为一级章节的开始位置,并将该第d个预测单行段落的下一个正文一级标题的前一文本行作为该一级章节的结束位置。
步骤62:若样本文书的标题识别结果表示该样本文书中不存在标题,则将该样本文书中各个预测自然段落输入邻近文本行提取层702,得到该邻近文本行提取层702输出的该样本文书中各对相邻预测自然段落之间的邻近文本行。
其中,邻近文本行提取层702用于针对该邻近文本行提取层702的输入数据进行邻近文本行提取。
邻近文本行是指用于连接一对相邻预测自然段落的文本行对;而且该邻近文本行可以包括该对相邻预测自然段落中前一个预测自然段落的最后一个文本行和该对相邻预测自然段落中后一个预测自然段落的最开始一个文本行。
步骤63:将样本文书中各对相邻预测自然段落之间的邻近文本行输入章节关联关系检测层703,得到该章节关联关系检测层703输出的该样本文书中各对相邻预测自然段落的章节关联关系识别结果。
其中,章节关联关系识别结果用于表示一对相邻预测自然段落之间是否存在章节关联关系,从而使得该章节关联关系识别结果能够表示该对相邻预测自然段落是否属于同一个章节。
章节关联关系检测层703用于针对该章节关联关系检测层703的输入数据进行章节关联关系判断。另外,本申请实施例不限定章节关联关系检测层703的结构,例如,如图8所示,该章节关联关系检测层703可以包括第一语义特征提取层801和章节关联关系识别层802,且该章节关联关系识别层802的输入数据包括该第一语义特征提取层801的输出数据。
为了便于理解图8所示的章节关联关系检测层703的工作原理,下面以样本文书中各对相邻预测自然段落的章节关联关系识别结果的生成过程为例进行说明。
作为示例,利用图8所示的章节关联关系检测层703生成样本文书中各对相邻预测自然段落的章节关联关系识别结果的过程可以包括步骤71-步骤72
步骤71:将样本文书中各对相邻预测自然段落之间的邻近文本行输入第一语义特征提取层801,得到该第一语义特征提取层801输出的该各个邻近文本行的语义特征。
其中,第一语义特征提取层801用于针对该第一语义特征提取层801的输入数据进行语义特征提取。另外,本申请实施例不限定第一语义特征提取层801的实施方式,可以采用现有的或者未来出现的任一种能够实现语义特征提取的方法(如,双向LSTM)进行实施。
基于上述步骤71的相关内容可知,若样本文书包括V对相邻预测自然段落,则在将该样本文书中第v对相邻预测自然段落之间的邻近文本行(下文利用第v个邻近文本行进行表示)输入第一语义特征提取层801之后,可以由该第一语义特征提取层801针对该第v个邻近文本行进行语义特征提取,得到并输出该第v个邻近文本行的语义特征。其中,v为正整数,v≤V,V为正整数。
步骤72:将各个邻近文本行的语义特征输入章节关联关系识别层802,得到该章节关联关系识别层802输出的样本文书中各对相邻预测自然段落的章节关联关系识别结果。
其中,章节关联关系识别层802用于针对该章节关联关系识别层802的输入数据进行章节关联关系识别。另外,本申请实施例不限定章节关联关系识别层802,例如,该章节关联关系识别层802可以包括第四线性全连接层和第四激活输出层,且该第四激活输出层的输入数据包括该第四线性全连接层的输出数据。
第四线性全连接层用于针对该第四线性全连接层的输入数据进行线性全连接处理;而且本申请实施例不限定第四线性全连接层的实施方式,可以采用现有的或者未来出现的任一种能够实现线性全连接的方法进行实施。
本申请实施例也不限定第四激活输出层的实施方式,可以采用现有的或者未来出现的任一种激活层进行实施。
基于上述步骤71的相关内容可知,若样本文书包括V对相邻预测自然段落,则在将第v个邻近文本行的语义特征输入章节关联关系识别层802之后,由该章节关联关系识别层802依据该第v个邻近文本行的语义特征判断该样本文书中第v对相邻预测自然段落之间是否存在章节关联关系,得到并输出该样本文书中第v对相邻预测自然段落的章节关联关系识别结果,以使该第v对相邻预测自然段落的章节关联关系识别结果能够表示出该第v对相邻预测自然段落中前一预测自然段落与后一预测自然段落之间是否存在章节关联关系。其中,v为正整数,v≤V,V为正整数。
基于上述步骤63的相关内容可知,在将样本文书中各对相邻预测自然段落之间的邻近文本行输入章节关联关系检测层703之后,可以由该章节关联关系检测层703依据各个邻近文本行判断该样本文书中各对相邻预测自然段落之间是否存在章节关联关系,得到并输出该样本文书中各对相邻预测自然段落的章节关联关系识别结果。
步骤64:将样本文书中各对相邻预测自然段落的章节关联关系识别结果输入章节信息确定层704,得到该章节信息确定层704输出的该样本文书的预测章节信息。
其中,章节信息确定层704用于依据该章节信息确定层704的输入数据进行章节划分;而且该章节信息确定层704的工作原理为:若样本文书中第v对相邻预测自然段落的章节关联关系识别结果表示该第v对相邻预测自然段落之间存在章节关联关系,则可以将该第v对相邻预测自然段落划分到同一个章节中;若样本文书中第v对相邻预测自然段落的章节关联关系识别结果表示该第v对相邻预测自然段落之间不存在章节关联关系,则可以将该第v对相邻预测自然段落划分到不同章节中。
基于上述S1041的相关内容可知,在获取到样本文书中各个文本行之后,可以将该样本文书中各个文本行输入待训练模型,以使该待训练模型能够针对该样本文书中各个文本行进行章节信息预测,得到并输出该样本文书的预测章节信息,以便后续能够基于该样本文书的预测章节信息确定该待训练模型的章节信息预测性能。
S1042:判断是否达到预设停止条件,若是,则执行S1044;若否,则执行S1043。
其中,预设停止条件可以预先设定;而且本申请实施例不限定预设停止条件,例如,该预设停止条件可以是待训练模型的损失值低于预设损失阈值,也可以是该待训练模型的损失值的变化率低于预设变化率阈值(也就是,该待训练模型达到收敛),还可以是该待训练模型的更新次数达到预设次数阈值。
需要说明的是,本申请实施例不限定待训练模型的损失值的计算方式,可以采用现有的或者未来出现的任一种能够依据该样本文书的预测章节信息和样本文书的实际章节信息确定该待训练模型的损失值的方法进行实施。
S1043:根据样本文书的预测章节信息和样本文书的实际章节信息,更新待训练模型,并返回执行S1041。
本申请实施例中,若确定当前轮的待训练模型没有达到预设停止条件,则表示当前轮的待训练模型的章节信息预测性能依旧比较差,故可以利用该样本文书的预测章节信息及其实际章节信息针对该待训练模型进行更新,以使更新后的待训练模型具有更好的章节信息预测性能,并返回执行S1041及其后续步骤。
S1044:根据待训练模型,确定章节检测模型。
本申请实施例中,若确定当前轮的待训练模型达到预设停止条件,则表示当前轮的待训练模型具有较好的章节信息预测性能,故可以依据该待训练模型确定章节检测模型(如,可以直接将当前轮的待训练模型确定为章节检测模型。又如,可以根据当前轮的待训练模型的模型结构以及模型参数,确定章节检测模型的模型结构以及模型参数,以使该章节检测模型的模型结构以及模型参数分别与当前轮的待训练模型的模型结构以及模型参数保持相同),如此使得该章节检测模型的章节信息预测性能与当前轮的待训练模型的章节信息预测性能保持一致,从而使得该章节检测模型也具有较好的章节信息预测性能。
基于上述S101至S104的相关内容可知,本申请实施例中,在获取到样本文书和该样本文书的实际章节信息之后,先对该样本文书进行文字识别,得到该样本文书中各个文本行的文字识别结果;再根据该样本文书中各个文本行的文字识别结果和该样本文书中各个文本行的上下文信息,确定该样本文书中各个文本行的表征特征;最后,根据该样本文书中各个文本行的表征特征和该样本文书的实际章节信息,构建章节检测模型,以使构建好的章节检测模型具有较好的章节信息预测性能,从而使得基于该构建好的章节检测模型进行实施的编目方法能够生成更准确的目录。
在构建好章节检测模型之后,可以利用该章节检测模型进行目录生成过程。基于此,本申请实施例还提供了一种编目方法,下面结合附图进行说明。
方法实施例二
参见图9,该图为本申请实施例提供的一种编目方法的流程图。
本申请实施例提供的编目方法,包括S901-S906:
S901:获取M个待处理图像。其中,M为正整数。
其中,待处理图像是指需要进行编目处理的图像。另外,本申请实施例不限定待处理图像的获取方式,例如,待处理图像可以通过扫描仪器针对纸质文件材料进行扫描获得。
另外,M个待处理图像是按照该M个待处理图像对应的实际纸张排列顺序进行排序的。
S902:对第m个待处理图像进行文字识别,得到该第m个待处理图像的文字识别结果。其中,m为正整数,m≤M。
其中,文字识别用于针对图像中字符进行识别处理。另外,本申请实施例不限定“文字识别”的实施方式,可以采用现有的或者未来出现的任一种能够进行文字识别处理的方法(如,OCR)进行实施。
另外,S902中“文字识别结果”的相关内容请参见上文S102中“文字识别结果”的相关内容。
基于上述S902的相关内容可知,在获取到第m个待处理图像之后,可以对该第m个待处理图像进行文字识别,得到该第m个待处理图像的文字识别结果,以使该第m个待处理图像的文字识别结果能够准确地表示出该第m个待处理图像中各个文字的字符特征以及位置特征。其中,m为正整数,m≤M。
S903:根据第m个待处理图像的文字识别结果,确定该第m个待处理图像中各个文本行的文字识别结果。其中,m为正整数,m≤M。
本申请实施例中,在获取到第m个待处理图像的文字识别结果之后,可以按照该第m个待处理图像中各个文字的位置特征,将同属于同一行的文字的文字识别结果进行汇总,得到该第m个待处理图像中各个文本行的文字识别结果。其中,m为正整数,m≤M。
S904:根据第m个待处理图像中各个文本行的文字识别结果和该第m个待处理图像中各个文本行的上下文信息,确定该第m个待处理图像中各个文本行的表征特征。
需要说明的是,S904中“第m个待处理图像中各个文本行的表征特征”的确定过程的实施方式类似于上文S103中“样本文书中各个文本行的表征特征”的实施方式。
S905:根据M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定该M个待处理图像对应的章节信息。
其中,章节检测模型是本申请实施例提供的章节检测模型构建方法的任一实施方式进行构建的。
M个待处理图像对应的章节信息用于表示该M个待处理图像中存在的章节;而且,该M个待处理图像对应的章节信息是由该章节检测模型针对该M个待处理图像中各个文本行的表征特征进行章节信息提取预测得到的。
S906:依据M个待处理图像对应的章节信息,生成该M个待处理图像对应的目录。
其中,M个待处理图像对应的目录用于描述该M个待处理图像的章节。
基于上述S901至S906的相关内容可知,在获取到M个待处理图像之后,可以利用该构建好的章节检测模型从该M个待处理图像中检测出该M个待处理图像对应的章节信息,以便后续能够利用该M个待处理图像对应的章节信息生成该M个待处理图像对应的目录。可见,因构建好的章节检测模型具有较好的章节信息检测性能,使得利用构建好的章节检测模型提取出的M个待处理图像对应的章节信息能够准确地表示出在该M个待处理图像中携带的章节信息,从而使得基于该M个待处理图像对应的章节信息生成的目录能够准确地表示出该M个待处理图像所属的文书结构,如此能够实现章节级编目处理。
方法实施例三
在一些情况下,上述M个待处理图像可能包括多个文书的组成图像,故为了进一步提高目录准确性,本申请实施例还提供了编目方法的另一种可能的实施方式,其具体可以包括步骤81-步骤87:
步骤81:获取M个待处理图像。其中,M为正整数。
步骤82:对第m个待处理图像进行文字识别,得到该第m个待处理图像的文字识别结果。其中,m为正整数,m≤M。
步骤83:根据第m个待处理图像的文字识别结果,确定该第m个待处理图像中各个文本行的文字识别结果。其中,m为正整数,m≤M。
步骤84:根据第m个待处理图像中各个文本行的文字识别结果和该第m个待处理图像中各个文本行的上下文信息,确定该第m个待处理图像中各个文本行的表征特征。
需要说明的是,步骤81-步骤84的相关内容请分别参见上文S901-S904。
步骤85:依据M个待处理图像的文字识别结果,对M个待处理图像进行文书划分,得到至少一个待处理文书,以使待处理文书包括至少一个待处理图像。
其中,文书划分用于将M个待处理图像划分到不同文书(如,保密协议和劳动合同)中。另外,本申请实施例不限定文书划分的实施方式,可以采用现有的或者未来出现的任一种文书划分方法进行实施。
待处理文书是指需要进行目录生成处理的文书;而且该待处理文书包括至少一个待处理图像。
步骤86:根据各个待处理文书内待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定各个待处理文书的章节信息。
其中,章节检测模型是本申请实施例提供的章节检测模型构建方法的任一实施方式进行构建的。
一个待处理文书的章节信息用于表示该待处理文书中存在的章节;而且,该待处理文书的章节信息是由该章节检测模型针对该待处理文书中各个文本行的表征特征进行章节信息提取预测得到的。
步骤87:依据各个待处理文书的章节信息,生成各个待处理文书的目录。
其中,一个待处理文书的目录用于描述该待处理文书的章节。
基于上述步骤81至步骤87的相关内容可知,在获取到M个待处理图像之后,可以先对该M个待处理图像进行文书划分,得到各个待处理文书;再利用该构建好的章节检测模型从各个待处理文书中分别检测出各个待处理文书的章节信息,以便后续能够利用各个待处理图像对应的章节信息分别生成各个待处理文书的目录。可见,因构建好的章节检测模型具有较好的章节信息检测性能,使得利用构建好的章节检测模型提取出的各个待处理文书的章节信息能够准确地表示出在各个待处理文书中携带的章节信息,从而使得基于各个待处理文书的章节信息生成的目录能够准确地表示出各个待处理文书所属的文书结构,如此能够实现章节级编目处理。
基于上述方法实施例提供的章节检测模型构建方法,本申请实施例还提供了一种章节检测模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例一提供的章节检测模型构建装置的技术详情,请参照上述方法实施例。
参见图10,该图为本申请实施例提供的一种章节检测模型构建装置的结构示意图。
本申请实施例提供的章节检测模型构建装置1000,包括:
第一获取单元1001,用于获取样本文书和所述样本文书的实际章节信息;
第一识别单元1002,用于对所述样本文书进行文字识别,得到所述样本文书中各个文本行的文字识别结果;
第一确定单元1003,用于根据所述样本文书中各个文本行的文字识别结果和所述样本文书中各个文本行的上下文信息,确定所述样本文书中各个文本行的表征特征;
模型构建单元1004,用于根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型。
在一种可能的实施方式中,若所述文字识别结果包括字符识别结果和位置识别结果,且所述样本文书包括N个文本行,则所述样本文书中第n个文本行的表征特征的确定过程,包括:
根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据;
根据所述第n个文本行的字符识别结果、所述第n个文本行的上下文信息的字符识别结果和所述第n个文本行的位置表征数据,确定所述第n个文本行的表征特征。
在一种可能的实施方式中,所述根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据,包括:
根据所述第n个文本行的位置识别结果、所述第n个文本行的上下文信息的位置识别结果和所述第n个文本行对应的页面尺寸,确定所述第n个文本行的位置表征数据。
在一种可能的实施方式中,所述模型构建单元1004,包括:
第一确定子单元,用于将所述样本文书中各个文本行的表征特征输入待训练模型,得到所述待训练模型输出的所述样本文书的预测章节信息;
模型更新子单元,用于根据所述样本文书的预测章节信息和所述样本文书的实际章节信息,更新所述待训练模型,并返回所述第一确定子单元执行所述将所述样本文书中各个文本行的表征特征输入待训练模型,直至在达到预设停止条件时,根据所述待训练模型,确定所述章节检测模型。
在一种可能的实施方式中,若所述待训练模型包括段落关联关系检测层、自然段落确定层、单行段落确定层、标题识别层、章节检测层;
所述样本文书的预测章节信息的生成过程,包括:
将所述样本文书中各个文本行的表征特征输入所述段落关联关系检测层,得到所述段落关联关系检测层输出的所述样本文书中各个文本行的段落关联关系识别结果;
将所述样本文书中各个文本行的段落关联关系识别结果输入所述自然段落确定层,得到所述自然段落确定层输出的所述样本文书中各个预测自然段落;
将所述样本文书中各个预测自然段落输入所述单行段落确定层,得到所述单行段落确定层输出的所述样本文书中各个预测单行段落;
将所述样本文书中各个预测单行段落输入所述标题识别层,得到所述标题识别层输出的所述样本文书的标题识别结果;
将所述样本文书的标题识别结果和所述样本文书中各个预测自然段落输入所述章节检测层,得到所述章节检测层输出的所述样本文书的预测章节信息。
在一种可能的实施方式中,若所述章节检测层包括章节信息提取层、邻近文本行提取层、章节关联关系检测层和章节信息确定层,则所述样本文书的预测章节信息的确定过程,包括:
若所述样本文书的标题识别结果表示所述样本文书中存在标题,则由所述章节信息提取层依据所述样本文书的标题识别结果和预设标题提取规则,从所述样本文书中各个预测自然段落提取出所述样本文书的预测章节信息;
若所述样本文书的标题识别结果表示所述样本文书中不存在标题,则将所述样本文书中各个预测自然段落输入所述邻近文本行提取层,得到所述邻近文本行提取层输出的所述样本文书中各对相邻预测自然段落之间的邻近文本行;将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述章节关联关系检测层,得到所述章节关联关系检测层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果;将所述样本文书中各对相邻预测自然段落的章节关联关系识别结果输入所述章节信息确定层,得到所述章节信息确定层输出的所述样本文书的预测章节信息。
在一种可能的实施方式中,若所述章节关联关系检测层包括第一语义特征提取层和章节关联关系识别层,则所述样本文书中各对相邻预测自然段落的章节关联关系识别结果的生成过程,包括:
将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述第一语义特征提取层,得到所述第一语义特征提取层输出的所述各个邻近文本行的语义特征;
将所述各个邻近文本行的语义特征输入所述章节关联关系识别层,得到所述章节关联关系识别层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果。
在一种可能的实施方式中,若所述表征特征包括文本表征数据和位置表征数据,且所述段落关联关系检测层包括第二语义特征提取层、第一特征拼接层和段落关联关系识别层,则所述样本文书中各个文本行的段落关联关系识别结果的生成过程,包括:
将所述样本文书中各个文本行的文本表征数据输入所述第二语义特征提取层,得到所述第二语义特征提取层输出的所述样本文书中各个文本行的语义特征;
将所述样本文书中各个文本行的语义特征和所述样本文书中各个文本行的位置表征数据输入所述第一特征拼接层,得到所述第一特征拼接层输出的所述样本文书中各个文本行的拼接特征;
将所述样本文书中各个文本行的拼接特征输入所述段落关联关系识别层,得到所述段落关联关系识别层输出的所述样本文书中各个文本行的段落关联关系识别结果。
在一种可能的实施方式中,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层和第一标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征输入所述第一标题检测层,得到所述第一标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
在一种可能的实施方式中,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层、第二特征拼接层和第二标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征和所述样本文书中各个预测单行段落的位置表征数据输入所述第二特征拼接层,得到所述第二特征拼接层输出的所述样本文书中各个预测单行段落的拼接特征;
将所述样本文书中各个预测单行段落的拼接特征输入所述第二标题检测层,得到所述第二标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
基于上述章节检测模型构建装置1000的相关内容可知,对于章节检测模型构建装置1000来说,在获取到样本文书和该样本文书的实际章节信息之后,先对该样本文书进行文字识别,得到该样本文书中各个文本行的文字识别结果;再根据该样本文书中各个文本行的文字识别结果和该样本文书中各个文本行的上下文信息,确定该样本文书中各个文本行的表征特征;最后,根据该样本文书中各个文本行的表征特征和该样本文书的实际章节信息,构建章节检测模型,以使构建好的章节检测模型具有较好的章节信息预测性能,从而使得基于该构建好的章节检测模型进行实施的编目方法能够生成更准确的目录。
基于上述方法实施例提供的编目方法,本申请实施例还提供了一种编目装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例二提供的编目装置的技术详情,请参照上述方法实施例。
参见图11,该图为本申请实施例提供的一种编目装置的结构示意图。
本申请实施例提供的编目装置1100,包括:
第二获取单元1101,用于获取M个待处理图像;其中,M为正整数;
第二识别单元1102,用于对第m个待处理图像进行文字识别,得到所述第m个待处理图像的文字识别结果;其中,m为正整数,m≤M;
第二确定单元1103,用于根据所述第m个待处理图像的文字识别结果,确定所述第m个待处理图像中各个文本行的文字识别结果;其中,m为正整数,m≤M;
第三确定单元1104,用于根据所述第m个待处理图像中各个文本行的文字识别结果和所述第m个待处理图像中各个文本行的上下文信息,确定所述第m个待处理图像中各个文本行的表征特征;
第四确定单元1105,用于根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息;其中,所述章节检测模型是利用权利要求1-10任一项所述的章节检测模型构建方法进行构建的;
目录生成单元1106,用于依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录。
在一种可能的实施方式中,所述编目装置1100,还包括:
文书划分单元,用于依据所述M个待处理图像的文字识别结果,对所述M个待处理图像进行文书划分,得到至少一个待处理文书,以使所述待处理文书包括至少一个待处理图像;
所述第四确定单元1105,具体用于:根据各个待处理文书内待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述各个待处理文书的章节信息;
所述目录生成单元1106,具体用于:依据所述各个待处理文书的章节信息,生成所述各个待处理文书的目录。
基于上述编目装置1100的相关内容可知,对于编目装置1100来说,在获取到M个待处理图像之后,可以利用该构建好的章节检测模型从该M个待处理图像中检测出该M个待处理图像对应的章节信息,以便后续能够利用该M个待处理图像对应的章节信息生成该M个待处理图像对应的目录。可见,因构建好的章节检测模型具有较好的章节信息检测性能,使得利用构建好的章节检测模型提取出的M个待处理图像对应的章节信息能够准确地表示出在该M个待处理图像中携带的章节信息,从而使得基于该M个待处理图像对应的章节信息生成的目录能够准确地表示出该M个待处理图像所属的文书结构,如此能够实现章节级编目处理。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的章节检测模型构建方法的任一实施方式,或者执行本申请实施例提供的编目方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (17)
1.一种章节检测模型构建方法,其特征在于,所述方法包括:
获取样本文书和所述样本文书的实际章节信息;
对所述样本文书进行文字识别,得到所述样本文书中各个文本行的文字识别结果;
根据所述样本文书中各个文本行的文字识别结果和所述样本文书中各个文本行的上下文信息,确定所述样本文书中各个文本行的表征特征;
根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型。
2.根据权利要求1所述的方法,其特征在于,若所述文字识别结果包括字符识别结果和位置识别结果,且所述样本文书包括N个文本行,则所述样本文书中第n个文本行的表征特征的确定过程,包括:
根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据;
根据所述第n个文本行的字符识别结果、所述第n个文本行的上下文信息的字符识别结果和所述第n个文本行的位置表征数据,确定所述第n个文本行的表征特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第n个文本行的位置识别结果和所述第n个文本行的上下文信息的位置识别结果,确定所述第n个文本行的位置表征数据,包括:
根据所述第n个文本行的位置识别结果、所述第n个文本行的上下文信息的位置识别结果和所述第n个文本行对应的页面尺寸,确定所述第n个文本行的位置表征数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型,包括:
将所述样本文书中各个文本行的表征特征输入待训练模型,得到所述待训练模型输出的所述样本文书的预测章节信息;
根据所述样本文书的预测章节信息和所述样本文书的实际章节信息,更新所述待训练模型,并继续执行所述将所述样本文书中各个文本行的表征特征输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述章节检测模型。
5.根据权利要求4所述的方法,其特征在于,若所述待训练模型包括段落关联关系检测层、自然段落确定层、单行段落确定层、标题识别层、章节检测层;
所述样本文书的预测章节信息的生成过程,包括:
将所述样本文书中各个文本行的表征特征输入所述段落关联关系检测层,得到所述段落关联关系检测层输出的所述样本文书中各个文本行的段落关联关系识别结果;
将所述样本文书中各个文本行的段落关联关系识别结果输入所述自然段落确定层,得到所述自然段落确定层输出的所述样本文书中各个预测自然段落;
将所述样本文书中各个预测自然段落输入所述单行段落确定层,得到所述单行段落确定层输出的所述样本文书中各个预测单行段落;
将所述样本文书中各个预测单行段落输入所述标题识别层,得到所述标题识别层输出的所述样本文书的标题识别结果;
将所述样本文书的标题识别结果和所述样本文书中各个预测自然段落输入所述章节检测层,得到所述章节检测层输出的所述样本文书的预测章节信息。
6.根据权利要求5所述的方法,其特征在于,若所述章节检测层包括章节信息提取层、邻近文本行提取层、章节关联关系检测层和章节信息确定层,则所述样本文书的预测章节信息的确定过程,包括:
若所述样本文书的标题识别结果表示所述样本文书中存在标题,则由所述章节信息提取层依据所述样本文书的标题识别结果和预设标题提取规则,从所述样本文书中各个预测自然段落提取出所述样本文书的预测章节信息;
若所述样本文书的标题识别结果表示所述样本文书中不存在标题,则将所述样本文书中各个预测自然段落输入所述邻近文本行提取层,得到所述邻近文本行提取层输出的所述样本文书中各对相邻预测自然段落之间的邻近文本行;将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述章节关联关系检测层,得到所述章节关联关系检测层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果;将所述样本文书中各对相邻预测自然段落的章节关联关系识别结果输入所述章节信息确定层,得到所述章节信息确定层输出的所述样本文书的预测章节信息。
7.根据权利要求6所述的方法,其特征在于,若所述章节关联关系检测层包括第一语义特征提取层和章节关联关系识别层,则所述样本文书中各对相邻预测自然段落的章节关联关系识别结果的生成过程,包括:
将所述样本文书中各对相邻预测自然段落之间的邻近文本行输入所述第一语义特征提取层,得到所述第一语义特征提取层输出的所述各个邻近文本行的语义特征;
将所述各个邻近文本行的语义特征输入所述章节关联关系识别层,得到所述章节关联关系识别层输出的所述样本文书中各对相邻预测自然段落的章节关联关系识别结果。
8.根据权利要求5所述的方法,其特征在于,若所述表征特征包括文本表征数据和位置表征数据,且所述段落关联关系检测层包括第二语义特征提取层、第一特征拼接层和段落关联关系识别层,则所述样本文书中各个文本行的段落关联关系识别结果的生成过程,包括:
将所述样本文书中各个文本行的文本表征数据输入所述第二语义特征提取层,得到所述第二语义特征提取层输出的所述样本文书中各个文本行的语义特征;
将所述样本文书中各个文本行的语义特征和所述样本文书中各个文本行的位置表征数据输入所述第一特征拼接层,得到所述第一特征拼接层输出的所述样本文书中各个文本行的拼接特征;
将所述样本文书中各个文本行的拼接特征输入所述段落关联关系识别层,得到所述段落关联关系识别层输出的所述样本文书中各个文本行的段落关联关系识别结果。
9.根据权利要求5所述的方法,其特征在于,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层和第一标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征输入所述第一标题检测层,得到所述第一标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
10.根据权利要求5所述的方法,其特征在于,若所述样本文书的标题识别结果包括所述样本文书中各个预测单行段落的标题检测结果,且所述标题识别层包括特征抽取层、第二特征拼接层和第二标题检测层,则所述样本文书的标题识别结果的生成过程,包括:
将所述样本文书中各个预测单行段落输入所述特征抽取层,得到所述特征抽取层输出的所述样本文书中各个预测单行段落的抽取特征;
将所述样本文书中各个预测单行段落的抽取特征和所述样本文书中各个预测单行段落的位置表征数据输入所述第二特征拼接层,得到所述第二特征拼接层输出的所述样本文书中各个预测单行段落的拼接特征;
将所述样本文书中各个预测单行段落的拼接特征输入所述第二标题检测层,得到所述第二标题检测层输出的所述样本文书中各个预测单行段落的标题检测结果。
11.一种编目方法,其特征在于,所述方法包括:
获取M个待处理图像;其中,M为正整数;
对第m个待处理图像进行文字识别,得到所述第m个待处理图像的文字识别结果;其中,m为正整数,m≤M;
根据所述第m个待处理图像的文字识别结果,确定所述第m个待处理图像中各个文本行的文字识别结果;其中,m为正整数,m≤M;
根据所述第m个待处理图像中各个文本行的文字识别结果和所述第m个待处理图像中各个文本行的上下文信息,确定所述第m个待处理图像中各个文本行的表征特征;
根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息;其中,所述章节检测模型是利用权利要求1-10任一项所述的章节检测模型构建方法进行构建的;
依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
依据所述M个待处理图像的文字识别结果,对所述M个待处理图像进行文书划分,得到至少一个待处理文书,以使所述待处理文书包括至少一个待处理图像;
所述根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息,包括:
根据各个待处理文书内待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述各个待处理文书的章节信息;
所述依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录,包括:
依据所述各个待处理文书的章节信息,生成所述各个待处理文书的目录。
13.一种章节检测模型构建装置,其特征在于,包括:
第一获取单元,用于获取样本文书和所述样本文书的实际章节信息;
第一识别单元,用于对所述样本文书进行文字识别,得到所述样本文书中各个文本行的文字识别结果;
第一确定单元,用于根据所述样本文书中各个文本行的文字识别结果和所述样本文书中各个文本行的上下文信息,确定所述样本文书中各个文本行的表征特征;
模型构建单元,用于根据所述样本文书中各个文本行的表征特征和所述样本文书的实际章节信息,构建章节检测模型。
14.一种编目装置,其特征在于,包括:
第二获取单元,用于获取M个待处理图像;其中,M为正整数;
第二识别单元,用于对第m个待处理图像进行文字识别,得到所述第m个待处理图像的文字识别结果;其中,m为正整数,m≤M;
第二确定单元,用于根据所述第m个待处理图像的文字识别结果,确定所述第m个待处理图像中各个文本行的文字识别结果;其中,m为正整数,m≤M;
第三确定单元,用于根据所述第m个待处理图像中各个文本行的文字识别结果和所述第m个待处理图像中各个文本行的上下文信息,确定所述第m个待处理图像中各个文本行的表征特征;
第四确定单元,用于根据所述M个待处理图像中各个文本行的表征特征和预先构建的章节检测模型,确定所述M个待处理图像对应的章节信息;其中,所述章节检测模型是利用权利要求1-10任一项所述的章节检测模型构建方法进行构建的;
目录生成单元,用于依据所述M个待处理图像对应的章节信息,生成所述M个待处理图像对应的目录。
15.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-10中任一项所述的章节检测模型构建方法,或者执行权利要求11-12中任一项所述的编目方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-10中任一项所述的章节检测模型构建方法,或者执行权利要求11-12中任一项所述的编目方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-10中任一项所述的章节检测模型构建方法,或者执行权利要求11-12中任一项所述的编目方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560295.8A CN113221792B (zh) | 2021-05-21 | 2021-05-21 | 一种章节检测模型构建方法、编目方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560295.8A CN113221792B (zh) | 2021-05-21 | 2021-05-21 | 一种章节检测模型构建方法、编目方法及其相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221792A true CN113221792A (zh) | 2021-08-06 |
CN113221792B CN113221792B (zh) | 2022-09-27 |
Family
ID=77098010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110560295.8A Active CN113221792B (zh) | 2021-05-21 | 2021-05-21 | 一种章节检测模型构建方法、编目方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221792B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610082A (zh) * | 2021-08-12 | 2021-11-05 | 北京有竹居网络技术有限公司 | 一种字符识别方法及其相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004072132A (ja) * | 2002-06-11 | 2004-03-04 | Sony Corp | 画像検出装置、画像検出方法および画像検出プログラム |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN106383835A (zh) * | 2016-08-29 | 2017-02-08 | 华东师范大学 | 一种基于形式语义推理和深度学习的自然语言知识挖掘系统 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
CN109858036A (zh) * | 2019-02-26 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文书划分方法及装置 |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
CN112329548A (zh) * | 2020-10-16 | 2021-02-05 | 北京临近空间飞行器系统工程研究所 | 一种文档章节分割方法、装置及存储介质 |
-
2021
- 2021-05-21 CN CN202110560295.8A patent/CN113221792B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004072132A (ja) * | 2002-06-11 | 2004-03-04 | Sony Corp | 画像検出装置、画像検出方法および画像検出プログラム |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN106383835A (zh) * | 2016-08-29 | 2017-02-08 | 华东师范大学 | 一种基于形式语义推理和深度学习的自然语言知识挖掘系统 |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
CN109858036A (zh) * | 2019-02-26 | 2019-06-07 | 科大讯飞股份有限公司 | 一种文书划分方法及装置 |
CN112329548A (zh) * | 2020-10-16 | 2021-02-05 | 北京临近空间飞行器系统工程研究所 | 一种文档章节分割方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
OLENA MEDELYAN ET AL.: "Domain-independent automatic keyphrase indexing with small training sets", 《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY》 * |
吴骋 等: "中文电子病历多层次信息抽取方法的探索", 《中国数字医学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610082A (zh) * | 2021-08-12 | 2021-11-05 | 北京有竹居网络技术有限公司 | 一种字符识别方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113221792B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715313B2 (en) | Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111144370A (zh) | 单据要素抽取方法、装置、设备及存储介质 | |
CN110706312A (zh) | 一种表情包的文案确定方法、装置及电子设备 | |
CN114021646A (zh) | 一种图像描述文本确定方法及其相关设备 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN113221792B (zh) | 一种章节检测模型构建方法、编目方法及其相关设备 | |
CN114495147B (zh) | 识别方法、装置、设备以及存储介质 | |
Mohammad et al. | Contour-based character segmentation for printed Arabic text with diacritics | |
CN113657370A (zh) | 一种文字识别方法及其相关设备 | |
CN112632948B (zh) | 案件文书排序方法及相关设备 | |
CN114005019A (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113496115B (zh) | 文件内容比对方法和装置 | |
CN109635810B (zh) | 一种确定文本信息的方法、装置、设备及存储介质 | |
CN114996360B (zh) | 数据分析方法、系统、可读存储介质及计算机设备 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN114627462A (zh) | 化学式识别方法、装置、计算机设备及存储介质 | |
CN113971810A (zh) | 文档生成方法、装置、平台、电子设备以及存储介质 | |
CN112668581A (zh) | 一种文书标题识别方法和装置 | |
CN114722806A (zh) | 文本处理方法、装置及设备 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |