CN109858036A - 一种文书划分方法及装置 - Google Patents

一种文书划分方法及装置 Download PDF

Info

Publication number
CN109858036A
CN109858036A CN201910142005.0A CN201910142005A CN109858036A CN 109858036 A CN109858036 A CN 109858036A CN 201910142005 A CN201910142005 A CN 201910142005A CN 109858036 A CN109858036 A CN 109858036A
Authority
CN
China
Prior art keywords
text
page
line
page object
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910142005.0A
Other languages
English (en)
Other versions
CN109858036B (zh
Inventor
赵昂
李宝善
盛志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910142005.0A priority Critical patent/CN109858036B/zh
Publication of CN109858036A publication Critical patent/CN109858036A/zh
Application granted granted Critical
Publication of CN109858036B publication Critical patent/CN109858036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种文书划分方法及装置,该方法包括:在对待划分卷宗进行文书划分时,首先将待划分卷宗中的每一页作为目标页,然后,分析该目标页与其上文之间的语义关联关系,和/或,分析该目标页与其下文之间的语义关联关系;接着,可以根据分析出的该待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分。由于文书之间通常情况下不具有语义关联性,基于这些特性,当根据待划分卷宗中的每一页与其上文之间的语义关联关系、和/或与其下文之间的语义关联关系,对待划分卷宗进行文书划分时,相比于过分依赖于标题检测结果进行文书划分的方法,本申请提高了文书划分结果的正确性。

Description

一种文书划分方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文书划分方法及装置。
背景技术
在法院信息化建设过程中,无纸化办公已成为必先攻克的任务。无纸化办公主要通过电子卷宗管理系统完成卷宗管理,包括:管理记录反映案件办理过程和案件办理结果的文字、图表、声像等数字化文件材料。相对于传统的纸质卷宗,它可以海量存放并通过计算机网络实现多人同时查阅和打印,便于检查办案质量、加快办案流程、交流办案经验、提高办案水平。
在通过电子卷宗管理系统完成卷宗管理时,其任务之一是法院电子卷宗编目的任务,该任务需要分析电子卷宗材料以进行文书划分,在进行文书划分时,由于一个卷宗(如合同纠纷)是由多个文书(如封面、起诉状、受理通知书、判决书等)组成,可以将该卷宗按每个文书进行划分和编目。
在现有的文书划分方法中,首先检测出卷宗中的标题,然后基于标题检出结果进行文书划分,但是,该文书划分方法过于依赖于标题检出结果,当标题误检出或漏检出时,将导致文书划分错误。
发明内容
本申请实施例的主要目的在于提供一种文书划分方法及装置,能够提高文书划分结果的正确性。
本申请实施例提供了一种文书划分方法,包括:
将待划分卷宗中的每一页作为目标页;
分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;
根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
可选的,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:
选择所述目标页中位置在前的第一数目的文本行;
选择所述目标页的前一页中位置在后的第二数目的文本行;
分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
可选的,所述分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系,包括:
将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
可选的,所述分析所述目标页与所述目标页下文之间的语义关联关系,包括:
选择所述目标页中位置在后的第三数目的文本行;
选择所述目标页的后一页中位置在前的第四数目的文本行;
分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
可选的,所述分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系,包括:
将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
可选的,所述根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分,包括:
根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;
根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。
可选的,所述根据所述目标页对应的语义关联关系,确定所述目标页的页面标签,包括:
根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;
根据确定的概率,确定所述目标页的页面标签。
可选的,所述根据确定的概率,确定所述目标页的页面标签,包括:
生成所述目标页中前N个文字的文本字特征,和/或,生成所述目标页的图片分类结果,N≥1;
根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。
可选的,所述将所述待划分卷宗进行文书划分之后,还包括:
将划分出的每一文书作为目标文书;
在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;
生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,判断所述目标文本行是否为标题行。
可选的,所述目标文本行的文本字特征包括:
所述目标文本行中的文字的索引值;或者,所述目标文本行中的文字的索引值,以及,所述目标文本行的前一文本行中的文字的索引值、和/或所述目标文本行的后一文本行中的文字的索引值。
可选的,所述前N个文字的文本字特征包括:所述前N个文字中每一文字的索引值。
可选的,所述目标文本行的像素位置特征包括以下一项或多项:
所述目标文本行的左侧位置;
所述目标文本行的宽度;
所述目标文本行的高度;
所述目标文本行与所述目标文本行的前一文本行之间的间距;
所述目标文本行与所述目标文本行的后一文本行之间的间距;
所述目标文本行与所述目标文本行所属页面的右侧边缘之间的间距。
本申请实施例还提供了一种文书划分装置,包括:
目标页确定单元,用于将待划分卷宗中的每一页作为目标页;
关系分析单元,包括第一关系分析子单元和/或第二关系分析子单元;其中,所述第一关系分析子单元,用于分析所述目标页与所述目标页上文之间的语义关联关系;所述第二关系分析子单元,用于分析所述目标页与所述目标页下文之间的语义关联关系;
文书划分单元,用于根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
可选的,所述第一关系分析子单元包括:
第一文本行选择子单元,用于选择所述目标页中位置在前的第一数目的文本行;
第二文本行选择子单元,用于选择所述目标页的前一页中位置在后的第二数目的文本行;
第一分析子单元,用于分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
可选的,所述第一分析子单元包括:
第一特征生成子单元,用于将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
第一关联关系分析子单元,用于根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
可选的,所述第二关系分析子单元包括:
第三文本行选择子单元,用于选择所述目标页中位置在后的第三数目的文本行;
第四文本行选择子单元,用于选择所述目标页的后一页中位置在前的第四数目的文本行;
第二分析子单元,用于分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
可选的,所述第二分析子单元包括:
第二特征生成子单元,用于将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
第二关联关系分析子单元,用于根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
可选的,所述文书划分单元包括:
标签确定子单元,用于根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;
文书划分子单元,用于根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。
可选的,所述标签确定子单元包括:
概率确定子单元,用于根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;
第一标签确定子单元,用于根据确定的概率,确定所述目标页的页面标签。
可选的,所述第一标签确定子单元包括:
生成子单元,用于生成所述目标页中前N个文字的文本字特征;和/或,图片分类结果生成子单元,用于生成所述目标页的图片分类结果,N≥1;
第二标签确定子单元,用于根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。
可选的,所述装置还包括:
目标文书确定单元,用于在将所述待划分卷宗进行文书划分之后,将划分出的每一文书作为目标文书;
目标文本行确定单元,用于在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;
特征生成单元,用于生成所述目标文本行的文本字特征和/或像素位置特征;
标题行判断单元,用于根据生成的特征,判断所述目标文本行是否为标题行。
可选的,所述目标文本行的文本字特征包括:
所述目标文本行中的文字的索引值;或者,所述目标文本行中的文字的索引值,以及,所述目标文本行的前一文本行中的文字的索引值、和/或所述目标文本行的后一文本行中的文字的索引值。
可选的,所述前N个文字的文本字特征包括:所述前N个文字中每一文字的索引值。
可选的,所述目标文本行的像素位置特征包括以下一项或多项:
所述目标文本行的左侧位置;
所述目标文本行的宽度;
所述目标文本行的高度;
所述目标文本行与所述目标文本行的前一文本行之间的间距;
所述目标文本行与所述目标文本行的后一文本行之间的间距;
所述目标文本行与所述目标文本行所属页面的右侧边缘之间的间距。
本申请实施例提供的一种文书划分方法及装置,在对待划分卷宗进行文书划分时,首先将待划分卷宗中的每一页作为目标页,然后,分析该目标页与其上文之间的语义关联关系,和/或,分析该目标页与其下文之间的语义关联关系;接着,可以根据分析出的该待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分。由于文书之间通常情况下不具有语义关联性,基于这些特性,当根据待划分卷宗中的每一页与其上文之间的语义关联关系、和/或与其下文之间的语义关联关系,对待划分卷宗进行文书划分时,相比于过分依赖于标题检测结果进行文书划分的方法,本申请实施例提高了文书划分结果的正确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文书划分方法的流程示意图;
图2为本申请实施例提供的分析目标页与目标页上文之间的语义关联关系的流程示意图;
图3为本申请实施例提供的目标页与目标页上下文中文本行选择的示意图;
图4为本申请实施例提供的目标文本行像素位置特征的示意图;
图5为本申请实施例提供的分析目标页与目标页下文之间的语义关联关系的流程示意图;
图6为本申请实施例提供的根据待划分卷宗中的每一页对应的语义关联关系将待划分卷宗进行文书划分的流程示意图;
图7为本申请实施例提供的根据目标页对应的语义关联关系确定目标页的页面标签的流程示意图;
图8为本申请实施例提供的语义关联分类模型的结构示意图;
图9为本申请实施例提供的文书序列标注模型的结构示意图;
图10为本申请实施例提供的标题检出方法的流程示意图;
图11为本申请实施例提供的标题检出模型的结构示意图;
图12为本申请实施例提供的一种文书划分装置的组成示意图。
具体实施方式
在一些文书划分方法中,首先,通常是先对待划分卷宗进行标题行区域的预检测,用以检测出标题行区域中可能包含的标题文本,然后,再将检测出的这些标题文本与标题库中的标题文本进行匹配,并将匹配成功的标题文本作为待划分卷宗的标题,接着,再基于该标题检出结果进行文书划分。
具体来讲,通过对待划分卷宗进行标题行区域的预检测,可以得到该卷宗可能包含的标题行文本,然后可以将这些标题行文本与标题库中的所有标题进行匹配,计算出这些标题行文本与标题库中每一标题的匹配度,并按照匹配度的高低进行匹配度的排序,进而可以将其中排序较高且大于预设阈值的匹配度对应的标题行文本作为待划分卷宗的标题。
但是,这种基于标题库匹配的检测方式可能会带来计算效率低下的问题,比如,假设通过对待划分卷宗进行标题行区域的预检测,得到该卷宗可能包含的某一标题的行数为M,而标题库中有N个标题,则在将该预检测出的标题行文本与标题库中每一标题进行匹配时,计算的复杂度为O(M*N),这就导致标题库中包含的标题数量不宜过多,否则将导致计算效率较低。并且,对于一些标题库中不存在的标题,比如,一些含有特定的人名、地名、机构名等实体的不常见标题,或者,其他一些不常见的长尾文本标题等,这种基于标题库匹配的检测方式可能也无法准确的进行标题文本的检测。
此外,这种基于标题库匹配的检测方式是基于标题行区域的区域信息进行的标题检出,其对于常见版面的文书来说,标题检出效果较好,但对于一些复杂版面(标题区域信息比较复杂)的文书来说,标题检出效果则较差。而且,对于文书中的证据图片、证件、表格等材料由于文字信息较少需要进行分类识别和编写对应的规则进行处理。
可见,按照上述方式实现标题检出任务时,把标题的区域和文本特征信息分开处理进行标题检出,而标题的可用特征本身就很少,导致每步检测的可用信息都存在不足,因此,可能会造成标题的错误检出或漏检出。
进一步的,在进行文书划分时,是在通过上述方法完成标题检出后,以标题标记结果进行文书划分,即,将下一个标题页的前一页为当前文书的结尾页。这种文书划分方式过于依赖于标题检出结果,所以,当标题出现误检出或漏检出时,将导致文书划分错误。
为解决上述缺陷,本申请提供了一种文书划分方法,在对待划分卷宗进行文书划分时,分析该待划分卷宗中的每一页与其上下文之间的语义关联关系,根据分析出的语义关联关系信息,将该待划分卷宗进行文书划分。由于待划分卷宗中只有同一文书内的每一页与其上下文之间才存在语义关联关系,而不同文书之间的语义是相互独立且不存在关联关系的,所以,当利用待划分卷宗中每一页与其上下文之间的语义关联关系进行文书划分时,相比于上述过分依赖于标题检测结果进行文书划分的方法,由于本申请不依赖于标题检测结果,故而,能够提高文书划分结果的正确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种文书划分方法的流程示意图,该方法包括以下步骤:
S101:将待划分卷宗中的每一页作为目标页。
在本实施例中,将需要进行文书划分的卷宗定义为待划分卷宗,并将待划分卷宗中的每一页定义为目标页。
需要说明的是,待划分卷宗是由多个文书组成,且本实施例不限制待划分卷宗的类型以及其包含的文书的个数和内容,比如,待划分卷宗可以为一份合同纠纷卷宗,而该卷宗可以由封面、起诉状、受理通知书、判决书等各个文书组成。
S102:分析目标页与目标页上文之间的语义关联关系,和/或,分析目标页与目标页下文之间的语义关联关系。
在本实施例中,通过步骤S101将待划分卷宗中的每一页作为目标页后,可以按照后续步骤S102-S103对每一目标页进行数据处理。需要说明的是,在后续内容中,本实施例将以待划分卷宗中的某一目标页为准来介绍如何对目标页进行数据处理,而其它目标页的处理方式与之类似,不再一一赘述,进而再根据每一目标页对应的处理结果进行文书划分。
在本步骤S102中,由于同一文书中每一页包含的内容与其上下页包含的内容之间一般是语义相关的,以“判决书”为例,其中某一页的文字内容可能是对其上一页包含的一些内容的解释说明,也可能是与其下一页包含的相关内容共同构成了叙述某一判决或某一事件的前后文,即,二者之间的语义是相关联的。因此,可以通过分析目标页与其上文之间的语义关联关系,即,分析目标页包含的内容与其上一页包含的内容之间的语义关联关系,和/或,分析目标页与其下文之间的语义关联关系,即,分析目标页包含的内容与其下一页包含的内容之间的语义关联关系,将分析后得到的语义关联关系作为目标页对应的语义关联关系,进而可以通过后续步骤S103,根据此语义关联关系,将待划分卷宗进行准确的文书划分。
在本实施例中,一种可选的实现方式是,步骤S102中的“分析目标页与目标页上文之间的语义关联关系”的实现过程具体可以包括步骤S201-S203:
S201:选择目标页中位置在前的第一数目的文本行。
在本实现方式中,可以理解的是,目标页中与其前一页包含的内容语义相关性较高的文本极有可能分布在目标页中比较靠前的位置,由此,可以选择出目标页中位置在前的第一数目的文本行,并根据这些文本行中的文字内容来分析出目标页与其上文之间的语义关联关系,而不需要选择目标页包含的所有文本行来进行分析,这样,既可以保证分析的准确率,也能够减少计算量并且提高计算速度。其中,第一数目的取值可根据实际情况进行设置,本申请对此不进行限定,比如,可以将第一数目取为20,即,可以选择出目标页中前20行的文本行,用以分析目标页与其上文之间的语义关联关系。
当然,上述第一数目的文本行,也可以包括目标页的所有文本行。
S202:选择目标页的前一页中位置在后的第二数目的文本行。
在本实现方式中,可以理解的是,目标页的前一页中与目标页包含的内容语义相关性较高的文本极有可能分布在该页中比较靠后的位置,由此,可以选择出目标页的前一页中位置在后的第二数目的文本行,并根据这些文本行中的文字内容来分析出其与目标页之间的语义关联关系,而不需要选择该前一页包含的所有文本行来进行分析,这样,既可以保证分析的准确率,也能够减少计算量并提高计算速度。其中,第二数目的取值可根据实际情况进行设置,可以与步骤S201中选取的第一数目的值相同,也可以不同,本申请对此不进行限定,比如,可以将第二数目同样取为20,即,可以选择出目标页的前一页中倒数20行的文本行,用以分析其与目标页之间的语义关联关系,或者也可以将第二数目取为30或40等其他数值。
当然,上述第二数目的文本行,也可以包括目标页的前一页的所有文本行。
需要说明的是,本实施例不限制S201与S202的执行顺序。
S203:分析第一数目的文本行与第二数目的文本行之间的语义关联关系。
在本实现方式中,通过步骤S201选择出目标页中位置在前的第一数目的文本行,以及通过步骤S202选择出目标页的前一页中位置在后的第二数目的文本行后,可以通过对目标页中第一数目的文本行进行数据处理,以及对目标页的前一页中第二数目的文本行进行数据处理,得到各自对应的处理结果,并根据该处理结果分析出二者之间的语义关联关系。
举例说明:参见图3,其中,中间图表示的是目标页,左侧图表示的是目标页的前一页,假设第一数目与第二数目的取值均为10,则首先可以选取目标页的前10行文本行以及目标页的前一页中倒数10行文本行,然后,可以通过对选取出的这20行文本行进行数据处理,得到处理结果,并根据该处理结果分析出目标页与其前一页之间的语义关联关系,如图3中的左侧图与中间图所示。
在本实施例的一种实现方式中,S203具体可以包括步骤A1-A2:
步骤A1:将第一数目与第二数目的文本行中的每一文本行作为目标文本行,生成该目标文本行的文本字特征和/或像素位置特征。
在本实现方式中,为了便于分析出第一数目的文本行和第二数目的文本行之间的语义关联关系,首先将第一数目与第二数目的文本行中的每一文本行定义为目标文本行,然后通过对目标文本行进行数据处理,以生成目标文本行的文本字特征和/或像素位置特征。
需要说明的是,为了生成目标文本行的文本字特征和/或像素位置特征,可以预先对待划分卷宗中的每一页中目标文本行进行预处理。比如,可以通过基于图型识别(Optical Character Recognition,简称OCR)的工具对目标文本行进行预处理。例如,假设目标文本行为“2015年劳动合同书范本A”,则首先可以将其进行分字处理,处理后的结果为“2 0 1 5年劳动合同书范本A”;然后,可以将其中的数字特殊符号替换为“<DIG>”,则该目标文本行的分字结果可以表示为“<DIG><DIG><DIG><DIG>年劳动合同书范本A”;接着,可以将其中的字母特殊字符替换为“<ALP>”,则进一步可以将该目标文本行的分字结果表示为“<DIG><DIG><DIG><DIG>年劳动合同书范本<ALP>”;最后,可以在该目标文本行的首尾分别填充“<BOS>”、“<EOS>”,则可以将该目标文本行的分字最终结果表示为“<BOS><DIG><DIG><DIG><DIG>年劳动合同书范本<ALP><EOS>”。进而,可以根据目标文本行对应的预处理结果,通过后续步骤生成目标文本行的文本字特征和/或像素位置特征。
在本实施例中,关于目标文本行的文本字特征,可以携带目标文本行中各个字的文字信息,或者,也可以进一步携带目标文本行的前一文本行、和/或目标文本行的后一文本行中的各个字的文字信息。一种可选的实现方式是,目标文本行的文本字特征可以包括目标文本行中的文字的索引值;或者可以包括目标文本行中的文字的索引值,以及,目标文本行的前一文本行中的文字的索引值、和/或目标文本行的后一文本行中的文字的索引值。
具体来讲,实际应用中,可以采用以下两种实施方式之一得到目标文本行的文本字特征:
第一种实施方式是,对于目标文本行,或者,对于目标文本行以及目标文本行的前一文本行和/或目标文本行的后一文本行,可以将每一文本行中的全部文字的索引值作为目标文本行的文本字特征,具体来讲,可以预先构建一个词典,词典中的不同文字对于不同的索引值,这样,可以基于每一文本行中的全部文字,在词典中进行索引值查找,得到该全部文字中的每一文字对应的索引值,将查找得到的所有索引值作为目标文本行的文本字特征。
第二种实施方式是,对于目标文本行,或者,对于目标文本行以及目标文本行的前一文本行和/或目标文本行的后一文本行,可以将每一文本行中的部分文字的索引值作为目标文本行的文本字特征,具体来讲,可以预先构建一个词典,词典中的不同文字对于不同的索引值,这样,可以基于每一文本行中的部分文字,在词典中进行索引值查找,得到该部分文字中的每一文字对应的索引值,将查找得到的所有索引值作为目标文本行的文本字特征。需要说明的是,为了得到每一文本行的部分文字,可以预先设置一个文本行窗口,用于框选每一文本行在前、或在后的固定数量的文字,比如前40个字,如果某文本行包含的全部文字个数没有达到该固定文字数目,则可以利用默认值“<PAD>”来填充。
对于上述由索引值组成的文本字特征,可以采用向量的形式来表示。举例说明:当目标文本行的文本字特征包括目标文本行中的前40个字的索引值、目标文本行的前一文本行中的前40个字的索引值、以及目标文本行的后一文本行中的前40个字的索引值时,可以将这120个字对应的索引值采用向量x表示,即,x={x1,x2,...x120}。
在本实施例中,关于目标文本行的像素位置特征,可以携带该目标文本行图像中的各个像素在其所属目标页或目标页的前一页中的像素位置信息,可以通过现有或未来出现的图片识别方法获得,比如可以通过基于光学字符识别(Optical CharacterRecognition,OCR)的工具对目标文本行进行解析来获得。一种可选的实现方式是,目标文本行的像素位置特征可以包括以下特征数据中的一项或多项:
目标文本行的左侧位置、目标文本行的宽度、目标文本行的高度、目标文本行与其前一文本行之间的间距、目标文本行与其后一文本行之间的间距、目标文本行与其所属页面的右侧边缘之间的间距。
下面结合图4对上述各项特征进行一一介绍,如图4所示,假设图4虚线框中的文本行为目标文本行。
具体来讲,“目标文本行的左侧位置”指的是目标文本行左侧边缘在其所属页面中的位置信息,具体可以是目标文本行的左上角位置(或左下角位置、左侧中间位置等)的坐标值(x,y)。
“目标文本行的宽度”指的是目标文本行所占区域的宽度,可以定义为w,如图4所示。
“目标文本行的高度”指的是目标文本行所占区域的高度,可以定义为h,如图4所示。
“目标文本行与其前一文本行之间的间距”指的是目标文本行的上侧边缘与目标文本行的前一文本行的下侧边缘之间的间距,即两个文本行之间的空白区域的高度。该间距的计算过程为,先计算出目标文本行与其前一文本行的左侧位置(左上角位置的坐标值)中纵坐标之间的差值,再利用该差值减去目标文本行的前一文本行的高度,即可得到目标文本行与其前一文本行之间的间距,比如,假设目标文本行的左上角位置的纵坐标为yi,而目标文本行的前一文本行的左上角位置的纵坐标为yi-1,且该前一文本行的高度为hi-1,则目标文本行与其前一文本行之间的间距可以表示为:yi-yi-1-hi-1
类似的,“目标文本行与其后一文本行之间的间距”指的是目标文本行的上侧边缘与目标文本行的后一文本行的下侧边缘之间的间距,即两个文本行之间的空白区域的高度。该间距的计算过程为,先计算出目标文本行与其后一文本行的左侧位置(左上角位置的坐标值)中纵坐标之间的差值,再利用该差值减去目标文本行的高度,即可得到目标文本行与其后一文本行之间的间距,比如,假设目标文本行的左上角位置的纵坐标为yi,而目标文本行的后一文本行的左上角位置的纵坐标为yi+1,且目标文本行的高度为hi,则目标文本行与其后一文本行之间的间距可以表示为:yi+1-yi-hi
“目标文本行与目标文本行所属页面的右侧边缘之间的间距”,具体可以是目标文本行的右侧边缘与目标文本行所属页面的右侧边缘之间的间距,其计算过程为,先计算出目标文本行所属页面的宽度与目标文本行的左侧位置(左上角位置的坐标值)中横坐标之间的差值,再利用该差值减去目标文本行的宽度,即可得到目标文本行的右侧边缘与目标文本行所属页面的右侧边缘之间的间距,比如,假设目标文本行所属页面的宽度为pw,如图4所示,目标文本行的左上角位置的横坐标为xi,且目标文本行的宽度为wi,则目标文本行与目标文本行所属页面的右侧边缘之间的间距可以表示为:pw-xi-wi
步骤A2:根据生成的特征,分析第一数目的文本行与第二数目的文本行之间的语义关联关系。
在本实现方式中,通过步骤A1生成第一数目的文本行与第二数目的文本行中每一文本行的文本字特征和/像素位置特征后,可通过对每一文本行对应的这些特征进行数据处理,以得到处理结果,并根据得到的处理结果分析出第一数目的文本行与第二数目的文本行之间的语义关联关系(具体可以分析得到这些文本行内容之间在语义上的关联程度),进而可以通过步骤S103,根据该语义关联关系将待划分卷宗进行文书划分。
在本实施例中,一种可选的实现方式是,步骤S102中的“分析目标页与目标页下文之间的语义关联关系”的实现过程具体可以包括步骤S501-S502:
S501:选择目标页中位置在后的第三数目的文本行。
在本实现方式中,可以理解的是,目标页中与其后一页包含的内容语义相关性较高的文本极有可能分布在目标页中比较靠后的位置,由此,可以选择出目标页中位置在后的第三数目的文本行,并根据这些文本行中的文字内容来分析出目标页与其下文之间的语义关联关系,而不需要选择目标页包含的所有文本行来进行分析,这样,既可以保证分析的准确率,也能够减少计算量并且提高计算速度。其中,第三数目的取值可根据实际情况进行设置,可以与上述步骤中选取的第一数目、第二数目的值相同,也可以不同,本申请对此不进行限定,比如,可以将第三数目取为20,即,可以选择出目标页中后20行文本行,用以分析目标页与其下文之间的语义关联关系。
当然,上述第三数目的文本行,也可以包括目标页的所有文本行。
S502:选择目标页的后一页中位置在前的第四数目的文本行。
在本实现方式中,可以理解的是,目标页的后一页中与目标页包含的内容语义相关性较高的文本极有可能分布在该页中比较靠前的位置,由此,可以选择出目标页的后一页中位置在前的第四数目的文本行,并根据这些文本行中的文字内容来分析出其与目标页之间的语义关联关系,而不需要选择该页包含的所有文本行来进行分析,这样,既可以保证分析的准确率,也能够减少计算量并提高计算速度。其中,第四数目的取值可根据实际情况进行设置,可以与上述步骤中选取的第一数目、第二数目、第三数目的值相同,也可以不同,本申请对此不进行限定,比如,可以将第四数目同样取为20,即,可以选择出目标页的后一页中前20行的文本行,用以分析其与目标页之间的语义关联关系,或者也可以将第四数目取为25或35等其他数值。
当然,上述第四数目的文本行,也可以包括目标页的后一页的所有文本行。
需要说明的是,本实施例不限制S501与S502的执行顺序。
S503:分析第三数目的文本行与第四数目的文本行之间的语义关联关系。
在本实现方式中,通过步骤S501选择出目标页中位置在后的第三数目的文本行,以及通过步骤S502选择出目标页的后一页中位置在前的第四数目的文本行后,可以通过对目标页中第三数目的文本行进行数据处理,以及对目标页的后一页中第四数目的文本行进行数据处理,得到各自对应的处理结果,并根据该处理结果分析出二者之间的语义关联关系。
举例说明:参见图3,其中,中间图表示的是目标页,右侧图表示的是目标页的后一页,假设第三数目与第四数目的取值均为10,则首先可以选取目标页的后10行文本行以及目标页的后一页中前10行文本行,然后,可以通过对选取出的这20行文本行进行数据处理,得到处理结果,并根据该处理结果分析出目标页与其后一页之间的语义关联关系,如图3中的中间图与右侧图所示。
在本实施例的一种实现方式中,S503具体可以包括步骤B1-B2:
步骤B1:将第三数目与第四数目的文本行中的每一文本行作为目标文本行,生成该目标文本行的文本字特征和/或像素位置特征。
在本实现方式中,为了便于分析出第三数目的文本行和第四数目的文本行之间的语义关联关系,首先将第三数目与第四数目的文本行中的每一文本行定义为目标文本行,然后通过对目标文本行进行数据处理,以生成目标文本行的文本字特征和/或像素位置特征。
需要说明的是,生成第三数目与第四数目的文本行中的每一文本行的文本字特征和/或像素位置特征的实现过程,与上述步骤A1中生成第一数目与第二数目的文本行中的每一文本行的文本字特征和/或像素位置特征的实现过程是类似的,只需将上述步骤A1中的“第一数目”替换为“第三数目”、将上述步骤A1中的“第二数目”替换为“第四数目”即可,具体实现过程可参见上述步骤A1的相关介绍,在此不再赘述。
步骤B2:根据生成的特征,分析第三数目的文本行与第四数目的文本行之间的语义关联关系。
在本实现方式中,通过步骤B1生成第三数目的文本行与第四数目的文本行中每一文本行的文本字特征和/像素位置特征后,可以通过对每一文本行对应的这些特征进行数据处理,以得到处理结果,并根据得到的处理结果分析出第三数目的文本行与第四数目的文本行之间的语义关联关系(具体可以分析得到这些文本行内容之间在语义上的关联程度),进而可以通过步骤S103,根据该语义关联关系将待划分卷宗进行文书划分。
S103:根据待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分。
在本实施例中,将待划分卷宗中的每一页作为目标页,通过步骤S102分析出目标页与其上下文之间的语义关联关系后,即,获取到待划分卷宗中的每一页对应的语义关联关系后,可根据每一页与其上下文之间是否具有语义关联关系,来判断出每一页是否为其所属文书的首页、尾页、中间页或单页。
具体来讲,对于待划分卷宗中的每一页,如果该页与其上文是没有语义关联关系的,而与其下文是具有一定的语义关联关系的,则表明该页为其所属文书的首页,可以标记为B;如果该页与其上文具有一定的语义关联关系,而与其下文是没有语义关联关系的,则表明该页为其所属文书的尾页,可以标记为E;如果该页与其上下文均具有一定的语义关联关系,则表明该页为其所属文书的中间页,可以标记为I;如果该页与其上下文均没有语义关联关系,则表明该页为单页,该页自身构成一文书,可以标记为S。
举例说明:假设通过上述步骤S101-S102获取到待划分卷宗中的每一页与其上下文之间的语义关联关系后,可以根据该关联关系,利用分类方法判断出待划分卷宗中的每一页是属于文书的首页(B)、中间页(I)、尾页(E)、单页(S)中的哪一种。但由于文书中存在一些无法提取文字信息的中间页(I)(如证据图片等),导致该中间页(I)与其上下文的文字语义关联性存在中断的现象,进而可能导致将其误判为单页(S),因此,中间页(I)和单页(S)相对首页(B)和尾页(E)来说是比较容易混淆的,所以,还需要对待划分卷宗中的每一页的标记结果进行进一步处理,以纠正错误的标记,实现对整个待划分卷宗的准确划分。
需要说明的是,本步骤S103的具体实现方式将在第二实施例中介绍。。
综上,本实施例提供的一种文书划分方法,在对待划分卷宗进行文书划分时,首先将待划分卷宗中的每一页作为目标页,然后,分析该目标页与其上文之间的语义关联关系,和/或,分析该目标页与其下文之间的语义关联关系;接着,可以根据分析出的该待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分。由于文书之间通常情况下不具有语义关联性,基于这些特性,当根据待划分卷宗中的每一页与其上文之间的语义关联关系、和/或与其下文之间的语义关联关系,对待划分卷宗进行文书划分时,相比于过分依赖于标题检测结果进行文书划分的方法,本实施例提高了文书划分结果的正确性。
第二实施例
本实施例将对第一实施例中步骤S103“根据待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分”的具体实现过程进行介绍。
参见图6,其示出了本实施例提供的根据待划分卷宗中的每一页对应的语义关联关系将待划分卷宗进行文书划分的流程示意图,该流程包括以下步骤:
S601:根据目标页对应的语义关联关系,确定目标页的页面标签。
在本实施例中,通过步骤S102分析出待划分卷宗中的每一页(即目标页)对应的语义关联关系后,可以根据该语义关联关系,利用分类方法判断出目标页是属于文书的首页(B)、中间页(I)、尾页(E)、单页(S)中的哪一种,并根据判断结果,确定出目标页的页面标签。其中,目标页的页面标签指的是首页(B)、中间页(I)、尾页(E)、单页(S)这四种标记中的一种,用以表征对应目标页在所属文书中的位置信息。
在本实施例中,一种可选的实现方式是,参见图7,本步骤S601具体可以包括步骤S6011-S6012:
S6011:根据目标页与目标页上文之间的语义关联关系,确定目标页属于文书首页的概率;和/或,根据目标页与目标页下文之间的语义关联关系,确定目标页属于文书尾页的概率。
在本实现方式中,可以通过上述步骤A1生成目标页与其前一页中每一目标文本行的文本字特征和/或像素位置特征,之后,可以根据这些特征,利用现有或未来出现的分类方法,确定出目标页属于文书首页的概率,比如,可以利用预先构建的语义关联分类模型,确定出目标页属于文书首页的概率。
同理,可以通过上述步骤B1生成目标页与其后一页中每一目标文本行的文本字特征和/或像素位置特征,之后,可以根据这些特征,利用现有或未来出现的分类方法,确定出目标页属于文书尾页的概率,比如,可以利用预先构建的语义关联分类模型,确定出目标页属于文书尾页的概率。
具体来讲,本实施例预先构建的语义关联分类模型可以由多层神经网络构成,如图8所示,该模型结构包括了输入层(Input Layer)、字嵌入层(Embedding Layer)、长短期记忆网络(Long Short-Term Memory,简称LSTM)层、变换拼接(Concatenate)层、卷积层(Convolution Layer)、池化层(Pooling Layer)、全连接层(Dense Layer)及输出层(Softmax Layer)。
其中,输入层包括两个输入入口,分别用于输入每一目标文本行的文本字特征和像素位置特征,如图8所示。其中,每一目标文本行的文本字特征是通过上述步骤A1和/或B1生成的,可以包括目标文本行中的文字的索引值;或者,可以包括目标文本行中的文字的索引值,以及,目标文本行的前一文本行中的文字的索引值、和/或目标文本行的后一文本行中的文字的索引值,并可以将这些索引值分别定义为x1,x2,...,输入至输入层,如图8所示。
而每一目标文本行的像素位置特征也是通过上述步骤A1和/或B1生成的,可以包括目标文本行的左侧位置、宽度、高度、与其前一文本行之间的间距、与其后一文本行之间的间距、与其所属页面的右侧边缘之间的间距中的一项或多项。需要说明的是,考虑到不同文本对应的图片大小可能是不同的,为了提高语义关联分类模型的泛化能力,需要将目标文本行的像素位置特征包含的各个特征数据根据其所属目标页的宽度和高度进行相对化处理,并可以将处理后的值分别定义为r1,r2,...,输入至输入层,如图8所示。
举例说明:如图4所示,假设目标页的宽度为pw、高度为ph,则将虚线框中的目标文本行的像素位置特征包含的各个特征数据根据其该目标页的宽度pw和高度ph进行相对化处理,得到的处理结果为:
目标文本行的左上角位置的横坐标对应的相对化处理后的值为x/pw,可以用r1表示,即,r1=x/pw;目标文本行的左上角位置的纵坐标对应的相对化处理后的值为y/ph,可以用r2表示,即,r2=y/ph;目标文本行的宽度对应的相对化处理后的值为w/pw,可以用r3表示,即,r3=w/pw;目标文本行的高度对应的相对化处理后的值为h/ph,可以用r4表示,即,r4=h/ph;目标文本行与其前一文本行之间的间距对应的相对化处理后的值为(yi-yi-1-hi-1)/ph,可以用r5表示,即,r5=(yi-yi-1-hi-1)/ph;目标文本行与其后一文本行之间的间距对应的相对化处理后的值为(yi+1-yi-hi)/ph,可以用r6表示,即,r6=(yi+1-yi-hi)/ph;目标文本行与其所属页面的右侧边缘之间的间距对应的相对化处理后的值为(pw-xi-wi)/pw,可以用r7表示,即,r7=(pw-xi-wi)/pw。
字嵌入层的作用是将输入层输入的文本字特征转换为固定长度的向量;LSTM网络层的作用是对字嵌入层输出的向量进行特征提取;并且,在对目标文本行的像素位置特征进行重复变换处理后,可以通过变换拼接层将其与通过LSTM网络层处理后的特征向量进行拼接,然后再通过卷积层、池化层、全连接层和输出层的处理,得到目标页属于文书首页的概率以及目标页属于文书尾页的概率,并通过输出层输出,其中,输出层包括两个输出出口(分别与全连接层的两个不同的输出出口相连),分别用于输出目标页属于文书首页的概率和目标页属于文书尾页的概率,如图8所示,需要说明的是,本实施例中语义关联分类模型的参数的初始值可以通过随机初始化的方式进行设置,或者也可以默认初始化值为0,并且,该模型中各网络层内部的具体特征参数的计算方式和模型训练方法均与现有技术是一致的,本实施例在此不再赘述。
举例说明:假设上述步骤中的第一数目、第二数目、第三数目和第四数目的取值均为20,则当利用该目标页与其上文之间的语义关联关系,确定目标页属于文书首页的概率、和利用目标页与其下文之间的语义关联关系,确定目标页属于文书尾页的概率时,该目标页对应的目标文本行为80行(即目标页包含40行,目标页的前一页和后一页分别包含20行),且若将每一目标文本行前40个字对应的索引值作为该目标文本行的文本字特征,则输入输入层的文本字特征构成的矩阵大小为(80,40),该矩阵表明目标页对应的目标文本行为80行,且其中每一文本行的文本字特征为其前40个字对应的索引值;然后,通过输入层将该文本字特征输入字嵌入层后,可经由字嵌入层将其转换为固定长度为64的特征向量,则该字嵌入层输出的矩阵大小为(80,40,64),如图8所示,再对该输出矩阵进行变形(Reshape)处理,即,重新调整其行数、列数、维数后,使其转换为大小为(80,40*64)的矩阵;接着,再将其输入至包含有128个隐藏单元的LSTM网络层进行特征提取,通过该LSTM网络层进一步可以将其转换为大小为(80,128)的矩阵。
同理,针对该目标页对应的80行目标文本行中的每一目标文本行,若该目标文本行的像素位置特征包括了该目标文本行的左侧位置、宽度、高度、与其前一文本行之间的间距、与其后一文本行之间的间距、与其所属页面的右侧边缘之间的间距这7个特征数据,则输入输入层的像素位置特征构成的矩阵大小为(80,7),即,该矩阵表明目标页对应的目标文本行为80行,且其中每一文本行的像素位置特征为其左侧位置、宽度、高度、与其前一文本行之间的间距、与其后一文本行之间的间距、与其所属页面的右侧边缘之间的间距这7个特征数据;然后,再对该矩阵进行重复变换处理,使其转换为大小为(80,40*7)的矩阵,如图8所示;接着,再通过变换拼接层,将该矩阵(80,40*7)与LSTM网络层输出的大小为(80,128)的文本字特征矩阵进行拼接,得到拼接后的大小为(80,408)的矩阵;最后,再将该拼接后的矩阵通过卷积层、池化层、全连接层和输出层的处理,得到目标页属于文书首页的概率以及目标页属于文书尾页的概率。
其中,目标页属于文书首页的概率表征了目标页属于文书首页的可能性大小,可以采用0至1之间的一个数值来表示,该值越大,表明该目标页属于文书首页的可能性越大,反之,该值越小,表明该目标页属于文书首页的可能性越小;同理,目标页属于文书尾页的概率表征了目标页属于文书尾页的可能性大小,也可以采用0至1之间的一个数值来表示,该值越大,表明该目标页属于文书尾页的可能性越大,反之,该值越小,表明该目标页属于文书尾页的可能性越小;若目标页属于文书首页的概率以及属于文书尾页的概率比较接近,且均大于预先设定的概率阈值,则表明目标页可能为与其上下文均没有语义关联关系的单页;若目标页属于文书首页的概率以及属于文书尾页的概率比较接近,且均小于预先设定的概率阈值,这表明目标页可能为与其上下文均具有语义关联关系的中间页。
举例说明:假设预先设定的概率阈值为0.6;若通过图8所示的语义关联分类模型,确定出目标页属于文书首页的概率为0.9(大于0.6)、目标页属于文书尾页的概率为0.1(小于0.6),则表明目标页属于文书首页的可能性远大于其属于文书尾页的可能性,进而可以判断出该目标页属于文书首页;若通过图8所示的语义关联分类模型,确定出目标页属于文书首页的概率为0.1(小于0.6)、目标页属于文书尾页的概率为0.9(大于0.6),则表明目标页属于文书尾页的可能性远大于其属于文书首页的可能性,进而可以判断出该目标页属于文书尾页;若通过图8所示的语义关联分类模型,确定出目标页属于文书首页的概率为0.9、目标页属于文书尾页的概率为0.9,则表明目标页属于文书首页的概率以及属于文书尾页的概率比较接近,且均大于预先设定的概率阈值(0.6),进而可以判断出该目标页为与其上下文均没有语义关联关系的单页;若通过图8所示的语义关联分类模型,确定出目标页属于文书首页的概率为0.3、目标页属于文书尾页的概率为0.4,则表明目标页属于文书首页的概率以及属于文书尾页的概率比较接近,且均小于预先设定的概率阈值(0.6),进而可以判断出该目标页为与其上下文均具有语义关联关系的中间页。
S6012:根据确定的概率,确定目标页的页面标签。
在本实现方式中,通过上述步骤S6011确定出目标页属于文书首页的概率以及目标页属于文书尾页的概率后,进一步可以根据该概率对目标页进行标记,以确定出目标页的页面标签。
具体来讲,当目标页属于文书首页的概率大于预设概率阈值时,可以将其标记为1,反之,标记为0;同理,当目标页属于文书尾页的概率大于预设概率阈值时,可以将其标记为1,反之,标记为0,由此,可以得到由0和1组成的、目标页属于文书首页的概率及目标页属于文书尾页的概率对应的标记向量,具体来讲,可以为(1,0)、(0,1)、(0,0)、(1,1)四种,其中,(1,0)表明目标页属于文书的首页,对应的页面标签为首页(B);(0,1)表明目标页属于文书的尾页,对应的页面标签为尾页(E);(0,0)表明目标页属于文书的中间页,对应的页面标签为中间页(I);(1,1)表明目标页属于文书中的单页,对应的页面标签为单页(S)。
需要说明的是,由于文书中往往会存在一些噪声数据,比如无法提取文字信息的证据图片等,导致该噪声数据所在的文书中间页(I)与其上下文的文字语义关联性存在中断的现象,进而可能导致将该页面被误判为单页(S),因此,需要对待划分卷宗中的每一页的标记结果进行进一步处理,以纠正错误的标记,实现对整个待划分卷宗的准确划分。
本实施例采用的方式是利用预先构建的文书序列标注模型,在通过上述步骤S6011确定出目标页(待划分卷宗中每一页)属于文书首页的概率以及目标页属于文书尾页的概率后,进一步对该概率值进行数据处理,以根据处理结果,准确确定出待划分卷宗中每一页的页面标签,进而实现对整个待划分卷宗的准确划分。S6012的处理过程可以包括步骤C1-C2:
步骤C1:生成目标页中前N个文字的文本字特征,和/或,生成目标页的图片分类结果,N≥1。
在本实现方式中,为了准确确定出待划分卷宗中每一页的页面标签,首先可以生成待划分卷宗中每一页中前N个文字的文本字特征,和/或,生成待划分卷宗中每一页的图片分类结果,且N≥1。
其中,前N个文字的文本字特征可以包括前N个文字中每一文字的索引值,也就是说,可以基于目标页中前N个文字,在词典中进行索引值查找,得到这些文字对应的索引值,作为目标页中前N个文字的文本字特征,需要说明的是,N的取值可根据实际情况进行限定,比如N取为100。
目标页的图片分类结果指的是对目标页的图片进行分类处理后得到的处理结果,例如,假设将待划分卷宗对应的所有图片划分为10个预设类别,则当目标页的图片属于其中的第3个类别时,则目标页的图片分类结果可以用特征向量[0,0,1,0,0,0,0,0,0,0]来表示。
步骤C2:根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定目标页的页面标签。
在本实现方式中,通过步骤C1生成文本字特征和/或图片分类结果,以及通过步骤S6011确定出目标页属于文书首页的概率以及属于文书尾页的概率后,进一步可以根据这些数据,利用利用预先构建的文书序列标注模型,确定目标页的页面标签,进而实现对整个待划分卷宗的准确划分。其中,本实施例预先构建的文书序列标注模型可以由多层神经网络构成,如图9所示,该模型结构包括了输入层、LSTM网络层、全连接层及输出层。
具体来讲,首先将确定出的目标页属于文书首页的概率定义为p1,并将确定出的目标页属于文书尾页的概率定义为p2,然后,通过下述公式(1)和(2)分别对p1、p2进行归一化处理:
p'1=(p1-a)/0.1 (1)
p'2=(p2-a)/0.1 (2)
其中,a表示一个极小值,比如a=1e-10;p1'、p2'分别表示对p1、p2进行归一化处理后的结果。
需要说明的是,当p'1、p'2的取值均为0至9中的某一个值时,即,p'1∈{0,1,2,3,4,5,6,7,8,9},p'2∈{0,1,2,3,4,5,6,7,8,9},则表示10个等级,等级越高,则对应的概率值越大,进一步可根据p'1、p'2的取值,将概率p1表示为一个维度大小为10的特征向量。例如,若通过上述公式(1)计算出p'1=6,则表明目标页属于文书首页的概率较大,并可以用特征向量[0,0,0,0,0,0,1,0,0,0]来表示。类似的,可以根据p'2的取值,将p2表示为一个维度大小为10的特征向量。即,可以将目标页属于文书首页和尾页的概率用两个维度大小为10的特征向量来表示。
进一步的,可以将目标页属于文书首页和尾页的概率对应的两个特征向量、目标页中前N个文字的文本字特征以及目标页的图片分类结果作为输入数据,输入至图9所示的文书序列标注模型的输入层,然后再利用模型中的LSTM网络层对输入数据进行特征提取;接着,再通过全连接层和输出层的处理,得到目标页的页面标签(首页(B)、中间页(I)、尾页(E)、单页(S)这四种标记中的一种),并通过输出层输出。需要说明的是,本实施例中文书序列标注模型的参数的初始值可以通过随机初始化的方式进行设置,或者也可以默认初始化值为0,并且,该模型中各网络层内部的具体特征参数的计算方式和模型训练方法均与现有技术是一致的,本实施例在此不再赘述。
需要说明的是,在实际应用中,可以将待划分卷宗中连续多个目标页对应的上述特征(目标页属于文书首页和尾页的概率对应的两个特征向量、目标页中前N个文字的文本字特征以及目标页的图片分类结果)作为输入数据,输入至图9所示的文书序列标注模型的输入层,通过该模型输出每一目标页对应的页面标签。具体地,可以将整个待划分卷宗包含的所有目标页对应的上述特征一同作为输入数据,输入至图9所示的文书序列标注模型的进行文书划分,当然,如果待划分卷宗包含的页数过多,也可以分批输入,即,一次输入连续多页对应的上述特征数据,分多次输入进行划分。
S602:根据待划分卷宗中每一页的页面标签,将待划分卷宗进行文书划分。
在本实施例中,通过步骤S601确定出目标页(待划分卷宗中每一页)的页面标签后,由于只有同一文书内的每一页之间才存在语义关联关系,而不同文书之间的语义是相互独立且不存在关联关系的,则可以根据每一页属于文书的首页(B)、中间页(I)、尾页(E)、单页(S)中的哪一种,来确定出待划分卷宗中包含的各个文书,即,实现了对待划分卷宗中各个文书的准确划分。
综上,本实施例利用预先构建的语义关联分类模型和文书序列标注模型,分析出了待划分卷宗中的每一页与其上下文之间的语义关联关系,并根据该语义关联关系,确定出了待划分卷宗中的每一页的页面标签,进而可以根据每一页的页面标签确定出待划分卷宗中包含的各个文书,即,实现了对待划分卷宗中各个文书的准确划分。
第三实施例
需要说明的是,在通过第一实施例中的步骤S101-S103将待划分卷宗进行文书划分后,进一步还需要确定出每一文书中的标题。
接下来,本实施例将通过下述步骤S1001-S1004对检出待划分卷宗中每一文书的标题的具体实现过程进行介绍。
参见图10,其示出了本实施例提供的标题检出方法的流程示意图,该流程包括以下步骤:
S1001:将划分出的每一文书作为目标文书。
在本实施例中,为便于描述,将待划分卷宗中需要进行标题检出的每一文书定义为目标文书。
S1002:在目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行。
在本实施例中,可以理解的是,鉴于目标文书中的标题极有可能分布在目标文书首页中比较靠前的位置,并且标题可能包含有多行文字(如可能包含主标题和副标题等),由此,可以选择出目标文书首页中位置在前的第五数目的文本行,并将选择的每一文本行定义为目标文本行,通过对这些目标文本行中的文字内容进行分析处理,以检出这些目标文本行是否为目标文书的标题行,而不需要选择目标文书首页包含的所有文本行来进行分析,这样,既可以保证分析的准确率,也能够减少计算量并且提高计算速度。
其中,第五数目的取值可根据实际情况进行设置,可以与上述实施例中选取的第一数目、第二数目、第三数目、第四数目的值相同,也可以不同,本申请对此不进行限定,比如,可以将第五数目取为20,即,可以选择出目标文书首页中前20行文本行,并将选择的每一文本行作为目标文本行,用以检出该目标文本行是否为标题行。
S1003:生成目标文本行的文本字特征和/或像素位置特征。
在本实施例中,通过步骤S1002将目标文书首页中位置在前的第五数目的文本行中的每一文本行作为目标文本行后,可以按照后续步骤S1003-S1004对每一目标文本行进行数据处理,并根据处理结果,判断出其是否为目标文书的标题行。需要说明的是,在后续内容中,本实施例将以目标文书首页中的某一目标文本行为准来介绍如何对目标文本行进行数据处理,以判断出其是否为标题行,而其它目标文本行的处理方式与之类似,不再一一赘述。
在本步骤S1003中,为了生成目标文本行的文本字特征和/或像素位置特征,首先需要对目标文本行进行预处理,比如可以通过基于OCR的工具对目标文本行进行预处理,然后再根据预处理结果,生成目标文本行的文本字特征和/或像素位置特征。
其中,目标文本行的文本字特征指的是目标文本行中的文字信息,或者也可以指的是目标文本行及其前一文本行、和/或其后一文本行的文本信息。其可以包括目标文本行中的文字的索引值;或者可以包括目标文本行中的文字的索引值,以及,目标文本行的前一文本行中的文字的索引值、和/或目标文本行的后一文本行中的文字的索引值。
目标文本行的像素位置特征指的是目标文本行中的像素位置信息。其可以包括以下特征数据中的一项或多项:目标文本行的左侧位置、目标文本行的宽度、目标文本行的高度、目标文本行与其前一文本行之间的间距、目标文本行与其后一文本行之间的间距、目标文本行与目标文书首页的右侧边缘之间的间距。
需要说明的是,本实施例中生成目标文本行的文本字特征和/或像素位置特征的方式与第一实施例中生成目标文本行的文本字特征和/或像素位置特征的方式是一致的,仅是将“目标页”替换为“目标文书首页”,将“目标页中的目标文本行”替换为“目标文书首页中的目标文本行”即可,具体的生成过程,可参见第二实施例步骤A1中的相关介绍,在此不再赘述。
S1004:根据生成的特征,判断目标文本行是否为标题行。
在本实施例中,通过步骤S1003生成目标文本行的文本字特征和/或像素位置特征后,可以根据这些特征,利用预先构建的标题检出模型,判断出目标文本行是否为标题行。
具体来讲,本实施例预先构建的标题检出模型可以由多层神经网络构成,如图11所示,该模型结构包括了输入层、字嵌入层、LSTM网络层、变换拼接层、卷积层、池化层、全连接层及输出层。
其中,输入层包括两个输入入口,分别用于输入每一目标文本行的文本字特征和像素位置特征,如图11所示。其中,每一目标文本行的文本字特征是通过上述步骤S1003生成的,可以包括目标文本行中的文字的索引值;或者可以包括目标文本行中的文字的索引值,以及,目标文本行的前一文本行中的文字的索引值、和/或目标文本行的后一文本行中的文字的索引值,并可以将这些索引值分别定义为x1,x2,...,输入至输入层,如图11所示。
而每一目标文本行的像素位置特征也是通过上述步骤S1003生成的,可以包括目标文本行的左侧位置、宽度、高度、与其前一文本行之间的间距、与其后一文本行之间的间距、与目标文书首页的右侧边缘之间的间距中的一项或多项。需要说明的是,考虑到不同文本对应的图片大小可能是不同的,为了提高标题检出模型的泛化能力,需要将目标文本行的像素位置特征包含的各个特征数据根据目标文书首页的宽度和高度进行相对化处理,并可以将处理后的值分别定义为r1,r2,...,输入至输入层,如图11所示。需要说明的是,本实施中对各个特征数据进行相对化处理的实现方式与第二实施例步骤S6011中对目标文本行的像素位置特征包含的各个特征数据进行相对化处理的实现方式是一致的,仅是将“目标页”替换为“目标文书首页”,将“目标页中的目标文本行”替换为“目标文书首页中的目标文本行”即可,具体的实现过程,可参见第二实施例步骤S6011中的相关介绍,在此不再赘述。
字嵌入层的作用是将输入层输入的文本字特征转换为固定长度的向量,例如,可以将输入层输入的文本字特征转换为固定长度为64的向量,假设输入层输入的文本字特征为目标文本行及其上下文中120个字对应的索引值,则字嵌入层输出矩阵大小可以为(120,64)。
LSTM网络层的作用是对字嵌入层输出的矩阵进行特征提取,并根据其包含的隐藏神经元的个数,对字嵌入层输出的矩阵的大小进行转换,以保留其中与标题相关的特征信息,例如,假设LSTM网络层包含的隐藏神经元的个数为128,则可以将字嵌入层输出的大小为(120,64)的矩阵转换为大小为(120,128)的矩阵。
变换拼接层的作用是将经过LSTM网络层处理后的矩阵,与对目标文本行的像素位置特征进行重复变换处理后得到的矩阵,进行拼接处理,具体可以包含以下两种拼接方式:
第一种拼接方式是,首先,将LSTM网络层输出的矩阵映射为向量的形式,比如,可以通过拉直处理,将LSTM网络层输出的大小为(120,128)的矩阵映射为向量(120*128,),例如,可以将大小为(120,128)的矩阵转换为一维向量:[a1,1,a1,2,...a1.128,a2,1,a2,2,...a2,128,...a120.1,a120,2,...a120,128]。然后,再将该处理后得到的向量与目标文本行的像素位置特征向量进行拼接,可以得到拼接后的向量。例如,假设输入层输入的目标文本行的像素位置特征包含目标文本行与其前后目标文本行对应的像素位置特征,且其中每一目标文本行的像素位置特征均包含了对应目标文本行的左侧位置、宽度、高度、与其前一文本行之间的间距、与其后一文本行之间的间距、与目标文书首页的右侧边缘之间的间距这7项特征数据,则目标文本行的像素位置特征向量可以表示为行维度为21维的向量,则将上述处理后得到的向量(120*128,)与该21维的像素位置特征向量进行拼接后,可以得到拼接后的向量为(120*128+21,)。
第二种拼接方式是,首先,将目标文本行的像素位置特征向量由行维度映射到字维度的矩阵,例如,假设目标文本行的像素位置特征向量为行维度为21维的向量,则可以将其映射到字维度为120的矩阵,可以表示为(120,21),即,这120个字中每个字对应的像素位置特征向量为21维。然后,再将该矩阵与LSTM网络层输出的矩阵进行拼接,可以得到拼接后的矩阵。例如,假设LSTM网络层输出的矩阵大小为(120,128),且将目标文本行的像素位置特征向量由行维度映射到字维度的矩阵大小为(120,21),则将二者进行拼接后,可以得到拼接后的矩阵大小为(120,149)。
卷积层的作用是利用卷积核对变换拼接层输出的矩阵进行卷积处理,以进一步提取出其中的文本特征。例如,假设经过变换拼接层拼接后的得到的矩阵大小为(120,149),且卷积层中包含的卷积核为16个,每个卷积核的大小为4,则利用这16个卷积核与大小为(120,149)矩阵进行卷积处理后,可以得到大小为(117,16)的矩阵。
池化层的作用是保留卷积层输出数据的主要特征并减少其中包含的参数和计算量,同时,提高标题检出模型的泛化能力。
接着,可通过全连接层和输出层的对池化层输出的数据进行处理,判断出目标文本行是否为标题行,并通过输出层输出,如图11所示。
其中,一种可选的实现方式是,输出层可以输出目标文本行为标题行的概率值,若该概率值大于预设概率阈值,则可以判断出目标文本行是目标文书的标题行,反之,若该概率值不大于预设概率阈值,则可以判断出目标文本行不是目标文书的标题行,其中,预设概率阈值指的是用于判断目标文本行是否为目标文书的标题行的临界值,若超过该临界值,则表明目标文本行为目标文书的标题行,反之,则表明目标文本行不是目标文书的标题行,比如,可以将概率阈值取为0.7,则若模型输出的概率大于0.7,例如该概率为0.9,则表明目标文本行为目标文书的标题行,反之,若模型输出的概率不大于0.7,例如该概率为0.3,则表明目标文本行并不是目标文书的标题行。
需要说明的是,本实施例中标题检出模型的参数的初始值可以通过随机初始化的方式进行设置,或者也可以默认初始化值为0,并且,该模型中各网络层内部的具体特征参数的计算方式和模型训练方法均与现有技术是一致的,本实施例在此不再赘述。
综上,本实施例首先生成目标文书中每一目标文本行的文本字特征和/或像素位置特征,然后再利用预先构建的标题检出模型,对这些特征进行处理,以判断出每一目标文本行是否为目标文书的标题行,这样,通过将目标文书自身的特征作为判断依据来进行标题行检测,可以有效提高目标文书标题行检出结果的准确性。
第四实施例
本实施例将对一种文书划分装置进行介绍,相关内容请参见上述方法实施例。参见图12,为本实施例提供的一种文书划分装置的组成示意图,该装置1200包括:
目标页确定单元1201,用于将待划分卷宗中的每一页作为目标页;
关系分析单元1202,包括第一关系分析子单元,和/或,第二关系分析子单元;其中,所述第一关系分析子单元,用于分析所述目标页与所述目标页上文之间的语义关联关系;所述第二关系分析子单元,用于分析所述目标页与所述目标页下文之间的语义关联关系;
文书划分单元1203,用于根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
在本实施例的一种实现方式中,所述第一关系分析子单元包括:
第一文本行选择子单元,用于选择所述目标页中位置在前的第一数目的文本行;
第二文本行选择子单元,用于选择所述目标页的前一页中位置在后的第二数目的文本行;
第一分析子单元,用于分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
在本实施例的一种实现方式中,所述第一分析子单元包括:
第一特征生成子单元,用于将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
第一关联关系分析子单元,用于根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
在本实施例的一种实现方式中,所述第二关系分析子单元包括:
第三文本行选择子单元,用于选择所述目标页中位置在后的第三数目的文本行;
第四文本行选择子单元,用于选择所述目标页的后一页中位置在前的第四数目的文本行;
第二分析子单元,用于分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
在本实施例的一种实现方式中,所述第二分析子单元包括:
第二特征生成子单元,用于将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
第二关联关系分析子单元,用于根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
在本实施例的一种实现方式中,所述文书划分单元1203包括:
标签确定子单元,用于根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;
文书划分子单元,用于根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。
在本实施例的一种实现方式中,所述标签确定子单元包括:
概率确定子单元,用于根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;
第一标签确定子单元,用于根据确定的概率,确定所述目标页的页面标签。
在本实施例的一种实现方式中,所述第一标签确定子单元包括:
生成子单元,用于生成所述目标页中前N个文字的文本字特征;和/或,图片分类结果生成子单元,用于生成所述目标页的图片分类结果,N≥1;
第二标签确定子单元,用于根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。
在本实施例的一种实现方式中,所述装置还包括:
目标文书确定单元,用于在将所述待划分卷宗进行文书划分之后,将划分出的每一文书作为目标文书;
目标文本行确定单元,用于在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;
特征生成单元,用于生成所述目标文本行的文本字特征和/或像素位置特征;
标题行判断单元,用于根据生成的特征,判断所述目标文本行是否为标题行。
在本实施例的一种实现方式中,所述目标文本行的文本字特征包括:
所述目标文本行中的文字的索引值;
或者,所述目标文本行中的文字的索引值,以及,所述目标文本行的前一文本行中的文字的索引值、和/或所述目标文本行的后一文本行中的文字的索引值。
在本实施例的一种实现方式中,所述前N个文字的文本字特征包括:所述前N个文字中每一文字的索引值。
在本实施例的一种实现方式中,所述目标文本行的像素位置特征包括以下一项或多项:
所述目标文本行的左侧位置;
所述目标文本行的宽度;
所述目标文本行的高度;
所述目标文本行与所述目标文本行的前一文本行之间的间距;
所述目标文本行与所述目标文本行的后一文本行之间的间距;
所述目标文本行与所述目标文本行所属页面的右侧边缘之间的间距。
进一步地,本申请实施例还提供了一种文书划分设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文书划分方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文书划分方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文书划分方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种文书划分方法,其特征在于,包括:
将待划分卷宗中的每一页作为目标页;
分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;
根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
2.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:
选择所述目标页中位置在前的第一数目的文本行;
选择所述目标页的前一页中位置在后的第二数目的文本行;
分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
3.根据权利要求2所述的方法,其特征在于,所述分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系,包括:
将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
4.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页下文之间的语义关联关系,包括:
选择所述目标页中位置在后的第三数目的文本行;
选择所述目标页的后一页中位置在前的第四数目的文本行;
分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
5.根据权利要求4所述的方法,其特征在于,所述分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系,包括:
将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分,包括:
根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;
根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标页对应的语义关联关系,确定所述目标页的页面标签,包括:
根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;
根据确定的概率,确定所述目标页的页面标签。
8.根据权利要求7所述的方法,其特征在于,所述根据确定的概率,确定所述目标页的页面标签,包括:
生成所述目标页中前N个文字的文本字特征,和/或,生成所述目标页的图片分类结果,N≥1;
根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。
9.根据权利要求1所述的方法,其特征在于,所述将所述待划分卷宗进行文书划分之后,还包括:
将划分出的每一文书作为目标文书;
在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;
生成所述目标文本行的文本字特征和/或像素位置特征;
根据生成的特征,判断所述目标文本行是否为标题行。
10.根据权利要求3或5或9所述的方法,其特征在于,所述目标文本行的文本字特征包括:
所述目标文本行中的文字的索引值;
或者,所述目标文本行中的文字的索引值,以及,所述目标文本行的前一文本行中的文字的索引值、和/或所述目标文本行的后一文本行中的文字的索引值。
11.根据权利要求8所述的方法,其特征在于,所述前N个文字的文本字特征包括:所述前N个文字中每一文字的索引值。
12.根据权利要求3或5或9所述的方法,其特征在于,所述目标文本行的像素位置特征包括以下一项或多项:
所述目标文本行的左侧位置;
所述目标文本行的宽度;
所述目标文本行的高度;
所述目标文本行与所述目标文本行的前一文本行之间的间距;
所述目标文本行与所述目标文本行的后一文本行之间的间距;
所述目标文本行与所述目标文本行所属页面的右侧边缘之间的间距。
13.一种文书划分装置,其特征在于,包括:
目标页确定单元,用于将待划分卷宗中的每一页作为目标页;
关系分析单元,包括第一关系分析子单元和/或第二关系分析子单元;其中,所述第一关系分析子单元,用于分析所述目标页与所述目标页上文之间的语义关联关系;所述第二关系分析子单元,用于分析所述目标页与所述目标页下文之间的语义关联关系;
文书划分单元,用于根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
14.根据权利要求13所述的装置,其特征在于,所述第一关系分析子单元包括:
第一文本行选择子单元,用于选择所述目标页中位置在前的第一数目的文本行;
第二文本行选择子单元,用于选择所述目标页的前一页中位置在后的第二数目的文本行;
第一分析子单元,用于分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。
15.根据权利要求13所述的装置,其特征在于,所述第二关系分析子单元包括:
第三文本行选择子单元,用于选择所述目标页中位置在后的第三数目的文本行;
第四文本行选择子单元,用于选择所述目标页的后一页中位置在前的第四数目的文本行;
第二分析子单元,用于分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。
16.根据权利要求13所述的装置,其特征在于,所述文书划分单元包括:
标签确定子单元,用于根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;
文书划分子单元,用于根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。
17.根据权利要求16所述的装置,其特征在于,所述标签确定子单元包括:
概率确定子单元,用于根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;
第一标签确定子单元,用于根据确定的概率,确定所述目标页的页面标签。
18.根据权利要求13至17任一项所述的装置,其特征在于,所述装置还包括:
目标文书确定单元,用于在将所述待划分卷宗进行文书划分之后,将划分出的每一文书作为目标文书;
目标文本行确定单元,用于在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;
特征生成单元,用于生成所述目标文本行的文本字特征和/或像素位置特征;
标题行判断单元,用于根据生成的特征,判断所述目标文本行是否为标题行。
CN201910142005.0A 2019-02-26 2019-02-26 一种文书划分方法及装置 Active CN109858036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910142005.0A CN109858036B (zh) 2019-02-26 2019-02-26 一种文书划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910142005.0A CN109858036B (zh) 2019-02-26 2019-02-26 一种文书划分方法及装置

Publications (2)

Publication Number Publication Date
CN109858036A true CN109858036A (zh) 2019-06-07
CN109858036B CN109858036B (zh) 2023-07-28

Family

ID=66898895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910142005.0A Active CN109858036B (zh) 2019-02-26 2019-02-26 一种文书划分方法及装置

Country Status (1)

Country Link
CN (1) CN109858036B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543285A (zh) * 2019-09-06 2019-12-06 重庆顺利科技有限公司 一种用于法院的卷壳打印系统
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN112199499A (zh) * 2020-09-29 2021-01-08 京东方科技集团股份有限公司 文本划分方法、文本分类方法、装置、设备及存储介质
CN112632948A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 案件文书排序方法及相关设备
CN112989786A (zh) * 2021-01-18 2021-06-18 平安国际智慧城市科技股份有限公司 基于图像识别的文档解析方法、系统、装置及存储介质
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113312906A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 划分文本的方法、装置、存储介质及电子设备
CN113486184A (zh) * 2021-09-07 2021-10-08 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质
US11308268B2 (en) 2019-10-10 2022-04-19 International Business Machines Corporation Semantic header detection using pre-trained embeddings

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853180A (zh) * 2003-02-14 2006-10-25 尼维纳公司 语义知识提取、管理、捕获、共享、发现、交付、表示之系统与方法
JP2007323317A (ja) * 2006-05-31 2007-12-13 Canon Inc 変換装置、変換方法及びプログラム
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统
CN108170691A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 关联文书的确定方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853180A (zh) * 2003-02-14 2006-10-25 尼维纳公司 语义知识提取、管理、捕获、共享、发现、交付、表示之系统与方法
JP2007323317A (ja) * 2006-05-31 2007-12-13 Canon Inc 変換装置、変換方法及びプログラム
CN108170691A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 关联文书的确定方法和装置
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏勇: "关联语义结合卷积神经网络的文本分类方法", 《控制工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543285A (zh) * 2019-09-06 2019-12-06 重庆顺利科技有限公司 一种用于法院的卷壳打印系统
US11308268B2 (en) 2019-10-10 2022-04-19 International Business Machines Corporation Semantic header detection using pre-trained embeddings
CN110956173A (zh) * 2020-02-18 2020-04-03 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
CN112199499A (zh) * 2020-09-29 2021-01-08 京东方科技集团股份有限公司 文本划分方法、文本分类方法、装置、设备及存储介质
CN112632948A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 案件文书排序方法及相关设备
CN112989786A (zh) * 2021-01-18 2021-06-18 平安国际智慧城市科技股份有限公司 基于图像识别的文档解析方法、系统、装置及存储介质
CN112989786B (zh) * 2021-01-18 2023-08-18 平安国际智慧城市科技股份有限公司 基于图像识别的文档解析方法、系统、装置及存储介质
CN113221792A (zh) * 2021-05-21 2021-08-06 北京声智科技有限公司 一种章节检测模型构建方法、编目方法及其相关设备
CN113312906A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 划分文本的方法、装置、存储介质及电子设备
CN113486184A (zh) * 2021-09-07 2021-10-08 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质
CN113486184B (zh) * 2021-09-07 2022-01-21 北京达佳互联信息技术有限公司 关键词确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109858036B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN109858036A (zh) 一种文书划分方法及装置
US11816165B2 (en) Identification of fields in documents with neural networks without templates
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
RU2695489C1 (ru) Идентификация полей на изображении с использованием искусственного интеллекта
US11775746B2 (en) Identification of table partitions in documents with neural networks using global document context
US11170249B2 (en) Identification of fields in documents with neural networks using global document context
US8315465B1 (en) Effective feature classification in images
US20110137898A1 (en) Unstructured document classification
US9348799B2 (en) Forming a master page for an electronic document
AU2022305355A1 (en) Ai-augmented auditing platform including techniques for automated document processing
US11379690B2 (en) System to extract information from documents
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
US11741734B2 (en) Identification of blocks of associated words in documents with complex structures
US20220375245A1 (en) System for Information Extraction from Form-Like Documents
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
US10699112B1 (en) Identification of key segments in document images
CN107168635A (zh) 信息呈现方法和装置
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language
US20230138491A1 (en) Continuous learning for document processing and analysis
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN114730499A (zh) 图像识别方法及装置、训练方法、电子设备和存储介质
Chia et al. Text extraction and categorization from watermark scientific document in bulk
Shivakumara et al. A connected component-based deep learning model for multi-type struck-out component classification
US20240160838A1 (en) System and Methods for Enabling User Interaction with Scan or Image of Document
Sadyk et al. KZ-BD: Dataset of Kazakhstan banknotes with annotations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant