CN115240205A - 电子卷宗的分类方法、介质及设备 - Google Patents
电子卷宗的分类方法、介质及设备 Download PDFInfo
- Publication number
- CN115240205A CN115240205A CN202110406557.5A CN202110406557A CN115240205A CN 115240205 A CN115240205 A CN 115240205A CN 202110406557 A CN202110406557 A CN 202110406557A CN 115240205 A CN115240205 A CN 115240205A
- Authority
- CN
- China
- Prior art keywords
- document
- image
- images
- document image
- image set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
Abstract
本发明提供了一种电子卷宗的分类方法,该方法包括:输入由有序排列的多个文档图像所构成的电子卷宗;分别将每一所述文档图像识别为首页图像或非首页图像;遍历所述电子卷宗,将所述多个文档图像进行分组以形成多个文档图像集合,按照所述多个文档图像的排列顺序,所述多个文档图像集合中的第N个所述文档图像集合所包含的元素是第N个所述首页图像,以及该第N个所述首页图像与第N+1个所述首页图像之间的所有所述文档图像,其中N是大于0的正整数;根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题。此外,本发明还提供了电子卷宗的分类方法的计算机可读介质和计算机设备。
Description
技术领域
本发明涉及电子信息的识别和处理技术领域,尤其涉及一种电子卷宗的分类方法、介质及设备。
背景技术
在司法行政程序中,卷宗通常指的是记录一个案件的情况和处理过程的各类纸质文书的集合。随着信息技术的发展,为了便于对卷宗执行保存归档等信息管理操作,往往考虑将纸质文书转换为文档影像的形式进行保存,电子卷宗也随之产生。
一个电子卷宗中可能包含由不同主题的纸质文书转换而成的大量文档图像,出于检索需要,通常期望将电子卷宗中的文档图像进行分类整理,令电子卷宗可依据其所包含各个不同主题构来建文书分类索引,这样信息系统或电子卷宗的浏览者就可以快速地查找和定位出所需主题对应的文档图像,使得电子卷宗的运用更为便利和有效。早期针对电子卷宗的分类整理工作通常全程由人工完成,所耗费的时间和人力成本较高,不利于电子卷宗系统的运用和推广。
由于人工智能技术的快速发展,现有技术中出现了一些使用深度学习技术来对电子卷宗进行分类整理的技术方案,其处理流程可概述为:训练人工智能模型,将电子卷宗中的各个页面图像依次送入人工智能模型中进行识别,根据识别结果确定每一页面图像的类型,再根据所确定的类型对电子卷宗中的所有页面图像进行分类并建立索引。但在实际应用场景中,现有技术的技术方案一直难以实现理想效果,其原因主要是部分页面图像的相似度较高,人工智能模型难以在期望时限内实现准确识别,例如“裁定书”和“判决书”这两种类型的法律文书常具有多个页面图像,该两种类型的法律文书除了其首页的页面图像具有较为明显的区别,其剩余的后续页面图像呈现出高度相似的状态,无论是人工智能模型单独识别,亦或是使用光学字符识别技术辅助人工智能模型进行识别,都常常在识别上述两种类型的法律文书中除首页之外的剩余页面图像时出现识别误差,从而导致电子卷宗的分类结果错误。典型的情况为,裁定书中部分页面图像的类型被标记为归属于判决书类型,此类错误需要依靠人工介入来进行修正,针对这样的应用场景,现有技术的技术方案明显难以达到分类整理所预期的效率、准确率和耗时需求。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了一种电子卷宗的分类方法,该方法包括:
输入由有序排列的多个文档图像所构成的电子卷宗;
分别将每一所述文档图像识别为首页图像或非首页图像;
遍历所述电子卷宗,将所述多个文档图像进行分组以形成多个文档图像集合,按照所述多个文档图像的排列顺序,所述多个文档图像集合中的第N个所述文档图像集合所包含的元素是第N个所述首页图像,以及该第N个所述首页图像与第N+1个所述首页图像之间的所有所述文档图像,其中N是大于0的正整数;
根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题。
根据本发明的一个方面,该方法中所述分别将每一所述文档图像识别为首页图像或非首页图像的步骤包括:使用人工智能模型分别识别每一所述文档图像,以将每一所述文档图像识别为首页图像或非首页图像。
根据本发明的另一个方面,该方法中所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:对所述文档图像集合中包含的所述首页图像进行自动化识别以确定其文档类型属性;根据所述首页图像的文档类型属性确定所述文档主题。
根据本发明的另一个方面,该方法中所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:分别对所述文档图像集合中包含的所有所述文档图像进行自动化识别,以识别出该文档图像集合中每一所述文档图像的文档类型属性;根据所述文档图像集合所对应的多种所述文档类型属性生成统计结果,并根据该统计结果确定所述文档图像集合的文档主题。
根据本发明的另一个方面,该方法中所述根据所述文档图像集合所对应的多种所述文档类型属性生成统计结果,并根据该统计结果确定所述文档图像集合的文档主题的步骤包括:分别为所述文档图像集合中包含的所述首页图像和所述非首页图像赋予权值;计算所述多种文档类型属性中每一所述文档类型属性的权值积分;根据权值积分最高的所述文档类型属性确定所述文档主题。
根据本发明的另一个方面,该方法中所述首页图像的权值大于所述非首页图像的权值。
根据本发明的另一个方面,该方法中所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:将所述文档图像集合中包含的所有所述文档图像拼接为一张整体图像;对所述整体图像进行自动化识别,以识别出该整体图像的文档类型属性;根据所述整体图像的文档类型属性确定所述文档主题。
根据本发明的另一个方面,该方法中所述自动化识别包括:使用人工智能模型进行识别。
此外,本发明提供了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的电子卷宗的分类方法。
本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器,其中:所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如前文所述的电子卷宗的分类方法。
本发明提供的电子卷宗的分类方法,通过将电子卷宗中的每一文档图像识别为首页图像或非首页图像两种类型的初步分类处理,将所述电子卷宗拆分为多个文档图像集合,由于每一文档图像集合是以所述首页图像为起始元素,并以下一所述首页图像前的最后一个所述文档图像为结束元素,因此所述文档图像集合所包含的所有文档图像具有明显的主题关联性,进一步地,在已形成所述多个文档图像集合的基础上,根据每一所述文档图像集合包含的所述文档图像,并分别确定每一所述文档图像集合的文档主题,使所述文档主题识别时的干扰因素显著减少,所述电子卷宗最终的分类结果也更为准确。相比现有技术,本发明提供的电子卷宗的分类方法具有更高的分类精度和效率,以及更少的分类耗时,且所占用的计算资源和计算时长无明显增加。
附图说明
通过阅读参照以下附图所作的对非限制性具体实施方式所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的电子卷宗的分类方法的一个具体实施方式的流程示意图;
图2是图1示出的具体实施方式中电子卷宗的数据状态的变化示意图;
图3是图1示出的步骤S400的一个可选实施例的流程示意图;
图4是图3示出的可选实施例中文档图像集合的数据状态的变化示意图;
图5是图1示出的步骤S400的另一个可选实施例的流程示意图;
图6是图5示出的步骤S440的一个优选实施例的流程示意图;
图7是图5示出的可选实施例中文档图像集合的数据状态的变化示意图;
图8是图1示出的步骤S400的另一个可选实施例的流程示意图;
图9是图8示出的可选实施例中文档图像集合的数据状态的变化示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为了更好地理解和阐释本发明,下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
需要说明的是,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在下文给出的多个具体实施方式中,对于本领域熟知的原理、结构和部件未作详细描述,以便于凸显本发明的主旨。
本发明提供了一种电子卷宗的分类方法,请参考图1,图1是根据本发明的电子卷宗的分类方法的一个具体实施方式的流程示意图,该方法包括:
步骤S100,输入由有序排列的多个文档图像所构成的电子卷宗;
步骤S200,分别将每一所述文档图像识别为首页图像或非首页图像;
步骤S300,遍历所述电子卷宗,将所述多个文档图像进行分组以形成多个文档图像集合,按照所述多个文档图像的排列顺序,所述多个文档图像集合中的第N个所述文档图像集合所包含的元素是第N个所述首页图像,以及该第N个所述首页图像与第N+1个所述首页图像之间的所有所述文档图像,其中N是大于0的正整数;
步骤S400,根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题。
为了更清楚地解释本具体实施方式,请结合图1和图2进行参考,图2是图1示出的具体实施方式中电子卷宗的数据状态的变化示意图。在步骤S100中,所输入的所述电子卷宗通常由有序排列的多个文档图像构成,例如图2所示,电子卷宗100由有序排列多个文档图像构成,其中图2所示出的文档图像101、102、103、104、105和106是该多个文档图像的一部分,用于示意性地表示电子卷宗100的内部组成。本领域技术人员可以理解,所述文档图像通常通过扫描纸质材料的方式生成,一个所述文档图像对应纸质材料的一个页面,电子卷宗100包括的多个文档图像其生成来源可能是多个不同主题的纸质材料,而每一主题的纸质材料其扫描结果数据对应于所述多个文档图像构成的集合的一个子集。在电子卷宗100中,所述多个文档图像的排列顺序可以由创建该电子卷宗100时所述多个文档图像的先后输入顺序而决定,也可以由根据纸质材料生成所述多个文档图像的过程中的扫描顺序而决定。当电子卷宗100包括的多个文档图像其生成来源为多个不同主题的纸质材料的情况下,优选地,所述多个文档图像的排列顺序能直接体现所述多个不同主题的纸质材料的页面阅读顺序。
在步骤S200中,分别对每一所述文档图像进行识别,以将每一所述文档图像识别为首页图像或非首页图像,例如图2中示出的,将文档图像101识别为所述首页图像,将文档图像102识别为所述非首页图像,将文档图像103识别为所述首页图像等,其目的是将所述多个文档图像进行初步分类,便于在步骤S300中将所述多个文档图像进行分组以形成多个文档图像集合。典型地,步骤S200包如下具体步骤:使用人工智能模型分别识别每一所述文档图像,以将每一所述文档图像识别为首页图像或非首页图像。优选地,在训练所述人工智能模型时,并不考虑将所述文档图像上文字的光学字符识别结果用作训练数据,而是将根据所述文档图像的版面结构生成的特征向量用作训练数据,这样能较为显著地提升所述人工智能模型的识别效率。相应地,每一所述文档图像被识别后,所述人工智能模型可设计成为该文档图像分配对应的标识,这样就可以将所述多个文档图像分为“首页图像”和“非首页图像”两种类型。
继续参考图1和图2,在步骤S300中,通过遍历电子卷宗100的方式,将所述多个文档图像进行分组,以形成多个文档图像集合。任一所述文档图像集合均为非空集合,其包含至少一个所述文档图像,典型地,该文档图像集合例如是图2示出的文档图像集合210、220、230或240。所述文档图像集合的构建逻辑应满足:按照所述多个文档图像的排列顺序,所述多个文档图像集合中的第N个所述文档图像集合所包含的元素是第N个所述首页图像,以及该第N个所述首页图像与第N+1个所述首页图像之间的所有所述文档图像,其中N是大于0的正整数,以图2中示出的第N个文档图像集合210和第N+1个文档图像集合220为例,由于步骤S200仅是将电子卷宗100中的所述多个文档图像识别为所述首页图像或所述非首页图像,且并未打乱所述多个文档图像的排列顺序,按照电子卷宗100中所述多个文档图像的排列顺序,第N个文档图像集合210中包括第N个首页图像211,还包括非首页图像212和非首页图像213;第N+1个文档图像集合的起始元素为第N+1个首页图像221,显然第N个首页图像211和第N+1个首页图像221之间的所有所述文档图像即为非首页图像212和非首页图像213。以此类推,电子卷宗100所包含的所述多个文档图像被分组为多个文档图像集合。本领域技术人员可以理解,按照电子卷宗100中所述多个文档图像的排列顺序,从所述多个文档图像中截取的一部分亦有可能出现两个所述首页图像相邻出现的情况,例如假定第N+1个首页图像221紧邻第N个首页图像211排列,此时非首页图像212和非首页图像213均不存在,也即第N个首页图像211和第N+1个首页图像221之间的所有所述文档图像的数量为零,则第N个文档图像集合中仅包含第N个首页图像211这个元素。典型地,图2中示出的文档集合230和文档集合240对应了上述假定的情况,其中文档集合230中仅包含一个元素,也即一个所述首页图像。通过上述解释,本领域技术人员应能理解所述多个文档图像集合的具体构成与所述多个文档图像本身的排列顺序密切相关。
在步骤S400中,进一步根据所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题。更具体而言,执行步骤S400以确定所述文档主题的目的在于:为每一所述文档集合包含的所有所述文档图像赋予具有共性的主题归属标记,以便于后续建立索引。在步骤S400中确定每一所述文档图像集合的文档主题时,一种技术手段是使用每一所述文档图像集合的子集来作为确定依据,另一种技术手段是使用每一所述文档图像集合的全集元素来作为确定依据,本文将进一步对于上述两种不同的技术手段进行进一步解释。
请参考图3,图3是图1示出的步骤S400的一个可选实施例的流程示意图,在该实施例中步骤S400包括:
步骤S410,对所述文档图像集合中包含的所述首页图像进行自动化识别以确定其文档类型属性;
步骤S420,根据所述首页图像的文档类型属性确定所述文档主题。
为了更清楚地解释图3所示出的流程,以图2示出的第N个文档图像集合210为处理对象举例,结合图3和图4进行参考,图4是图3示出的可选实施例中文档图像集合的数据状态的变化示意图。具体地,在步骤S410中,对第N个首页图像211进行自动化识别,以确定该第N个首页图像211的文档类型属性;进一步在步骤S420中根据第N个首页图像211的文档类型属性确定第N个文档图像集合210的文档主题。例如N个首页图像211的文档类型属性被识别为“判决书”,相应地确定第N个文档图像集合210的文档主题也为“判决书”。由于所述文档类型属性和所述文档主题均是用于起标记作用的数据,两者可实施为具有相似数据结构的标签型数据,或将所述文档主题设计为可根据所述文档类型属性进行唯一性变换而获得。
在图3示出的可选实施例中,将所述文档图像集合中包含的所述首页图像的文档类型属性视为可以代表所述文档图像集合中其他所述文档图像的文档类型属性,通过实施图3的可选实施例所得到的测试结果,该可选实施例能可在耗时相对较少、计算复杂度相对较低的情况下达到电子卷宗分类所预期的准确率。本领域技术人员可知,图3示出的可选实施例对应于前文中使用每一所述文档图像集合的子集来作为确定依据的情况。
请参考图5,图5是图1示出的步骤S400的另一个可选实施例的流程示意图,在该实施例中步骤S400包括:
步骤S430,分别对所述文档图像集合中包含的所有所述文档图像进行自动化识别,以识别出该文档图像集合中每一所述文档图像的文档类型属性;
步骤S440,根据所述文档图像集合所对应的多种所述文档类型属性生成统计结果,并根据该统计结果确定所述文档图像集合的文档主题。
为了更清楚地解释图5所示出的流程,以图2示出的第N个文档图像集合210为处理对象举例,结合图5和图7进行参考,图7是图5示出的可选实施例中文档图像集合的数据状态的变化示意图。具体地,在步骤S430中,对第N个文档图像集合210中包含的所有所述文档图像进行自动化识别,也即分别对第N个首页图像211、非首页图像212和非首页图像213进行自动化识别,分别识别出上述各个文档图像的文档类型属性;进一步在步骤S440中根据第N个文档图像集合210所对应的多种所述文档类型属性生成统计结果,再根据该统计结果确定第N个文档图像集合210的文档主题。同样,所述文档类型属性和所述文档主题可实施为具有相似数据结构的标签型数据,或将所述文档主题设计为可根据所述文档类型属性进行唯一性变换而获得。本领域技术人员可知,图5示出的可选实施例对应于前文中使用每一所述文档图像集合的全部元素来作为确定依据的情况。
由于所述统计结果的生成涉及所述文档图像集合中包含的所有所述文档图像,一般认为该统计结果足以比较客观地反映出所述文档图像集合的特征。尤其面对所述文档图像集合包含的较多元素的情况,通过实施图5示出的可选实施例能达到较为理想的电子卷宗分类的准确率。
为进一步提升电子卷宗的分类精度,步骤S440还可以进一步实施为如图6示出的优选实施例。请参考图6,图6是图5示出的步骤S440的一个优选实施例的流程示意图,在该优选的实施例中,步骤S440包括:
步骤S441,分别为所述文档图像集合中包含的所述首页图像和所述非首页图像赋予权值;
步骤S442,计算所述多种文档类型属性中每一所述文档类型属性的权值积分;
步骤S443,根据权值积分最高的所述文档类型属性确定所述文档主题。
依然以图2示出的第N个文档图像集合210为处理对象举例,结合图6和图7进行参考,当第N个文档图像集合210形成后,首先在步骤S441中对第N个文档图像集合210中包含的各个文档图像进行赋予权值处理,例如图7示出的,第N个首页图像211赋予权值1,非首页图像212赋予权值2,以及非首页图像213赋予权值3;然后在步骤S442中计算第N个文档图像集合210对应的多种文档类型属性中每一所述文档类型属性的权值积分,例如第N个首页图像211的文档类型属性为“判决书”,非首页图像212的文档类型属性为“裁定书”,非首页图像213的文档类型属性为“判决书”,在权值1、权值2和权值3的取相同数值的情况下,则相应地计算得到,文档类型属性“判决书”的权值积分为权值1和权值3之和,文档类型属性“裁定书”的权值积分为权值2,由于权值1和权值3之和大于权值2,显然第N个文档图像集合210中的多数所述文档图像呈现出“判决书”类型主题的特征,将第N个文档图像集合210确定为具有“判决书”类型的文档主题具有更高的正确概率;进一步在步骤S443中根据文档类型属性“判决书”确定第N个文档图像集合210的文档主题为“判决书”。
一个所述文档图像集合中的各个所述文档图像可以分别赋予数值不等的权值,例如优选地可以为所述文档图像集合中的所述首页图像赋予较高的权重,令所述首页图像的权值大于所述非首页图像的权值,这样可以进一步提升确定所述文档图像集合的文档主题时的正确率。
在图3、图5或图6示出的实施例中,均考虑在步骤S400中将所述文档图像集合中的所述文档图像作为单独的元素进行识别,而另一种思路中可以将将所述文档图像集合中的所述文档图像作为一个整体进行识别,请参考图8,图8是图1示出的步骤S400的另一个可选实施例的流程示意图,在该实施例中步骤S400包括:
步骤S450,将所述文档图像集合中包含的所有所述文档图像拼接为一张整体图像;
步骤S460,对所述整体图像进行自动化识别,以识别出该整体图像的文档类型属性;
步骤S470,根据所述整体图像的文档类型属性确定所述文档主题。
为了更清楚地解释图8所示出的流程,以图2示出的第N个文档图像集合210为处理对象举例,结合图8和图9进行参考,图9是图8示出的可选实施例中文档图像集合的数据状态的变化示意图。具体地,当第N个文档图像集合210形成后,首先在步骤S450中将第N个文档图像集合210中包含的各个文档图像拼接为一张整体图像,例如图9示出的,将第N个首页图像211、非首页图像212和非首页图像213拼接为整体图像214,然后在步骤S460中对整体图像214进行自动化识别,以识别出整体图像214的文档类型属性;进一步在步骤S470中,根据整体图像214的文档类型属性确定第N个文档图像集合210的文档主题。由于整体图像214是由第N个文档图像集合210中包含的所有所述文档图像拼接生成的,因此整体图像214包含了所有所述文档图像的特征,可自然用于确定第N个文档图像集合210的文档主题。本领域技术人员可知,图8示出的可选实施例对应于前文中使用每一所述文档图像集合的全部元素来作为确定依据的情况,可以达到较为理想的电子卷宗分类的准确率。
典型地,前文中对于图3至图9的解释中,术语“自动化识别”指的是使用人工智能模型进行识别,优选地,在训练所述人工智能模型时,并不考虑将所述文档图像或所述整体图像上文字的光学字符识别结果用作训练数据,而是将根据所述文档图像或所述整体图像的版面结构生成的特征向量用作训练数据,这样能较为显著地提升所述人工智能模型的识别效率。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
相应地,本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的电子卷宗的分类方法的各个具体实施方式,例如图1所示出的电子卷宗的分类方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质,且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。
相应地,本发明还公开了一种计算机设备,所述计算机设备包括存储器和处理器,其中:所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如前文所述的电子卷宗的分类方法的各个具体实施方式,例如图1所示出的电子卷宗的分类方法。
本发明提供的电子卷宗的分类方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现,也可以实施为计算机程序产品,该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
本领域技术人员应当理解,任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序,但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他部件、单元或步骤,单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。
本发明提供的电子卷宗的分类方法,通过将电子卷宗中的每一文档图像识别为首页图像或非首页图像两种类型的初步分类处理,将所述电子卷宗拆分为多个文档图像集合,由于每一文档图像集合是以所述首页图像为起始元素,并以下一所述首页图像前的最后一个所述文档图像为结束元素,因此所述文档图像集合所包含的所有文档图像具有明显的主题关联性,进一步地,在已形成所述多个文档图像集合的基础上,根据每一所述文档图像集合包含的所述文档图像,并分别确定每一所述文档图像集合的文档主题,使所述文档主题识别时的干扰因素显著减少,所述电子卷宗最终的分类结果也更为准确。相比现有技术,本发明提供的电子卷宗的分类方法具有更高的分类精度和效率,以及更少的分类耗时,且所占用的计算资源和计算时长无明显增加。
以上所披露的仅为本发明的一部分实施例或具体实施方式,不能以此来限定本发明之权利范围,依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种电子卷宗的分类方法,该方法包括:
输入由有序排列的多个文档图像所构成的电子卷宗;
分别将每一所述文档图像识别为首页图像或非首页图像;
遍历所述电子卷宗,将所述多个文档图像进行分组以形成多个文档图像集合,按照所述多个文档图像的排列顺序,所述多个文档图像集合中的第N个所述文档图像集合所包含的元素是第N个所述首页图像,以及该第N个所述首页图像与第N+1个所述首页图像之间的所有所述文档图像,其中N是大于0的正整数;
根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题。
2.根据权利要求1所述的电子卷宗的分类方法,其中,所述分别将每一所述文档图像识别为首页图像或非首页图像的步骤包括:
使用人工智能模型分别识别每一所述文档图像,以将每一所述文档图像识别为首页图像或非首页图像。
3.根据权利要求1所述的电子卷宗的分类方法,其中,所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:
对所述文档图像集合中包含的所述首页图像进行自动化识别以确定其文档类型属性;
根据所述首页图像的文档类型属性确定所述文档主题。
4.根据权利要求1所述的电子卷宗的分类方法,其中,所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:
分别对所述文档图像集合中包含的所有所述文档图像进行自动化识别,以识别出该文档图像集合中每一所述文档图像的文档类型属性;
根据所述文档图像集合所对应的多种所述文档类型属性生成统计结果,并根据该统计结果确定所述文档图像集合的文档主题。
5.根据权利要求4所述的电子卷宗的分类方法,其中,所述根据所述文档图像集合所对应的多种所述文档类型属性生成统计结果,并根据该统计结果确定所述文档图像集合的文档主题的步骤包括:
分别为所述文档图像集合中包含的所述首页图像和所述非首页图像赋予权值;
计算所述多种文档类型属性中每一所述文档类型属性的权值积分;
根据权值积分最高的所述文档类型属性确定所述文档主题。
6.根据权利要求5所述的电子卷宗的分类方法,其中:
所述首页图像的权值大于所述非首页图像的权值。
7.根据权利要求1所述的电子卷宗的分类方法,其中,所述根据每一所述文档图像集合包含的所述文档图像,分别确定每一所述文档图像集合的文档主题的步骤包括:
将所述文档图像集合中包含的所有所述文档图像拼接为一张整体图像;
对所述整体图像进行自动化识别,以识别出该整体图像的文档类型属性;
根据所述整体图像的文档类型属性确定所述文档主题。
8.根据权利要求3、4或7所述的电子卷宗的分类方法,其中,所述自动化识别包括:
使用人工智能模型进行识别。
9.一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至8中任一项所述的电子卷宗的分类方法。
10.一种计算机设备,所述计算机设备包括存储器和处理器,其中:
所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的电子卷宗的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406557.5A CN115240205A (zh) | 2021-04-15 | 2021-04-15 | 电子卷宗的分类方法、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406557.5A CN115240205A (zh) | 2021-04-15 | 2021-04-15 | 电子卷宗的分类方法、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115240205A true CN115240205A (zh) | 2022-10-25 |
Family
ID=83665853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110406557.5A Pending CN115240205A (zh) | 2021-04-15 | 2021-04-15 | 电子卷宗的分类方法、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115240205A (zh) |
-
2021
- 2021-04-15 CN CN202110406557.5A patent/CN115240205A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8503769B2 (en) | Matching text to images | |
LeClair et al. | Adapting neural text classification for improved software categorization | |
US20240046684A1 (en) | System for Information Extraction from Form-Like Documents | |
US20180046708A1 (en) | System and Method for Automatic Detection and Clustering of Articles Using Multimedia Information | |
EP3674926A1 (en) | Systems and methods for processing metadata | |
US20200175268A1 (en) | Systems and methods for extracting and implementing document text according to predetermined formats | |
CN110826342A (zh) | 一种实现模型管理的方法、装置、计算机存储介质及终端 | |
US11551146B2 (en) | Automated non-native table representation annotation for machine-learning models | |
CN112446441A (zh) | 模型训练数据筛选方法、装置、设备及存储介质 | |
CN111984666B (zh) | 数据库访问方法、装置、计算机可读存储介质和计算机设备 | |
Tardy et al. | Align then summarize: Automatic alignment methods for summarization corpus creation | |
CN113569540B (zh) | 基于社会科学类教材的试卷生成方法和装置 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN115240205A (zh) | 电子卷宗的分类方法、介质及设备 | |
WO2021055868A1 (en) | Associating user-provided content items to interest nodes | |
EP1574950B1 (en) | Structured task naming | |
CN112699637B (zh) | 段落类型识别方法及系统和文档结构识别方法及系统 | |
CN114741512A (zh) | 一种文本自动分类方法及系统 | |
CN114661616A (zh) | 目标代码的生成方法及装置 | |
CN114139517A (zh) | 一种基于章节标签自动组合报告的方法及系统 | |
Tashu et al. | Smartscore-short answer scoring made easy using sem-LSH | |
JP2005141476A (ja) | 文書管理装置、プログラムおよび記録媒体 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN113190514B (zh) | 一种电子文档按照优先顺序录入数据的方法 | |
JP2007164241A (ja) | ソフトウェア部品検索システム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |