CN112785464B - 一种诉讼文件的整理方法和装置 - Google Patents
一种诉讼文件的整理方法和装置 Download PDFInfo
- Publication number
- CN112785464B CN112785464B CN202110385045.5A CN202110385045A CN112785464B CN 112785464 B CN112785464 B CN 112785464B CN 202110385045 A CN202110385045 A CN 202110385045A CN 112785464 B CN112785464 B CN 112785464B
- Authority
- CN
- China
- Prior art keywords
- litigation
- page
- layer
- documents
- pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012795 verification Methods 0.000 claims abstract description 44
- 238000000926 separation method Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 30
- 238000012163 sequencing technique Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种诉讼文件的整理方法和装置。一种诉讼文件的整理方法,包括:获取待整理的诉讼文件;将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;以案件为单位对所述目标子诉讼文件进行归类整理;其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;所述校验层用于对所述候选子诉讼文件进行内容统一性校验;所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。采用上述方法可以提高诉讼文件的整理效率,提升用户体验。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种诉讼文件的整理方法和装置。
背景技术
随着社会的不断发展,人们的维权意识越来越强,法院、律所等需要处理的案件数量也越来越多。相关技术中,工作人员可以将相似的案件进行归纳整合,便于后续执行统一的处理,这样既能遵守同案同判原则,又可以提高案件处理效率。在这一过程中,出于方便,工作人员通常会将这些案件相关的材料打包为一个诉讼文件交付给后续流程,而这一诉讼文件中可能存在多种类型的材料、多个案件的材料,且这些材料可能是杂乱无章的,整理起来十分不便,人工整理效率十分低下。基于此,如何对该诉讼文件进行整理,以提高效率、提升便捷性,成为业内关注的重点。
发明内容
有鉴于此,本申请提供一种诉讼文件的整理方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种诉讼文件的整理方法,所述方法包括:
获取待整理的诉讼文件;
将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
以案件为单位对所述目标子诉讼文件进行归类整理;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。
一种诉讼文件的整理装置,所述装置包括:
获取单元,用于获取待整理的诉讼文件;
拆分单元,用于将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
整理单元,用于以案件为单位对所述目标子诉讼文件进行归类整理;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。
由以上描述可以看出,在本申请的一个实施例中,可以获取待整理的诉讼文件,将所述诉讼文件输入文件拆分模型,以拆分得到若干目标子诉讼文件,然后以案件为单位对目标子诉讼文件进行归类整理。上述过程不需要用户手动操作,可以大大提高诉讼文件整理效率,提升便捷性。并且文件拆分模型可以对拆分得到的子诉讼文件进行内容统一性校验,提高拆分的准确度。
附图说明
图1是本申请一示例性实施例示出的一种诉讼文件的整理方法的流程示意图;
图2是本申请一示例性实施例示出的另一种诉讼文件的整理方法的流程示意图;
图3是本申请一示例性实施例示出的一种页面示意图;
图4是本申请一示例性实施例示出的一种诉讼文件的整理装置所在服务器的一种硬件结构图;
图5是本申请一示例性实施例示出的一种诉讼文件的整理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着社会的不断发展,人们的维权意识越来越强,法院、律所等需要处理的案件数量也越来越多,经常会存在大量的文件被打包成一份诉讼文件的场景,比如,可能会将同一类型的若干案件的材料打包成一份诉讼文件,然后交给负责该类型案件的人员进行后续处理。再比如,也可能在扫描时将同一公司的所有案件相关材料扫描成一个诉讼文件,这个诉讼文件中包括多个案件的起诉状、委托书、证据等等。现有技术中通常由人工对这些包含多案件、多类型材料的诉讼文件进行整理,效率低下,且整理起来十分不便。
基于此,本申请提供了一种诉讼文件的整理方法,可以自动地将该诉讼文件拆分为一份份独立的文件,并以案件为单位对拆分后的文件进行整理、归纳,相比于现有技术来说不需要人工操作,可以大大提高效率、提高便捷性。
请参见图1,图1是本申请一示例性实施例示出的一种诉讼文件的整理方法的流程示意图,所述方法可以应用于具有存储器、处理器的电子设备上,例如服务器或服务器集群。所述方法可以包括以下步骤:
步骤102,获取待整理的诉讼文件。
本步骤中,待整理的诉讼文件可以是多种形式的,比如可以是对多个案件的多种类型的文件打包而成的,包括多个案件的起诉状、委托书、证据材料等等。再比如,也可以是相关人员在扫描时将多份文件一起扫描成为一个诉讼文件,如扫描成一个PDF文件。本实施例对诉讼文件中包含的文件类型、文件数量不作特殊限制。
步骤104,将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件。
本步骤中,可以先对整理的诉讼文件进行预处理,比如可以“页”为最小单位对所述诉讼文件进行拆分,得到若干页,便于文件拆分模型以页为单位进行处理。具体拆分为页的方法可以参照相关技术。
当然,上述拆分为页的过程也可以由文件拆分模型来实现,本实施例对此不作特殊限制。
本步骤中,可以将拆分为页的诉讼文件输入文件拆分模型,该文件拆分模型可以将诉讼文件拆分为若干目标子诉讼文件,每个目标子诉讼文件为一份独立的、完整的文件,如一份起诉状、一份委托书,或者一份证据,每份文件可以仅包含一页,也可以包含多页,本申请对文件包含的页面数量不作特殊限制。
下面结合拆分模型的结构,对拆分模型拆分诉讼文件的方法进行说明。本实施例中,拆分模型可以包括识别层、划分层、校验层和输出层。
1、识别层
可以先将待整理的诉讼文件输入识别层,识别层可以从该诉讼文件中识别出分隔页,所述分隔页指的是用于划分出一个个独立文件的页面。比如,分隔页可以为首页,首页通常会包括标题,可以据此识别出首页。再比如,分隔页也可以为尾页,尾页的末尾位置可能会存在空白,或者署名,可以据此识别出尾页。当然,除上述例子外,分隔页也可以是其他页面,本实施例在此不一一举例。
识别层识别出分隔页后,可以将识别结果发送给划分层。
2、划分层
划分层可以根据分隔页将待整理的诉讼文件初步划分成若干个候选子诉讼文件。
比如,当分隔页为首页时,识别层可以确定出这些首页在待整理的诉讼文件中的位置,然后将首页作为候选子诉讼文件中的第一页,以此划分得到若干候选子诉讼文件。举例来说,假设待处理的诉讼文件包括1-6共6页,其中1-2页为起诉状、3-4页为委托书、5-6页为证据,那么可以采用上述方法识别出首页为第1页、第3页、第5页,则可以采用上述方法划分得到候选子诉讼文件为:候选子诉讼文件a:1-2页、候选子诉讼文件b:3-4页、候选子诉讼文件c:5-6页。
类似的,当分隔页为尾页时,识别层可以将尾页作为候选子诉讼文件中的最后一页,以此划分得到若干候选子诉讼文件。当然,划分层也可以结合首页和尾页综合地划分出候选子诉讼文件。
采用上述方法可以较为准确地拆分出一份份独立的文件,但是在一些情况下,待整理的诉讼文件中可能会发生页码混乱的情况,比如仍以上述例子为例,该诉讼文件合理的排序顺序应当为1、2、3、4、5、6页,但实际情况下可能会出现扫描人员操作失误或者其他异常,导致该诉讼文件的排序顺序变为了1、2、4、3、5、6页,那么按照上述识别首页进行划分的方法,识别出的首页仍为第1页、第3页、第5页,那么可以划分得到:候选子诉讼文件a’:1、2、4页;候选子诉讼文件b’:3页;候选子诉讼文件c’:5、6页。明显这样划分出的候选子诉讼文件是不准确的。
因此,本实施例中,还可以通过校验层对候选子诉讼文件进行内容一致性校验。
3、校验层
本实施例中,校验层可以基于候选子诉讼文件中各页面所属的文件类型来进行内容统一性校验。所述文件类型可以根据具体的应用场景预先设置,比如对于诉讼文件这一场景,常见的诉讼文件类型包括起诉状、委托书、证据、身份证明等,则可以将这些设置为文件类型。然后可以通过以下的方法来识别文件类型:
一方面,可以将每个页面转换为对应的图像,对该图像进行去噪、灰度化、旋转等预处理后,利用卷积神经网络提取出图像特征。另一方面,可以提取出每个页面对应的文本,然后针对每个页面对应的文本,对该文本进行分词,得到若干短文本,基于已训练好的自然语言处理模型(如bert模型、albert模型)将短文本转换为特征向量,对各短文本对应的向量进行拼接得到该页面对应文本的特征矩阵,利用长短时记忆网络基于所述特征矩阵得到文本特征。然后对图像特征和文本特征进行融合,得到融合特征,可以基于融合特征预测得到对应的文件类型。
当然,上述例子仅仅是示例性的说明,在实际应用中也可以采用其他方法预测得到各页面所属的文件类型。
识别出各页面所属的文件类型后,可以判断各个页面所属的文件类型是否一致,若一致,则校验通过;若不一致,则校验不通过。
仍以上述例子为例,候选子诉讼文件a’包括1、2、4页,可以识别出页面1属于起诉状、页面2属于起诉状、页面4属于委托书,验证发现这3个页面所属的文件类型不一致,说明候选子诉讼文件a’校验不通过。
当然,除上述例子外,也可以采用其他方法进行内容统一性校验。比如,也可以针对每个候选子诉讼文件,提取出该候选子诉讼文件中每个页面的若干关键词,该关键词可以代表页面主要描述的内容,然后可以比较各个页面的关键词是否相似,若相似,说明其内容是一致的,通过校验;若不相似,则说明其内容不一致,校验不通过。
校验完毕后,校验层可以将校验结果发送给输出层。
4、输出层
本实施例中,输出层可以将校验通过的候选子诉讼文件作为目标子诉讼文件输出。
在一个例子中,输出层可以仅输出校验通过的目标子诉讼文件。
在另一个例子中,输出层除了输出校验通过的目标子诉讼文件外,也可以输出校验未通过的候选子诉讼文件,并且输出这些文件未通过校验的提醒(比如该提醒可以是这些候选子诉讼文件的标签),以提示相关人员基于输出的结果进行异常排查。
本实施例中,通过上述内容统一性校验,可以识别出页码混乱的情况,提高拆分得到的目标子诉讼文件的准确度。
步骤106,以案件为单位对所述目标子诉讼文件进行归类整理。
本实施例中,可以案件为单位对目标子诉讼文件进行归类整理,以将属于同一案件的目标子诉讼文件归为一起。
例如,可以提取出各目标子诉讼文件的案件特征,该案件特征可以是案件名称、原告身份信息、被告身份信息、代理人身份信息、案由信息等,可以基于这些案件特征来归类。比如,可以将案件名称相同的目标子诉讼文件归为一类,再比如,也可以将原告身份信息、被告身份信息相同的目标子诉讼文件归为一类。
由以上描述可以看出,在本申请的一个实施例中,可以获取待整理的诉讼文件,将所述诉讼文件输入文件拆分模型,以拆分得到若干目标子诉讼文件,然后以案件为单位对目标子诉讼文件进行归类整理。上述过程不需要用户手动操作,可以大大提高诉讼文件整理效率,提升便捷性。并且文件拆分模型可以对拆分得到的子诉讼文件进行内容统一性校验,提高拆分的准确度。
请参见图2,图2是本申请一示例性实施例示出的另一种诉讼文件的整理方法的流程示意图。所述方法可以应用于具有存储器、处理器的电子设备中,例如服务器或服务器集群,所述方法可以包括以下步骤:
步骤202,获取待整理的诉讼文件;
步骤204,将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件。
上述步骤202-步骤204具体可参照前述实施例,在此不再赘述。
步骤206,对目标子诉讼文件中的各个页面重新进行排序。
本实施例中,针对上述实施例中提及的页码混乱的情况,本实施例中还可以对目标子诉讼文件中的各页面重新进行排序,以得到正确排序顺序的目标子诉讼文件,进一步提高文件整理的准确性。
具体地,可以将目标子诉讼文件输入排序模型,该排序模型可以输出重新排序后的目标子诉讼文件。其中,排序模型可以包括布局特征提取层、语义特征提取层、特征融合层和页面排序层。下面对此进行详细说明。
1、布局特征提取层
可以将目标子诉讼文件输入布局特征提取层,该布局特征提取层可以提取出目标子诉讼文件中各页面的布局特征,布局特征可以是页面标题特征、页面段落分布特征、标点特征、署名特征等。
2、语义特征提取层
可以将目标子诉讼文件输入语义特征提取层,该语义特征提取层可以提取出各页面的语义连贯性特征。
比如,语义连贯性特征可以是页面末尾文本的实体特征、页面开头的实体特征。举例来说,若两个页面存在前后相邻的语义顺序,那么可能第一页的末尾部分会出现“北京天”,第二页的开头部分会出现“安门”,把这两个词汇合并在一起便可以得到“北京天安门”这个完整的实体,可以根据这一特点来确定两个页面是否存在前后相邻的关系,并且可以分析出哪个页面在前、哪个页面在后。
再比如,语义连贯性特征也可以是页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征。举例来说,若两个页面存在前后相邻的语义顺序,那么这两个页面可能会描述同一事件,那么可以提取出页面末尾和页面开头的文本段落,可以分析这两个文本段落描述的事件是否相关、是否为同一事件,以此确定这两个页面是否存在前后相邻的关系。
再比如,语义连贯性特征也可以是页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。举例来说,假设某页面末尾可能出现“我今天吃”,另一页面开头可能出现“了一个包子”,那么可以分析出把这两个文本组合在一起得到“我今天吃了一个包子”这一符合语法关系的句子,因此可以据此确定这两个页面是否存在前后相邻的关系。
当然,上述例子仅仅是示例性的说明,在实际应用中也可以提取其他特征,本实施例在此不一一举例。
3、特征融合层
布局特征提取层可以将提取得到的布局特征发送给特征融合层,语义特征提取层也可以将提取得到的语义连贯性特征发送给特征融合层,特征融合层可以针对每个页面,将该页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征,然后将融合特征发送给页面排序层。其中,融合的具体方法可参照相关技术,本实施例对此不作特殊限制。
4、页面排序层
页面排序层可以针对每个目标子诉讼文件,基于各页面的融合特征预测得到该文件的重新排序结果,并根据该结果输出排序后的各页面。
下面以一个具体的例子进行说明。假设目标子诉讼文件一共包括3页,其真实的排序顺序应当为第1页、第2页、第3页,而该目标子诉讼文件出现了页码混乱,其页码排序顺序变为第1页、第3页、第2页。
在一个例子中,可以从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括目标子诉讼文件中的任意两个页面。对于上述例子而言,可以提取出3种页面组合,即页面1、3;页面1、2;页面3、2。然后可以针对每个页面组合,基于该页面组合中各页面的融合特征,确定该页面组合中的两个页面是否构成在真实诉讼文件中前后相邻的语义顺序。
即对于页面1、3这一页面组合,预测得到其不构成相邻页面的关系,则不将1和3进行相邻的排序。对于页面1、2这一页面组合,预测得到其构成相邻页面的关系,且页面1在页面2之前,则可以将页面1和2按照1、2的顺序排序。对于页面3、2这一页面组合,预测得到其构成相邻页面的关系,且页面2在页面3之前,则可以将页面3和2按照2、3的顺序排序。
然后可以根据各个页面组合重新排序后的结果,确定目标子诉讼文件的重新排序结果。即可以根据上表中的最后一列,根据排序结果1、2与2、3得到目标子诉讼文件的页面排序结果为1、2、3。
在另一个例子中,也可以先确定出目标子诉讼文件中的首页和/或尾页,然后对剩余页面分析其是否存在前后相邻的关系。
对于上述例子,目标子诉讼文件排序前的页面顺序为第1页、第3页、第2页,则可以先确定出该目标子诉讼文件中的首页,假设为第1页,然后可以将首页与其它页面组合,得到页面1和页面3的组合、页面1和页面2的组合,然后分别分析每个组合中两个页面是否存在前后相邻关系,假设分析得到页面1和页面2存在前后相邻关系,页面1和页面3不存在前后相邻关系,则可以据此得到第二页为页面2,然后进一步将页面2与剩余页面进行组合,得到页面2与页面3,可以分析页面2和页面3是否存在前后相邻关系,若存在,则可以确定该目标子诉讼文件排序后的页面顺序为:第1页、第2页、第3页。
当然,该例子仅仅是先确定出目标子诉讼文件的首页进行后续分析,在其他例子中也可以确定出目标子诉讼文件的尾页进行后续分析,或者也可以同时确定出首页和尾页进行后续分析,对此不作特殊限制。其中,可以根据提取得到的页面布局特征来确定首页/尾页,或者也可以根据前述实施例中的文件拆分模型来确定首页/尾页,对此不作特殊限制。
在另一个例子中,也可以先确定出目标子诉讼文件的各种页面排序方式,然后逐一地对每种页面排序方式进行核验,以找到正确的排序方式。对于上述例子,可以确定出6种页面排序方式,即页面1、2、3;页面1、3、2;页面2、1、3;页面2、3、1;页面3、1、2;页面3、2、1。然后可以遍历每种页面排序方式,直到找到正确的排列方式。
比如,对于上述页面1、3、2这一排列方式,可以按顺序先分析页面1和3之间是否存在前后相邻关系,发现不存在,则确定该排列方式不正确。再比如,对于上述页面1、2、3这一排列方式,可以按顺序先分析页面1和2之间是否存在前后相邻关系,发现存在,则可进一步分析页面2和3之间是否存在前后相邻关系,发现也存在,则说明该排列方式正确。
值得说明的是,上述例子中在分析两个页面之间是否存在前后相邻关系时,排序模型实际上可以预测得到两个页面存在前后相邻关系的概率,比如概率为0.5、0.6、0.9等,可以设置一个阈值,如0.7,当预测得到的概率超过阈值时,可以确定两个页面存在前后相邻的关系,反之,当预测得到的概率小于阈值时,可以确定两个页面不存在前后相邻的关系。所述阈值可以人为预设,也可以根据实际情况进行调整。
本实施例中,页面排序层可以将重新排列后的目标子诉讼文件输出。
但在一些情况下,可能存在目标子诉讼文件划分错误,导致无法正确排列的情况。
比如,目标子诉讼文件包括页面1、2、3、4,其中页面1、2、3属于起诉状中的页面,而页面4属于委托书中的页面,那么对该目标子诉讼文件进行排序后,会发现页面1、2、3之间存在前后相邻的关系,而页面4与这3个页面中任一页面都不存在前后相邻关系,导致页面4无法与这3个页面排序。那么在这种情况下,页面排序层也可以输出排序结果异常的提醒。
再比如,目标子诉讼文件实际上应当包括页面1、2、3、4、5,其中页面5因一些原因丢失,导致该目标子诉讼文件中只存在页面1、2、3、4。那么排序层可以分析这些页面中是否存在首页、尾页,发现只存在首页(页面1),而不存在尾页(页面5),则也可以输出排序结果异常的提醒。
再比如,目标子诉讼文件实际上应当包括页面1、2、3、4、5,其中页面3因一些原因丢失,导致该目标子诉讼文件中只存在页面1、2、4、5。那么排序层在对这些页面进行排序时,可能会得到两部分,即页面1-2、页面4-5,而页面2和4之间不存在前后相邻的关系,导致这两部分无法连贯地排列,那么排序层也可以输出排序结果异常的提醒。
当然,上述例子仅仅是示例性的说明,在实际情况下也可能出现其它问题,本实施例在此不一一举例。
本实施例中,在一个例子中,页面排序层可以不输出排序后的目标子诉讼文件,而是仅输出排序异常的提醒。
在另一个例子中,页面排序层除了输出异常提醒外,也可以输出排序后的目标子诉讼文件,比如对于上述例子,可以输出页面1、2、3的排序结果,同时输出页面4排序异常的提醒。这样有助于相关人员基于这一结果进行异常排查。
步骤208,以案件为单位对所述目标子诉讼文件进行归类整理。
本实施例中,可以提取出每个目标子诉讼文件的案件特征,基于这些案件特征为每个案件建立对应的一级文件夹,然后将各个目标子诉讼文件归入其所属案件的一级文件夹。其中,根据案件特征划分案件的方法可参照前述实施例,在此不再赘述。
并且,还可以针对每个一级文件夹,建立不同文件类型对应的二级文件夹,比如可以建立身份证明材料对应的文件夹、起诉状对应的二级文件夹、证据材料对应的二级文件夹等等。然后把对应的目标子诉讼文件归入对应的二级文件夹。目标子诉讼文件的文件类型可以是前述实施例中文件拆分模型识别得到的,当然也可以采取其他方法识别得到的,对此不作特殊限制。
并且,除了可以设置二级文件夹外,还可以设置三级文件夹、四级文件夹等,本实施例在此不一一举例。
可参见图3,图3是本申请一示例性实施例示出的一种页面示意图。图3展示了案件A相关的诉讼文件,其中,“身份证明材料”、“起诉状”、“证据”为一级文件夹,“身份证明材料”这个一级文件夹下还包括“原告一”、“被告一”、“被告二”、“被告三”这4个二级文件夹,且“原告一”这个二级文件夹中可以包括两份文件,即“原告一身份证”和“原告一代理人身份证”。类似的,在“证据”这个一级文件夹下可以包括三份文件,即“权属证据”、“权属证据二”、“被告侵权证据”。
当然,图3所示页面仅仅为示例性的说明,在实际应用中也可以采用其他页面。
由以上描述可以看出,在本申请的一个实施例中,将待整理的诉讼文件拆分为目标子诉讼文件后,还可以对目标子诉讼文件中的各页面进行重新排序,以将混乱的页面重新排序为正确的形式,提高目标子诉讼文件的整理准确性,提升用户体验。
并且,还可以将属于同一案件的目标子诉讼文件归入同一个文件夹,且还可以在该文件夹中设置不同文件类型对应的二级文件夹,有助于用户快速找到其想要查找的文件,提升用户体验。
与前述诉讼文件的整理方法的实施例相对应,本申请还提供了诉讼文件的整理装置的实施例。
本申请诉讼文件的整理装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请诉讼文件的整理装置所在服务器的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图5,图5是本申请一示例性实施例示出的一种诉讼文件的整理装置的框图。所述装置包括获取单元510、拆分单元520、排序单元530、整理单元540。
其中,获取单元510,获取待整理的诉讼文件;
拆分单元520,将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
整理单元540,以案件为单位对所述目标子诉讼文件进行归类整理;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。
可选的,所述校验层具体用于:
针对每个候选子诉讼文件,识别出所述候选子诉讼文件中各页面所属的文件类型;
基于所述文件类型对所述候选子诉讼文件进行内容统一性校验。
可选的,所述校验层在基于所述文件类型对所述候选子诉讼文件进行内容统一性校验时,具体用于:
判断所述候选子诉讼文件中各页面的文件类型是否一致;
若一致,确定所述候选子诉讼文件通过内容统一性校验;
若不一致,确定所述候选子诉讼文件未通过内容统一性校验。
可选的,所述输出层还用于:
将未校验通过的候选子诉讼文件输出,并输出未校验通过的提醒。
可选的,所述装置还包括:
排序单元530,对目标子诉讼文件中的各个页面重新进行排序,得到排序后的目标子诉讼文件。
可选的,所述排序单元530具体用于:
将所述目标子诉讼文件输入排序模型,得到排序后的目标子诉讼文件;
其中,所述排序模型包括布局特征提取层、语义特征提取层、特征融合层和页面排序层;
布局特征提取层用于提取得到所述目标子诉讼文件中各页面的布局特征;
语义特征提取层用于提取得到所述目标子诉讼文件中各页面的语义连贯性特征;
特征融合层用于针对每个页面,将所述页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征;
页面排序层用于基于所述融合特征预测得到所述目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,所述页面排序层具体用于:
从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括所述目标子诉讼文件中的任意两个页面;
针对每个页面组合,基于所述页面组合中各页面对应的融合特征,确定所述页面组合中的两个页面是否相邻;
基于相邻的页面组合确定目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,
所述布局特征包括以下一种或多种:标题特征、段落分布特征、标点符号特征、署名特征;
所述语义连贯性特征包括以下一种或多种:页面末尾文本的实体特征、页面开头文本的实体特征、页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征、页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。
可选的,所述整理单元540具体用于:
提取出各目标子诉讼文件的案件特征;
基于所述案件特征确定各目标子诉讼文件所属的案件,并将相同案件的目标子诉讼文件进行归类。
可选的,所述整理单元540具体用于:
基于案件特征为每个案件建立对应的一级文件夹;
在所述一级文件夹中建立二级文件夹,所述二级文件夹与所述文件类型对应;
将每个目标子诉讼文件归入其所属的二级文件夹。
可选的,所述案件特征包括以下一种或多种:
原告身份信息、被告身份信息、代理人身份信息、案由信息、案件名称。
可选的,所述分隔页为首页,所述识别层具体用于:
根据页面的标题特征从所述待整理的诉讼文件中识别出若干首页。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述诉讼文件的整理方法的实施例相对应,本说明书还提供一种诉讼文件的整理装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与诉讼文件的整理逻辑对应的机器可执行指令,所述处理器被促使:
获取待整理的诉讼文件;
将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
以案件为单位对所述目标子诉讼文件进行归类整理;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。
可选的,所述校验层具体用于:
针对每个候选子诉讼文件,识别出所述候选子诉讼文件中各页面所属的文件类型;
基于所述文件类型对所述候选子诉讼文件进行内容统一性校验。
可选的,所述校验层在基于所述文件类型对所述候选子诉讼文件进行内容统一性校验时,具体用于:
判断所述候选子诉讼文件中各页面的文件类型是否一致;
若一致,确定所述候选子诉讼文件通过内容统一性校验;
若不一致,确定所述候选子诉讼文件未通过内容统一性校验。
可选的,所述输出层还用于:
将未校验通过的候选子诉讼文件输出,并输出未校验通过的提醒。
可选的,所述处理器还被促使:
对目标子诉讼文件中的各个页面重新进行排序,得到排序后的目标子诉讼文件。
可选的,在对所述目标子诉讼文件中的各个页面重新进行排序时,所述处理器被促使:
将所述目标子诉讼文件输入排序模型,得到排序后的目标子诉讼文件;
其中,所述排序模型包括布局特征提取层、语义特征提取层、特征融合层和页面排序层;
布局特征提取层用于提取得到所述目标子诉讼文件中各页面的布局特征;
语义特征提取层用于提取得到所述目标子诉讼文件中各页面的语义连贯性特征;
特征融合层用于针对每个页面,将所述页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征;
页面排序层用于基于所述融合特征预测得到所述目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,所述页面排序层具体用于:
从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括所述目标子诉讼文件中的任意两个页面;
针对每个页面组合,基于所述页面组合中各页面对应的融合特征,确定所述页面组合中的两个页面是否相邻;
基于相邻的页面组合确定目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,
所述布局特征包括以下一种或多种:标题特征、段落分布特征、标点符号特征、署名特征;
所述语义连贯性特征包括以下一种或多种:页面末尾文本的实体特征、页面开头文本的实体特征、页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征、页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。
可选的,在以案件为单位对所述目标子诉讼文件进行归类整理时,所述处理器被促使:
提取出各目标子诉讼文件的案件特征;
基于所述案件特征确定各目标子诉讼文件所属的案件,并将相同案件的目标子诉讼文件进行归类。
可选的,在将相同案件的目标子诉讼文件进行归类时,所述处理器被促使:
基于案件特征为每个案件建立对应的一级文件夹;
在所述一级文件夹中建立二级文件夹,所述二级文件夹与所述文件类型对应;
将每个目标子诉讼文件归入其所属的二级文件夹。
可选的,所述案件特征包括以下一种或多种:
原告身份信息、被告身份信息、代理人身份信息、案由信息、案件名称。
可选的,所述分隔页为首页,所述识别层具体用于:
根据页面的标题特征从所述待整理的诉讼文件中识别出若干首页。
与前述诉讼文件的整理方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待整理的诉讼文件;
将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
以案件为单位对所述目标子诉讼文件进行归类整理;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出。
可选的,所述校验层具体用于:
针对每个候选子诉讼文件,识别出所述候选子诉讼文件中各页面所属的文件类型;
基于所述文件类型对所述候选子诉讼文件进行内容统一性校验。
可选的,所述校验层在基于所述文件类型对所述候选子诉讼文件进行内容统一性校验时,具体用于:
判断所述候选子诉讼文件中各页面的文件类型是否一致;
若一致,确定所述候选子诉讼文件通过内容统一性校验;
若不一致,确定所述候选子诉讼文件未通过内容统一性校验。
可选的,所述输出层还用于:
将未校验通过的候选子诉讼文件输出,并输出未校验通过的提醒。
可选的,还包括:
对目标子诉讼文件中的各个页面重新进行排序,得到排序后的目标子诉讼文件。
可选的,所述对所述目标子诉讼文件中的各个页面重新进行排序,包括:
将所述目标子诉讼文件输入排序模型,得到排序后的目标子诉讼文件;
其中,所述排序模型包括布局特征提取层、语义特征提取层、特征融合层和页面排序层;
布局特征提取层用于提取得到所述目标子诉讼文件中各页面的布局特征;
语义特征提取层用于提取得到所述目标子诉讼文件中各页面的语义连贯性特征;
特征融合层用于针对每个页面,将所述页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征;
页面排序层用于基于所述融合特征预测得到所述目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,所述页面排序层具体用于:
从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括所述目标子诉讼文件中的任意两个页面;
针对每个页面组合,基于所述页面组合中各页面对应的融合特征,确定所述页面组合中的两个页面是否相邻;
基于相邻的页面组合确定目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
可选的,
所述布局特征包括以下一种或多种:标题特征、段落分布特征、标点符号特征、署名特征;
所述语义连贯性特征包括以下一种或多种:页面末尾文本的实体特征、页面开头文本的实体特征、页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征、页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。
可选的,所述以案件为单位对所述目标子诉讼文件进行归类整理,包括:
提取出各目标子诉讼文件的案件特征;
基于所述案件特征确定各目标子诉讼文件所属的案件,并将相同案件的目标子诉讼文件进行归类。
可选的,所述将相同案件的目标子诉讼文件进行归类,包括:
基于案件特征为每个案件建立对应的一级文件夹;
在所述一级文件夹中建立二级文件夹,所述二级文件夹与所述文件类型对应;
将每个目标子诉讼文件归入其所属的二级文件夹。
可选的,所述案件特征包括以下一种或多种:
原告身份信息、被告身份信息、代理人身份信息、案由信息、案件名称。
可选的,所述分隔页为首页,所述识别层具体用于:
根据页面的标题特征从所述待整理的诉讼文件中识别出若干首页。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (22)
1.一种诉讼文件的整理方法,其特征在于,所述方法包括:
获取待整理的诉讼文件;
将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
以案件为单位对所述目标子诉讼文件进行归类整理;
对目标子诉讼文件中的各个页面重新进行排序,得到排序后的目标子诉讼文件;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出;
其中,所述对所述目标子诉讼文件中的各个页面重新进行排序,包括:
将所述目标子诉讼文件输入排序模型,得到排序后的目标子诉讼文件;
其中,所述排序模型包括布局特征提取层、语义特征提取层、特征融合层和页面排序层;
布局特征提取层用于提取得到所述目标子诉讼文件中各页面的布局特征;
语义特征提取层用于提取得到所述目标子诉讼文件中各页面的语义连贯性特征;
特征融合层用于针对每个页面,将所述页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征;
页面排序层用于基于所述融合特征预测得到所述目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
2.根据权利要求1所述方法,其特征在于,所述校验层具体用于:
针对每个候选子诉讼文件,识别出所述候选子诉讼文件中各页面所属的文件类型;
基于所述文件类型对所述候选子诉讼文件进行内容统一性校验。
3.根据权利要求2所述方法,其特征在于,所述校验层在基于所述文件类型对所述候选子诉讼文件进行内容统一性校验时,具体用于:
判断所述候选子诉讼文件中各页面的文件类型是否一致;
若一致,确定所述候选子诉讼文件通过内容统一性校验;
若不一致,确定所述候选子诉讼文件未通过内容统一性校验。
4.根据权利要求1所述方法,其特征在于,所述输出层还用于:
将未校验通过的候选子诉讼文件输出,并输出未校验通过的提醒。
5.根据权利要求1所述方法,其特征在于,所述页面排序层具体用于:
从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括所述目标子诉讼文件中的任意两个页面;
针对每个页面组合,基于所述页面组合中各页面对应的融合特征,确定所述页面组合中的两个页面是否相邻;
基于相邻的页面组合确定目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
6.根据权利要求1所述方法,其特征在于,
所述布局特征包括以下一种或多种:标题特征、段落分布特征、标点符号特征、署名特征;
所述语义连贯性特征包括以下一种或多种:页面末尾文本的实体特征、页面开头文本的实体特征、页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征、页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。
7.根据权利要求2所述方法,其特征在于,所述以案件为单位对所述目标子诉讼文件进行归类整理,包括:
提取出各目标子诉讼文件的案件特征;
基于所述案件特征确定各目标子诉讼文件所属的案件,并将相同案件的目标子诉讼文件进行归类。
8.根据权利要求7所述方法,其特征在于,所述将相同案件的目标子诉讼文件进行归类,包括:
基于案件特征为每个案件建立对应的一级文件夹;
在所述一级文件夹中建立二级文件夹,所述二级文件夹与所述文件类型对应;
将每个目标子诉讼文件归入其所属的二级文件夹。
9.根据权利要求8所述方法,其特征在于,所述案件特征包括以下一种或多种:
原告身份信息、被告身份信息、代理人身份信息、案由信息、案件名称。
10.根据权利要求1所述方法,其特征在于,所述分隔页为首页,所述识别层具体用于:
根据页面的标题特征从所述待整理的诉讼文件中识别出若干首页。
11.一种诉讼文件的整理装置,其特征在于,所述装置包括:
获取单元,用于获取待整理的诉讼文件;
拆分单元,用于将所述待整理的诉讼文件输入文件拆分模型,得到拆分后的若干目标子诉讼文件;
整理单元,用于以案件为单位对所述目标子诉讼文件进行归类整理;
排序单元,用于对目标子诉讼文件中的各个页面重新进行排序,得到排序后的目标子诉讼文件;
其中,所述文件拆分模型包括识别层、划分层、校验层和输出层;
所述识别层用于从所述待整理的诉讼文件中识别出若干分隔页;
所述划分层用于基于所述分隔页将所述待整理的诉讼文件划分为若干候选子诉讼文件;
所述校验层用于对所述候选子诉讼文件进行内容统一性校验;
所述输出层用于将校验通过的候选子诉讼文件确定为目标子诉讼文件并输出;
其中,所述排序单元具体用于:
将所述目标子诉讼文件输入排序模型,得到排序后的目标子诉讼文件;
其中,所述排序模型包括布局特征提取层、语义特征提取层、特征融合层和页面排序层;
布局特征提取层用于提取得到所述目标子诉讼文件中各页面的布局特征;
语义特征提取层用于提取得到所述目标子诉讼文件中各页面的语义连贯性特征;
特征融合层用于针对每个页面,将所述页面对应的布局特征和语义连贯性特征进行融合,得到所述页面对应的融合特征;
页面排序层用于基于所述融合特征预测得到所述目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
12.根据权利要求11所述装置,其特征在于,所述校验层具体用于:
针对每个候选子诉讼文件,识别出所述候选子诉讼文件中各页面所属的文件类型;
基于所述文件类型对所述候选子诉讼文件进行内容统一性校验。
13.根据权利要求12所述装置,其特征在于,所述校验层在基于所述文件类型对所述候选子诉讼文件进行内容统一性校验时,具体用于:
判断所述候选子诉讼文件中各页面的文件类型是否一致;
若一致,确定所述候选子诉讼文件通过内容统一性校验;
若不一致,确定所述候选子诉讼文件未通过内容统一性校验。
14.根据权利要求11所述装置,其特征在于,所述输出层还用于:
将未校验通过的候选子诉讼文件输出,并输出未校验通过的提醒。
15.根据权利要求11所述装置,其特征在于,所述页面排序层具体用于:
从所述目标子诉讼文件中提取出包括所有页面组合结果的若干页面组合,每个页面组合中包括所述目标子诉讼文件中的任意两个页面;
针对每个页面组合,基于所述页面组合中各页面对应的融合特征,确定所述页面组合中的两个页面是否相邻;
基于相邻的页面组合确定目标子诉讼文件中各页面的排列位置,并基于所述排列位置输出重新排序后的目标子诉讼文件。
16.根据权利要求11所述装置,其特征在于,
所述布局特征包括以下一种或多种:标题特征、段落分布特征、标点符号特征、署名特征;
所述语义连贯性特征包括以下一种或多种:页面末尾文本的实体特征、页面开头文本的实体特征、页面末尾文本的内容相关性特征、页面开头文本的内容相关性特征、页面末尾文本的语法连贯性特征、页面开头文本的语法连贯性特征。
17.根据权利要求12所述装置,其特征在于,所述整理单元具体用于:
提取出各目标子诉讼文件的案件特征;
基于所述案件特征确定各目标子诉讼文件所属的案件,并将相同案件的目标子诉讼文件进行归类。
18.根据权利要求17所述装置,其特征在于,所述整理单元具体用于:
基于案件特征为每个案件建立对应的一级文件夹;
在所述一级文件夹中建立二级文件夹,所述二级文件夹与所述文件类型对应;
将每个目标子诉讼文件归入其所属的二级文件夹。
19.根据权利要求18所述装置,其特征在于,所述案件特征包括以下一种或多种:
原告身份信息、被告身份信息、代理人身份信息、案由信息、案件名称。
20.根据权利要求11所述装置,其特征在于,所述分隔页为首页,所述识别层具体用于:
根据页面的标题特征从所述待整理的诉讼文件中识别出若干首页。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
22.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-10任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385045.5A CN112785464B (zh) | 2021-04-09 | 2021-04-09 | 一种诉讼文件的整理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385045.5A CN112785464B (zh) | 2021-04-09 | 2021-04-09 | 一种诉讼文件的整理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785464A CN112785464A (zh) | 2021-05-11 |
CN112785464B true CN112785464B (zh) | 2021-07-20 |
Family
ID=75762859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110385045.5A Active CN112785464B (zh) | 2021-04-09 | 2021-04-09 | 一种诉讼文件的整理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785464B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760554A (zh) * | 2016-03-31 | 2016-07-13 | 华律网络科技(武汉)有限公司 | 一种用于法律诉讼电子文件的自动化归档系统及归档方法 |
US9436558B1 (en) * | 2010-12-21 | 2016-09-06 | Acronis International Gmbh | System and method for fast backup and restoring using sorted hashes |
CN107908745A (zh) * | 2017-11-16 | 2018-04-13 | 理光图像技术(上海)有限公司 | 批量文档扫描整理装置、方法、介质及设备 |
CN109522405A (zh) * | 2018-09-29 | 2019-03-26 | 南昌与德软件技术有限公司 | 文件信息处理方法、电子设备以及计算机可读存介质 |
CN110737630A (zh) * | 2019-09-04 | 2020-01-31 | 平安科技(深圳)有限公司 | 电子归档文件的处理方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7561310B2 (en) * | 2003-12-17 | 2009-07-14 | Market Hatch Co., Inc. | Method and apparatus for digital scanning and archiving |
CA2673554C (en) * | 2009-07-21 | 2017-01-03 | Ibm Canada Limited - Ibm Canada Limitee | Web distributed storage system |
CN111666369B (zh) * | 2020-05-22 | 2022-07-12 | 安徽省交通控股集团有限公司 | 一种基于桥梁的三维模型构件索引文档的方法 |
-
2021
- 2021-04-09 CN CN202110385045.5A patent/CN112785464B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9436558B1 (en) * | 2010-12-21 | 2016-09-06 | Acronis International Gmbh | System and method for fast backup and restoring using sorted hashes |
CN105760554A (zh) * | 2016-03-31 | 2016-07-13 | 华律网络科技(武汉)有限公司 | 一种用于法律诉讼电子文件的自动化归档系统及归档方法 |
CN107908745A (zh) * | 2017-11-16 | 2018-04-13 | 理光图像技术(上海)有限公司 | 批量文档扫描整理装置、方法、介质及设备 |
CN109522405A (zh) * | 2018-09-29 | 2019-03-26 | 南昌与德软件技术有限公司 | 文件信息处理方法、电子设备以及计算机可读存介质 |
CN110737630A (zh) * | 2019-09-04 | 2020-01-31 | 平安科技(深圳)有限公司 | 电子归档文件的处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Zero Downtime Archiving Model for financial applications;Mücahit Gündebahar et al;《2013 The International Conference on Technological Advances in Electrical, Electronics and Computer Engineering (TAEECE)》;20130715;全文 * |
基于云计算的多类型电子档案数字化管理系统客户端设计与实现;赵宁;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20170615;第2017年卷(第6期);全文 * |
电子文件管理系统的设计与实现;方宏;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20170315;第2017年卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112785464A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109791569B (zh) | 因果关系识别装置及存储介质 | |
CA2661902C (en) | Automated classification of document pages | |
US20070230787A1 (en) | Method for automated processing of hard copy text documents | |
CN108509482A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
US9025890B2 (en) | Information classification device, information classification method, and information classification program | |
CN108446295B (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
CN104142822A (zh) | 使用信息检索进行源代码流分析 | |
CN106649557B (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN115062148B (zh) | 一种基于数据库的风险控制方法 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN110837590A (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
WO2011018867A1 (ja) | 情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体 | |
CN111680152A (zh) | 目标文本的摘要提取方法及装置、电子设备、存储介质 | |
US20170053027A1 (en) | Determining an Optimized Summarizer Architecture for a Selected Task | |
CN107330076A (zh) | 一种网络舆情信息展示系统及方法 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN104462279B (zh) | 分析对象特征信息的获取方法和装置 | |
CN112785464B (zh) | 一种诉讼文件的整理方法和装置 | |
JP3598711B2 (ja) | 文書ファイリング装置 | |
Déjean et al. | On tables of contents and how to recognize them | |
US20220138259A1 (en) | Automated document intake system | |
CN115422125A (zh) | 一种基于智能算法的电子文档自动归档方法与系统 | |
CN114169331A (zh) | 地址解析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |