CN110188328B - 卷宗结构化处理方法和装置 - Google Patents

卷宗结构化处理方法和装置 Download PDF

Info

Publication number
CN110188328B
CN110188328B CN201910480474.3A CN201910480474A CN110188328B CN 110188328 B CN110188328 B CN 110188328B CN 201910480474 A CN201910480474 A CN 201910480474A CN 110188328 B CN110188328 B CN 110188328B
Authority
CN
China
Prior art keywords
point information
element point
electronic file
formatted
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910480474.3A
Other languages
English (en)
Other versions
CN110188328A (zh
Inventor
麦天骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LEDICT TECHNOLOGY CO LTD
Original Assignee
BEIJING LEDICT TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LEDICT TECHNOLOGY CO LTD filed Critical BEIJING LEDICT TECHNOLOGY CO LTD
Priority to CN201910480474.3A priority Critical patent/CN110188328B/zh
Publication of CN110188328A publication Critical patent/CN110188328A/zh
Application granted granted Critical
Publication of CN110188328B publication Critical patent/CN110188328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Abstract

本发明公开了一种卷宗结构化处理方法和装置。其中,该方法包括:将待处理纸质卷宗转化为电子卷宗;根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;将要素点信息按照预设结构化模板进行组合,形成结构化文本。本发明解决了现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的技术问题。

Description

卷宗结构化处理方法和装置
技术领域
本发明涉及法律文本处理领域,具体而言,涉及一种卷宗结构化处理方法和装置。
背景技术
随着智慧法院信息化建设步伐的推进,各级法院在组织、管理和建设趋于信息化是,而卷宗电子化、信息结构化也势必成为法院信息化建设的必要环节。目前将卷宗进行结构化处理的方法主要是:由用户参考纸质卷宗文本,输入卷宗文本中的要素点信息,然后在后台形成结构化文本,采用该方法达不到最高法院提出的信息化目的,需要耗费大量的人力成本和时间成本,并且人工输入会经常发生错误。
针对上述现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种卷宗结构化处理方法和装置,以至少解决现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种卷宗结构化处理方法,包括:将待处理纸质卷宗转化为电子卷宗;根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;将要素点信息按照预设结构化模板进行组合,形成结构化文本。
根据本发明实施例的另一方面,还提供了一种卷宗结构化处理装置,包括:电子化模块,用于将待处理纸质卷宗转化为电子卷宗;格式化模块,用于根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;段落划分模块,用于对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;要素提取模块,用于从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;组合模块,用于将要素点信息按照预设结构化模板进行组合,形成结构化文本。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述卷宗结构化处理方法。
根据本发明实施例的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述卷宗结构化处理方法。
在本发明实施例中,通过将待处理纸质卷宗转化为电子卷宗;根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;将要素点信息按照预设结构化模板进行组合,形成结构化文本,达到了不需要用户参与即可快速形成结构化文本的目的,为生成各类判决书提供信息化的数据基础,从而实现了节约人力成本和时间成本,提高准确率的技术效果,进而解决了现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种卷宗结构化处理方法的示意图;
图2是根据本发明实施例的一种卷宗结构化处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种卷宗结构化处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的卷宗结构化处理方法,如图1所示,该方法包括如下步骤:
步骤S102,将待处理纸质卷宗转化为电子卷宗;
步骤S104,根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;
步骤S106,对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;
步骤S108,从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;
步骤S110,将要素点信息按照预设结构化模板进行组合,形成结构化文本。
具体的,步骤S102中将待处理纸质卷宗转化为电子卷宗时,可以采用打印机扫描的方式将待处理纸质卷宗转化为电子卷宗;步骤S104中根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗时,可以实现对电子卷宗的初步格式化处理,将不规范的数据转换为有格式的数据;步骤S106中得到的业务逻辑段划分结果,可以是多个业务逻辑段,其中每个业务逻辑段可以包括多个自然段;其中每个业务逻辑段中可以包括多个要素点信息,或者包括该业务逻辑段特有的要素点信息;在步骤S108中提取到所有业务逻辑段的要素点信息后,即可执行步骤S110,将所有的要素点信息进行组合。
在本发明实施例中,通过将待处理纸质卷宗转化为电子卷宗;根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;将要素点信息按照预设结构化模板进行组合,形成结构化文本,达到了不需要用户参与即可快速形成结构化文本的目的,为生成各类判决书提供信息化的数据基础,从而实现了节约人力成本和时间成本,提高准确率的技术效果,进而解决了现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的技术问题。
在一种可选的实施例中,在步骤S110形成结构化文本后,还包括把结构化文本存储入数据库中,在后续可以根据业务需求,由其他系统从数据库中获取,或者由数据库推送给其他系统。
在一种可选的实施例中,步骤S104中根据预设文书格式化规则对电子卷宗的内容进行格式化处理之前,还包括如下步骤:步骤S202,根据电子卷宗的内容,匹配电子卷宗所属的案件类型以及匹配电子卷宗在案件类型下的文书类型。
具体的,可以根据电子卷宗的内容匹配电子卷宗的案件类型,例如,可以通过卷宗中包含的案号、公诉书,公诉机关、被告人等一些具有代表性的特征也就是与其他卷宗文书所区别的信息内容,来确定该卷宗的案件类型是否为刑事一审案件,在确定出卷宗的案件类型后,需要进一步确定卷宗属于该案件类型下的哪种文书类型,例如,若案件为刑事一审案件,由于刑事一审下的文书类型包括公诉书、法庭笔录、量刑建议书、刑事附带民事起诉书等,因此需要进一步确定卷宗的文书类型。
通过上述步骤S202,可以实现对卷宗的自动准确归类。
在一种可选的实施例中,步骤S106中对格式化后的电子卷宗进行段落逻辑分析,包括:
步骤S302,根据电子卷宗的案件类型和文书类型确定格式化后的电子卷宗的逻辑段配置规则;
步骤S304,根据逻辑段配置规则对格式化后的电子卷宗进行段落逻辑分析。
具体的,逻辑段配置规则是为了说明卷宗中包括哪些种类或类型的业务逻辑段,针对不同案件类型和文书类型的卷宗,会有不同的逻辑段配置规则,例如,若卷宗的案件类型为刑事一审案件,文书类型为公诉书,则该卷宗对应的逻辑段配置规则为该卷宗的逻辑段需要包括以下种类:首部(XS_IM_Header)、起诉书尾部(XS_IM_Trailer)、公诉证据部分(XS_IM_SuitEvidence)、公诉意见部分(XS_IM_SuitInfo)、公诉事实部分(XS_IM_SuitFact)、附录部分(XS_IM_AdditionRecord)、当事人基本信息部分(XS_IM_SuitParticipant)、案由和案件来源(XS_IM_CaseSourceAndTrialProcess)等。在确定卷宗对应的逻辑段配置规则后,需要从卷宗中匹配出对应逻辑段配置规则中对应的逻辑段类型,按照逻辑段类型对卷宗进行业务逻辑段划分,得到业务逻辑段划分结果。
通过上述步骤S302-S304,可以实现对卷宗逻辑段的自动准确划分。
在一种可选的实施例中,步骤S108中从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息,包括:
步骤S402,根据电子卷宗的案件类型和文书类型确定格式化后的电子卷宗的业务逻辑段中要素点信息配置规则;
步骤S404,根据要素点信息配置规则从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息。
具体的,要素点信息配置规则是为了说明能够从业务逻辑段中提取出哪些种类或类型的要素点信息;不同的业务逻辑段中包含的要素点信息不同,因此根据业务逻辑段类型的不同,能从中提取出的要素点信息是不同的,不同类型的业务逻辑段对应不同的信息点配置规则,例如,若卷宗的案件类型为刑事一审案件,文书类型为公诉书,针对类型为被告人事实的业务逻辑段,其要素点信息配置规则为:可以从中提取出对被告人的情节或者情形的描述的要素点信息,并且该要素点信息也只能从该业务逻辑段中提取出来,不能从其他业务逻辑段中提取出来。
具体的,在提取要素点信息时,可以首先确定要提取哪些信息点要素,然后根据想要提取的信息点要素类型来进行业务逻辑段的匹配,具体可以通过想要提取的要素点信息类型匹配业务逻辑段对应的要素点信息配置规则,如果能够匹配上,则从匹配上的业务逻辑段中获取该要素点信息,如果匹配不上,则可以其他文本内容中进行要素点信息的提取,这里所说的其他文本内容可以是卷宗的全文内容,也可以将其他要素点信息提取后的内容作为一个文本内容进行要素点信息的提取。
通过上述步骤S402-S404,可以保证要素点信息的提取更加有针对性、更加准确。
在一种可选的实施例中,步骤S110中将要素点信息按照预设结构化模板进行组合之前,还包括:步骤S502,根据电子卷宗的案件类型和文书类型确定电子卷宗所属的预设结构化模板。
在一种可选的实施例中,步骤S108中从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息之后,还包括:步骤S602,对要素点信息进行推导,得到与要素点信息相关联的关联要素点信息;步骤S110中将要素点信息按照预设结构化模板进行组合还包括:步骤S702,将要素点信息和关联要素点信息按照预设结构化模板进行组合。
具体的,步骤S108中得到的要素点信息进行组合之后,可能只能填充部分结构化文本的内容,剩余的一部分内容需要对要素点信息进行挖掘、逻辑处理或者分析得到,例如,结构化文本中有出生日期、性别的填充项,但是从电子卷宗中并不能直接获取到该信息,从电子卷宗中可以获取到要素点信息-身份证信息,则可以对该要素点信息进行业务逻辑的推导,得到该要素点信息的关联要素点信息-出生日期、性别信息。
实施例2
根据本发明实施例,提供了一种卷宗结构化处理装置的产品实施例,图2是根据本发明实施例的卷宗结构化处理装置,如图2所示,该装置包括电子化模块、格式化模块、段落划分模块、要素提取模块和组合模块,其中,电子化模块,用于将待处理纸质卷宗转化为电子卷宗;格式化模块,用于根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;段落划分模块,用于对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;要素提取模块,用于从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;组合模块,用于将要素点信息按照预设结构化模板进行组合,形成结构化文本。
在本发明实施例中,通过电子化模块将待处理纸质卷宗转化为电子卷宗;格式化模块根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;段落划分模块对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;要素提取模块从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;组合模块将要素点信息按照预设结构化模板进行组合,形成结构化文本,达到了不需要用户参与即可快速形成结构化文本的目的,为生成各类判决书提供信息化的数据基础,从而实现了节约人力成本和时间成本,提高准确率的技术效果,进而解决了现有技术中采用人工输入卷宗要素点形成结构化文本的方法耗费人力成本、时间成本并且准确率低的技术问题。
此处需要说明的是,上述电子化模块、格式化模块、段落划分模块、要素提取模块和组合模块对应于实施例1中的步骤S102至步骤S110,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,装置还包括匹配模块,用于在格式化模块根据预设文书格式化规则对电子卷宗的内容进行格式化处理之前,根据电子卷宗的内容,匹配电子卷宗所属的案件类型以及匹配电子卷宗在案件类型下的文书类型。
此处需要说明的是,上述匹配模块对应于实施例1中的步骤S202,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,格式化模块包括第一确定模块和第一格式化模块,其中,第一确定模块,用于根据电子卷宗的案件类型和文书类型确定格式化后的电子卷宗的逻辑段配置规则;第一格式化模块,用于根据逻辑段配置规则对格式化后的电子卷宗进行段落逻辑分析。
此处需要说明的是,上述第一确定模块和第一格式化模块对应于实施例1中的步骤S302至步骤S304,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,要素提取模块包括第二确定模块和第一要素提取模块,其中,第二确定模块,用于根据电子卷宗的案件类型和文书类型确定格式化后的电子卷宗的业务逻辑段中要素点信息配置规则;第一要素提取模块,用于根据要素点信息配置规则从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息。
此处需要说明的是,上述第二确定模块和第一要素提取模块对应于实施例1中的步骤S402至步骤S404,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,装置还包括第三确定模块,用于在组合模块将要素点信息按照预设结构化模板进行组合之前,根据电子卷宗的案件类型和文书类型确定电子卷宗所属的预设结构化模板。
此处需要说明的是,上述第三确定模块对应于实施例1中的步骤S502,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,装置还包括推导模块,用于在要素提取模块从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息之后,对要素点信息进行推导,得到与要素点信息相关联的关联要素点信息;组合模块还包括第一组合模块,用于将要素点信息和关联要素点信息按照预设结构化模板进行组合。
此处需要说明的是,上述推导模块和第一组合模块分别对应于实施例1中的步骤S602和步骤S702,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例3
根据本发明实施例,提供了一种存储介质的产品实施例,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述卷宗结构化处理方法。
实施例4
根据本发明实施例,提供了一种处理器的产品实施例,该处理器用于运行程序,其中,程序运行时执行上述卷宗结构化处理方法。
实施例5
根据本发明实施例,提供了一种计算机设备的产品实施例,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述卷宗结构化处理方法。
实施例6
根据本发明实施例,提供了一种终端的产品实施例,该终端电子化模块、格式化模块、段落划分模块、要素提取模块、组合模块和处理器,其中,电子化模块,用于将待处理纸质卷宗转化为电子卷宗;格式化模块,用于根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;段落划分模块,用于对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;要素提取模块,用于从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;组合模块,用于将要素点信息按照预设结构化模板进行组合;处理器,处理器运行程序,其中,程序运行时对于从电子化模块、格式化模块、段落划分模块、要素提取模块和组合模块输出的数据执行上述卷宗结构化处理方法。
实施例7
根据本发明实施例,提供了一种终端的产品实施例,该终端电子化模块、格式化模块、段落划分模块、要素提取模块、组合模块和存储介质,其中,电子化模块,用于将待处理纸质卷宗转化为电子卷宗;格式化模块,用于根据预设文书格式化规则对电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;段落划分模块,用于对格式化后的电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的电子卷宗的业务逻辑段划分结果;要素提取模块,用于从格式化后的电子卷宗的业务逻辑段中分别提取要素点信息;组合模块,用于将要素点信息按照预设结构化模板进行组合;存储介质,用于存储程序,其中,程序在运行时对于从电子化模块、格式化模块、段落划分模块、要素提取模块和组合模块输出的数据执行上述卷宗结构化处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种卷宗结构化处理方法,其特征在于,包括:
将待处理纸质卷宗转化为电子卷宗;
根据预设文书格式化规则对所述电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;
对格式化后的所述电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的所述电子卷宗的业务逻辑段划分结果;
从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息;
将所述要素点信息按照预设结构化模板进行组合,形成结构化文本;
根据预设文书格式化规则对所述电子卷宗的内容进行格式化处理之前,还包括如下步骤:根据所述电子卷宗的内容,匹配所述电子卷宗所属的案件类型以及匹配所述电子卷宗在所述案件类型下的文书类型;
从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息,包括:根据所述电子卷宗的案件类型和文书类型确定格式化后的所述电子卷宗的业务逻辑段中要素点信息配置规则;根据所述要素点信息配置规则从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息;所述要素点信息配置规则用于说明能够从业务逻辑段中提取出哪些种类或类型的要素点信息,不同的业务逻辑段中包含的要素点信息不同,不同类型的业务逻辑段对应不同的信息点配置规则;在提取要素点信息时,首先确定要提取哪些信息点要素,然后根据想要提取的信息点要素类型来进行业务逻辑段的匹配,具体通过想要提取的要素点信息类型匹配业务逻辑段对应的要素点信息配置规则,如果能够匹配上,则从匹配上的业务逻辑段中获取该要素点信息,如果匹配不上,则从其他文本内容中进行要素点信息的提取,所述其他文本内容包括所述电子卷宗的全文内容,或将其他要素点信息提取后的内容。
2.根据权利要求1所述的方法,其特征在于,对格式化后的所述电子卷宗进行段落逻辑分析,包括:
根据所述电子卷宗的案件类型和文书类型确定格式化后的所述电子卷宗的逻辑段配置规则;
根据所述逻辑段配置规则对格式化后的所述电子卷宗进行段落逻辑分析。
3.根据权利要求1所述的方法,其特征在于,将所述要素点信息按照预设结构化模板进行组合之前,还包括:
根据所述电子卷宗的案件类型和文书类型确定所述电子卷宗所属的预设结构化模板。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息之后,所述方法还包括:
对所述要素点信息进行推导,得到与所述要素点信息相关联的关联要素点信息;
所述将所述要素点信息按照预设结构化模板进行组合还包括:
将所述要素点信息和所述关联要素点信息按照预设结构化模板进行组合。
5.一种卷宗结构化处理装置,其特征在于,包括:
电子化模块,用于将待处理纸质卷宗转化为电子卷宗;
格式化模块,用于根据预设文书格式化规则对所述电子卷宗的内容进行格式化处理,得到格式化后的电子卷宗;
段落划分模块,用于对格式化后的所述电子卷宗进行段落逻辑分析,并根据分析结果得到格式化后的所述电子卷宗的业务逻辑段划分结果;
要素提取模块,用于从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息;
组合模块,用于将所述要素点信息按照预设结构化模板进行组合,形成结构化文本;
所述装置还包括:匹配模块,用于在所述格式化模块根据预设文书格式化规则对所述电子卷宗的内容进行格式化处理之前,根据所述电子卷宗的内容,匹配所述电子卷宗所属的案件类型以及匹配所述电子卷宗在所述案件类型下的文书类型;
所述要素提取模块包括第二确定模块和第一要素提取模块,所述第二确定模块,用于根据所述电子卷宗的案件类型和文书类型确定格式化后的所述电子卷宗的业务逻辑段中要素点信息配置规则;所述第一要素提取模块,用于根据所述要素点信息配置规则从格式化后的所述电子卷宗的业务逻辑段中分别提取要素点信息;所述要素点信息配置规则用于说明能够从业务逻辑段中提取出哪些种类或类型的要素点信息,不同的业务逻辑段中包含的要素点信息不同,不同类型的业务逻辑段对应不同的信息点配置规则;在提取要素点信息时,首先确定要提取哪些信息点要素,然后根据想要提取的信息点要素类型来进行业务逻辑段的匹配,具体通过想要提取的要素点信息类型匹配业务逻辑段对应的要素点信息配置规则,如果能够匹配上,则从匹配上的业务逻辑段中获取该要素点信息,如果匹配不上,则从其他文本内容中进行要素点信息的提取,所述其他文本内容包括所述电子卷宗的全文内容,或将其他要素点信息提取后的内容。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的卷宗结构化处理方法。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至4中任意一项所述的卷宗结构化处理方法。
CN201910480474.3A 2019-06-04 2019-06-04 卷宗结构化处理方法和装置 Active CN110188328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910480474.3A CN110188328B (zh) 2019-06-04 2019-06-04 卷宗结构化处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910480474.3A CN110188328B (zh) 2019-06-04 2019-06-04 卷宗结构化处理方法和装置

Publications (2)

Publication Number Publication Date
CN110188328A CN110188328A (zh) 2019-08-30
CN110188328B true CN110188328B (zh) 2023-12-26

Family

ID=67720137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910480474.3A Active CN110188328B (zh) 2019-06-04 2019-06-04 卷宗结构化处理方法和装置

Country Status (1)

Country Link
CN (1) CN110188328B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990177B (zh) * 2021-04-13 2021-09-21 太极计算机股份有限公司 基于电子卷宗文件的分类编目方法、装置及设备
CN113704214A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 电子卷宗文件类型转换方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063752A (zh) * 2013-03-20 2014-09-24 广东万维博通信息技术有限公司 基于业务规则的档案组卷方法
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109427027A (zh) * 2017-08-23 2019-03-05 北京国双科技有限公司 卷宗处理方法、装置、系统、处理器和存储介质
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320494A1 (en) * 2010-06-28 2011-12-29 Martin Fisher Litigation document management linking unstructured documents with business objects
US20140214701A1 (en) * 2013-01-04 2014-07-31 Nick Buzzy System and method for providing legal citations
US11914597B2 (en) * 2017-11-27 2024-02-27 International Business Machines Corporation Natural language processing of unstructured data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063752A (zh) * 2013-03-20 2014-09-24 广东万维博通信息技术有限公司 基于业务规则的档案组卷方法
CN109427027A (zh) * 2017-08-23 2019-03-05 北京国双科技有限公司 卷宗处理方法、装置、系统、处理器和存储介质
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质

Also Published As

Publication number Publication date
CN110188328A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
CN107870927B (zh) 文件评估方法和装置
CN107528867B (zh) 信息推送方法和系统
JP5670787B2 (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
CN110659318A (zh) 基于大数据的策略推送方法、系统及计算机设备
CN110188328B (zh) 卷宗结构化处理方法和装置
CN110765760B (zh) 一种法律案件分配方法、装置、存储介质和服务器
US20140236992A1 (en) Repository content analysis and management
CN107798087A (zh) 数据录入方法、系统、计算机设备及可读存储介质
CN109783781B (zh) 基于图像识别的保单录入方法和相关装置
CN105787028A (zh) 一种名片校对方法及系统
CN112995201B (zh) 一种基于云平台的资源价值评估处理方法和相关装置
CN105930313A (zh) 处理通知信息的方法和装置
CN104281641A (zh) 丰富多媒体内容的方法和对应设备
US9977825B2 (en) Document analysis system, document analysis method, and document analysis program
CN112307318B (zh) 一种内容发布方法、系统及装置
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN111581937A (zh) 文档生成方法、装置、计算机可读介质及电子设备
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
CN115545976A (zh) 跨境商标注册方法、系统、装置及计算机可读存储介质
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN111831683A (zh) 一种基于动态扩展场景匹配的自动化稽核方法和系统
CN104462289A (zh) 直达号关键词的推荐方法和装置
CN112825087A (zh) 用户信息查找方法、装置、计算机设备和存储介质
CN111209733A (zh) 文本记录处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant