CN112632948B - 案件文书排序方法及相关设备 - Google Patents

案件文书排序方法及相关设备 Download PDF

Info

Publication number
CN112632948B
CN112632948B CN202011596611.9A CN202011596611A CN112632948B CN 112632948 B CN112632948 B CN 112632948B CN 202011596611 A CN202011596611 A CN 202011596611A CN 112632948 B CN112632948 B CN 112632948B
Authority
CN
China
Prior art keywords
document
page
type
sorting
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011596611.9A
Other languages
English (en)
Other versions
CN112632948A (zh
Inventor
朵思惟
余梓飞
张艳丽
王斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huizhi Xingyuan Information Technology Co ltd
Original Assignee
Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Huizhi Xingyuan Information Technology Co ltd filed Critical Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority to CN202011596611.9A priority Critical patent/CN112632948B/zh
Publication of CN112632948A publication Critical patent/CN112632948A/zh
Application granted granted Critical
Publication of CN112632948B publication Critical patent/CN112632948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种案件文书排序方法及相关设备,基于现有案件文书信息定义文书页的结尾类型和开头类型;基于结尾和开头类型生成排序分类模板并构建相应排序算法;通过文本检测模型对所述文书页进行首页识别得到文书首页;将经过分类的所述文书页采用排序算法迭代计算得到包含文书首页的至少一种文书排序序列。本发明基于深度学习的OCR识别、自然语言处理等相关技术,并结合人工校验建立了一套司法案件文书的排序方法。该排序方法通过构建文书页首尾分类体系,针对不同类别应用不同算法,实现了乱序文书的自动排序,可减少文书编制人员的工作量,提升工作效率和准确度。

Description

案件文书排序方法及相关设备
技术领域
本说明书一个或多个实施例涉及文本处理技术领域,尤其涉及一种案件文书排序方法及相关设备。
背景技术
随着人工智能在法律领域的应用,电子卷宗已经成为了司法领域智慧化建设的前提和基础。建立高质量、可视化、精细化的电子卷宗也是未来电子卷宗深度应用的前提。以往,电子卷宗编目需要编目人员从纸质案件文书中手动提取文件名称,对文书进行分类、排序等操作。这种排序方式费时费力,并且很有可能造成案件文书页顺序被打乱,最终以乱序状态存放的情况。电子卷宗智能编目系统可以将上述过程交给机器自动处理。案件文书利用扫描仪生成图像后,通过图文识别、自然语言处理等人工智能技术,使电子卷宗智能编目系统能够在后台自动将电子文件区分成一份一份独立的文书,并提取出其标题和重要信息等,进而生成结构化的文档。对于同一份文书,还需要对多页文书进行顺序检查,对于打乱顺序的文书页需要进行重排。文书排序系统作为电子卷宗智能编目的一部分起着至关重要的作用。
目前,司法案件文书种类繁多且新类型诉讼材料不断出现,由于人工智能领域可用于文书自动排序的相关技术发展具有局限性,现有的智能编目系统在文书自动排序方面的效果并不理想,自动排序的准确率不可能达到100%。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种案件文书排序方法及相关设备,以解决案件文书排序耗时耗力且易出错的问题。
基于上述目的,本说明书一个或多个实施例提供了一种案件文书排序方法,包括:
基于现有案件文书信息定义文书页的结尾类型和开头类型;
基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类模板构建相应排序算法;
通过文本检测模型对所述文书页进行首页识别得到文书首页;
基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
进一步的,所述结尾类型包括标题、整段、段中整句和句子前半句。
进一步的,所述开头类型包括标题、整段、段中整句和句子后半句。
进一步的,所述基于现有案件文书信息定义文书页的结尾类型和开头类型,还包括通过光学字符识别OCR识别软件对所述文书页进行标题编号抽取。
进一步的,所述基于所述结尾类型和所述开头类型生成排序分类模板,包括首先确定所述结尾类型,根据结尾类型排除不可能与之相连的所述开头类型,保留能够与之相连的所述开头类型,将所述结尾类型与能够与之相连的所述开头类型进行匹配形成分类模板。
进一步的,所述通过文本检测模型对所述文书页进行首页识别得到文书首页,包括所述文本检测模型为端到端的文本检测模型EAST。
进一步的,所述基于所述结尾类型和所述开头类型对所述文书页进行分类,包括通过OCR识别软件对所述文书页的首尾进行分类。
基于同一发明构思,本说明书一个或多个实施例提供了一种案件文书排序装置,包括:
文书检测模块,被配置为基于现有案件文书信息定义文书页的结尾类型和开头类型;
模板构建模块,被配置为基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类构建相应排序算法;
文书首页识别模块,被配置为通过文本检测模型对所述文书页进行首页识别得到文书首页;
文书序列生成模块,被配置为基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
基于同一发明构思,本说明书一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的方法。
基于同一发明构思,本说明书一个或多个实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时,使所述计算机实现如上任意一项所述的方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种案件文书排序方法及相关设备,以海量电子档案数据为基础,基于深度学习的OCR识别、自然语言处理等相关技术,并结合人工检测构建了一套司法案件文书的自动排序方法。该排序方法通过构建的文书页首尾分类体系,针对不同类别分类体系应用不同算法,实现了乱序文书的自动排序,可减轻文书编制人员的工作量,提升工作效率和准确度。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的案件文书排序方法的流程示意图;
图2为本说明书一个或多个实施例的排序分类模板示意图;
图3为本说明书一个或多个实施例的排序算法(a)和排序算法(b)的流程示意图;
图4为本说明书一个或多个实施例的排序算法(c)和排序算法(d)的流程示意图;
图5为本说明书一个或多个实施例的案件文书排序操作的流程示意图;
图6为本说明书一个或多个实施例的案件文书排序装置模块结构示意图;
图7为本说明书一个或多个实施例的电子设备硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术部分所述,文书排序系统作为电子卷宗智能编目的一部分起着至关重要的作用,基于正确顺序的文书,我们可以进行进一步的关键信息抽取,非结构化文书结构化等更深层次的文书信息挖掘,从而为法官或其他阅卷人提供一份清晰明了的案件信息材料。
申请人在实现本公开的过程中发现,由于人工智能领域的相关技术发展的局限性,现有的文书排序系统对乱序文书排序的准确率较低,因而编目人员需要耗费大量时间和精力对文书排序结果进行二次校对。这种排序方式费时费力、准确度差且工作效率低。
为解决上述问题,本公开提出了一种案件文书排序方法及相关设备,以下,通过具体的实施例进一步详细说明本公开的技术方案。
参考图1,本公开的一个实施例的案件文书排序方法,包括以下步骤:
步骤S101、基于现有案件文书信息定义文书页的结尾类型和开头类型。
司法案件文书可分为结构化、半结构化和非结构化的文本,本实施例主要针对半结构化和非结构化文本的乱序文书进行页码重排。本步骤首先对一定量的司法文书进行检测,根据检测结果提取出文书页开头和结尾的类别,以及含有父标题、子标题的半结构化文书中标题编号等结构化信息。
作为一可选的实施例,对于半结构化或非结构化的文书页,其结尾类型可能包括标题、整段、段中整句、句子前半句这四种类型;其开头类型可能包括标题、整段、段中整句、句子后半句这四种类型。
作为一可选的实施例,半结构化的文书一般具有父标题、子标题之类的标题结构,对于此类文书页,通过对所有的文书页进行OCR(Optical Character Recognition)识别,得到相应的标题编号,为后续文书排序提供辅助的结构化信息。
步骤S102、基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类模板构建相应排序算法。
具体的,本实施例主要基于文书开头和结尾的类别构建排序分类模板,为后续针对不同类别选取合适的算法做准备。首先确定结尾的类型,根据该类型剔除绝对不可能与其相连的开头类型,例如结尾如果是一句话的前半句,那么下页开头不可能是标题或者整段。对于保留的类型,建立如图2所示的文书首尾页匹配排序分类模板:
(1)对于结尾是标题的类型,下页文书页的开头类型可能是标题或整段;
(2)对于结尾是整段的类型,下页文书页的开头类型可能是标题或整段;
(3)对于结尾是段中整句的类型,下页文书页的开头类型只能是段中整句;(4)对于结尾是句子前半句的类型,下页文书页的开头类型只能是句子后半句。
具体的排序算法将依据上述4种排序分类进行构建。
步骤S103、通过文本检测模型对所述文书页进行首页识别得到文书首页。
作为一可选实施例,通过基于深度学习的OCR文字识别进行文本检测,通过文本的相对位置信息得到字体大小的数据,将最大字所在的文书页识别为首页。对于已经扫描成图像的所有文书页,我们使用端到端的文本检测模型EAST,检测出每个文书页图像中可能包含文字的矩形区域,并得到每个矩形区域在其所对应文书页的位置信息。文本检测模型EAST的检测方式为逐行检测,得到的矩形区域均为行矩形区域。最后通过计算矩形区域的高度,找出高度最大的矩形区域所在的文书页,并判断该文书页为文书首页。
步骤S104、基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
具体的,包括以下几个步骤:
步骤S201、基于所述结尾类型和所述开头类型对所有文书页的开头和结尾进行分类,通过OCR识别软件对文书页的开头和结尾进行识别,判断开头和结尾分别属于标题类、整段类、段中整句类、半句类中的哪一类,将经过分类的文书页组合为具有开头和结尾类别标签的文书页集合。
步骤S202、选取所述文书页集合中的任一元素作为当前文书页,文书页集合中的剩余任一元素作为下页文书页,基于排序分类模板的分类方式确定当前文书页的结尾类型与下页文书页的开头类型属于哪种分类模式并确定相应的排序算法,根据计算得出当前文书页与下页文书页的相关度,从而确定出当前文书页的下页文书候选集。具体的,排序算法分为以下几类,
(a)当前文书页的结尾类型为标题类,下页文书页的开头类型为整段类时,参考图3:
由于该段落紧跟标题,通常为标题的具体描述,和标题为同一主题,因此我们的主要思路是通过判断该段落与上页标题相关性,进而判定该段落所在文书页是否为标题所在页的下一页。该相关性判定问题可以被抽象成对于段落相关性的二分类问题(相关或不相关),最终只保留被判定为相关的段落所在文书页作为下页文书候选集的元素。
我们使用基于深度学习的预训练模型Bert对上页标题和下页段落进行编码。由于输入Bert模型文本长度不能超过512,因此在实际建模的过程中,基于Bert对文本长度的限定,我们将选出的文书页分为短段落类型和长段落类型,并针对这两种类型分别构建不同的模型。
对于短段落类型,我们直接将标题和段落进行拼接,组成一个文本序列,然后将此序列输入Bert预训练模型,得到该文本序列对应的向量表示v,并将该向量输入到一个二分类分类器中,得到对于两种不同可能性(相关和不相关)的得分向量S=C·v,该向量的维数为2x1,最后将该向量输入Softmax层得到不同可能性的概率向量:
p=Soffmax(s)
向量p的维数为2x1,p=[p,1-p]T,其中分量p表示段落与标题相关的概率,分量1-p表示不相关的概率,如果p>1-p则可以判断该段落与上一页标题相关。模型的训练是通过极小化如下交叉熵损失函数:
L=-y log p-(1-y)log(1-p)
完成的,其中y代表该段落的真实标签,如果相关则y=1,反之y=0。
对于长段落类型,首先将长段落拆分成单句的序列,将上一页标题和段落中一个给定的句子i直接拼接形成文本序列,类似于上文中对于短段落的处理方式,将其输入Bert预训练模型,得到对于该文本序列的向量表示,将该向量输入到一个二分类器和Softmax层,得到对于“相关”和“不相关”概率向量pi。最终,通过对所有句子相关性概率向量的加权求和,得到该段落对于上页标题的相关性概率:
Figure BDA0002870410190000071
其中权重参数wi可以在训练模型的时候学习得到,p=[p,1-p]T,其中分量p表示段落与标题相关的概率,分量1-p表示不相关的概率。模型的训练是通过极小化如下损失函数:
L=-y log p-(1-y)log(1-p)
完成的,其中y代表该段落的真实标签,如果相关则y=1,反之y=0。
(b)当前文书页的结尾类型为标题类,下页文书页的开头类型为标题类时,参考图3:
如果下页文书页的开头也为标题,那么就相当于是“标题+标题”的模式,这种模式的存在有几种可能性:“父标题+子标题”(如:‘(二)’接‘1’),“同级标题+同级标题”(如:‘1’接‘2’)。下面我们只需要判断标题模式是否属于这两种连接模式即可。首先判断该标题和上页结尾的标题的层级关系:同级标题、下一级子标题或其他(如上一级父标题等)。这一步可以根据标题标号直接判定。如果属于“其他”类别,则直接删除该标题所在页,如果是下一级子标题,那么判断其编号是否为1,如果不是则直接删除,如果是则直接将该页作为候选集元素。事实上,对于标题标签为1的文书页,逻辑上还需要根据内容进行语义推断,进一步判定其和上文标签是否具有继承关系,但由于在实际问题中,已经满足上述标题编号规则的文书页大多数情况下都是真实的下一页,我们在此不做进一步的语义推断进行验证,直接将其保留进候选集。如果是同级标签,那么首先需要判断其编号是否是上页标题编号加1。如果是,那么就直接把这个标题所在的页作为下一页备选集的一个元素。综合(a)(b)所有相关的文书页作为下页文书候选集的元素。
(c)当前文书页的结尾类型为整段类,下页文书页的开头类型为标题类时,参考图4:
首先提取标题的编号,根据编号是否是1,分为两种情况讨论:
(1)如果编号是1,由于上页结尾是段落性描述,因此该标题一般为段落描述内容的子标题,语义上和上页的段落具有继承关系,标题内容属于上页段落描述的一部分。这里我们同样通过计算标题和整段文字相关性的方式判定该标题是否应该紧跟上页段落描述。具体算法的构造可以完全参照(a)中对开头是整段类型的处理,最后保留相关的标题所在页作为下页文书候选集的元素。
(2)如果编号非1,则根据上一页是否有同级编号划分为两类。如果上一页有同级编号,则判断该编号是否较下页开头标题编号减1,如果是则保留该页作为候选集元素,反之则删除该页。如果上一页没有同级编号,则进一步判断上页是否有上一级编号。如果有上一级编号,则删除该页,因为根据编号规则,上一级编号不能直接衔接大于1的下一级编号。如果上页为无编号的纯文本内容,则直接保留该页作为候选集元素。
(d)当前文书页的结尾类型为整段类,下页文书页的开头类型为整段类时,参考图4:
首先选出开头为整段的所有文书页,由于是两个相连的段落,一般情况下具有相关性,因此我们的思路是对上页结尾整段内容和下页开头整段内容进行相关性判断,如果相关那么就保留该段所在的文书页作为下页候选集的元素。具体分为两步:段落的语义向量表示、两段内容的相关性判定。
段落的语义向量表示:对于一个给定的段落,首先将其视为一个由L个句子组成的句子序列。将句子i输入Sentence Bert多语言预训练模型中,得到句子i的向量表示si和该段落对应的向量序列表示:
[s1,s2,...,sL]
将[s1,s2,...,sL]输入Bi-RNN模型,通过进一步学习句子之间的关系得到该句子序列更好的表示:
[h1,h2,...,hL]
为了计算不同句子的权重系数,我们进一步添加全连接层Full(·)和非线性激活函数tanh(·),得到向量序列:
[u1,u2,...,uL]
其中,ui=tanh(Full(hi))。该段落最终的向量表示d可由句子序列中每个句子向量表示的加权平均得到:
Figure BDA0002870410190000091
以上算法给出了任意一个段落的向量表示。应用该算法我们可以分别得到上页结尾段和下页开头段的向量表示,记作dthis,dnext
两段内容的相关性判定:将这两个向量和其点差的绝对值进行直接拼接,得到如下的长向量:
(dthis,dnext,|dthis-dnext|)
将其乘上一个权重矩阵W∈R2×3n后输入Sofimax层可得:
p=Soffmax(W(dthis,dnext,|dthis-dnext|))
其中p=[p,1-p],,如果p>1-p则表示两段相关。最后选取相关段落所在页为候选集的元素。综合(c)(d)所有相关页作为下页文书候选集的元素。
(e)当前文书页的结尾类型为段中整句类,下页文书页的开头类型为段中整句类时:
对于该类型我们直接采用Bert预训练模型的下一句预测函数直接判断开头句子是否为上页结尾句的下一句。下句预测问题可以被视为一个二分类问题,两个类别分别为“是下一句”和“不是下一句”。具体地,首先将两句话拼接成一个文本序列,输入Bert预训练模型进行编码,得到这个句对的向量表示。将得到的向量输入一个二分类器,分类器中新增加的参数都来源于分类的权重矩阵C∈R2×H,其中H为向量的长度,‘2’代表有两个类别。将得分向量输入Softmax层,最终得到概率向量:
p=Soffmax(C·v)
其中,p=[p,1-p]T,分量p表示“是下一句”的概率,如果p>1-p,则判断该句为给定句子的下一句。将“是下一句”的句子所在文书页作为当前文书页的候选集元素。在实际应用中,还可能会出现如下情况:两个句子虽相连,但下一句开启了另一个话题。此种情况应用“下一句预测”的模型可能效果不佳,针对此种情况还可以通过判断两句是否属于同一段落来实现。
(f)当前文书页的结尾类型为句子前半句类,下页文书页的开头类型为句子后半句类时:
从剩余文书页中只选取开头部分属于句子后半句的类型,将选取的后半句集合和前一页中给定的前半句组成整句,并对该整句输入Bert预训练模型,得到这个句子的向量表示。完全类似于排序算法(e)的情况,这里我们同样将问题视为一个二分类问题,只不过类别变为了“通顺”和“不通顺”。后续算法步骤同(e)中算法相同,这里不做赘述。最后选取“通顺”句子对应的文书页作为候选集的元素。
步骤S203、综合经过上述分类算法(a)至(f)中得到的所有相关文书页组成下页文书候选集,将当前文书页更新为所述下页文书候选集中的任一元素,通过步骤S202里的分类算法进行迭代,直到得到最后一页文书页,最后输出包括文书首页在内的至少一种文书排序序列。
作为一可选的实施例,参考图5,本实施例中案件文书共5页,选取第①页作为当前文书页,通过分类算法计算后得到下页文书候选集包括第②页和第③页,分别将第②页和第③页更新为当前文书页,继续进行分类算法计算,第②页的下页文书候选集只包括第③页,将第③页更新为当前文书页后得到候选集为第④页和第⑤页,基于案件文书总页数为5页,过滤掉排序少于5页的排序序列,最终得到两种排序序列,分别为①-②-③-④-⑤和①-③-④-⑤-②,从而完成对案件文书的排序。
步骤S204、对步骤S203中得到的至少一种文书排序序列进行人工校验。电子卷宗智能编目系统中的文书自动排序部分,是以实际电子档案海量数据为基础,使用深度学习算法训练而成。但受人工智能技术的局限性、新类型司法案件材料不断出现以及案件材料本身可识别性等因素影响,自动排序的准确率不可能达到100%。因此,本方法采用“人工智能深度学习+人工校验”的方式,通过人工校验的方式,排除不合理的排序方法,确保文书排序的准确率。例如在图5中,经过人工校验,最后排序方法①-③-④-⑤-②会被剔除,最终得到正确的排序①-②-③-④-⑤。
在后续的算法优化过程中,人工校验的结果会自动反馈到深度学习框架中。系统基于校验修正结果,进行自动学习,实现自我优化,从而达到持续提升文书排序准确率的最终效果。
以上,基于步骤S101至步骤S104完成对案件文书的排序,输出正确的排序序列。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种案件文书排序装置。
参考图6,所述一种案件文书排序装置,包括:
文书检测模块601,被配置为基于现有案件文书信息定义文书页的结尾类型和开头类型;
模板构建模块602,被配置为基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类构建相应排序算法;
文书首页识别模块603,被配置为通过文本检测模型对所述文书页进行首页识别得到文书首页;
文书序列生成模块604,被配置为基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
作为一可选的实施例,所述文书检测模块601具体被配置为所述结尾类型包括标题、整段、段中整句和句子前半句;所述开头类型包括标题、整段、段中整句和句子后半句。
作为一可选的实施例,所述所述文书检测模块601具体被配置为,还包括通过光学字符识别OCR识别软件对所述文书页进行标题编号抽取。
作为一可选的实施例,所述模板构建模块602具体被配置为首先确定所述结尾类型,根据结尾类型排除不可能与之相连的所述开头类型,保留能够与之相连的所述开头类型,将所述结尾类型与能够与之相连的所述开头类型进行匹配形成分类模板。
作为一可选的实施例,所述文书序列生成模块604具体被配置为所述基于所述结尾类型和所述开头类型对所述文书页进行分类,包括通过OCR识别软件对所述文书页的首尾进行分类。
作为一可选的实施例,所述文书序列生成模块604具体被配置所述输出包含有所述文书首页的至少一种文书排序序列,还包括对所述文书排序序列进行人工校验,以去除不合理的所述文书排序序列。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的案件文书排序方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的案件文书排序方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种案件文书排序方法,其特征在于,包括:
基于现有案件文书信息定义文书页的结尾类型和开头类型,所述结尾类型包括标题、整段、段中整句和句子前半句,所述开头类型包括标题、整段、段中整句和句子后半句;
基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类模板构建相应排序算法;
通过文本检测模型对所述文书页进行首页识别得到文书首页;
基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
2.根据权利要求1所述的方法,其特征在于,所述基于现有案件文书信息定义文书页的结尾类型和开头类型,还包括通过光学字符识别OCR识别软件对所述文书页进行标题编号抽取。
3.根据权利要求1所述的方法,其特征在于,所述基于所述结尾类型和所述开头类型生成排序分类模板,包括首先确定所述结尾类型,根据结尾类型排除不可能与之相连的所述开头类型,保留能够与之相连的所述开头类型,将所述结尾类型与能够与之相连的所述开头类型进行匹配形成分类模板。
4.根据权利要求1所述的方法,其特征在于,所述通过文本检测模型对所述文书页进行首页识别得到文书首页,包括所述文本检测模型为端到端的文本检测模型EAST。
5.根据权利要求1所述的方法,其特征在于,所述基于所述结尾类型和所述开头类型对所述文书页进行分类,包括通过OCR识别软件对所述文书页的首尾进行分类。
6.一种案件文书排序装置,其特征在于,包括:
文书检测模块,被配置为基于现有案件文书信息定义文书页的结尾类型和开头类型,所述结尾类型包括标题、整段、段中整句和句子前半句,所述开头类型包括标题、整段、段中整句和句子后半句;
模板构建模块,被配置为基于所述结尾类型和所述开头类型生成排序分类模板,并根据排序分类构建相应排序算法;
文书首页识别模块,被配置为通过文本检测模型对所述文书页进行首页识别得到文书首页;
文书序列生成模块,被配置为基于所述结尾类型和所述开头类型对所述文书页进行分类,将经过分类的所述文书页组成文书页集合,选取所述文书页集合中的任一元素作为当前文书页,基于所述排序分类模板确定所述当前文书页和所述文书页集合中的任一剩余文书页对应的排序算法并计算相关度,将相关度较高的所述剩余文书页作为所述当前文书页的下页文书候选集,将所述下页文书候选集中的任一元素作为新的当前文书页并依照相关排序算法进行迭代计算,直至得到最后一页文书页则迭代结束,输出包含有所述文书首页的至少一种文书排序序列。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5任意一项所述的方法。
CN202011596611.9A 2020-12-29 2020-12-29 案件文书排序方法及相关设备 Active CN112632948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011596611.9A CN112632948B (zh) 2020-12-29 2020-12-29 案件文书排序方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011596611.9A CN112632948B (zh) 2020-12-29 2020-12-29 案件文书排序方法及相关设备

Publications (2)

Publication Number Publication Date
CN112632948A CN112632948A (zh) 2021-04-09
CN112632948B true CN112632948B (zh) 2023-01-10

Family

ID=75286326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011596611.9A Active CN112632948B (zh) 2020-12-29 2020-12-29 案件文书排序方法及相关设备

Country Status (1)

Country Link
CN (1) CN112632948B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990142B (zh) * 2021-04-30 2021-08-10 平安科技(深圳)有限公司 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN117275649B (zh) * 2023-11-22 2024-01-30 浙江太美医疗科技股份有限公司 文档病历图片的排序方法和装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN111428485A (zh) * 2020-04-22 2020-07-17 深圳市华云中盛科技股份有限公司 司法文书段落分类方法、装置、计算机设备及存储介质
CN111460272A (zh) * 2019-01-22 2020-07-28 北京国双科技有限公司 一种文本页面的排序方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858036B (zh) * 2019-02-26 2023-07-28 科大讯飞股份有限公司 一种文书划分方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN111460272A (zh) * 2019-01-22 2020-07-28 北京国双科技有限公司 一种文本页面的排序方法及相关设备
CN111428485A (zh) * 2020-04-22 2020-07-17 深圳市华云中盛科技股份有限公司 司法文书段落分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112632948A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
US11003862B2 (en) Classifying structural features of a digital document by feature type using machine learning
US10915701B2 (en) Caption association techniques
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN113469067B (zh) 一种文档解析方法、装置、计算机设备和存储介质
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112632948B (zh) 案件文书排序方法及相关设备
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN116150404A (zh) 一种基于联合学习的教育资源多模态知识图谱构建方法
CN111581964A (zh) 一种汉语古籍的主题分析方法
CN114691525A (zh) 测试用例的选择方法及装置
Gelman et al. A language-agnostic model for semantic source code labeling
CN116795789B (zh) 自动生成专利检索报告的方法及装置
CN112632223A (zh) 案事件知识图谱构建方法及相关设备
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN117077679A (zh) 命名实体识别方法和装置
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
US11763088B2 (en) Technical document issues scanner
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant