CN113254651A - 一种裁判文书的分析方法、装置、计算机设备及存储介质 - Google Patents

一种裁判文书的分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113254651A
CN113254651A CN202110716556.0A CN202110716556A CN113254651A CN 113254651 A CN113254651 A CN 113254651A CN 202110716556 A CN202110716556 A CN 202110716556A CN 113254651 A CN113254651 A CN 113254651A
Authority
CN
China
Prior art keywords
information
analyzed
document
data set
analysis model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110716556.0A
Other languages
English (en)
Other versions
CN113254651B (zh
Inventor
许建峰
孙福辉
陈奇伟
崔甲蓉
王晓燕
李晓慧
李俊慧
卓煜
袁琳
刘明胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Court Information Technology Service Center
Original Assignee
People's Court Information Technology Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Court Information Technology Service Center filed Critical People's Court Information Technology Service Center
Priority to CN202110716556.0A priority Critical patent/CN113254651B/zh
Publication of CN113254651A publication Critical patent/CN113254651A/zh
Application granted granted Critical
Publication of CN113254651B publication Critical patent/CN113254651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种裁判文书的分析方法、装置、计算机设备及存储介质,分析方法包括:从待分析裁判文书中获取待分析数据集;将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;基于所述通用要素信息以及特征要素信息输出分析结果。本发明将分析划分为通用要素和特征要素,可以根据不同的要素把握案件和矛盾的特征规律,找准法律风险点和治理盲区,分析社会治理中的热点、重点和难点问题。

Description

一种裁判文书的分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理领域,具体涉及一种裁判文书的分析方法、装置、计算机设备及存储介质。
背景技术
随着中国裁判文书网、中国审判流程信息公开网、中国执行信息公开网、中国庭审公开网等司法公开四大平台的建成运行,司法案件从立案、审判到执行,全部重要流程节点实现信息化、可视化、公开化,构建出开放、动态、透明、便民的阳光司法机制。大数据不仅包含结构化的数据类型,同样包含非结构化的文本数据,由司法公开形成的以裁判文书为重要组成部分的司法大数据具有重要的分析研究价值。
对裁判文书的分析研究,通常分为两个步骤,即检索案件和挖掘信息。现有的针对裁判文书的分析研究装置或系统,多以罪名、案由、审理法院等裁判文书固有的结构化字段信息为检索条件和分析对象,不包括裁判文书的文段中记载的非结构化的案情特征、裁判特征等重要信息。
因此,上述方法可分析的内容单一,仅可以简单地概括案件数量、案由、审理法院等通用特征,但是随着社会发展,出现许多新型纠纷或案件(如高空抛物、新型金融纠纷等),传统的法律专业通用特征词汇可能缺乏此类案件的相关词汇,进而无法对非结构化的信息进行有效的分析。
发明内容
鉴于上述传统的文书分析方法可分析的内容单一问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种裁判文书的分析方法、装置、计算机设备及存储介质。
依据本发明的一个方面,提供一种裁判文书的分析方法,所述方法包括:
从待分析裁判文书中获取待分析数据集;
将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;
基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;
基于所述通用要素信息以及特征要素信息输出分析结果。
优选的,所述方法还包括:
将已知裁判文书依据案件类型进行分类并构造每一种案件类型的训练数据集;
将所述训练数据集输入卷积神经网络以输出对应案件类型的特征关键词信息;所述特征关键词信息包括:特征关键词本体以及特征关键词的位置信息;
基于所述特征关键词信息构建所述特征要素分析模型。
优选的,基于特征要素分析模型确定所述待分析数据集中的特征要素信息包括:
根据所述特征要素分析模型得到特征要素的正则表达式;其中,所述特征要素为一组特征关键词信息;
基于所述正则表达式对所述待分析数据集进行识别以获得待分析数据集中的特征要素信息。
优选的,构造每一种案件类型的训练数据集包括:
获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息;
基于所述段落信息以及语句信息获取该词语信息的二维数组;
将多个二维数组向量化以形成矩阵形式的训练数据集。
优选的,从待分析裁判文书中获取待分析数据集前,所述方法包括:
从待分析裁判文书中提取至少一个关键词信息;
基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配;
若是,则从待分析裁判文书中获取待分析数据集。
优选的,从待分析裁判文书中提取至少一个关键词信息包括:
通过以下公式获取待分析裁判文书中任意词语信息的关联比重
Figure 100002_DEST_PATH_IMAGE001
Figure 100002_DEST_PATH_IMAGE003
其中,
Figure 229404DEST_PATH_IMAGE004
表示该词语信息在待分析裁判文书中出现的词频,
Figure 100002_DEST_PATH_IMAGE005
表示该词语信息在待分析裁判文书中出现的次数,
Figure 231995DEST_PATH_IMAGE006
表示待分析裁判文书中的全部词语信息的数量;
Figure 100002_DEST_PATH_IMAGE007
表示待分析裁判文书的总数,
Figure 958643DEST_PATH_IMAGE008
表示待分析裁判文书中出现该词语信息的文书数;
基于所述关联比重确定一个或多个关键词信息。
优选的,基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配包括:
计算所述关键词信息命中所述特征关键词信息的命中率;
当所述命中率大于预设阈值时,则所述待分析裁判文书与所述特征要素分析模型匹配。
依据本发明的另一个方面,提供一种裁判文书的分析装置,所述装置包括:
第一获取单元,用于从待分析裁判文书中获取待分析数据集;
数据输入单元,用于将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;
数据分析单元,用于基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;
结果输出单元,用于基于所述通用要素信息以及特征要素信息输出分析结果。
优选的,所述装置包括:
第二获取单元,用于获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息;
第三获取单元,用于基于所述段落信息以及语句信息获取该词语信息的二维数组;
第四获取单元,用于将多个二维数组向量化以形成矩阵形式的训练数据集。
优选的,所述装置包括:
信息提取单元,用于从待分析裁判文书中提取至少一个关键词信息;
要素匹配单元,用于基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配;
第五获取单元,用于若是,则从待分析裁判文书中获取待分析数据集。
依据本发明的另一个方面,提供一种裁判文书的分析装置,一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项的方法。
依据本发明的另一个方面,提供一种裁判文书的分析装置,一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项的方法。
本发明中一种裁判文书的分析方法可以快速高效地深入挖掘全量裁判文书中记录的信息,将分析方向划分为通用要素和特征要素,可以根据不同的要素把握案件和矛盾的特征规律,找准法律风险点和治理盲区,分析社会治理中的热点、重点和难点问题,从而以司法统计数据为依据,使研究者能够有针对性地从司法领域提出建议和对策,为科学决策提供数据支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种裁判文书的分析方法流程图;
图2为本发明实施例中一种裁判文书的分析方法流程图;
图3为本发明实施例中一种裁判文书的分析装置结构示意图;
图4为一种计算设备结构示意图。
【附图标记说明】
301、第一获取单元;
302、数据输入单元;
303、数据分析单元;
304、结果输出单元;
402、计算设备;
404、处理器;
406、存储资源;
408、驱动机构;
410、输入/输出模块;
412、输入设备;
414、输出设备;
416、呈现设备;
418、图形用户接口GUI;
420、网络接口;
422、通信链路;
424、通信总线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种裁判文书的分析方法,如图1所示,所述方法包括:
步骤101,从待分析裁判文书中获取待分析数据集。其中,裁判文书是记载法院审理过程和结果的载体,包括已经公开的各类司法文书,例如:民事裁判文书,刑事裁判文书,行政裁判文书以及其他通用诉讼文书等全量文书。待分析裁判文书为需要进行结构化和统计分析的文书,即对待分析裁判文书通过本发明实施例所述的方法进行分析后,可以挖掘案件的不同细节,把握案件和矛盾的特征规律,找准法律风险点和治理盲区。
本步骤中,将待分析裁判文书处理成若干可用于分析处理的待分析数据集,以便后续输入至不同的分析模型中进行针对性分析。较佳的实施例中,还可以根据已知裁判文书书写结构规范和人民法院信息化标准中定义的要素信息,将裁判文书拆分并进行数据清洗和预处理等操作,随后形成待分析数据集。
步骤102,将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型。在本发明具体的实施例中,将数据大致分为两类:通用要素和特征要素,并分别通过不同的分析模型进行数据分析,形成更精确的案件分析口径。
具体的,通用要素分析模型用于分析案件的通用要素,通用要素通常包括根据裁判文书书写结构规范和人民法院信息化标准中定义的标准要素信息,主要包括通用案情特征、当事人特征及量刑情况,例如案号、案由、裁判时间、省份、城市、审理周期、适用程序、裁判结果、量刑信息等,通用要素属于各类案件均包含且裁判文书内书写规范的基本信息。而特征要素分析模型用于分析特征要素,特征要素不同于通用要素,其主要为某一领域案件、或某一案件所具有的特定信息。尤其是像医患纠纷这类无法用罪名和案由限定的案件,案件中个性化的特征要素更是案件分析中有价值的分析点。较佳的实施例中,还包括案例特征识别模型,所述案例特征识别模型将通用要素分析模型和特征要素分析模型可以合并为一个整体并一次性对待分析数据集同时进行通用要素信息以及特征要素信息的确定。
步骤103,基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息。其中,待分析数据集中的通用要素信息也就是在该待分析数据集中所包含的通用要素,特征要素信息也就是在该待分析数据集中所包含的特征要素,根据通用要素信息和特征要素信息的获取就可以完整的表达该待分析数据集。
步骤104,基于所述通用要素信息以及特征要素信息输出分析结果。其中,通用要素信息以及特征要素信息可以对该待分析裁判文书所描述的案件以及审理过程进行较为精准的刻画和提炼,不仅可发现各类案件中较有价值的通用要素以及特征要素,而且将与待分析裁判文书相关的通用要素信息以及特征要素信息整合后,根据使用者需求输出不同的分析结果,该分析结果可以将所有通用要素信息以及特征要素信息结合以获得整体的案情信息作为分析结果,或者针对其中的部分通用要素信息以及特征要素信息获得该案部分案情信息作为分析结果。
根据分析结果可以对该待分析数据集进行不同角度、不同维度、不同精度的深度总结和展示,且适度考虑案件的特征要素所表达出的个性化特征,从而在案件分析中不会遗漏有价值的特征要素。
较佳的,对分析所述通用要素信息以及特征要素信息经过数据提取和去重操作后,输出符合要求的结构化数据作为分析结果,还可以根据需求形成结构化TXT文档或统计图表,方便展示分析结果。
本发明上述实施例所述的一种裁判文书的分析方法可以快速高效地识别检索特定类型的案件并深入挖掘全量裁判文书中记录的信息,将分析方向划分为通用要素和特征要素,可以根据不同的要素把握案件和矛盾的特征规律,找准法律风险点和治理盲区,分析社会治理中的热点、重点和难点问题,从而以司法统计数据为依据,使研究者能够有针对性地从司法领域提出建议和对策,为科学决策提供数据支撑。
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,所述方法还包括:
将已知裁判文书依据案件类型进行分类并构造每一种案件类型的训练数据集。
具体的实施例中,案件的分析过程与案件类型密切相关,由于不同的案件类型特征要素差别较大,因此需要根据不同的案件类型独立地分析不同的特征要素才能实现更精准的分析。由于不同的案件类型所对应的特征要素不同,因此本发明实施例中构建训练数据集之前对案件类型进行划分,以提高分析的效率,同时也避免由于案件类型不同造成无效分析或错误分析。
较佳的实施例中,由于有些已知裁判文书的类型难以界定,因此本发明实施例中,通过关键词信息从已知裁判文书中进行检索并将检索出来的结果作为该类型的训练数据集。例如,医患纠纷案件较难单纯以案由或罪名进行界定,因此可以通过“医患冲突”“医患纠纷”“伤医”等关键词信息对已知裁判文书中进行检索,将包含上述一个或多个关键词信息的已知裁判文书作为一类并构造该类型案件的训练数据集。
将所述训练数据集输入卷积神经网络以输出对应案件类型的特征关键词信息;所述特征关键词信息包括:特征关键词本体以及特征关键词的位置信息。具体的,应用卷积神经网络(CNN)算法对训练数据集进行学习,并获得表达该已知裁判文书的特征关键词信息,获得的所述特征关键词信息便可用于后续对待分析裁判文书进行分析。
基于所述特征关键词信息构建所述特征要素分析模型。当确认了对应案件类型的特征关键词信息后就可以对特征关键词信息进行同类合并后构建特征要素分析模型。例如,在案件类型为医患冲突类案件中,提取出妇科、产科、儿科等特征关键词信息,可以将上述特征关键词信息归为一组特征关键词信息,并作为特征要素“科室”。
较佳的实施例中,获得特征关键词信息后,所述方法还包括:构造案例特征识别模型(Case Characteristic Recognize Model,CCRM),所述构造案例特征识别模型包括:通用要素分析模型以及特征要素分析模型。CCRM是数据要素模型,而非具体数学模型,其描述案件通用要素以及特征要素的组成。CCRM形式如下:
Figure 122908DEST_PATH_IMAGE010
Figure 771058DEST_PATH_IMAGE012
参数N为CCRM模型所使用的样本量,即已知裁判文书的个数;参数
Figure DEST_PATH_IMAGE013
为第i个已知裁判文书所包括的全部通用关键词信息,参数m为已知裁判文书中通用关键词信息的个数;参数
Figure 577340DEST_PATH_IMAGE014
为第i个已知裁判文书的特征关键词信息,参数n为已知裁判文书中特征关键词信息的个数。CCRM亦可简写为如下形式:
Figure 627336DEST_PATH_IMAGE016
Figure 759240DEST_PATH_IMAGE018
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,基于特征要素分析模型确定所述待分析数据集中的特征要素信息包括:
根据所述特征要素分析模型得到特征要素的正则表达式;其中,所述特征要素为一组特征关键词信息。具体的实施例中,特征要素通常需要包括一组同类的特征关键词信息,例如在案件类型为医患冲突类案件中,将妇科、产科、儿科等作为一组特征关键词信息,“科室”就是这一组特征关键词信息对应的特征要素。本步骤中就是通过不同的特征要素所构成的正则表达式并对待分析案件做深入分析。例如:在交通肇事案件中,可以通过特征要素:车速、案发地点、驾驶员血液酒精浓度等来表达该案件,而在诈骗案件中,通过涉案金额、受害人数等具有特异性等特征要素来表达该案件,不同的案件类型,其特征要素不同,特征要素所包含的特征关键词信息也不同,因此可以将案件的细度向更小的方向划分,便于进行深度分析。
基于所述正则表达式对所述待分析数据集进行识别以获得待分析数据集中的特征要素信息以提高识别的准确度。
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,如图2所示,构造每一种案件类型的训练数据集包括:
步骤201,获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息。
具体的,在确认好案件类型的基础上,进一步对该案件类型下的已知裁判文书进行拆解。例如,针对某一种案件类型的已知裁判文书先进行标注和分词,并剔除停用词,来获得多个词语信息;其次,还需获取根据该词语信息的位置信息。其中位置信息通过段落信息以及语句信息来表达,段落信息表示该词语信息所出现的已知裁判文书的段落,具体而言,段落信息可以通过裁判文书的标准语言顺序进行识别,或者根据段落号、回车符号等识别。以裁判文书的标准语言顺序进行识别为例,通常裁判文书中不同的段落会出现不同的词语信息,例如:当事人信息、审理查明、本院认为等。根据段落信息进行定位后并依次以1,2,…进行标注;另外,以标点符号对该词语信息所在段落的语句信息进行定位,例如,通过句号、分号为分隔,定义每个段落中的语句信息的位置并依次通过1,2,……进行标注。引入位置信息的目的是,不同位置的同一个词语信息,在案件中起到的作用有可能是不同的,因此本方案可以利用到词语信息的位置信息以进行更准确的分析。
步骤202,基于所述段落信息以及语句信息获取该词语信息的二维数组;由于裁判文书是相对规范的文本,则每个词语信息及其位置信息可以由“段落+句子”的二维数组(i,j)确定。
步骤203,将多个二维数组向量化以形成矩阵形式的训练数据集,这样将每一个词和它所在的位置全部向量化并形成裁判文书矩阵X。其中,
Figure DEST_PATH_IMAGE019
为位于i 1 段落、j 1 语句的e词语,
Figure 425844DEST_PATH_IMAGE020
表示位于
Figure DEST_PATH_IMAGE021
段落、
Figure 442342DEST_PATH_IMAGE022
语句的f词语,f和e为不同的词语。T是矩阵的转置。
Figure DEST_PATH_IMAGE023
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,从待分析裁判文书中获取待分析数据集前,所述方法包括:
从待分析裁判文书中提取至少一个关键词信息;具体的实施例中,关键词信息一般为待分析裁判文书中最为关键的词语之一,例如:出现频率高、与其他词语的关联性高、或者特征性强的词语。较佳的,可以通过TF-IDF方法,根据需求提取待分析裁判文书中的关键词信息。例如,在交通肇事类案件中,提取逃逸、完全民事行为能力人、酒精浓度等词语信息作为关键词信息。
基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配。判断匹配的方式有多种,例如可以通过判断关键词信息是否全部在特征要素分析模型中,或者关键词信息在特征要素分析模型中所占比重等。
若是,则从待分析裁判文书中获取待分析数据集。具体的,根据关键词信息可以大致确定该待分析裁判文书的所对应的案件特征,而将匹配的待分析裁判文书中的待分析数据集输入至特征要素分析模型,才能更为精准的分析案件。
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,从待分析裁判文书中提取至少一个关键词信息包括:
通过以下公式获取待分析裁判文书中任意词语信息的关联比重
Figure 81265DEST_PATH_IMAGE001
Figure 649650DEST_PATH_IMAGE003
其中,
Figure 9742DEST_PATH_IMAGE004
表示该词语信息在待分析裁判文书中出现的词频,
Figure 626668DEST_PATH_IMAGE005
表示该词语信息在待分析裁判文书中出现的次数,
Figure 510311DEST_PATH_IMAGE006
表示待分析裁判文书中的全部词语信息的数量;
Figure 124963DEST_PATH_IMAGE007
表示待分析裁判文书的总数,
Figure 297318DEST_PATH_IMAGE008
表示待分析裁判文书中出现该词语信息的文书数;
基于所述关联比重确定一个或多个关键词信息。
根据本发明实施例所述的一种裁判文书的分析方法,较佳的,基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配包括:
计算所述关键词信息命中所述特征关键词信息的命中率;
当所述命中率大于预设阈值时,则所述待分析裁判文书与所述特征要素分析模型匹配。
具体的实施例中,命中率即为在待分析裁判文书中关键词信息的个数进入特征要素分析模型中的特征关键词信息的百分比。例如,提取M个关键词信息,M个关键词信息中有N个与特征要素分析模型中的特征关键词信息相同,则命中率为N/M*100%。设定一预设阈值
Figure 858881DEST_PATH_IMAGE024
,当命中率大于预设阈值
Figure 862609DEST_PATH_IMAGE024
时,可以认定所述待分析裁判文书与所述特征要素分析模型匹配,从匹配的待分析裁判文书提取待分析数据集。
在另一具体的实施例中,当所述命中率小于预设阈值时,表示该待分析裁判文书与所述特征要素分析模型不匹配,则不能通过该特征要素分析模型进行分析。
通过上述具体实施例所述的一种裁判文书的分析方法,通过改进的卷积神经网络算法,引入关键词位置信息,大大提高了案件检索的准确率;而且卷积神经网络通过对不断更新的训练数据集进行学习,可以不断更新特征要素分析模型,从而提高了裁判文书识别准确率,从数据源头提高了司法统计分析工作的效能,使得数据分析结果更加准确且提升了可信度。
本发明具体的实施例还提供一种裁判文书的分析装置,如图3所示,所述装置包括:
第一获取单元301,用于从待分析裁判文书中获取待分析数据集;
数据输入单元302,用于将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;
数据分析单元303,用于基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;
结果输出单元304,用于基于所述通用要素信息以及特征要素信息输出分析结果。
根据本发明实施例所述的一种裁判文书的分析装置,较佳的,所述装置包括:
第二获取单元,用于获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息;
第三获取单元,用于基于所述段落信息以及语句信息获取该词语信息的二维数组;
第四获取单元,用于将多个二维数组向量化以形成矩阵形式的训练数据集。
根据本发明实施例所述的一种裁判文书的分析装置,较佳的,所述装置包括:
信息提取单元,用于从待分析裁判文书中提取至少一个关键词信息;
要素匹配单元,用于基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配;
第五获取单元,用于若是,则从待分析裁判文书中获取待分析数据集。
本发明实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项具体实施例所述裁判文书的分析方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项具体实施例所述裁判文书的分析方法。
本文一实施例中,如图4所示,还提供一种计算设备,计算设备402可以包括一个或多个处理器404,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算设备402还可以包括任何存储资源406,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源406可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留,存储资源406上存储有可在处理器404上运行的计算机程序,处理器404执行计算机程序时实现前述任一实施例所述的电动汽车充放电控制方法。进一步地,任何存储器可以表示计算设备402的固定或可移除部件。在一种情况下,当处理器404执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算设备402可以执行相关联指令的任一操作。计算设备402还包括用于与任何存储器交互的一个或多个驱动机构408,诸如硬盘驱动机构、光盘驱动机构等。
计算设备402还可以包括输入/输出模块410(I/O),其用于接收各种输入(经由输入设备412)和用于提供各种输出(经由输出设备414))。一个具体输出机构可以包括呈现设备416和相关联的图形用户接口(GUI)418。在其他实施例中,还可以不包括输入/输出模块410(I/O)、输入设备412以及输出设备414,仅作为网络中的一台计算设备。计算设备402还可以包括一个或多个网络接口420,其用于经由一个或多个通信链路422与其他设备交换数据。一个或多个通信总线424将上文所描述的部件耦合在一起。
通信链路422可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路422可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例所述的电动汽车充放电控制方法。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行上述任一实例所述的电动汽车充放电控制方法。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种裁判文书的分析方法,其特征在于,所述方法包括:
从待分析裁判文书中获取待分析数据集;
将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;
基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;
基于所述通用要素信息以及特征要素信息输出分析结果。
2.根据权利要求1所述的一种裁判文书的分析方法,其特征在于,所述方法还包括:
将已知裁判文书依据案件类型进行分类并构造每一种案件类型的训练数据集;
将所述训练数据集输入卷积神经网络以输出对应案件类型的特征关键词信息;所述特征关键词信息包括:特征关键词本体以及特征关键词的位置信息;
基于所述特征关键词信息构建所述特征要素分析模型。
3.根据权利要求2所述的一种裁判文书的分析方法,其特征在于,基于特征要素分析模型确定所述待分析数据集中的特征要素信息包括:
根据所述特征要素分析模型得到特征要素的正则表达式;其中,所述特征要素为一组特征关键词信息;
基于所述正则表达式对所述待分析数据集进行识别以获得待分析数据集中的特征要素信息。
4.根据权利要求2所述的一种裁判文书的分析方法,其特征在于,构造每一种案件类型的训练数据集包括:
获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息;
基于所述段落信息以及语句信息获取该词语信息的二维数组;
将多个二维数组向量化以形成矩阵形式的训练数据集。
5.根据权利要求1所述的一种裁判文书的分析方法,其特征在于,从待分析裁判文书中获取待分析数据集前,所述方法包括:
从待分析裁判文书中提取至少一个关键词信息;
基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配;
若是,则从待分析裁判文书中获取待分析数据集。
6.根据权利要求5所述的一种裁判文书的分析方法,其特征在于,从待分析裁判文书中提取至少一个关键词信息包括:
通过以下公式获取待分析裁判文书中任意词语信息的关联比重
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE003
其中,
Figure 361172DEST_PATH_IMAGE004
表示该词语信息在待分析裁判文书中出现的词频,
Figure DEST_PATH_IMAGE005
表示该词语信息在待分析裁判文书中出现的次数,
Figure 561209DEST_PATH_IMAGE006
表示待分析裁判文书中的全部词语信息的数量;
Figure DEST_PATH_IMAGE007
表示待分析裁判文书的总数,
Figure 695519DEST_PATH_IMAGE008
表示待分析裁判文书中出现该词语信息的文书数;
基于所述关联比重确定一个或多个关键词信息。
7.根据权利要求5所述的一种裁判文书的分析方法,其特征在于,基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配包括:
计算所述关键词信息命中所述特征关键词信息的命中率;
当所述命中率大于预设阈值时,则所述待分析裁判文书与所述特征要素分析模型匹配。
8.一种裁判文书的分析装置,其特征在于,所述装置包括:
第一获取单元,用于从待分析裁判文书中获取待分析数据集;
数据输入单元,用于将所述待分析数据集分别输入至通用要素分析模型以及特征要素分析模型;
数据分析单元,用于基于通用要素分析模型确定所述待分析数据集中的通用要素信息,以及基于特征要素分析模型确定所述待分析数据集中的特征要素信息;所述通用要素信息为待分析裁判文书中所包含的基本信息;所述特征要素信息为待分析裁判文书中所包含的特定信息;
结果输出单元,用于基于所述通用要素信息以及特征要素信息输出分析结果。
9.根据权利要求8所述的一种裁判文书的分析装置,其特征在于,所述装置包括:
第二获取单元,用于获取一种案件类型所对应的已知裁判文书的词语信息,以及所述词语信息对应的位置信息;所述位置信息包括:段落信息以及语句信息;
第三获取单元,用于基于所述段落信息以及语句信息获取该词语信息的二维数组;
第四获取单元,用于将多个二维数组向量化以形成矩阵形式的训练数据集。
10.根据权利要求8所述的一种裁判文书的分析装置,其特征在于,所述装置包括:
信息提取单元,用于从待分析裁判文书中提取至少一个关键词信息;
要素匹配单元,用于基于所述关键词信息确定所述待分析裁判文书与所述特征要素分析模型是否匹配;
第五获取单元,用于若是,则从待分析裁判文书中获取待分析数据集。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项的方法。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述权利要求1-7任一项的方法。
CN202110716556.0A 2021-06-28 2021-06-28 一种裁判文书的分析方法、装置、计算机设备及存储介质 Active CN113254651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110716556.0A CN113254651B (zh) 2021-06-28 2021-06-28 一种裁判文书的分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110716556.0A CN113254651B (zh) 2021-06-28 2021-06-28 一种裁判文书的分析方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113254651A true CN113254651A (zh) 2021-08-13
CN113254651B CN113254651B (zh) 2021-11-02

Family

ID=77189802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110716556.0A Active CN113254651B (zh) 2021-06-28 2021-06-28 一种裁判文书的分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113254651B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法
CN117116502A (zh) * 2023-09-11 2023-11-24 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN110069609A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 裁判文书分析方法、装置、计算机设备及存储介质
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN110781650A (zh) * 2020-01-02 2020-02-11 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
US20200050949A1 (en) * 2018-06-14 2020-02-13 Accenture Global Solutions Limited Digital assistant platform
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备
CN112950414A (zh) * 2021-02-25 2021-06-11 华东师范大学 一种基于解耦法律要素的法律文本表示方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
US20200050949A1 (en) * 2018-06-14 2020-02-13 Accenture Global Solutions Limited Digital assistant platform
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN110069609A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 裁判文书分析方法、装置、计算机设备及存储介质
CN110781650A (zh) * 2020-01-02 2020-02-11 四川大学 一种基于深度学习的裁判文书自动生成方法及系统
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN112950414A (zh) * 2021-02-25 2021-06-11 华东师范大学 一种基于解耦法律要素的法律文本表示方法
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法
CN117116502A (zh) * 2023-09-11 2023-11-24 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和系统
CN117116502B (zh) * 2023-09-11 2024-04-05 北京和兴创联健康科技有限公司 基于人工智能和大数据构造手术画像知识图的方法和系统

Also Published As

Publication number Publication date
CN113254651B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
US20160063097A1 (en) Data Clustering System, Methods, and Techniques
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN113254651B (zh) 一种裁判文书的分析方法、装置、计算机设备及存储介质
Chan et al. Reproducible extraction of cross-lingual topics (rectr)
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
US8117237B2 (en) Optimized method and system for managing proper names to optimize the management and interrogation of databases
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
Gadek et al. An interpretable model to measure fakeness and emotion in news
Kim Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea
Ribeiro et al. Discovering IMRaD structure with different classifiers
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
Ezzat et al. Topicanalyzer: A system for unsupervised multi-label arabic topic categorization
CN111611340A (zh) 信息抽取方法、装置、计算机设备和存储介质
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN111538805A (zh) 一种基于深度学习和规则引擎的文本信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant