CN112163090A - 一种法律裁判文书的案由分类方法和终端 - Google Patents
一种法律裁判文书的案由分类方法和终端 Download PDFInfo
- Publication number
- CN112163090A CN112163090A CN202011021133.9A CN202011021133A CN112163090A CN 112163090 A CN112163090 A CN 112163090A CN 202011021133 A CN202011021133 A CN 202011021133A CN 112163090 A CN112163090 A CN 112163090A
- Authority
- CN
- China
- Prior art keywords
- text
- case
- classification model
- case classification
- referee document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 287
- 230000014509 gene expression Effects 0.000 claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Technology Law (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于人工智能技术领域,尤其涉及一种法律裁判文书的案由分类方法和终端,其中,所述案由分类方法包括:获取用户输入的法律裁判文书;利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;实现了对法律裁判文书的案由进行自动分类,提高了法律裁判文书案由分类的效率和准确性。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种法律裁判文书的案由分类方法和终端。
背景技术
对法律裁判文书进行案由分类是法院的常规任务,通常需要由法官和陪审团根据积累的经验和学习的专业知识进行案由分类,而没有法律基础的普通民众想要了解某个法律裁判文书的案由类别,通常是比较困难的,即便是专业的法律从业人员,也需要一定的时间才能确定案件的案由类别,案由类别的复杂性也导致熟悉所有类型的案由的专业人员比较少。
因此,需要提供一种对法律裁判文书的案由分类方法,实现对法律裁判文书的案由进行自动分类。
发明
本申请实施例提供一种法律裁判文书的案由分类方法和终端,可以实现对法律裁判文书的案由进行自动分类,提高法律裁判文书的案由分类准确性。
本申请实施例第一方面提供一种法律裁判文书的案由分类方法,包括:
获取用户输入的法律裁判文书;
利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;
将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
本申请实施例第二方面提供的一种法律裁判文书的案由分类装置,包括:
获取单元,用于获取用户输入的法律裁判文书;
分段单元,用于利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;
分类单元,用于将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
本申请实施例第三方面提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现方法的步骤。
本申请实施例中,通过对获取的法律裁判文书进行文本分段,剔除法律裁判文书中涉及的与案由分类无关的内容,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本,再将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,得到所述法律裁判文书的目标案由类别,实现了对法律裁判文书的案由进行自动分类,提高了法律裁判文书案由分类的效率。另外,相比于直接将法律裁判文书输入案由分类模型得到法律裁判文书的目标案由类别来说,本申请还可以有效避免与案由分类无关的内容对案由分类造成的干扰,提高了法律裁判文书案由分类的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的一种法律裁判文书的案由分类方法的实现流程示意图;
图2是本申请实施例提供的一种法律裁判文书的案由分类方法步骤102的具体实现流程示意图;
图3是本申请实施例提供的一种法律裁判文书的案由分类方法步骤103的第一具体实现流程示意图;
图4是本申请实施例提供的一种法律裁判文书的案由分类方法步骤103的第二具体实现流程示意图;
图5是本申请实施例提供的文本分类模型Text-CNN的结构示意图;
图6是本申请实施例提供的法律裁判文书的案由分类装置的结构示意图;
图7是本申请实施例提供的终端的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
法律裁判文书是记载人民法院审理诉讼活动过程和结果的凭证,记载了原被告、律师、庭审法院、原告诉讼请求、被告答辩、法院判决结果和案件受理费等信息。近几年,我国最高人民法院为贯彻落实审判公开原则,设立了中国裁判文书网,规定除涉及国家秘密、个人隐私的、未成年人违法犯罪的、以调解方式结案的和其他不宜在互联网公布的裁判文书外,其余一律在网络上公布。
在将法律裁判文书进行公布前,一般需要根据该法律裁判文书的案由类别对其进行分类,以便法律裁判文书的查看。然而,目前的法律裁判文书的案由类别需要由法官和陪审团根据积累的经验和学习的专业知识进行人工标记,存在案由分类准确性低,且分类效率低的问题。
基于此,本申请实施例提供一种法律裁判文书的案由分类方法和终端,可以实现对法律裁判文书的案由进行自动分类,提高法律裁判文书的案由分类准确性,以及案由分类的效率。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
如图1示出了本申请实施例提供的一种法律裁判文书的案由分类方法的实现流程示意图,该方法应用于终端,可以由终端上配置的法律裁判文书的案由分类装置执行,适用于需实现对法律裁判文书的案由进行自动分类,提高法律裁判文书的案由分类准确性,以及案由分类的效率的情形,并且,该终端可以为电脑或服务器等终端设备。所述法律裁判文书的案由分类方法可以包括步骤101至步骤103。
步骤101,获取用户输入的法律裁判文书。
本申请实施例中,在需要对某个用户输入的待分类的法律裁判文书进行案由分类时,需要先获取用户输入的法律裁判文书。例如,获取用户通过打开案由分类网页,在网页中的法律裁判文书输入框中输入的法律裁判文书;或者,获取用户选取的本地终端上存储的法律裁判文书。
步骤102,利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本。
在实际应用中,当获取用户通过打开案由分类网页,在案由分类网页中的法律裁判文书输入框中输入的法律裁判文书之后,可以在接收到用户在案由分类网页上触发的法律裁判文书的案由分类预测指令时,对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本。
例如,通过在接收到用户在案由分类网页上点击案由分类预测按钮触发的法律裁判文书的案由分类预测指令时,对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本。
目前,法律裁判文书一般涉及原告的诉请内容、被告的辩称内容、案件事实的描述以及法院裁决内容,并且,除此之外,还涉及较多与案由分类无关的内容。为了得到更加准确的法律裁判文书的案由分类结果,在本申请实施例中,通过对所述法律裁判文书进行文本分段,剔除法律裁判文书中涉及的与案由分类无关的内容,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本,再将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入对应的预设案由分类模型,得到所述法律裁判文书的目标案由类别,有效避免了与案由分类无关的内容对案由分类造成的干扰,提高了法律裁判文书案由分类的准确性,并且实现了对法律裁判文书的案由进行自动分类,提高了法律裁判文书案由分类的效率。
由于法律裁判文书有比较固定的格式,因此,在上述对法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本的过程中,可以通过预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本。
具体的,如图2所示,在本申请实施例中,上述利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本和事实文本的过程中,可以包括:步骤201至步骤204。
步骤201,获取预先构建的诉请辩称正则表达式,并利用所述诉请辩称正则表达式查找所述法律裁判文书,得到诉请辩称文本。
其中,诉请辩称文本是指包含诉请文本和辩称文本的文本。由于诉请辩称文本一般夹在审理经过与认定证据之间,或者,审理经过与查明事实之间。并且,审理经过段落一般有比较明显的关键词,如“审理终结”、“公开开庭”等,认定证据和查明事实也有比较明显的特征,如“经庭审质证”、“经审理查明”、“对证据认证如下”等,因此,通过构建包含“审理终结”、“公开开庭”、“经庭审质证”、“经审理查明”、“对证据认证如下”等关键字的诉请辩称正则表达式,从法律裁判文书查找介于审理经过与认定证据之间,或者介于审理经过与查明事实之间的段落,即可得到诉请辩称文本。
步骤202,获取预先构建的辩称正则表达式,并利用所述辩称正则表达式查找所述诉请辩称文本,得到所述辩称文本,以及由所述诉请辩称文本中除所述辩称文本以外的文本组成的证据文本。
由于辩称文本一般包含有“辩称”、“答辩”等关键字,通过构建包含“辩称”、“答辩”等关键字的诉请辩称正则表达式,从步骤201获取的诉请辩称文本中查找“辩称”、“答辩”等关键字之后的段落,即可得到辩称文本,并得到由所述诉请辩称文本中除所述辩称文本以外的文本组成的证据文本。
步骤203,获取预先构建的证据正则表达式,并利用所述证据正则表达式查找所述证据文本,得到诉请证据文本,以及由所述证据文本中除所述诉请证据文本以外的文本组成的诉请事实文本。
在实际应用中,步骤202得到的诉请辩称文本中除所述辩称文本以外的文本不仅包含诉请文本和事实文本,还有可能包含诉请证据文本,并且,证据文本一般包含“证据”、“如下证据”、“证据材料”、“以下证据予以证明”、“提供下列证据”等关键字,通过构建包含“证据”、“如下证据”、“证据材料”、“以下证据予以证明”、“提供下列证据”等相关关键字的证据正则表达式,从步骤202得到的证据文本中查找“证据”、“如下证据”、“证据材料”、“以下证据予以证明”、“提供下列证据”等关键字之后的段落,即可得到诉请证据文本,接着从证据文本中剥离诉请证据文本,即可得到由所述证据文本中除所述诉请证据文本以外的文本组成的诉请事实文本。
步骤204,获取预先构建的诉请正则表达式,并利用所述诉请正则表达式查找所述诉请事实文本,得到所述诉请文本,以及由所述诉请事实文本中除所述诉请文本以外的文本组成的事实文本。
诉请事实文本中包含的是诉请文本以及事实文本,并且诉请文本一般包含“故诉请”、“请求判处”、“诉请法院判令”、“诉请法庭判令”、“诉请判令”、“请求判令”等关键字,通过构建包含“故诉请”、“请求判处”、“诉请法院判令”、“诉请法庭判令”、“诉请判令”、“请求判令”等相关关键字的诉请正则表达式,从诉请事实文本中查找“故诉请”、“请求判处”、“诉请法院判令”、“诉请法庭判令”、“诉请判令”、“请求判令”等关键字,通过构建包含“故诉请”、“请求判处”、“诉请法院判令”、“诉请法庭判令”、“诉请判令”、“请求判令”等相关关键字之后的段落即可得到诉请文本,以及由所述诉请事实文本中除所述诉请文本以外的文本组成的事实文本。
同样的,上述对所述法律裁判文书进行文本分段,得到所述法律裁判文书的法院认为文本的过程中,可以包括:获取预先构建的法院认为正则表达式,并利用所述法院认为正则表达式查找所述法律裁判文书,得到法院认为文本。
法院认为文本一般介于关键字“本院认为”或“本院审查认为”之后的段落,并截止至关键字“判决如下”或“裁定如下”,因此,通过构建包含“本院认为”、“本院审查认为”、“判决如下”、“裁定如下”的法院认为正则表达式,即可从法律裁判文书中查找介于关键字“判决如下”或“裁定如下”之后的段落,并截止至关键字“判决如下”或“裁定如下”,即可得到法院认为文本。
本申请实施例中,通过构建包含相关关键字的正则表达式对所述法律裁判文书进行逐层提取,得到剔除与案由分类无关的内容的诉请文本、辩称文本、事实文本以及法院认为文本中的一个或多个文本,再将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入对应的预设案由分类模型,得到所述法律裁判文书的目标案由类别,有效避免了与案由分类无关的内容对案由分类造成的干扰,提高了法律裁判文书案由分类的准确性,并且实现了对法律裁判文书的案由进行自动分类,提高了法律裁判文书案由分类的效率。
需要说明的是,上述关键字仅仅是举例说明,并不是为对本申请保护范围的限制,另外,本领域技术人员可以理解的是,在构建正则表达式时,也可以是通过查找相关的关键字之前的段落得到相应的文本,此处不再赘述。
步骤103,将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别。
在本申请实施例中,上述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型是指:将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的其中一个文本输入与该文本对应的预设案由分类模型,或者,将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的两个或两个以上的文本输入与各个文本分别对应的预设案由分类模型。
例如,将所述法律裁判文书的诉请文本输入与诉请文本对应的预设案由分类模型,或者,将所述法律裁判文书的诉请文本输入与所述诉请文本对应的预设案由分类模型,以及将所述法律裁判文书的辩称文本输入与所述辩称文本对应的预设案由分类模型。
其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
并且,所述第一案由分类模型为与诉请文本对应的预设案由分类模型;所述第二案由分类模型为与辩称文本对应的预设案由分类模型;所述第三案由分类模型为与事实文本对应的预设案由分类模型;所述第四案由分类模型为与法院认为文本对应的预设案由分类模型。
需要说明的是,在实际应用中,若步骤103中,仅需要将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的其中一个文本输入与该文本对应的预设案由分类模型,则相应的上述步骤102中,对所述法律裁判文书进行文本分段,也只需要得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本。
由于法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本均与法律裁判文书的案由类别有一定的关联,并且,关联强度不一,因此,在本申请实施例中,为了避免关联强度较低的文本对法律裁判文书的案由分类的准确度造成影响,可以根据实际应用的需要,将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,而不是将法律裁判文书中的诉请文本、辩称文本、事实文本、法院认为文本全部输入同一个案由分类模型,得到所述法律裁判文书的目标案由类别。
具体的,如图3所示,在本申请的一些实施方式中,上述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,可以包括:步骤301至步骤302。
步骤301,计算所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中各个文本的文本内容数据量,得到文本内容数据量最大的第一目标文本。
由于文本内容数据量较大时,其一般包含较全面的案情信息,因此,为了从法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中选取与法律裁判文书的案由类别关联最强的文本,在本申请的一些实施方式中,可以通过计算所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中各个文本的文本内容数据量,并将文本内容数据量最大的文本作为与法律裁判文书的案由类别关联最强的文本,即,第一目标文本。
步骤302,将所述第一目标文本输入与所述第一目标文本对应的预设案由分类模型,得到所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别,并将所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
例如,当法院认为文本为所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中文本内容数据量最大的文本时,则将所述法院认为文本输入第四案由分类模型,得到所述法院认为文本对应的第四案由分类模型输出的所述法律裁判文书的案由类别,并将所述法院认为文本对应的第四案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
除上述图3所示的实施方式之外,在本申请的一些实施方式中,上述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,还可以包括:根据所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本确定法律裁判文书对应的应用场景;根据法律裁判文书对应的应用场景选择所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本作为第二目标文本,将所述第二目标文本输入与所述第二目标文本对应的预设案由分类模型,得到所述第二目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别,并将所述第二目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
其中,在上述根据所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本确定法律裁判文书对应的应用场景的过程中,可以通过对所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本进行分词,得到应用场景关键字,并将所述应用场景关键字与预设应用场景的关键字进行匹配,并在所述应用场景关键字与预设应用场景的关键字进行匹配成功时,将所述预设应用场景的关键字对应的应用场景确定为所述法律裁判文书对应的应用场景。
例如,合同纠纷场景对应的预设应用场景的关键字为“合同”、“违约金”、“买卖”等关键字,则在对所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本进行分词,得到应用场景关键字之后,即可通过将该应用场景关键字与预设应用场景的关键字为“合同”、“违约金”、“买卖”进行匹配,若匹配成功,则确定法律裁判文书对应的应用场景为合同纠纷场景。
由于每种应用场景对应的法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本各有差异,因此,在实际应用中,可以根据实践经验,确定每种应用场景对应的第二目标文本的类型,以便根据法律裁判文书对应的应用场景选择所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本作为第二目标文本,并将所述第二目标文本输入与所述第二目标文本对应的预设案由分类模型,得到所述法律裁判文书的目标案由类别。
可选的,如图4所示,上述步骤103中,将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,可以包括:步骤401至步骤404。
步骤401,将所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本分别输入第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型,得到所述第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型输出的第一案由类别、第二案由类别、第三案由类别和第四案由类别。
其中,所述第一案由类别为将所述法律裁判文书的诉请文本输入第一案由分类模型,并由第一案由分类模型根据所述诉请文本输出的案由类别;所述第二案由类别为将所述法律裁判文书的辩称文本输入第二案由分类模型,并由第二案由分类模型根据所述辩称文本输出的案由类别;所述第三案由类别为将所述法律裁判文书的事实文本输入第三案由分类模型,并由第三案由分类模型根据所述事实文本输出的案由类别;所述第四案由类别为将所述法律裁判文书的法院认为文本输入第四案由分类模型,并由第四案由分类模型根据所述法院认为文本输出的案由类别。
步骤402,计算所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中相同案由类别的数量在所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中的占比,并判断所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中是否存在占比最大的案由类别。
步骤403,若所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中存在占比最大的案由类别,则将所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中占比最大的案由类别作为所述法律裁判文书的目标案由类别。
在实际应用中,法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本均与法律裁判文书的案由类别有一定的关联,并且,关联强度不一。本申请实施例中,在不能比较准确的确定诉请文本、辩称文本、事实文本以及法院认为文本中与法律裁判文书的案由类别关联最强的目标文本时,可以通过将所述诉请文本、辩称文本、事实文本以及法院认为文本均分别输入对应的预设案由分类模型,即,第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型,得到所述第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型输出的第一案由类别、第二案由类别、第三案由类别和第四案由类别,然后选取所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中占比最大的案由类别作为所述法律裁判文书的目标案由类别,以提高法律裁判文书的案由分类的准确性和效率,实现对法律裁判文书的案由进行自动分类。
例如,第一案由类别与第二案由类别相同,均为“确认合同有效纠纷”,第三案由类别为“赠与合同纠纷”,第四案由类别为“借款合同纠纷”,则可以将占比最大的案由类别“确认合同有效纠纷”确认为所述法律裁判文书的目标案由类别。
在本申请的一些实施方式中,如图4所示,当所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中不存在占比最大的案由类别时,还可以包括步骤404:接收用户对所述第一案由类别、第二案由类别、第三案由类别和第四案由类别的选择操作,将所述选择操作对应的案由类别作为所述法律裁判文书的目标案由类别。
例如,第一案由类别与第二案由类别相同,第三案由类别与第四案由类别相同时,由于不存在占比最大的案由类别,因此,可以通过接收用户对上述第一案由类别、第二案由类别、第三案由类别和第四案由类别的选择操作,将所述选择操作对应的案由类别作为所述法律裁判文书的目标案由类别。
为了减少法律裁判文书每次进行案由分类的计算量,在本申请的一些实施方式中,所述的案由分类方法还可以包括:获取利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本、辩称文本样本、事实文本样本和法院认为文本样本分别对文本分类模型进行有监督学习得到所述第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型,分别对所述第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型进行测试,得到案由分类准确度最高的案由分类模型,并将所述案由分类准确度最高的案由分类模型作为目标预设案由分类模型,并在获取用户输入的法律裁判文书之后,对所述法律裁判文书进行文本分段,得到与所述目标预设案由分类模型对应的第三目标文本,并将所述第三目标文本输入所述目标预设案由分类模型,得到所述法律裁判文书的目标案由类别;使得法律裁判文书每次进行案由分类时,不需要根据法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本选择预设案由分类模型进行案由分类,而是直接采用该目标预设案由分类模型进行案由分类,减少了法律裁判文书每次进行案由分类的计算量。
在上述图1至图4所示的各个实施方式中,可选的,在将法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型的过程中,为了使输入预设案由分类模型的数据能够与模型适配,并提高模型数据输出的准确性,可以先对所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本进行预处理之后,将预处理得到的所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入对应的预设案由分类模型。
例如,上述预处理可以包括对需要输入预设案由分类模型的一个或多个文本进行文本处理,再对经文本处理后得到的文本进行分词,并建立停用词表,对分好词的数据去除停用词;使用已保存的词典对分好词的数据建立索引,然后根据词向量字典对输入的数据进行词向量化,以完成对诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本的预处理。其中,上述文本处理可以包括:处理异常换行、全角转为半角、金额统一转为阿拉伯数字、金额单位统一转换为元、统一标点符号、非法字符的转换以及删除网页标签等文本处理操作;上述对经文本处理后得到的文本进行分词可以采用结巴分词算法、ansj分词器、Hanlp分词器实现,上述对输入的数据进行词向量化可以采用word2vec、fastText或者Glove等词向量工具实现。
在上述图1至图4所示的各个实施方式中,上述文本分类模型是一种采用有监督学习方式进行训练的模型,可以包括基于传统机器学习的文本分类模型,以及基于深度学习的文本分类模型。由于基于深度学习的文本分类模型可以自动提取样本数据的初级特征并组合为高级特征,不需要人工进行特征提取,且训练速度更快,因此,在本申请的一些实施方式中,选用基于深度学习的文本分类模型进行有监督学习得到上述预设案由分类模型,可以达到更好的案由分类效果。
具体的,该基于深度学习的文本分类模型的结构可以采用CNN、RNN和CLSTM等经典的深度学习模型结构。下面以该基于深度学习的文本分类模型为Text-CNN模型为例进行说明。另外,上述第一案由分类模型、第二案由分类模型、第三案由分类模型以及第四案由分类模型的训练方式相同。为了描述的方便,本申请以第一案由分类模型的训练方式为例进行说明。
如图5所示,为本申请实施例提供的Text-CNN模型的结构示意图,具体的,该Text-CNN模型包括输入层、卷积层、池化层和全连接层。
其中,输入层也叫词嵌入层,用于词向量输入。在对Text-CNN模型进行有监督学习得到上述第一案由分类模型的过程中,需要先采集标记好案由类别的法律裁判文书样本数据的诉请文本样本。
例如,利用爬虫程序从中国裁判文书网中爬取标记好案由类别的法律裁判文书样本数据,然后利用预先构建的正则表达式对所述法律裁判文书样本数据进行文本分段,得到所述法律裁判文书样本数据的诉请文本样本x以及该诉请文本样本对应的案由类别y。
接着,对所述法律裁判文书样本数据的诉请文本样本x,得到诉请文本样本x对应的d个词向量;并将诉请文本样本x对应的d个词向量中每个词向量词的个数限制为s,得到词向量矩阵A∈Rs×d,并向Text-CNN模型的输入层输入该词向量矩阵A∈Rs×d。
卷积层用于对上述词向量矩阵A∈Rs×d进行卷积操作,得到特征表达向量c。假设Text-CNN模型中包含n个高度为h的卷积核w,则卷积层的输出结果为(c1,c2,c3,…,cn),其中,ci=f(oi+b);oi=w×A[j:j+h-1]),i=1,2,…,n,j=1,2,…,s-h+1,f是激活函数,b是偏置。
池化层用于对上述特征表达向量c进行最大值采样maxpooling,得到向量v1。
为了增加模型的泛化能力,提高预设案由分类模型的分类精度,与传统只包含一层直连层的Text-CNN模型相比,本申请的Text-CNN模型的全连接层包含两层直连层。这两层直连层的输出分别为v2=f(w21v1)+b1;out=f(w22v2)+b2;将out输入待训练的softmax分类器,得到全连接层的输出a=softmax(out)=fw(x)。
需要说明的是,为进一步保证上述法律裁判文书等相关信息的私密和安全性,上述法律裁判文书信息还可以存储于一区块链的节点中,本申请的技术方案还可适用于其他存储于区块链上的文档的分类,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其它顺序进行。
如图6所示为本申请实施例提供一种法律裁判文书的案由分类装置500的结构示意图,所述法律裁判文书的案由分类装置600可以包括:获取单元601、分段单元602和分类单元603。
获取单元601,用于获取用户输入的法律裁判文书。
分段单元602,用于利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本。
分类单元603,用于将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
可选的,所述分类单元603,还具体用于:计算所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中各个文本的文本内容数据量,得到文本内容数据量最大的第一目标文本;将所述第一目标文本输入与所述第一目标文本对应的预设案由分类模型,得到所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别,并将所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
可选的,所述分类单元603,还具体用于:将所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本分别输入第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型,得到所述第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型输出的第一案由类别、第二案由类别、第三案由类别和第四案由类别;计算所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中相同案由类别的数量在所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中的占比,并判断所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中是否存在占比最大的案由类别;若所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中存在占比最大的案由类别,则将所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中占比最大的案由类别作为所述法律裁判文书的目标案由类别。
可选的,所述分类单元603还具体用于:若所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中不存在占比最大的案由类别,则接收用户对所述第一案由类别、第二案由类别、第三案由类别和第四案由类别的选择操作,将所述选择操作对应的案由类别作为所述法律裁判文书的目标案由类别。
可选的,上述分段单元602还具体用于,获取预先构建的诉请辩称正则表达式,并利用所述诉请辩称正则表达式查找所述法律裁判文书,得到诉请辩称文本;获取预先构建的辩称正则表达式,并利用所述辩称正则表达式查找所述诉请辩称文本,得到所述辩称文本,以及由所述诉请辩称文本中除所述辩称文本以外的文本组成的证据文本;获取预先构建的证据正则表达式,并利用所述证据正则表达式查找所述证据文本,得到诉请证据文本,以及由所述证据文本中除所述诉请证据文本以外的文本组成的诉请事实文本;获取预先构建的诉请正则表达式,并利用所述诉请正则表达式查找所述诉请事实文本,得到所述诉请文本,以及由所述诉请事实文本中除所述诉请文本以外的文本组成的事实文本;获取预先构建的法院认为正则表达式,并利用所述法院认为正则表达式查找所述法律裁判文书,得到法院认为文本。
可选的,上述分类单元603还具体用于,对所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本进行预处理,并将预处理得到的所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型。
需要说明的是,为描述的方便和简洁,上述描述的法律裁判文书的案由分类装置600的具体工作过程,可以参考图1至图4所述的案由分类方法的对应过程,在此不再赘述。
图7是本申请实施例提供的终端的示意图。如图7所示,该终端7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如法律裁判文书的案由分类程序。所述处理器70执行所述计算机程序72时实现上述各个法律裁判文书的案由分类方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元601至603的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端中的执行过程。例如,所述计算机程序可以被分割成获取单元、分段单元和分类单元,各单元具体功能如下:获取单元,用于获取用户输入的法律裁判文书;分段单元,用于利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;分类单元,用于将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
所述终端可以是智能手机等移动终端,或者是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端的示例,并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器71也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种法律裁判文书的案由分类方法,其特征在于,包括:
获取用户输入的法律裁判文书;
利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;
将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
2.如权利要求1所述的案由分类方法,其特征在于,所述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,包括:
计算所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中各个文本的文本内容数据量,得到文本内容数据量最大的第一目标文本;
将所述第一目标文本输入与所述第一目标文本对应的预设案由分类模型,得到所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别,并将所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
3.如权利要求1所述的案由分类方法,其特征在于,所述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别,包括:
将所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本分别输入第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型,得到所述第一案由分类模型、第二案由分类模型、第三案由分类模型和第四案由分类模型输出的第一案由类别、第二案由类别、第三案由类别和第四案由类别;
计算所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中相同案由类别的数量在所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中的占比,并判断所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中是否存在占比最大的案由类别;
若所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中存在占比最大的案由类别,则将所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中占比最大的案由类别作为所述法律裁判文书的目标案由类别。
4.如权利要求3所述的案由分类方法,其特征在于,在所述判断所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中是否存在占比最大的案由类别之后,包括:
若所述第一案由类别、第二案由类别、第三案由类别和第四案由类别中不存在占比最大的案由类别,则接收用户对所述第一案由类别、第二案由类别、第三案由类别和第四案由类别的选择操作,将所述选择操作对应的案由类别作为所述法律裁判文书的目标案由类别。
5.如权利要求1所述的案由分类方法,其特征在于,所述利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本和事实文本,包括:
获取预先构建的诉请辩称正则表达式,并利用所述诉请辩称正则表达式查找所述法律裁判文书,得到诉请辩称文本;
获取预先构建的辩称正则表达式,并利用所述辩称正则表达式查找所述诉请辩称文本,得到所述辩称文本,以及由所述诉请辩称文本中除所述辩称文本以外的文本组成的证据文本;
获取预先构建的证据正则表达式,并利用所述证据正则表达式查找所述证据文本,得到诉请证据文本,以及由所述证据文本中除所述诉请证据文本以外的文本组成的诉请事实文本;
获取预先构建的诉请正则表达式,并利用所述诉请正则表达式查找所述诉请事实文本,得到所述诉请文本,以及由所述诉请事实文本中除所述诉请文本以外的文本组成的事实文本;
所述对所述法律裁判文书进行文本分段,得到所述法律裁判文书的法院认为文本,包括:
获取预先构建的法院认为正则表达式,并利用所述法院认为正则表达式查找所述法律裁判文书,得到法院认为文本。
6.如权利要求1所述的案由分类方法,其特征在于,所述将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,包括:
对所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本进行预处理,并将预处理得到的所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型。
7.一种法律裁判文书的案由分类装置,其特征在于,包括:
获取单元,用于获取用户输入的法律裁判文书;
分段单元,用于利用预先构建的正则表达式对所述法律裁判文书进行文本分段,得到所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本;
分类单元,用于将所述法律裁判文书的诉请文本、辩称文本、事实文本、法院认为文本中的一个或多个文本输入与所述一个或多个文本的各个文本分别对应的预设案由分类模型,并根据所述预设案由分类模型输出的所述法律裁判文书的案由类别得到所述法律裁判文书的目标案由类别;其中,所述预设案由分类模型为第一案由分类模型、第二案由分类模型、第三案由分类模型、第四案由分类模型中的一个案由分类模型;所述第一案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的诉请文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第二案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的辩称文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第三案由分类模型为利用预先标记有案由类别的法律裁判文书样本数据的事实文本样本对文本分类模型进行有监督学习得到的案由分类模型;所述第四案由分类模型为利用法律裁判文书样本数据的法院认为文本样本对文本分类模型进行有监督学习得到的案由分类模型。
8.如权利要求7所述的案由分类装置,其特征在于,所述分类单元,还用于:
计算所述法律裁判文书的诉请文本、辩称文本、事实文本和法院认为文本中各个文本的文本内容数据量,得到文本内容数据量最大的第一目标文本;
将所述第一目标文本输入与所述第一目标文本对应的预设案由分类模型,得到所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别,并将所述第一目标文本对应的预设案由分类模型输出的所述法律裁判文书的案由类别作为所述法律裁判文书的目标案由类别。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011021133.9A CN112163090A (zh) | 2020-09-25 | 2020-09-25 | 一种法律裁判文书的案由分类方法和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011021133.9A CN112163090A (zh) | 2020-09-25 | 2020-09-25 | 一种法律裁判文书的案由分类方法和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163090A true CN112163090A (zh) | 2021-01-01 |
Family
ID=73863809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011021133.9A Pending CN112163090A (zh) | 2020-09-25 | 2020-09-25 | 一种法律裁判文书的案由分类方法和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163090A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282750A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 模型训练方法及系统及装置及介质 |
CN115759038A (zh) * | 2022-11-24 | 2023-03-07 | 盐城金堤科技有限公司 | 法律诉讼案由识别方法及装置 |
CN117874230A (zh) * | 2023-12-21 | 2024-04-12 | 汉王科技股份有限公司 | 案由类别获取方法、装置、电子设备 |
-
2020
- 2020-09-25 CN CN202011021133.9A patent/CN112163090A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282750A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 模型训练方法及系统及装置及介质 |
CN115759038A (zh) * | 2022-11-24 | 2023-03-07 | 盐城金堤科技有限公司 | 法律诉讼案由识别方法及装置 |
CN115759038B (zh) * | 2022-11-24 | 2024-07-09 | 盐城天眼察微科技有限公司 | 法律诉讼案由识别方法及装置 |
CN117874230A (zh) * | 2023-12-21 | 2024-04-12 | 汉王科技股份有限公司 | 案由类别获取方法、装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN112163090A (zh) | 一种法律裁判文书的案由分类方法和终端 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN109508373B (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
CN110472027A (zh) | 意图识别方法、设备及计算机可读存储介质 | |
CN111915580A (zh) | 烟叶分级方法、系统、终端设备及存储介质 | |
CN110717009A (zh) | 一种法律咨询报告的生成方法及设备 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
Hu et al. | Predicting the quality of online health expert question-answering services with temporal features in a deep learning framework | |
CN113868391A (zh) | 基于知识图谱的法律文书生成方法、装置、设备及介质 | |
CN115687980A (zh) | 数据表的脱敏分类方法、分类模型训练方法及装置 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN109344246A (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
CN110069594B (zh) | 合同确认方法、装置、电子设备及存储介质 | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐系统 | |
CN112818206B (zh) | 一种数据分类方法、装置、终端及存储介质 | |
Purba et al. | A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla | |
CN112231473A (zh) | 一种基于多模态深度神经网络模型的商品分类方法 | |
CN117290596A (zh) | 用于多模态数据模型的推荐标签生成方法、装置、设备及介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN117115833A (zh) | 一种证件分类方法、装置、设备及存储介质 | |
CN110610378A (zh) | 产品需求分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |