CN107122451A

CN107122451A - 一种法律文书案由分类器的自动构建方法

Info

Publication number: CN107122451A
Application number: CN201710281403.1A
Authority: CN
Inventors: 金佩; 张德政; 贾麒; 谢永红; 齐宇馨; 栗辉
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2017-09-01
Anticipated expiration: 2037-04-26
Also published as: CN107122451B

Abstract

本发明提供一种法律文书案由分类器的自动构建方法，分类效率高、准确率高。所述方法包括：获取多类案由的法律文书，确定每类案由的测试语料；对每类测试语料去停用词和分词；根据分词结果，确定每类案由的基本关键词；根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表；输入待分类法律文书，对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。本发明涉及知识工程技术领域。

Description

一种法律文书案由分类器的自动构建方法

技术领域

本发明涉及知识工程技术领域，特别是指一种法律文书案由分类器的自动构建方法。

背景技术

近几年，我国最高人民法院为贯彻落实审判公开原则，设立了中国裁判文书网，规定除涉及国家秘密、个人隐私的、未成年人违法犯罪的、以调解方式结案的和其他不宜在互联网公布的裁判文书外，其余一律在网络上公布。这一政策为面向法律文书的自然语言处理技术带来了大量的研究资源。

在法律信息公开化的大时代背景下，在已有的海量法律文书中，让计算机获得学习能力和较准确的领域知识，有效利用这些海量的文本资源克服文本自然语言理解过程中的复杂性问题，实现文本分析，具有重要的理论价值和实际意义。

现有技术中，法律文书的案由提取，多为人工标记，效率低下；或是利用正则表达式进行匹配，准确率低。

发明内容

本发明要解决的技术问题是提供一种法律文书案由分类器的自动构建方法，以解决现有技术所存在的案由提取效率低下、准确率低的问题。

为解决上述技术问题，本发明实施例提供一种法律文书案由分类器的自动构建方法，包括：

获取多类案由的法律文书，构建案由基础语料库，根据构建的所述案由基础语料库，确定每类案由的测试语料；

对每类测试语料去停用词和分词；

根据分词结果，确定每类案由的基本关键词；

根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表；

输入待分类法律文书，对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。

进一步地，所述法律文书包括：判决书和裁定书；

所述获取多类案由的法律文书，构建案由基础语料库，根据构建的所述案由基础语料库，确定每类案由的测试语料包括：

获取多类案由的法律文书，根据获取的所述多类案由的法律文书，构建案由基础语料库；

针对第i类案由，从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并，得到第i类案由的测试语料。

进一步地，在对每类测试语料去停用词和分词之前，所述方法还包括：

对每类测试语料进行结构划分，去掉文书头部、文书尾部以及当事人信息。

进一步地，所述对每类测试语料去停用词和分词包括：

根据预先自定义的去停用词词典和分词词典，利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词；

对分词后得到的结果进行数据过滤。

进一步地，所述对分词后得到的结果进行数据过滤包括：

过滤掉分词后结果中的人名、地名、企业、法院。

进一步地，所述根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表包括：

根据分词结果，应用词向量模型对第i类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的第i类案由的基本关键词，确定第i类案由的扩充关键词列表。

进一步地，所述根据分词结果，应用词向量模型对第i类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的第i类案由的基本关键词，确定第i类案由的扩充关键词列表包括：

应用词向量模型对第i类测试语料进行词向量训练，将第i类测试语料分词结果中的所有词语投影到向量空间中，得到第i类测试语料的词向量模型；

加载第i类测试语料的词向量模型，计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度；

将计算得到的语义相似度由大到小进行排序，选取语义相似度最高且语义相似度均大于门限值的前N个词语，与确定的第i类案由的基本关键词，共同构成第i类案由的扩充关键词列表。

进一步地，所述根据分词结果，应用词向量模型对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表包括：

将计算得到的语义相似度由小到大进行排序，选取语义相似度最高且语义相似度均大于门限值的后N个词语，与确定的第i类案由的基本关键词，共同构成第i类案由的扩充关键词列表。

进一步地，所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：

对输入的所述待分类法律文书去停用词和分词；

根据分词结果，将所述待分类法律文书中的所有词投影到向量空间中，得到所述待分类法律文书的词向量模型，计算各类扩充关键词列表中的每个关键词与所述待分类法律文书的词向量模型中每个词语的语义相似度；

获取与每个关键词最接近的前M个词语的语义相似度进行求和，求和结果作为每个关键词与所述待分类法律文书的语义相似度；

将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。

进一步地，所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：

将第i类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，得到所述待分类法律文书与第i类案由的扩充关键词列表的语义相似度总和；

将得到的多个语义相似度总和进行比较，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。

本发明的上述技术方案的有益效果如下：

上述方案中，获取多类案由的法律文书，构建案由基础语料库，根据构建的所述案由基础语料库，确定每类案由的测试语料；对每类测试语料去停用词和分词；根据分词结果，确定每类案由的基本关键词；根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表；输入待分类法律文书，对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。这样，通过词向量训练，完成对自然语言描述的法律文书的理解，从而高效、准确地自动确定待分类法律文书的案由，完成待分类法律文书的分类。

附图说明

图1为本发明实施例提供的法律文书案由分类器的自动构建方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的案由提取效率低下、准确率低的问题，提供一种法律文书案由分类器的自动构建方法。

如图1所示，本发明实施例提供的法律文书案由分类器的自动构建方法，包括：

S101，获取多类案由的法律文书，构建案由基础语料库，根据构建的所述案由基础语料库，确定每类案由的测试语料；

S102，对每类测试语料去停用词和分词；

S103，根据分词结果，确定每类案由的基本关键词；

S104，根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表；

S105，输入待分类法律文书，对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。

本发明实施例所述的法律文书案由分类器的自动构建方法，获取多类案由的法律文书，构建案由基础语料库，根据构建的所述案由基础语料库，确定每类案由的测试语料；对每类测试语料去停用词和分词；根据分词结果，确定每类案由的基本关键词；根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表；输入待分类法律文书，对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。这样，通过词向量训练，完成对自然语言描述的法律文书的理解，从而高效、准确地自动确定待分类法律文书的案由，完成待分类法律文书的分类。

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述法律文书包括：判决书和裁定书；

本实施例中，分析了《人民法院信息网络系统建设技术规范——案由代码》(2015年修订本)，《人民法院信息网络系统建设技术规范——案由代码》(2015年修订本)中明确将所有案由划分为民事、刑事、行政、赔偿和执行五大类型，经分析判定其中民事和刑事两类最为常见。因此，本实施例从民事和刑事这两大类中选取了出现/发生频率最高的11类案由，并从网络中爬取这11类案由的法律文书，根据爬取的这11类案由的法律文书，构建案由基础语料库；针对每类案由，从构建的所述案由基础语料库中选取判决书和裁定书输出进行合并，形成11类案由的测试语料，具体的，针对第i类案由，从构建的所述案由基础语料库中选取相应的判决书和裁定书输出到同一文档中，得到第i类案由的测试语料。

本实施例中，所述案由基础语料库包括11类案由的所有形式的法律文书(判决书、裁定书、通知书等等)，每篇文书为一条语料，所述案由基础语料库存储了每篇文书的全文、案由和文书形式。每类案由的测试语料包括：判决书、裁定书。

本实施例中，例如，分别从网上对每类案由爬取5000份法律文书，构建案由基础语料库。针对每类案由，从构建的案由基础语料库中选取判决书和裁定书合并为一份文档，形成11类案由的测试语料，形成的11类案由包括：财产保险合同纠纷、房屋买卖合同纠纷、交通事故责任纠纷、金融借款合同纠纷、民间借贷纠纷、劳动合同纠纷、信用卡纠纷、离婚纠纷、盗窃罪、故意伤害罪、危险驾驶罪；如表1所示。

表1 11类案由

序号	类型	案由名称/内容
			1	民事	财产保险合同纠纷
2	民事	房屋买卖合同纠纷
			3	民事	交通事故责任纠纷
4	民事	金融借款合同纠纷
			5	民事	民间借贷纠纷
6	民事	劳动合同纠纷
			7	民事	信用卡纠纷
8	民事	离婚纠纷
			9	刑事	盗窃罪
10	刑事	故意伤害罪
			11	刑事	危险驾驶罪

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，在对每类测试语料去停用词和分词之前，所述方法还包括：

本实施例中，在对每类测试语料去停用词和分词之前，可以对每类测试语料进行结构划分，去掉文书头部、文书尾部以及当事人信息，只保留文书的案情陈述部分。

本实施例中，例如，对交通事故责任纠纷判决书进行结构划分后，得到的结构如下：

1.文书头部审理法院、审理程序、案件类型、案由、案号、年份

2.当事人信息原告、原告委托代理人、被告、被告委托代理人

3.审理经过案由、受理日期、主要审判人员、适用程序、开庭方式等

4.原告诉称事故发生时间、地点、主要交通工具、伤亡情况等

5.被告辩称被告垫付费用、是否承认事实、被告请求

6.法院查明事故认定时间、认定单编号、司法鉴定单位、日期等

7.法院观点认定事实情况、受害人年龄、认定费用情况、依据法条等

8.判决结果基本情况、被告赔偿情况、案件受理费、原告承担情况等

9.文书尾部审判人员情况、裁判日期、书记员

去掉文书头部、文书尾部以及当事人信息后，得到的结果为：

5.被告辩称被告垫付费用、是否承认事实、被告请求

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述对每类测试语料去停用词和分词包括：

对分词后得到的结果进行数据过滤。

本实施例中，根据预先自定义的去停用词词典StopWords.dic和分词词典LawDictionary.dic，利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词。

本实施例中，由于分词结果中的人名、地名、企业、法院对于之后的词向量训练扩充关键词，会产生较大误差，因此需过滤掉分词结果中的人名、地名、企业、法院，具体的步骤包括：识别分词结果中的人名、地名、企业、法院，并将识别出的人名、地名、企业、法院过滤掉，从而获得高质量的测试语料，为下一步词向量训练做准备。

本实施例中，经过数据过滤得到的部分结果包括：

上诉人机动车交通事故责任纠纷一案不服梅兴法民事判决本院提起上诉本院受理依法组成合议庭公开开庭进行审理上诉人被上诉人委托代理人到庭参加诉讼被上诉人本院传票传唤正当理由不到参加诉讼缺席审理本案现已审理终结原审法院审理认为本案机动车交通事故引起赔偿纠纷事故公安局交通警察大队作出交通事故认定书认定被告过错行为应当承担此次事故全部责任原告事故承担责任交警部门认定事实清楚定责准确被告没有异议予以确认对于交通事故赔偿协议交警部门调取证据交通事故赔偿协议委托书可以证实原告当时确实委托被告进行协商签订交通事故赔偿协议原审认为本案没有独立请求权该案处理结果没有法律利害关系需要本案承担民事责任被告委托代理人请求追加本案第三中华人民共和国民事诉讼法第五十六条关于第三规定不符依法不予支持认定交通事故赔偿协议是否有效两个方面进行判断第一委托人委托权限进行审查如果代理权限认定协议具有法律效力如果没有认定没有法律效力本案原告委托委托书写明代理人代理事项权限交通事故赔偿权委托书写明授权事项明确一般理解交通事故赔偿事项协商请求权不应理解能够被代理人权利作出放弃交通事故赔偿协议达成内容委托行为原告很多赔偿权利作出放弃委托行为明显没有代理权超越代理权依据中华人民共和国民法通则第六十六条规定没有代理权超越代理权或者代理权终止行为经过被代理人追认被代理人承担民事责任交通事故赔偿协议只有代理人签名原告签名表明原告当时协议认可庭审不予认可上述角度分析协议认定原告无效第二原审认为公民从事民事活动始终遵循公平原则交通事故赔偿协议书日期协议签订签订协议依据前提交警部门初次作出事故认定书当时认定原告主要责任被告次要责任事故认定书交警部门撤销作出重新认定改变认定责任划分。

本实施例中，数据过滤后，根据分词结果，对不同案由的核心词汇进行分析，根据分析结果，确定每类案由的基本关键词，各类案由及其基本关键词对应关系为：财产保险合同纠纷：财产；房屋买卖合同纠纷：房屋买卖；交通事故责任纠纷：交通；金融借款合同纠纷：金融；民间借贷纠纷：借贷；劳动合同纠纷：劳动；信用卡纠纷：信用卡；离婚纠纷：离婚；盗窃罪：盗窃；故意伤害罪：故意伤害；危险驾驶罪：危险驾驶。

本实施例中，根据分词结果，可以应用词向量(Word2Vec)模型对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的每案由的基本关键词，确定每类案由的扩充关键词列表，具体的步骤包括：

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述根据分词结果，应用词向量模型对第i类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的第i类案由的基本关键词，确定第i类案由的扩充关键词列表包括：

本实施例中，可以采用词向量模型中的跳跃式词共现(skip-gram)模型第i类测试语料进行词向量训练，将第i类测试语料分词结果中的每个词语投影到200维空间中，考虑一个词上下文的5个词语。采样的阈值为1e-3。学习速率alpha为0.025，设置若一个词语在文档中出现的次数小于5，就会丢弃。调用learnFile()和saveModel()方法对每一类测试语料进行学习，得到第i类测试语料的词向量模型。所述词向量是指根据词频、语义、上下文，将词语投影到向量空间中。语义越相似，上下文越相关，词语之间的距离越小。

本实施例中，再调用方法loadJavaModel()，加载第i类测试语料的词向量模型，利用distance(queryWord)方法，计算词向量模型中每个词语与第i类案由的基本关键词的语义相似度，并由大到小排序，选取相似度最高且大小均大于门限值(例如，0.8)的前N(例如，N＝4)个关键词，与确定的第i类案由的基本关键词，共同构成第i类案由的扩充关键词列表。按照上述方法，得到的11类案由的扩充关键词以及其与相应的基本关键词的语义相似度值如下：

财产保险合同纠纷：

投保0.89881，房屋0.87934，项目0.85115，保单0.80163

房屋买卖合同纠纷：

合同纠纷0.88907，购买价0.87294，查询费0.85092，房产局0.84104

交通事故责任纠纷：

病历0.83821，伤0.82867，交警部门0.82586，时限0.81145

金融借款合同纠纷：

融资0.85911，签订0.84167，买卖合同0.84166，约定0.83492

民间借贷纠纷：

民间0.96597，约束力0.93308，鉴定中心0.88921，关系0.85373

劳动合同纠纷：

辞退0.91625，作为0.89294，普通0.86403，拒绝接受0.86290

信用卡纠纷：

中银0.90783，分期付款0.88978，家装0.88137，业务0.84064

离婚纠纷：

结婚0.95378，终结0.95196，破裂0.94161，愿意0.92451

盗窃罪：

多次0.90784，参与0.85958，数额0.83954，犯罪0.82755

故意伤害罪：

共同犯罪0.92732，殴斗0.92485，情节0.92474，结论书0.91245

危险驾驶罪：

指控0.95676，罪名0.95616，证人0.94833，机关0.94215

本实施例中，将确定的第i类案由的扩充关键词和基本关键词，共同构成第i类案由的扩充关键词列表，最终得到的扩充关键词列表为基本关键词与扩充关键词的集合，显示如下：

财产保险合同纠纷：[财产，投保，房屋，项目，保单]

房屋买卖合同纠纷：[房屋买卖，合同纠纷，购买价，查询费，房产局]

交通事故责任纠纷：[交通，病历，伤，交警部门，时限]

金融借款合同纠纷：[金融，融资，签订，买卖合同，约定]

民间借贷纠纷：[借贷，民间，约束力，鉴定中心，关系]

劳动合同纠纷：[劳动，辞退，作为，普通，拒绝接受]

信用卡纠纷：[信用卡，中银，分期付款，家装，业务]

离婚纠纷：[离婚，结婚，终结，破裂，愿意]

盗窃罪：[盗窃，多次，参与，数额，犯罪]

故意伤害罪：[故意伤害，共同犯罪，殴斗，情节，结论书]

危险驾驶罪：[危险驾驶，指控，罪名，证人，机关]。

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述根据分词结果，应用词向量模型对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表包括：

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：

对输入的所述待分类法律文书去停用词和分词；

在前述法律文书案由分类器的自动构建方法的具体实施方式中，进一步地，所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：

本实施例中，M的取值可以为4，所述待分类法律文书的词向量模型中每个词语与各个扩充关键词列表中每个关键词的语义相似度如下：

A1，财产保险合同纠纷扩充关键词列表(keylist)

财产：[出院0.88594,强行0.88548,不怕困难0.88543,抵赖0.88541,两年0.88404,上诉人0.88395,基础0.88391,手臂0.8836765,狡诈0.8836632,期间0.883564,歪曲事实0.8835521,打击0.8834512]

本实施例中，以出院0.88594为例，其中，出院是待分类法律文书的分词结果，也是所述待分类法律文书的词向量模型中的词语，088594是财产这个关键词与出院的语义相似度。

投保：[被上诉人0.99694,上诉人0.99684,儿子0.99674,一路0.99668,自己0.99648,方向0.99636,经人介绍0.99633,支公司0.99633,人为0.99627,照顾0.99624，自己0.99604]

房屋：[]

项目：[]

保单：[]

A2，房屋买卖合同纠纷keylist

房屋买卖：[]

合同纠纷：[]

购买价：[]

查询费：[]

房产局：[]

A3，交通事故责任纠纷keylist

交通：[行业0.89651,下降0.89627,百货大楼0.89616,没见0.89558,狡诈0.89505,医治0.89494,雇佣0.89494,南方0.89482,焦点0.89473,父亲0.89470,视力0.89455,陪护0.89435]

病历：[]

伤：[震荡0.99832,鉴定0.99825,视网膜0.99812,证据0.99728,鉴定中心0.99696,法医0.99547,事实0.99539,收入0.99538,相关0.99477,中山大学0.99474,资料0.99472,计算0.99427]

交警部门：[年度0.98927,家庭0.98920,实际0.98910,包括0.98910,南方0.98892,增加0.98884,上诉人0.98879,发生0.98879,司法0.98866,费用0.98855,护理人员0.98854,医疗机构0.98854]

时限：[]

A4，金融借款合同纠纷keylist

金融：[]

融资：[]

签订：[十日0.50968,几乎0.50120,身份证0.50087,交通事故0.50014,两家0.49854,根据0.49818,起至0.49788,合理0.49745,抚养人0.49714,争议0.49664,本次0.49652,情况0.49642,请求0.49517,住宿费0.49503,交警队0.49499,手臂0.49488]

买卖合同：[]

约定：[]

A5，民间借贷纠纷keylist

借贷：[]

民间：[]

约束力：[]

鉴定中心：[法医0.99852,震荡0.99818,证据0.99813,中山大学0.99787,视网膜0.99776,相关0.99763,南方0.99756,委托0.99749,资料0.99748,事实0.99748,有关0.99731,法院0.99713]

关系：[影响0.95669,意见0.95625,司法0.95621,客观0.95617,为由0.95614,法医0.95592,所有0.95590,有关0.95589,提出0.95573,原审0.95569,受理0.95565,身体0.95556,自己0.95555]

A6，劳动合同纠纷keylist

劳动：[上诉人0.99778,被上诉人0.99757,自己0.99725,要求0.99717,不道德0.99707,能力0.99701,支公司0.99689,一路0.99668,生活0.99667,兴田0.99661,强制保险0.99661]

辞退：[]

作为：[]

普通：[判决0.83883,十月0.83643,代理0.83337,一三年0.83286]

拒绝接受：[]

A7，信用卡纠纷keylist

信用卡：[]

中银：[]

分期付款：[]

家装：[]

业务：[]

A8，离婚纠纷keylist

离婚：[]

结婚：[]

终结：[不符0.30762,给付0.28182,第十七条0.26850,路费0.25692,两家0.25602,单据0.25397,大楼0.24847,提起0.24735,财产损失0.24725,查明0.24640,劳务0.24548,本次0.24535,传唤0.24525]

破裂：[]

愿意：[]

A9，盗窃罪keylist

盗窃：[]

多次：[当事人0.99034,举证责任0.99032,被上诉人0.99013,上诉人0.98981,自己0.98981,诉讼请求0.98967,费用0.98961,负有0.98955,爸爸0.98954,申请0.98944,挫伤0.98942,实际0.98933]

参与：[]

数额：[法律责任0.97552,部分0.97510,不予0.97415,法律0.97396,交通费0.97342,情况0.97339,依法0.97331,受害人0.97284,合理0.97252,中华人民共和国0.97160,超过0.97124,当事人0.97116]

犯罪：[]

A10，故意伤害罪keylist

故意伤害：[]

共同犯罪：[]

殴斗：[]

情节：[]

结论书：[]

A11，危险驾驶罪keylist

危险驾驶：[]

指控：[]

罪名：[]

证人：[]

机关：[]

取每个扩充关键词最相近的前四个关键词的分数，求总和，结果如下：

财产保险合同纠纷：总分为7.52946

财产：3.54226

投保：3.98720

房屋：0

项目：0

保单：0

房屋买卖合同纠纷：总分为0

房屋买卖：0

合同纠纷：0

购买价：0

查询费：0

房产局：0

交通事故责任纠纷：总分为11.53263

交通：3.58399

病历：0

伤：3.99197

交警部门：3.95667

时限：0

金融借款合同纠纷：总分为2.01189

金融：0

融资：0

签订：2.01189

买卖合同：0

约定：0

民间借贷纠纷，总分为7.81802

借贷：0

民间：0

约束力：0

鉴定中心：3.9927

关系：3.83532

劳动合同纠纷：总分为7.33126

劳动：3.98977

辞退：0

作为：0

普通：3.34149

拒绝接受：0

信用卡纠纷：总分为0

信用卡：0

中银：0

分期付款：0

家装：0

业务：0

离婚纠纷：总分为1.11486

离婚：0

结婚：0

终结：1.11486

破裂：0

愿意：0

盗窃罪：总分为7.85933

盗窃：0

多次：3.9606

参与：0

数额：3.89873

犯罪：0

故意伤害罪：总分为0

故意伤害：0

共同犯罪：0

殴斗：0

情节：0

结论书：0

危险驾驶罪：总分为0

危险驾驶：0

指控：0

罪名：0

证人：0

机关：0

本实施例中，假设M＝4，以A1中的财产为例，因为出院，强行，不怕困难，抵赖这四个词语与财产的语义相似度值最大，因此，取出院，强行，不怕困难，抵赖这四个词语与财产的语义相似度进行相加，得到财产与所述待分类法律文书的语义相似度(3.54226)。

本实施例中，将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由；以财产保险合同纠纷为例，财产：3.54226；投保：3.98720；房屋：0；项目：0；保单：0；语义相似度相加后，得到的财产保险合同纠纷的语义相似度总分为7.52946。

本实施例中，按照上述方法，计算每类案由的语义相似度总分，对计算得到的各类语义相似度总和进行比较，比较结果如下：

交通事故责任纠纷>盗窃罪>民间借贷纠纷>财产保险合同纠纷>劳动合同纠纷>金融借款合同纠纷>离婚纠纷>房屋买卖合同纠纷＝信用卡纠纷＝故意伤害罪＝危险驾驶罪

所以，可以将所述待分类法律文书的案由判定为“交通事故责任纠纷”，完成了对所述待分类法律文书的分类，实现法律文书案由分类器的自动构建。

需要说明的是，在本文中，诸如第i和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种法律文书案由分类器的自动构建方法，其特征在于，包括：

对每类测试语料去停用词和分词；

根据分词结果，确定每类案由的基本关键词；

2.根据权利要求1所述的法律文书案由分类器的自动构建方法，其特征在于，所述法律文书包括：判决书和裁定书；

3.根据权利要求1所述的法律文书案由分类器的自动构建方法，其特征在于，在对每类测试语料去停用词和分词之前，所述方法还包括：

4.根据权利要求3所述的法律文书案由分类器的自动构建方法，其特征在于，所述对每类测试语料去停用词和分词包括：

对分词后得到的结果进行数据过滤。

5.根据权利要求4所述的法律文书案由分类器的自动构建方法，其特征在于，所述对分词后得到的结果进行数据过滤包括：

过滤掉分词后结果中的人名、地名、企业、法院。

6.根据权利要求1所述的法律文书案由分类器的自动构建方法，其特征在于，所述根据分词结果，对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表包括：

7.根据权利要求6所述的法律文书案由分类器的自动构建方法，其特征在于，所述根据分词结果，应用词向量模型对第i类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的第i类案由的基本关键词，确定第i类案由的扩充关键词列表包括：

8.根据权利要求1所述的法律文书案由分类器的自动构建方法，其特征在于，所述根据分词结果，应用词向量模型对每类测试语料进行词向量训练，扩充关键词，根据扩充的关键词和确定的基本关键词，确定每类案由的扩充关键词列表包括：

9.根据权利要求1所述的法律文书案由分类器的自动构建方法，其特征在于，所述对输入的所述待分类法律文书去停用词和分词、并进行词向量训练，根据所述待分类法律文书的词向量训练结果，计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：

对输入的所述待分类法律文书去停用词和分词；

10.根据权利要求9所述的法律文书案由分类器的自动构建方法，其特征在于，所述将每类案由扩充关键词列表中所有关键词与所述待分类法律文书的语义相似度相加，取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由包括：