CN107818138A

CN107818138A - 一种案件法律条例推荐方法及系统

Info

Publication number: CN107818138A
Application number: CN201710893794.2A
Authority: CN
Inventors: 王开红; 李建元; 陈涛; 张云云; 涂昶
Original assignee: Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co.,Ltd.
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-03-20
Anticipated expiration: 2037-09-28
Also published as: CN107818138B

Abstract

一种案件法律条例推荐方法，包括步骤1，获取裁判文书信息和基本的判案法律条例信息，并对裁判文书涉及到的敏感信息进行处理；步骤2，将获取的裁判文书进行预处理得到结构化信息和非结构化信息；步骤3，将结构化信息向量化，非结构化信息分句分词后向量化，并向量化基础上将的结构化信息和非结构化信息共同编码形成裁判文书向量；步骤4，将裁判文书向量输入到犯罪类型预测模型获取相应案件的详细类别，以及这个类别中应用的法律条例；步骤5，预测案件的犯罪类型得到法律条文的相关度矩阵，并且计算相似案例应用的法律条例置信度，最后基于犯罪类型及相似案件给出案件应用的法律条文推荐组合。

Description

一种案件法律条例推荐方法及系统

技术领域

本发明属于司法领域和自然语言处理领域，涉及一种案件法律条例推荐方法及系统。

背景技术

世界信息化快速发展，互联网、大数据渗透到生活的各个角落，司法领域信息化受到广泛关注，“互联网+法治”的大数据法制时代已经悄然来临。随着国民素质的提高，人民群众的法律意识越来越强，司法需求日趋多元，我国积极推动司法信息化发展，近年来各级法院信息化建设蓬勃发展，信息化与各项业务工作的良性互动格局基本形成，借助网上办案平台，立案网络化、裁判文书公开化、审判流程可视化等司法举措已落地有声。2013年7月1日，中国裁判文书网上线，生效裁判文书开始在互联网公布，到2017年8月中国裁判文书网累计公开裁判文书超过3247万篇，总访问量突破100亿次，日均访问量达1729 万人次，单日最高访问量高达5000万人次。其中超过17.5亿的访问量来自海外，访问范围覆盖全球210多个国家和地区。中国裁判文书网已成为全球最大的裁判文书公开平台。

案件数量的不断增长，给法律服务带来巨大压力。但是，司法领域需要很强的专业性，我国适用的法律条例众多，专业律师也很难涉猎所有的法律条款，并且案件种类繁多，从海量的法律条款中找到恰当的支持本案件的法律条款耗时耗力。因此，如何借助人工智能推进司法信息化，提高办案人员工作效率保障人民群众的司法需求是亟待解决的问题。目前，有很多法律条款的辅助查询工具，但是根据案件基本情况推荐适用的法律的资料较少，专利 CN201410356389.3是存储法律问题及法律对应的解决方案等生成法律知识模型库，根据查询语句从法律知识模型库中查找匹配的法律问题，从而给出对应的法律条款生成可编辑法律文书；专利CN201510528314.3公开了一种用于法律咨询服务的智能法律知识库及其查询系统，输入法律需求可获得对应的法律条例；专利CN201510869254.1通过获取查询文本的关键词，并用含义相同或者相近的法律词来进行关键词扩充，从而获取与查询相关的裁判文书，生成对应的法律条文。

首先，大部分法律条文查询系统基于创建的法律条文知识库，查询结果受限于知识库的规模和准确性，某些法律条文可能不适合同时应用，并且不能根据输入的案件信息进行智能推荐；其次，针对某个法律问题，当事人不同或者犯罪情节及过程等有差别，会影响查询结果；并且，一个案件情况可能涉及多种法律问题，查询单个问题不是最好的查询方式。

发明内容

本发明提出了一种推荐准确性高、可扩展的案件法律条例推荐方法及系统。

本发明采用的技术方案是：

一种案件法律条例推荐方法，其特征在于：包括

步骤1，获取裁判文书信息和基本的判案法律条例信息，并对裁判文书涉及到的敏感信息进行处理；

步骤2，将获取的裁判文书进行预处理得到结构化信息和非结构化信息；

步骤3，将结构化信息向量化，非结构化信息分句分词后向量化，并在向量化的基础上将结构化信息和非结构化信息共同编码形成裁判文书向量；

步骤4，将裁判文书向量输入到犯罪类型预测模型获取相应案件的详细类别 C，以及这个类别中应用的法律条例tL；

步骤5，待检索的裁判文书的推荐法律条文输出，包括

(1)将待检索的裁判文书经步骤1和步骤2进行向量化得到的搜索案件向量，并计算与步骤3中训练数据相似的裁判文书，进行相似案例的法律条例置信度计算，并提取置信度排名靠前s′的相似案例对应的法律条例 sLAW＝{sL₁,sL₂,...,sL_s′}；

(2)根据案件犯罪类型获取应用多的法律条例，统计犯罪类型对应的法律条例tL和每条法律条例对应的应用次数nL，按照nL降序排序，取类别中应用较多的t条法律条例，则由犯罪类型获得相关的法律推荐tLAW＝[tL₁,tL₂,…,tL_t]，并通过应用次数nL构建法律条例相关度矩阵M；

(3)将sLAW中的每条法律条例与tLAW中的法律条例相对应，从法律条例相关度矩阵M中获取对应上的法律条例的相关系数，并根据相关系数的相关度输出推荐的法律条例，并且将推荐的多组法律条例进行排序输出。

进一步，结构化信息包括性别，年龄，职业，身体状况，案发地，犯罪类型，法律条例，非结构化信息包括案情信息。

进一步，步骤3中通过词编码模型与句编码模型对结构化信息和非结构化信息进行向量化，具体包括：

词编码模型2对结构化信息进行编码，输出维度为dim₂的词向量；

词编码模型1对非结构化信息分局分词后的单词进行编码，输出维度为dim₁的词向量；

句编码模型1是将经过词编码模型1词编码后的单词再进行编码，输出维度为dim₂的句向量；

句编码模型2是将句编码模型1编码后的句向量和词编码模型2编码后的词向量进一步编码为裁判文书向量。

进一步，步骤5的(1)中置信度计算步骤包括：

搜索案件向量Vdoc和某个训练数据的裁判文书向量doc_i通过夹角余弦的形式如公式(1)，经过降序排序，获取前s个最相似案例，s取值要适中，

分别统计s个相似案例中应用了哪些法律条例，分别计算这些法律条例的置信度，某个案件适用法律条例j的置信度如公式(2)

其中，sL_j是案件适用法律i的置信度，num(j)是s个相似案例中使用法律j的案件数量，s是总的相似案例数量，sL_j的值在0到1之间，对sL_j进行降序排序，值越大则置信度越高。

进一步，步骤5的(1)中

进一步，步骤5的(2)中t的选取可按照公式(3)计算，

通过应用次数构建法律条例相关度矩阵M，如公式(4)

其中，num(·)是取个数的函数，表示取满足条件的个数，max()是取最大值函数，α是一个系数在0到1之间，表示占最大值的百分比，num(nL＞αmax(nL)) 是处理整个类别中应用的法律条例不是特别多的情况；Th是一个常数阈值；m_ij是 t条法律中第i,j条法律条例的相关系数，且i,j∈[1,t]，计算如公式(5)

其中∩表示同时出现法律条例i,j，num(·)是取个数的函数，则分子表示同时出现第i,j条法律条例的案件个数；分母是时出现第i,j条法律条例并且j从1 到t的和，m_ij∈[0,1]值越大相关性越高，根据相关性组合输出推荐的法律条例。

进一步，步骤5的(3)中推荐的法律条例的输出具体步骤包括：

将sLAW中的每条法律条例与tLAW中的法律条例相对应，当sLAW中的某条法律sL_p与tLAW中法律条例tL_q相对应，则取的关度矩阵M中的q行 m_qj,j＝{1,2,...,t}并进行排序，取前t′个m_qj,j＝{1,2,...,t}对应的条法律条例 GL_p＝{sL_p,l₁,l₂,...,l_t′}，构成一组法律推荐输出，GL_p中至少包一条sLAW中的法律条例，l是与tL_q相关度高的前t′个法律条例；

当sLAW所有的法律条例均能与tLAW中的法律条例对应上，则sLAW共有s′ 条置信度高的法律条例，则根据相关度矩阵共有s′组法律推荐输出，将sLAW与 tLAW中无法对应的法律条例丢弃，如果sLAW中所有的法律条例均无法对应到 tLAW，则推荐失败；

对推荐的法律条例组GL进行排序输出，当每组法律条例中包含LAW中法律条例多，则优先输出；当包含的sLAW中法律条例个数相同，则总置信度高的法律条例组优先输出。

一种案件法律条例推荐系统，其特征在于：包括依次连接的数据输入模块、文书预处理模块、法律推荐预处理模块、法律推荐模块、输出模块；

数据输入模块，用于输入待查查询的案件；

文书预处理模块，用于将待查询的案件进行信息提取并向量化；

法律推荐预处理模块，用于初步筛选可能适用的法律条例，根据犯罪类型获得法律条例相关度矩阵，根据相似案例获得法律的置信度；

法律推荐模块，用于计算搜索案件适用的法律条例；

输出模块，用于展示推荐结果。

进一步，所述法律推荐预处理模块包括犯罪类型预测模型和相似案例计算模型，所述相似案例计算模型的置信度计算步骤包括：

待查询案件的搜索案件向量Vdoc和某个训练数据的裁判文书向量doc_i通过夹角余弦的形式如公式(1)，经过降序排序，获取前s个最相似案例，s取值要适中，

进一步，基于所述犯罪类型预测模型的法律条例相关矩阵计算步骤包括：

统计犯罪类型对应的法律条例tL和每条法律条例对应的应用次数nL，按照 nL降序排序，取类别中应用较多的t条法律条例，则由犯罪类型获得相关的法律推荐tLAW＝[tL₁,tL₂,…,tL_t]，这里t的选取可按照公式(3)计算，通过应用次数构建法律条例相关度矩阵M，如公式(4)

其中，num(·)是取个数的函数，表示取满足条件的个数，max()是取最大值函数，α是一个系数在0到1之间，表示占最大值的百分比，num(nL＞αmax(nL)) 是处理整个类别中应用的法律条例不是特别多的情况，Th是一个常数阈值；m_ij是t条法律中第i,j条法律条例的相关系数，且i,j∈[1,t]，计算如公式(5)

本发明的有益效果：

1、先预测犯罪类型，并结合犯罪类型给出推荐的法律条款及法律条款之间的相关度矩阵，模型结构简化，利用相似案例的法律条款进行修正，提高推荐的准确性。

2、提取裁判文书案情信息和当事人、罪名等案件结构化特征信息信息，并对结构化信息进行归并对应处理，比整个裁判文书或者部分文书信息进行向量化更具有代表性。

3、先对文本数据进行词编码，在此基础上再进行句子编码，最后将裁判文书案件信息和提取的结构化向量化，句编码过程中运用深度学习的方法，深度挖掘文本信息。

4、具有一定的可扩展性。

附图说明

图1为本发明的系统图。

图2为本发明的文本向量化流程图。

图3为某一具体的裁判文书信息示意图。

图4为某个案件的具体详情示意图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

参见图1，一种案件法律条例推荐系统，包括依次连接的数据输入模块、文书预处理模块、法律推荐预处理模块、法律推荐模块、输出模块；

数据输入模块，用于输入待查查询的案件；

法律推荐模块，用于计算搜索案件适用的法律条例；

输出模块，用于展示推荐结果。

具体的推荐方法如下：

本实施例以上海地区的刑事裁判文书为例,共有164902个裁判文书，犯罪类型有248种，应用法律类型有280种，如《刑法》《环境保护法》《土地法等》。

步骤1：数据获取

授权获取裁判文书信息，并对裁判文书中涉及到的隐私信息进行处理，从裁判文书中可以看到被告人信息、犯罪类型、案情简介、应用的法律条文、判决结果等信息。获取具体的裁判文书信息如图3所示。

授权获取法律条文信息，如：《刑法》、《民法》、《知识产权法》等，并保存。

步骤2：裁判文书预处理

裁判文书一般都有固定的格式，记录了犯罪当事人的基本信息(包括姓名、性别、出生年月、职业，身体状况)，辩护人信息、立案审讯信息、原告或者检察院的指控信息(包含案发地、案发时间、犯罪具体描述)、法院根据双方提供的证据认定的犯罪事实描述(以下统称案情信息)、犯罪类型信息、案件应用的法律条例信息等。

将步骤1中获取到的裁判文书数据作为训练数据，进行预处理。由于不同的当事人犯案可能会对应不同的法律条例，存在一些地方性法律条款信息，根据案发时间可以判断当事人犯案时的年龄，因此采用自然语言处理实体识别技术或者正则表达式的形式提取裁判文书中信息，包括：当事人基本信息、案发地、案发时间、案情信息、犯罪类型信息、案件应用的法律条例信息。

(1)将当事人性别编码为男、女，当事人基本信息中按照当事人出生年月和案发时间，计算当事人犯案时的年龄，对应到：未成年、青年、中年、老年；同样按照法律上规定的特殊人员信息将当事人的职业映射为：普通、军人、公务员、警察等；将当事人的身体状况映射为：健康，怀孕妇女，哺乳期妇女，残疾人，精神疾病患者，癌症等。经过处理后的当事人信息构成结构化的特征：性别，年龄，职业，身体状况。

(2)案发地按照中国的行政区(最小粒度为省直辖市)进行处理，案情信息是一段描述性文本信息，需要将文本向量化之后使用，犯罪类型信息也进行唯一编码，方便一一对应并为后续处理做好准备。

(3)将法律条例信息进行处理，标记法律出台或者修订的时间，将一条法律中的多个条款信息进行拆分。将法律类型和法律条例分别编码处理，如《刑法》001，第一条001，出台时间1979年，则刑法第一条编码为0010011979，法律条例的编码具有唯一性。

最终，裁判文书经过预处理之后得到结构化信息：性别，年龄，职业，身体状况，案发地，犯罪类型，法律条例，和非结构化信息：案情信息。

提取裁判文书中的当事人信息、案发地和案发时间信息、案情信息、犯罪类型信息及判刑应用的法律条例信息，例如：

字段	描述
		姓别	女
年龄	未成年
		职业	普通
身体状况	健康
		案发地	上海
案发时间	20140128
		案情信息	被告人周**以非法….
法律条例	0010011979(《刑法》第二百六十四条)

步骤3：文本向量化

整个裁判文书文本较长，案情信息描述文本不会过于冗长，如果将整个裁判文书进行向量化，会引入不必要的干扰不能突出重点，然而传统的自然语言处理one-hot，tf-idf等向量化方式不考虑上下文之间的关联，向量化过程中不能很好的表示裁判文书所表达的信息。只提取案情信息则包含的当事人信息较少，不同的犯案当事人的判决结果可能存在差别。为了更好的表示裁判文书信息，本实施例采用深度学习及步骤2中提取的结构化信息f进行向量化，算法示意图如图2。

计算机无法直接处理文本信息，首先需要将文本进行分词处理，中文不像英语，单词中没有明确的分割符需要借助分词工具完成分词。本实施例中通过制作司法领域专用词典和无意义词的停用词典，采用jieba分词基于词典和停用词典进行分词。步骤2中的案情信息先进行分句，得到n个句子 ws＝[ws₁,ws₂,...,ws_n]，对每个句子进行分词，例如第i(1≤i≤n)句ws_i经过分词后得到ws_i＝[w₁,w₂,...]，w₁，w₂是ws_i分词后的单词，vs＝[vs₁,vs₂,...,vs_n]是ws对应句子的单词经过词编码器编码后的向量，例如，句子ws_i经过编码后得到vs_i＝[vw₁,vw₂,...]， vw₁是单词w₁经过词编码器的词向量，维度为dim₁；s＝[s₁,s₂,…,s_n]是对应vs中句子所有的词向量经过句子编码器1后的句向量，s₁是vs₁的句向量维度为dim₂；f＝[性别，年龄，职业，身体状况，案发地]是步骤2中结构化的特征向量，vf是经过词编码模型2后的词向量，向量维度为dim₂，将特征向量vf与句向量s共同经过句子编码模型2，得到文书向量doc，vf与s的维度相同。裁判文书向量是结构化向量和案情信息文本共同编码的。

(1)词编码模型

词编码模型1和词编码模型2的模型结构相同，维度不同。本实施例首先采用词编码模型1对分词后的单词编码为词向量，词向量维度为dim₁，即用一个维度为dim₁的向量表示一个单词，dim₁的取值按照实际的业务需求来定。对特征 f采用词编码模型2进行编码，维度为dim₂与句子编码模型输出的句子向量维度相同。这里的词编码模型是将单词进行向量化，word2vec^[1]、glove^[2]或者其他深度学习等向量化模型均可适用。

(2)句编码模型

句编码模型1是将经过词编码后的单词再进行编码，输出句向量；句编码模型2是将句向量进一步编码为文本向量，即用一个向量表示整个输入的文本信息。深度学习LSTM^[3]时间递归神经网络或者GRU^[4]等模型均可进行编码，深度挖掘文本隐含的信息量。

具体的，法律文书是非结构化信息，计算机无法直接计算，首先需要将文本进行分词处理，中文不像英语，单词中没有明确的分割符需要借助分词工具完成分词。本实施例中通过制作司法领域专用词典和无意义词的停用词典，采用jieba分词基于词典和停用词典进行分词。如某个案件详情如图4所示。

首先按照标点符号断句分为4句，然后进行分词得到：

1：被告/单位/公司/被告人/违反/发票/法规/被告人/人为/被告/单位/虚开/ 增值税/专用发票/虚开/税款/数额较大/致使/国家/税款/情节严重/被告/单位/公司/构成/虚开/增值税/专用发票/被告人/责任人员/行为/构成/单位/虚开/增值税 /专用发票/

2：公诉/机关/成立/本院/予以/支持/

3：被告人/投案/犯罪事实/被告人/被告/单位/认定/自首/结合/被告/单位/ 补缴/税款/被告/依法/处罚/被告人/依法/减轻/处罚/

4：辩护人/要求/被告人/处罚/意见/本院/予以/采纳

经过分句后得到4个句子，每个句子有若干单词，本实施例选取word2vec 词编码模型，并设置dim₁＝dim₂＝100，经过词编码后的单词向量均为100维；本实施例选取LSTM短时记忆模型作为句编码模型，经过据编码模型后的向量维度为100维，最后将步骤2中的特征值向量和经过句子编码模型2的向量进行编码，得到最终的文本向量doc。

步骤4：犯罪类型预测模型

相同的犯罪类型，根据犯案情节轻重，当事人的具体信息，认罪情况等往往会有不同的判案依据和量刑标准，犯罪类型预测模型是在目前法律规定的犯罪类型上再进行进一步细化，以提供更准确的法律依据。

步骤2中已经提取出了犯罪类型和应用的法律条例信息，并将这些信息进行了结构化，步骤3中获得了裁判文书的文本向量，即每个向量化的裁判文书可以对应到相应的犯罪类型和法律条例。将经过处理的裁判文书按照法律上规定的犯罪类型进行划分，为案件数量多的犯罪类型构建预测模型，即将裁判文书进行更详细的划分。这里的预测模型可以采用Kmeans模型或者其他聚类模型，将向量化的裁判文书信息作为输入，针对不同的犯罪类型构建预测模型。

裁判文书中原告或者检察院会指控被告人的犯罪类型，或者法院根据原告和被告的陈述可以比较容易的知道案件的犯罪类型，输入一个案件，经过步骤2 和步骤3得到案件的向量化，输入到对应的预测模型中，可获得这个案件属于哪个详细的类别C，以及这个类别中应用了哪些法律条例tL。

步骤5：推荐法律条文输出

比较相似的案例一般应用的法律依据也具有一定的相似性，相同的犯罪类型应用的法律依据也具有相似性，只运用相似案例或者犯罪类型来推荐法律条例具有一定的片面性，结合相似案例和犯罪类型共同推荐法律条例更具有准确性和适用性。

(1)基于相似案例的法律条例置信度计算

经过步骤3已经得到很多训练数据的裁判文书向量doc，输入待检索的裁判文书，经过步骤1和步骤2进行向量化得到搜索案件向量Vdoc，搜索案件Vdoc和某个训练数据doc_i通过夹角余弦的形式如公式(1)，经过降序排序，获取前s个最相似案例，s取值要适中。本实施例中s取值为100。

分别统计s个相似案中应用了哪些法律条例，分别计算这些法律条例的置信度，某个案件适用法律条例j的置信度如公式(2)

其中，sL_j是案件适用法律i的置信度，num(j)是s个相似案例中使用法律j的案件数量，s是总的相似案例数量，sL_j的值在0到1之间。对sL_j进行降序排序，值越大则置信度越高。

(2)基于犯罪类型的法律条例相关矩阵计算

步骤5中(1)根据案件的相似度获得置信度高的法律条例，步骤4根据案件犯罪类型获取应用多的法律条例，统计犯罪类型对应的法律条例tL和每条法律条例对应的应用次数nL，按照nL降序排序，取类别中应用较多的t条法律条例，则由犯罪类型获得相关的法律推荐tLAW＝[tL₁,tL₂,…,tL_t]。但是一些法律条例规定的内容或者出台的时间不同，不会应用于一个案件中，计算法律条例的相关性，查看哪些法律条例经常应用于一种案件。通过应用次数构建法律条例相关度矩阵M，如公式(4)

其中，num(·)是取个数的函数，表示取满足条件的个数，max()是取最大值函数，α是一个系数在0到1之间，本实施例可取值为0.5，根据实际需要确定，表示占最大值的百分比，num(nL＞αmax(nL))是处理整个类别中应用的法律条例不是特别多的情况。Th是一个常数阈值，根据实际的业务需求确定，t的取值太大相关度矩阵较大，取值太小导致信息不全，本实施例Th取值为100。m_ij是t 条法律中第i,j条法律条例的相关系数，且i,j∈[1,t]，计算如公式(5)

(3)获得推荐的法律条例

步骤5中(1)中对sL_i进行降序排序，提取置信度排名为前s′的法律条例 sLAW＝{sL₁,sL₂,...,sL_s′}，s′不能太大，本实施例s′取值为10。根据步骤5 中(2)步计算的法律条例相关度矩阵，输出推荐的法律条例：

①将sLAW中的每条法律条例与tLAW中的法律条例相对应，例如，sLAW中的某条法律sL_p与tLAW中法律条例tL_q相对应，则取的关度矩阵M中的q行 m_qj,j＝{1,2,...,t}并进行排序，取前t′个m_qj,j＝{1,2,...,t}对应的条法律条例 GL_p＝{sL_p,l₁,l₂,...,l_t′}，t′取值为5，构成一组法律推荐输出，GL_p中至少包一条sLAW 中的法律条例，l是与tL_q相关度高的前t′个法律条例。

②如果sLAW所有的法律条例均能与tLAW中的法律条例对应上，则sLAW共有s′条置信度高的法律条例，则根据相关度矩阵共有s′组法律推荐输出，将sLAW 与tLAW中无法对应的法律条例丢弃，如果sLAW中所有的法律条例均无法对应到 tLAW，则推荐失败。

③对推荐的法律条例组GL进行排序输出。排序的思想是每组法律条例中包含LAW中法律条例多，则优先输出；如果包含的sLAW中法律条例个数相同，则总置信度高的法律条例组优先输出。

本发明首先运用结构化特征信息和案件详情信息对文本进行向量化，其次预测案件的犯罪类型得到法律条文的相关度矩阵，并且计算相似案例应用的法律条例置信度，最后基于犯罪类型及相似案件给出案件应用的法律条文推荐组合。

本发明先预测犯罪类型，并结合犯罪类型给出推荐的法律条款及法律条款之间的相关度矩阵，模型结构简化，利用相似案例的法律条款进行修正，提高推荐的准确性；提取裁判文书案情信息和当事人、罪名等案件结构化特征信息信息，并对结构化信息进行归并对应处理，比整个裁判文书或者部分文书信息进行向量化更具有代表性；先对文本数据进行词编码，在此基础上再进行句子编码，最后将裁判文书案件信息和提取的结构化向量化，句编码过程中运用深度学习的方法，深度挖掘文本信息；具有一定的可扩展性。

Claims

1.一种案件法律条例推荐方法，其特征在于：包括

步骤3，将结构化信息向量化，非结构化信息分句分词后向量化，并在向量化基础上将结构化信息和非结构化信息共同编码形成裁判文书向量；

步骤4，将裁判文书向量输入到犯罪类型预测模型获取相应案件的详细类别C，以及这个类别中应用的法律条例tL；

步骤5，待检索的裁判文书的推荐法律条文输出，包括

(1)将待检索的裁判文书经步骤1和步骤2进行向量化得到的搜索案件向量，并计算与步骤3中训练数据相似的裁判文书，进行相似案例的法律条例置信度计算，并提取置信度排名靠前s′的相似案例对应的法律条例sLAW＝{sL₁,sL₂,...,sL_s′}；

2.根据权利要求1所述的一种案件法律条例推荐方法，其特征在于：结构化信息包括性别，年龄，职业，身体状况，案发地，犯罪类型，法律条例，非结构化信息包括案情信息。

3.根据权利要求1所述的一种案件法律条例推荐方法，其特征在于：步骤3中通过词编码模型与句编码模型对结构化信息和非结构化信息进行向量化，具体包括：

4.根据权利要求1所述的一种案件法律条例推荐方法，其特征在于：步骤5的(1)中置信度计算步骤包括：

5.根据权利要求4所述的一种案件法律条例推荐方法，其特征在于：步骤5的(1)中

6.根据权利要求1所述的一种案件法律条例推荐方法，其特征在于：步骤5的(2)中t的选取可按照公式(3)计算，

<mrow> <mi>t</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>L</mi> <mo>></mo> <mi>&alpha;</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <mi>n</mi> <mi>L</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>T</mi> <mi>h</mi> <mo><</mo> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>L</mi> <mo>></mo> <mi>&alpha;</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <mi>n</mi> <mi>L</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>T</mi> <mi>h</mi> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

通过应用次数构建法律条例相关度矩阵M，如公式(4)

其中，num(·)是取个数的函数，表示取满足条件的个数，max()是取最大值函数，α是一个系数在0到1之间，表示占最大值的百分比，num(nL＞αmax(nL))是处理整个类别中应用的法律条例不是特别多的情况；Th是一个常数阈值；m_ij是t条法律中第i,j条法律条例的相关系数，且i,j∈[1,t]，计算如公式(5)

<mrow> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>tL</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>tL</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>tL</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>tL</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中∩表示同时出现法律条例i,j，num(·)是取个数的函数，则分子表示同时出现第i,j条法律条例的案件个数；分母是时出现第i,j条法律条例并且j从1到t的和，m_ij∈[0,1]值越大相关性越高，根据相关性组合输出推荐的法律条例。

7.根据权利要求1所述的一种案件法律条例推荐方法，其特征在于：步骤5的(3)中推荐的法律条例的输出具体步骤包括：

将sLAW中的每条法律条例与tLAW中的法律条例相对应，当sLAW中的某条法律sL_p与tLAW中法律条例tL_q相对应，则取的关度矩阵M中的q行m_qj,j＝{1,2,...,t}并进行排序，取前t′个m_qj,j＝{1,2,...,t}对应的条法律条例构成一组法律推荐输出，GL_p中至少包一条sLAW中的法律条例，l是与tL_q相关度高的前t′个法律条例；

当sLAW所有的法律条例均能与tLAW中的法律条例对应上，则sLAW共有s′条置信度高的法律条例，则根据相关度矩阵共有s′组法律推荐输出，将sLAW与tLAW中无法对应的法律条例丢弃，如果sLAW中所有的法律条例均无法对应到tLAW，则推荐失败；

8.一种案件法律条例推荐系统，其特征在于：包括依次连接的数据输入模块、文书预处理模块、法律推荐预处理模块、法律推荐模块、输出模块；

数据输入模块，用于输入待查查询的案件；

法律推荐模块，用于计算搜索案件适用的法律条例；

输出模块，用于展示推荐结果。

9.根据权利要求8所述的一种案件法律条例推荐系统，其特征在于：所述法律推荐预处理模块包括犯罪类型预测模型和相似案例计算模型，所述相似案例计算模型的置信度计算步骤包括：

10.根据权利要求9所述的一种案件法律条例推荐系统，其特征在于：基于所述犯罪类型预测模型的法律条例相关矩阵计算步骤包括：

统计犯罪类型对应的法律条例tL和每条法律条例对应的应用次数nL，按照nL降序排序，取类别中应用较多的t条法律条例，则由犯罪类型获得相关的法律推荐tLAW＝[tL₁,tL₂,…,tL_t]，这里t的选取可按照公式(3)计算，通过应用次数构建法律条例相关度矩阵M，如公式(4)

其中，num(·)是取个数的函数，表示取满足条件的个数，max()是取最大值函数，α是一个系数在0到1之间，表示占最大值的百分比，num(nL＞αmax(nL))是处理整个类别中应用的法律条例不是特别多的情况，Th是一个常数阈值；m_ij是t条法律中第i,j条法律条例的相关系数，且i,j∈[1,t]，计算如公式(5)