CN113536780A

CN113536780A - 一种基于自然语言处理的企业破产案件智能辅助判案方法

Info

Publication number: CN113536780A
Application number: CN202110728177.3A
Authority: CN
Inventors: 刘中祺; 董启文; 罗轶凤; 钱卫宁; 周傲英
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-22

Abstract

本发明公开了一种基于自然语言处理的企业破产案件智能辅助判案方法，该方法包括：获取待判案的企业破产案件的案情描述文本；对文本进行分句、分词与向量化表示；将预先构建好的破产案件要素体系作为分类体系，将待判案件文本向量输入预先训练好的要素分类模型，得到该案件中存在的破产案件要素；对预先构建好的破产案件案例库中案件及当前待判案件的破产案件要素进行向量化表示，计算相似度进行类案推荐；将待判案件中代表破产案件要素的语句对应向量输入预先训练好的破产裁定模型中，得到判案结果。本发明与现有技术相比可以提高法官对企业破产案件的判案效率，避免破产案件中同案不同判的问题，提高破产案件判案的公正与权威。

Description

一种基于自然语言处理的企业破产案件智能辅助判案方法

技术领域

本发明涉及机器学习及深度学习技术领域，尤其是一种基于自然语言处理的企业破产案件智能辅助判案方法。

背景技术

破产案件的数量多、类型化程度高，司法审判实务中“案多人少”的矛盾突出。同时，部分案件法律关系复杂，事实认定和法律分析的难度较大，一些“同案不同判”的现象降低了司法公信力，有待通过技术手段提升司法效率和司法公平。为了紧紧抓住处置“僵尸企业”这个牛鼻子，全面推进破产审判工作，解决破产案件启动难的问题，将破产审判专业化建设推上新台阶，实现破产审判信息化程度的新跨越。

综上所述，针对破产案件审理过程中事务性工作繁重、类案获取难度大、裁定标准理解不统一的问题，提出一种企业破产案件的智能辅助判案方法具有十分重要的意义。

发明内容

本发明的目的是针对现有技术的不足而提出的一种基于自然语言处理的企业破产案件智能辅助判案方法，采用基于机器学习与深度学习模型，构建企业破产案件要素分类模型，获得待判破产案件中存在的破产案件要素，计算待判案件破产要素与破产案件案例库其他案件要素间的相似度，进行类案推荐，同时构建企业破产裁定模型，输出模型判案结果，提高法官对企业破产案件的判案效率，有效解决破产案件启动难以及类案获取难度大的问题，将破产审判专业化建设推上新台阶，统一了裁定标准的理解，大大减轻案件审理过程中事务性工作，实现破产审判信息化程度的新跨越，提高法官对企业破产案件的判案效率，避免破产案件中同案不同判的问题，减少破产案件误判现象，提高破产案件判案的公正与权威。

实现本发明目的的具体技术方案是：一种基于自然语言处理的企业破产案件智能辅助判案方法，其特点是采用构建企业破产裁定模型的方法，计算待判案件破产要素与破产案件案例库其他案件要素间的相似度进行类案推荐，其裁定模型的构建和判案结果输出包括以下具体步骤：

步骤1：获取待判案件信息

将待判案的企业破产案件的案情描述以文本的形式输入，获取待判案的企业破产案件的案件情况描述。

步骤2：对待判案件信息进行向量化表示

将步骤1中的案件情况描述的文本进行中文分句，并对每个句子进行中文分词，将分词后的句子输入利用预先训练好的词向量模型，得到每一句的句向量表示，然后得到该待判破产案件的文本向量。

步骤3：对待判案件进行破产要素分类

将预先构建好的破产案件要素体系作为案件描述句子分类体系，将步骤2中向量化处理后的案件文本向量分句输入预先训练好的要素分类模型，根据要素分类模型的输出，得到每一个句子对应的破产案件要素。

步骤4：类案推荐

对预先构建好的破产案件案例库中案件的破产案件要素，以及步骤3处理后获得的当前待判案件中存在的破产案件要素进行One-Hot向量化表示，计算待判案件要素向量及案例库其他案件要素向量的相似度，选取相似度最高的部分案件，得到与待判破产案件相似的类案资料；

步骤5：破产结果辅助裁定

提取步骤3处理后得到的待判案件信息中代表破产案件要素的语句的文本向量，将向量输入预先训练好的破产裁定模型中，根据所述破产裁定模型的输出得到判案结果。

所述步骤2的中文分句、分词是将案件信息文本的中文分句为以标点符号为基础的分句，对过长的语句将按逗号等标点符号进行进一步分割；语句的分词为利用分词工具Jieba分词进行。

所述步骤2的词向量模型构建方法如下：

2-1：收集大量与企业破产案件、民事案件的法律文书语料，其中企业破产案件法律文书语料来源于网络与法院支持。

2-2：利用预训练语言模型BERT，针对获取的语料数据进行持续训练与微调，使得模型学习到法律领域语料特征，获得词向量模型。

所述步骤3的破产案件要素体系构建方法如下：

3a-1：提取企业破产案件的法律文书中引用过的法律法规条文，并进行统计，筛选出引用量较多的法律条文。

3a-2：结合法律条文间的逻辑关系与司法解释，以树状图的形式对法律条文进行知识化表示，获得破产案件要素体系。

所述步骤3的要素分类模型构建方法如下：

1)根据所述的建立好的破产案件要素体系，选取部分节点作为要素分类模型的分类体系，共22类；

2)对分句后的破产案件法律文书的语句进行数据标注，逐句标明该句在分类体系中所属的要素；

3)将标注好的数据集进行划分，其中70％为训练集，10％为验证集，20％为测试集；

4)基于BiLSTMAttention模型构建短文本分类神经网络模型；

5)将文本语句的表征输入分类模型，得到神经网络模型的输出向量，将得到的向量输入Softmax分类器，分类器的输出为该句文本属于各要素类别的概率，在训练集上使用交叉熵损失函数衡量模型预测的类别概率与该语句真实类别的差距，通过Adam 优化器反向传播更新神经网络和分类器中的参数。

所述要素分类体系具体如下：

1)债务人异议审查-债务人提出异议；

2)债务人异议审查-债务人未在法定期限内提出异议；

3)对书面材料的形式审查-相关证据不足；

4)执行案件移送破产审查；

5)案件管辖-属于住所地人民法院管辖；

6)案件管辖-指定管辖；

7)案件管辖-移送管辖；

8)破产企业具有破产主体资格；

9)破产原因-不能清偿到期债务-债务人未完全清偿债务；

10)破产原因-不能清偿到期债务-债务履行期限已经届满；

11)破产原因-不能清偿到期债务-债权债务关系依法成立；

12)破产原因-具有清偿能力；

13)破产原因-明显缺乏清偿能力-人民法院强制执行无果；

14)破产原因-明显缺乏清偿能力-法定代表人下落不明且无其他人员负责管理财产；

15)破产原因-明显缺乏清偿能力-财产不能变现；

16)破产原因-明显缺乏清偿能力-资金严重不足；

17)破产原因-明显缺乏清偿能力-长期亏损且经营扭亏困难；

18)破产原因-资产不足以清偿全部债务；

19)破产原因-资产足以清偿全部债务；

20)破产申请人主体资格-破产清算申请人-依法负有清算责任的人与机构；

21)破产申请人主体资格-破产清算申请人-债务人；

22)破产申请人主体资格-破产清算申请人-债权人。

所述BiLSTMAttention神经网络模型包括：一个双向文本编码器和一个SoftAttention信息整合单元；所述双向文本编码器为双向长短期记忆网络模型，包括前向与后向两个LSTM模块；所述LSTM模块是由t时刻的输入词x_t(一般是特征向量)、细胞状态C_t、临时细胞状态

隐层状态h_t、遗忘门f_t、记忆门i_t和输出门o_t组成，LSTM 通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态h_t，其中遗忘和记忆与输出由通过上个时刻的隐层状态h_t-1和当前输入计算出来的遗忘门f_t、记忆门i_t和输出门o_t来控制。

所述BiLSTMAttention神经网络模型构建方法如下：

第1步：计算遗忘门，选择需要遗忘的信息，其输入为前一时刻的隐层状态h_t-1，当前时刻的输入词x_t，输出为遗忘门的值f_t，其计算公式如下a式：

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (a)；

其中：W_f为遗忘门的权重矩阵；b_f为遗忘门的偏置值；σ为sigmoid激活函数。

第2步：计算记忆门，选择需要记忆的信息，其输入为前一时刻的隐层状态h_t-1，当前时刻的输入词x_t，输出为记忆门的值i_t和临时细胞状态

其计算公式分别如下b 式和c式：

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (b)；

其中：W_i为输入门的权重矩阵；b_i为输入门的偏置值；σ为sigmoid激活函数；W_C为当前时刻细胞状态的权重矩阵；b_C为当前时刻细胞状态的偏置值；tanh为tanh激活函数。

第3步：计算并更新当前时刻细胞状态，其输入为记忆门的值i_t，遗忘门的值f_t，临时细胞状态

上一刻细胞状态C_t-1，输出为当前时刻的细胞状态C_t，其计算公式如下d式：

第4步：计算输出门和当前时刻的隐层状态，其输入为前一时刻的隐层状态h_t-1，当前时刻的输入词x_t，当前时刻的细胞状态

输出为输出门的值o_t和隐层状态h_t，其计算公式分别如下述e式和f式：

o_t＝σ(W_o·[h_t-1，x_t]+b_o) (e)；

h_t＝o_t*tanh(C_t) (f)；

其中：Wo为输出门的权重矩阵；b_o为输出门的偏置值；tanh为tanh激活函数。

第5步：输入表征序列{x₀，x₁，...，x_T}经上述LSTM模型后获得与语句长度相同的隐层状态序列{h₀，h₁，...，h_n-1}。

第6步：对于BiLSTMAttention神经网络模型，每个时刻的隐层状态由下述g式对两个向量使用对位求和的方式进行计算；

其中：

为正向语句文本表征序列{x₀，x₁，...，x_i}经正向LSTM模型的输出；

为反向语句文本表征序列{x_i，x_i-1，...，x₀}经反向LSTM模型的输出。

第7步：使用BiLSTM编码输入的文本表征序列X，得到最后一层的输出 [h₀，h₁，...，h_T]，将其作为双向文本编码器的输出并记作H。

第8步：SoftAttention信息整合单元，用于求得双向文本编码器的输出序列H中各时刻隐层状态h_i的权重及最终语句文本的最终表征，其计算由下述h～j式：

M＝tanh(H) (h)；

α＝softmax(w^TM) (i)；

r＝Hα^T (j)；

其中：H为双向文本编码器的输出；tanh为tanh激活函数；w为待训练的权重参数向量；w^T为向量的转置；M为SoftAttention权重向量；α_i为h_i(i＝1，2，...，T)的注意力权重系数；T为文本的长度；r表示神经网络的输出。

所述Softmax分类器使用Softmax激活函数构建，计算分类类别概率分布与预测的标签，输入为隐层状态h^*，输出为分类类别的概率分布

和预测标签

所述概率分布

由下述k式计算：

所述预测标签

由下述m式计算：

其中：S为输入语句；W^(S)为分类器权重矩阵；b^(S)为分类器偏置值。

所述交叉熵损失函数由下述n式计算：

其中：D为向量维度，数值等于分类类别数目；y_i为输入文本语句x_i对应真实标签；

为分类器预测文本语句属于第i类的概率。

所述步骤4的破产案件案例库构建方法如下：

4-1：对企业破产案件的法律文书进行编号存储；

4-2：对每份文书文本进行分句，使用步骤3构建的要素分类模型对每个语句进行分类预测；

4-3：对预测的分类进行人工校对，更新文书案件包含的要素；

4-4：将文书案件所包含的要素按案件编号进行存储。

所述步骤4的案件相似度计算方法如下：

获取步骤3处理得到的待判案案件所含要素及案例库案件所含要素的向量化表示后，使用余弦相似度计算案件要素相似度，其计算公式如下述o式：

使用下述o式的余弦相似度计算得到案件要素相似度：

其中：A为待判案件所含要素的向量化表示；A_i为待判案件是否含有第i个要素； B为案例库中某案件所含要素的向量化表示；B_i为案例库某案件是否含有第i个要素， n为要素总个数。

所述步骤5的破产案件裁定模型构建方法如下：

5-1：获取案例库中每个案件的裁定结果，在保证正负样本比例均衡的情况下选取部分数据作为破产案件裁定模型的训练数据集；

5-2：利用步骤3所述的要素分类模型对文书语句进行要素分类，保留分类为要素的语句的向量表征，剔除其他冗余语句；

5-3：将所述数据集进行划分，其中70％为训练集，30％为测试集；

5-4：由于数据集较小，我们基于在少量样本数据集上表现优异的支持向量机(SVM) 模型构建破产案件裁定模型；

5-5：将要素文本语句的表征输入裁定模型，建立求解最大分离超平面的优化目标，在训练集上利用拉格朗日乘子法和SMO算法求解分离超平面和分类决策函数。

所述SVM模型构建方法如下：

1)SVM模型的目标是求解输入数据的最大分离超平面，其计算公式为下述p式所示：

s.t.y_i(w^Tx_i+b)＝γ′⁽ⁱ⁾≥γ′(i＝1，2，...m)

其中：w为权重向量；b为偏置值；x为输入数据；m为输入数据总数目；γ′为函数间隔。

2)取函数间隔γ′为1，优化函数的计算由下述q式定义为：

s.t.y_i(w^Tx_i+b)≥1(i＝1，2，...m)

其中：w为权重向量；b为偏置值；x为输入数据；m为输入数据总数目。

3)所述模型需要在约束条件y_i(w^Tx_i+b)≥1(i＝1，2，...m)下，最大化

模型利用固定分子优化分母，同时加上支持向量的限制的方式进行训练优化；

由于

的最大化等同于

的最小化，则SVM的优化函数等价于如下述r式：

s.t.y_i(w^Tx_i+b)≥1(i＝1，2，...m)。

4)对所述约束的优化问题，利用拉格朗日乘子法将优化目标转化为无约束的优化函数，其计算公式如下述s式表示为：

s.t.α_i≥0(i＝1，2，...m)

5)对s式拉格朗日函数中原优化目标中的w和b求极小值，计算得到参数与对偶函数中系数α_i的关系，则s式转化为如下述t式表示：

α_i≥0(i＝1，2，...m)。

6)由于训练数据线性不可分，利用核函数方法进行计算，将数据映射至高维，使其变为线性可分数据；定义一个低维特征空间到高维特征空间的映射φ，φ为一个从低维的输入空间χ(欧式空间的子集或者离散集合)到高维的希尔伯特空间的H映射。如果存在函数K(x，z)，对于任意x，z∈χ，都有如下述u式所示的核函数：

K(x，z)＝φ(x)·φ(z) (u)；

则支持向量机(SVM)模型的优化目标函数如下述v式表示为：

0≤α_i≤C

7)使用SMO算法求得最大分离超平面与分离决策函数。

本发明预先构建了企业破产案件要素体系、破产案件案例库、破产案件要素分类模型与破产裁定模型，在获取待判案件情况描述后，根据所述破产案件要素体系与要素分类模型获得案件中存在的破产案件要素，根据所述破产案件案例库进行类案推荐，基于筛选后的破产案件要素与破产裁定模型获得判案结果。

本发明与现有技术相比具有提高法官对企业破产案件的判案效率，避免破产案件中同案不同判的问题，减少破产案件误判现象，提高破产案件判案的公正与权威。

附图说明

图1为破产案件要素体系示意图；

图2为本发明流程图。

具体实施方式

参阅图1，本发明获取待判案的企业破产案件的案件情况描述后，对案件情况描述的文本进行中文分句，使用Jieba分词对语句进行分词，利用预训练语言模型BERT 进行向量化表示，得到该待判破产案件的文本向量，将基于破产法律条文预先构建好的破产案件要素体系作为分类体系，将待判破产案件的文本向量输入预先训练好的要素分类模型，所述要素分类模型输出该案件中存在的破产案件要素，对预先构建好的破产案件案例库中案件的破产案件要素，以及当前待判案件的破产案件要素进行 One-Hot向量化表示，计算余弦相似度，得到与待判破产案件相似的类案资料，进行类案推荐，将待判案件中代表破产案件要素的语句的文本向量提出，将向量输入预先训练好的破产裁定模型中，根据所述破产裁定模型的输出得到判案结果。

通过以下具体实施例对本发明作进一步的详细说明。

实施例1

参阅图2，按下述步骤进行基于自然语言处理的企业破产案件智能辅助判案方法：

S1：将待判案的企业破产案件的案情描述以文本信息输入，得到待判企业破产案件描述的如下文本：

某年某月某日，申请人某A公司(以下简称A公司)以其系某B公司(以下简称 B公司)合法债权人，B公司不能清偿到期债务等为由，向本院申请对B公司进行破产清算。本院受理后进行了审查，审查期间，申请人A公司、被申请人B公司补充了相关材料。B公司系私营有限责任公司，注册资金XXX万元。股东为H某(出资XXX 万元，占X％)，C公司(出资XXX万元，占X％)。某年某月某日，申请人A公司与被申请人B公司签订了编号为XXXX号的《综合授信协议》X份，该合同约定申请人向被申请人提供最高授信额度为XXX万元。根据上述《综合授信协议》，申请人与被申请人签订了XXX份《流动资金贷款合同》，累计至今，申请人向被申请人发放的贷款本金余额为XXX万元。现其中X笔XXX万元《流动资金贷款合同》约定还款期限已经届满，X笔贷款项下的利息在本金到期后迟迟未予偿还，剩余X笔贷款均出现逾期偿还利息等违约情形，已符合提前收贷的情形。据此，被申请人的全部XXX万元的贷款均已提前到期，但被申请人未予归还上述本息，结算至某年某月某日，被申请人所欠本金为XXX万元，欠息、罚息、复利共计XXX元。

S2：使用S1中获得的待判案件的描述文本，按标点符号对其进行中文分句，并使用Jieba分词工具对每个句子进行中文分词，预处理过后的文本序列如下：

句1：[′某年′，′某月′，′某日′，′申请人′，′某A公司′，′以下′，′简称′，′A公司′，′以其系′，′某B公司′，′以下′，′简称′，′B公司′，′合法′，′债权人′，′B公司′，′不能′，′清偿′，′到期′，′债务′，′等′，′为′，′由′，响′，′本院′，′申请′，′对B公司′，′进行′，′破产′，′清算′]；

句2：[′本院′，′受理′，′后′，′进行′，′了′，′审查′，′审查′，′期间′，′申请人′，′A公司′，′被申请人′，′B公司′，′补充′，′了′，′相关′，′材料′]；

句3：[′B公司′，′系′，′私营′，′有限责任′，′公司′，′注册资金′，′XXX′，′万元′]；

句4：[′股东′，′为′，′H某′，′出资′，′XXX′，′万元′，′占′，′X′，′C公司′，′出资′，′XXX′，′万元′，′占′，′X′]；

句5：[′某年′，′某月′，′某日′，′申请人′，′A公司′，′与′，′被申请人′，′B公司′，′签订′，′了′，′编号′，′为′，′XXXX号′，′的′，′综合′，′授信′，′协议′，′X′，′份′，′该′，′合同′，′约定′，′申请人′，响′，′被申请人′，′提供′，′最高′，′授信额度′，′为′，′XXX′，′万元′]；

句6：[′根据上述′，′综合′，′授信′，′协议′，′申请人′，′与′，′被申请人′，′签订′，′了′，′X′，′份′，′流动资金′，′贷款′，′合同′，′累计′，′至今′，′申请人′，响′，′被申请人′，′发放′，′的′，′贷款′，′本金′，′余额′，′为′，′XXX′，′万元′]；

句7：[′现′，′其中′，′X′，′笔′，′XXX′，′万元′，′流动资金′，′贷款′，′合同′，′约定′，′还款′，′期限′，′已经′，′届满′，′X′，′笔′，′贷款′，′项下′，′的′，′利息′，′在′，′本金′，′到期′，′后′，′迟迟′，′未予′，′偿还′，′剩余′，′X′，′笔′，′贷款′，′均′，′出现′，′逾期′，′偿还′，′利息′，′等′，′违约′，′情形′，′已′，′符合′，′提前′，′收贷′，′的′，′情形′]；

句8：[′据此′，′被申请人′，′的′，′全部′，′XXX′，′万元′，′的′，′贷款′，′均′，′已′，′提前′，′到期′，′但′，′被申请人′，′未予′，′归还′，′上述′，′本息′，′结算′，′至′，′某年′，′某月′，′某日′，′被申请人′，′所欠′，′本金′，′为′，′XXX′，′万元′，′欠息′，′罚息′，′复利′，′共计′，′XXX′，′元′]；

将处理后的文本输入预先训练好的BERT模型，得到每一句的句向量表征，则得到了该待判破产案件的文本向量表征。

S3：使用基于BiLSTMAttention的要素分类模型，逐句识别S2处理后的待判破产案件的文本表征所对应的破产案件要素，得到每一个句子可能对应的破产案件要素。

以句5为例，将句子5分词后经过BERT编码的向量表征输入要素分类模型，得到该语句预测22个类别的概率分布，其输出概率为p＝[3.4185559e-05，1.2775471e-06，1.0822305e-05，1.0798180e-05，7.4047884e-06，5.9470553e-06，8.3295254e-06，1.2084637e-05，1.1807292e-04，6.2707521e-05，9.9885380e-01，1.4197053e-05，2.3564967e-06，3.7612922e-06，8.8671222e-06，1.0925153e-05，5.1698880e-06，1.2947934e-05，9.5053892e-06，1.1263372e-06，2.0762914e-06，8.0368028e-04]，其中概率最大的为第11类，

在本实施实例代表“破产原因-不能清偿到期债务-债权债务关系依法成立”类别，所以该句所属破产案件要素的预测类别为“破产原因-不能清偿到期债务-债权债务关系依法成立”。

参阅图2，本实施实例中案件全文文本语句破产案件要素分类预测结果如下：

句1：2015年9月6日，申请人以合法债权人，不能清偿到期债务等为由，向本院申请进行破产清算。

破产要素：破产申请人主体资格-破产清算申请人-债权人

句2：本院受理后进行了审查，审查期间，申请人、被申请人补充了相关材料。

破产要素：无

句3：系私营有限责任公司，注册资金5180万元。

破产要素：无

句4：股东(出资4662万元，占90％)，公司(出资518万元，占10％)。

破产要素：破产企业具有破产主体资格

句5：2014年7月18日，申请人与被申请人签订了《综合授信协议》1份，该合同约定申请人向被申请人提供最高授信额度为8000万元。

破产要素：破产原因-不能清偿到期债务-债权债务关系依法成立

句6：根据上述《综合授信协议》，申请人与被申请人签订了30份《流动资金贷款合同》，累计至今，申请人向被申请人发放的贷款本金余额为7700万元。

句7：现其中1笔1000万元《流动资金贷款合同》约定还款期限已经届满，6笔贷款项下的利息在本金到期后迟迟未予偿还，剩余23笔贷款均出现逾期偿还利息等违约情形，已符合提前收贷的情形。

破产要素：破产原因-不能清偿到期债务-债务履行期限已经届满

句8：据此，被申请人的全部7700万元的贷款均已提前到期，但被申请人未予归还上述本息，结算至2015年8月31日，被申请人所欠本金为7700万元，欠息、罚息、复利共计1402609.32元。

破产要素：破产原因-不能清偿到期债务-债务人未完全清偿债务

S4：将S3处理后得到的待判破产案件中包含的破产要素进行One-Hot向量化表示，本实施实例的案件要素向量化为：[0，0，0，0，0，0，0，1，1，1，1，0，0，0，0，0，0，0，0，0，0，1]，将该向量与案例库中其他破产案件的要素One-Hot向量计算余弦相似度，取相似度最高的k个案件，本实施实例中k＝5，即取最相似的5个案件，推荐的类案如下：

类案1：(2017)豫9001破3-2号

相似度：91.287093％

类案2：(2013)宿城商破字第00002号

相似度：91.287093％

类案3：(2017)浙0382破申2号

相似度：89.442719％

类案4：(2019)渝0107破申15号

相似度：89.442719％

类案5：(2016)粤03民破54号

相似度：89.442719％

S5：将S3处理后得到的待判案件文本中代表破产案件要素的部分语句取出，剔除其他冗余语句，将其向量表征输入预先训练好的SVM模型，输出模型的判案结果，本实施实例中破产裁定模型输出的破产裁定概率分布为p＝[9.13470528e-01， 8.6529472e-02]，其中

代表该案件认定为破产的概率，

代表该案件认定不被破产的概率，则本实施实例中待判案件的判定结果为认定破产，受理该案件的破产申请。

以上仅是本发明的一个实施示例，本发明的保护范围并不局限于上述实例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进，应视为本发明的保护范围。

Claims

1.一种基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于采用构建企业破产裁定模型的方法，计算待判案件破产要素与破产案件案例库其他案件要素间的相似度进行类案推荐，其裁定模型的构建和判案结果输出包括以下具体步骤：

步骤1：获取待判案件信息

将待判案的企业破产案件的案情描述以文本的形式输入，获取待判案的企业破产案件的案件情况描述；

步骤2：待判案件信息的向量化表示

将步骤1中的案件情况描述的文本进行中文分句，并对每个句子进行中文分词，将分词后的句子输入利用预先训练好的词向量模型，得到每一句的句向量表示，然后得到该待判破产案件的文本向量，所述中文分句采用标点符号为基础的分句方法，对过长的语句按逗号或其它标点符号进行分割；所述语句分词利用Jieba分词工具；

步骤3：待判案件的破产要素分类

将预先构建好的破产案件要素体系作为案件描述句子分类体系，将步骤2中向量化处理后的案件文本向量分句输入预先训练好的要素分类模型，根据要素分类模型的输出，得到每一个句子对应的破产案件要素；

步骤4：类案推荐

对预先构建好的破产案件案例库中案件的破产案件要素，以及步骤3处理后获得的当前待判案件中存在的破产案件要素进行One-Hot向量化表示，计算待判案件要素向量及案例库其他案件要素向量的相似度，选取相似度最高的部分案件，得到与待判破产案件相似的类案资料，所述相似度在获取步骤3的待判案案件所含要素及案例库案件所含要素的向量化表示后，使用下述o式的余弦相似度计算得到案件要素相似度：

其中：A为待判案件所含要素的向量化表示；为待判案件是否含有第i个要素；B为案例库中某案件所含要素的向量化表示；为案例库某案件是否含有第i个要素，n为要素总个数；

步骤5：破产结果的辅助裁定

提取步骤3得到的待判案件信息中代表破产案件要素的语句的文本向量，将向量输入预先训练好的破产裁定模型中，根据所述破产裁定模型的输出得到判案结果。

2.根据权利要求1所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述步骤2的词向量模型按下述步骤构建：

2-1：收集大量与企业破产案件、民事案件的法律文书语料，其中企业破产案件法律文书语料来源于网络与法院支持；

2-2：利用预训练语言模型BERT，对获取的语料数据进行持续训练与微调，使得模型学习到法律领域的语料特征，获得词向量模型。

3.根据权利要求1所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述步骤3的破产案件要素体系按下述步骤构建：

3a-1：提取企业破产案件的法律文书中引用过的法律法规条文，并进行统计，筛选出引用量较多的法律条文；

3a-2：结合法律条文间的逻辑关系与司法解释，以树状图对企业破产法律条文进行知识化表示，获得破产案件要素体系。

4.根据权利要求1所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述步骤3的要素分类模型按下述步骤构建：

3b-1：根据破产案件要素体系，选取部分节点作为要素分类模型的分类体系；

3b-2：对分句后的破产案件法律文书的语句进行数据标注，逐句标明该句在分类体系中所属的要素；

3b-3：将标注好的数据集按7:1:2的比例划分为训练集、验证集和测试集；

3b-4：基于BiLSTM Attention神经网络模型，构建短文本分类神经网络的要素分类模型；

3b-5：将文本语句的表征输入要素分类模型，得到神经网络模型的输出向量，并将其输入Softmax分类器，得到该句文本属于各要素类别的概率；

3b-6：在训练集上使用交叉熵损失函数，衡量要素分类模型预测的类别概率与该语句真实类别的差距，并通过Adam优化器反向传播，更新神经网络和分类器的参数；所述交叉熵损失函数由下述n式计算：

其中：D为向量维度，数值等于分类类别数目；为输入文本语句x对应真实标签；

为分类器预测文本语句属于第类的概率。

5.根据权利要求1所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述步骤4的破产案件案例库按下述步骤构建：

4-1：对企业破产案件的法律文书进行编号存储；

4-4：将文书案件所包含的要素按案件编号进行存储。

6.根据权利要求1或权利要求4所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述要素分类体系共22类，具体如下所述：

1)债务人异议审查-债务人提出异议；

2)债务人异议审查-债务人未在法定期限内提出异议；

3)对书面材料的形式审查-相关证据不足；

4)执行案件移送破产审查；

5)案件管辖-属于住所地人民法院管辖；

6)案件管辖-指定管辖；

7)案件管辖-移送管辖；

8)破产企业具有破产主体资格；

9)破产原因-不能清偿到期债务-债务人未完全清偿债务；

10)破产原因-不能清偿到期债务-债务履行期限已经届满；

11)破产原因-不能清偿到期债务-债权债务关系依法成立；

12)破产原因-具有清偿能力；

13)破产原因-明显缺乏清偿能力-人民法院强制执行无果；

15)破产原因-明显缺乏清偿能力-财产不能变现；

16)破产原因-明显缺乏清偿能力-资金严重不足；

17)破产原因-明显缺乏清偿能力-长期亏损且经营扭亏困难；

18)破产原因-资产不足以清偿全部债务；

19)破产原因-资产足以清偿全部债务；

21)破产申请人主体资格-破产清算申请人-债务人；

22)破产申请人主体资格-破产清算申请人-债权人。

7.根据权利要求4所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述BiLSTM Attention神经网络模型包括：双向文本编码器和Soft Attention信息整合单元，所述双向文本编码器为包括前、后向两个LSTM模块的双向长短期记忆网络模型；所述LSTM模块由t时刻的输入词x_t(一般是特征向量)、细胞状态C_t、临时细胞状态

隐层状态h_t、遗忘门f_t、记忆门_t和输出门_t组成，LSTM模块通过对细胞状态中信息遗忘和记忆新的信息，使得对后续时刻计算有用的信息得以传递，而无用的信息则被丢弃，并在每个时间步都会输出隐层状态h_t，其中遗忘、记忆与输出由上个时刻的隐层状态h_t-1和当前输入计算得到的遗忘门f_t、记忆门i_t和输出门o_t控制；所述BiLSTMAttention神经网络模型的构建具体包括下述步骤：

1)计算遗忘门，选择需要遗忘的信息，其输入为前一时刻的隐层状态h_t-1和当前时刻的输入词x_t，输出为下述a式计算的遗忘门的值f_t：

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (a)；

其中：W_f为遗忘门的权重矩阵；b_f为遗忘门的偏置值；σ为sigmoid激活函数；

2)计算记忆门，选择需要记忆的信息，其输入为前一时刻的隐层状态h_t-1和当前时刻的输入词x_t，输出为下述b式计算的记忆门的值i_t和c式计算的临时细胞状态

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (b)；

其中：W_i为输入门的权重矩阵；b_i为输入门的偏置值；σ为sigmoid激活函数；W_C为当前时刻细胞状态的权重矩阵；b_C为当前时刻细胞状态的偏置值；tanh为tanh激活函数；

3)计算并更新当前时刻细胞状态，其输入为记忆门的值i_t、遗忘门的值f_t、临时细胞状态

和上一刻细胞状态C_t-1，输出为下述d式计算的当前时刻的细胞状态C_t；

4)计算输出门和当前时刻的隐层状态，其输入为前一时刻的隐层状态h_t-1、当前时刻的输入词x_t和当前时刻的细胞状态

输出为下述e式计算的输出门的值o_t和下述f式计算的隐层状态h_t；

o_t＝σ(W_o·[h_t-1，x_t]+b_o) (e)；

h_t＝o_t*tanh(C_t) (f)；

其中：W_o为输出门的权重矩阵；b_o为输出门的偏置值；tanh为tanh激活函数；

5)输入表征序列{x₀，x₁，...，x_T}经上述LSTM模型后获得与语句长度相同的隐层状态序列{h₀，h₁，...，h_n-1}；

6)对于BiLSTMAttention神经网络模型，每个时刻的隐层状态由下述g式对两个向量使用对位求和的方式进行计算；

其中：

为反向语句文本表征序列{x_i，x_i-1，...，x₀}经反向LSTM模型的输出；

7)使用BiLSTM编码输入的文本表征序列X，得到最后一层的输出[h₀，h₁，...，h_T]，将其作为双向文本编码器的输出并记作H；

8)SoftAttention信息整合单元，用于求得双向文本编码器的输出序列H中各时刻隐层状态h_i的权重及最终语句文本的最终表征，其计算由下述h～j式：

M＝tanh(H) (h)；

α＝softmax(w^TM) (i)；

r＝Hα^T (j)；

其中：H为双向文本编码器的输出；tanh为tanh激活函数；w为待训练的权重参数向量；w^T为向量的转置；M为Soft Attention权重向量；α_i为h_i(i＝1，2，...，T)的注意力权重系数；T为文本的长度；r表示神经网络的输出。

8.根据权利要求4所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述Sofimax分类器使用Softmax激活函数构建，计算分类类别概率分布与预测的标签，输入为隐层状态h^*，输出为分类类别的概率分布

和预测标签

所述概率分布

由下述k式计算：

所述预测标签

由下述m式计算：

9.根据权利要求1所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述步骤5的破产案件裁定模型按下述步骤构建：

5-2：利用步骤3的要素分类模型对文书语句进行要素分类，保留分类为要素的语句的向量表征，剔除其他冗余语句；

5-4：将样本数据集上表现优异的支持向量机模型，构建破产案件裁定模型；

5-5：将要素文本语句的表征输入破产案件裁定模型，建立求解最大分离超平面的优化目标，并在训练集上利用拉格朗日乘子法和SMO算法求解分离超平面和分类决策函数。

10.根据权利要求9所述基于自然语言处理的企业破产案件智能辅助判案方法，其特征在于所述支持向量机模型按下述步骤构建：

1)由下述p式计算最大分离超平面：

s.t.y_i(w^Tx_i+b)＝γ′⁽ⁱ⁾≥γ′(i＝1，2，...m)

其中：w为权重向量；b为偏置值；x为输入数据；m为输入数据总数目；γ′为函数间隔；

2)取函数间隔γ′为1，优化函数的计算由下述q式定义为：

s.t.y_i(w^Tx_i+b)≥1(i＝1，2，...m)

其中：w为权重向量；b为偏置值；x为输入数据；m为输入数据总数目；

3)支持向量机模型在约束条件y_i(w^Tx_i+b)≥1(i＝1，2，...m)下，最大化

并利用固定分子优化分母，同时加上支持向量的限制方式进行训练优化；当

的最大化等同于

的最小化，则支持向量机(SVM)模型的优化函数等价于下述r式：

s.t.y_i(w^Tx_i+b)≥1(i＝1，2，...m)

4)利用拉格朗日乘子法将优化目标转化为无约束的优化函数，其计算由下述s式表示为：

s.t.α_i≥0(i＝1，2，...m)

5)对s式拉格朗日函数中优化目标中的w和b求极小值，计算得到参数与对偶函数中系数α_i的关系，则s式转化为下述t式表示：

α_i≥0(i＝1，2，...m)

6)利用核函数方法进行计算，将数据映射至高维，使其变为线性可分数据，

定义一个低维特征空间到高维特征空间的映射φ，φ为一个从低维的输入空间χ到高维的希尔伯特空间的H映射，如果存在函数K(x，z)，对于任意x，z∈χ，都有如下述u式所示的核函数：

K(x，z)＝φ(x)·φ(z) (u)；

则支持向量机(SVM)模型的优化目标函数如下述v式表示为：

0≤α_i≤C

7)使用SMO算法求得最大分离超平面与分离决策函数。