CN112287066B

CN112287066B - 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统

Info

Publication number: CN112287066B
Application number: CN202011140053.5A
Authority: CN
Inventors: 李石君; 唐培根; 余伟; 杨济海; 余放; 杨俊成; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2024-03-08
Anticipated expiration: 2040-10-22
Also published as: CN112287066A

Abstract

本发明涉及一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统，属于推荐系统的研究范畴，涉及倒排索引、RNN神经网络、Seq2Seq模型等领域，主要针对审计中涉及的法律法规、案例等数据构建倒排索引以及Seq2Seq神经网络模型，利用已经训练好的模型实现法律法规及相关案例的智能推荐任务。本发明的优点：可以自动根据场景、关键词智能推荐相关的法律法规以及案例，降低从业者的劳动负荷，提高劳动效率。

Description

一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统

技术领域

本发明涉及有监督分类和智能推荐技术领域，具体涉及一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统。

背景技术

审计：是对资料做出证据搜集及分析，以评估企业财务状况，然后就资料及一般公认准则之间的相关程度做出结论及报告。常见的财务审计有以下3种：运作审计(作业审计)：检讨组织的运作程序及方法以评估其效率及效益；履行审计(遵行审计)：评估组织是否遵守由更高权力机构所订的程序、守则或规条；财务报表审计：评估企业或团体的财务报表是否根据公认会计准则编制，一般由独立会计师进行。资讯科技审计：评估企业或机构的资讯系统的安全性，完整性、系统可靠性及一致性。

现有技术中，相关领域的做法主要是靠被动建立法律法规及案例的数据库，之后再由从业人员主动检索、比对相关的情节与法律法规的规定不符之处，这样的工作模式完全依赖于从业人员极高的专业素养。因此，现有技术中需要进行人工检索，无法实现法律法规推荐的问题。

发明内容

本发明提出一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统，用于解决或者至少部分解决现有技术的方法存在的法律法规检索效率低的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法，包括：

S1：构建相关法律法规及案例文档的全文倒排索引；

S2：构建Seq2Seq神经网络模型，并对Seq2Seq神经网络模型进行训练，其中，Seq2Seq神经网络模型包括编码器和解码器，编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态，解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列，检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列；

S3：利用训练好的Seq2Seq神经网络模型进行法律法规推荐。

在一种实施方式中，步骤S1包括：

S1.1：基于Python读取法律法规及案例文档全文，以法条或案例为基本单位对其中的文字信息，利用正则表达式进行中文分词操作；

S1.2：对中文分词操作产生的词条结果进行归一化，形成词项词典；

S1.3：根据词项词典对所有文档按照其中出现的词项建立倒排索引。

在一种实施方式中，S2包括：

S2.1：构建中文常用词汇的one-hot编码；

S2.2：构建基于词汇的one-hot编码的编码器，其中，编码器的输入是检索词或违规行为经分词后的序列，

S_i＝(x_i1,x_i2,…,x_iM)^T,i∈1,2,3…N

其中，S_i表示第i条记录的数据，x_ij表示其中的第j个词，M是S_i的长度，N为数据条数；

编码器的输出c_i：

c_i＝h_iM,i∈1,2,3…N

为序列全部输入后网络节点h_iM的状态，其中：

h_i1＝x_i1

h_{i,器的输1是}＝h_i的|x_{i,器的输1是}

h_i的为第i条记录的第k个神经元的隐藏状态，即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果；

S2.3：构建基于词汇的one-hot编码的解码器，其中，解码器的输入为编码器的输出c_i，输出为检索词或违规行为名称对应的关键词序列，即针对法律法规及案例文档全文生成的倒排索引词典中的词序列，计算公式如下：

h’_t＝σ(Uc+Wh’_t-1+Vy’_t-1-θ)

y’_t＝σ(Vh’_t+c)

其中，h′_t为神经元的第t个隐藏状态，h′_t-1为神经元的第t-1个隐藏状态，y′_t-1为神经元的第t-1个输出，y′_t为神经元的第t个输出，σ为激活函数sigmoid函数，c为编码器的输出；U,W,V均为神经网络中隐藏层到输出层的权重向量，θ为每个神经元的阈值向量，U,W,V与θ均为待定参数，其结果通过对模型训练后得出；

S2.4：采用教师强化训练方式，将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练，具体包括：运用经典BP算法更新RNN网络中的参数，即隐藏层到输出层的权重值与输出层神经元的阈值，

其中，BP算法得出更新规则如下：

输出层更新规则：

其中，为中间变量，作用是把形如对应等号后边的式子记作g，没有实际含义，η是学习率，η∈(0,1)，控制算法的每一轮迭代中的更新步长，U_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重，V_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重，W_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重，θ_j表示输出层第j个神经元的阈值，所有被Δ修饰的变量如ΔV均表示对该变量的修改值，被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值，其中可由/>与/>计算得到，E_t为y′_t的均方误差，E′_t为h′_t的均方误差，角标i和j表示某一维的分量，/>为/>的第j个分量，y′_tj表示/>的第j个分量，β_j表示y′_t＝σ(Vh′_t+c)中σ函数的输入，β′_j表示h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)中σ函数的输入，/>为/>的第j个分量，h′_ti表示h′_t的第i个分量，h′_(t-1)i表示h′_(t-1)的第i个分量。

在一种实施方式中，步骤S3包括：

S3.1：将用户检索词或选取的违规类别输入训练好的Seq2Seq神经网络模型，输出对应的关键词序列；

S3.2：根据关键词在法律法规及案例的全文倒排索引，获得对应的法律法规条款以及相关的案例，推荐给用户。

基于同样的发明构思，本发明第二方面提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐系统，包括：

倒排索引构建模块，用于构建相关法律法规及案例文档的全文倒排索引；

Seq2Seq神经网络模型构建模块，用于构建Seq2Seq神经网络模型，并对Seq2Seq神经网络模型进行训练，其中，Seq2Seq神经网络模型包括编码器和解码器，编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态，解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列，检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列；

推荐模块，用于利用训练好的Seq2Seq神经网络模型进行法律法规推荐。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于倒排索引与Seq2Seq模型的法律法规推荐方法，首先构建相关法律法规及案例文档的全文倒排索引，然后构建Seq2Seq神经网络模型，再利用训练好的Seq2Seq神经网络模型进行法律法规推荐，通过Seq2Seq神经网络模型可以根据输入的检索词输出对应的关键词序列，再根据关键词在法律法规及案例的全文倒排索引中检索出对应的法律法规条款以及可能相关的案例智能推荐给用户，从而降低从业者的劳动负荷，提高法律法规的检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为具体实施过程中基于倒排索引与Seq2Seq模型的法律法规推荐方法的流程图。

具体实施方式

本发明实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统，用于改善现有技术的方法存在的法律法规检索效率低的技术问题。

本发明的主要发明构思如下：

针对审计中涉及的法律法规、案例等数据构建倒排索引以及Seq2Seq神经网络模型，利用已经训练好的模型实现法律法规及相关案例的智能推荐任务。本发明的优点：可以自动根据场景、关键词智能推荐相关的法律法规以及案例，降低从业者的劳动负荷，提高法律法规的推荐效率以及劳动效率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参见图1，本发明实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法，包括：

S1：构建相关法律法规及案例文档的全文倒排索引；

S3：利用训练好的Seq2Seq神经网络模型进行法律法规推荐。

具体来说，本申请涉及的相关概念如下：

推荐系统：推荐系统是一项工程技术解决方案，通常通过利用机器学习等技术，实现一个用户交互系统。在用户使用产品进行浏览与检索交互的过程中，系统主动为用户展示可能会相关的物品、资料等内容，从而节省用户时间，提升用户体验，做到资源的优化配置。

基于审计大数据的法律法规推荐系统：基于审计场景下所拥有的大量相关法律法规、案例等进行数据分析与处理，并最终构建出的针对这一特殊领域的推荐系统。审计场景下拥有大量相关的法律法规资料及特定的违规行为案例，适合进行大规模数据分析。但目前相关领域的做法主要是靠被动建立法律法规及案例的数据库，之后再由从业人员主动检索、比对相关的情节与法律法规的规定不符之处，这样的工作模式完全依赖于从业人员极高的专业素养。基于审计大数据的法律法规推荐系统在科学分析与处理审计场景下特定数据的基础上，实现了针对特定的关键词与场景智能推荐相关法律法规及案例的功能，能在一定程度上降低从业人员的工作负荷，提高检索效率。

倒排索引：倒排索引亦称反向索引、置入档案或反向档案，是一种索引方法。它用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由“单词词典”和“倒排文件”两个部分组成。

Replicator Neural Network：RNN是一种序列连接模型，前馈神经网络的一种。输入层和输出层节点数一样，并且输入的变量也是输出的变量，中间层的节点数相对较少，这样RNN就起到压缩数据，恢复数据的作用。在自然语言处理方面有广泛的应用。

Seq2Seq序列到序列模型：Seq2Seq模型是输入长度和输出长度不确定时采用的模型，属于encoder-decoder编码器-解码器结构的一种。其基本思想就是利用两个RNN，一个RNN作为encoder编码器，另一个RNN作为decoder解码器。编码器负责编码，即将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义。解码器则负责解码，即根据语义向量生成指定的序列。

在一种实施方式中，步骤S1包括：

通过分词、构建词向词典，然后根据词项词典对所有文档按照其中出现的词项来建立倒排索引。

在一种实施方式中，S2包括：

S2.1：构建中文常用词汇的one-hot编码；

S_i＝(x_i1,x_i2,…,x_iM)^T,i∈1,2,3…N

编码器的输出c_i：

c_i＝h_iM,i∈1,2,3…N

为序列全部输入后网络节点h_iM的状态，其中：

h_i1＝x_i1

h_i,(k+1)＝h_ik|x_i,(k+1)

h_ik为第i条记录的第k个神经元的隐藏状态，即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果；

h’_t＝σ(Uc+Wh’_t-1+Vy’_t-1-θ)

y’_t＝σ(Vh’_t+c)

其中，h’_t为神经元的第t个隐藏状态，h′_t-1为神经元的第t-1个隐藏状态，y′_t-1为神经元的第t-1个输出，y′_t为神经元的第t个输出，σ为激活函数sigmoid函数，c为编码器的输出；U,W,V均为神经网络中隐藏层到输出层的权重向量，θ为每个神经元的阈值向量，U,W,V与θ均为待定参数，其结果通过对模型训练后得出；

其中，BP算法得出更新规则如下：

输出层更新规则：

其中，为中间变量，作用是把形如对应等号后边的式子记作g，没有实际含义，η是学习率，η∈(0,1)，控制算法的每一轮迭代中的更新步长，U_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重，V_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重，W_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重，θ_j表示输出层第j个神经元的阈值，所有被Δ修饰的变量如ΔV均表示对该变量的修改值，被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值，其中可由/>与/>计算得到，E_t为y′_t的均方误差，角标i和j表示某一维的分量，/>为/>的第j个分量，y′_tj表示/>的第j个分量，β_j表示y′_t＝σ(Vh′_t+c)中σ函数的输入，β′_j表示h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)中σ函数的输入，/>为/>的第j个分量，h′_ti表示h′_t的第i个分量,h′_（t-1）i表示h′_（t-1）的第i个分量。

具体地，

是y′_t＝σ(Vh′_t+c)的均方误差；

是h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)的均方误差，l是向量的维度，若带角标j则代表了某一维的分量。

与/>等同理，即/>为/>的第j个分量。

β_j＝Vh′_t+c为输入向量，代表y′_t＝σ(Vh′_t+c)中σ函数的输入，带有角标j则同样代表第j个分量；β′_j＝Uc+Wh′_t-1+Vy′_t-1，则代表h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)中σ函数的输入，角标同理。

另外形如h′_ti的字符中i的用法与j相同，表示的是第i个分量。

关于g，其没有具体含义，类似的式子相当于把形如等号后边的式子记作g，并在后续ΔV_ij等的表达式中加以引用，右下角的j同样表示分量。由于本文中涉及了多个g，因此采用右上角的角标U,V与W表示对应变量的g。

具体来说，为了提高模型的准确率，本申请采用Teacher Forcing教师强化训练方式，将一定比例的上一个神经元的输出y^'替换为正确的值(期望值)作为输入的方式来进行训练。运用经典BP算法更新RNN网络中的参数，即隐藏层到输出层的权重值与输出层神经元的阈值。

在一种实施方式中，步骤S3包括：

具体实施时，本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。

本发明的优点：可以自动根据场景、关键词智能推荐相关的法律法规以及案例，提高法律法规的检索效率，降低从业者的劳动负荷，提高劳动效率。

实施例二

基于同样的发明构思，本实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐系统，包括：

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于倒排索引与Seq2Seq模型的法律法规推荐方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形(即采用类似的替代方式)，但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于倒排索引与Seq2Seq模型的法律法规推荐方法，其特征在于，包括：

S1：构建相关法律法规及案例文档的全文倒排索引；

S3：利用训练好的Seq2Seq神经网络模型进行法律法规推荐；

其中，步骤S1包括：

S1.3：根据词项词典对所有文档按照其中出现的词项建立倒排索引；

S2包括：

S2.1：构建中文常用词汇的one-hot编码；

S_i＝(x_i1，x_i2，…，x_iM)^T，i∈1，2，3…N

编码器的输出c_i：

c_i＝h_iM，i∈1，2，3…N

为序列全部输入后网络节点h_iM的状态，其中：

h_i1＝x_i1

h_i，(k+1)＝h_ik|x_i，(k+1)

h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)

y′_t＝σ(Vh′_t+c)

其中，h′_t为神经元的第t个隐藏状态，h′_t-1为神经元的第t-1个隐藏状态，y′_t-1为神经元的第t-1个输出，y′_t为神经元的第t个输出，σ为激活函数sigmoid函数，c为编码器的输出；U，W，V均为神经网络中隐藏层到输出层的权重向量，θ为每个神经元的阈值向量，U，W，V与θ均为待定参数，其结果通过对模型训练后得出；

其中，BP算法得出更新规则如下：

输出层更新规则：

其中，为中间变量，作用是把形如对应等号后边的式子记作g，没有实际含义，η是学习率，η∈(0，1)，控制算法的每一轮迭代中的更新步长，U_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重，V_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重，W_ij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重，θ_j表示输出层第j个神经元的阈值，所有被Δ修饰的变量如ΔV均表示对该变量的修改值，被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值，其中/>可由与/>计算得到，E_t为y′_t的均方误差，E′_t为h′_t的均方误差，角标i和j表示某一维的分量，/>为/>的第j个分量，y′_tj表示/>的第j个分量，β_j表示y′_t＝σ(Vh′_t+c)中σ函数的输入，β′_j表示h′_t＝σ(Uc+Wh′_t-1+Vy′_t-1-θ)中σ函数的输入，/>为/>的第j个分量，h′_ti表示h′_t的第i个分量，h′_(t-1)i表示h′_(t-1)的第i个分量。

2.如权利要求1所述的法律法规推荐方法，其特征在于，步骤S3包括：

3.一种基于倒排索引与Seq2Seq模型的法律法规推荐系统，其特征在于，基于权利要求1所述的基于倒排索引与Seq2Seq模型的法律法规推荐方法实现，该系统包括：