CN112287066B - 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 - Google Patents
一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 Download PDFInfo
- Publication number
- CN112287066B CN112287066B CN202011140053.5A CN202011140053A CN112287066B CN 112287066 B CN112287066 B CN 112287066B CN 202011140053 A CN202011140053 A CN 202011140053A CN 112287066 B CN112287066 B CN 112287066B
- Authority
- CN
- China
- Prior art keywords
- neuron
- neural network
- inverted index
- seq2seq
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 210000002569 neuron Anatomy 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000012550 audit Methods 0.000 abstract description 12
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统,属于推荐系统的研究范畴,涉及倒排索引、RNN神经网络、Seq2Seq模型等领域,主要针对审计中涉及的法律法规、案例等数据构建倒排索引以及Seq2Seq神经网络模型,利用已经训练好的模型实现法律法规及相关案例的智能推荐任务。本发明的优点:可以自动根据场景、关键词智能推荐相关的法律法规以及案例,降低从业者的劳动负荷,提高劳动效率。
Description
技术领域
本发明涉及有监督分类和智能推荐技术领域,具体涉及一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统。
背景技术
审计:是对资料做出证据搜集及分析,以评估企业财务状况,然后就资料及一般公认准则之间的相关程度做出结论及报告。常见的财务审计有以下3种:运作审计(作业审计):检讨组织的运作程序及方法以评估其效率及效益;履行审计(遵行审计):评估组织是否遵守由更高权力机构所订的程序、守则或规条;财务报表审计:评估企业或团体的财务报表是否根据公认会计准则编制,一般由独立会计师进行。资讯科技审计:评估企业或机构的资讯系统的安全性,完整性、系统可靠性及一致性。
现有技术中,相关领域的做法主要是靠被动建立法律法规及案例的数据库,之后再由从业人员主动检索、比对相关的情节与法律法规的规定不符之处,这样的工作模式完全依赖于从业人员极高的专业素养。因此,现有技术中需要进行人工检索,无法实现法律法规推荐的问题。
发明内容
本发明提出一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统,用于解决或者至少部分解决现有技术的方法存在的法律法规检索效率低的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,包括:
S1:构建相关法律法规及案例文档的全文倒排索引;
S2:构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
S3:利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
在一种实施方式中,步骤S1包括:
S1.1:基于Python读取法律法规及案例文档全文,以法条或案例为基本单位对其中的文字信息,利用正则表达式进行中文分词操作;
S1.2:对中文分词操作产生的词条结果进行归一化,形成词项词典;
S1.3:根据词项词典对所有文档按照其中出现的词项建立倒排索引。
在一种实施方式中,S2包括:
S2.1:构建中文常用词汇的one-hot编码;
S2.2:构建基于词汇的one-hot编码的编码器,其中,编码器的输入是检索词或违规行为经分词后的序列,
Si=(xi1,xi2,…,xiM)T,i∈1,2,3…N
其中,Si表示第i条记录的数据,xij表示其中的第j个词,M是Si的长度,N为数据条数;
编码器的输出ci:
ci=hiM,i∈1,2,3…N
为序列全部输入后网络节点hiM的状态,其中:
hi1=xi1
hi,器的输1是=hi的|xi,器的输1是
hi的为第i条记录的第k个神经元的隐藏状态,即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果;
S2.3:构建基于词汇的one-hot编码的解码器,其中,解码器的输入为编码器的输出ci,输出为检索词或违规行为名称对应的关键词序列,即针对法律法规及案例文档全文生成的倒排索引词典中的词序列,计算公式如下:
h’t=σ(Uc+Wh’t-1+Vy’t-1-θ)
y’t=σ(Vh’t+c)
其中,h′t为神经元的第t个隐藏状态,h′t-1为神经元的第t-1个隐藏状态,y′t-1为神经元的第t-1个输出,y′t为神经元的第t个输出,σ为激活函数sigmoid函数,c为编码器的输出;U,W,V均为神经网络中隐藏层到输出层的权重向量,θ为每个神经元的阈值向量,U,W,V与θ均为待定参数,其结果通过对模型训练后得出;
S2.4:采用教师强化训练方式,将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练,具体包括:运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值,
其中,BP算法得出更新规则如下:
输出层更新规则:
其中,为中间变量,作用是把形如对应等号后边的式子记作g,没有实际含义,η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,Uij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重,Vij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重,Wij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重,θj表示输出层第j个神经元的阈值,所有被Δ修饰的变量如ΔV均表示对该变量的修改值,被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值,其中可由/>与/>计算得到,Et为y′t的均方误差,E′t为h′t的均方误差,角标i和j表示某一维的分量,/>为/>的第j个分量,y′tj表示/>的第j个分量,βj表示y′t=σ(Vh′t+c)中σ函数的输入,β′j表示h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)中σ函数的输入,/>为/>的第j个分量,h′ti表示h′t的第i个分量,h′(t-1)i表示h′(t-1)的第i个分量。
在一种实施方式中,步骤S3包括:
S3.1:将用户检索词或选取的违规类别输入训练好的Seq2Seq神经网络模型,输出对应的关键词序列;
S3.2:根据关键词在法律法规及案例的全文倒排索引,获得对应的法律法规条款以及相关的案例,推荐给用户。
基于同样的发明构思,本发明第二方面提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐系统,包括:
倒排索引构建模块,用于构建相关法律法规及案例文档的全文倒排索引;
Seq2Seq神经网络模型构建模块,用于构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
推荐模块,用于利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,首先构建相关法律法规及案例文档的全文倒排索引,然后构建Seq2Seq神经网络模型,再利用训练好的Seq2Seq神经网络模型进行法律法规推荐,通过Seq2Seq神经网络模型可以根据输入的检索词输出对应的关键词序列,再根据关键词在法律法规及案例的全文倒排索引中检索出对应的法律法规条款以及可能相关的案例智能推荐给用户,从而降低从业者的劳动负荷,提高法律法规的检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为具体实施过程中基于倒排索引与Seq2Seq模型的法律法规推荐方法的流程图。
具体实施方式
本发明实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统,用于改善现有技术的方法存在的法律法规检索效率低的技术问题。
本发明的主要发明构思如下:
针对审计中涉及的法律法规、案例等数据构建倒排索引以及Seq2Seq神经网络模型,利用已经训练好的模型实现法律法规及相关案例的智能推荐任务。本发明的优点:可以自动根据场景、关键词智能推荐相关的法律法规以及案例,降低从业者的劳动负荷,提高法律法规的推荐效率以及劳动效率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参见图1,本发明实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,包括:
S1:构建相关法律法规及案例文档的全文倒排索引;
S2:构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
S3:利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
具体来说,本申请涉及的相关概念如下:
推荐系统:推荐系统是一项工程技术解决方案,通常通过利用机器学习等技术,实现一个用户交互系统。在用户使用产品进行浏览与检索交互的过程中,系统主动为用户展示可能会相关的物品、资料等内容,从而节省用户时间,提升用户体验,做到资源的优化配置。
基于审计大数据的法律法规推荐系统:基于审计场景下所拥有的大量相关法律法规、案例等进行数据分析与处理,并最终构建出的针对这一特殊领域的推荐系统。审计场景下拥有大量相关的法律法规资料及特定的违规行为案例,适合进行大规模数据分析。但目前相关领域的做法主要是靠被动建立法律法规及案例的数据库,之后再由从业人员主动检索、比对相关的情节与法律法规的规定不符之处,这样的工作模式完全依赖于从业人员极高的专业素养。基于审计大数据的法律法规推荐系统在科学分析与处理审计场景下特定数据的基础上,实现了针对特定的关键词与场景智能推荐相关法律法规及案例的功能,能在一定程度上降低从业人员的工作负荷,提高检索效率。
倒排索引:倒排索引亦称反向索引、置入档案或反向档案,是一种索引方法。它用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由“单词词典”和“倒排文件”两个部分组成。
Replicator Neural Network:RNN是一种序列连接模型,前馈神经网络的一种。输入层和输出层节点数一样,并且输入的变量也是输出的变量,中间层的节点数相对较少,这样RNN就起到压缩数据,恢复数据的作用。在自然语言处理方面有广泛的应用。
Seq2Seq序列到序列模型:Seq2Seq模型是输入长度和输出长度不确定时采用的模型,属于encoder-decoder编码器-解码器结构的一种。其基本思想就是利用两个RNN,一个RNN作为encoder编码器,另一个RNN作为decoder解码器。编码器负责编码,即将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义。解码器则负责解码,即根据语义向量生成指定的序列。
在一种实施方式中,步骤S1包括:
S1.1:基于Python读取法律法规及案例文档全文,以法条或案例为基本单位对其中的文字信息,利用正则表达式进行中文分词操作;
S1.2:对中文分词操作产生的词条结果进行归一化,形成词项词典;
S1.3:根据词项词典对所有文档按照其中出现的词项建立倒排索引。
通过分词、构建词向词典,然后根据词项词典对所有文档按照其中出现的词项来建立倒排索引。
在一种实施方式中,S2包括:
S2.1:构建中文常用词汇的one-hot编码;
S2.2:构建基于词汇的one-hot编码的编码器,其中,编码器的输入是检索词或违规行为经分词后的序列,
Si=(xi1,xi2,…,xiM)T,i∈1,2,3…N
其中,Si表示第i条记录的数据,xij表示其中的第j个词,M是Si的长度,N为数据条数;
编码器的输出ci:
ci=hiM,i∈1,2,3…N
为序列全部输入后网络节点hiM的状态,其中:
hi1=xi1
hi,(k+1)=hik|xi,(k+1)
hik为第i条记录的第k个神经元的隐藏状态,即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果;
S2.3:构建基于词汇的one-hot编码的解码器,其中,解码器的输入为编码器的输出ci,输出为检索词或违规行为名称对应的关键词序列,即针对法律法规及案例文档全文生成的倒排索引词典中的词序列,计算公式如下:
h’t=σ(Uc+Wh’t-1+Vy’t-1-θ)
y’t=σ(Vh’t+c)
其中,h’t为神经元的第t个隐藏状态,h′t-1为神经元的第t-1个隐藏状态,y′t-1为神经元的第t-1个输出,y′t为神经元的第t个输出,σ为激活函数sigmoid函数,c为编码器的输出;U,W,V均为神经网络中隐藏层到输出层的权重向量,θ为每个神经元的阈值向量,U,W,V与θ均为待定参数,其结果通过对模型训练后得出;
S2.4:采用教师强化训练方式,将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练,具体包括:运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值,
其中,BP算法得出更新规则如下:
输出层更新规则:
其中,为中间变量,作用是把形如对应等号后边的式子记作g,没有实际含义,η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,Uij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重,Vij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重,Wij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重,θj表示输出层第j个神经元的阈值,所有被Δ修饰的变量如ΔV均表示对该变量的修改值,被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值,其中可由/>与/>计算得到,Et为y′t的均方误差,角标i和j表示某一维的分量,/>为/>的第j个分量,y′tj表示/>的第j个分量,βj表示y′t=σ(Vh′t+c)中σ函数的输入,β′j表示h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)中σ函数的输入,/>为/>的第j个分量,h′ti表示h′t的第i个分量,h′(t-1)i表示h′(t-1)的第i个分量。
具体地,
是y′t=σ(Vh′t+c)的均方误差;
是h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)的均方误差,l是向量的维度,若带角标j则代表了某一维的分量。
与/>等同理,即/>为/>的第j个分量。
βj=Vh′t+c为输入向量,代表y′t=σ(Vh′t+c)中σ函数的输入,带有角标j则同样代表第j个分量;β′j=Uc+Wh′t-1+Vy′t-1,则代表h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)中σ函数的输入,角标同理。
另外形如h′ti的字符中i的用法与j相同,表示的是第i个分量。
关于g,其没有具体含义,类似的式子相当于把形如等号后边的式子记作g,并在后续ΔVij等的表达式中加以引用,右下角的j同样表示分量。由于本文中涉及了多个g,因此采用右上角的角标U,V与W表示对应变量的g。
具体来说,为了提高模型的准确率,本申请采用Teacher Forcing教师强化训练方式,将一定比例的上一个神经元的输出y^'替换为正确的值(期望值)作为输入的方式来进行训练。运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值。
在一种实施方式中,步骤S3包括:
S3.1:将用户检索词或选取的违规类别输入训练好的Seq2Seq神经网络模型,输出对应的关键词序列;
S3.2:根据关键词在法律法规及案例的全文倒排索引,获得对应的法律法规条款以及相关的案例,推荐给用户。
具体实施时,本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。
本发明的优点:可以自动根据场景、关键词智能推荐相关的法律法规以及案例,提高法律法规的检索效率,降低从业者的劳动负荷,提高劳动效率。
实施例二
基于同样的发明构思,本实施例提供了一种基于倒排索引与Seq2Seq模型的法律法规推荐系统,包括:
倒排索引构建模块,用于构建相关法律法规及案例文档的全文倒排索引;
Seq2Seq神经网络模型构建模块,用于构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
推荐模块,用于利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于倒排索引与Seq2Seq模型的法律法规推荐方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形(即采用类似的替代方式),但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。
Claims (3)
1.一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,其特征在于,包括:
S1:构建相关法律法规及案例文档的全文倒排索引;
S2:构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
S3:利用训练好的Seq2Seq神经网络模型进行法律法规推荐;
其中,步骤S1包括:
S1.1:基于Python读取法律法规及案例文档全文,以法条或案例为基本单位对其中的文字信息,利用正则表达式进行中文分词操作;
S1.2:对中文分词操作产生的词条结果进行归一化,形成词项词典;
S1.3:根据词项词典对所有文档按照其中出现的词项建立倒排索引;
S2包括:
S2.1:构建中文常用词汇的one-hot编码;
S2.2:构建基于词汇的one-hot编码的编码器,其中,编码器的输入是检索词或违规行为经分词后的序列,
Si=(xi1,xi2,…,xiM)T,i∈1,2,3…N
其中,Si表示第i条记录的数据,xij表示其中的第j个词,M是Si的长度,N为数据条数;
编码器的输出ci:
ci=hiM,i∈1,2,3…N
为序列全部输入后网络节点hiM的状态,其中:
hi1=xi1
hi,(k+1)=hik|xi,(k+1)
hik为第i条记录的第k个神经元的隐藏状态,即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果;
S2.3:构建基于词汇的one-hot编码的解码器,其中,解码器的输入为编码器的输出ci,输出为检索词或违规行为名称对应的关键词序列,即针对法律法规及案例文档全文生成的倒排索引词典中的词序列,计算公式如下:
h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)
y′t=σ(Vh′t+c)
其中,h′t为神经元的第t个隐藏状态,h′t-1为神经元的第t-1个隐藏状态,y′t-1为神经元的第t-1个输出,y′t为神经元的第t个输出,σ为激活函数sigmoid函数,c为编码器的输出;U,W,V均为神经网络中隐藏层到输出层的权重向量,θ为每个神经元的阈值向量,U,W,V与θ均为待定参数,其结果通过对模型训练后得出;
S2.4:采用教师强化训练方式,将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练,具体包括:运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值,
其中,BP算法得出更新规则如下:
输出层更新规则:
其中,为中间变量,作用是把形如对应等号后边的式子记作g,没有实际含义,η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,Uij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重,Vij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重,Wij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重,θj表示输出层第j个神经元的阈值,所有被Δ修饰的变量如ΔV均表示对该变量的修改值,被^修饰的变量/>与/>均表示神经网络给出的对该变量的预测值,其中/>可由与/>计算得到,Et为y′t的均方误差,E′t为h′t的均方误差,角标i和j表示某一维的分量,/>为/>的第j个分量,y′tj表示/>的第j个分量,βj表示y′t=σ(Vh′t+c)中σ函数的输入,β′j表示h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)中σ函数的输入,/>为/>的第j个分量,h′ti表示h′t的第i个分量,h′(t-1)i表示h′(t-1)的第i个分量。
2.如权利要求1所述的法律法规推荐方法,其特征在于,步骤S3包括:
S3.1:将用户检索词或选取的违规类别输入训练好的Seq2Seq神经网络模型,输出对应的关键词序列;
S3.2:根据关键词在法律法规及案例的全文倒排索引,获得对应的法律法规条款以及相关的案例,推荐给用户。
3.一种基于倒排索引与Seq2Seq模型的法律法规推荐系统,其特征在于,基于权利要求1所述的基于倒排索引与Seq2Seq模型的法律法规推荐方法实现,该系统包括:
倒排索引构建模块,用于构建相关法律法规及案例文档的全文倒排索引;
Seq2Seq神经网络模型构建模块,用于构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
推荐模块,用于利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140053.5A CN112287066B (zh) | 2020-10-22 | 2020-10-22 | 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140053.5A CN112287066B (zh) | 2020-10-22 | 2020-10-22 | 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287066A CN112287066A (zh) | 2021-01-29 |
CN112287066B true CN112287066B (zh) | 2024-03-08 |
Family
ID=74424831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011140053.5A Active CN112287066B (zh) | 2020-10-22 | 2020-10-22 | 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287066B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275936A (zh) * | 2019-05-09 | 2019-09-24 | 浙江工业大学 | 一种基于自编码神经网络的相似法律案例检索方法 |
US10528866B1 (en) * | 2015-09-04 | 2020-01-07 | Google Llc | Training a document classification neural network |
CN110750641A (zh) * | 2019-09-24 | 2020-02-04 | 武汉大学 | 一种基于序列连接模型和二叉树模型的分类纠错方法 |
-
2020
- 2020-10-22 CN CN202011140053.5A patent/CN112287066B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10528866B1 (en) * | 2015-09-04 | 2020-01-07 | Google Llc | Training a document classification neural network |
CN110275936A (zh) * | 2019-05-09 | 2019-09-24 | 浙江工业大学 | 一种基于自编码神经网络的相似法律案例检索方法 |
CN110750641A (zh) * | 2019-09-24 | 2020-02-04 | 武汉大学 | 一种基于序列连接模型和二叉树模型的分类纠错方法 |
Non-Patent Citations (1)
Title |
---|
基于查询意图识别与主题建模的文档检索算法;严锐;李石君;;计算机工程;20180315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287066A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | An outranking approach for multi-criteria decision-making with hesitant fuzzy linguistic term sets | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
Le et al. | Text classification: Naïve bayes classifier with sentiment Lexicon | |
CN112131350A (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Liu et al. | Uamner: uncertainty-aware multimodal named entity recognition in social media posts | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN117743315B (zh) | 一种为多模态大模型系统提供高质量数据的方法 | |
Gnanasekaran et al. | Using Recurrent Neural Networks for Classification of Natural Language-based Non-functional Requirements. | |
Kumar et al. | An abstractive text summarization technique using transformer model with self-attention mechanism | |
CN111221881B (zh) | 用户特征数据合成方法、装置及电子设备 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN118132719A (zh) | 一种基于自然语言处理的智能对话方法及系统 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
Zhu et al. | Design of knowledge graph retrieval system for legal and regulatory framework of multilevel latent semantic indexing | |
CN112287066B (zh) | 一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统 | |
Goossens et al. | GPT-3 for Decision Logic Modeling. | |
Guo et al. | RnRTD: Intelligent Approach Based on the Relationship‐Driven Neural Network and Restricted Tensor Decomposition for Multiple Accusation Judgment in Legal Cases | |
Jain et al. | Ontology-Based Natural Language Processing for Sentimental Knowledge Analysis Using Deep Learning Architectures | |
Wang et al. | Question answering system of discipline inspection laws and regulations based on knowledge graph | |
Mitra et al. | Matgap: A systematic approach to perform match and gap analysis among sbvr-based domain specific business rules | |
Wang et al. | Toward more accurate developer recommendation via inference of development activities from interaction with bug repair process | |
Sithole et al. | Mining knowledge graphs to map heterogeneous relations between the internet of things patterns | |
de Aquino Silva et al. | A new entity extraction model based on journalistic Brazilian Portuguese language to enhance named entity recognition | |
Zhenhong et al. | Person-Job Fit model based on sentence-level representation and theme-word graph | |
Mouli et al. | Sentiment analysis to determine employee job satisfaction using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |