CN110851584B

CN110851584B - 一种法律条文精准推荐系统和方法

Info

Publication number: CN110851584B
Application number: CN201911107424.7A
Authority: CN
Inventors: 刘朝
Original assignee: Chengdu Hualv Networking Co ltd
Current assignee: Chengdu Hualv Networking Co ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2023-12-15
Anticipated expiration: 2039-11-13
Also published as: CN110851584A

Abstract

本发明公开了一种法律条文精准推荐系统，包括：输入模块、数据处理模块、训练模块、法条生成模块、搜索模块和输出模块；输入模块用于输入法律条文数据和咨询问题数据；数据处理模块用于将接收到的数据内容进行分类；训练模块用于对数据进行训练并建立法条生成式模型；法条生成模块用使用训练完成的模型生成法律条文；搜索模块使用生成的法条匹配精准的法律条文；输出模块用于输出结果；本发明通过Transformer提取数据特征并建模训练以及集束搜索(Beam Search)算法，使法条数据可以针对咨询问题而快速精准的生成；再通过Elastic Search快速的匹配精准的法律条文数据，使用户可以直观的查看法律咨询问题对应的相关法条内容，有效提高律师工作效率。

Description

一种法律条文精准推荐系统和方法

技术领域

本发明涉及法律数据管理领域，尤其是一种法律条文精准推荐系统和方法。

背景技术

律师为用户提供法律咨询服务时，往往需要分析用户的咨询内容，并给出法律意见和法条依据。我国目前正式发行的法律条文大约有40万条，且每年都在进行更新，而记住或者检索如此多的法律条文十分浪费律师的精力。现有的解决方法如Westlaw、北大法宝等提供的法律数据库服务一般基于传统的关键词检索，得出的法律条文冗长且没有针对性，利用这些数据库进行法律检索之前需要律师仔细分析用户提问，需要律师具有较搞的专业水平，是一件费时费力的苦差事。

现有技术中，有通过基于BERT预训练模型的问答匹配结构，但是目前的法律条文数量庞大，采用此方法遍历检索的话时间消耗太大。因此提出将所有法条划分为法律专长、法典名称、法律条文的分层结构，并采用分层模型的方法降低模型搜索的复杂度。最终一条问题匹配用时仍然很长，在高性能的GPU服务器上也需要数秒时间。由于法条匹配用时太长，另一种方法是采用双塔模型，模型先采用BERT模型将所有法条进行特征抽取并将抽取后的编码一一对应并储存，然后用不同参数的BERT模型将实时的咨询问题进行特征抽取后与法条编码进行相似度计算，并采纳相似度最高的几条法条。此种方法的虽然速度很快，但是准确率较低。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种法律条文精准推荐系统和方法；本发明解决了法律条文检索时耗时过长的问题；解决了法律条文检索不精准的问题。

本发明的系统基于自然语言生成(NLG)和Elastic Search技术，本系统可以通过用户咨询自动识别其中的法律问题，然后完成检索并向律师呈现最相关、最有价值的法律条文，而非像传统法律数据库那样，仅仅呈现一大堆检索结果。将人类律师从繁琐的法律检索工作中解脱出来，投身于更需要专业理解的工作中去，有效提高律师工作效率。

本系统采用Transformer的特征提取方法，并用编码器-解码器结构训练法条生成式模型，解码时采用集束搜索的方法提高生成准确率，由于生成法条不能保证权威性，再将生成的法条使用基于Elastic Search的匹配模块匹配法条数据库里的权威而准确的法律条文。

自然语言生成(NLG)是自然语言处理的一部分，输入的语言通常称为源语言，需要生成的结果通常称为目标语言。早期的语言生成系统多为基于规则和统计，该方法对语言学家的要求非常高，而且我们几乎无法总结一门语言会用到的所有规则。

近年来，深度学习技术的发展为解决上述挑战提供了新的思路。将深度学习应用于语言生成任务的方法大致分为两类：

1、仍以统计系统为框架，只是利用神经网络来改进其中的关键模块，如语言模型、调序模型等；

2、不再以统计机器翻译系统为框架，而是直接用神经网络将源语言映射到目标语言，即端到端的神经网络语言生成。

本发明采用的技术方案如下：

一种法律条文精准推荐系统，包括：输入模块、数据处理模块、训练模块、法条生成模块、搜索模块和输出模块；所述输入模块、数据处理模块、训练模块、法条生成模块、搜索模块和输出模块依次连接；输入模块用于输入法律条文数据和咨询问题数据；数据处理模块用于将接收到的数据内容进行分类；训练模块用于对数据进行训练并建立法条生成式模型；法条生成模块用于根据训练完成的模型生成法律条文；搜索模块用于检索法律条文；输出模块用于输出检索结果。

进一步的，所述训练模块通过Transformer进行训练和建模，Transformer通过注意力机制实现序列到序列的建模；Transformer结构包括Encoder层和Decoder层，Encoder层和Decoder层均由若干分层构成。

进一步的，Encoder层中的分层由一个多头注意力层和一个前馈网络构成；Decoder层中的分层由两个多头注意力层和前馈网络构成。

进一步的，所述法条生成模块是通过集束搜索算法生成法条，集束搜索算法是一种启发式图搜索算法，用于在图或树中搜索有限集合中的最优扩展节点。

进一步的，所述集束搜索算法具体为：设置集束搜索算法Beam Size为k，使用训练收敛的生成模型根据源语言句子的编码信息c和初始目标序列的编码信息输出第i个目标序列单词Ui在目标语言词向量空间上的概率分布和i时刻的隐层状态Zi，取概率最大的k个词作添加到目标序列中，并作为下一步输入的一部分，对k个词分别重复上述步骤，对整体结果集再取概率最大的k个词添加到目标序列；重复步骤，直到获得句子结束标记<e>或超过句子的最大生成长度为止。

进一步的，所述搜索模块为基于Elastic Search实现的高效文本相似度检索模型；所述Elastic Search是一个分布式、高扩展、高实时的搜索与数据分析引擎。

进一步的，所述搜索步骤为：将法条生成模块输出的法条输入到Elastic Search数据库中；Elastic Search负责使用分词控制器去将输入的语句进行分词；然后在预先建立好的准确法律条文的倒排索引中查找分词后的词语，并根据词语再法条库中出现的频率和文档频率进行加权，再使用BM25算法根据权重将结果打分、排名，再将最相似结果返回。BM25算法是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明通过Transformer提取数据特征并建模训练以及集束搜索算法，有效捕捉用户咨询问题中的法律问题，并智能的输出法律条文。

2、本发明通过法条搜索模块，将生成的法律条文转换为权威正式的法律条文生成的法条数据，解决生成式法条不能保证权威性的问题，为用户和律师提供精准的法条内容，有效提高律师工作效率。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是法律条文精准推荐系统结构图。

图2是柱搜索算法流程图。

图3是搜索流程图。

其中，1-输入模块；2-数据处理模块；3-训练模块；4-法条生成模块；5-搜索模块；6-输出模块。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

实施例1

一种法律条文精准推荐系统，如图1所示，包括：输入模块1、数据处理模块2、训练模块3、法条生成模块4、搜索模块5和输出模块6；所述输入模块1、数据处理模块2、训练模块3、法条生成模块4、搜索模块5和输出模块6依次连接。

输入模块1用于输入法律条文数据和咨询问题数据；在本实施例中，输入模块1会将多种数据统一输入至数据处理模块2中。

数据处理模块2用于将接收到的数据内容进行分类；数据处理模块2会将接收到的数据按照类型进行分类，本实施例中主要分为法律条文类型和咨询问题类型，法律条文类型数据主要为各种法律法规的相关内容，咨询问题类型主要为包括了疑问句类型的语句内容。

训练模块3用于对数据进行训练并建立法条生成式模型；本实施例中，所述训练模块3通过Transformer进行训练和建模，Transformer是用以完成序列到序列(sequence tosequence,Seq2Seq)学习任务的一种全新网络结构，通过注意力机制，提取数据特征实现序列到序列的建模；相较于此前Seq2Seq模型中广泛使用的循环神经网络(Recurrent NeuralNetwork,RNN)，使用(Self)Attention进行输入序列到输出序列的变换主要具有以下优势：

1、计算复杂度小

特征维度为d、长度为n的序列，在RNN中计算复杂度为O(n*d*d)(n个时间步，每个时间步计算d维的矩阵向量乘法)，在Self-Attention中计算复杂度为O(n*n*d)(n个时间步两两计算d维的向量点积或其他相关度函数)，n通常要小于d。

2、计算并行度高

RNN中当前时间步的计算要依赖前一个时间步的计算结果；Self-Attention中各时间步的计算只依赖输入不依赖之前时间步输出，各时间步可以完全并行。

3、容易学习长程依赖(long-range dependencies)

RNN中相距为n的两个位置间的关联需要n步才能建立；Self-Attention中任何两个位置都直接相连；路径越短信号传播越容易。

Transformer结构包括Encoder层和Decoder层，Encoder层和Decoder层均由若干分层构成；Encoder层中的分层由一个多头注意力(Multi-Head Attention)层和一个前馈网络(Feed-Forward)构成，Multi-Head Attention用于实现Self-Attention，相比于简单的Attention机制，其将输入进行多路线性变换后分别计算Attention的结果，并将所有结果拼接后再次进行线性变换作为输出。其中Attention使用的是点积(Dot-Product)，并在点积后进行了scale的处理以避免因点积结果过大进入softmax的饱和区域；Feed-Forward网络会对序列中的每个位置进行相同的计算(Position-wise)，其采用的是两次线性变换中间加以ReLU激活的结构；Decoder层中的分层由两个多头注意力层和前馈网络构成，其中多出的多头注意力层用于实现对Encoder层输出的Attention。

此外，每个sub-layer后还施以Residual Connection和Layer Normalization来促进梯度传播和模型收敛。

法条生成模块4用于根据训练完成的模型生成法律条文；本实施例中，法条生成模块4是通过集束搜索算法生成法条，集束搜索算法是一种启发式图搜索算法，用于在图或树中搜索有限集合中的最优扩展节点，通常用在解空间非常大的系统(如机器翻译、语音识别、问答系统)中，原因是内存无法装下图或树中所有展开的解。如在问答系统任务中输入问题“<s>今天是星期几？<e>”，就算目标语言字典中只有3个词(<s>,<e>,星期一)，也可能生成无限句话(“星期一”循环出现的次数不定)，为了找到其中较好的生成结果，可采用集束搜索算法。

集束搜索算法使用广度优先策略建立搜索树，在树的每一层，按照启发代价对节点进行排序，然后仅留下预先确定的个数的节点。只有这些节点会在下一层继续扩展，其他节点就被剪掉了，也就是说保留了质量较高的节点，剪枝了质量较差的节点。因此，搜索所占用的空间和时间大幅减少。

使用集束搜索算法的解码阶段，目标是最大化生成序列的概率，其步骤如图2所示，为：

S11：设置集束搜索算法Beam Size为k；

S12：使用训练收敛的生成模型根据源语言句子的编码信息c和初始目标序列的编码信息输出第i个目标序列单词Ui在目标语言词向量空间上的概率分布和i时刻的隐层状态Zi。

S13：取概率最大的k个词作添加到目标序列中，并作为循环输入的一部分。

S14：对k个词分别重复步骤S11-S13，对整体结果集再取概率最大的k个词添加到目标序列。

S15：重复步骤S11-S14，直到获得句子结束标记<e>或超过句子的最大生成长度为止。

本实施例中，法条生成模块4可以自由设置生成的法条数量，获取法律条文越多，模型命中相关法条的几率越高。

搜索模块5用于检索法律条文；所述搜索模块5是基于Elastic Search实现的搜索模块；所述Elastic Search是一个分布式、高扩展、高实时的搜索与数据分析引擎；ElasticSearch的实现原理如图3所示，主要分为：

S21：将法条数据提交到Elastic Search数据库中；

S22：对输入的法条进行分词、建立倒排索引和统计词频工作

S22：使用BM25算法计算输入数据内容和搜索模块中已有的法条之间的相关性；

S23：返回最相关的N条法条；

上述步骤中，当用户搜索数据时候，系统会根据权重将结果排名、打分，再将返回结果呈现给用户；所述数据在本实施例中为。

本实施例中，如果集束搜索时设定生成多条法条，则迭代使用搜索模块分别进行搜索，最终形成多条相关法律条文。

输出模块6用于输出检索结果，本实施例中，输出模块6为具有显示功能的终端，例如手机或电脑；当用户输入需要咨询的问题后，系统会将搜索到的解决该问题的相关法条显示在终端的屏幕上供用户查看。

本发明通过Transformer提取数据特征并建模训练以及集束搜索算法，使法条数据可以针对咨询问题进行快速精准的生成；通过搜索模块匹配权威法条数据，使用户可以直观的查看咨询问题相关法条内容，有效提高律师工作效率。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种法律条文精准推荐系统，其特征在于，包括：输入模块(1)、数据处理模块(2)、训练模块(3)、法条生成模块(4)、搜索模块(5)和输出模块(6)；所述输入模块(1)、数据处理模块(2)、训练模块(3)、法条生成模块(4)、搜索模块(5)和输出模块(6)依次连接；输入模块(1)用于输入法律条文数据和咨询问题数据；数据处理模块(2)用于将接收到的数据内容按照类型进行分类，分为法律条文类型和咨询问题类型；训练模块(3)用于对数据进行训练并建立法条生成式模型；法条生成模块(4)用于根据训练完成的模型生成至少一条法律条文；搜索模块(5)用于检索法律条文；输出模块(6)用于输出检索结果；

所述法条生成模块(4)是通过集束搜索算法生成法条，集束搜索算法是一种启发式图搜索算法，用于在图或树中搜索有限集合中的最优扩展节点；所述集束搜索算法具体为：设置集束搜索算法Beam Size为k；使用训练收敛的生成模型根据源语言句子的编码信息c和初始目标序列的编码信息输出第i个目标序列单词Ui在目标语言词向量空间上的概率分布和i时刻的隐层状态Zi；取概率最大的k个词作添加到目标序列中，并作为循环输入的一部分；对k个词分别重复上述步骤，对整体结果集再取概率最大的k个词添加到目标序列；重复步骤，直到获得句子结束标记<e>或超过句子的最大生成长度为止；

所述搜索模块(5)主要依托Elastic Search来实现；所述Elastic Search是一个分布式、高扩展、高实时的搜索与数据分析引擎；搜索步骤为：将法条生成模块输出的法条输入到Elastic Search数据库中；Elastic Search负责使用分词控制器去将输入的语句进行分词；然后在预先建立好的准确法律条文的倒排索引中查找分词后的词语，并根据词语再法条库中出现的频率和文档频率进行加权，再使用BM25算法根据权重将结果排名、打分，再将最相似结果返回；若所述法条生成模块(4)生成多条法律条文，则迭代使用所述搜索模块(5)分别进行搜索，以形成多条相关法律条文。

2.如权利要求1所述的法律条文精准推荐系统，其特征在于，所述训练模块(3)通过Transformer结构的模型进行训练和建模，Transformer是一种基于Encoder-Decoder结构的模型,Transformer通过注意力机制实现序列到序列的建模。

3.如权利要求2所述的法律条文精准推荐系统，其特征在于，Encoder层中的分层由一个多头注意力层和一个前馈网络构成；Decoder层中的分层由两个多头注意力层和前馈网络构成。