CN114443934A

CN114443934A - 一种基于大数据的相关法律推荐方法

Info

Publication number: CN114443934A
Application number: CN202111589035.XA
Authority: CN
Inventors: 陈鹏; 熊林海; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-05-06

Abstract

本发明公开了一种基于大数据的相关法律推荐方法，该方法包括步骤1，基于爬虫技术，爬取法律法规数据，构建法律法规数据库，并对法律法规数据进行预处理。步骤2，基于elastic search数据库，进行案例问题的相关法律的搜索。步骤3，基于余弦相似度，对所述相关法律进行进一步的筛选。步骤4，将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权，得到加权相似度，筛选出最终的相关法律返回推荐。该方法通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合，既提高了推荐准确率，也避免了时间的大量开销。

Description

一种基于大数据的相关法律推荐方法

技术领域

本发明涉及大数据研究领域，具体涉及一种基于大数据的相关法律推荐方法。

背景技术

随着社会经济的发展和国家普法工作的开展，我国人民的法律意识越来越强。当人们遇到问题的时候，会了解和该问题相关的国家法律和地方规定，然而，我国法律众多，加上各个地方的法规，海量的数据让人们在搜索法律条款时需要花费大量的精力。因此，一个能够根据输入的问题推荐相关法律的系统就显得尤其重要。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：目前相关法律推荐方法主要有两种，一种通过数据库自带的搜索功能进行推荐；另一种是通过相似度计算的方法进行相关法律推荐。前者推荐准确率不高，后者在大数据量的情况下时间复杂度很大。

发明内容

为了克服现有技术的不足，本发明提供了一种基于大数据的相关法律推荐方法，通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合，既提高了推荐准确率，也避免了时间的大量开销。技术方案如下：

本发明提供了一种基于大数据的相关法律推荐方法，该方法包括如下步骤：

步骤1，基于爬虫技术，爬取法律法规数据，构建法律法规数据库，并对法律法规数据进行预处理。

将法律法规数据导入elastic search数据库中，根据需要对字段属性进行设计，选择ik分词器作为分词器插件，创建索引时使用ik分词器的ik_max_word模式，对文本进行最细粒度的分词；搜索时使用ik分词器的ik_smart模式，对文本进行最粗粒度的分词。

在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典。

步骤2，基于elastic search数据库，进行案例问题的相关法律的搜索。

设计搜索语句：通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域等因素，设计匹配到的法律必须满足的条件和能够提高相关性得分的条件。

通过文本处理的方法，提取案例问题所处的地区，内容、关键词等信息，利用上述设计好的搜索语句，设计相关性得分阈值，过滤掉低于该阈值的法律法规数据，将搜索出的法律法规数据按照相关性得分进行降序排列，考虑到后续程序运行时消耗的时间与空间成本，只保留前n条，返回这n条法律法规和它们在 elastic search的相关性得分。

步骤3，基于余弦相似度，对所述相关法律进行进一步的筛选。

首先，对所述相关法律用LAC分词工具进行分词：加载构建好的LAC自定义词典，调用LAC分词工具的接口，对相关法律进行分词，对分词结果使用构建好的停用词词典进行停用词去除，对LAC模型的进行重新训练，得到适合法律领域的分词模型，同时将分词结果添加到步骤1所述的elastic search自定义词典中，迭代更新该词典。

其次，对分词结果进行语义相似处理，识别同义词：对分词处理后的若干词语，使用训练好的Word2Vec模型将词语转化为向量，计算任意两个词语的余弦相似度，如果计算出的相似度高于设定阈值，就将其中的一个词全部换成另一个词得到新的分词结果。同时，将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中，迭代该同义词词典。

再次，利用词袋模型和TF_IDF算法，将分词结果转化为带权重的标准化向量：

将所述新的分词结果中所有词语去重后混到一起，形成词袋，给词袋中每个词语标上编号，利用标上编号后的词袋，将分词结果转化成词向量，形式为： [(N₁,C₁),(N₂,C₂),…(N_n,C_n)]，其中，N_i表示词语在词袋中的编号，C_i表示该词语在集合中出现的次数，i∈{1、2、……、n}；基于转化好的词向量，利用TF-IDF 算法计算出每个词向量中各个分量的权重TF_IDF_t,e，生成带权重的标准化向量，具体为：

其中，count(t)为词语t在法律e_j分词结果中出现的频次，|e_j|为法律e_j分词结果中词语的数量，m为法律的总数，I(t,e_j)表示法律e_j分词结果中是否包含词语 t，若包含则为1，否则为0。

同理，将案例问题也转化成带权重的标准化向量；

计算前n条法律法规中的每一条法律和案例问题的余弦相似度，具体计算方法如下：

其中，X_i为每条法律对应的标准化向量X的第i个词的权重，Y_i为案例问题对应的标准化向量Y的第i个词的权重。

步骤4，将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权，得到加权相似度，筛选出最终的相关法律返回推荐。

对elastic search相关性得分和余弦相似度分别进行归一化处理，具体公式为：

其中，score_i代表第i条法律的elastic_search相关性得分或者余弦相似度

min(score)、max(score)代表所有法律elastic_search相关性得分或余弦相似度最小最大值。

将归一化后的elastic search相关性得分和余弦相似度进行加权，得到每条法律的加权相似度。

根据加权相似度进行倒序排列，筛选出前数条相关法律返回作为最终推荐的相关法律，优选的，这里可以选择前10条。

优选的，步骤1具体为：利用网络爬虫技术，从国家相关法律法规网站上爬取法律法规数据。

优选的，步骤1对法律法规数据进行预处理，具体为：提取标题、正文、发布机构、发布时间等所需信息，对提取出来的信息进行清洗，去掉无意义的内容，对清洗完的法律法规数据进行去重，将去重后的法律法规数据存储。

优选的，步骤1还包括：在构建法律法规数据库后，定期、定时对elastic search中的法律法规数据进行更新。

优选的，步骤2所述必须满足的条件包括：法律内容包含案例内容关键词，法律有效性字段必须为现行有效，法律适用地区必须包含案例发生地。

优选的，步骤2提高相关性得分的条件包括：法律标题字段、内容字段、关键词字段中分别包含案例内容关键词和案例主题关键词；法律生效时间在案例发生时间之前。

优选的，步骤3的分词工具也可以替换成jieba、LTP等分词工具。

优选的，步骤3中Word2Vec模型训练方法如下：提取法律库内所有数据作为模型训练的语料库，划分训练样本、验证样本、测试样本，利用分词工具对样本进行分词，同时构建词袋，使用神经网络算法得到词语的分布式表示，即词语的向量形式，通过语义相似处理，将识别出的同义词替换。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过将使用elastic search数据库存储搜索和余弦相似度结合的方法进行相关法律推荐，构建法律法规数据库；先通过elastic search数据库自带的搜索功能搜索出最相似的前n条法律数据；再基于余弦相似度进一步在第二部搜索出来的n条法律数据里筛选出最相似的数条法律。通过将elastic search数据库搜索功能和基于余弦相似度的推荐方法集合，既提高了推荐准确率，也避免了时间的大量开销。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

本公开实施例提供了一种基于大数据的相关法律推荐方法，该方法包括如下步骤：

优选的，步骤1对法律法规数据进行预处理，具体为：

提取标题、正文、发布机构、发布时间等所需信息，对提取出来的信息进行清洗，去掉无意义的内容，防止对接下来的操作造成干扰，对清洗完的法律法规数据进行去重，将去重后的法律法规数据存储(可以是json文件也可以存储成 txt或者csv文件等)。

将法律法规数据导入elastic search数据库中，根据需要对字段属性进行设计，选择ik分词器作为分词器插件，创建索引时使用ik分词器的ik_max_word模式，对文本进行最细粒度的分词，以提高法律对词语的命中率；搜索时使用ik分词器的ik_smart模式，对文本进行最粗粒度的分词，以提高搜索时的准确率。

在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典，提高elastic search搜索的准确率。

添加自定义词典，能够提高分词器的分词效果，提高搜索准确率；

添加同义词词典，能够避免表达相同意思的不同词语造成的干扰；

添加停用词词典，能够避免介词、代词和语气助词等不重要的词对搜索造成的干扰。

优选的，步骤1还包括：在构建法律法规数据库后，定期、定时对elastic search中的法律法规数据进行更新，以保证法律法规数据库的实时性。

优选的，步骤2所述必须满足的条件包括：法律内容包含案例内容关键词，法律有效性字段必须为现行有效，法律适用地区必须包含案例发生地等。

优选的，步骤2提高相关性得分的条件包括：法律标题字段、内容字段、关键词字段中分别包含案例内容关键词和案例主题关键词；法律生效时间在案例发生时间之前等。

通过文本处理的方法，提取案例问题所处的地区，内容、关键词等信息，利用上述设计好的搜索语句，设计相关性得分阈值，过滤掉低于该阈值的法律法规数据，将搜索出的法律法规数据按照相关性得分进行降序排列，考虑到后续程序运行时消耗的时间与空间成本，只保留前n条(n优选的取值30)。返回这n条法律法规和它们在elastic search的相关性得分。

首先，对所述相关法律用LAC分词工具进行分词：加载构建好的LAC自定义词典，让LAC分词工具能够识别出法律领域特有的词语，提高LAC分词准确性。调用LAC分词工具的接口，对相关法律进行分词，对分词结果使用构建好的停用词词典进行停用词去除，提高分词结果的准确性。对LAC模型的进行重新训练，得到适合法律领域的分词模型，同时将分词结果添加到步骤1所述的 elastic search自定义词典中，迭代更新该词典，提升词典有效性。

其次，对分词结果进行语义相似处理，识别同义词：对分词处理后的若干词语，使用训练好的Word2Vec模型将词语转化为向量，计算任意两个词语的余弦相似度，如果计算出的相似度高于设定阈值，就将其中的一个词全部换成另一个词得到新的分词结果。同时，将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中，迭代该同义词词典，提升该同义词词典的有效性。

优选的，步骤3中Word2Vec模型训练方法如下：提取法律库内所有数据作为模型训练的语料库，划分训练样本、验证样本、测试样本，利用分词工具对样本进行分词，同时构建词袋，使用神经网络算法得到词语的分布式表示，即词语的向量形式，通过语义相似处理，将识别出的同义词替换。能够使得后续算法把同义词也能判断成相同词语，避免同义词语对文本相似度计算的影响，避免”包工头失联“、”包工头联系不上“等同一件事情的不同描述相似度很低的情况出现，从而使得整个模型的准确率有所提升。

同理，利用同样的方法将案例问题也转化成带权重的标准化向量。

步骤4，将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权，得到加权相似度，筛选出最终的相关法律返回推荐

min(score)、max(score)代表所有法律elastic_search相关性得分或余弦相似度最小最大值

将归一化后的elastic search相关性得分和余弦相似度进行加权，得到每条法律的加权相似度，优选的，权重分别设置为0.5、0.5。

根据加权相似度进行倒序排列，筛选出前10条相关法律返回作为最终推荐的相关法律。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于大数据的相关法律推荐方法，其特征在于，该方法包括如下步骤：

步骤1，基于爬虫技术，爬取法律法规数据，构建法律法规数据库，并对法律法规数据进行预处理；

将法律法规数据导入elastic search数据库中，根据需要对字段属性进行设计，选择ik分词器作为分词器插件，创建索引时使用ik分词器的ik_max_word模式，对文本进行最细粒度的分词；搜索时使用ik分词器的ik_smart模式，对文本进行最粗粒度的分词；

在elastic search数据库中添加构建好的自定义词典、同义词和停用词词典；

步骤2，基于elastic search数据库，进行案例问题的相关法律的搜索；

设计搜索语句：通过考虑法律法规适用地区、内容、标题、有效性、关键词、适用领域的因素，设计匹配到的法律必须满足的条件和能够提高相关性得分的条件；

通过文本处理的方法，提取案例问题所处的地区，内容、关键词的信息，利用上述设计好的搜索语句，设计相关性得分阈值，过滤掉低于该阈值的法律法规数据，将搜索出的法律法规数据按照相关性得分进行降序排列，考虑到后续程序运行时消耗的时间与空间成本，只保留前n条，返回这n条法律法规和它们在elastic search的相关性得分；

步骤3，基于余弦相似度，对所述相关法律进行进一步的筛选；

首先，对所述相关法律用LAC分词工具进行分词：加载构建好的LAC自定义词典，调用LAC分词工具的接口，对相关法律进行分词，对分词结果使用构建好的停用词词典进行停用词去除，对LAC模型的进行重新训练，得到适合法律领域的分词模型，同时将分词结果添加到步骤1所述的elastic search自定义词典中，迭代更新该词典；

其次，对分词结果进行语义相似处理，识别同义词：对分词处理后的若干词语，使用训练好的Word2Vec模型将词语转化为向量，计算任意两个词语的余弦相似度，如果计算出的相似度高于设定阈值，就将其中的一个词全部换成另一个词得到新的分词结果；同时，将Word2Vec模型预测出来的同义词添加到elastic search同义词词典中，迭代该同义词词典；

将所述新的分词结果中所有词语去重后混到一起，形成词袋，给词袋中每个词语标上编号，利用标上编号后的词袋，将分词结果转化成词向量，形式为：[(N₁,C₁),(N₂,C₂),…(N_n,C_n)]，其中，N_i表示词语在词袋中的编号，C_i表示该词语在集合中出现的次数，i∈{1、2、……、n}；基于转化好的词向量，利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t,e，生成带权重的标准化向量，具体为：

其中，count(t)为词语t在法律e_j分词结果中出现的频次，|e_j|为法律e_j分词结果中词语的数量，m为法律的总数，I(t,e_j)表示法律e_j分词结果中是否包含词语t，若包含则为1，否则为0；

同理，将案例问题也转化成带权重的标准化向量；

其中，X_i为每条法律对应的标准化向量X的第i个词的权重，Y_i为案例问题对应的标准化向量Y的第i个词的权重；

步骤4，将步骤2得到的相关法律的elastic search相关性得分和步骤3得到的余弦相似度进行加权，得到加权相似度，筛选出最终的相关法律返回推荐；

其中，score_i代表第i条法律的elastic_search相关性得分或者余弦相似度min(score)、max(score)代表所有法律elastic_search相关性得分或余弦相似度最小最大值；

将归一化后的elastic search相关性得分和余弦相似度进行加权，得到每条法律的加权相似度；

根据加权相似度进行倒序排列，筛选出前数条相关法律返回作为最终推荐的相关法律。

2.根据权利要求1所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤1具体为：利用网络爬虫技术，从国家相关法律法规网站上爬取法律法规数据。

3.根据权利要求1所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤1对法律法规数据进行预处理，具体为：提取标题、正文、发布机构、发布时间的所需信息，对提取出来的信息进行清洗，去掉无意义的内容，对清洗完的法律法规数据进行去重，将去重后的法律法规数据存储。

4.根据权利要求1所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤1还包括：在构建法律法规数据库后，定期、定时对elastic search中的法律法规数据进行更新。

5.根据权利要求1-4任一项所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤2所述必须满足的条件包括：法律内容包含案例内容关键词，法律有效性字段必须为现行有效，法律适用地区必须包含案例发生地。

6.根据权利要求5所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤2提高相关性得分的条件包括：法律标题字段、内容字段、关键词字段中分别包含案例内容关键词和案例主题关键词；法律生效时间在案例发生时间之前。

7.根据权利要求6所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤3的分词工具也可以替换成jieba、LTP分词工具。

8.根据权利要求7所述的一种基于大数据的相关法律推荐方法，其特征在于，步骤3中Word2Vec模型训练方法如下：提取法律库内所有数据作为模型训练的语料库，划分训练样本、验证样本、测试样本，利用分词工具对样本进行分词，同时构建词袋，使用神经网络算法得到词语的分布式表示，即词语的向量形式，通过语义相似处理，将识别出的同义词替换。