CN111858830A

CN111858830A - 基于自然语言处理的卫生监督执法数据检索系统及其方法

Info

Publication number: CN111858830A
Application number: CN202010234451.7A
Authority: CN
Inventors: 徐宏伟; 丁学利; 王锡辉
Original assignee: Beijing Mengtianmen Technology Co ltd
Current assignee: Beijing Mengtianmen Technology Co ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-10-30
Anticipated expiration: 2040-03-27
Also published as: CN111858830B

Abstract

本申请提供基于自然语言处理的卫生监督执法数据检索系统，包括输入模块、处理模块、检索模块、输出模块以及数据库；所述检索模块包括模糊检索模块和精确检索模块，其中，所述精确检索模块包括模糊字段和精确字段。本申请还包括一种基于自然语言处理的卫生监督执法数据检索系统的检索方法，步骤包括：将法律法规文本通过分词器分词；得到基于卫生监督执法的法律法规文本的深度学习算法模型；当用户选择模糊检索模式时，得到输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度；当选择精确检索模式时，根据得到的近义词和原词与卫生监督执法的法律法规文本进行匹配计数，找到相似度最高的文本内容。本申请提高了工作效率。

Description

基于自然语言处理的卫生监督执法数据检索系统及其方法

技术领域

本申请涉及卫生监督执法数据检索领域，尤其是基于自然语言处理的卫生监督执法数据检索系统及其方法。

背景技术

近年来，随着我国产业的多样化发展，每个产业领域的法律法规也在不断地补充完善。在越来越庞大的执法系统中，为了保证各个领域监督执法工作的有效进行，就要投入更多的人力资源，执法人员的培训成本也越来越高，另外如何在数量庞大的法律条例中准确找到产业领域相关的法律法规，提高执法效率，也是很大的问题。

发明内容

为解决上述问题，本申请提供一种基于自然语言处理的卫生监督执法数据检索系统，包括输入模块、处理模块、检索模块、输出模块以及数据库；

所述数据库包括卫生监督执法的法律法规文本；

所述处理模块包括分词器以及基于所述卫生监督执法的法律法规文本被分词器进行分词后建立的深度学习算法模型；

所述检索模块包括模糊检索模块和精确检索模块，其中，所述精确检索模块包括模糊字段和精确字段。

其中，优选的，基于自然语言处理的卫生监督执法数据检索系统还包括热词库模块。

其中，优选的，所述输出模块包括检索结果以及法律法规文本详情。

本申请还提供一种使用上述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，步骤包括：

S10,获取数据库中卫生监督执法的法律法规文本，将所述卫生监督执法的法律法规文本通过分词器分词，并将分词后的内容存入数据库中；

S20，利用中文语料库训练分词后的内容形成中文词向量，将所述中文词向量作为神经网络输入层的输入数据，根据 word2vector模型算法，得到基于卫生监督执法的法律法规文本的深度学习算法模型；其中，神经网络的输出层的维度与输入层的维度相同，该模型定义的损失函数为交叉熵代价函数，使用梯度下降法更新权重矩阵，其中，损失函数的公式如下：

其中，y是输出层每一个词在字典中的one-hot编码表示，|V| 为字典的总长度,y_i为该词在输出层的输出结果。

S30,当用户选择模糊检索模式时，分词器将输入的文本进行分词，通过基于卫生监督执法的法律法规文本的深度学习算法模型，能够计算出输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度；

当选择精确检索模式时，将输入文本的精确字段的内容作为原词，获取模糊字段有效原词及其原词的近义词，根据得到的近义词和原词与卫生监督执法的法律法规文本各个字段进行匹配计数，所得计数越高，则得到输入文本和该条法律法规文本的相似度越高；

S40，在系统界面上显示相似度最高的法律法规文本内容。

其中，S30步骤中，当用户选择模糊检索模式时，具体包括：

S301，判断用户输入的内容中是否有包括在数据库中法律法规文本中的罚款金额，若有，则把包括该罚款金额的法律法规文本作为第一候选集合；若没有；则还把数据库中所有法律法规文本作为第一候选集合；

S302，将用户输入的内容文本进行分词；

S303，通过gensim算法进行计算，根据分词结果中的词，查询语料库中该词的词向量，然后将出现的词的词向量相加，取平均值，即为该文本的词向量，计算公式为：

其中，s为文本中所有词的词向量集合，w为文本中一个词的词向量，v为文本向量。使用余弦方法来计算文本之间的相似度，即计算输入文本词向量v₁与第一候选集合中法律法规文本词向量v₂之间的余弦距离：

sim＝v₁·v₂

得到的余弦距离的数值越小，则代表输入文本与数据库中法律法规文本之间的相似度越高。

其中，步骤S302所述分词器采用Hanlp库的最短路径分词器，该算法使用目标文本生成一个有向无环图，每个字代表图的一个顶点，边代表可能的分词结果，该算法目标是使用贪心算法在该有向无环图中寻找权值和最大的路径，路径上边的标志及代表分词结果。

其中，在步骤S30中，当选择精确检索模式时，具体步骤为：

S305，判断输入内容的模糊字段中是否有包括在数据库中法律法规文本中的罚款金额，若有，则把包括该罚款金额的法律法规文本作为第一候选集合；若没有；则还把数据库中所有法律法规文本作为第一候选集合；

S306，获取输入内容的精确字段，作为第一原词保存在结果列表中；

S307，获取输入内容的模糊字段，用分词器将其分词后作为第二原词加入到结果列表中，由深度学习算法模型得到第二原词的近义词，将近义词保存在结果列表中；

S308，将结果列表与第一候选集合法律法规文本中的字段进行匹配计数，法律法规文本的原始文本字段能够匹配到结果列表的内容的计数越大，则该法律法规文本与输入内容的相似度越高。

其中，在步骤S308中，具体步骤为：将结果列表中的原词和近义词与第一候选集合中法律法规文本的字段进行匹配；设第一候选集合中法律法规文本匹配到结果列表中的n条原词，则所述该条法律法规文本的计数则加n；若法律法规文本匹配到n条近义词，设置该近义词与原词的近义度为d，则所述该条法律法规文本的计数加dn。

其中，还包括S50，把每次检索得到的关键词进行统计，将将检索的次数更新到数据库中，若数据库中没有该条关键词，则添加该关键词，并将检索次数置为1。

本申请实现的有益效果如下：

本发明提供了一种基于自然语言处理的卫生监督执法数据检索方法，通过对用户输入的检索内容进行分词、命名实体识别、中文词向量训练，然后与数据库中的执法标准进行比较，将两者转换为空间向量，计算相似度，进而检索出执法者想要看到的执法标准，不再需要执法者人工查找法律法规文本，有效提高了执法效率，减少执法领域投入的人力物力成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域技术人员来讲，还可以根据这些附图获得其他的附图。

图1本申请基于自然语言处理的卫生监督执法数据检索系统的界面图。

图2为本申请方法的流程图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在具体实施中，本申请中的卫生监督执法的法律法规是指《卫生监督规范用语手册》、《公共场所卫生管理条例》、《生活饮用水卫生监督管理办法》、《医疗机构管理条例》、《传染病防治法》、《学校卫生工作条例》、《医疗废物管理条例》、《职业医生法》等卫生行政法律、法规、规章及上位行政规范(以下简称法律规范) 等有关规定，以及各地区卫生监督系统中的执法标准，卫生监督执法的执法标准、规范用语、法律法规等内容。

本申请提供一种基于自然语言处理的卫生监督执法数据检索系统，所述系统包括包括输入模块、处理模块、检索模块、输出模块以及数据库；所述数据库包括卫生监督执法的法律法规文本；

所述检索模块包括模糊检索模块和精确检索模块，所述精确检索模块包括模糊字段和精确字段。

本申请基于自然语言处理的卫生监督执法数据检索系统使用了分词器和基于自然语言的深度学习算法模型，如图1所示，图1为本申请检索系统的使用界面，界面包括上传、检索、检索结果展示和热门关键词等应用；其中本实施例中，用户可以选择两种检索模式，包括模式1的“文本相似度”模式和模式2的“近义词匹配”模式，选择需要检索模式后，在输入关键词的输入框中输入待检索的内容，点击检索键进行检索。

其中，“文本相似度”模式是把输入的文本进行分词，计算出输入文本与法律法规文本之间的相似度，然后根据相似度进行排序，计算出相似度较高的法规文本来进行检索。而“近义词匹配”模式是通过寻找输入文本的近义词，根据得到的近义词和原词与法律法规文本各个字段进行匹配计数，对计数结果进行排序输出的方法进行检索；

得到检索结果后，将相似度最高的法律法规文本显示在界面上，在图1能够看出，检索结果的展示包括检索结果以及法律法规文本详情。

本系统包括分词器以及基于自然语言的深度学习算法模型，所述深度学习算法模型的建立方式为：根据卫生监督执法的法律法规文本，通过分词器分词并将分词后的内容存入数据库中，所述分词器使用Hanlp库中的感知机分词器(所述感知机类型分词器分词速度较慢，但准确率较高，适合预先对要进行匹配的目标文本进行分词存储在数据库中)；

其中，分词的内容包括法律法规文本的检查内容、违法事实、监督意见、定性依据、处理依据、处理内容、罚款金额等；

分词后的内容形成中文词向量，利用中文语料库训练中文词向量后保存，使用word2vector模型计算词向量，该模型把所有的中文词汇进行独热编码(one-hot)，把这些向量作为神经网络输入层的输入数据。该神经网络模型的中间隐藏层没有使用激活函数，输出层的维度与输入层的维度相同，使用Softmax进行回归。由于法律法规文本涉及的词种类有限，需要使用适用于小型语料库的连续词袋模型(CBOW)来进行损失函数的迭代优化。该模型定义的损失函数为交叉熵代价函数，使用梯度下降法更新权重矩阵。损失函数如下：

通过上述方法，最终将每个中文词的词向量保存为.npy文件，方便进行读取。

所述检索模块的检索模式中，当选择“文本相似度”模式作为检索模式时，计算出相似度较高的法律法规文本，具体可分为以下步骤：

(1)判断用户输入的内容中是否有法律法规文本中包括的罚款金额，若有，则把包括该罚款金额的法律法规文本作为第一候选集合；若没有；则还把数据库中所有法律法规文本作为第一候选集合；

(2)将用户输入的内容文本进行分词；

其中，本实施例中，为了加快系统的相应速度，采用Hanlp库的最短路径分词器，这是一种基于词典的分词算法，使用目标文本生成一个有向无环图，每个字代表图的一个顶点，边代表可能的分词结果，该算法目标是使用贪心算法在该有向无环图中寻找N条权值和最大的路径，路径上边的标志及代表分词结果；

(3)使用gensim算法计算输入内容文本与数据库中每条法律法规文本之间的相似度；具体计算方法为，根据分词结果中的词，查询语料库中该词的词向量，然后将出现的词的词向量相加，取平均值，即为该文本的词向量。计算公式为：

sim＝v₁·v₂

所述检索模块的检索模式中，当选择“近义词匹配”模式作为检索模式时，根据原词和得到的近义词与法律法规文本各个字段进行匹配计数，对计数结果进行排序输出，具体步骤为；

(1)将输入文本中[]内的字段作为精确字段，将[]外的字段作模糊字段，判断输入框内[]符号以外的内容文本中是否有罚款金额，若有，则把包括该罚款金额的法律法规文本作为第一候选集合；若没有；则还把数据库中所有法律法规文本作为第一候选集合；

(2)获取输入框的[]符号之间的内容，作为第一原词保存在结果列表中；

(3)获取输入框内[]符号以外的内容文本，用分词器将其分词后作为第二原词加入到结果列表中，由深度学习算法模型得到第二原词的近义词，将近义词保存在结果列表中；

(4)将结果列表与第一候选集合法律法规文本中的字段进行匹配计数，法律法规文本的原始文本字段能够匹配到结果列表的内容的计数越大，则该法律法规文本与输入内容的相似度越高。

具体方法为：将结果列表中的原词和近义词与第一候选集合中法律法规文本的字段进行匹配；设第一候选集合中法律法规文本匹配到结果列表中的n条原词，则所述该条法律法规文本的计数则加 n；若法律法规文本匹配到n条近义词，设置该近义词与原词的近义度为d，则所述该条法律法规文本的计数加dn。比如，当近义词与原词的近义度为1/2时，如果法律法规文本匹配到n条近义词，那么该条法律法规文本的计数加n/2。在具体实施方法中，为了使计数更加合理精确，还可以将原词的不同近义词设置为不同的权重，根据出现的频率、关联度等，将其量化归一，得到更加精确的计数。

最终统计每条法律法规文本的计数情况，进行排序输出；

本申请系统还包括热词库，具体方法为把每次检索得到的关键词进行统计，将将检索的次数更新到数据库中，若数据库中没有该条关键词，则添加该关键词，并将检索次数置为1，构建搜索热词库；

实施例:

本发明以一个具体实施例来说明本发明方法的计算过程：

此实施例中用户输入的检索内容为：医疗废物[2000]；

则根据深度算法模型的计算，此实施例中用户输入的内容分词结果列表为：['医疗','废物','保健','护理','照护','卫生','医护',' 废弃物','废料','垃圾','污水','污染物']，[2000]代表检索结果中罚款金额范围内包含2000；

“文本相似度”模式结果相似度最高的法律法规文本如表1所示，相似度为：0.701200008392334，界面显示参见附图图1：

表1

“近义词匹配”模式的查找结果如表1所示，相似度为4，界面显示参见附图图1：

表2

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.基于自然语言处理的卫生监督执法数据检索系统，包括输入模块、处理模块、检索模块、输出模块以及数据库；

所述数据库包括卫生监督执法的法律法规文本；

2.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统，其中，基于自然语言处理的卫生监督执法数据检索系统还包括热词库模块。

3.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统，其中，所述输出模块包括检索结果以及法律法规文本详情。

4.一种使用权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，步骤包括：

S20，利用中文语料库训练分词后的内容形成中文词向量，将所述中文词向量作为神经网络输入层的输入数据，根据word2vector模型算法，得到基于卫生监督执法的法律法规文本的深度学习算法模型；其中，神经网络的输出层的维度与输入层的维度相同，该模型定义的损失函数为交叉熵代价函数，使用梯度下降法更新权重矩阵，其中，损失函数的公式如下：

其中，y是输出层每一个词在字典中的one-hot编码表示，|V|为字典的总长度,y_j为该词在输出层的输出结果。

S30,当用户选择模糊检索时，分词器将输入的文本进行分词，通过基于卫生监督执法的法律法规文本的深度学习算法模型，计算出输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度；

当选择精确检索时，将输入文本的精确字段的内容作为原词，获取模糊字段原词及其原词的近义词，根据得到的近义词和原词与

S40，找到相似度最高的法律法规文本内容。

5.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，其中，S30步骤中，当用户选择模糊检索模式时，具体包括：

S302，将用户输入的内容文本进行分词；

sim＝v₁·v₂

6.如权利要求5所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，其中，步骤S302所述分词器采用Hanlp库的最短路径分词器，该算法使用目标文本生成一个有向无环图，每个字代表图的一个顶点，边代表可能的分词结果，该算法目标是使用贪心算法在该有向无环图中寻找权值和最大的路径，路径上边的标志及代表分词结果。

7.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，其中，在步骤S30中，当选择精确检索模式时，具体步骤为：

8.如权利要求7所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，其中，在步骤S308中，具体步骤为：将结果列表中的原词和近义词与第一候选集合中法律法规文本的字段进行匹配；设第一候选集合中法律法规文本匹配到结果列表中的n条原词，则所述该条法律法规文本的计数则加n；若法律法规文本匹配到n条近义词，设置该近义词与原词的近义度为d，则所述该条法律法规文本的计数加dn。

9.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法，其中，还包括S50，把每次检索得到的关键词进行统计，将将检索的次数更新到数据库中，若数据库中没有该条关键词，则添加该关键词，并将检索次数置为1。