CN112597770A

CN112597770A - 基于深度学习的敏感信息查询方法

Info

Publication number: CN112597770A
Application number: CN202011482836.1A
Authority: CN
Inventors: 綦大勇; 梁媛媛; 王�琦; 朱霖; 邓晓露; 陈华
Original assignee: Yancheng Shuzhi Technology Co ltd
Current assignee: Yancheng Shuzhi Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-02
Anticipated expiration: 2040-12-16
Also published as: CN112597770B

Abstract

本发明公开一种基于深度学习的敏感信息查询方法，包括如下步骤：步骤1，对待查询文本进行分词处理，然后转换为特征向量；步骤2，将步骤1得到的特征向量输入神经网络模型中，输出与敏感词词库的相似度，若该相似度高于阈值，则判定该待查询文本中包含敏感词，并输出相应的敏感词结果。此种基于深度学习的敏感信息查询方法，一方面通过设定分词规则，并对分词规则进行训练和更新，从而能够灵活地对文本进行准确的分词处理，提高分词准确性；另一方面，通过引入人工智能技术，采用深度学习的方法，通过构建神经网络模型，对文本进行准确而有效的识别，提高查询的准确性，提高查询效率。

Description

基于深度学习的敏感信息查询方法

技术领域

本发明属于信息查询技术领域，特别涉及一种基于深度学习的敏感信息查询方法。

背景技术

在公众平台发布信息时，通常需要进行敏感词检查，对于违反法律或者公序良俗的内容不予公开。最初是采用人工审核，但是随着越来越多的人使用互联网发表信息，人工审核速度非常慢，而且容易遗漏，效果不佳；随着自然语言查询技术的发展，人们开始采用各种查询方案进行自动筛选，查询要发布的信息中是否包含文本库中的内容，但是这种查询方式比较机械，容易出现误操作，例如，在语句“ABCDEFG”中，AB是一个词组，CD是一个词组，BC是敏感词，那么现有的查询方式就会判定该句中存在敏感词，导致误判。

深度学习的概念由Hinton等人于2006年提出，它是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本。深度学习是无监督学习的一种，其概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。基于深信度网(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。

发明内容

本发明的目的，在于提供一种基于深度学习的敏感信息查询方法，其可提高对待查询文本的分词灵活性，提高查询结果的准确性。

为了达成上述目的，本发明的解决方案是：

一种基于深度学习的敏感信息查询方法，包括如下步骤：

步骤1，对待查询文本进行分词处理，然后转换为特征向量；

步骤2，将步骤1得到的特征向量输入神经网络模型中，输出与敏感词词库的相似度，若该相似度高于阈值，则判定该待查询文本中包含敏感词，并输出相应的敏感词结果。

上述步骤1中，还对分词处理后的结果进行人工抽查复核。

上述步骤1中，根据分词规则对待查询文本进行分词处理，该分词规则为在训练过程中满足置信度要求的分词规则。

上述步骤2中，所述神经网络模型包括输入层、隐藏层和输出层，其中，输入层的输入为待查询文本进行分词处理后得到的特征向量，输出层的输出为前述特征向量与敏感词词库的相似度。

上述神经网络模型的代价函数采用交叉熵损失函数，采用随机梯度下降方法进行训练。

上述步骤2中，敏感词词库包含现有敏感词词库及自定义的敏感词。

采用上述方案后，本发明具有以下改进：

(1)本发明通过设定分词规则，并对分词规则进行训练和更新，从而能够灵活地对文本进行准确的分词处理，提高分词准确性；

(2)本发明引入人工智能技术，采用深度学习的方法，通过构建神经网络模型，对文本进行准确而有效的识别，提高查询的准确性，提高查询效率。

具体实施方式

以下将结合具体实施例，对本发明的技术方案及有益效果进行详细说明。

本发明提供一种基于深度学习的敏感信息查询方法，包括如下步骤：

步骤1，对待查询文本进行分词处理，然后转换为特征向量；

所述步骤1中，在对待查询文本进行分词处理后，还进行人工抽查复核，以提高分词处理的准确性；

所述步骤1中，设定分词规则，并对该分词规则进行训练，保留其中满足置信度的分词规则，将训练中未匹配到的分词规则删除；其中，置信度可根据实际需求进行设置；由于随着网络的发展，人们的表达方式变化加快，因此可以定期或不定期对分词规则进行训练更新；

步骤2，将步骤1得到的特征向量输入构建的神经网络模型中，输出与敏感词词库的相似度，若该相似度高于阈值，则判定该待查询文本中包含敏感词，并输出相应的敏感词结果；

所述步骤2中，所述神经网络模型包括输入层、隐藏层和输出层，其中，输入层的输入为待查询文本进行分词处理后得到的特征向量，输出层的输出为前述特征向量与敏感词词库的相似度；其代价函数采用交叉熵损失函数，采用随机梯度下降方法进行训练。

神经网络模型通过采用大量的神经元节点联结进行计算，是一种模仿生物神经网络的结构和功能的一种运算模型，常见的激活函数有Sigmoid函数、Tanh函数、Softplus函数和Rectifier函数，下面分别介绍。

Sigmoid函数的数学表达式为：

其导数形式如下：

Tanh函数的数学表达式为：

其导数形式如下：

Softplus函数的数学表达式为：

f(z)＝ln(1+e^z)

其导数形式如下：

Rectifier函数的数学表达式为：

f(z)＝max(0,z)

其导数形式如下：

所述步骤2中，在构建敏感词词库时，可以在现有敏感词词库的基础上，根据人们的语言习惯和时事发展，将新出现的敏感词加入敏感词词库中，也可以将长期未出现的敏感词自词库中删除，以降低运算量，提高查询速度。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于深度学习的敏感信息查询方法，其特征在于包括如下步骤：

步骤1，对待查询文本进行分词处理，然后转换为特征向量；

2.如权利要求1所述的基于深度学习的敏感信息查询方法，其特征在于：所述步骤1中，还对分词处理后的结果进行人工抽查复核。

3.如权利要求1所述的基于深度学习的敏感信息查询方法，其特征在于：所述步骤1中，根据分词规则对待查询文本进行分词处理，该分词规则为在训练过程中满足置信度要求的分词规则。

4.如权利要求1所述的基于深度学习的敏感信息查询方法，其特征在于：所述步骤2中，所述神经网络模型包括输入层、隐藏层和输出层，其中，输入层的输入为待查询文本进行分词处理后得到的特征向量，输出层的输出为前述特征向量与敏感词词库的相似度。

5.如权利要求4所述的基于深度学习的敏感信息查询方法，其特征在于：所述神经网络模型的代价函数采用交叉熵损失函数，采用随机梯度下降方法进行训练。

6.如权利要求1所述的基于深度学习的敏感信息查询方法，其特征在于：所述步骤2中，敏感词词库包含现有敏感词词库及自定义的敏感词。