CN112966296A

CN112966296A - 基于规则配置和机器学习的敏感信息过滤方法和系统

Info

Publication number: CN112966296A
Application number: CN202110119501.1A
Authority: CN
Inventors: 叶山茂; 喻波; 王志海; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-15

Abstract

本发明提供一种基于规则配置和机器学习的敏感信息过滤方法和系统。所述方法包括：步骤S1、采集原始信息，并对所述原始信息进行预处理，以获取文本信息；步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。该方法不仅能够过滤敏感信息，还能够有效滤除敏感信息的衍生/变种敏感信息。

Description

基于规则配置和机器学习的敏感信息过滤方法和系统

技术领域

本发明涉及信息过滤领域，尤其是涉及一种基于规则配置和机器学习的敏感信息过滤方法和系统。

背景技术

在当今互联网时代,网络提供了一个开放自由的言论平台，为人们进行资源共享提供了便利。但同时也带了一些不可避免的问题，由于网络环境具有虚拟性，也为各种非法信息的传播提供了传播的土壤，因此当前对网络信息的敏感信息处理技术也应运而生。

机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。规则配置：指定特定的信息过滤策略，比如根据敏感关键词、特定的词语组合、特定的语句格式等进行过滤。敏感信息：是指在过敏感信息过滤系统检测中，文本信息中具有符合敏感过滤规则中配置的敏感策略(比如符合色情、暴力、非法广告等)的信息内容。

当前敏感信息过滤技术主要是基于规则的实现，而面对敏感信息的各种变形、表达方式的不断变化，规则配置难以应付这些层出不穷的变化，无法很好地滤除衍生/变种敏感信息。

发明内容

本发明的目的在于提供一种基于规则配置和机器学习的敏感信息过滤方案，以解决现有技术中存在的上述技术问题。

本发明第一方面提供了一种基于规则配置和机器学习的敏感信息过滤方法，所述方法包括：步骤S1、采集原始信息，并对所述原始信息进行预处理，以获取文本信息；步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

根据本发明第一方面提供的方法，在所述步骤S1中，所述预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。

根据本发明第一方面提供的方法，在所述步骤S2中，所述第一过滤处理包括，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。

根据本发明第一方面提供的方法，在所述步骤S3中，所述机器学习模型由以下方式来获得：采集用于训练所述机器学习模型的第一数据，并对第一数据进行第一预处理，所述第一预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换、特征提取、降维处理中的一种或多种；将经所述第一预处理的第一数据分割为训练集、验证集和测试集，其中所述训练集用于训练所述机器学习模型，所述验证集用于优化所述机器学习模型，所述测试集用于检测所述机器学习模型过滤衍生敏感信息的性能；基于监督模式对所述机器学习模型进行训练、优化和检测。

本发明第二方面提供了一种基于规则配置和机器学习的敏感信息过滤系统，所述系统包括：信息采集单元，被配置为，采集原始信息，并对所述原始信息进行预处理，以获取文本信息；第一过滤单元，被配置为，基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及第二过滤单元，被配置为利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

根据本发明第二方面提供的系统，所述预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。

根据本发明第二方面提供的系统，所述第一过滤单元具体被配置为，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。

根据本发明第二方面提供的系统，所述机器学习模型由以下方式来获得：采集用于训练所述机器学习模型的第一数据，并对第一数据进行第一预处理，所述第一预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换、特征提取、降维处理中的一种或多种；将经所述第一预处理的第一数据分割为训练集、验证集和测试集，其中所述训练集用于训练所述机器学习模型，所述验证集用于优化所述机器学习模型，所述测试集用于检测所述机器学习模型过滤衍生敏感信息的性能；基于监督模式对所述机器学习模型进行训练、优化和检测。

本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本发明第一方面的基于规则配置和机器学习的敏感信息过滤方法中的步骤。

综上，本方案通过规则配置和机器学习结合的方式，不仅能够过滤敏感信息，还能够有效滤除敏感信息的衍生/变种敏感信息，以弥补现有技术中的不足。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于规则配置和机器学习的敏感信息过滤方法的流程的示意图；以及

图2为根据本发明实施例的基于规则配置和机器学习的敏感信息过滤系统的结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面提供了一种基于规则配置和机器学习的敏感信息过滤方法。图1为根据本发明实施例的基于规则配置和机器学习的敏感信息过滤方法的流程的示意图，如图1所示，所述方法包括：步骤S1、采集原始信息，并对所述原始信息进行预处理，以获取文本信息；步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

在步骤S1，采集原始信息，并对所述原始信息进行预处理，以获取文本信息。所述预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。注意，可以从互联网或任何其他途径采集所述原始信息，本公开对此不作出限定。

在步骤S2，基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息。所述第一过滤处理包括，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。具体地，规则策略可以通过人为和/或机器来配置；预先存储的关键信息表中包括了敏感信息的关键词、关键句、特定组合文本；匹配识别可以通过计算相似度、计算距离等方式来实现。

在步骤S3，利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。所述机器学习模型由以下方式来获得：采集用于训练所述机器学习模型的第一数据，并对第一数据进行第一预处理，所述第一预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换、特征提取、降维处理中的一种或多种；将经所述第一预处理的第一数据分割为训练集、验证集和测试集，其中所述训练集用于训练所述机器学习模型，所述验证集用于优化所述机器学习模型，所述测试集用于检测所述机器学习模型过滤衍生敏感信息的性能；基于监督模式对所述机器学习模型进行训练、优化和检测。

具体地，首先对收集到的数据进行数据预处理，包括处理缺失值、处理偏离值、数据规范化、数据的转换等，经过了数据预处理，得到规范数据后，对数据集做特征的提取、数据的降维处理。对吼将数据进行分割成独立的三部分：训练集、验证集和测试集,其中训练集使用数据的50％，验证集和测试集各使用25％，训练集用来估计模型，验证集用来调整模型参数从而得到最优模型，而测试集则检验最优的模型的性能如何。最后，选择监督学习模型进行模型训练，训练结果测试和模型参数调优。

作为规则过滤的补充，与之形成互补，可以精准识别各类场景中涉政人物、政治事件、宗教、反动分裂，以及恐怖主义等违规文本。例如，色情文本识别精准识别淫秽、污秽、色诱、文爱等涉黄内容，支持重度色情、轻度色情分级；辱骂文本识别精准识别各类场景中含有侮辱、谩骂、诋毁等辱骂内容；违禁文本识别精准识别赌博、刀枪、毒品、造假、贩假等违规内容；广告导流识别精准识别利用微信号、手机号、qq、二维码等开展违法垃圾广告内容；垃圾内容识别精准识别水贴、刷屏、无意义等垃圾内容。

此外，在一些实施例中，所述方法还包括告警功能，即，基于过滤出的敏感信息和衍生敏感信息，来确定是否向告警系统发出告警提示，例如，通过邮件或短信的方式来告知。

本发明第二方面提供了一种基于规则配置和机器学习的敏感信息过滤系统。图2为根据本发明实施例的基于规则配置和机器学习的敏感信息过滤系统的结构图，如图2所示，所述系统200包括：信息采集单元201，被配置为，采集原始信息，并对所述原始信息进行预处理，以获取文本信息；第一过滤单元202，被配置为，基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及第二过滤单元203，被配置为利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

根据本发明第二方面提供的系统，所述第一过滤单元202具体被配置为，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。

本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本发明第一方面的多任务处理方法中的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于规则配置和机器学习的敏感信息过滤方法，其特征在于，所述方法包括：

步骤S1、采集原始信息，并对所述原始信息进行预处理，以获取文本信息；

步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及

步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

2.根据权利要求1所述的基于规则配置和机器学习的敏感信息过滤方法，其特征在于，在所述步骤S1中，所述预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。

3.根据权利要求1所述的基于规则配置和机器学习的敏感信息过滤方法，其特征在于，在所述步骤S2中，所述第一过滤处理包括，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。

4.根据权利要求1所述的基于规则配置和机器学习的敏感信息过滤方法，其特征在于，在所述步骤S3中，所述机器学习模型由以下方式来获得：

采集用于训练所述机器学习模型的第一数据，并对第一数据进行第一预处理，所述第一预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换、特征提取、降维处理中的一种或多种；

将经所述第一预处理的第一数据分割为训练集、验证集和测试集，其中所述训练集用于训练所述机器学习模型，所述验证集用于优化所述机器学习模型，所述测试集用于检测所述机器学习模型过滤衍生敏感信息的性能；

基于监督模式对所述机器学习模型进行训练、优化和检测。

5.一种基于规则配置和机器学习的敏感信息过滤系统，其特征在于，所述系统包括：

信息采集单元，被配置为，采集原始信息，并对所述原始信息进行预处理，以获取文本信息；

第一过滤单元，被配置为，基于配置的规则策略对所述文本信息执行第一过滤处理，所述规则策略用于过滤所述文本信息中的敏感信息；以及

第二过滤单元，被配置为利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理，所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。

6.根据权利要求5所述的基于规则配置和机器学习的敏感信息过滤系统，其特征在于，所述预处理包括：缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。

7.根据权利要求5所述的基于规则配置和机器学习的敏感信息过滤系统，其特征在于，所述第一过滤单元具体被配置为，基于所述规则策略，将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别，以滤除所述文本信息中的敏感信息。

8.根据权利要求5所述的基于规则配置和机器学习的敏感信息过滤系统，其特征在于，所述机器学习模型由以下方式来获得：

基于监督模式对所述机器学习模型进行训练、优化和检测。

9.一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据权利要求1-4中任一项所述的基于规则配置和机器学习的敏感信息过滤方法中的步骤。