CN114554492B

CN114554492B - 一种基于大数据识别短信内容中有害信息的方法

Info

Publication number: CN114554492B
Application number: CN202210113129.8A
Authority: CN
Inventors: 陈尧
Original assignee: Chongqing Huatang Yunshu Technology Co ltd
Current assignee: Chongqing Huatang Yunshu Technology Co ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2024-02-27
Anticipated expiration: 2042-01-29
Also published as: CN114554492A

Abstract

本发明提出了一种基于大数据识别短信内容中有害信息的方法，包括以下步骤：S1，通过包含黑名单和白名单的数据集对AI智能识别系统进行训练；以及采用分词技术提取数据集中的关键信息，对AI智能识别系统训练；S2，通过正则表达式对短信做初步筛查；S3，将短信输入训练好的AI智能识别系统，对短信采用分词技术，计算最大信息冗余MIR，然后进行第一次通过判断；S4，将分词插入到分词词库中，计算基于分词属性的短信有害概率值Q₂，然后进行第二次通过判断；S5，将拦截率Q与最小阈值、最大阈值进行比较：若小于最小阈值则短信通过。本发明能快速精准的识别出短信内容中的有害信息。

Description

一种基于大数据识别短信内容中有害信息的方法

技术领域

本发明涉及文字短信有害信息监测领域，特别是涉及一种基于大数据识别短信内容中有害信息的方法。

背景技术

近年来，在移动终端、新媒体技术、互联网等诸多方面日新月异的发展过程中，移动终端已成为了信息传播的主流渠道之一，移动终端带来的经济效益、便利性是有目共睹的。但由于移动终端的大众化与缺乏网络监管手段，导致网络信息安全问题越来越严重，特别是不法分子通过网络平台发布各种有害信息，严重影响了国家安全和社会的稳定。

现有技术通过AI智能有害信息识别系统针对违法违规的词、句、拼音、拼音缩写、语义等进行监测、筛选、拦截等动作，不仅有效净化了网络平台保障国家安全和社会稳定也为企业节约了大量的人力成本。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于大数据识别短信内容中有害信息的方法。

为了实现本发明的上述目的，本发明提供了一种基于大数据识别短信内容中有害信息的方法，包括以下步骤：

S1，通过包含黑名单和白名单的数据集对AI智能识别系统进行训练；以及采用分词技术提取数据集中的关键信息，对AI智能识别系统训练；

S2，通过正则表达式对短信做初步筛查，判断短信内容中是否包含手机号码、链接、IP地址、验证码之一或者任意组合，若存在，则拦截率增加O，执行步骤S5；若不存在，O为0，执行下一步骤；其中O表示基于初步筛查的短信有害概率值；

S3，将短信输入训练好的AI智能识别系统，对短信采用分词技术，计算最大信息冗余MIR，然后进行第一次通过判断，若通过所述第一次通过判断且O为0，则短信通过；若不通过所述第一次通过判断则计算出基于短信冗余度的短信有害概率值Q₁；

S4，将分词插入到分词词库中，计算基于分词属性的短信有害概率值Q₂，然后进行第二次通过判断，若通过所述第二次通过判断且O为0，则短信通过；若不通过所述第二次通过判断则计算出拦截率Q；

S5，将拦截率Q与最小阈值、最大阈值进行比较：若小于最小阈值则短信通过，若大于最大阈值则短信拦截；若处于最小阈值～最大阈值之间则将该条短信将转至人工审核库，待人工审核进行通过；其中最小阈值小于最大阈值。

进一步地，所述AI智能识别系统包括CNN卷积网络。

进一步地，所述S3包括：

S3-1，运用word分词技术将短信的文本内容拆分成若干个词；

S3-2，删除停用词；

S3-3，将各个分词进行排列得到特征向量，作为AI智能识别系统卷积层的输入；

S3-4，计算最大信息冗余MIR，并进行第一次通过判断，若不通过则执行下一步骤；

S3-5，计算出基于短信冗余度的短信有害概率值Q₁。

进一步地，所述S3-3中的卷积层采用多个不同尺寸的卷积核，有助于捕捉不同维度的信息。

所述每个卷积核提取出不同的类型特征，得到不同的特征维度信息：

其中J_k表示第k个卷积核对应的特征维度信息；

θ(·)表示激活函数；

K表示卷积核的个数；

d_k表示第k个卷积核的特征值；

为卷积运算；

F_i ^k表示第k个卷积核时第i层的特征；

F_i ^k-1表示第k-1个卷积核时第i层的特征；

b表示影响因子。

进一步地，所述S3-4包括：

MIR＝[y(x)-t]

其中x表示短信的字符数；

y(x)表示x的冗余值；

t表示当前信号通道值；

[]表示截断取整；

冗余值y(x)的计算公式如下：

其中m、n表示偏移调整系数；

S表示短信的来源种类数，有网站公司，虚拟平台，以及个人用户端；

h_s表示来源s的信道频率系数；

p(x)表示x需要的网关通信量；

然后对冗余值y(x)进行第一次通过判断：

(1)当x趋近于0时，趋近于一个常数，

(2)MIR≤δ，δ为设定的最大冗余值，

若通过第一次通过判断且基于初步筛查的短信有害概率值O＝0，则拦截率Q为0，短信通过；此时短信为无效内容，例如空白短信，单纯无逻辑的符号等。

进一步地，所述S3-5包括：

其中Q₁表示基于短信冗余度的短信有害概率值；

L表示特征向量的行列数，若不足位数，则用0进行补位；

y(x)表示x的冗余值；

x表示短信的字符数；

表示w_i的转置；

w_i表示特征向量第i行的有害概率值；

w_j表示特征向量第j行的有害概率值。

进一步地，所述S4包括：

S4-1，根据分词词库中的分词属性，能得到基于分词属性的短信有害概率值Q₂：

Q₂＝max(Xw_u)

其中max(·)表示取最大值；

Xw_u表示分词u的拦截率；

S4-2，进行第二次通过判断：如果Q₂＜λ且基于初步筛查的短信有害概率值O＝0，则拦截率Q为0，短信通过，其中λ表示分词筛选阈值；如果Q₂＞λ，则基于分词属性的短信有害概率值变为Q₃：

其中I表示分词集合；

Xw_uv表示分词u、v共同出现时的拦截率；

c_uv表示第u个分词相关联的第v个分词；

Fw_uv表示分词u、v共同出现的词频数；

S4-3，得到拦截率Q：

Q＝αQ₁+βQ₃+O

其中α为基于短信冗余度的短信有害概率权重系数；

β为基于分词属性的短信有害概率权重系数；

Q₁表示基于短信冗余度的短信有害概率值；

O为基于初步筛查的短信有害概率值。

综上所述，由于采用了上述技术方案，本发明能够：通过AI智能有害信息识别系统针对违法违规的词、句、拼音、拼音缩写、语义等进行监测、筛选、拦截等动作，能快速精准的识别出短信内容中的有害信息。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的结构示意图。

图2是本发明的具体实施流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种基于大数据识别短信内容中有害信息的方法，包括以下步骤：

S001，通过正则表达式对短信做初步筛查，判断短信内容中是否包含手机号码、链接、IP地址、验证码等。若存在，则拦截率增加O。根据需求对此类短信做拦截、通过或人工审核动作。该功能主要是对AI智能识别系统做技术补充。

S002，利用大数据分析技术对AI智能识别系统进行算法学习，通过包含黑名单和白名单的数据集训练AI智能识别系统，基于数据集训练的模型，形成初步的审核能力；

其中数据集中包含若干条可直接通过的文本内容即白名单和应该被拦截的文本内容即黑名单。

S003，提取数据集中的关键信息，运用word分词技术将短信的文本内容拆分成若干个词，然后删除停用词；

例如：“欢迎各位游客前来参加本次草原音乐节”这段可直接通过的短信内容，通过word分词技术将会拆分成“欢迎、各位、游客、前来、参加、本次、草原、音乐节”。

然后，将各个分词进行排列得到特征向量，作为AI智能识别系统卷积层的输入。所述卷积层采用多个不同尺寸的卷积核，有助于捕捉不同维度的信息。

每个卷积核提取出不同的类型特征，得到不同的特征维度：

其中J_k表示第k个卷积核对应的特征维度信息，θ(·)表示激活函数，K表示表示卷积核的个数，d_k表示第k个卷积核的特征值，为卷积运算，F_i ^k表示第k个卷积核时第i层的特征，F_i ^k-1表示第k-1个卷积核时第i层的特征，b表示影响因子。

我们把信息中排除了冗余后的平均信息量称为信息熵，作为池化层的输出。有助于减少维度，避免参数过多，防止过拟合的情况出现。然后经过全连接层将不同的特征维度通过权值矩阵组装成完整的图。

接下来，计算最大信息冗余MIR：

MIR＝[y(x)-t]；

其中x表示短信的字符数，y(x)表示x的冗余值，t表示当前信号通道值，[]表示截断取整。

冗余值y(x)的计算公式如下：

其中m、n表示偏移调整系数，S表示短信的来源种类数，有网站公司，虚拟平台，以及个人用户端。h_s表示来源s的信道频率系数，p(x)表示x需要的网关通信量，x表示短信的字符数。

对冗余值y(x)进行筛选，若符合以下条件且O＝0则短信有害概率值Q为0：

(1)当x趋近于0时，趋近于一个常数。

(2)MIR≤δ，δ为设定的最大冗余值。

此时短信为无效内容，例如空白短信，单纯无逻辑的符号等。

若符合(1)和/或(2)的短信，则通过目标函数求出基于短信冗余度的短信有害概率值Q₁，目标函数的式子如下：

其中Q₁表示基于短信冗余度的短信有害概率值，L表示特征向量的行列数，若不足位数，则用0进行补位。y(x)表示x的冗余值，表示w_i的转置，w_i表示特征向量第i行的有害概率值，w_j表示特征向量第j行的有害概率值。

S004，当AI智能识别系统学习完步骤S002中的内容后，将会把“欢迎、各位、游客、前来、参加、本次、草原、音乐节”这些分词插入到分词词库中，若某分词为分词词库已有数据，则更改该分词的属性。

例如：“欢迎”的词库编号为1，词频数为1，通过数为1，拦截数为0，通过率为100％，拦截率为0％；若AI智能识别系统学习了一条包含“欢迎”这个词语的被拦截文本内容后，那么“欢迎”这个词在词库的属性将更改为：词库编号为1，词频数为2，通过数为1，拦截数为1，通过率为50％，拦截率为50％。

根据分词词库中的分词属性，能得到基于分词属性的短信有害概率值Q₂：

Q₂＝max(Xw_u)

如果Q₂＜λ且基于初步筛查的短信有害概率值O＝0，则短信有害概率值Q为0。

如果Q₂＞λ，则基于分词属性的短信有害概率值变为Q₃：

其中λ表示分词筛选阈值，I表示分词集合，Xw_u表示分词u的拦截率，c_u表示第u个分词，Xw_uv表示分词u、v共同出现时的拦截率，c_uv表示第u个分词相关联的第v个分词，⊙表示内积，Fw_uv表示分词u、v共同出现的词频数。

由此，得到拦截率Q：

Q＝αQ₁+βQ₃+O

其中α为基于短信冗余度的有害概率权重系数、β为基于分词属性的短信有害概率权重系数。

例如：“欢迎各位、游客、前来、参加、本次、草原、音乐节”该段文本内容中：“欢迎”的拦截率为：8％，“各位”的拦截率为：10％“游客”的拦截率为：7％“前来”的拦截率为：9％“参加”的拦截率为：11％“本次”的拦截率为：1％“草原”的拦截率为：15％“音乐节”的拦截率为：3％。其中拦截率最高的分词为“草原”，拦截率15％，小于λ＝20％，则Q₂＝20％。

S005，设定拦截和通过的阈值，根据一条文本内容中拦截率最高的分词来设定阈值，若该拦截率大于等于最大阈值，如80％，则拦截该条短信；若拦截率小于等于最小阈值，如20％，则该条短信审核通过，若拦截率在最小阈值～最大阈值之间，如20％-80％，则该条短信将转至人工审核库，待人工审核。

根据S005求得的拦截率Q，与设定的阈值比较，若大于该阈值则进行拦截，若小于阈值则通过。

S006，审核结果的输出。若该文本内容中有分词拦截率大于等于80％，则向用户前端输出“该短信内容包含不合法内容，请重新编辑”；若该文本内容中最高拦截率的分词小于等于20％，则向用户前端输出“审核通过，可正常发送”；若该文本内容中最高拦截率的分词处于20％-80％之间，则向人工审核前端输出“***分词拦截率在**％，可能涉及不合法内容，请人工审核确认。”

AI智能识别系统如图1所示，包括：

内容获取模块101、人工审核库已判断内容模块102、工程师提供内容模块103、自助学习模块104、内容拆分模块105、更新分词词库模块106，

内容获取模块101的数据输入端分别与人工审核库已判断内容模块102的数据输出端、工程师提供内容模块103的数据输出端相连，内容获取模块101的数据输出端与自主学习模块104的数据输入端相连，自主学习模块104的数据输出端与内容拆分模块105的数据输入端相连，内容拆分模块105的数据输出端与更新分词词库模块106的数据输入端相连。

内容获取模块101：AI智能识别系统的学习内容来源于步骤102人工审核库已判断内容和步骤103工程师提供内容两大数据集；

自助学习模块104：AI智能识别系统通过文字库自主学习文字内容，每一条文本内容均有唯一编号textID，给AI智能识别系统设定一个定期扫描素材库的任务，若有新增的素材，则对该素材进行分析；

内容拆分模块105、更新分词词库模块106：将文本内容拆分成若干个分词，根据每一个分词查询分词词库，若词频数为0，则向分词词库插入该分词，若分词词频数大于0，则在该分词的词频数加1，拦截/通过数加1，并更新拦截率。

AI智能识别系统在业务中的应用，如图2所示，包括以下步骤：

步骤201：终端或平台用户编辑短信；

步骤202：发送短信；

步骤203：短信需经过AI智能识别系统的分析审核，然后根据识别结果执行步骤204、步骤206、步骤207中的任意一种；

步骤204：短信内容无异常，执行步骤205；

步骤205：可直接发送，并返回用户发送成功信息；

步骤206：识别到疑似违规内容，执行步骤208；

步骤207：识别到违规内容，则将该信息返回用户重新编辑，执行步骤201；

步骤208：将疑似违规短信移至人工审核库进行人工审核，然后根据审核结果执行步骤209、步骤210中的任意一种；

步骤209：人工审核未违规，则执行步骤205，同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习；

步骤210：人工审核确认违规，则将该信息返回用户重新编辑，同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于大数据识别短信内容中有害信息的方法，其特征在于，包括以下步骤：

S3-1，运用word分词技术将短信的文本内容拆分成若干个词；

S3-2，删除停用词；

S3-5，计算出基于短信冗余度的短信有害概率值Q₁；

其中Q₁表示基于短信冗余度的短信有害概率值；

L表示特征向量的行列数；

y(x)表示x的冗余值；

x表示短信的字符数；

表示w_i的转置；

w_i表示特征向量第i行的有害概率值；

w_j表示特征向量第j行的有害概率值；

Q₂＝max(Xw_u)

其中max(·)表示取最大值；

Xw_u表示分词u的拦截率；

其中I表示分词集合；

Xw_uv表示分词u、v共同出现时的拦截率；

c_uv表示第u个分词相关联的第v个分词；

Fw_uv表示分词u、v共同出现的词频数；

S4-3，得到拦截率Q：

Q＝αQ₁+βQ₃+O

其中α为基于短信冗余度的短信有害概率权重系数；

β为基于分词属性的短信有害概率权重系数；

Q₁表示基于短信冗余度的短信有害概率值；

O为基于初步筛查的短信有害概率值；

2.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法，其特征在于，所述AI智能识别系统包括CNN卷积网络。

3.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法，其特征在于，所述S3-3中的卷积层采用多个不同尺寸的卷积核，所述每个卷积核提取出不同的类型特征，得到不同的特征维度信息：

其中J_k表示第k个卷积核对应的特征维度信息；

θ(·)表示激活函数；

K表示卷积核的个数；

d_k表示第k个卷积核的特征值；

为卷积运算；

F_i ^k表示第k个卷积核时第i层的特征；

F_i ^k-1表示第k-1个卷积核时第i层的特征；

b表示影响因子。

4.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法，其特征在于，所述S3-4包括：

MIR＝[y(x)-t]

其中x表示短信的字符数；

y(x)表示x的冗余值；

t表示当前信号通道值；

[]表示截断取整；

冗余值y(x)的计算公式如下：

其中m、n表示偏移调整系数；

S表示短信的来源种类数；

h_s表示来源s的信道频率系数；

p(x)表示x需要的网关通信量；

然后对冗余值y(x)进行第一次通过判断：

(1)当x趋近于0时，趋近于一个常数，

(2)MIR≤δ，δ为设定的最大冗余值，

若通过第一次通过判断且基于初步筛查的短信有害概率值O＝0，则拦截率Q为0，短信通过。