CN114554492B - 一种基于大数据识别短信内容中有害信息的方法 - Google Patents
一种基于大数据识别短信内容中有害信息的方法 Download PDFInfo
- Publication number
- CN114554492B CN114554492B CN202210113129.8A CN202210113129A CN114554492B CN 114554492 B CN114554492 B CN 114554492B CN 202210113129 A CN202210113129 A CN 202210113129A CN 114554492 B CN114554492 B CN 114554492B
- Authority
- CN
- China
- Prior art keywords
- short message
- word segmentation
- value
- harmful
- redundancy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 60
- 238000012216 screening Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 11
- 230000002939 deleterious effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000012550 audit Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/128—Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于大数据识别短信内容中有害信息的方法,包括以下步骤:S1,通过包含黑名单和白名单的数据集对AI智能识别系统进行训练;以及采用分词技术提取数据集中的关键信息,对AI智能识别系统训练;S2,通过正则表达式对短信做初步筛查;S3,将短信输入训练好的AI智能识别系统,对短信采用分词技术,计算最大信息冗余MIR,然后进行第一次通过判断;S4,将分词插入到分词词库中,计算基于分词属性的短信有害概率值Q2,然后进行第二次通过判断;S5,将拦截率Q与最小阈值、最大阈值进行比较:若小于最小阈值则短信通过。本发明能快速精准的识别出短信内容中的有害信息。
Description
技术领域
本发明涉及文字短信有害信息监测领域,特别是涉及一种基于大数据识别短信内容中有害信息的方法。
背景技术
近年来,在移动终端、新媒体技术、互联网等诸多方面日新月异的发展过程中,移动终端已成为了信息传播的主流渠道之一,移动终端带来的经济效益、便利性是有目共睹的。但由于移动终端的大众化与缺乏网络监管手段,导致网络信息安全问题越来越严重,特别是不法分子通过网络平台发布各种有害信息,严重影响了国家安全和社会的稳定。
现有技术通过AI智能有害信息识别系统针对违法违规的词、句、拼音、拼音缩写、语义等进行监测、筛选、拦截等动作,不仅有效净化了网络平台保障国家安全和社会稳定也为企业节约了大量的人力成本。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于大数据识别短信内容中有害信息的方法。
为了实现本发明的上述目的,本发明提供了一种基于大数据识别短信内容中有害信息的方法,包括以下步骤:
S1,通过包含黑名单和白名单的数据集对AI智能识别系统进行训练;以及采用分词技术提取数据集中的关键信息,对AI智能识别系统训练;
S2,通过正则表达式对短信做初步筛查,判断短信内容中是否包含手机号码、链接、IP地址、验证码之一或者任意组合,若存在,则拦截率增加O,执行步骤S5;若不存在,O为0,执行下一步骤;其中O表示基于初步筛查的短信有害概率值;
S3,将短信输入训练好的AI智能识别系统,对短信采用分词技术,计算最大信息冗余MIR,然后进行第一次通过判断,若通过所述第一次通过判断且O为0,则短信通过;若不通过所述第一次通过判断则计算出基于短信冗余度的短信有害概率值Q1;
S4,将分词插入到分词词库中,计算基于分词属性的短信有害概率值Q2,然后进行第二次通过判断,若通过所述第二次通过判断且O为0,则短信通过;若不通过所述第二次通过判断则计算出拦截率Q;
S5,将拦截率Q与最小阈值、最大阈值进行比较:若小于最小阈值则短信通过,若大于最大阈值则短信拦截;若处于最小阈值~最大阈值之间则将该条短信将转至人工审核库,待人工审核进行通过;其中最小阈值小于最大阈值。
进一步地,所述AI智能识别系统包括CNN卷积网络。
进一步地,所述S3包括:
S3-1,运用word分词技术将短信的文本内容拆分成若干个词;
S3-2,删除停用词;
S3-3,将各个分词进行排列得到特征向量,作为AI智能识别系统卷积层的输入;
S3-4,计算最大信息冗余MIR,并进行第一次通过判断,若不通过则执行下一步骤;
S3-5,计算出基于短信冗余度的短信有害概率值Q1。
进一步地,所述S3-3中的卷积层采用多个不同尺寸的卷积核,有助于捕捉不同维度的信息。
所述每个卷积核提取出不同的类型特征,得到不同的特征维度信息:
其中Jk表示第k个卷积核对应的特征维度信息;
θ(·)表示激活函数;
K表示卷积核的个数;
dk表示第k个卷积核的特征值;
为卷积运算;
Fi k表示第k个卷积核时第i层的特征;
Fi k-1表示第k-1个卷积核时第i层的特征;
b表示影响因子。
进一步地,所述S3-4包括:
MIR=[y(x)-t]
其中x表示短信的字符数;
y(x)表示x的冗余值;
t表示当前信号通道值;
[]表示截断取整;
冗余值y(x)的计算公式如下:
其中m、n表示偏移调整系数;
S表示短信的来源种类数,有网站公司,虚拟平台,以及个人用户端;
hs表示来源s的信道频率系数;
p(x)表示x需要的网关通信量;
然后对冗余值y(x)进行第一次通过判断:
(1)当x趋近于0时,趋近于一个常数,
(2)MIR≤δ,δ为设定的最大冗余值,
若通过第一次通过判断且基于初步筛查的短信有害概率值O=0,则拦截率Q为0,短信通过;此时短信为无效内容,例如空白短信,单纯无逻辑的符号等。
进一步地,所述S3-5包括:
其中Q1表示基于短信冗余度的短信有害概率值;
L表示特征向量的行列数,若不足位数,则用0进行补位;
y(x)表示x的冗余值;
x表示短信的字符数;
表示wi的转置;
wi表示特征向量第i行的有害概率值;
wj表示特征向量第j行的有害概率值。
进一步地,所述S4包括:
S4-1,根据分词词库中的分词属性,能得到基于分词属性的短信有害概率值Q2:
Q2=max(Xwu)
其中max(·)表示取最大值;
Xwu表示分词u的拦截率;
S4-2,进行第二次通过判断:如果Q2<λ且基于初步筛查的短信有害概率值O=0,则拦截率Q为0,短信通过,其中λ表示分词筛选阈值;如果Q2>λ,则基于分词属性的短信有害概率值变为Q3:
其中I表示分词集合;
Xwuv表示分词u、v共同出现时的拦截率;
cuv表示第u个分词相关联的第v个分词;
Fwuv表示分词u、v共同出现的词频数;
S4-3,得到拦截率Q:
Q=αQ1+βQ3+O
其中α为基于短信冗余度的短信有害概率权重系数;
β为基于分词属性的短信有害概率权重系数;
Q1表示基于短信冗余度的短信有害概率值;
O为基于初步筛查的短信有害概率值。
综上所述,由于采用了上述技术方案,本发明能够:通过AI智能有害信息识别系统针对违法违规的词、句、拼音、拼音缩写、语义等进行监测、筛选、拦截等动作,能快速精准的识别出短信内容中的有害信息。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的结构示意图。
图2是本发明的具体实施流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种基于大数据识别短信内容中有害信息的方法,包括以下步骤:
S001,通过正则表达式对短信做初步筛查,判断短信内容中是否包含手机号码、链接、IP地址、验证码等。若存在,则拦截率增加O。根据需求对此类短信做拦截、通过或人工审核动作。该功能主要是对AI智能识别系统做技术补充。
S002,利用大数据分析技术对AI智能识别系统进行算法学习,通过包含黑名单和白名单的数据集训练AI智能识别系统,基于数据集训练的模型,形成初步的审核能力;
其中数据集中包含若干条可直接通过的文本内容即白名单和应该被拦截的文本内容即黑名单。
S003,提取数据集中的关键信息,运用word分词技术将短信的文本内容拆分成若干个词,然后删除停用词;
例如:“欢迎各位游客前来参加本次草原音乐节”这段可直接通过的短信内容,通过word分词技术将会拆分成“欢迎、各位、游客、前来、参加、本次、草原、音乐节”。
然后,将各个分词进行排列得到特征向量,作为AI智能识别系统卷积层的输入。所述卷积层采用多个不同尺寸的卷积核,有助于捕捉不同维度的信息。
每个卷积核提取出不同的类型特征,得到不同的特征维度:
其中Jk表示第k个卷积核对应的特征维度信息,θ(·)表示激活函数,K表示表示卷积核的个数,dk表示第k个卷积核的特征值,为卷积运算,Fi k表示第k个卷积核时第i层的特征,Fi k-1表示第k-1个卷积核时第i层的特征,b表示影响因子。
我们把信息中排除了冗余后的平均信息量称为信息熵,作为池化层的输出。有助于减少维度,避免参数过多,防止过拟合的情况出现。然后经过全连接层将不同的特征维度通过权值矩阵组装成完整的图。
接下来,计算最大信息冗余MIR:
MIR=[y(x)-t];
其中x表示短信的字符数,y(x)表示x的冗余值,t表示当前信号通道值,[]表示截断取整。
冗余值y(x)的计算公式如下:
其中m、n表示偏移调整系数,S表示短信的来源种类数,有网站公司,虚拟平台,以及个人用户端。hs表示来源s的信道频率系数,p(x)表示x需要的网关通信量,x表示短信的字符数。
对冗余值y(x)进行筛选,若符合以下条件且O=0则短信有害概率值Q为0:
(1)当x趋近于0时,趋近于一个常数。
(2)MIR≤δ,δ为设定的最大冗余值。
此时短信为无效内容,例如空白短信,单纯无逻辑的符号等。
若符合(1)和/或(2)的短信,则通过目标函数求出基于短信冗余度的短信有害概率值Q1,目标函数的式子如下:
其中Q1表示基于短信冗余度的短信有害概率值,L表示特征向量的行列数,若不足位数,则用0进行补位。y(x)表示x的冗余值,表示wi的转置,wi表示特征向量第i行的有害概率值,wj表示特征向量第j行的有害概率值。
S004,当AI智能识别系统学习完步骤S002中的内容后,将会把“欢迎、各位、游客、前来、参加、本次、草原、音乐节”这些分词插入到分词词库中,若某分词为分词词库已有数据,则更改该分词的属性。
例如:“欢迎”的词库编号为1,词频数为1,通过数为1,拦截数为0,通过率为100%,拦截率为0%;若AI智能识别系统学习了一条包含“欢迎”这个词语的被拦截文本内容后,那么“欢迎”这个词在词库的属性将更改为:词库编号为1,词频数为2,通过数为1,拦截数为1,通过率为50%,拦截率为50%。
根据分词词库中的分词属性,能得到基于分词属性的短信有害概率值Q2:
Q2=max(Xwu)
如果Q2<λ且基于初步筛查的短信有害概率值O=0,则短信有害概率值Q为0。
如果Q2>λ,则基于分词属性的短信有害概率值变为Q3:
其中λ表示分词筛选阈值,I表示分词集合,Xwu表示分词u的拦截率,cu表示第u个分词,Xwuv表示分词u、v共同出现时的拦截率,cuv表示第u个分词相关联的第v个分词,⊙表示内积,Fwuv表示分词u、v共同出现的词频数。
由此,得到拦截率Q:
Q=αQ1+βQ3+O
其中α为基于短信冗余度的有害概率权重系数、β为基于分词属性的短信有害概率权重系数。
例如:“欢迎各位、游客、前来、参加、本次、草原、音乐节”该段文本内容中:“欢迎”的拦截率为:8%,“各位”的拦截率为:10%“游客”的拦截率为:7%“前来”的拦截率为:9%“参加”的拦截率为:11%“本次”的拦截率为:1%“草原”的拦截率为:15%“音乐节”的拦截率为:3%。其中拦截率最高的分词为“草原”,拦截率15%,小于λ=20%,则Q2=20%。
S005,设定拦截和通过的阈值,根据一条文本内容中拦截率最高的分词来设定阈值,若该拦截率大于等于最大阈值,如80%,则拦截该条短信;若拦截率小于等于最小阈值,如20%,则该条短信审核通过,若拦截率在最小阈值~最大阈值之间,如20%-80%,则该条短信将转至人工审核库,待人工审核。
根据S005求得的拦截率Q,与设定的阈值比较,若大于该阈值则进行拦截,若小于阈值则通过。
S006,审核结果的输出。若该文本内容中有分词拦截率大于等于80%,则向用户前端输出“该短信内容包含不合法内容,请重新编辑”;若该文本内容中最高拦截率的分词小于等于20%,则向用户前端输出“审核通过,可正常发送”;若该文本内容中最高拦截率的分词处于20%-80%之间,则向人工审核前端输出“***分词拦截率在**%,可能涉及不合法内容,请人工审核确认。”
AI智能识别系统如图1所示,包括:
内容获取模块101、人工审核库已判断内容模块102、工程师提供内容模块103、自助学习模块104、内容拆分模块105、更新分词词库模块106,
内容获取模块101的数据输入端分别与人工审核库已判断内容模块102的数据输出端、工程师提供内容模块103的数据输出端相连,内容获取模块101的数据输出端与自主学习模块104的数据输入端相连,自主学习模块104的数据输出端与内容拆分模块105的数据输入端相连,内容拆分模块105的数据输出端与更新分词词库模块106的数据输入端相连。
内容获取模块101:AI智能识别系统的学习内容来源于步骤102人工审核库已判断内容和步骤103工程师提供内容两大数据集;
自助学习模块104:AI智能识别系统通过文字库自主学习文字内容,每一条文本内容均有唯一编号textID,给AI智能识别系统设定一个定期扫描素材库的任务,若有新增的素材,则对该素材进行分析;
内容拆分模块105、更新分词词库模块106:将文本内容拆分成若干个分词,根据每一个分词查询分词词库,若词频数为0,则向分词词库插入该分词,若分词词频数大于0,则在该分词的词频数加1,拦截/通过数加1,并更新拦截率。
AI智能识别系统在业务中的应用,如图2所示,包括以下步骤:
步骤201:终端或平台用户编辑短信;
步骤202:发送短信;
步骤203:短信需经过AI智能识别系统的分析审核,然后根据识别结果执行步骤204、步骤206、步骤207中的任意一种;
步骤204:短信内容无异常,执行步骤205;
步骤205:可直接发送,并返回用户发送成功信息;
步骤206:识别到疑似违规内容,执行步骤208;
步骤207:识别到违规内容,则将该信息返回用户重新编辑,执行步骤201;
步骤208:将疑似违规短信移至人工审核库进行人工审核,然后根据审核结果执行步骤209、步骤210中的任意一种;
步骤209:人工审核未违规,则执行步骤205,同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习;
步骤210:人工审核确认违规,则将该信息返回用户重新编辑,同时将该短信返回人工审核库已判断内容模块102进行AI智能识别系统再学习。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (4)
1.一种基于大数据识别短信内容中有害信息的方法,其特征在于,包括以下步骤:
S1,通过包含黑名单和白名单的数据集对AI智能识别系统进行训练;以及采用分词技术提取数据集中的关键信息,对AI智能识别系统训练;
S2,通过正则表达式对短信做初步筛查,判断短信内容中是否包含手机号码、链接、IP地址、验证码之一或者任意组合,若存在,则拦截率增加O,执行步骤S5;若不存在,O为0,执行下一步骤;其中O表示基于初步筛查的短信有害概率值;
S3,将短信输入训练好的AI智能识别系统,对短信采用分词技术,计算最大信息冗余MIR,然后进行第一次通过判断,若通过所述第一次通过判断且O为0,则短信通过;若不通过所述第一次通过判断则计算出基于短信冗余度的短信有害概率值Q1;
S3-1,运用word分词技术将短信的文本内容拆分成若干个词;
S3-2,删除停用词;
S3-3,将各个分词进行排列得到特征向量,作为AI智能识别系统卷积层的输入;
S3-4,计算最大信息冗余MIR,并进行第一次通过判断,若不通过则执行下一步骤;
S3-5,计算出基于短信冗余度的短信有害概率值Q1;
其中Q1表示基于短信冗余度的短信有害概率值;
L表示特征向量的行列数;
y(x)表示x的冗余值;
x表示短信的字符数;
表示wi的转置;
wi表示特征向量第i行的有害概率值;
wj表示特征向量第j行的有害概率值;
S4,将分词插入到分词词库中,计算基于分词属性的短信有害概率值Q2,然后进行第二次通过判断,若通过所述第二次通过判断且O为0,则短信通过;若不通过所述第二次通过判断则计算出拦截率Q;
S4-1,根据分词词库中的分词属性,能得到基于分词属性的短信有害概率值Q2:
Q2=max(Xwu)
其中max(·)表示取最大值;
Xwu表示分词u的拦截率;
S4-2,进行第二次通过判断:如果Q2<λ且基于初步筛查的短信有害概率值O=0,则拦截率Q为0,短信通过,其中λ表示分词筛选阈值;如果Q2>λ,则基于分词属性的短信有害概率值变为Q3:
其中I表示分词集合;
Xwuv表示分词u、v共同出现时的拦截率;
cuv表示第u个分词相关联的第v个分词;
Fwuv表示分词u、v共同出现的词频数;
S4-3,得到拦截率Q:
Q=αQ1+βQ3+O
其中α为基于短信冗余度的短信有害概率权重系数;
β为基于分词属性的短信有害概率权重系数;
Q1表示基于短信冗余度的短信有害概率值;
O为基于初步筛查的短信有害概率值;
S5,将拦截率Q与最小阈值、最大阈值进行比较:若小于最小阈值则短信通过,若大于最大阈值则短信拦截;若处于最小阈值~最大阈值之间则将该条短信将转至人工审核库,待人工审核进行通过;其中最小阈值小于最大阈值。
2.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法,其特征在于,所述AI智能识别系统包括CNN卷积网络。
3.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法,其特征在于,所述S3-3中的卷积层采用多个不同尺寸的卷积核,所述每个卷积核提取出不同的类型特征,得到不同的特征维度信息:
其中Jk表示第k个卷积核对应的特征维度信息;
θ(·)表示激活函数;
K表示卷积核的个数;
dk表示第k个卷积核的特征值;
为卷积运算;
Fi k表示第k个卷积核时第i层的特征;
Fi k-1表示第k-1个卷积核时第i层的特征;
b表示影响因子。
4.根据权利要求1所述的一种基于大数据识别短信内容中有害信息的方法,其特征在于,所述S3-4包括:
MIR=[y(x)-t]
其中x表示短信的字符数;
y(x)表示x的冗余值;
t表示当前信号通道值;
[]表示截断取整;
冗余值y(x)的计算公式如下:
其中m、n表示偏移调整系数;
S表示短信的来源种类数;
hs表示来源s的信道频率系数;
p(x)表示x需要的网关通信量;
然后对冗余值y(x)进行第一次通过判断:
(1)当x趋近于0时,趋近于一个常数,
(2)MIR≤δ,δ为设定的最大冗余值,
若通过第一次通过判断且基于初步筛查的短信有害概率值O=0,则拦截率Q为0,短信通过。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113129.8A CN114554492B (zh) | 2022-01-29 | 2022-01-29 | 一种基于大数据识别短信内容中有害信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113129.8A CN114554492B (zh) | 2022-01-29 | 2022-01-29 | 一种基于大数据识别短信内容中有害信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114554492A CN114554492A (zh) | 2022-05-27 |
CN114554492B true CN114554492B (zh) | 2024-02-27 |
Family
ID=81674031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210113129.8A Active CN114554492B (zh) | 2022-01-29 | 2022-01-29 | 一种基于大数据识别短信内容中有害信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114554492B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114866966B (zh) * | 2022-07-08 | 2022-09-06 | 安徽创瑞信息技术有限公司 | 一种基于大数据的短信用户管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168548A (zh) * | 2014-08-21 | 2014-11-26 | 北京奇虎科技有限公司 | 短信拦截方法及装置、云端服务器 |
CN107612893A (zh) * | 2017-09-01 | 2018-01-19 | 北京百悟科技有限公司 | 短信的审核系统和方法以及构建短信审核模型方法 |
CN111401075A (zh) * | 2020-04-07 | 2020-07-10 | 上海创蓝文化传播有限公司 | 一种智能短信审核的方法 |
-
2022
- 2022-01-29 CN CN202210113129.8A patent/CN114554492B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168548A (zh) * | 2014-08-21 | 2014-11-26 | 北京奇虎科技有限公司 | 短信拦截方法及装置、云端服务器 |
CN107612893A (zh) * | 2017-09-01 | 2018-01-19 | 北京百悟科技有限公司 | 短信的审核系统和方法以及构建短信审核模型方法 |
CN111401075A (zh) * | 2020-04-07 | 2020-07-10 | 上海创蓝文化传播有限公司 | 一种智能短信审核的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114554492A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720901B2 (en) | Automated text-evaluation of user generated text | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
WO2020253350A1 (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
CN109461446B (zh) | 一种识别用户目标请求的方法、装置、系统及存储介质 | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
CN108376151A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109831751A (zh) | 一种基于自然语言处理的短信内容风控系统及方法 | |
CN101159704A (zh) | 基于微内容相似度的反垃圾方法 | |
CN114554492B (zh) | 一种基于大数据识别短信内容中有害信息的方法 | |
Cao et al. | Generative steganography based on long readable text generation | |
CN114896305A (zh) | 一种基于大数据技术的智慧互联网安全平台 | |
CN109960791A (zh) | 判断文本情感的方法及存储介质、终端 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
WO2023273303A1 (zh) | 基于树模型的事件影响度获取方法、装置及计算机设备 | |
CN111224998A (zh) | 一种基于极限学习机的僵尸网络识别方法 | |
CN115238799A (zh) | 基于ai随机森林恶意流量检测方法和系统 | |
WO2024109597A1 (zh) | 文本合并判断模型的训练方法和文本合并判断方法 | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN114586038B (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN118013032A (zh) | 一种sql注入语句识别的方法 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN117354207A (zh) | 一种未知工控协议逆向分析方法及装置 | |
CN110442876A (zh) | 文本挖掘方法、装置、终端及存储介质 | |
Chen et al. | A new early rumor detection model based on bigru neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |