CN114979990B - 短信过滤方法、装置、电子设备及可读存储介质 - Google Patents
短信过滤方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114979990B CN114979990B CN202210692315.1A CN202210692315A CN114979990B CN 114979990 B CN114979990 B CN 114979990B CN 202210692315 A CN202210692315 A CN 202210692315A CN 114979990 B CN114979990 B CN 114979990B
- Authority
- CN
- China
- Prior art keywords
- short message
- filtering
- text
- address
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 101100421745 Caenorhabditis elegans sms-1 gene Proteins 0.000 description 2
- 101100366043 Caenorhabditis elegans sms-2 gene Proteins 0.000 description 2
- 101100366058 Caenorhabditis elegans sms-3 gene Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001061 forehead Anatomy 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 101150079808 radA gene Proteins 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/08—Access security
- H04W12/088—Access security using filters or firewalls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开提供了一种短信过滤方法、装置、电子设备及可读存储介质,属于网络安全技术领域。该方法在接收到第一短信时,先对第一短信进行解析获得其短信中心地址长度,并根据短信中心地址长度对第一短信进行过滤获得第二短信,再采用基于卷积神经网络构建的文本分类模型对第二短信进行文本过滤,并获得目标短信;通过短信中心地址长度进行一次过滤获得第二短信,有效初步筛除垃圾短信,再基于卷积神经网络构建的文本分类模型进行二次过滤获得目标短信,能提高对大量短信的过滤效率、识别准确率,改善短信泛滥对硬件资源的占用,并有效保护数据安全,而且先滤除部分短信,也能减少文本过滤的数据量,降低运行文本分类模型所需的硬件开销。
Description
技术领域
本公开属于网络安全技术领域,具体涉及一种短信过滤方法、装置、电子设备及可读存储介质。
背景技术
短信是一种简短的文本型信息传递服务,在发送端、接收端之间通常由短信服务中心(Short Message Service Center,SMSC)进行短信的提交、存储和转发。由于其操作简便、快捷、直接而得到广泛应用。
但是,随着业务不断发展,短信泛滥也逐渐成为问题,移动设备可能被强制大量推送虚拟地址发送的短信,其中可能包括重复、虚假、敏感、危险内容,如诈骗短信、推销短信等,对移动设备的数据安全造成威胁,导致隐私泄露,且大量短信的接收、解析、存储也会占用移动设备的硬件资源,影响移动设备其他正常业务。
目前,移动设备可以对接收到的短信通常采用贝叶斯模型基于其文本内容进行识别、分类和过滤。但是,贝叶斯模型仅在各样本属性相互独立的情况下表现较好,在样本数量较大,或各样本间关联性较大的情况下误差率高,分类效果不理想。可以看出,上述方案对大量短信的过滤效率低、识别准确率较差,导致对移动设备的数据安全保护有限,难以降低其隐私泄露风险,且对大量短信不能有效识别过滤,也难以改善短信泛滥对移动设备硬件资源的占用。
发明内容
本公开实施例的目的是提供一种短信过滤方法、装置、电子设备及可读存储介质,能够提高对大量短信的过滤效率、识别准确率,进而可以改善短信泛滥对硬件资源的占用,并有效保护数据安全,降低隐私泄露风险。
为了解决上述技术问题,本公开是这样实现的:
第一方面,本公开提供了一种短信过滤方法,该方法可以包括:接收第一短信;对第一短信进行解析,获得第一短信的短信中心地址长度;基于短信中心地址长度对第一短信进行地址过滤,获得第二短信;采用文本分类模型对第二短信进行文本过滤,获得目标短信,该文本分类模型基于卷积神经网络构建。
第二方面,本公开还提供了一种短信过滤装置,该装置可以包括短信接收模块、短息解析模块、地址过滤模块和文本过滤模块;其中,短信接收模块,用于接收第一短信;短信解析模块,用于对第一短信进行解析,获得第一短信的短信中心地址长度;地址过滤模块,用于基于短信中心地址长度对第一短信进行地址过滤,获得第二短信;文本过滤模块,用于采用文本分类模型对第二短信进行文本过滤,获得目标短信,文本分类模型基于卷积神经网络构建。
第三方面,本公开提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的短信过滤方法的步骤。
第四方面,本公开提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的短信过滤方法的步骤。
第五方面,本公开提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现实现如第一方面所述的短信过滤方法的步骤。
第六方面,本公开提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如实现如第一方面所述的短信过滤方法的步骤。
在本公开提供的短信过滤方法中,在接收到第一短信时,先对第一短信进行解析获得其短信中心地址长度,并根据短信中心地址长度对第一短信进行过滤获得第二短信,再通过基于卷积神经网络构建的文本分类模型对第二短信进行文本过滤,以获得目标短信;由于垃圾短信通常由虚拟地址发出,其短信中心地址长度与普通短信存在较大差异,因此本公开中通过短信中心地址长度对接收到的第一短信进行一次过滤获得第二短信,通过先排除虚拟地址发送的短信有效初步筛除垃圾短信,再采用基于卷积神经网络构建的文本分类模型对第二短信进行二次过滤获得目标短信,该文本分类模型在数据量或数据关联性不敏感,能够有效提升对第二短信文本分类的准确率,从而采用一次地址过滤,二次文本过滤的方式,能够提高对大量短信的过滤效率、识别准确率,进而可以改善短信泛滥对硬件资源的占用,并有效保护数据安全,降低隐私泄露风险。另外,先采用地址过滤滤除部分短信,也能够减少文本过滤需要分析处理的数据量,进而降低运行文本分类模型所需的硬件开销,降低短信过滤方案对接收端硬件性能的影响。
附图说明
图1为本公开实施例提供的短信过滤方法的步骤流程图;
图2为本公开实施例提供的一种文本过滤的流程示意图;
图3为本公开实施例提供的一种短信过滤装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图;
图5为本公开实施例提供的一种电子设备的硬件示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
值得指出的是,本公开实施例所描述的技术不限于LTE(Long Term Evolution,长期演进型)/LTE-A(LTE-Advanced,LTE的演进)系统,还可用于其他无线通信系统,诸如CDMA(Code Division Multiple Access,码分多址)、TDMA(Time Division Multiple Access,时分多址)、FDMA(Frequency Division Multiple Access,频分多址)、OFDMA(OrthogonalFrequency Division Multiple Access,正交频分多址)、SC-FDMA(Single-carrierFrequency-Division Multiple Access,单载波频分多址)和其他系统。本申请实施例中的术语“系统”和“网络”常被可互换地使用,所描述的技术既可用于以上提及的系统和无线电技术,也可用于其他系统和无线电技术。然而,以下描述出于示例目的描述了NR系统,并且在以下大部分描述中使用NR术语,尽管这些技术也可应用于NR系统应用以外的应用,如6G(6th Generation,第6代)通信系统。
下面结合附图,通过具体的实施例及其应用场景对本公开实施例提供的短信过滤方法进行详细地说明。
图1为本公开实施例提供的短信过滤方法的步骤流程图。如图1所示,该方法可以包括如下步骤110至步骤140。
步骤110、接收第一短信。
其中,第一短信可以是接收端基于通信系统的信令通道接收到的文字、数字等短信息,是发送端与接收端间非实时、非语音的通信方式。发送端可以是移动终端、运营商的短信平台服务器等。第一短信可以包括信息类短信如天气预报、新闻推送等,位置类短信如定位、导航等,通信类短信如邮件通知、社交互动等,商务类短信如优惠信息、航班信息等,每条第一短信以少于160个英文字符、数字字符,或者少于70个中文字符的形式表示。本公开对第一短信的数量、种类、形式不作具体限制。
步骤120、对第一短信进行解析,获得第一短信的短信中心地址长度。
其中,短信中心用于在发送端、接收端之间中继、存储短信,通常由发送端先将需要发送给接收端的短信发送到对应区域的短信中心,再由短信中心将该短信向发送端指定的接收端发送。短信业务基于GSM(Global System for Mobile Communications,全球移动通信系统)通信协议实现,在GSM通信协议中可以采用PDU(Protocol Data Unit,协议数据单元)模式实现短信的编码和传输,通常基于PDU模式发送短信前需要通过指令“AT+CMGF=0”将GSM通信协议设置为PDU模式,并通过指令“AT+CMGS=LEN”指定基于PDU模式编码后的数据长度(LEN)。
在第一短信采用PDU模式传输的情况下,可以对第一短信解析获得SCA(ServiceCenter Address,短信服务中心地址)的信息,SCA由A短信中心地址长度(length)、B短信中心地址类型(type)、C短信中心地址(address)三项构成,其中,B项为2位十六进制数字,可以为81(国内)或91(国际),C项通过对短信中心的实际地址进行奇偶数获得,在该实际地址为奇数位时末位补F后进行奇偶数对调,A项为2位十六进制数字,其数值为B项、C项的长度之和。从而基于PDU模式对第一短信进行解析,获得其SCA的信息,即可获得第一短信的短信中心地址长度。
步骤130、基于短信中心地址长度对第一短信进行地址过滤,获得第二短信。
其中,由于垃圾短信、诈骗短信等通常基于虚拟平台发送,而虚拟平台的地址与实际的短信中心地址存在较大差异,在PDU模式下表现为SCA的信息不同。因此,在本公开实施例中,可以基于A项的短信中心地址长度,基于B项和C项的总长度,或者基于SCA的总长度等对第一短信进行地址过滤,将第一短信中A项,B项和C项的总长度,或者SCA的总长度不符合短信中心特征的部分滤除,从而初步对第一短信进行地址过滤获得第二短信。第二短信可以是短信中心地址长度符合短信中心的实际地址特征的短信。
在本公开的一方法实施例中,步骤130具体包括滤除短信中心地址长度大于长度阈值的第一短信,获得第二短信。
其中,虚拟平台的地址长度通常长于短信中心的地址长度,因此,本公开中可以设置对应的长度阈值,在第一短信的短信中心地址长度大于该长度阈值时可以认为该短信不是由短信中心转发,而是由虚拟平台发出。可选地,该长度阈值的大小可以根据地址过滤的强度、历史采集的虚拟平台的地址长度等参数进行设置,本公开对此不作具体限制。
如,在PDU模式下,接收第一短信包括短信1、短信2、短信3、短信4,分别对短信1、短信2、短信3、短信4进行解析,确定其SCA如下表1所示:
表1
第一短信 | SCA | 短信中心地址 |
短信1 | 0891683110102305F0 | +8613010132500 |
短信2 | 07813110102305F0 | 13010132500 |
短信3 | 0481214356 | 123456 |
短信4 | 118101969405000000001004 | 10694950000000000140 |
此时,根据地址过滤的强度、历史采集的虚拟平台的地址长度确定长度小于或等于11位的地址为短信中心的地址。则在PDU模式下,基于A项对短信地址长度进行过滤,A项小于或等于08的短信由短信中心转发,A项大于08的短信被确认为由虚拟平台发送,即长度阈值为A项08。
如上表1所示,短信1的A项为“08”,短信2的A项为“07”,短信3的A项为“04”,短信4的A项为“11”,其中,短信4的A项大于长度阈值,则可以在第一短信中滤除短信4,获得包括短信1、短信2、短信3的第二短信。
步骤140、采用文本分类模型对第二短信进行文本过滤,获得目标短信,文本分类模型基于卷积神经网络构建。
其中,在初步地址过滤的基础上,可以对过滤后的第二短信采用文本分类模型进行文本过滤,该文本分类模型基于卷积神经网络构建,可以预先根据采集的不需过滤短信样本以及需过滤短信样本进行模型训练得到。卷积神经网络指包含卷积计算且具有深度结构的前馈神经网络,卷积神经网络通常包括卷积层、池化层过程的特征提取器,在卷积层中神经元与邻层神经元局部连接并且基于卷积核权值共享,从而保证了卷积神经网络对局部特征响应的灵敏,在应用中可以在分词间更充分地提取抽象、语义特征等,不会因为数据量变大或数据关联性强而影响模型性能,能够实现对短信准确、高效的文本分类。
本公开中在对输入的第二短信进行数据清洗、格式统一、语料集拆分、停用词去除、词向量转化后,可以基于该词向量构建表示该第二短信的词向量矩阵。再将该词向量矩阵输入文本分类模型,该文本分类模型基于卷积神经网络构建,可以包括卷积层、池化层、全连接层等中间层,从而在卷积层中可以通过不同尺度的卷积核提取该词向量矩阵对应尺度的词特征,在池化层中对卷积层提取的不同尺度的词特征进行局部平均或局部最大化,以对词特征的局部信息再总结,避免过拟合的问题,并在全连接层融合词特征的局部信息形成表示该第二短信的文本特征。进一步的,基于该文本特征对第二短信进行文本分类可以获得对应的分类结果,如第二短信的文本内容符合过滤条件,或第二短信的文本内容不符合过滤条件等,再基于文本分类的结果对第二短信进行文本过滤。可选地,可以采用Word2vec、GloVe、BERT、Doc2Vec、onehot等词向量模型将拆分后的语料集转换为对应的词向量,文本分类模型可以基于CNN(卷积神经网络,Convolutional Neural Networks)、ResNet(Residual Network,残差网络)、TextCNN等构建等,本公开对此不作具体限制。
需要说明的是,本公开中上述短信是在明确告知用户采集内容、数据用途、处理方式等信息后,在用户同意、授权的情况下获得,并向用户提供访问、更正、删除该短信的途径,以及撤销同意、授权的方法。
图2为本公开实施例提供的一种文本过滤的流程示意图。如图2所示,在获得第二短信后基于第二短信构建语料集【x|y】210,包括:
【到期提醒您的提额。|提额】;
【到期审核,您的审批额度。|额度】······;
其中,x为文本序列,y为分类。
对语料集【x|y】210进行分词获得语料集【x|y】220,包括:
【到期提醒您的提额。|提额】;
【到期审核您的审批额度。|额度】。
对X采用word2vee基于词向量模型230中词汇与词向量的对应关系进行词向量转换,并结合字典240中词汇与词ID的对应关系获得词向量250,其中,每一词向量中的项数标示词向量的维度,词ID=0时对应的词向量为w[0];
对X基于字典240中词汇与词ID的对应关系获得以词ID表示的语料集260;
对Y将分类“提额”赋值为0,将分类“额度”赋值为1,并采用one-hot进行编码,获得分类对应的数字化特征“提额:[1,0]”、“额度:[0,1]”。
将词向量240、语料集260以及分类对应的数字化特征“提额:[1,0]”、“额度:[0,1]”输入到预先训练的文本分类模型270中,并获得文本分类模型270输出的文本分类结果。
基于该文本分类结果第二短信进行文本过滤,获得目标短信。
在本公开的一方法实施例中,步骤140可以包括步骤S11至步骤S12。如下所示:
步骤S11、获取黑名单,黑名单包括符合第一屏蔽条件的发送端。
其中,黑名单用于记录符合第一屏蔽条件的发送端,第一屏蔽条件可以用于过滤不受信任的发送端,在发送端符合第一屏蔽条件的情况下,可以认为该发送端发送的短信存在一定风险。可选地,第一屏蔽条件可以是发送端被第三方平台或其他用户记录在黑名单中,或被记录在黑名单中的次数超过预设次数;也可以是发送端发送的历史短信被分类为需过滤短信,或被分类为需过滤短信的次数超过预设次数。黑名单可以存储在本地的数据库中,在获得第二短信后从本地的数据库中调用,或者黑名单也可以存储在远端,在获得第二短信后可以从远端下载黑名单,以便保证不同设备间黑名单的同步更新,释放本地资源。
步骤S12、对发送端不在黑名单中的第二短信采用文本分类模型进行文本过滤,获得目标短信。
其中,在获取黑名单后,可以基于黑名单对第二短信进行过滤,仅对发送端不在黑名单中的第二短信采用文本分类模型进行文本过滤,并获得过滤后的目标短信,对发送端在黑名单中的第二短信可以直接滤除,从而进一步滤除由不受信任的发送端发送的第二短信,采用地址过滤、黑名单过滤、文本过滤的三重过滤方式,进一步有效提升短信过滤的精度。
在本公开的一方法实施例中,步骤140具体包括:在接收到目标操作的情况下,采用文本分类模型对第二短信进行文本过滤,获得目标短信,目标操作为指示对第二短信进行文本过滤的操作。
其中,可以根据是否接收到目标操作确定是否对第二短信采用文本分类模型对第二短信进行文本过滤,目标操作可以是指示对第二短信进行文本过滤的操作,如选择一个第二短信或批量选择两个以上第二短信后选择开启第二短信的文本过滤服务,或者在获得第二短信后询问是否对第二短信进行文本过滤,并接收到针对该询问的确定操作,从而使得文本过滤的执行可控,能够更好地适应应用需求,如在接收端电量低、硬件资源紧张时,或短信接收量低时可以不对第二短信进行文本过滤,减小功耗。
在本公开的一方法实施例中,步骤140可以包括步骤S21至步骤S22。如下所示:
步骤S21、采用文本分类模型对第二短信进行文本分类,获得每一第二短信的文本分类结果。
其中,文本分类模型可以根据每一第二短信的文本特征输出其对应的文本分类结果,具体可参照前述步骤140的相关描述,为避免重复,在此不再赘述。
步骤S22、对文本分类结果符合第二屏蔽条件的第二短信进行滤除处理,获得目标短信。
其中,第二屏蔽条件可以是第二短信的文本特征满足需过滤短信的文本特征,从而可以根据其文本分类结果进行滤除处理。需要说明的是,需过滤短信可以根据实际应用场景、用户需求进行调整,在此基础上,第二屏蔽条件可以动态设置,本公开对第二屏蔽条件不作具体限制。
在本公开的一方法实施例中,滤除处理包括删除或标记符合第二屏蔽条件的第二短信。
其中,滤除处理可以是删除该符合第二屏蔽条件的第二短信,从而将保留的第二短信作为目标短信,或者也可以是标记该符合第二屏蔽条件的第二短信,从而将未标记的第二短信作为目标短信。可选地,已删除、或已标记的第二短信也可以询问是否对该第二短信进行再次确认,以避免滤除处理存在误删、误标记的情况。
在本公开的一方法实施例中,滤除处理还包括在第二短信对应的发送端符合第一屏蔽条件的情况下,将发送端记录在黑名单中。
其中,第一屏蔽条件、黑名单可以对应参照前述步骤S11的相关描述,为避免重复,在此不再赘述。可选地,将发送端记录在黑名单中可以是调取本地存储的黑名单,并将发送端的相关信息写入黑名单中,或者也可以将发送端的相关信息上报给存储黑名单的远端。发送端的相关信息可以是发送端的地址、标识等信息。
在本公开提供的短信过滤方法中,在接收到第一短信时,先对第一短信进行解析获得其短信中心地址长度,并根据短信中心地址长度对第一短信进行过滤获得第二短信,再通过基于卷积神经网络构建的文本分类模型对第二短信进行文本过滤,以获得目标短信;由于垃圾短信通常由虚拟地址发出,其短信中心地址长度与普通短信存在较大差异,因此本公开中通过短信中心地址长度对接收到的第一短信进行一次过滤获得第二短信,通过先排除虚拟地址发送的短信有效初步筛除垃圾短信,再采用基于卷积神经网络构建的文本分类模型对第二短信进行二次过滤获得目标短信,该文本分类模型在数据量或数据关联性不敏感,能够有效提升对第二短信文本分类的准确率,从而采用一次地址过滤,二次文本过滤的方式,能够提高对大量短信的过滤效率、识别准确率,进而可以改善短信泛滥对硬件资源的占用,并有效保护数据安全,降低隐私泄露风险。另外,先采用地址过滤滤除部分短信,也能够减少文本过滤需要分析处理的数据量,进而降低运行文本分类模型所需的硬件开销,降低短信过滤方案对接收端硬件性能的影响。
需要说明的是,本公开实施例提供的短信过滤方法,执行主体还可以为短信过滤装置,或者该短信过滤装置中的用于执行短信过滤方法的控制模块。本公开实施例中以短信过滤装置执行短信过滤的方法为例,说明本公开实施例提供的短信过滤的装置。
图3为本公开实施例提供的一种短信过滤装置300的结构示意图。如图3所示,该装置可以包括短信接收模块310、短信解析模块320、地址过滤模块330和文本过滤模块340。其中,短信接收模块310,用于接收第一短信;短信解析模块320,用于对第一短信进行解析,获得第一短信的短信中心地址长度;地址过滤模块330,用于基于短信中心地址长度对第一短信进行地址过滤,获得第二短信;文本过滤模块340,用于采用文本分类模型对第二短信进行文本过滤,获得目标短信,文本分类模型基于卷积神经网络构建。
在本公开的一装置实施例中,地址过滤模块330,具体用于滤除短信中心地址长度大于长度阈值的第一短信,获得第二短信。
在本公开的一装置实施例中,文本过滤模块340,包括黑名单获取子模块和文本过滤子模块。其中,黑名单获取子模块,用于获取黑名单,黑名单包括符合第一屏蔽条件的发送端;文本过滤子模块,用于对发送端不在黑名单中的第二短信采用文本分类模型进行文本过滤,获得目标短信。
在本公开的一装置实施例中,文本过滤模块340,具体用于在接收到目标操作的情况下,采用文本分类模型对第二短信进行文本过滤,获得目标短信,目标操作为指示对第二短信进行文本过滤的操作。
在本公开的一装置实施例中,文本过滤模块340包括文本分类子模块和短信过滤子模块。其中,文本分类子模块,用于采用文本分类模型对第二短信进行文本分类,获得每一第二短信的文本分类结果;短信过滤子模块,用于对文本分类结果符合第二屏蔽条件的第二短信进行滤除处理,获得目标短信。
在本公开的一装置实施例中,滤除处理包括删除或标记符合第二屏蔽条件的第二短信。
在本公开的一装置实施例中,滤除处理还包括在第二短信对应的发送端符合第一屏蔽条件的情况下,将发送端记录在黑名单中。
在本公开提供的短信过滤装置中,在短信接收模块接收到第一短信时,短信解析模块先对第一短信进行解析获得其短信中心地址长度,并由地址过滤模块根据短信中心地址长度对第一短信进行过滤获得第二短信,再由文本过滤模块通过基于卷积神经网络构建的文本分类模型对第二短信进行文本过滤,以获得目标短信;由于垃圾短信通常由虚拟地址发出,其短信中心地址长度与普通短信存在较大差异,因此本公开中通过短信中心地址长度对接收到的第一短信进行一次过滤获得第二短信,通过先排除虚拟地址发送的短信有效初步筛除垃圾短信,再采用基于卷积神经网络构建的文本分类模型对第二短信进行二次过滤获得目标短信,该文本分类模型在数据量或数据关联性不敏感,能够有效提升对第二短信文本分类的准确率,从而采用一次地址过滤,二次文本过滤的方式,能够提高对大量短信的过滤效率、识别准确率,进而可以改善短信泛滥对硬件资源的占用,并有效保护数据安全,降低隐私泄露风险。另外,先采用地址过滤滤除部分短信,也能够减少文本过滤需要分析处理的数据量,进而降低运行文本分类模型所需的硬件开销,降低短信过滤方案对接收端硬件性能的影响。
本公开实施例提供的短信过滤装置300能够实现图1至图2方法实施例实现的各个过程,为避免重复,这里不再赘述。
图4为本公开实施例提供的一种电子设备400的结构示意图,如图4所示,该电子设备400可以包括处理器410,存储器420,存储在存储器420上并可在处理器410上运行的程序或指令,该程序或指令被处理器410执行时实现上述短信过滤方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,图4示出的电子设备400仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图5为本公开实施例提供的一种电子设备500的硬件示意图,如图5所示,电子设备500包括中央处理单元(Central Processing Unit,CPU)501,其可以根据存储在ROM(ReadOnly Memory,只读存储器,)502中的程序或者从存储部分508加载到RAM(Random AccessMemory,随机访问存储器)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。I/O(Input/Output,输入/输出)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如CRT(Cathode Ray Tube,阴极射线管)、LCD(Liquid Crystal Display,液晶显示器)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN(Local AreaNetwork,无线网络)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU 501)执行时,执行本申请的系统中限定的各种功能。
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述短信过滤方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
本公开实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述短信过滤方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本公开实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上述的短信过滤方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本公开实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,电子设备,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。
Claims (9)
1.一种短信过滤方法,其特征在于,所述方法包括:
接收第一短信;
对所述第一短信进行解析,获得所述第一短信的短信服务中心地址SCA,所述SCA由A项短信中心地址长度、B项短信中心地址类型、C项短信中心地址构成;
基于所述A项,或基于所述B项和所述C项的总长度,或基于所述SCA的总长度对所述第一短信进行地址过滤,获得第二短信;
采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,所述文本分类模型基于卷积神经网络构建;
所述基于所述短信中心地址长度对所述第一短信进行地址过滤,获得第二短信,包括:
滤除所述短信中心地址长度大于长度阈值的所述第一短信,获得所述第二短信。
2.根据权利要求1所述的方法,其特征在于,所述采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,包括:
获取黑名单,所述黑名单包括符合第一屏蔽条件的发送端;
对发送端不在所述黑名单中的所述第二短信采用所述文本分类模型进行文本过滤,获得目标短信。
3.根据权利要求1所述的方法,其特征在于,所述采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,包括:
在接收到目标操作的情况下,采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,所述目标操作为指示对所述第二短信进行文本过滤的操作。
4.根据权利要求1所述的方法,其特征在于,所述采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,包括:
采用所述文本分类模型对所述第二短信进行文本分类,获得每一所述第二短信的文本分类结果;
对所述文本分类结果符合第二屏蔽条件的所述第二短信进行滤除处理,获得目标短信。
5.根据权利要求4所述的方法,其特征在于,所述滤除处理包括删除或标记符合所述第二屏蔽条件的所述第二短信。
6.根据权利要求5所述的方法,其特征在于,所述滤除处理还包括在所述第二短信对应的发送端符合第一屏蔽条件的情况下,将所述发送端记录在黑名单中。
7.一种短信过滤装置,其特征在于,所述装置包括:
短信接收模块,用于接收第一短信;
短信解析模块,用于对所述第一短信进行解析,获得所述第一短信的短信服务中心地址SCA,所述SCA由A项短信中心地址长度、B项短信中心地址类型、C项短信中心地址构成;
地址过滤模块,用于基于所述A项,或基于所述B项和所述C项的总长度,或基于所述SCA的总长度对所述第一短信进行地址过滤,获得第二短信;
文本过滤模块,用于采用文本分类模型对所述第二短信进行文本过滤,获得目标短信,所述文本分类模型基于卷积神经网络构建;
所述地址过滤模块,具体用于滤除短信中心地址长度大于长度阈值的第一短信,获得第二短信。
8.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的短信过滤方法。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的短信过滤方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692315.1A CN114979990B (zh) | 2022-06-17 | 2022-06-17 | 短信过滤方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692315.1A CN114979990B (zh) | 2022-06-17 | 2022-06-17 | 短信过滤方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114979990A CN114979990A (zh) | 2022-08-30 |
CN114979990B true CN114979990B (zh) | 2024-03-26 |
Family
ID=82963510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210692315.1A Active CN114979990B (zh) | 2022-06-17 | 2022-06-17 | 短信过滤方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114979990B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104010285A (zh) * | 2014-06-18 | 2014-08-27 | 中国联合网络通信集团有限公司 | 一种短信过滤方法、系统以及短信服务中心和终端 |
WO2017185872A1 (zh) * | 2016-04-28 | 2017-11-02 | 努比亚技术有限公司 | 短消息处理方法、装置及系统、存储介质 |
CN109299251A (zh) * | 2018-08-13 | 2019-02-01 | 同济大学 | 一种基于深度学习算法的异常垃圾短信识别方法及系统 |
CN110972086A (zh) * | 2018-09-29 | 2020-04-07 | 北京奇虎科技有限公司 | 短信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
-
2022
- 2022-06-17 CN CN202210692315.1A patent/CN114979990B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104010285A (zh) * | 2014-06-18 | 2014-08-27 | 中国联合网络通信集团有限公司 | 一种短信过滤方法、系统以及短信服务中心和终端 |
WO2017185872A1 (zh) * | 2016-04-28 | 2017-11-02 | 努比亚技术有限公司 | 短消息处理方法、装置及系统、存储介质 |
CN109299251A (zh) * | 2018-08-13 | 2019-02-01 | 同济大学 | 一种基于深度学习算法的异常垃圾短信识别方法及系统 |
CN110972086A (zh) * | 2018-09-29 | 2020-04-07 | 北京奇虎科技有限公司 | 短信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114979990A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10033757B2 (en) | Identifying malicious identifiers | |
CN103067896B (zh) | 垃圾短信过滤方法及装置 | |
US9251216B2 (en) | Efficient publication of sparse data | |
EP3048539A1 (en) | Method and apparatus for recognizing junk messages | |
US20130041962A1 (en) | Information Filtering | |
CN106790206A (zh) | 业务系统的协议解析方法及装置 | |
CN110213152B (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
WO2016177148A1 (zh) | 短信拦截方法和装置 | |
US20060036728A1 (en) | Systems and methods for categorizing network traffic content | |
CN106470150A (zh) | 关系链存储方法及装置 | |
CN104765784A (zh) | 关键词列表维护方法及系统 | |
CN101795273B (zh) | 一种垃圾邮件过滤方法及装置 | |
CN114979990B (zh) | 短信过滤方法、装置、电子设备及可读存储介质 | |
CN112069305B (zh) | 数据筛选方法、装置及电子设备 | |
CN105430623A (zh) | Rcs垃圾消息的监控方法、装置及系统 | |
CN111083705A (zh) | 群发诈骗短信检测方法、装置、服务器及存储介质 | |
CN104123393A (zh) | 一种短信文本的分类方法和系统 | |
CN113472686B (zh) | 信息识别方法、装置、设备及存储介质 | |
CN113965408B (zh) | 一种http报文的提取方法、装置、介质及设备 | |
CN113239687B (zh) | 一种数据处理方法和装置 | |
CN112733104B (zh) | 账号注册请求处理方法及装置 | |
CN111464687A (zh) | 一种陌生呼叫请求的处理方法及装置 | |
CN111090787A (zh) | 一种消息处理方法、设备、系统及存储介质 | |
CN114449523A (zh) | 用于卫星测控系统的流量过滤方法、装置、设备及介质 | |
CN113850283A (zh) | 一种rcs消息的违规识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |