CN112492606A - 垃圾短信的分类识别方法、装置、计算机设备及存储介质 - Google Patents

垃圾短信的分类识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112492606A
CN112492606A CN202011247127.5A CN202011247127A CN112492606A CN 112492606 A CN112492606 A CN 112492606A CN 202011247127 A CN202011247127 A CN 202011247127A CN 112492606 A CN112492606 A CN 112492606A
Authority
CN
China
Prior art keywords
short message
spam
message text
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011247127.5A
Other languages
English (en)
Inventor
黄之
李林翰
周小明
陈浩
武林红
侯立冬
孟宝权
梁彧
田野
傅强
王杰
杨满智
蔡琳
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202011247127.5A priority Critical patent/CN112492606A/zh
Publication of CN112492606A publication Critical patent/CN112492606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Abstract

本发明公开了一种垃圾短信的分类识别方法、装置、计算机设备及存储介质。该方法包括:对短信文本集合进行文本过滤,获得垃圾短信文本集合;将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。使用本发明的技术方案,可以实现对海量短信的精确分类识别,并准确提取垃圾短信中的实体信息。

Description

垃圾短信的分类识别方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种垃圾短信的分类识别方法、装置、计算机设备及存储介质。
背景技术
短信作为大型信息交流平台,为日常信息的传递提供了便利。但是部分不法分子通过短信平台传递垃圾信息,对社会治安管理、人民日常生活等方面造成了不良影响。
短信平台中存在海量的短信文本,运营商在发送短信文本之前,需要识别出垃圾短信文本并进行拦截,并对拦截的垃圾短信进行实体信息的提取,从而辅助监管部门进行垃圾短信的信息来源追查,推进绿色信息交流平台的建设。现有技术中,通过将海量短信的短信文本内容转化为文本向量,并将文本向量输入至预先训练的分类模型中,识别垃圾短信的类型,并通过实体识别模型对垃圾短信进行实体信息识别。
现有技术中的垃圾短信的分类识别和实体提取方式,由于垃圾短信文本较短、分类较多,因此垃圾短信的分类结果准确性较差,并且由于垃圾短信的书写不规范,存在同音、同义字变体,因此对垃圾短信的实体提取的效果也较差。
发明内容
本发明实施例提供一种垃圾短信的分类识别方法、装置、计算机设备及存储介质,以实现对海量短信的精确分类识别,并准确提取垃圾短信中的实体信息。
第一方面,本发明实施例提供了一种垃圾短信的分类识别方法,该方法包括:
对短信文本集合进行文本过滤,获得垃圾短信文本集合;
将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
第二方面,本发明实施例还提供了一种垃圾短信的分类识别装置,该装置包括:
文本过滤模块,用于对短信文本集合进行文本过滤,获得垃圾短信文本集合;
类别垃圾短信文本集合获取模块,用于将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
实体信息提取模块,用于将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的垃圾短信的分类识别方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一所述的垃圾短信的分类识别方法。
本发明实施例通过对短信文本集合进行文本过滤,筛去大部分正常短信,获得垃圾短信文本集合,通过一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合,并通过实体信息提取模型识别或还原各类别垃圾短信文本中的实体信息。解决了现有技术中垃圾短信的分类识别和实体提取方式,分类结果准确性较差,以及实体提取的效果较差的问题,实现了对海量短信的精确分类识别,并准确提取了垃圾短信中的实体信息。
附图说明
图1是本发明实施例一中的一种垃圾短信的分类识别方法的流程图;
图2是本发明实施例二中的一种垃圾短信的分类识别方法的流程图;
图3是本发明实施例三中的一种垃圾短信的分类识别装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种垃圾短信的分类识别方法的流程图,本实施例可适用于在海量短信文本中识别垃圾短信,并进行垃圾短信类别分类,提取垃圾短信文本中的实体信息的情况,该方法可以由垃圾短信的分类识别装置来执行,该装置可以由软件和/或硬件来实现,并一般集成在计算机设备中。
如图1所示,本发明实施例的技术方案,具体包括如下步骤:
S110、对短信文本集合进行文本过滤,获得垃圾短信文本集合。
其中,短信文本集合中包括从短信平台中获取的多个短信文本,短信文本集合既可以是预设时间间隔内获取的短信文本构成的集合,也可以是预设数量的短信文本构成的集合,本实施例对此不进行限制。
文本过滤用于滤除正常短信,在短信平台的海量短信文本中,正常短信文本占大多数,可以采用短信发送方号码白名单过滤、短信文本字数过滤等方式,滤除大部分正常的短信文本。
垃圾短信文本集合是将短信文本集合中的正常短信文本进行滤除之后,剩余的垃圾短信文本构成的集合。在短信文本集合中进行文本过滤滤除正常短信文本,可以获得垃圾短信文本集合,这样设置可以减少分类模型的计算处理量。
S120、将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合。
其中,一级分类模型用于对垃圾短信文本集合进行粗分类,一级分类模型可以是贝叶斯、树、随机森林、逻辑回归或者支持向量机的机器学习模型,也可以是基于卷积核或者基于循环神经网络的深度学习模型,本实施例对此不进行限制。优选的,可以采用逻辑回归模型,本发明实施例中短信文本中的关键词较为明显,采用逻辑回归模型可以实现快速有效的短信文本的分类。
二级分类模型用于处理一级分类模型粗分类后的短信文本,可以过滤一级分类模型中被误分类的短信文本,进一步提高垃圾短信的分类精度。
垃圾短信文本的类别可以包括赌博、彩票、刷单、虚拟币、股票、P2P(peer to peerlending,点对点小额贷款)、色情、游戏、积分、电商、银行、不当言论以及其他类型等,同种类别的垃圾短信文本被归类到一个类别垃圾短信文本集合中。
S130、将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
实体信息提取可以通过正则匹配的方式,也可以采用实体信息提取模型,本实施例以采用实体信息提取模型为例。实体信息提取模型用于对各类别垃圾短信文本集合中的各类别垃圾短信文本进行实体信息提取。实体信息提取模型可以是CRF(conditionalrandom field,条件随机场)模型,也可以是LSTM(long-short term memory,长短期记忆)+CRF模型,或者是BERT(Bidirectional Encoder Representations from Transformers,基于Transformer模型的双向编码器)+CRF模型,本实施例对实体信息提取模型的类型不进行限制。优选的,本实施例采用CRF模型进行实体信息提取,将类别垃圾短信文本集合输入至实体信息提取模型后,实体信息提取模型输出对应实体信息标签的各类别垃圾短信文本。
实体信息可以包括人名、机构名、账号、公众号以及URL(uniform resourcelocator,统一资源定位系统)链接等,本实施例对实体信息的具体类型不进行限制。
本实施例中的实体信息提取模型,不仅可以实现对符合正常书写规范的垃圾短信文本的实体信息识别,还可以识别出书写不规范的垃圾短信文本中变体后的实体信息。
本实施例的技术方案,通过对短信文本集合进行文本过滤,筛去大部分正常短信,获得垃圾短信文本集合,通过一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合,并通过实体信息提取模型识别或还原各类别垃圾短信文本中的实体信息。解决了现有技术中垃圾短信的分类识别和实体提取方式,分类结果准确性较差,以及实体提取的效果较差的问题,实现了对海量短信的精确分类识别,并准确提取了垃圾短信中的实体信息。
可选的,对短信文本集合进行文本过滤,可以包括:对短信文本集合中的各短信文本进行文本字数过滤和/或模式规则过滤。
文本字数过滤是指通过限制短信文本的字数滤除正常短信文本,示例性的,可以将字数超过20字的短信文本认为是正常短信文本而过滤掉。模式规则过滤是指制定一些条件规则,并可以通过与、或或者非等格式进行组合,从而实现对短信文本的定制化过滤。示例性的,可以将包含非常用标点符号以及少见汉字的短信文本过滤出来,加入垃圾短信文本集合中。
可选的,在对短信文本集合进行文本过滤之前,还可以包括:根据标注后的训练短信文本集合,以及构建的变体字库,对机器学习模型进行训练,获得实体信息提取模型。
变体字库是指关键字的变体字、音近字或者形近字等构成的字库,例如,“贷款”可以改写为“代寬”,因此可以将“代”和“寬”加入变体字库。
在本发明实施例中,在对训练短信文本集合进行实体信息标注之后,通过变体字库进行特征构建,从而增强文字表征信息,帮助实体信息提取模型更有效地识别非规范书写的垃圾短信文本中的实体信息。
实施例二
图2是本发明实施例二提供的一种垃圾短信的分类识别方法的流程图,本发明实施例在上述实施例的基础上,对文本过滤的过程、将垃圾短信文本集合分类为多个类别垃圾短信文本集合的过程,以及实体信息提取的过程进行了进一步的具体化,并在垃圾短信分类之前加入了进行白名单和/或黑名单过滤的过程,以及在文本过滤之后加入了文本预处理的过程。
相应的,如图2所示,本发明实施例的技术方案,具体包括如下步骤:
S210、根据标注后的训练短信文本集合,以及构建的变体字库,对机器学习模型进行训练,获得实体信息提取模型。
S220、获取短信集合,对短信集合中的各短信进行字段提取,获得各短信对应的短信文本和/或发送方号码。
在本发明实施例中,可以通过短信平台获取短信集合,并提取出各短信对应的短信文本和/或发送方号码。
S230、根据各短信对应的短信文本和/或发送方号码,对各短信进行白名单和/或黑名单过滤,根据过滤后的各短信生成短信文本集合。
白名单过滤是指只要发送方号码出现在白名单上,或者短信文本中存在白名单中的关键词,即认为该短信文本或者发送方号码对应的短信为正常短信。黑名单过滤是指只要发送方号码出现在黑名单上,或者短信文本中存在黑名单中的关键词,即认为该短信文本或者发送方号码对应的短信为垃圾短信。
在本发明实施例中,根据短信文本和/或发送方号码进行黑白名单过滤,这样设置可以使满足用户特定需求的文本和/或发送方号码对应的短信留存或滤除,实现了短信的定制化过滤。
S240、对短信文本集合中的各短信文本进行文本字数过滤和/或模式规则过滤,获得垃圾短信文本集合。
S250、识别垃圾短信文本集合中各垃圾短信文本的关键词,并计算各关键词对应的文字向量权重。
在本发明实施例中,需要对各垃圾短信文本进行分词和向量化操作,也即识别各垃圾短信文本中的关键词,并计算各关键词对应的文字向量权重。作为分类模型的输入。可以采用TFIDF(term frequency–inverse document frequency,词频-逆文档频率)算法、word2vec算法或者bert算法等实现对短信文本的分词和向量化,本实施例对此不进行限制。
优选的,本实施例中可以采用TFIDF算法,识别出各垃圾短信文本中的关键词,通过以下公式计算文字向量权重:
Figure BDA0002770383600000081
Figure BDA0002770383600000082
TFIDFw=TFw*IDFw
其中,TFw表示关键词w的词频,IDFw表示关键词w的逆文档频率,TFIDFw表示关键词w的文字向量权重。
在本发明实施例中,对于各垃圾短信文本中的各关键词,分别计算文字向量权重,将各垃圾短信文本中的各关键词以及其分别对应的文字向量权重作为一级分类模型的输入。
S260、将垃圾短信文本集合中的各关键词以及对应的文字向量权重,输入至一级分类模型,并获取所述一级分类模型输出的多个粗分类垃圾短信文本集合。
所述一级分类模型为字粒度模型、词粒度模型以及拼音粒度模型进行模型融合后生成的模型。
粗分类垃圾短信文本集合是垃圾短信文本集合经由以及分类模型进行粗分类后生成的多个垃圾短信文本集合,粗分类垃圾短信文本集合与垃圾短信文本的类别一一对应。
在本发明实施例中,采用字粒度模型、词粒度模型以及拼音粒度模型进行模型融合,生成一级分类模型。词粒度模型的分类准确性在较大程度上依赖于文本关键字识别的准确性,但在本发明实施例中,由于垃圾短信文本书写不规范,难以进行准确的关键字识别,因此词粒度模型的分类准确性也受到影响。字粒度模型不需要进行关键字识别,在短信文本书写不规范难以关键字识别的场景下,可以弥补词粒度模型的不足。在垃圾短信文本中存在大量同音字写法,示例性的,“贷款”可以改写为“代寬”,在这种不规范书写的场景下,关键词被同音改写后可生成多种改写词,这些改写词与关键词语义相同,但由于出现频率较小而文字向量权重较低,从而影响垃圾短信文本的分类准确性。
将字粒度模型、词粒度模型以及拼音粒度模型进行模型融合,可以将三种模型的优势互相结合,从而提高垃圾短信文本分类的准确性。
S270、对各粗分类垃圾短信文本集合,分别重新计算各关键词对应的文字向量权重。
采用与S250中相同的文字向量计算方式,重新计算粗分类垃圾短信文本集合中各关键词的文字向量权重。在S250中,各关键词的文字向量计算是基于垃圾短信文本集合的,也即是基于全部类别的垃圾短信文本的。在本步骤中,各关键词的文字向量计算是基于粗分类垃圾短信文本集合,计算结果更具有垃圾短信文本类别的针对性。
示例性的,可以采用TFIDF算法,通过以下公式计算各关键词的文字向量:权重:
Figure BDA0002770383600000101
Figure BDA0002770383600000102
TFIDFw=TFw*IDFw
S280、对各粗分类垃圾短信文本集合,分别将各关键词以及重新计算的文字向量权重,输入至二级分类模型,并获取所述二级分类模型输出的多个类别垃圾短信文本集合。
所述二级分类模型用于将粗分类垃圾短信文本集合分类为类别垃圾短信文本集合和其他垃圾短信文本集合。
一级分类模型将垃圾短信文本集合粗分类为多个粗分类垃圾短信文本集合,每个粗分类垃圾短信文本集合对应一个二级分类模型,二级分类模型对粗分类垃圾短信文本集合进行进一步划分,将确定属于当前垃圾短信类别的垃圾短信文本划分至类别垃圾短信文本集合,其余垃圾短信文本划分至其他垃圾短信文本集合。
设置二级分类模型,可以过滤一级分类模型输出的粗分类垃圾短信文本集合中被误分类的垃圾短信文本,进一步的提高垃圾短信文本分类的准确性。
可选的,可以采用规则模板过滤的方式对各类别垃圾短信文本集合进行进一步的修正。
示例性的,银行、电商类别的垃圾短信文本中通常会存在配对的符号“【】”,博彩类别的垃圾短信文本中通常会出现网址、数字以及特定汉字等。设置规则模板,对类别垃圾短信文本集合进一步过滤,可以进一步的提高垃圾短信文本分类的精度。
可选的,在二级分类模型输出类别垃圾短信文本集合时,还可以输出该类别垃圾短信文本集合对应的置信度,当置信度高于预设阈值时,确定类别垃圾短信文本集合分类准确。
在本发明实施例中增加置信度的判断,可以进一步保证垃圾短信文本分类的准确性。
S290、分别将各类别垃圾短信文本集合输入至实体信息提取模型,获得所述实体信息提取模型输出的各类别垃圾短信文本对应的实体位置信息。
其中,实体位置信息用于指示实体信息在类别垃圾短信文本中所处的位置,由于类别垃圾短信文本中可能存在书写不规范的情形,因此实体位置信息对应的内容可能为实体信息的变体。
S2100、根据实体位置信息,对各类别垃圾短信文本进行实体信息的识别或者还原。
当实体位置信息对应的内容为规范书写的实体信息时,对实体信息进行识别,当实体位置信息对应的内容为实体信息的变体时,将实体信息的变体还原为实体信息。
本实施例的技术方案,通过对短信集合中的短信进行白名单和/或黑名单过滤获取短信文本集合,对短信文本集合进行文本过滤,筛去大部分正常短信,获得垃圾短信文本集合,对各垃圾短信文本进行文本预处理后,输入至一级分类模型获得粗分类的垃圾短信文本集合,再次进行文本预处理后输入至二级分类模型,获得多个类别垃圾短信文本集合,并通过实体信息提取模型获得各类别垃圾短信文本中的实体位置信息,根据实体位置信息对实体信息进行识别或还原。解决了现有技术中垃圾短信的分类识别和实体提取方式,分类结果准确性较差,以及实体提取的效果较差的问题,实现了对海量短信的精确分类识别,并准确提取了垃圾短信中的实体信息。
实施例三
图3是本发明实施例三提供的一种垃圾短信的分类识别装置的结构示意图,该装置可以由软件和/或硬件来实现,并一般集成在计算机设备中。该装置包括:文本过滤模块310、类别垃圾短信文本集合获取模块320以及实体信息提取模块330。其中:
文本过滤模块310,用于对短信文本集合进行文本过滤,获得垃圾短信文本集合;
类别垃圾短信文本集合获取模块320,用于将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
实体信息提取模块330,用于将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
本实施例的技术方案,通过对短信文本集合进行文本过滤,筛去大部分正常短信,获得垃圾短信文本集合,通过一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合,并通过实体信息提取模型识别或还原各类别垃圾短信文本中的实体信息。解决了现有技术中垃圾短信的分类识别和实体提取方式,分类结果准确性较差,以及实体提取的效果较差的问题,实现了对海量短信的精确分类识别,并准确提取了垃圾短信中的实体信息。
在上述实施例的基础上,所述文本过滤模块310,包括:
文本过滤单元,用于对短信文本集合中的各短信文本进行文本字数过滤和/或模式规则过滤。
在上述实施例的基础上,所述装置,还包括:
文本处理单元,用于识别垃圾短信文本集合中各垃圾短信文本的关键词,并计算各关键词对应的文字向量权重。
在上述实施例的基础上,所述类别垃圾短信文本集合获取模块320,包括:
垃圾短信粗分类单元,用于将垃圾短信文本集合中的各关键词以及对应的文字向量权重,输入至一级分类模型,并获取所述一级分类模型输出的多个粗分类垃圾短信文本集合;
文字向量权重计算单元,用于对各粗分类垃圾短信文本集合,分别重新计算各关键词对应的文字向量权重;
类别垃圾短信文本集合获取单元,用于对各粗分类垃圾短信文本集合,分别将各关键词以及重新计算的文字向量权重,输入至二级分类模型,并获取所述二级分类模型输出的多个类别垃圾短信文本集合。
在上述实施例的基础上,所述一级分类模型为字粒度模型、词粒度模型以及拼音粒度模型进行模型融合后生成的模型;
所述二级分类模型用于将粗分类垃圾短信文本集合分类为类别垃圾短信文本集合和其他垃圾短信文本集合。
在上述实施例的基础上,所述装置,还包括:
实体信息提取模型获取模块,用于根据标注后的训练短信文本集合,以及构建的变体字库,对机器学习模型进行训练,获得实体信息提取模型;
所述实体信息提取模块330,用于:
实体位置信息获取单元,用于分别将各类别垃圾短信文本集合输入至实体信息提取模型,获得所述实体信息提取模型输出的各类别垃圾短信文本对应的实体位置信息;
实体信息识别/还原单元,用于根据实体位置信息,对各类别垃圾短信文本进行实体信息的识别或者还原。
在上述实施例的基础上,所述装置,还包括:
字段提取模块,用于获取短信集合,对短信集合中的各短信进行字段提取,获得各短信对应的短信文本和/或发送方号码;
白名单和/或黑名单过滤模块,用于根据各短信对应的短信文本和/或发送方号码,对各短信进行白名单和/或黑名单过滤,根据过滤后的各短信生成短信文本集合。
本发明实施例所提供的垃圾短信的分类识别装置可执行本发明任意实施例所提供的垃圾短信的分类识别方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括处理器70、存储器71、输入装置72和输出装置73;计算机设备中处理器70的数量可以是一个或多个,图4中以一个处理器70为例;计算机设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的垃圾短信的分类识别方法对应的模块(例如,垃圾短信的分类识别装置中的文本过滤模块310、类别垃圾短信文本集合获取模块320以及实体信息提取模块330)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的垃圾短信的分类识别方法。该方法包括:
对短信文本集合进行文本过滤,获得垃圾短信文本集合;
将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种垃圾短信的分类识别方法,该方法包括:
对短信文本集合进行文本过滤,获得垃圾短信文本集合;
将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的垃圾短信的分类识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述垃圾短信的分类识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种垃圾短信的分类识别方法,其特征在于,包括:
对短信文本集合进行文本过滤,获得垃圾短信文本集合;
将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
2.根据权利要求1所述的方法,其特征在于,所述对短信文本集合进行文本过滤,包括:
对短信文本集合中的各短信文本进行文本字数过滤和/或模式规则过滤。
3.根据权利要求1所述的方法,其特征在于,在将垃圾短信文本集合依次输入至一级分类模型和二级分类模型之前,还包括:
识别垃圾短信文本集合中各垃圾短信文本的关键词,并计算各关键词对应的文字向量权重。
4.根据权利要求3所述的方法,其特征在于,所述将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合,包括:
将垃圾短信文本集合中的各关键词以及对应的文字向量权重,输入至一级分类模型,并获取所述一级分类模型输出的多个粗分类垃圾短信文本集合;
对各粗分类垃圾短信文本集合,分别重新计算各关键词对应的文字向量权重;
对各粗分类垃圾短信文本集合,分别将各关键词以及重新计算的文字向量权重,输入至二级分类模型,并获取所述二级分类模型输出的多个类别垃圾短信文本集合。
5.根据权利要求4所述的方法,其特征在于,所述一级分类模型为字粒度模型、词粒度模型以及拼音粒度模型进行模型融合后生成的模型;
所述二级分类模型用于将粗分类垃圾短信文本集合分类为类别垃圾短信文本集合和其他垃圾短信文本集合。
6.根据权利要求1所述的方法,其特征在于,在对短信文本集合进行文本过滤之前,还包括:
根据标注后的训练短信文本集合,以及构建的变体字库,对机器学习模型进行训练,获得实体信息提取模型;
将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合,包括:
分别将各类别垃圾短信文本集合输入至实体信息提取模型,获得所述实体信息提取模型输出的各类别垃圾短信文本对应的实体位置信息;
根据实体位置信息,对各类别垃圾短信文本进行实体信息的识别或者还原。
7.根据权利要求1-6任一项所述的方法,其特征在于,在对短信文本集合进行文本过滤之前,还包括:
获取短信集合,对短信集合中的各短信进行字段提取,获得各短信对应的短信文本和/或发送方号码;
根据各短信对应的短信文本和/或发送方号码,对各短信进行白名单和/或黑名单过滤,根据过滤后的各短信生成短信文本集合。
8.一种垃圾短信的分类识别装置,其特征在于,包括:
文本过滤模块,用于对短信文本集合进行文本过滤,获得垃圾短信文本集合;
类别垃圾短信文本集合获取模块,用于将垃圾短信文本集合依次输入至一级分类模型和二级分类模型,获得多个类别垃圾短信文本集合;
实体信息提取模块,用于将各类别垃圾短信文本集合输入至实体信息提取模型,获得识别或者还原实体信息之后的各类别垃圾短信文本集合。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的垃圾短信的分类识别方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的垃圾短信的分类识别方法。
CN202011247127.5A 2020-11-10 2020-11-10 垃圾短信的分类识别方法、装置、计算机设备及存储介质 Pending CN112492606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247127.5A CN112492606A (zh) 2020-11-10 2020-11-10 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247127.5A CN112492606A (zh) 2020-11-10 2020-11-10 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112492606A true CN112492606A (zh) 2021-03-12

Family

ID=74929417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247127.5A Pending CN112492606A (zh) 2020-11-10 2020-11-10 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112492606A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609359A (zh) * 2021-07-30 2021-11-05 建信金融科技有限责任公司 垃圾分类方法、装置、设备及可读存储介质
CN114979990A (zh) * 2022-06-17 2022-08-30 中国电信股份有限公司 短信过滤方法、装置、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852471A (zh) * 2005-10-31 2006-10-25 华为技术有限公司 一种处理垃圾短信的方法及系统
US7711673B1 (en) * 2005-09-28 2010-05-04 Trend Micro Incorporated Automatic charset detection using SIM algorithm with charset grouping
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN109684639A (zh) * 2018-12-24 2019-04-26 北京奇虎科技有限公司 短信识别方法、装置及电子设备
CN109743732A (zh) * 2018-12-20 2019-05-10 重庆邮电大学 基于改进的cnn-lstm的垃圾短信判别方法
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN111859237A (zh) * 2020-07-23 2020-10-30 恒安嘉新(北京)科技股份公司 网络内容审核方法、装置、电子设备、及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711673B1 (en) * 2005-09-28 2010-05-04 Trend Micro Incorporated Automatic charset detection using SIM algorithm with charset grouping
CN1852471A (zh) * 2005-10-31 2006-10-25 华为技术有限公司 一种处理垃圾短信的方法及系统
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN109743732A (zh) * 2018-12-20 2019-05-10 重庆邮电大学 基于改进的cnn-lstm的垃圾短信判别方法
CN109684639A (zh) * 2018-12-24 2019-04-26 北京奇虎科技有限公司 短信识别方法、装置及电子设备
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN111859237A (zh) * 2020-07-23 2020-10-30 恒安嘉新(北京)科技股份公司 网络内容审核方法、装置、电子设备、及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AHMED I. TALOBA ECT.: "An Intelligent Hybrid Technique of Decision Tree and Genetic Algorithm for E-Mail Spam Detection", 《2019 NINTH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND INFORMATION SYSTEMS (ICICIS)》, 12 March 2020 (2020-03-12) *
吴思慧;陈世平;: "结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别", 计算机系统应用, no. 09, 15 September 2020 (2020-09-15) *
黄文良: "垃圾短信过滤关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》, 15 July 2009 (2009-07-15), pages 3 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609359A (zh) * 2021-07-30 2021-11-05 建信金融科技有限责任公司 垃圾分类方法、装置、设备及可读存储介质
CN114979990A (zh) * 2022-06-17 2022-08-30 中国电信股份有限公司 短信过滤方法、装置、电子设备及可读存储介质
CN114979990B (zh) * 2022-06-17 2024-03-26 中国电信股份有限公司 短信过滤方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108874777B (zh) 一种文本反垃圾的方法及装置
US8095547B2 (en) Method and apparatus for detecting spam user created content
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN104679825B (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN106874253A (zh) 识别敏感信息的方法及装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
WO2020134684A1 (zh) 信息检索方法、装置、设备和介质
KR101416291B1 (ko) 규칙기반 다중 에이전트를 이용한 감성 분류 시스템 및 그 방법
CN108287848B (zh) 用于语义解析的方法和系统
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN110569350A (zh) 法条推荐方法、设备和存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
CN110020430B (zh) 一种恶意信息识别方法、装置、设备及存储介质
CN109509110B (zh) 基于改进bbtm模型的微博热点话题发现方法
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
US20220292127A1 (en) Information management system
CN113204954A (zh) 基于大数据的数据检测方法、设备及计算机可读存储介质
CN113343687B (zh) 事件名称的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination