CN115730237B - 垃圾邮件检测方法、装置、计算机设备及存储介质 - Google Patents
垃圾邮件检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115730237B CN115730237B CN202211500552.XA CN202211500552A CN115730237B CN 115730237 B CN115730237 B CN 115730237B CN 202211500552 A CN202211500552 A CN 202211500552A CN 115730237 B CN115730237 B CN 115730237B
- Authority
- CN
- China
- Prior art keywords
- model
- word
- training
- inputting
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 95
- 238000003860 storage Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 79
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种垃圾邮件检测方法、装置、设备及介质,包括:通过本实施例中,提取待检测邮件的文本内容,得到目标文本信息,将目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建,实现通过主题模型和Bert模型对文本内容进行准确分类,有利于提高检测的准确性。
Description
技术领域
本发明涉及安全检测技术领域,尤其涉及一种垃圾邮件检测方法、装置、计算机设备及介质。
背景技术
垃圾邮件内容在社交媒体中急剧增加,因此对垃圾邮件的检测变的至关重要。垃圾邮件包含恶意链接、应用程序、虚假账户、虚假新闻、评论、谣言等。对垃圾邮件的检测通常以二分类任务为主,利用分类等方法完成对垃圾邮件的检测,技术包含基于规则、机器学习、深度学习、混合等方法。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:基于规则的垃圾邮件检索方法,如:基于自适应遗传算法的垃圾邮件过滤、一种基于语义的垃圾邮件检测方法、利用神经网络设计并实现了一个基于规则的垃圾邮件过滤系统、一种可训练模糊垃圾邮件检测系统等,需要手工编写复杂规则,使得设计的规则有限无法覆盖所有情况且不通用,准确率不高的问题;基于机器学习的垃圾邮件分类技术,如:一种Facebook群组垃圾邮件检测技术、一种阿拉伯语评论文本中垃圾邮件检测的集成方法、一种基于集成机器学习的垃圾邮件审查检测技术、一种使用传统分类器检测twitter上的垃圾邮件技术等,存在计算复杂性和领域依赖性,同时,需要利用有监督学习,大量的基于现有数据集资源,使得效率较低;基于深度学习技术,如:一种利用深度学习技术检测垃圾邮件技术、利用深度学习技术的多模式垃圾邮件分类、一种基于ALBERT和Bi-LSTM与自我注意相结合的社交网络垃圾邮件检测、利用深度信任网络降低网络垃圾邮件等。存在缺点:有监督学习,依赖大量的数据,对计算资源要求相对较高,数据量较少的情况小,极易容易过拟合,使得准确率较低。
综上,现有的垃圾邮件检测方法存在检测准确率低或者效率较低的问题。
发明内容
本发明实施例提供一种垃圾邮件检测方法、装置、计算机设备和存储介质,以提高垃圾邮件检测的准确性。
为了解决上述技术问题,本申请实施例提供一种垃圾邮件检测方法,所述垃圾邮件检测方法包括:
提取待检测邮件的文本内容,得到目标文本信息;
将所述目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,所述训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建。
可选地,在所述将所述目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果之前,所述垃圾邮件检测方法还包括:
获取训练语料,每个所述训练语料为一封邮件的内容样本;
将所述训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本;
采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码;
分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型。
可选地,所述二元分类器是以全连接神经网络为基础构造的非线性分类器,所述分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练包括:
将所述字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数;
将所述词级编码输入到主题模型中进行训练,得到主题标签样本;
将所述主题标签作为伪标签样本,并返回所述采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码的步骤继续执行,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型。
可选地,所述将所述字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数包括:
将所述字级编码输入到二元分类器中进行损失计算,得到损失值;
根据损失值对全连接层的参数进行梯度更新。
可选地,所述将所述词级编码输入到主题模型中进行训练,得到主题标签样本包括:
将所述词级编码输入到主题模型中进行训练,得到初始主题样本;
对所述初始主题样本进行主题词相似度计算和分类标签对齐,得到扩充主题样本,将所述扩充主题样本作为所述主题标签样本。
可选地,所述Bert模型由双向Transformer构成,输入层包括字编码、位置编码、分段编码,位置编码采用Sinusoidal位置编码。
为了解决上述技术问题,本申请实施例还提供一种垃圾邮件检测装置,包括:
文本提取模块,用于提取待检测邮件的文本内容,得到目标文本信息;
邮件检测模块,用于将所述目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,所述训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建。
可选地,所述垃圾邮件检测装置还包括:
语料获取模块,用于获取训练语料,每个所述训练语料为一封邮件的内容样本;
伪标签样本生成模块,用于将所述训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本;
编码模块,用于采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码;
模型训练模块,用于分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型。
可选地,所述二元分类器是以全连接神经网络为基础构造的非线性分类器,所述模型训练模块包括:
第一训练单元,用于将所述字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数;
第二训练单元,用于将所述词级编码输入到主题模型中进行训练,得到主题标签样本;
迭代训练单元,用于将所述主题标签作为伪标签样本,并返回所述采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码的步骤继续执行,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型。
可选地,所述第一训练单元包括:
损失计算子单元,用于将所述字级编码输入到二元分类器中进行损失计算,得到损失值;
更新子单元,用于根据损失值对全连接层的参数进行梯度更新。
可选地,所述第二训练单元包括:
初始样本生成子单元,用于将所述词级编码输入到主题模型中进行训练,得到初始主题样本;
样本扩充子单元,用于对所述初始主题样本进行主题词相似度计算和分类标签对齐,得到扩充主题样本,将所述扩充主题样本作为所述主题标签样本。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述垃圾邮件检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述垃圾邮件检测方法的步骤。
本发明实施例提供的垃圾邮件检测方法、装置、计算机设备及存储介质,通过提取待检测邮件的文本内容,得到目标文本信息,将目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建,实现通过主题模型和Bert模型对文本内容进行准确分类,有利于提高检测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的垃圾邮件检测方法的一个实施例的流程图;
图3是本申请的垃圾邮件检测方法的另一个实施例的流程图;
图4是根据本申请的垃圾邮件检测装置的一个实施例的结构示意图;
图5是根据本申请的垃圾邮件检测装置的另一个实施例的结构示意图;
图6是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的垃圾邮件检测方法由服务器执行,相应地,垃圾邮件检测装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种垃圾邮件检测方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:提取待检测邮件的文本内容,得到目标文本信息。
(1,邮件主要以文本信息为主,对于图片等非其他信息不作处理,只提取文本相关信息。2,提取的文本信息,首先通过分词工具(如jieba)对文本信息进行分词并剔除不重要的语气词等,然后根据所有文本产生的分词结果构建词库并进行编码,最后将文本映射到对应的编码信息,并输入到模型中);
S202:将目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建。
其中,BERT模型的全称是BidirectionalEncoder Representations fromTransformer,基于Transformer的双向编码器表示,是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示。
垃圾邮件的二元分类器主要以全连接神经网络为基础构造非线性分类器,具体公式可表示成公式(1),其中F表示非线性函数,这里采用relu作为非线性激活函数,W、b表示权重和偏置,经过非线性变换之后,需要将输出结果对应于特定的类别标签,这里主要是针对的二分类问题,输出层包含两个元素,第一个元素指定为垃圾邮件类别,则另一个元素为非垃圾邮件,并在此基础上接上softmax归一化公式(2),这里用P表示。
F=W1*max(0,W2*x+b1)+b2 公式(1)
P=softmax(F) 公式(2)
其中,F表示非线性函数,W2*x+b1是前一层神经网络的输出,代表了具备上下文信息的文本表示特征,这种特征是通过反向传播的形式进行学习,W2即为前一层权重矩阵,将原始输入的文本编码映射到邮件分类器的分布空间中,b1是前一层的偏置,本质是函数的截距,其目标是更好、更快的拟合分类器,能够让分类器适应复杂的参数结构。W1和b2是进一步对输出结果进行拟合,W1为后一层权重矩阵,b2位后一层的偏置。
二元分类器是本系统唯一需要学习调参的地方,即需要对全连接层的参数进行梯度更新,这里需要设计一个分类层损失函数,以二元交叉熵为loss损失,其计算公式为(3),有了损失函数之后,只需要将二元分类器接入到Bert模型之后就可以了。
其中,Loss表示分类器目标函数的总体损失,表达了模型的拟合程度,N表示文本样本数量,P(yi)表示第i个输入样本经过分类器产生的逻辑值,表明了类别的学习程度,yi表示第i个样本的真实标签。
本实施例中,提取待检测邮件的文本内容,得到目标文本信息,将目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建,实现通过主题模型和Bert模型对文本内容进行准确分类,有利于提高检测的准确性。
请参阅3,图3示出本发明实施例提供的一种垃圾邮件检测方法,详述如下:
S203:获取训练语料,每个训练语料为一封邮件的内容样本;
S204:将训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本。
其中,本实施例采用的主题模型为LDA(Latent Dirichlet Allocation)模型在系统中主要是产生邮件样本的主题标签,它将每篇文章看作所有主题的一个混合概率分布是LDA主题模型的主要思想,并将每个主题看作在单词上的一个概率分布,则可以将从文档中取出一个单词属于某个主题的概率表示为其中z表示主题、w表示单词,P(wi|zi=j)表示取出当前单词属于主题j时该单词为i的概率,P(zi=j)表示从文档中取出一个单词属于主题j的概率,假设有D篇文档、Z个主题和W个单词。则可将P(zi=j)、P(wi|zi=j)分别表示为文档在主题上的多项分布和主题在单词上的多项分布,用表示。假设θ、/>服从参数α、β的狄利克雷分布(本专利用Discrete表示),则LDA模型的各层参数之间的依赖关系可表示为公式(4):
θ~Dirichlet(α) 公式(4)
LDA整体过程如下:首先对于文档d(d∈D),从Dirichlet(α)抽样得到θ(d),这里假设LDA的两个主题分别是垃圾邮件和非垃圾邮件,根据文档d产生对应的主题分布,然后对于主题z(z∈Z)从中抽样得到/>例如针对某一主题(如垃圾邮件)产生此主题在文档d中单词的分布,之后对于每个单词wi及所属主题zi,分别从多项分布θ、/>抽样得到zi=P(zi|θ)和/>即需要将文档d中词与相应主题进行联系,从前面的分布中可以得到垃圾邮件对应的词概率分布以及由文档d中的词产生的主题分布。
S205:采用Bert模型对伪标签样本进行上下文编码,得到字级编码和词级编码。
具体地,本实施例中Bert模型由双向Transformer构成,输入层包括字编码、位置编码、分段编码,位置编码采用Sinusoidal位置编码。
Bert模型是文本词、句字编码的有效手段,公式(5)展示模型时序位置编码信息:
其中,E(pos,2i)、PE(pos,2i+1)分别是位置pos的编码向量的第2i,2i+1个分量,dmodel是位置编码向量的维度,sin、cos分别是正、余弦函数,正、余弦函数用于产生[-1,1]范围的位置编码数值。Sinusoidal位置编码是有显示的编码生成规律,相比训练式的位置编码具有较好的延展性。
其中Sinusoidal位置编码是一种绝对位置编码方式,能过处理更长的文本数据,随着文本增长,编码表示不会发生重叠,并且能唯一表示每个词的编码信息。具体实现方式如公式(5)所示,首先根据参数配置确定文本最长序列(例如d_model=512),将单词位置索引pos(如pos=1),输入到PE(·)函数中,if i=2k计算sin(·),if i=2k+1计算cos(点),产生2i、和2i+1分量结果,结果如下所示(这里i以0开始):PE(1)=【sin(1/1000^(0/512)),cos(1/1000^(1/512)),sin(1/1000^(2/512)),sin(1/1000^(2/512))…】,sin(1/1000^(0/512)表示2i分量(偶数位置),cos(1/1000^(1/512)表示2i+1分量(奇数位置)。
其中,Transformer编码单元是基于自注意力机制进行建模,(公式6所示)Attention函数表示了自注意机制的计算过程,其输入由Q、K和V编码向量组成,dk表示输入向量的维度,QKT表示所有字(词)向量直接关系,softmax函数计算了输入词基本本身所有词而言的权值信息。经过整体的公式计算形成句子所有词向量的加权重和表示,即句子中每个词的表示蕴含了词上下文信息,便具备了全局信息。
本实施例在Bert中采用了多头注意力机制,增大上下文编码子空间,拥有更强的注意能力,可用公式(7)表示,其中W为线性映射矩阵,矩阵参数通常由模型隐藏层维度和输入维度构成:
MultiHead(Q,K,V)=concat(head1,...,headk)Wo 公式(7)
其中,K表示输入文本的编码向量,这里使用自注意力机制,则K=V=Q。k表示多头注意力头的数量通常设定为12,表明有12子模块进行自注意学习,i表示第i个自注意力模块,WQ i的表示第i个注意力模块针对Q输入进行处理的权重矩阵,根据公式(6)的计算过程,产生第i个head的自注意力结果,Wk i WV i与此类似,Wo是进一步对自注意结果进行拟合产生更复杂的、有效的结果的权重因子。
S206:分别将字级编码输入到二元分类器中、将词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到训练好的垃圾邮件检测模型。
可选地,二元分类器是以全连接神经网络为基础构造的非线性分类器,分别将字级编码输入到二元分类器中、将词级编码输入到主题模型中进行迭代训练包括:
将字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数;
将词级编码输入到主题模型中进行训练,得到主题标签样本;
将主题标签作为伪标签样本,并返回采用Bert模型对伪标签样本进行上下文编码,得到字级编码和词级编码的步骤继续执行,直到达到预设收敛条件时,得到训练好的垃圾邮件检测模型。
进一步地,将字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数包括:
将字级编码输入到二元分类器中进行损失计算,得到损失值;
根据损失值对全连接层的参数进行梯度更新。
进一步地,将词级编码输入到主题模型中进行训练,得到主题标签样本包括:
将词级编码输入到主题模型中进行训练,得到初始主题样本;
对初始主题样本进行主题词相似度计算和分类标签对齐,得到扩充主题样本,将扩充主题样本作为主题标签样本。
其中,词级编码会直接输入到主题模型,主题模型根据随机因子的变动和参数的调节,每次产生不同的结果,但这些不同的结果整体上来看是具备一致性,针对垃圾邮件分类问题而言,这些结果和垃圾邮件、非垃圾邮件主题高度相关的,这也为后续自动打标提供良好的决策能力,这里需要注意的是,LDA随着随机因子的不同产生的主题标签也会变化,所有需要增加一个主题词相似度计算方法与分类标签对齐,这里是将迭代中产生的主题词和最初主题标签位置进行对齐。
需要说明的是,本实施例基于无监督的学习方式,利用LDA主题模型产生自监督标签并进行标签对齐,有效降低标注成本,提高模型训练效率。
本实施例中,获取训练语料,每个训练语料为一封邮件的内容样本,将训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本,采用Bert模型对伪标签样本进行上下文编码,得到字级编码和词级编码,分别将字级编码输入到二元分类器中、将词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到训练好的垃圾邮件检测模型,有利于提高得到模型对邮件检测的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4示出与上述实施例垃圾邮件检测方法一一对应的垃圾邮件检测装置的原理框图。如图4所示,该垃圾邮件检测装置包括文本提取模块31和邮件检测模块32。各功能模块详细说明如下:
文本提取模块31,用于提取待检测邮件的文本内容,得到目标文本信息;
邮件检测模块32,用于将目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建。
如图5所示,该垃圾邮件检测装置还包括语料获取模块33、伪标签样本生成模块34、编码模块35和模型训练模块36。各功能模块详细说明如下:
语料获取模块33,用于获取训练语料,每个训练语料为一封邮件的内容样本;
伪标签样本生成模块34,用于将训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本;
编码模块35,用于采用Bert模型对伪标签样本进行上下文编码,得到字级编码和词级编码;
模型训练模块36,用于分别将字级编码输入到二元分类器中、将词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到训练好的垃圾邮件检测模型。
可选地,二元分类器是以全连接神经网络为基础构造的非线性分类器,模型训练模块36包括:
第一训练单元,用于将字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数;
第二训练单元,用于将词级编码输入到主题模型中进行训练,得到主题标签样本;
迭代训练单元,用于将主题标签作为伪标签样本,并返回采用Bert模型对伪标签样本进行上下文编码,得到字级编码和词级编码的步骤继续执行,直到达到预设收敛条件时,得到训练好的垃圾邮件检测模型。
可选地,第一训练单元包括:
损失计算子单元,用于将字级编码输入到二元分类器中进行损失计算,得到损失值;
更新子单元,用于根据损失值对全连接层的参数进行梯度更新。
可选地,第二训练单元包括:
初始样本生成子单元,用于将词级编码输入到主题模型中进行训练,得到初始主题样本;
样本扩充子单元,用于对初始主题样本进行主题词相似度计算和分类标签对齐,得到扩充主题样本,将扩充主题样本作为主题标签样本。
关于垃圾邮件检测装置的具体限定可以参见上文中对于垃圾邮件检测方法的限定,在此不再赘述。上述垃圾邮件检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的垃圾邮件检测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (8)
1.一种垃圾邮件检测方法,其特征在于,所述垃圾邮件检测方法包括:
获取训练语料,每个所述训练语料为一封邮件的内容样本;
将所述训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本;
采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码;
分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型;
提取待检测邮件的文本内容,得到目标文本信息;
将所述目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,所述训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建,所述二元分类器是以全连接神经网络为基础构造的非线性分类器,所述二元分类器通过分类层的损失函数对全连接层的参数进行梯度更新,并嵌套接入到Bert模型,所述主题模型产生自监督标签并进行标签对齐。
2.如权利要求1所述的垃圾邮件检测方法,其特征在于,所述二元分类器是以全连接神经网络为基础构造的非线性分类器,所述分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练包括:
将所述字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数;
将所述词级编码输入到主题模型中进行训练,得到主题标签样本;
将所述主题标签作为伪标签样本,并返回所述采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码的步骤继续执行,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型。
3.如权利要求2所述的垃圾邮件检测方法,其特征在于,所述将所述字级编码输入到二元分类器中进行训练,更新二元分类器中全连接层参数包括:
将所述字级编码输入到二元分类器中进行损失计算,得到损失值;
根据损失值对全连接层的参数进行梯度更新。
4.如权利要求2所述的垃圾邮件检测方法,其特征在于,所述将所述词级编码输入到主题模型中进行训练,得到主题标签样本包括:
将所述词级编码输入到主题模型中进行训练,得到初始主题样本;
对所述初始主题样本进行主题词相似度计算和分类标签对齐,得到扩充主题样本,将所述扩充主题样本作为所述主题标签样本。
5.如权利要求1至4任一项所述的垃圾邮件检测方法,其特征在于,所述Bert模型由双向Transformer构成,输入层包括字编码、位置编码、分段编码,位置编码采用Sinusoidal位置编码。
6.一种垃圾邮件检测装置,其特征在于,所述垃圾邮件检测装置包括:
语料获取模块,用于获取训练语料,每个所述训练语料为一封邮件的内容样本;
伪标签样本生成模块,用于将所述训练语料输入到主题模型中,采用无监督的训练方式,生成伪标签样本;
编码模块,用于采用Bert模型对所述伪标签样本进行上下文编码,得到字级编码和词级编码;
模型训练模块,用于分别将所述字级编码输入到二元分类器中、将所述词级编码输入到主题模型中进行迭代训练,直到达到预设收敛条件时,得到所述训练好的垃圾邮件检测模型;
文本提取模块,用于提取待检测邮件的文本内容,得到目标文本信息;
邮件检测模块,用于将所述目标文本信息输入到训练好的垃圾邮件检测模型中进行识别检测,得到检测结果,其中,所述训练好的垃圾邮件检测模型基于Bert模型、二元分类器和主题模型构建,所述二元分类器是以全连接神经网络为基础构造的非线性分类器,所述二元分类器通过分类层的损失函数对全连接层的参数进行梯度更新,并嵌套接入到Bert模型,所述主题模型产生自监督标签并进行标签对齐。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的垃圾邮件检测方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的垃圾邮件检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211500552.XA CN115730237B (zh) | 2022-11-28 | 2022-11-28 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211500552.XA CN115730237B (zh) | 2022-11-28 | 2022-11-28 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115730237A CN115730237A (zh) | 2023-03-03 |
CN115730237B true CN115730237B (zh) | 2024-04-23 |
Family
ID=85298774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211500552.XA Active CN115730237B (zh) | 2022-11-28 | 2022-11-28 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730237B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117201446A (zh) * | 2023-11-07 | 2023-12-08 | 南昌大学 | 结合语义和行为的神经网络的垃圾邮件检测方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN109947936A (zh) * | 2018-08-21 | 2019-06-28 | 北京大学 | 一种基于机器学习动态检测垃圾邮件的方法 |
CN110149266A (zh) * | 2018-07-19 | 2019-08-20 | 腾讯科技(北京)有限公司 | 垃圾邮件识别方法及装置 |
CN111931499A (zh) * | 2020-08-18 | 2020-11-13 | 携程计算机技术(上海)有限公司 | 模型训练方法及系统、垃圾邮件识别方法及系统和设备 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112347247A (zh) * | 2020-10-29 | 2021-02-09 | 南京大学 | 基于LDA和Bert的特定类别文本标题二分类方法 |
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN113592416A (zh) * | 2021-02-23 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种邮件识别方法、装置、设备及计算机可读存储介质 |
CN114547303A (zh) * | 2022-02-18 | 2022-05-27 | 哈尔滨工程大学 | 基于Bert-LSTM的文本多特征分类方法及装置 |
CN114780727A (zh) * | 2022-04-24 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于强化学习的文本分类方法、装置、计算机设备及介质 |
CN114818724A (zh) * | 2022-03-18 | 2022-07-29 | 江汉大学 | 一种社交媒体灾害有效信息检测模型的构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673235A (zh) * | 2020-08-27 | 2021-11-19 | 谷歌有限责任公司 | 基于能量的语言模型 |
US20220094713A1 (en) * | 2020-09-21 | 2022-03-24 | Sophos Limited | Malicious message detection |
-
2022
- 2022-11-28 CN CN202211500552.XA patent/CN115730237B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN110149266A (zh) * | 2018-07-19 | 2019-08-20 | 腾讯科技(北京)有限公司 | 垃圾邮件识别方法及装置 |
CN109947936A (zh) * | 2018-08-21 | 2019-06-28 | 北京大学 | 一种基于机器学习动态检测垃圾邮件的方法 |
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN111931499A (zh) * | 2020-08-18 | 2020-11-13 | 携程计算机技术(上海)有限公司 | 模型训练方法及系统、垃圾邮件识别方法及系统和设备 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112347247A (zh) * | 2020-10-29 | 2021-02-09 | 南京大学 | 基于LDA和Bert的特定类别文本标题二分类方法 |
CN113592416A (zh) * | 2021-02-23 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种邮件识别方法、装置、设备及计算机可读存储介质 |
CN114547303A (zh) * | 2022-02-18 | 2022-05-27 | 哈尔滨工程大学 | 基于Bert-LSTM的文本多特征分类方法及装置 |
CN114818724A (zh) * | 2022-03-18 | 2022-07-29 | 江汉大学 | 一种社交媒体灾害有效信息检测模型的构建方法 |
CN114780727A (zh) * | 2022-04-24 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于强化学习的文本分类方法、装置、计算机设备及介质 |
Non-Patent Citations (3)
Title |
---|
Monolingual and multilingual topic analysis using LDA and BERT embeddings;Qing Xie;《Journal of Informetrics》;第14卷(第3期);全文 * |
基于BERT_DPCNN 文本分类算法的垃圾邮件过滤系统;彭毅;《电脑知识与技术》;第18卷(第22期);全文 * |
基于主题模型的垃圾邮件过滤系统的设计与实现;寇晓淮;程华;;电信科学;20171120(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115730237A (zh) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN114780727A (zh) | 基于强化学习的文本分类方法、装置、计算机设备及介质 | |
CN112101041A (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
CN112417887B (zh) | 敏感词句识别模型处理方法、及其相关设备 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN115730237B (zh) | 垃圾邮件检测方法、装置、计算机设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |