CN115796266A - 一种邮件识别及模型训练方法、装置和设备 - Google Patents

一种邮件识别及模型训练方法、装置和设备 Download PDF

Info

Publication number
CN115796266A
CN115796266A CN202211483562.7A CN202211483562A CN115796266A CN 115796266 A CN115796266 A CN 115796266A CN 202211483562 A CN202211483562 A CN 202211483562A CN 115796266 A CN115796266 A CN 115796266A
Authority
CN
China
Prior art keywords
sample
mail
word vector
mails
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211483562.7A
Other languages
English (en)
Inventor
路永鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211483562.7A priority Critical patent/CN115796266A/zh
Publication of CN115796266A publication Critical patent/CN115796266A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开一种邮件识别及模型训练方法、装置和设备,属于信息处理技术领域。主要包括:对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,其中每个样本词向量分组中包括一个或多个样本词向量;以及,利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型,其中在训练过程中进行变步长卷积运算以及加权池化运算。本发明实施例充分考虑到合规邮件和不合规邮件文本内容的位置信息影响,采取变步长卷积和带权池化的方式来训练邮件识别模型,能够进行不合规邮件的高效识感知识别。

Description

一种邮件识别及模型训练方法、装置和设备
技术领域
本发明涉及信息处理技术领域,尤其涉及一种邮件识别及模型训练方法、装置和设备。
背景技术
一些企业或组织对于数据的安全性和隐私性要求都极为严格,因此在进行邮件通讯时,对于外部互联网发来的邮件,邮件系统需对该邮件进行分析,判断是否允许该邮件发送至内部邮箱。对于内部发送至外部互联网的邮件,邮件系统需要识别该邮件是否携带内部敏感数据,判断是否限制该邮件想外部互联网的传输。
发明内容
本发明实施例提供一种邮件识别及模型训练方法、装置和设备,能够利用卷积神经网络善于局部特征提取的优势,并充分考虑到合规邮件和不合规邮件文本内容的位置信息影响,采取变步长卷积和带权池化的方式来训练邮件识别模型,使其在不合规邮件的识别上取得显著成效,能够进行不合规邮件的高效识感知识别。
第一方面,本发明实施例提供一种邮件识别模型训练方法,包括:对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,其中每个样本词向量分组中包括一个或多个样本词向量;以及,利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型训练模型;
其中训练过程包括:对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到所述每个样本邮件的多个卷积样本特征;以及,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化运算。
第二方面,本发明实施例提供一种邮件识别模型训练装置,包括:样本词向量提取分组模块,用于对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组;以及训练模块,用于利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型训练模型;
其中训练模块包括:变步长卷积运算子模块,用于对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到所述每个样本邮件的多个卷积样本特征;以及,加权池化运算子模块,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化运算。
第三方面,本发明实施例还提供了一种邮件识别方法,包括:
对待识别邮件进行词向量提取得到多个待识别词向量,并将多个待识别词向量根据对应词语在待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及,利用邮件识别模型,根据多个待识别词向量分组对待识别邮件是否为不合规邮件进行识别;其中邮件识别模型由本发明实施例中任一邮件识别模型训练方法训练得到。
第四方面,本发明实施例还提供了一种邮件识别装置,包括:
待识别词向量提取分组模块,用于对待识别邮件进行词向量提取得到多个待识别词向量,并将多个待识别词向量根据对应词语在待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及识别模块,用于利用邮件识别模型,根据多个待识别词向量分组对待识别邮件是否为不合规邮件进行识别;其中邮件识别模型由本发明实施例中任一邮件识别模型训练方法训练得到。
第五方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的邮件识别模型训练方法或者邮件识别方法。
本发明实施例中,利用卷积神经网络善于局部特征提取的优势,并充分考虑到合规邮件和不合规邮件文本内容的位置信息影响,采取变步长卷积和带权池化的方式来训练邮件识别模型,使其在不合规邮件的识别上取得显著成效,能够进行不合规邮件的高效识感知识别。
附图说明
图1是本发明实施例提供的邮件识别模型训练方法的一个流程示意图;
图2是本发明实施例提供的邮件识别模型训练方法的一个流程示意图
图3是本发明另一实施例提供的邮件识别模型训练方法的一个流程示意图;
图4是全连接的神经网络在采用暂退优化法Dropout前后示意图;
图5是本发明施例提供的邮件识别方法的一个流程示意图;
图6是本发明实施例提供的邮件识别模型训练装置的一个结构示意图;
图7是本发明施例提供的邮件识别装置的一个结构示意图;
图8是本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
一些企业或组织对于数据的安全性和隐私性要求都极为严格,因此在进行邮件通讯时,对于外部互联网发来的邮件,邮件系统需对该邮件进行分析,判断是否允许该邮件发送至内部邮箱。对于内部发送至外部互联网的邮件,邮件系统需要识别该邮件是否携带内部敏感数据,判断是否限制该邮件想外部互联网的传输。
现有技术在关于邮件识别和感知的研究方面,常见的有基于地址、基于行为和基于内容等三种技术方案。基于内容的过滤技术又有依据规则和依据统计两种方式。近年来,随着人工智能、深度学习领域技术的发展,基于统计的邮件识别技术逐渐成为主流。该方案的主要流程为:邮件特征提取、特征选择、向量空间表示、邮件过滤算法设计、利用分类器过滤垃圾邮件。其中常见的垃圾邮件过滤算法主要有贝叶斯、K-近邻、支持向量机等。卷积神经网络是神经网络算法的一种,常被应用于图像处理领域,2014年Text-CNN(卷积神经网络文本处理算法)概念的提出,使得卷积神经网络也逐渐开始被应用于文本分类,因此理论上也可应用到邮件识别技术中来。
本发明考虑到和合规邮件和不合规邮件的特征向量具有离散性的同时,其文本的不同位置信息对于模型的分类结果又有较大影响,介绍一了种基于卷积神经网络对合规邮件和不合规邮件实现分类的方法,并通过变步长卷积、带权池化等方式以及暂退优化法Dropout、L2正则化对感知模型进行优化,实现对邮件文本特征快速且准确的提取,完成对不合规性邮件的高效感知。
图1为本发明实施例提供的邮件识别模型训练方法的一个流程示意图,该方法可以由本发明实施例提供的邮件识别模型训练装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是计算机、服务器等。以下实施例将以该装置集成在电子设备中为例进行说明。参考图1,该方法具体可以包括如下步骤:
步骤101,对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,其中每个样本词向量分组中包括一个或多个样本词向量,能够利于利用所得到的多个样本邮件的词向量分组,对卷积神经网络模型进行训练。
具体的,考虑到合规邮件和不合规邮件的特征向量具有离散性的同时,其文本的不同位置信息对于模型的分类结果又有较大影响,根据位置对样本邮件的词向量进行分组,能够利于根据位置不同,对不同分组的词向量采用不同步长的卷积核进行卷积运算。
在本发明的可选具体实施例中,上述对多个样本邮件中每个样本邮件分别进行词向量提取得到每个样本邮件的多个样本词向量的过程包括:
先后对每个样本邮件进行无关字符以及非法字符的过滤,分词以及停用词的去除,并利用词向量生成模型得到每个样本邮件的多个样本词向量。
具体的,可以首先过滤掉邮件中与不合规邮件关系不大的字符以及邮件中的非法字符,然后使用jieba分词器对文本进行分词,并去除停用词,然后利用word2vec来生成文本的词向量矩阵。
在本发明的可选具体实施例中,上述每个样本邮件的多个样本词向量分组包括:始样本词向量分组,中间样本词向量分组以及结尾样本词向量分组。上述对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组的过程包括:
对每个样本邮件分别进行词向量提取得到每个样本邮件的多个样本词向量;以及,分别将对应词语位于每个样本邮件中的起始位置,中间位置,以及结尾位置的样本词向量,划分入起始样本词向量分组,中间样本词向量分组以及结尾样本词向量分组。
具体的,通过对不合规邮件的文本内容分析发现,其结构特征明显,包含信息丰富,邮件通常具有层次清晰的格式和组织结构,而不合规邮件的文本又多以广告、推销、钓鱼内容为主,针对一封不合规邮件,我们往往根据邮件的首尾位置信息就能判断其是否为不合规邮件。因此本发明实施例将每个样本邮件的起始位置对应样本词向量和结尾位置对应样本词向量,分别划组,以利于后续利用卷积神经网络模型对起始样本词向量分组和结尾样本词向量分组进行重点关注学习。
在本发明的可选实施例中,可以将上述每个样本邮件的多个样本词向量分组包括:第一样本向量分组以及第二样本向量分组。可以将对应词语位于每个样本邮件中的起始位置,以及结尾位置的样本词向量划入上述第一样本向量分组,将对应词语位于每个样本邮件的中间位置的样本词向量,划入上述第二样本分组。
步骤102,利用多个样本邮件的多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型训练模型,能够利于后续利用训练得到的邮件识别模型训练模型对待识别邮件是否为不合规邮件进行识别。
具体在本发明实施例中,上述对对卷积神经网络模型进行训练的步骤102包括如图2所示的:步骤1021,对每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到每个样本邮件的多个卷积样本特征。
具体的,卷积层是卷积神经网络处理文本分类的核心部分,卷积核按照指定的步长在输入文本序列上滑动,与对应位置上的向量进行卷积运算,逐渐完成对输入样本所有文本序列的特征提取任务。在传统卷积神经网络中,一般把步长设为固定值。不同的文本内容对于模型的分类效果也会产生很大的影响,如何快速准确地发现对文本分类结果产生重要影响的词向量,成为提升模型分类效果的突破口。因此对模型进行训练的时候可采取在卷积层实行变步长卷积方式进行卷积操作。
具体的,可以对包含不合规词语的概率较高的样本词向量采取低步长移动,对包含不合规词语的概率较低的样本词向量采取高步长移动,这样就能够高效快速地完成文本特征的挖掘学习。
在本发明的可选具体实施例中,对上述对每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到每个样本邮件的多个卷积样本特征的过程包括:对起始样本词向量分组以及结尾样本词向量分组中的样本词向量,利用高步长卷积核的进行卷积运算;对中间样本词向量分组中的样本词向量,利用低步长卷积核进行卷积运算。
具体的通过对不合规邮件的文本内容分析发现,其结构特征明显,包含信息丰富,邮件通常具有层次清晰的格式和组织结构,而不合规邮件的文本又多以广告、推销、钓鱼内容为主,针对一封不合规邮件,我们往往根据邮件的首尾位置信息就能判断其是否为不合规邮件。因此本发明实施例在对模型进行训练的时候,对样本邮件的首位位置采取低步长移动,中间位置采取高步长移动的卷积方式,能够快速挖掘文本特征,提高模型对邮件文本首尾位置重点特征的挖掘能力。
示例地,可以首先对滑动步长s的长短设置:要求滑动步长s是正整数,且应该小于卷积核尺寸的高度设定值。
按照上述要求,假设卷积核尺寸为k*d,其中d表示词向量维度,k表示卷积核高度,我们将滑动步长s设置为两个级别:低步长
Figure BDA0003960995030000081
高步长k、其中
Figure BDA0003960995030000082
表示向上取整操作。
对输入样本的文本序列分段长度分割:考虑到邮件属于短文本,不宜分割过多,我们将一封邮件样本的文本序列w1:n=(w1,w2,...,wi,...,wn)划分成三部分,分别为
Figure BDA0003960995030000083
其中n0=0,
Figure BDA0003960995030000084
n3=n,其中
Figure BDA0003960995030000085
表示向下取整操作。
确定各个文本序列区域内的滑动步长值s:在文本序列wn1:n2内使用高步长k。如公式所示:
Figure BDA0003960995030000086
步骤1022,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的每个卷积样本特征的位置权重系数,对每个卷积样本特征进行加权池化运算。
具体的,假设输入样本的文本序列经过卷积层的卷积操作后会得到m个输出向量,用P1:m表示,然后将这m个向量按照一定规则结合成为一个向量c,利用c来表示整个输入样本的特征,这个过程被称为池化操作。经过池化操作得到的向量c被赋予了整个文本序列中最具有代表性的特征,当前常用的池化方式主要有最大池化操作、平均池化操作和k最大池化操作。最大池化操作、平均池化操作和k最大池化操作均没有考虑邮件文本中,位置信息对于邮件识别模型训练分类的影响效果。经分析,不合规邮件结构特征明显,不同位置的文本内容包含不合规信息的概率明显不同,因此本发明实施例将位置信息的权重考虑进卷积神经网络模型的池化操作过程中。
在本发明的可选具体实施例中,上述根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的每个卷积样本特征的位置权重系数,对每个卷积样本特征进行加权池化运算的过程包括:根据每个卷积样本特征对应的样本词向量与对应样本邮件的第一个样本词向量以及最后一个样本词向量的距离,计算得到每个卷积样本特征的位置权重系数。
具体的,不合规邮件结构特征明显,邮件标题和邮件首尾段落中一般包含着邮件的主旨内容,其首尾位置信息的文本内容对于不合规邮件的识别分类产生重要影响,因此本发明实施例根据每个卷积样本特征对应词向量与邮件文本首位位置对应词向量的距离,计算该卷积样本特征的位置权重系数,并根据位置权重系数对每个卷积样本特征进行池化操作。能够进一步加强模型对邮件文本重点特征进行挖掘的能力。
示例地,加权策略的池化公式如下所示:
Figure BDA0003960995030000101
Figure BDA0003960995030000102
其中,Pi表示卷积输出的第i个向量,m表示卷积后输出的向量个数。权重系数λi的取值可根据其位置信息决定,如下公式所示:
Figure BDA0003960995030000103
di=min{i,n-i+1}
其中,n表示输入样本的文本序列总长度,di表示第i个词向量距离文本首尾位置对应词向量距离的最小值。
假设POOLλ表示加权池化操作,λi表示加权池化的位置权重系数,P1:m表示向量(p1,p2,...,pi,...,pm)为输出向量,则对输出向量P1:m加权池化操作用公式表示为:
c=POOLλP1:m
下面进一步介绍另一实施例中的邮件识别模型训练方法,如图3所示,即图1中的步骤102还可以包括如下步骤:
步骤1023,采用暂退优化法利用多个样本邮件的多个样本词向量分组对卷积神经网络模型进行训练。
具体的,卷积神经网络参数众多,算法复杂,很容易产生过拟合现象,本模型在算法中采用暂退优化法在卷积神经网络中通过设置一定的概率值来舍弃一些神经元,从而抑制过拟合现象,同时能够缩短训练时间,提高效率。
示例地,如图4所示是一个全连接的神经网络在采用暂退优化法Dropout前后示意图。我们假设x为输入变量,y为输出变量,x经神经网络前向传播得到y,再通过反向误差传播更新权重参数和偏置。所有的神经元都参与每一次训练。当加入Dropout后所示,虚线所绘部分表示随机选取的暂时不参与计算的神经元,而输入的神经元数量则保持不变,具体流程如下:
输入x就在实线所绘的神经元上进行前向传播,并通过误差反向传播更新权重参数和偏置(w,b);
待完成一部分训练样本的训练过程之后,再将虚线所绘的神经元恢复到神经网络中,重新随机选取部分神经元暂时不参与计算,同时将其之前所训练的参数备份;
然后再对一小部分样本按照步骤(1)训练,不断地重复上述过程,直至所有样本完成训练。
在全连接神经网络中计算公式:
Figure BDA0003960995030000111
Figure BDA0003960995030000112
加入Dropout技术后的计算公式:
Figure BDA0003960995030000113
Figure BDA0003960995030000114
Figure BDA0003960995030000115
Figure BDA0003960995030000116
其中zi代表第L+1层神经元的值,w为L到L1层的权重参数,y代表第L层神经元的值,b代表权重参数,f代表激活函数,
Figure BDA0003960995030000117
是通过伯努利函数(公式6.3第一行)随机生成一个0-1向量,让其与y相乘,使y中有概率为p的神经元为0,举例来讲,就是假设某层中有100个神经元,y1,y2,y3,...,y100,若p值取0.4,则会有400个神经元被置为0。这里需要强调一点,由于原输出期望为
Figure BDA0003960995030000121
剩余激活值需要乘以1/(1-p)进行放缩。假设在进行模型训练的时候未对y实行放缩操作,则在测试阶段需要对权重参数放缩,即:
Figure BDA0003960995030000122
步骤1024,采用正则优化法利用多个样本邮件的多个样本词向量分组对卷积神经网络模型进行训练。
具体的,一般情况下,模型为了尽可能覆盖所有的测试样本,会导致训练的模型过于复杂,在较小的区间内,数据稍有偏移,就导致函数值的变化很大,函数曲线变化剧烈,这样容易造成过拟合现像的产生。为了避免过拟合现像,在拟合过程中应尽量使权重参数小一些,增强函数的抗扰动性。
示例地,在误差函数中,L2正则化的加入可以抑制系数过大的问题。L2正则化本质是在误差项后添加一个惩罚项,用来加快权重参数的更新。即:
Figure BDA0003960995030000123
其中,L0表示某个样本的损失函数,
Figure BDA0003960995030000124
则是为该损失函数追加的L2正则化惩罚项,λ为正数,表示正则化参数,n表示上一层到输出层的权重参数个数,我们让L对某个要更新的权重参数wi求导,根据误差反响传播公式
Figure BDA0003960995030000125
我们得到加入L2正则化惩罚项后权重w的更新公式:
Figure BDA0003960995030000126
对上述推导得到的式子进行分析,括号中
Figure BDA0003960995030000127
这一项,η、λ、n都为正数,添加负号后为负数,对权重参数w的变化有一定的抑制作用,产生权重衰减,这样一来,假设输入数据的改变交大,但由于权重参数值较小,对于网络的输出就不会产生很大的影响,相反,权值比较大时,网络输出对于很小的输入就会产生敏感的改变,L2正则化能够减少训练样本中的噪音影响,使得模型既能适应大多数样本,又不至于因少数极端样本过拟合,模型效果鲁棒性增强。
图5是本发明实施例提供的邮件识别方法,具体包括以下步骤:
步骤501,对待识别邮件进行词向量提取得到多个待识别词向量,并将多个待识别词向量根据对应词语在待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及,步骤502,利用邮件识别模型,根据多个待识别词向量分组对待识别邮件是否为不合规邮件进行识别;其中邮件识别模型由本发明实施例中任一邮件识别模型训练方法训练得到。
本发明实施例能够利用前述步骤训练得到的邮件识别模型训练模型,对待识别邮件的不同文本内容,在卷积层采集变步长卷积运算,在池化层采取根据对应文本内容位置权重系数对每个卷积样本特征进行不同的池化操作,能够高效快速地对待识别邮件是否为不合规邮件进行识别分类。
图6是本发明实施例提供的邮件识别模型训练装置的一个结构图,该装置适用于执行本发明实施例提供的邮件识别模型训练方法。如图6所示,该装置具体可以包括:
样本词向量提取分组模块601,用于对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,能够利于利用所得到的多个样本邮件的词向量分组,对卷积神经网络模型进行训练。
具体的,考虑到合规邮件和不合规邮件的特征向量具有离散性的同时,其文本的不同位置信息对于模型的分类结果又有较大影响,根据位置对样本邮件的词向量进行分组,能够利于根据位置不同,对不同分组的词向量采用不同步长的卷积核进行卷积运算。
训练模块602,用于利用多个样本邮件的多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型训练模型,能够利于后续利用训练得到的邮件识别模型训练模型对待识别邮件是否为不合规邮件进行识别。
其中训练模块602包括:
变步长卷积运算子模块6021,用于对每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到每个样本邮件的多个卷积样本特征。
具体的,卷积层是卷积神经网络处理文本分类的核心部分,卷积核按照指定的步长在输入文本序列上滑动,与对应位置上的向量进行卷积运算,逐渐完成对输入样本所有文本序列的特征提取任务。在传统卷积神经网络中,一般把步长设为固定值。不同的文本内容对于模型的分类效果也会产生很大的影响,如何快速准确地发现对文本分类结果产生重要影响的词向量,成为提升模型分类效果的突破口。因此对模型进行训练的时候可采取在卷积层实行变步长卷积方式进行卷积操作。
具体的,可以对包含不合规词语的概率较高的样本词向量采取低步长移动,对包含不合规词语的概率较低的样本词向量采取高步长移动,这样就能够高效快速地完成文本特征的挖掘学习。
加权池化运算子模块6022,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的每个卷积样本特征的位置权重系数,对每个卷积样本特征进行加权池化运算。
具体的,当前常用的池化方式主要有最大池化操作、平均池化操作和k最大池化操作。最大池化操作、平均池化操作和k最大池化操作均没有考虑邮件文本中,位置信息对于邮件识别模型训练分类的影响效果。经分析,不合规邮件结构特征明显,不同位置的文本内容包含不合规信息的概率明显不同,因此本发明实施例将位置信息的权重考虑进卷积神经网络模型的池化操作过程中。
本发明实施例提供的邮件识别模型训练装置,可用于执行任一本发明实施例提供的邮件识别模型训练,在此不再赘述。
图7本发明实施例提供的邮件识别装置的一个结构图,该装置适用于执行本发明实施例提供的邮件识别方法。如图7示,该装置具体可以包括:
待识别词向量提取分组模块701,用于对待识别邮件进行词向量提取得到多个待识别词向量,并将多个待识别词向量根据对应词语在待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及识别模块702,用于利用邮件识别模型,根据多个待识别词向量分组对待识别邮件是否为不合规邮件进行识别;其中邮件识别模型由本发明实施例中任一邮件识别模型训练方法训练得到。
本发明实施例能够利用本发明实施例训练得到的邮件识别模型训练模型,对待识别邮件的不同文本内容,在卷积层采集变步长卷积运算,在池化层采取根据对应文本内容位置权重系数对每个卷积样本特征进行不同的池化操作,能够高效快速地对待识别邮件是否为不合规邮件进行识别分类。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例提供的邮件识别模型训练方法或者邮件识别方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的邮件识别模型训练方法或者邮件识别方法。
下面参考图8其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括样本词向量提取分组模块和训练模块或者一种处理器包括待识别词向量提取分组模块和识别模块。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种邮件识别模型训练方法,其特征在于,包括:
对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,其中每个样本词向量分组中包括一个或多个样本词向量;
利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型;以及
其中训练过程包括:对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到所述每个样本邮件的多个卷积样本特征;以及,
根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化运算。
2.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述每个样本邮件的多个样本词向量分组包括:起始样本词向量分组,中间样本词向量分组以及结尾样本词向量分组;
所述对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组的过程包括:
对每个样本邮件分别进行词向量提取得到每个样本邮件的多个样本词向量;以及
分别将对应词语位于所述每个样本邮件中的起始位置,中间位置,以及结尾位置的所述样本词向量,划分入所述起始样本词向量分组,所述中间样本词向量分组以及所述结尾样本词向量分组。
3.根据权利要求2所述的邮件识别模型训练方法,其特征在于,所述对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算的过程包括:
对所述起始样本词向量分组以及所述结尾样本词向量分组中的所述样本词向量,利用高步长卷积核的进行卷积运算;
对所述中间样本词向量分组中的所述样本词向量,利用低步长卷积核进行卷积运算。
4.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化操作运算的过程包括:
根据所述每个卷积样本特征对应的样本词向量与所述对应样本邮件的第一个样本词向量以及最后一个样本词向量的距离,计算得到每个卷积样本特征的所述位置权重系数。
5.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述训练过程还包括:
采用暂退优化法利用所述多个样本邮件的所述多个样本词向量分组对所述卷积神经网络模型进行训练;以及
采用正则优化法利用所述多个样本邮件的所述多个样本词向量分组对所述卷积神经网络模型进行训练。
6.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述对多个样本邮件中每个样本邮件分别进行词向量提取得到每个样本邮件的多个样本词向量的过程包括:
先后对所述每个样本邮件进行无关字符以及非法字符的过滤,分词以及停用词的去除,并利用词向量生成模型得到所述每个样本邮件的多个样本词向量。
7.一种邮件识别方法,其特征在于,包括:
对待识别邮件进行词向量提取得到多个待识别词向量,并将所述多个待识别词向量根据对应词语在所述待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及
利用邮件识别模型,根据所述多个待识别词向量分组对所述待识别邮件是否为不合规邮件进行识别;
其中所述邮件识别模型由如权利要求1-6任一所述邮件识别模型训练方法训练得到。
8.一种邮件识别模型训练装置,其特征在于,包括:
样本词向量提取分组模块,用于对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组;以及
训练模块,用于利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型;
其中训练模块包括:
变步长卷积运算子模块,用于对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到所述每个样本邮件的多个卷积样本特征;以及,
加权池化运算子模块,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化运算。
9.一种邮件识别装置,其特征在于,包括:
待识别词向量提取分组模块,用于对待识别邮件进行词向量提取得到多个待识别词向量,并将所述多个待识别词向量根据对应词语在所述待识别邮件中的位置进行分组,得到多个待识别词向量分组;以及
识别模块,用于利用邮件识别模型,根据所述多个待识别词向量分组对所述待识别邮件是否为不合规邮件进行识别;
其中所述邮件识别模型由如权利要求1-6任一所述邮件识别模型训练方法训练得到。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的邮件识别模型训练方法,或者如权利要求7所述的邮件识别方法。
CN202211483562.7A 2022-11-24 2022-11-24 一种邮件识别及模型训练方法、装置和设备 Pending CN115796266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211483562.7A CN115796266A (zh) 2022-11-24 2022-11-24 一种邮件识别及模型训练方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211483562.7A CN115796266A (zh) 2022-11-24 2022-11-24 一种邮件识别及模型训练方法、装置和设备

Publications (1)

Publication Number Publication Date
CN115796266A true CN115796266A (zh) 2023-03-14

Family

ID=85441104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211483562.7A Pending CN115796266A (zh) 2022-11-24 2022-11-24 一种邮件识别及模型训练方法、装置和设备

Country Status (1)

Country Link
CN (1) CN115796266A (zh)

Similar Documents

Publication Publication Date Title
US11270225B1 (en) Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
US20220108157A1 (en) Hardware architecture for introducing activation sparsity in neural network
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
WO2018105194A1 (en) Method and system for generating multi-relevant label
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN113536383B (zh) 基于隐私保护训练图神经网络的方法及装置
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
US11681922B2 (en) Performing inference and training using sparse neural network
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN116686017A (zh) 一种用于视频动作识别的时间瓶颈注意力体系结构
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
EP3620982B1 (en) Sample processing method and device
CN110489955B (zh) 应用于电子设备的图像处理、装置、计算设备、介质
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN114494747A (zh) 模型的训练方法、图像处理方法、装置、电子设备及介质
CN113919401A (zh) 基于星座图特征的调制类型识别方法、装置、计算机设备
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
CN111788582A (zh) 电子设备及其控制方法
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN115796266A (zh) 一种邮件识别及模型训练方法、装置和设备
CN112633394B (zh) 一种智能用户标签确定方法、终端设备及存储介质
CN115082598A (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
CN111523319B (zh) 基于情景lstm结构网络的微博情感分析方法
CN114359811A (zh) 数据鉴伪方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination