CN115086182A

CN115086182A - 邮件识别模型的优化方法、装置、电子设备及存储介质

Info

Publication number: CN115086182A
Application number: CN202210696543.6A
Authority: CN
Inventors: 林凯; 潘俊杰
Original assignee: Shenzhen Hengyang Data Co ltd
Current assignee: Shenzhen Hengyang Data Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-20
Anticipated expiration: 2042-06-20
Also published as: CN115086182B

Abstract

本申请涉及大数据技术领域，提供了一种邮件识别模型的优化方法、装置、电子设备及存储介质，其中，该方法包括：获取邮件识别模型对邮件样本的识别结果，以及用户对所述邮件样本的反馈结果，所述邮件识别模型用于根据所述邮件样本的第一编码特征确定所述识别结果，所述第一编码特征由所述邮件样本中的词语在预设的词袋库中的映射确定，所述词袋库包括至少两个短语；若所述识别结果与所述反馈结果不一致，则更新所述词袋库，得到更新后的词袋库；根据所述更新后的词袋库确定所述邮件样本的第二编码特征；根据所述第二编码特征优化所述邮件识别模型的参数；根据优化后的所述邮件识别模型的参数得到目标邮件识别模型。通过上述方法提高了识别准确率。

Description

邮件识别模型的优化方法、装置、电子设备及存储介质

技术领域

本申请属于网络安全技术领域和大数据技术领域，尤其涉及一种邮件识别模型的优化方法、装置、电子设备及存储介质。

背景技术

随着信息化时代的快速发展，电子邮件成为了人们交流的一种必备方式。电子邮件使用户可以以非常低廉的价格、非常快速的方式，与世界上任何一个角落的网络用户联系。同时电子邮件形式多样，包括图片、文字、音乐，用户可以通过电子邮件得到大量免费的新闻。可是，电子邮件在带来多样化信息的同时，也会带来大量垃圾信息，这些垃圾信息不仅占用通信带宽和网络的资源，而且会消耗用户的处理时间和邮箱内存。因此，检测出垃圾邮件成为一个迫切解决的问题。

当前，机器学习被广泛应用于垃圾邮件的检测，其中，传统的机器学习模型一般采用离线监督学习方式对已获取的标签数据进行训练得到合适的分类器，最后利用训练好的分类器识别垃圾邮件。

然而，传统的机器学习模型不能适用于用户个人特定的垃圾邮件评价标准。

发明内容

本申请提供了一种邮件识别模型的优化方法和装置，用于解决现有的机器学习模型不能适用于用户个人特定的垃圾邮件评价标准的问题。

本申请实施例的第一方面提供了一种邮件识别模型的优化方法，包括：

获取邮件识别模型对邮件样本的识别结果，以及用户对所述邮件样本的反馈结果，所述邮件识别模型用于根据所述邮件样本的第一编码特征确定所述识别结果，所述第一编码特征由所述邮件样本中的词语在预设的词袋库中的映射确定，所述词袋库包括至少两个短语；

若所述识别结果与所述反馈结果不一致，则更新所述词袋库，得到更新后的词袋库；

根据所述更新后的词袋库确定所述邮件样本的第二编码特征；

根据所述第二编码特征优化所述邮件识别模型的参数；

根据优化后的所述邮件识别模型的参数得到目标邮件识别模型。

上述方法可以由电子设备或者电子设备中的芯片执行。电子设备获取邮件识别模型对邮件样本的识别结果，接收用户对识别结果的反馈结果。当识别结果与反馈结果不一致时，说明邮件识别模型对邮件样本的识别标准与用户的垃圾邮件评价标准出现了偏差，继续使用该邮件识别模型识别邮件样本无法正确识别垃圾邮件，从而导致时间浪费，影响用户体验。此时，通过识别结果与反馈结果不一致的邮件样本更新预设的词袋库，由于每个用户都有特定的垃圾邮件评价标准，对识别结果的反馈也是不同的，根据用户的反馈结果更新预设的词袋库，可以得到适用于用户特定的垃圾邮件评价标准的更新后的词袋库。之后，再根据更新后的词袋库确定第二编码特征，通过第二编码特征优化邮件识别模型的参数，得到目标邮件识别模型，可以使目标邮件识别模型适用于用户特定的垃圾邮件评价标准。

可选地，所述更新所述词袋库，得到更新后的词袋库，包括：对所述邮件样本进行分词，根据分词结果生成至少两个候选短语；从所述至少两个候选短语中选出预设数量的目标短语，用所述目标短语替换所述词袋库中的短语，获得所述更新后的词袋库。

可选地，所述从所述至少两个候选短语中选出预设数量的目标短语，包括：根据所述邮件样本的总数量以及包括所述候选短语的邮件样本的第一数量，确定所述候选短语的第一特征；将所述候选短语拆分为至少两个词语，根据所述候选短语以及拆分后的词语在语料中出现的概率确定所述候选短语的第二特征，所述语料为所述总数邮件样本的词语集合；根据所述第一特征和所述第二特征确定所述候选短语的得分；根据所述候选短语的得分，从所述至少两个候选短语中选出预设数量的目标短语。

对所述邮件样本进行分词和第一特征、第二特征提取可以剔除其他字符并获得高质量的候选短语，避免低质量的候选短语影响优化邮件识别模型，提高了准确率。电子设备获取邮件样本的候选短语，并根据候选短语的第一特征和第二特征对候选短语进行质量评估。电子设备对候选短语的每个特征进行评分，根据特征融合方法将第一特征和第二特征合并成一个比第一特征以及第二特征更具有判别能力的特征，合理利用了每个特征，提高了精准度。根据候选短语的得分选出预设数量的目标短语替换词袋库中的短语，获得更新后的词袋库，更新后的词袋库更加符合用户特定的垃圾邮件评价标准。

可选地，所述邮件样本的总数量为至少两个，根据所述第二编码特征优化所述邮件识别模型的参数，包括：根据上一个所述邮件样本对应的推导系数确定当前所述邮件样本对应的参数；根据当前所述邮件样本对应的参数以及当前所述邮件样本的第二编码特征确定预测标签；根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的推导系数；循环执行上述步骤直到得到满足预设结束条件的推导系数，根据所述满足预设结束条件的推导系数确定邮件识别模型的参数。

根据第二编码特征确定预测标签充分利用了更新后的词袋库所对应的特征，对于垃圾邮件的识别更加准确。通过反馈结果确定推导系数，使获得的参数适用于用户特定的垃圾邮件评价标准。同时也能快速地进行参数调整，反馈线上的变化。循环执行获得推导系数的所有步骤直至获得满足预设结束的推导系数，执行次数越多，便越接近最优模型参数，预测的准确率也越高。

可选地，所述根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的推导系数，包括：根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的初始推导系数；根据当前所述邮件样本对应的更新后的词袋库更新所述初始推导系数，得到第二推导系数。

由于预设的词袋库进行了更新，导致特征空间发生了变化，之前所获得的推导系数已经不适用于计算邮件样本。因此，根据索引范围更新推导系数获得第二推导系数，从而提高精确度。

可选地，所述获取邮件识别模型对邮件样本的识别结果，包括：对所述邮件样本进行分词处理，获得所述邮件样本的词语集合；根据所述预设的词袋库以及所述词语集合确定所述第一编码特征；将所述第一编码特征输入所述邮件识别模型，得到所述邮件识别模型输出的识别结果。

可选地，所述对所述邮件样本进行分词处理，获得所述邮件样本的词语集合，包括：将所述邮件样本分为第一语种类型的字符和第二语种类型的字符；分别对所述第一语种类型的字符和所述第二语种类型的字符进行分词处理，获得所述邮件样本的词语集合。

本申请提供的邮件识别模型可以将邮件样本的字符分类从而分辨不同语种的邮件样本。根据预设的词袋库和词语集合确定第一编码特征，从而将问题抽象为数学问题，第一编码特征是数学语言，将第一编码特征输入邮件识别模型即把数值代入公式，获得预测值。第一编码特征也是已知的邮件样本信息，将已知的邮件样本信息输入邮件识别模型获得概率即预测值，此过程简单，可并行化，预测的准确率高。

本申请实施例的第二方面提供了一种邮件识别模型的优化装置，包括：

获取模块，用于获取邮件识别模型对邮件样本的识别结果，以及用户对所述邮件样本的反馈结果，所述邮件识别模型用于根据所述邮件样本的第一编码特征确定所述识别结果，所述第一编码特征由预设的词袋库确定；

更新模块，用于若所述识别结果与所述反馈结果不一致，则更新所述词袋库，得到更新后的词袋库；

确定模块，用于根据所述更新后的词袋库确定所述邮件样本的第二编码特征；

优化模块，用于根据所述第二编码特征优化所述邮件识别模型的参数；

接收模块，用于根据优化后的所述邮件识别模型的参数得到目标邮件识别模型。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的邮件识别模型的优化方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的邮件识别模型的优化方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的邮件识别模型的优化方法。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请一实施例提供的邮件识别模型的优化方法流程示意图；

图2是本申请一实施例提供的邮件识别模型的优化过程示意图；

图3是本申请一实施例提供的邮件识别模型的优化部分过程细化示意图；

图4是本申请一实施例提供的邮件识别模型的优化另一部分过程细化示意图；

图5是本申请一实施例提供的邮件识别模型的优化装置示意图；

图6是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的邮件识别模型的优化方法应用于电子设备，电子设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、个人数字助理(personal digital assistant，PDA)等终端设备，本申请实施例对电子设备的具体类型不作任何限制。

下面结合附图和具体实施例对本申请做进一步详细说明。

未经请求而发送的电子邮件被称为垃圾邮件，垃圾邮件占用内存，消耗带宽，严重影响了用户的使用体验。随着垃圾邮件的问题日益严重，出现了越来越多的方法检测拦截垃圾软件，然而，垃圾邮件的格式更加日新月异，以避免被检测拦截。传统的检测方法采用离线监督学习模式，离线监督学习模式需要耗费较大的经济代价，且不能适应不同用户的垃圾邮件评价标准，无法满足用户的个性化需求。

为此，本申请提出了一种邮件识别模型的优化方法，根据用户对邮件识别的识别结果的反馈，收集识别错误的邮件样本，通过该邮件样本更新词袋库。通过邮件样本映射更新后的词袋库获得编码特征，根据编码特征优化邮件识别模型，获得目标邮件识别模型。相对于传统的邮件识别模型，本申请提供的目标邮件识别模型是根据用户的反馈结果得到，从而可以实时对目标邮件识别模型进行调整，以适应用户特定的垃圾邮件标准，提高垃圾邮件拦截准确度，满足用户的个性化需求。

下面详细介绍本申请提供的邮件识别模型的优化方法。该方法可以由电子设备或者电子设备中的芯片执行，例如，当电子设备执行时，电子设备可以是集成了处理器的设备，也可以是与电子设备存在通信连接的手机、电脑等设备，本申请对执行该方法的电子设备的具体类型不做限定。如图1所示，该方法包括：

S101，获取邮件识别模型对邮件样本的识别结果，以及用户对所述邮件样本的反馈结果，所述邮件识别模型用于根据所述邮件样本的第一编码特征确定所述识别结果，所述第一编码特征由所述邮件样本中的词语在预设的词袋库中的映射确定，所述词袋库包括至少两个短语。

其中，邮件识别模型是一个概率估计模型(比如逻辑回归模型)，根据邮件样本确定第一编码特征，将第一编码特征输入邮件识别模型即可得到邮件识别模型输出的识别结果，识别结果可以是预测值(即概率)，若该预测值大于阈值(比如0.5)，则说明邮件样本为垃圾邮件；若该预测值小于阈值，则说明邮件样本为正常邮件。

第一编码特征由邮件样本中的词语集合在欧式空间映射预设的词袋库获得，词语集合是对邮件样本进行分词后得到的词语的集合。第一编码特征可以是one-hot编码特征。例如，词语集合为[中国，英国，日本]，预设的词袋为[中国，美国，法国，德国]，则第一编码特征为[1，0，0，0]，又比如，词语集合为[我，爱，爸爸]，预设的词袋为[我，爱，妈妈，爸爸]，则第一编码特征为[1，1，0，1]。

由于机器学习模型中特征之间距离或者相似度的计算十分重要，第一编码特征使特征之间的距离计算更加合理，从而提高预测的准确度。

可选地，获取邮件样本后，对所述邮件样本进行分词处理，获得所述邮件样本的词语集合；根据所述预设的词袋库以及所述词语集合确定所述第一编码特征；将所述第一编码特征输入所述邮件识别模型，得到所述邮件识别模型输出的识别结果。

可选地，对所述邮件样本进行分词处理，获得所述邮件样本的词语集合，包括：将所述邮件样本分为第一语种类型的字符和第二语种类型的字符；分别对所述第一语种类型的字符和所述第二语种类型的字符进行分词处理，获得所述邮件样本的词语集合。

可选地，根据邮件样本的字符特征(比如Unicode编码值)将邮件样本分为第一语种类型的字符和第二语种的字符，比如将邮件样本分为中文和英文，或者中文和非中文，可以满足用户对多种邮件识别的需求。对第一语种类型的字符和第二语种类型的字符分词处理可以通过在文本中的词与词之间自动加上空格或者其他边界标记。比如对于中文，可以使用jieba进行分词处理，使用jieba仅仅是本申请一个实施例，不会对本申请造成任何限制，也可以采用基于规则的分词方法。对于英文，由于英文单词天然有空格隔开，可以使用空格进行分词处理，最后获得分词后的词语集合。

作为一种可选的实施例，对邮件样本进行分词处理包括：通过python中的re模块剔除邮件样本中的数字和特殊字符，避免其影响后续自动识别语句含义。提取邮件样本中每个字符的Unicode编码值，若Unicode编码值在(\u4e00，\u9fa5)范围内，则为中文字符；若Unicode编码值在(\u4e00，\u9fa5)范围外，则为外文字符(阿拉伯语、英语和法语等)。

作为一种可选的实施例，将第一编码特征输入邮件识别模型，得到邮件识别模型输出的预测值，给预测值即为识别结果。其中，邮件识别模型可以是逻辑回归模型，具体公式如下：

其中，w为当前逻辑回归模型参数值，x为第一编码特征，p为预测值，若p大于阈值，则确定邮件样本为垃圾邮件，若p小于阈值，则确定邮件样本为正常邮件，例如，阈值为0.5，当p＝0.7时，判断邮件样本为垃圾邮件，当p＝0.4时，判断邮件样本为正常邮件，在一实施例中，可以将确定为垃圾邮件的邮件样本标记为1，将确定为正常邮件的邮件样本标记为0。

同时，电子设备还获取用户的反馈结果，用户的反馈结果为邮件样本是否为垃圾邮件。若用户的反馈结果与识别结果一致，说明识别结果正确，无需更改识别结果，若用户的反馈结果与识别结果不一致，说明识别结果错误，则更改识别结果

S102，若所述识别结果与所述反馈结果不一致，则更新所述词袋库，得到更新后的词袋库。

具体地，获取邮件样本中的高质量的目标短语并替换词袋库中的短语即可更新词袋库，以便后续检测拦截类似的垃圾邮件。

可选地，更新词袋库的过程包括：对所述邮件样本进行分词，根据分词结果生成至少两个候选短语；从所述至少两个候选短语中选出预设数量的目标短语，用所述目标短语替换所述词袋库中的短语，获得所述更新后的词袋库。

作为一种可选的实施例，对邮件样本分词即将邮件样本中的句子、段落、文章之类的长文体，分解为以字词为单位的数据结构，便于后续的处理分析工作。

候选短语根据分词后得到的字词确定。例如，对于中文邮件样本用jieba进行分词，对于外文邮件样本用空格分词，分词后根据“N-gram+文本规则”的方法选出候选短语，比如，[股价_n，创_v]中名词(n)后面接动词(v)因为不符合语法规则就不能被选为候选短语，而[阿里_ns,市值_n]中地名(ns)后面接名词符合语法规则可以被选为候选短语。

获得候选短语后，根据特定的选择标准对候选短语进行排名，根据排名选择预设数量的候选短语作为目标短语。

可选地，从候选短语中选出预设数量的目标短语包括：根据所述邮件样本的总数量以及包括所述候选短语的邮件样本的第一数量，确定所述候选短语的第一特征；将所述候选短语拆分为至少两个词语，根据所述候选短语以及拆分后的词语在语料中出现的概率确定所述候选短语的第二特征，所述语料为所述邮件样本总数的词语集合；根据所述第一特征和所述第二特征确定所述候选短语的得分；根据所述候选短语的得分，从所述至少两个候选短语中选出预设数量的目标短语。

作为一种可选的实施例，第一特征为IDF特征，根据如下公式确定候选短语的第一特征：

其中，u是候选短语，|D|是邮件样本的总数量；|{j:u∈d_j}|表示第一数量；δ表示非零正整数。

第二特征为PMI特征，根据如下公式确定候选短语的第二特征：

其中，u是候选短语，由u_l和u_r两部分组成，u_l是左部分，u_r是右部分，左部分和右部分根据词义进行拆分，例如，候选短语u为“中国人民”，其中，u_l是“中国”，u_r是“人民”。p(u)、p(u_l)和p(u_r)分别表示短语u、u_l和u_r在语料中出现的概率。获得每个候选短语的IDF特征和PMI特征后，对其进行特征融合，根据如下公式：

IDF-PMI(u)＝0.5IDF(u)+0.5PMI(u_l,u_r)

获得每个候选短语的得分，其中IDF-PMI(u)为候选短语的得分，该公式充分利用第一特征和第二特征，根据两者的重要性程度分配相应的权重来计算得分。

获得得分后根据候选短语的得分高低进行排名，根据排名选择预设数量的候选短语作为目标短语。候选短语的得分代表了候选短语的质量，得分越高的候选短语质量越高。

得到目标短语后，比对目标短语与预设的词袋库，若某一目标短语不存在于预设的词袋库，则将该目标短语按照预设的词袋库中的短语排列顺序替代预设的词袋库中的短语。具体地，从预设的词袋库的第一个词语开始替代，每次更新依次替代下一个词语，获得更新后的词袋库，始终保存词袋库中的短语数量不变。

例如，从候选短语中选出100个目标短语，第50到第70个目标短语不存在于预设的词袋库，则从预设的词袋库第50个目标短语替代预设的词袋库的第一个词语，第51个目标短语替代预设的词袋库的第二个词语，每次更新依此替代下一个词语，直至替代第70个目标短语结束，始终保存词袋库中的短语数量为5000。

根据邮件样本的总数量以及包括候选短语的邮件样本的第一数量获得的候选短语的第一特征、根据候选短语以及拆分后的词语在语料中出现的概率获得候选短语的第二特征是统计特征，对于邮件样本，研究组成邮件样本的每个词语效果并不显著，而考察与它们相联系的统计特征效率更高，因此，将第一特征和第二特征进行特征融合来计算候选短语的得分，能够更好的筛选出目标短语，进而得到更新后的词袋库。

S103，根据所述更新后的词袋库确定所述邮件样本的第二编码特征。

由于对词袋库进行了更新使词袋库发生变化，导致邮件样本对词袋库映射获得的编码特征发生了变化，邮件样本对映射更新后的词袋库获得的编码特征即为第二编码特征。

例如，预设的词袋库为[我，爱，爸爸，妈妈]，邮件样本的词语集合为[我，爱，爸爸]，更新后的词袋库为[我，爱，爷爷，奶奶]，则第二编码特征为[1，1，0，0]。

S104，根据所述第二编码特征优化所述邮件识别模型的参数。

具体地，将第二编码特征输入邮件识别模型，得到邮件识别模型输出的识别结果，根据识别结果与用户对邮件样本的反馈结果之间的差异优化邮件识别模型的参数。

在一实施例中，将第二编码特征输入在线学习算法从而优化邮件识别模型的参数。

具体的，该邮件识别模型的模型参数的优化过程为：

对于T个邮件样本中其中一个邮件样本t，

邮件样本t的第二编码特征为x_t＝(x₁，x₂，，，，x_i，，，，x_m)，m表示第二编码特征的维数，设定I＝{i|x_i≠0}，该公式表示取第二编码特征x_t中不为零的元素x_i组成集合I；

设定超参数α,β,λ₁,λ₂，超参数可以是根据经验获得的最优参数，使损失函数尽可能地小，损失函数是用来度量模型的预测值与真实值的差异程度的运算函数；

对于任意i∈I：

确定上一个邮件样本的推导系数z_i，n_i，(若t＝1，则z_i＝0，n_i＝0，若t≠1，则根据上一个邮件样本的计算结果得到z_i，n_i)；

根据公式

计算w_t,i，之后，通过公式

其中，x_t为第二编码特征，而w表示当前邮件样本对应的邮件识别模型的参数w_t,i组成的向量，x_t的特征维数数量与w的元素数量相同，p_t表示当前邮件样本对应的预测标签，若p_t大于阈值(比如0.5)，则表示当前邮件样本对应的预测结果为垃圾邮件，若p_t小于阈值(比如0.5)，则表示当前邮件样本对应的预测结果为正常邮件。

之后，根据公式g_i＝(p_t-y_t)x_i计算梯度，其中，g_i表示梯度，y_t∈{0,1}，y_t表示真实标签，y_t根据用户对当前邮件样本的反馈结果确定，若反馈结果为垃圾邮件，则y_t＝1，若反馈结果为正常邮件，则y_t＝0；

获得梯度g_i后，将g_i代入

获得学习速率σ_i；

根据公式z_i+g_i-σ_iw_t,i计算第一数值，根据公式

计算第二数值，

在一实施例中，可以将第一数值赋值给推导系数z_i，将第二数值赋值给推导系数n_i，获得当前邮件样本对应的推导系数z_i，n_i。

在另一实施例中，在得到第一数值和第二数值后，将第一数值和第二数值作为当前邮件样本的初始推导系数，

之后再根据当前邮件样本对应的更新后的词袋库更新所述初始推导系数和初始参数，得到第二推导系数。

具体地，由于每个邮件样本对应的邮件识别模型的识别结果与反馈结果不一致，因此，每个邮件样本对应的更新后的词袋库不一致，因此，在得到第一数值和第二数值后，根据更新后的词袋库确定索引范围，根据索引范围以及第一数值、第二数值确定当前邮件样本对应的推导系数

根据如下公式确定当前邮件样本对应的推导系数：

Index表示此轮词袋更新的目标短语的索引范围，例如词袋库中短语的个数为5000，则整个词袋库的索引范围为[0,4999]，若对词袋库中的第100个词到第200个词进行了更新，则索引范围为[100,200]。z_i，n_i分别表示第一数值和第二数值；

之后，对于邮件样本t+1，采用上述方法用邮件样本t对应的推导系数z_i，n_i，计算邮件样本t+1的参数w_t+1以及邮件样本t+1的推导系数z_i，n_i；

采用此种方法依次对T个邮件样本进行处理，得到最后一个邮件样本对应的参数w_T，通过公式(1)和参数w_T计算第二轮第一个邮件样本的预测值，并接收用户反馈结果获得该邮件样本对应的真实标签，将上一轮最后一个邮件样本获得的推导系数代入公式(2)获得的参数作为第二轮第一个邮件样本对应的参数，通过该参数获得第二轮第一个邮件样本对应的预测标签，根据预测标签和真实标签确定第二轮第一个邮件样本对应的推导系数，依此类推，获得第二轮中最后一个邮件样本对应的参数。对T个邮件样本采用上述更新推导系数和参数的方法迭代计算获得新一轮的模型参数，直到达到预设次数，最后得到w_D，将最后一轮获得w_D的输出作为优化后的邮件识别模型参数。

用户反馈结果越多，用于优化邮件识别模型的参数的邮件样本越多，更新次数越多，邮件识别模型便越接近于最优模型。

S105，根据优化后的所述邮件识别模型的参数得到目标邮件识别模型。

优化后的邮件识别模型的参数基于获取到的用户反馈结果优化获得，能够更好地符合用户特定的邮件识别标准，从而提高识别垃圾邮件的准确度。

为了便于理解，下面结合图2、图3、图4和图5对本申请提供的邮件识别模型的优化方法的整体流程进行示例性说明。如图2所示，本申请的邮件识别模型的优化方法包括如下步骤：

根据邮件样本获得第一编码特征，首先获得词语集合，详细步骤如图3所示，对邮件样本预处理以剔除特殊字符，之后，提取预处理后的邮件样本的Unicode编码，若Unicode编码值位于预设范围内，则判定为中文，利用jieba进行分词处理；若Unicode编码值位于预设范围外，则判定为英文，利用空格进行分词处理，获得词语集合。通过词语集合映射预设的词袋库获得第一编码特征，将第一编码特征输入邮件识别模型获得识别结果，获取用户对识别结果的反馈结果，若根据反馈结果为正常邮件，则说明邮件识别模型无需进行更新，若反馈结果为垃圾邮件则说明邮件识别模型识别错误，需要进行更新。

收集识别错误的邮件样本，选取目标短语，详细步骤如图4所示，对邮件样本语料分词处理获得候选短语，通过文本特征选取方法获得第一特征和第二特征，对第一特征和第二特征融合确定候选短语的得分，根据得分高低对候选短语进行排名，选取预设排名的候选短语作为目标短语。

如图2所示，在确定目标短语后，用目标短语替换词袋库中的短语获得更新后的词袋库。通过邮件样本映射更新后的词袋库获得第二编码特征，根据第二编码特征优化邮件识别模型的参数，对邮件识别模型进行更新获得目标邮件识别模型。

相比于常规的邮件识别方法，图2所示的方法可以利用Unicode编码来高效识别多语种邮件。通过对邮件样本的第一特征和第二特征融合得分并排名，获得垃圾邮件对应的高质量词语从而更新词袋库。在特征空间不断变化的情景下，常规方法无法满足需求，精度下降，而本方法对常规方法进行改进，重置参数和推导系数，解决了特征空间不断变化的问题，保证了精度。本方法的邮件识别模型计算简单，可以快速识别垃圾邮件。此外，将新颖的垃圾邮件反馈从而优化模型参数，获得目标邮件识别模型，是一个反馈-优化闭环系统。

上述方法除了应用于邮件识别模型的优化以外，还可以应用于其他需要识别骚扰信息的应用场景，例如骚扰短信，推销广告等，本申请对邮件识别模型的优化的应用场景不作具体限制。

图5是本申请提供的一种邮件识别模型的优化装置的结构示意图。邮件识别模型的优化装置500包括获取模块、更新模块、确定模块、优化模块、接收模块。

所述获取模块501用于：获取邮件识别模型对邮件样本的识别结果，以及用户对所述邮件样本的反馈结果，所述邮件识别模型用于根据所述邮件样本的第一编码特征确定所述识别结果，所述第一编码特征由预设的词袋库确定；

所述更新模块502用于：若所述识别结果与所述反馈结果不一致，则更新所述词袋库，得到更新后的词袋库；

所述确定模块503用于：根据所述更新后的词袋库确定所述邮件样本的第二编码特征；

所述优化模块504用于：根据所述第二编码特征优化所述邮件识别模型的参数；

所述接收模块505用于：根据优化后的所述邮件识别模型的参数得到目标邮件识别模型。

进一步地，所述获取模块501具体用于：

所述获取邮件识别模型对邮件样本的识别结果，包括：

对所述邮件样本进行分词处理，获得所述邮件样本的词语集合；

根据所述预设的词袋库以及所述词语集合确定所述第一编码特征；

将所述第一编码特征输入所述邮件识别模型，得到所述邮件识别模型输出的识别结果。

进一步地，所述获取模块501还用于：

对所述邮件样本进行分词处理，获得所述邮件样本的词语集合，包括：

将所述邮件样本分为第一语种类型的字符和第二语种类型的字符；

分别对所述第一语种类型的字符和所述第二语种类型的字符进行分词处理，获得所述邮件样本的词语集合。

进一步地，所述更新模块502具体用于：

所述更新所述词袋库，得到更新后的词袋库，包括：

对所述邮件样本进行分词，根据分词结果生成至少两个候选短语；

从所述至少两个候选短语中选出预设数量的目标短语，用所述目标短语替换所述词袋库中的短语，获得所述更新后的词袋库。

进一步地，所述更新模块502还用于：

根据所述邮件样本的总数量以及包括所述候选短语的邮件样本的第一数量，确定所述候选短语的第一特征；

将所述候选短语拆分为至少两个词语，根据所述候选短语以及拆分后的词语在语料中出现的概率确定所述候选短语的第二特征，所述语料为所述邮件样本总数的词语集合；

根据所述第一特征和所述第二特征确定所述候选短语的得分；

根据所述候选短语的得分，从所述至少两个候选短语中选出预设数量的目标短语。

进一步地，所述优化模块504具体用于：

根据上一个所述邮件样本对应的推导系数确定当前所述邮件样本对应的参数；

根据当前所述邮件样本对应的参数以及当前所述邮件样本的第二编码特征确定预测标签；

根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的推导系数；

循环执行上述步骤直到得到满足预设结束条件的推导系数，根据所述满足预设结束条件的推导系数确定邮件识别模型的参数。

进一步地，所述优化模块504还用于：

根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的初始推导系数；

根据当前所述邮件样本对应的更新后的词袋库更新所述初始推导系数，得到第二推导系数。

邮件识别模型的优化装置500执行邮件识别模型的优化方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

图6是本申请实施例提供的电子设备的结构示意图。

如图6所示，该实施例的电子设备包括：处理器11、存储器12以及存储在所述存储器12中并可在所述处理器11上运行的计算机程序13。所述处理器11执行所述计算机程序13时实现上述邮件识别模型的优化方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器11执行所述计算机程序13时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块501至模块505的功能。

示例性的，所述计算机程序13可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器11执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序13在所述电子设备中的执行过程。

本领域技术人员可以理解，图6仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器12可以是所述电子设备的内部存储单元，例如电子设备的硬盘或内存。所述存储器12也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器12还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器12用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器12还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种邮件识别模型的优化方法，其特征在于，包括：

根据所述第二编码特征优化所述邮件识别模型的参数；

2.根据权利要求1所述的邮件识别模型的优化方法，其特征在于，所述更新所述词袋库，得到更新后的词袋库，包括：

3.根据权利要求2所述的邮件识别模型的优化方法，其特征在于，所述从所述至少两个候选短语中选出预设数量的目标短语，包括：

将所述候选短语拆分为至少两个词语，根据所述候选短语以及拆分后的词语在语料中出现的概率确定所述候选短语的第二特征，所述语料为根据所述邮件样本所得到的语句或词语；

4.根据权利要求1所述的邮件识别模型的优化方法，其特征在于，所述邮件样本的总数量为至少两个，根据所述第二编码特征优化所述邮件识别模型的参数，包括：

5.根据权利要求4所述的邮件识别模型的优化方法，其特征在于，所述根据所述预测标签与当前所述邮件样本对应的所述反馈结果确定当前所述邮件样本对应的推导系数，包括：

6.根据权利要求1所述的一种邮件识别模型的优化方法，其特征在于，所述获取邮件识别模型对邮件样本的识别结果，包括：

7.根据权利要求5所述的一种邮件识别模型的优化方法，其特征在于，所述对所述邮件样本进行分词处理，获得所述邮件样本的词语集合，包括：

8.一种邮件识别模型的优化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。