CN117633659B

CN117633659B - 一种基于计算机的邮件分类方法及装置

Info

Publication number: CN117633659B
Application number: CN202410104732.9A
Authority: CN
Inventors: 谢珊; 张晓林; 廖柯玉; 程钰; 张艳丽; 苏鑫; 苟赞盈; 杨金桥
Original assignee: Chengdu Vocational and Technical College of Industry
Current assignee: Chengdu Vocational and Technical College of Industry
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-04-26
Anticipated expiration: 2044-01-25
Also published as: CN117633659A

Abstract

本发明涉及一种基于计算机的邮件分类方法及装置，包括以下步骤：对原始邮件文本进行数据处理，得到精化后的邮件文本；将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。本发明能够可以帮助用户快速准确地筛选和管理大量的电子邮件，节省了人工处理邮件的时间和成本，提高了工作效率。

Description

一种基于计算机的邮件分类方法及装置

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种基于计算机的邮件分类方法及装置。

背景技术

邮件分类是指将大量的电子邮件按照一定的标准和规则进行分类、筛选和管理的过程。邮件分类通常基于邮件的内容、来源、主题等信息，将邮件分为垃圾邮件、广告邮件、工作邮件、个人邮件等不同的类型。

在现有技术中，传统的邮件分类方法多依赖于规则和人工判断，这种通过人工对邮件进行分类的方法效率低且错误率较高，无法满足人们对快速自动化处理的需求。

随着电子邮件数量的大幅度增长，如何高效地对邮件进行分类、筛选已经成为一个亟待解决的问题。

发明内容

为了现有技术存在的上述技术缺陷，本发明提供了一种基于计算机的邮件分类方法及装置，可以有效解决背景技术中的问题。

为了解决上述技术问题，本发明提供的技术方案具体如下：

本发明公开了一种基于计算机的邮件分类方法，包括以下步骤：

对原始邮件文本进行数据处理，得到精化后的邮件文本；

将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；

构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；

对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；

将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。

在上述任一方案中优选的是，所述对原始邮件文本进行数据处理，得到精化后的邮件文本，包括以下步骤：

将原始邮件文本中尖括号内的文本和除文字外的符号删除；

通过字符串操作函数将原始邮件文本中的字母转化为小写形式；

将停用词存储在一个列表中生成停用词列表，并遍历原始邮件文本中的单词，将符合停用词列表的单词进行删除；

将原始邮件文本中的单词进行还原或缩减，提取每个单词的词干，以得到精化后的邮件文本。

在上述任一方案中优选的是，所述将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据，包括以下步骤：

通过公式：，计算每个单词在当前文档中出现的频率tf(w, d)，其中，n _w,d为单词w在文档d中出现的次数，|d|为文档d中单词的总数；

通过公式：，计算每个单词在所有文档中出现的文档频率idf(w,D)，其中，N为文档总数，n _w 为包含单词w的文档数量；

依据tf(w,d)和idf(w,D)，并通过公式：

，对每个单词分配权重，得到文本的特征向量，其中，|d|为文档d中单词的总数，n _w,d为单词w在文档d中出现的次数，n _w 为包含单词w的文档数量，N为文档总数。

在上述任一方案中优选的是，所述构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：

输入有标签的样本邮件数据和对应的标签；

构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型。

在上述任一方案中优选的是，所述构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型，包括以下步骤：

设置训练数据中待分类邮件的特征向量为D _new，通过公式：，计算先验概率P(C)，其中，N为训练数据中的样本数，C为类别，C _i为训练数据中第i个样本；

建立贝叶斯网络，并通过公式：

，计算待分类邮件在给定类别C下出现的概率P(D|C)，其中，Pa _j为第j个特征在贝叶斯网络的父节点集合，M为特征的个数，F _j为第j个特征的取值，I(F _j,C)为第j个特征是否与类别C有关；

通过公式：，求解后验概率P(C|D)，其中，K为类别总数， />为所有类别下待分类邮件在给定类别C下出现的新的概率；

比较不同类别下的后验概率，将概率最大的类别作为待分类邮件的预测类别。

在上述任一方案中优选的是，在所述通过公式：

，计算待分类邮件在给定类别C下出现的概率P(D|C)中，

，式中，p(f _j,c)为特征F _j 和类别C同时出现的概率，p(fj)和p(c)分别为特征F _j 和类别C单独出现的概率；

若I(F _j,C)=1，则表示第j个特征与类别C有关；

若I(F _j,C)=0，则表示第j个特征与类别C无关。

在上述任一方案中优选的是，所述对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化，包括以下步骤：

通过公式：，计算邮件分类模型的准确率，其中TP为真正例的数量，TN为真负例的数量，FP为假正例的数量，FN为假负例的数量；

通过公式：，计算邮件分类模型的召回率，其中TP为真正例的数量，TN为真负例的数量，FN为假负例的数量；

通过公式：，计算邮件分类模型的精度，其中TP为真正例的数量，TN为真负例的数量，FP为假正例的数量；

通过公式：δ=(λ ₁*Accuracy)³+(λ ₂*Recall)²+λ ₃*Precision，计算邮件分类模型的评价值δ，其中λ ₁为准确率权重、λ ₂为召回率权重，λ ₃为精度权重；

设置评价值阈值δ ₀，若δ ₀≤δ，则评估邮件分类模型良好，若δ ₀>δ，则评估邮件分类模型不良好。

在上述任一方案中优选的是，所述若δ ₀>δ，则评估邮件分类模型不良好，包括：

若评估邮件分类模型不良好，则通过优化函数：

，对邮件分类模型进行优化；其中α和λ为邮件分类模型中分类算法的超参数，F1-score(model _α,λ,X,Y)为在给定超参数的情况下，使用训练数据X和标签Y训练出的模型model _α,λ的F1-score。

在上述任一方案中优选的是，所述通过优化函数：

，对邮件分类模型进行优化，包括：优化函数将F1-score作为损失函数，并通过梯度下降法进行求解。

第二方面，一种基于计算机的邮件分类装置，所述装置包括：

处理模块，用于对原始邮件文本进行数据处理，得到精化后的邮件文本；

转换模块，用于将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；

训练模块，用于构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；

评估模块，用于对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；

分类模块，用于将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。

与现有技术相比，本发明的有益效果：

本发明提供的基于计算机的邮件分类方法，能够可以帮助用户快速准确地筛选和管理大量的电子邮件，节省了人工处理邮件的时间和成本，提高了工作效率。

附图说明

附图用于对本发明的进一步理解，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是本发明基于计算机的邮件分类方法的流程图；

图2是本发明基于计算机的邮件分类装置的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了更好地理解上述技术方案，下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。

如图1所示，本发明提供了一种基于计算机的邮件分类方法，包括以下步骤：

步骤1，对原始邮件文本进行数据处理，得到精化后的邮件文本；

步骤2，将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；

步骤3，构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；

步骤4，对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；

步骤5，将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。

在本发明实施例所述的基于计算机的邮件分类方法中，通过步骤1中的数据处理，可以去除原始邮件文本中的垃圾信息、HTML标签、特殊字符、重复字词等无用信息，并对剩余信息进行分词、去停用词、词干化等处理，从而提高分类模型的准确性和泛化能力；

通过步骤2中的特征向量化，可以将经过精化处理的邮件文本转换为邮件特征向量，即将文本中的每个词看作一个独立的特征，对出现频次进行统计，得到一个特征向量表示该文本，这样可以消除邮件文本长度不同、内容差异较大的问题；

通过步骤3中的模型训练，通过收集大量的样本邮件数据，构建邮件分类模型，并对其进行训练，从而可以实现对未知邮件进行自动分类；

通过步骤4中的模型评估，可以对邮件分类模型进行评估，可以采用准确率、召回率、F1值、ROC曲线等指标来衡量模型的分类效果，评估结果可以帮助优化模型，提高分类效果；

通过步骤5中的模型应用，可以将优化后的邮件分类模型应用于实际任务中，对输入的邮件特征向量进行分类，输出该邮件所属类别，这样可以实现对大量未知邮件的自动分类，方便用户进行筛选和管理。

综上所述，这些步骤相互衔接，构成一个完整的邮件分类方法，可以帮助用户快速准确地筛选和管理大量的电子邮件，节省了人工处理邮件的时间和成本，提高了工作效率，例如可以利用基于计算机的邮件分类方法来将垃圾邮件归类到垃圾箱中，将重要邮件归类到收件箱中，对邮件进行自动标记等操作，从而实现对邮件的智能化管理。

具体的，所述步骤1，对原始邮件文本进行数据处理，得到精化后的邮件文本，包括以下步骤：

步骤11，将原始邮件文本中尖括号内的文本和除文字外的符号删除；

步骤12，通过字符串操作函数将原始邮件文本中的字母转化为小写形式；

步骤13，将停用词存储在一个列表中生成停用词列表，并遍历原始邮件文本中的单词，将符合停用词列表的单词进行删除；

步骤14，将原始邮件文本中的单词进行还原或缩减，提取每个单词的词干，以得到精化后的邮件文本。

具体的，所述步骤2，将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据，包括以下步骤：

步骤21，通过公式：，计算每个单词在当前文档中出现的频率tf(w,d)，其中，n _w,d为单词w在文档d中出现的次数，|d|为文档d中单词的总数；

步骤22，通过公式：，计算每个单词在所有文档中出现的文档频率idf(w,D)，其中，N为文档总数，n _w 为包含单词w的文档数量；

步骤23，依据tf(w,d)和idf(w,D)，并通过公式：

具体的，所述步骤3，构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：

步骤31，输入有标签的样本邮件数据和对应的标签；

步骤32，构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型。

进一步的，所述步骤32，构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型，包括以下步骤：

步骤321，设置训练数据中待分类邮件的特征向量为D _new，通过公式：

，计算先验概率P(C)，其中，N为训练数据中的样本数，C为类别，C _i为训练数据中第i个样本；

步骤322，建立贝叶斯网络，并通过公式：

步骤323，通过公式：，求解后验概率P(C|D)，其中，K为类别总数， />为所有类别下待分类邮件在给定类别C下出现的新的概率；

步骤324，比较不同类别下的后验概率，将概率最大的类别作为待分类邮件的预测类别。

更进一步的，在所述通过公式：

，计算待分类邮件在给定类别C下出现的概率P(D|C)中，

若I(F _j,C)=1，则表示第j个特征与类别C有关；

若I(F _j,C)=0，则表示第j个特征与类别C无关。

具体的，所述步骤4，对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化，包括以下步骤：

步骤41，通过公式：，计算邮件分类模型的准确率，其中TP为真正例的数量，TN为真负例的数量，FP为假正例的数量，FN为假负例的数量；

步骤42，通过公式：，计算邮件分类模型的召回率，其中TP为真正例的数量，TN为真负例的数量，FN为假负例的数量；

步骤43，通过公式：，计算邮件分类模型的精度，其中TP为真正例的数量，TN为真负例的数量，FP为假正例的数量；

步骤44，通过公式：δ=(λ ₁*Accuracy)³+(λ ₂*Recall)²+λ ₃*Precision，计算邮件分类模型的评价值δ，其中λ ₁为准确率权重、λ ₂为召回率权重，λ ₃为精度权重；

步骤45，设置评价值阈值δ ₀，若δ ₀≤δ，则评估邮件分类模型良好，若δ ₀>δ，则评估邮件分类模型不良好。

在本发明实施例所述的基于计算机的邮件分类方法中，真正例TP表示：邮件分类模型正确地预测该样本为“正例”，且实际情况该样本也为“正例”。

真负例TN表示：邮件分类模型正确地预测该样本为“负例”，且实际情况该样本也为“负例”。

假正例FP表示：邮件分类模型错误地将该样本预测为“正例”，但实际情况该样本为“负例”。

假负例，FN表示：邮件分类模型错误地将该样本预测为“负例”，但实际情况该样本为“正例”。

具体的，所述若δ ₀>δ，则评估邮件分类模型不良好，包括：

若评估邮件分类模型不良好，则通过优化函数：

，对邮件分类模型进行优化；其中α和λ为邮件分类模型中分类算法的超参数，F1-score(model _α,λ,X,Y)为在给定超参数的情况下，使用训练数据X和标签Y训练出的模型model _α,λ的F1-score：

如图2所示，本发明还提供了一种基于计算机的邮件分类装置，所述装置包括：

与现有技术相比，本发明提供的有益效果是：

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于计算机的邮件分类方法，其特征在于：包括以下步骤：

对原始邮件文本进行数据处理，得到精化后的邮件文本；

构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：

输入有标签的样本邮件数据和对应的标签；

构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型，包括以下步骤：

设置训练数据中待分类邮件的特征向量为D_new，通过公式：，计算先验概率P(C)，其中，N为训练数据中的样本数，C为类别，i为训练数据中第i个样本；

建立贝叶斯网络，并通过公式：，计算待分类邮件在给定类别C下出现的概率P(D|C)，其中，Pa _j为第j个特征再贝叶斯网络的父节点集合，M为特征的个数，F _j为第j个特征的取值，I(F _j,C)为第j个特征是否与类别C有关；

通过公式：，求解后验概率P(C|D)，其中，K为类别总数，/>为所有类别下待分类邮件Dnew的概率；

，式中，p(f _j,c)为特征F _j 和类别C同时出现的概率，p(c)和p(c)分别为特征F _j 和类别C单独出现的概率；

若I(F _j,C)=1，则表示第j个特征与类别C有关；

若I(F _j,C)=0，则表示第j个特征与类别C无关；

比较不同类别下的后验概率，将概率最大的类别作为待分类邮件的预测类别；

2.根据权利要求1所述的基于计算机的邮件分类方法，其特征在于：所述对原始邮件文本进行数据处理，得到精化后的邮件文本，包括以下步骤：

将原始邮件文本中尖括号内的文本和除文字外的符号删除；

3.根据权利要求2所述的基于计算机的邮件分类方法，其特征在于：所述将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据，包括以下步骤：

通过公式：，计算每个单词在当前文档中出现的频率tf(w,d)，其中，n _w,d为单词w在文档d中出现的次数，|d|为文档d中单词的总数；

依据tf(w,d)和idf(w,D)，并通过公式：

4.根据权利要求3所述的基于计算机的邮件分类方法，其特征在于：所述对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化，包括以下步骤：

通过公式：，计算邮件分类模型的召回率，其中TP为真实例的数量，TN为真负例的数量，FN为假负例的数量；

通过公式：，计算邮件分类模型的精度，其中TP为真实例的数量，TN为真负例的数量，FP为假正例的数量；

5.根据权利要求4所述的基于计算机的邮件分类方法，其特征在于：所述若δ ₀>δ，则评估邮件分类模型不良好，包括：

若评估邮件分类模型不良好，则通过优化函数：

6.根据权利要求5所述的基于计算机的邮件分类方法，其特征在于：所述通过优化函数：

7.一种基于计算机的邮件分类装置，其特征在于：所述装置包括：

训练模块，用于构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；所述构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：

输入有标签的样本邮件数据和对应的标签；

通过公式：，求解后验概率P(C|D)，其中，K为类别总数， />为所有类别下待分类邮件Dnew的概率；

若I(F _j,C)=1，则表示第j个特征与类别C有关；

若I(F _j,C)=0，则表示第j个特征与类别C无关；