CN117633659B - 一种基于计算机的邮件分类方法及装置 - Google Patents
一种基于计算机的邮件分类方法及装置 Download PDFInfo
- Publication number
- CN117633659B CN117633659B CN202410104732.9A CN202410104732A CN117633659B CN 117633659 B CN117633659 B CN 117633659B CN 202410104732 A CN202410104732 A CN 202410104732A CN 117633659 B CN117633659 B CN 117633659B
- Authority
- CN
- China
- Prior art keywords
- classification model
- feature
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013145 classification model Methods 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000007635 classification algorithm Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于计算机的邮件分类方法及装置,包括以下步骤:对原始邮件文本进行数据处理,得到精化后的邮件文本;将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。本发明能够可以帮助用户快速准确地筛选和管理大量的电子邮件,节省了人工处理邮件的时间和成本,提高了工作效率。
Description
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种基于计算机的邮件分类方法及装置。
背景技术
邮件分类是指将大量的电子邮件按照一定的标准和规则进行分类、筛选和管理的过程。邮件分类通常基于邮件的内容、来源、主题等信息,将邮件分为垃圾邮件、广告邮件、工作邮件、个人邮件等不同的类型。
在现有技术中,传统的邮件分类方法多依赖于规则和人工判断,这种通过人工对邮件进行分类的方法效率低且错误率较高,无法满足人们对快速自动化处理的需求。
随着电子邮件数量的大幅度增长,如何高效地对邮件进行分类、筛选已经成为一个亟待解决的问题。
发明内容
为了现有技术存在的上述技术缺陷,本发明提供了一种基于计算机的邮件分类方法及装置,可以有效解决背景技术中的问题。
为了解决上述技术问题,本发明提供的技术方案具体如下:
本发明公开了一种基于计算机的邮件分类方法,包括以下步骤:
对原始邮件文本进行数据处理,得到精化后的邮件文本;
将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;
对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
在上述任一方案中优选的是,所述对原始邮件文本进行数据处理,得到精化后的邮件文本,包括以下步骤:
将原始邮件文本中尖括号内的文本和除文字外的符号删除;
通过字符串操作函数将原始邮件文本中的字母转化为小写形式;
将停用词存储在一个列表中生成停用词列表,并遍历原始邮件文本中的单词,将符合停用词列表的单词进行删除;
将原始邮件文本中的单词进行还原或缩减,提取每个单词的词干,以得到精化后的邮件文本。
在上述任一方案中优选的是,所述将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据,包括以下步骤:
通过公式: ,计算每个单词在当前文档中出现的频率tf(w, d),其中,n w,d 为单词w在文档d中出现的次数,|d|为文档d中单词的总数;
通过公式: ,计算每个单词在所有文档中出现的文档频率idf(w,D),其中,N为文档总数,n w 为包含单词w的文档数量;
依据tf(w,d)和idf(w,D),并通过公式:
,对每个单词分配权重,得到文本的特征向量,其中,|d|为文档d中单词的总数,n w,d 为单词w在文档d中出现的次数,n w 为包含单词w的文档数量,N为文档总数。
在上述任一方案中优选的是,所述构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:
输入有标签的样本邮件数据和对应的标签;
构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型。
在上述任一方案中优选的是,所述构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:
设置训练数据中待分类邮件的特征向量为D new ,通过公式: ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,C i 为训练数据中第i个样本;
建立贝叶斯网络,并通过公式:
,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Pa j 为第j个特征在贝叶斯网络的父节点集合,M为特征的个数,F j 为第j个特征的取值,I(F j ,C)为第j个特征是否与类别C有关;
通过公式: ,求解后验概率P(C|D),其中,K为类别总数, />为所有类别下待分类邮件在给定类别C下出现的新的概率;
比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别。
在上述任一方案中优选的是,在所述通过公式:
,计算待分类邮件在给定类别C下出现的概率P(D|C)中,
,式中,p(f j ,c)为特征F j 和类别C同时出现的概率,p(fj)和p(c)分别为特征F j 和类别C单独出现的概率;
若I(F j ,C)=1,则表示第j个特征与类别C有关;
若I(F j ,C)=0,则表示第j个特征与类别C无关。
在上述任一方案中优选的是,所述对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化,包括以下步骤:
通过公式:,计算邮件分类模型的准确率,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量,FN为假负例的数量;
通过公式:,计算邮件分类模型的召回率,其中TP为真正例的数量,TN为真负例的数量,FN为假负例的数量;
通过公式:,计算邮件分类模型的精度,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量;
通过公式:δ=(λ 1*Accuracy)3+(λ 2*Recall)2+λ 3*Precision,计算邮件分类模型的评价值δ,其中λ 1为准确率权重、λ 2为召回率权重,λ 3为精度权重;
设置评价值阈值δ 0,若δ 0≤δ,则评估邮件分类模型良好,若δ 0>δ,则评估邮件分类模型不良好。
在上述任一方案中优选的是,所述若δ 0>δ,则评估邮件分类模型不良好,包括:
若评估邮件分类模型不良好,则通过优化函数:
,对邮件分类模型进行优化;其中α和λ为邮件分类模型中分类算法的超参数,F1-score(model α,λ ,X,Y)为在给定超参数的情况下,使用训练数据X和标签Y训练出的模型model α,λ 的F1-score。
在上述任一方案中优选的是,所述通过优化函数:
,对邮件分类模型进行优化,包括:优化函数将F1-score作为损失函数,并通过梯度下降法进行求解。
第二方面,一种基于计算机的邮件分类装置,所述装置包括:
处理模块,用于对原始邮件文本进行数据处理,得到精化后的邮件文本;
转换模块,用于将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
训练模块,用于构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;
评估模块,用于对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
分类模块,用于将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
与现有技术相比,本发明的有益效果:
本发明提供的基于计算机的邮件分类方法,能够可以帮助用户快速准确地筛选和管理大量的电子邮件,节省了人工处理邮件的时间和成本,提高了工作效率。
附图说明
附图用于对本发明的进一步理解,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明基于计算机的邮件分类方法的流程图;
图2是本发明基于计算机的邮件分类装置的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好地理解上述技术方案,下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。
如图1所示,本发明提供了一种基于计算机的邮件分类方法,包括以下步骤:
步骤1,对原始邮件文本进行数据处理,得到精化后的邮件文本;
步骤2,将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
步骤3,构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;
步骤4,对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
步骤5,将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
在本发明实施例所述的基于计算机的邮件分类方法中,通过步骤1中的数据处理,可以去除原始邮件文本中的垃圾信息、HTML标签、特殊字符、重复字词等无用信息,并对剩余信息进行分词、去停用词、词干化等处理,从而提高分类模型的准确性和泛化能力;
通过步骤2中的特征向量化,可以将经过精化处理的邮件文本转换为邮件特征向量,即将文本中的每个词看作一个独立的特征,对出现频次进行统计,得到一个特征向量表示该文本,这样可以消除邮件文本长度不同、内容差异较大的问题;
通过步骤3中的模型训练,通过收集大量的样本邮件数据,构建邮件分类模型,并对其进行训练,从而可以实现对未知邮件进行自动分类;
通过步骤4中的模型评估,可以对邮件分类模型进行评估,可以采用准确率、召回率、F1值、ROC曲线等指标来衡量模型的分类效果,评估结果可以帮助优化模型,提高分类效果;
通过步骤5中的模型应用,可以将优化后的邮件分类模型应用于实际任务中,对输入的邮件特征向量进行分类,输出该邮件所属类别,这样可以实现对大量未知邮件的自动分类,方便用户进行筛选和管理。
综上所述,这些步骤相互衔接,构成一个完整的邮件分类方法,可以帮助用户快速准确地筛选和管理大量的电子邮件,节省了人工处理邮件的时间和成本,提高了工作效率,例如可以利用基于计算机的邮件分类方法来将垃圾邮件归类到垃圾箱中,将重要邮件归类到收件箱中,对邮件进行自动标记等操作,从而实现对邮件的智能化管理。
具体的,所述步骤1,对原始邮件文本进行数据处理,得到精化后的邮件文本,包括以下步骤:
步骤11,将原始邮件文本中尖括号内的文本和除文字外的符号删除;
步骤12,通过字符串操作函数将原始邮件文本中的字母转化为小写形式;
步骤13,将停用词存储在一个列表中生成停用词列表,并遍历原始邮件文本中的单词,将符合停用词列表的单词进行删除;
步骤14,将原始邮件文本中的单词进行还原或缩减,提取每个单词的词干,以得到精化后的邮件文本。
具体的,所述步骤2,将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据,包括以下步骤:
步骤21,通过公式:,计算每个单词在当前文档中出现的频率tf(w,d),其中,n w,d 为单词w在文档d中出现的次数,|d|为文档d中单词的总数;
步骤22,通过公式: ,计算每个单词在所有文档中出现的文档频率idf(w,D),其中,N为文档总数,n w 为包含单词w的文档数量;
步骤23,依据tf(w,d)和idf(w,D),并通过公式:
,对每个单词分配权重,得到文本的特征向量,其中,|d|为文档d中单词的总数,n w,d 为单词w在文档d中出现的次数,n w 为包含单词w的文档数量,N为文档总数。
具体的,所述步骤3,构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:
步骤31,输入有标签的样本邮件数据和对应的标签;
步骤32,构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型。
进一步的,所述步骤32,构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:
步骤321,设置训练数据中待分类邮件的特征向量为D new ,通过公式:
,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,C i 为训练数据中第i个样本;
步骤322,建立贝叶斯网络,并通过公式:
,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Pa j 为第j个特征在贝叶斯网络的父节点集合,M为特征的个数,F j 为第j个特征的取值,I(F j ,C)为第j个特征是否与类别C有关;
步骤323,通过公式:,求解后验概率P(C|D),其中,K为类别总数, />为所有类别下待分类邮件在给定类别C下出现的新的概率;
步骤324,比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别。
更进一步的,在所述通过公式:
,计算待分类邮件在给定类别C下出现的概率P(D|C)中,
,式中,p(f j ,c)为特征F j 和类别C同时出现的概率,p(fj)和p(c)分别为特征F j 和类别C单独出现的概率;
若I(F j ,C)=1,则表示第j个特征与类别C有关;
若I(F j ,C)=0,则表示第j个特征与类别C无关。
具体的,所述步骤4,对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化,包括以下步骤:
步骤41,通过公式: ,计算邮件分类模型的准确率,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量,FN为假负例的数量;
步骤42,通过公式: ,计算邮件分类模型的召回率,其中TP为真正例的数量,TN为真负例的数量,FN为假负例的数量;
步骤43,通过公式: ,计算邮件分类模型的精度,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量;
步骤44,通过公式:δ=(λ 1*Accuracy)3+(λ 2*Recall)2+λ 3*Precision,计算邮件分类模型的评价值δ,其中λ 1为准确率权重、λ 2为召回率权重,λ 3为精度权重;
步骤45,设置评价值阈值δ 0,若δ 0≤δ,则评估邮件分类模型良好,若δ 0>δ,则评估邮件分类模型不良好。
在本发明实施例所述的基于计算机的邮件分类方法中,真正例TP表示:邮件分类模型正确地预测该样本为“正例”,且实际情况该样本也为“正例”。
真负例TN表示:邮件分类模型正确地预测该样本为“负例”,且实际情况该样本也为“负例”。
假正例FP表示:邮件分类模型错误地将该样本预测为“正例”,但实际情况该样本为“负例”。
假负例,FN表示:邮件分类模型错误地将该样本预测为“负例”,但实际情况该样本为“正例”。
具体的,所述若δ 0>δ,则评估邮件分类模型不良好,包括:
若评估邮件分类模型不良好,则通过优化函数:
,对邮件分类模型进行优化;其中α和λ为邮件分类模型中分类算法的超参数,F1-score(model α,λ ,X,Y)为在给定超参数的情况下,使用训练数据X和标签Y训练出的模型model α,λ 的F1-score:
,对邮件分类模型进行优化,包括:优化函数将F1-score作为损失函数,并通过梯度下降法进行求解。
如图2所示,本发明还提供了一种基于计算机的邮件分类装置,所述装置包括:
处理模块,用于对原始邮件文本进行数据处理,得到精化后的邮件文本;
转换模块,用于将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
训练模块,用于构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;
评估模块,用于对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
分类模块,用于将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
与现有技术相比,本发明提供的有益效果是:
本发明提供的基于计算机的邮件分类方法,能够可以帮助用户快速准确地筛选和管理大量的电子邮件,节省了人工处理邮件的时间和成本,提高了工作效率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于计算机的邮件分类方法,其特征在于:包括以下步骤:
对原始邮件文本进行数据处理,得到精化后的邮件文本;
将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:
输入有标签的样本邮件数据和对应的标签;
构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:
设置训练数据中待分类邮件的特征向量为Dnew,通过公式: ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;
建立贝叶斯网络,并通过公式: ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Pa j 为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,F j 为第j个特征的取值,I(F j ,C)为第j个特征是否与类别C有关;
通过公式: ,求解后验概率P(C|D),其中,K为类别总数,/>为所有类别下待分类邮件Dnew的概率;
,式中,p(f j ,c)为特征F j 和类别C同时出现的概率,p(c)和p(c)分别为特征F j 和类别C单独出现的概率;
若I(F j ,C)=1,则表示第j个特征与类别C有关;
若I(F j ,C)=0,则表示第j个特征与类别C无关;
比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;
对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
2.根据权利要求1所述的基于计算机的邮件分类方法,其特征在于:所述对原始邮件文本进行数据处理,得到精化后的邮件文本,包括以下步骤:
将原始邮件文本中尖括号内的文本和除文字外的符号删除;
通过字符串操作函数将原始邮件文本中的字母转化为小写形式;
将停用词存储在一个列表中生成停用词列表,并遍历原始邮件文本中的单词,将符合停用词列表的单词进行删除;
将原始邮件文本中的单词进行还原或缩减,提取每个单词的词干,以得到精化后的邮件文本。
3.根据权利要求2所述的基于计算机的邮件分类方法,其特征在于:所述将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据,包括以下步骤:
通过公式: ,计算每个单词在当前文档中出现的频率tf(w,d),其中,n w,d 为单词w在文档d中出现的次数,|d|为文档d中单词的总数;
通过公式: ,计算每个单词在所有文档中出现的文档频率idf(w,D),其中,N为文档总数,n w 为包含单词w的文档数量;
依据tf(w,d)和idf(w,D),并通过公式:
,对每个单词分配权重,得到文本的特征向量,其中,|d|为文档d中单词的总数,n w,d 为单词w在文档d中出现的次数,n w 为包含单词w的文档数量,N为文档总数。
4.根据权利要求3所述的基于计算机的邮件分类方法,其特征在于:所述对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化,包括以下步骤:
通过公式: ,计算邮件分类模型的准确率,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量,FN为假负例的数量;
通过公式:,计算邮件分类模型的召回率,其中TP为真实例的数量,TN为真负例的数量,FN为假负例的数量;
通过公式:,计算邮件分类模型的精度,其中TP为真实例的数量,TN为真负例的数量,FP为假正例的数量;
通过公式:δ=(λ 1*Accuracy)3+(λ 2*Recall)2+λ 3*Precision,计算邮件分类模型的评价值δ,其中λ 1为准确率权重、λ 2为召回率权重,λ 3为精度权重;
设置评价值阈值δ 0,若δ 0≤δ,则评估邮件分类模型良好,若δ 0>δ,则评估邮件分类模型不良好。
5.根据权利要求4所述的基于计算机的邮件分类方法,其特征在于:所述若δ 0>δ,则评估邮件分类模型不良好,包括:
若评估邮件分类模型不良好,则通过优化函数:
,对邮件分类模型进行优化;其中α和λ为邮件分类模型中分类算法的超参数,F1-score(model α,λ ,X,Y)为在给定超参数的情况下,使用训练数据X和标签Y训练出的模型model α,λ 的F1-score。
6.根据权利要求5所述的基于计算机的邮件分类方法,其特征在于:所述通过优化函数:
,对邮件分类模型进行优化,包括:优化函数将F1-score作为损失函数,并通过梯度下降法进行求解。
7.一种基于计算机的邮件分类装置,其特征在于:所述装置包括:
处理模块,用于对原始邮件文本进行数据处理,得到精化后的邮件文本;
转换模块,用于将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
训练模块,用于构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;所述构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:
输入有标签的样本邮件数据和对应的标签;
构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:
设置训练数据中待分类邮件的特征向量为Dnew,通过公式: ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;
建立贝叶斯网络,并通过公式: ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Pa j 为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,F j 为第j个特征的取值,I(F j ,C)为第j个特征是否与类别C有关;
通过公式: ,求解后验概率P(C|D),其中,K为类别总数, />为所有类别下待分类邮件Dnew的概率;
,式中,p(f j ,c)为特征F j 和类别C同时出现的概率,p(c)和p(c)分别为特征F j 和类别C单独出现的概率;
若I(F j ,C)=1,则表示第j个特征与类别C有关;
若I(F j ,C)=0,则表示第j个特征与类别C无关;
比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;
评估模块,用于对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
分类模块,用于将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410104732.9A CN117633659B (zh) | 2024-01-25 | 2024-01-25 | 一种基于计算机的邮件分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410104732.9A CN117633659B (zh) | 2024-01-25 | 2024-01-25 | 一种基于计算机的邮件分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117633659A CN117633659A (zh) | 2024-03-01 |
CN117633659B true CN117633659B (zh) | 2024-04-26 |
Family
ID=90030765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410104732.9A Active CN117633659B (zh) | 2024-01-25 | 2024-01-25 | 一种基于计算机的邮件分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633659B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101227435A (zh) * | 2008-01-28 | 2008-07-23 | 浙江大学 | 基于Logistic回归的中文垃圾邮件过滤方法 |
US7577709B1 (en) * | 2005-02-17 | 2009-08-18 | Aol Llc | Reliability measure for a classifier |
CN104731772A (zh) * | 2015-04-14 | 2015-06-24 | 辽宁大学 | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法 |
CN113630302A (zh) * | 2020-05-09 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 一种垃圾邮件识别方法及装置、计算机可读存储介质 |
CN114841248A (zh) * | 2022-04-09 | 2022-08-02 | 浪潮云信息技术股份公司 | 一种基于朴素贝叶斯的网络钓鱼邮件检测方法及系统 |
CN115186069A (zh) * | 2022-07-26 | 2022-10-14 | 郑州航空工业管理学院 | 一种基于CNN-BiGRU的学术文本摘要自动分类方法 |
CN116304904A (zh) * | 2023-01-13 | 2023-06-23 | 重庆邮电大学 | 一种面向语义本体的权重贝叶斯分类器和本体映射方法 |
WO2023172462A1 (en) * | 2022-03-07 | 2023-09-14 | Darktrace, Inc. | A system to detect malicious emails and email campaigns |
CN116992367A (zh) * | 2023-06-30 | 2023-11-03 | 中国矿业大学 | 一种基于标签划分的多标签邮件情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329836A (zh) * | 2020-11-02 | 2021-02-05 | 成都网安科技发展有限公司 | 基于深度学习的文本分类方法、装置、服务器及存储介质 |
-
2024
- 2024-01-25 CN CN202410104732.9A patent/CN117633659B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7577709B1 (en) * | 2005-02-17 | 2009-08-18 | Aol Llc | Reliability measure for a classifier |
CN101227435A (zh) * | 2008-01-28 | 2008-07-23 | 浙江大学 | 基于Logistic回归的中文垃圾邮件过滤方法 |
CN104731772A (zh) * | 2015-04-14 | 2015-06-24 | 辽宁大学 | 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法 |
CN113630302A (zh) * | 2020-05-09 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 一种垃圾邮件识别方法及装置、计算机可读存储介质 |
WO2023172462A1 (en) * | 2022-03-07 | 2023-09-14 | Darktrace, Inc. | A system to detect malicious emails and email campaigns |
CN114841248A (zh) * | 2022-04-09 | 2022-08-02 | 浪潮云信息技术股份公司 | 一种基于朴素贝叶斯的网络钓鱼邮件检测方法及系统 |
CN115186069A (zh) * | 2022-07-26 | 2022-10-14 | 郑州航空工业管理学院 | 一种基于CNN-BiGRU的学术文本摘要自动分类方法 |
CN116304904A (zh) * | 2023-01-13 | 2023-06-23 | 重庆邮电大学 | 一种面向语义本体的权重贝叶斯分类器和本体映射方法 |
CN116992367A (zh) * | 2023-06-30 | 2023-11-03 | 中国矿业大学 | 一种基于标签划分的多标签邮件情感分类方法 |
Non-Patent Citations (1)
Title |
---|
垃圾邮件过滤的贝叶斯方法综述;张铭锋, 李云春, 李巍;计算机应用研究;20050828(第08期);第14-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117633659A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
Ma et al. | A comparative approach to Naïve Bayes classifier and support vector machine for email spam classification | |
CN107798033B (zh) | 一种公安领域案件文本的分类方法 | |
CN108573031A (zh) | 一种基于内容的投诉分类方法和系统 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN112069321A (zh) | 用于文本层级分类的方法、电子设备和存储介质 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN111931499A (zh) | 模型训练方法及系统、垃圾邮件识别方法及系统和设备 | |
CN112579784B (zh) | 一种基于深度强化学习的云边协同文档分类系统及方法 | |
CN117633659B (zh) | 一种基于计算机的邮件分类方法及装置 | |
Sudha | Semi supervised multi text classifications for telugu documents | |
CN113761186A (zh) | 文本情感分类方法和装置 | |
CN116629716A (zh) | 一种智能交互系统工效分析方法 | |
WO2023083176A1 (zh) | 样本处理方法、设备及计算机可读存储介质 | |
CN116842936A (zh) | 关键词识别方法、装置、电子设备和计算机可读存储介质 | |
CN114153977A (zh) | 一种异常数据检测方法及系统 | |
Islam et al. | Dynamic feature selection for spam filtering using support vector machine | |
Rawat et al. | Email Spam Classification Using Supervised Learning in Different Languages | |
Islam et al. | Email categorization using (2+ 1)-tier classification algorithms | |
JP7222026B2 (ja) | 管理サーバー、情報処理装置、情報処理プログラム、及び情報処理方法 | |
Ogundeji et al. | Naive Bayes algorithm for document classification | |
Guo et al. | Bayesian spam filtering mechanism based on decision tree of attribute set dependence in the MapReduce framework | |
Saxena et al. | Online email classification using ant clustering algorithm | |
CN118093881B (zh) | 一种基于知识图谱的审计对象画像建模方法和系统 | |
CN112711941B (zh) | 一种基于情感词典实体的情感得分的分析处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |