CN111079427A - 一种垃圾邮件识别方法及系统 - Google Patents
一种垃圾邮件识别方法及系统 Download PDFInfo
- Publication number
- CN111079427A CN111079427A CN201911329369.6A CN201911329369A CN111079427A CN 111079427 A CN111079427 A CN 111079427A CN 201911329369 A CN201911329369 A CN 201911329369A CN 111079427 A CN111079427 A CN 111079427A
- Authority
- CN
- China
- Prior art keywords
- text data
- mail text
- model
- vector space
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000000717 retained effect Effects 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于邮件识别技术领域,具体涉及一种垃圾邮件识别方法及系统,方法具体包括:获取邮件文本数据;对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。本发明提供的技术方案容易实现,具有普适性,解决了现有垃圾邮件识别方法在特征空间构建时,不能很好的选择特征,以至于后续模型在识别垃圾邮件时准确率低的问题。
Description
技术领域
本发明属于邮件识别技术领域,具体涉及一种垃圾邮件识别方法及系统。
背景技术
在传统机器学习理论向垃圾邮件智能处理领域迁移的热潮中,几乎所有可用于文本分类的线性分类算法都被应用到垃圾邮件识别领域中,近年来在反垃圾邮件研究领域的努力呈分化趋势,大体可归纳为如下三个研究方向:对现有统计学习方法进行广泛深入的测评,利用实际采集的垃圾邮件样本对现有算法模型进行测试和比较,通过实验数据揭示各个算法的优缺点,以期寻找最佳的分类算法;二是从经济学视角审视垃圾邮件问题,以提高垃圾邮件发送代价为目标来构造反垃圾邮件机制;三是研究和寻找新的垃圾邮件识别方法,在这方面被广泛关注的研究主题包括:基于行为的垃圾邮件识别方法研究,基于社交网络的垃圾邮件发现与阻断技术研究,采用流量工程理论和思想解决垃圾邮件问题的探索研究,以及从身份验证和圆头追踪角度出发解决垃圾邮件问题的方法设计。
随着垃圾邮件发送者所采用的技术手段不断进步,现有的反垃圾邮件技术并不能一劳永逸的解决垃圾邮件问题。因此,该研究领域的发展趋势呈现出多元化倾向,一部分研究者坚持才采用统计方法构造具备学习能力的垃圾邮件过滤器,其科研努力方向主要是通过广泛测评选择最适宜用于垃圾邮件分类的算法,并设法改进算法以适应垃圾邮件的新变化。
上述解决方案普遍具有对垃圾邮件的显著特征选择性差,从而导致后续模型对垃圾邮件识别率低的问题,为此,本发明提供了一种从算法和变量上综合设计的垃圾邮件识别方法。
发明内容
为了解决上述现有垃圾邮件识别方法在特征空间构建时,不能很好的选择特征,以至于后续模型在识别时准确率低的问题,本发明提供了一种垃圾邮件识别方法及系统,容易实现,具有普适性。
本发明是这样实现的,首先提供一种垃圾邮件识别方法,包括:
获取邮件文本数据;
对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;
计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
进一步地,针对不同用户,所述词典中的词不相同,词典构建时将每个词按照每行单独存放的方式存放在文件中,对词典中最长的词的长度进行设置。
进一步地,所述分词采用正向最大匹配分词算法,具体过程为:
以获取到的邮件文本数据的首字为起点,在所述词典中搜索与邮件文本数据匹配的最长的词;
将搜索到的与邮件文本数据匹配的最长的词进行切分,对余下的邮件文本数据重复上述分词过程,直至将邮件文本数据包括的词全部切分完毕,完成分词过程,分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合。
进一步地,所述词袋是包括各类文本数据的词典。
进一步地,采用L1/2正则化特征选择算法对所述向量空间模型中项的维数进行压缩。
进一步地,所述分类模型的选择过程为:
将经过特征项选择的、代表邮件文本数据的向量空间模型样本随机划分为训练集和测试集;
对训练集的样本采用5折交叉验证方法选择模型,具体步骤为:
1)将训练集的样本等分为5份;
2)下列步骤重复5次:
201)每一次迭代留存其中一份数据,第一次迭代留存第1份,第二次迭代留存第2份,以此类推,第i次迭代留存第i份;
202)每次迭代中用其他4份数据作为训练数据,训练分类器;
203)每次迭代中利用留存的1份数据作为测试数据,来测试分类器并保存分类结果;
3)从步骤2)中得到的5个分类器模型中,选择准确率最高的模型作为分类模型;
4)用测试集中的样本对步骤3)中选择的分类模型进行结果测试。
进一步地,所述训练集与所述测试集按照7:3的比例进行划分。
进一步地,所述分类模型选择朴素贝叶斯分类模型。
另外,本发明还提供一种垃圾邮件识别系统,包括:
数据获取模块,用于获取邮件文本数据;
分词模块,用于对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;
降维模块,用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
垃圾邮件确定模块,用于对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
进一步地,所述分词模块包括:
搜索单元,用于以获取到的邮件文本数据的首字为起点,在所述词典中搜索与邮件文本数据匹配的最长的词;
切分单元,用于将搜索单元搜索到的与邮件文本数据匹配的最长的词进行切分,对余下的邮件文本数据重复上述搜索、切分过程,直至将邮件文本数据包括的词全部切分完毕,完成分词过程,分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合;
所述降维模块包括:
向量空间模型确定单元,用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型;
特征项选择单元,用于对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
所述垃圾邮件确定模块包括:
训练寻优单元模块,用于对分类模型进行训练,从而找到准确率最高的分类模型;
分类模型输出模块,用于使用最优的分类模型,对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件;
所述训练寻优单元模块包括:
样本获取单元,用于获取训练样本集;
词典构建单元,用于构建针对某类用户的词典,并对获取到的样本在词典中进行分词;
词袋构建单元,用于将某类用户不同类别的词典形成词袋,并通过词袋模型形成代表样本邮件数据的向量空间模型;
变量选择单元,用于利用L1/2正则化特征选择算法对代表不同样本的向量空间模型进行降维;
随机划分单元,用于对经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集;
模型训练选择单元,用于利用训练集中的样本训练不同分类模型并选择最优分类模型;
测试单元,用于利用测试集中的样本对选择出的最优模型进行测试验证。
与现有技术相比,本发明的优点在于:利用在词典中分词、L1/2正则化特征选择算法对向量空间模型进行降维的方法,得到具有显著性的高识别度的特征,使后续的分类模型能够准确率更高地识别垃圾邮件。
附图说明
图1为本发明总体框架图;
图2为正向最大匹配分词算法流程图;
图3为利用本发明的技术方案识别垃圾邮件的具体流程图;
图4为本发明提供的一种垃圾邮件识别系统结构图;
图5为垃圾邮件确定模块系统结构图;
图6为训练寻优单元模块系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图3,为本发明提供的技术方案识别垃圾邮件的具体流程图,具体包括:
步骤301:获取新邮件文本数据;
步骤302:对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;
针对不同用户,所述词典中的词不相同,例如,可以利用某个词在某领域垃圾邮件中出现的阈值来判断是否要将其放置到词典中。词典构建时将每个词按照每行单独存放的方式存放在文件中,对词典中最长的词的长度(MaxL)进行设置。词袋是包括各类文本数据的词典。
分词方法采用正向最大匹配分词算法,参考图2,具体过程为:
步骤201:设获取到的邮件文本数据即待切分字符为S1,待输出的词语串为S2,S2初始值为0,设置最长切分的词长为MaxL,比如可以设MaxL=8;
步骤202:首先检测S1是否为空;
步骤203:若S1为空,则直接输出结果;
步骤204:若S1不为空,则从S1的左边开始,截取候选的字符串W,W的长度不能大于MaxL;
步骤205:查词典,看W是否在词典中;
步骤206:如果在,则将S1重新定义为S1-W,将S2定义为S2+W+‘/’,其中‘/’表示后续继续被切分出的字符串,重复步骤202、步骤203、步骤204、步骤205;
步骤207:如果W不在词典中,则将W最右边的一个字去掉;
步骤208:检测W是否为单字,如果是,则转到步骤206,然后重复步骤202、步骤204、步骤205、步骤206、步骤202、步骤203;如果W不是单字,则转到步骤205,循环分词,直至将待切分字符为S1全部分词完毕,输出结果S2。
分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合。
步骤303:计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
词袋模型的主要思想,是构建各类文本的词典,然后针对获取到的邮件文本数据,计算该邮件的文本数据的分好的每个词在词典中对应位置出现的次数,并且词袋模型忽略掉文本的语法和语序要素,将邮件文本数据看做是若干个词汇的结合,文档中每个词的出现都是独立的,即使用一组无序的单词来表达一段文字或者一个文档,置于本实施例中即时使用一组无序的单词来表达一个邮件的文本数据,并且赋予每个单词唯一的索引,因此,一个邮件的文本就形成了一个多维的向量。
一个邮件的文本词汇可以是很大的,因此构成邮件的向量空间模型的维数也是很大的,由此容易造成两个问题:一是程序运行的效率下降,二是由于文本的所有词汇对于文本的分类意义不同,例如通用的词汇对于文本分类的贡献小,而某些特定类别中的词语对文本分类贡献的意义大,对文本分类意义不大的词汇的存在,容易造成对文本的分类精度下降。
为了实现对构成邮件的向量空间模型的降维,本发明采用L1/2正则化特征选择算法。
步骤304:对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
而并不是任意的分类模型均可以作为垃圾邮件的识别模型,参考图1,为本发明的整体构思框架图,包括:
步骤101:搜集要训练的文本样本;
步骤102:将搜集到的每个文本样本,在构建好的词典中进行分词,词典是根据不同的用户对其所处领域的垃圾邮件中含有的特征词的类别而建立的;
步骤103:将分好词的每个文本样本在构建好的词袋中建立向量空间模型;
步骤104:利用L1/2正则化特征选择算法进行变量选择,也就是对向量空间模型进行降维;
步骤105:将经过降维的所有样本进行随机划分,在本实施例中,训练集占70%,测试集占30%;
步骤106:根据训练集进行模型选择,具体过程采用5折交叉验证方法选择模型,具体步骤为:
1)将训练集的样本等分为5份;
2)下列步骤重复5次:
201)每一次迭代留存其中一份数据,第一次迭代留存第1份,第二次迭代留存第2份,以此类推,第i次迭代留存第i份;
202)每次迭代中用其他4份数据作为训练数据,训练分类器;
203)每次迭代中利用留存的1份数据作为测试数据,来测试分类器并保存分类结果;
3)从步骤2)中得到的5个分类器模型中,选择准确率最高的模型作为分类模型,本实施例选择朴素贝叶斯模型;
步骤107:用步骤3)中选择的分类模型对测试集中的样本对进行结果测试,验证该模型的正确性。
根据训练及测试结果,能够确认朴素贝叶斯模型为准确率最高的模型,即可将本发明的技术方案按照图3进行垃圾邮件的识别。
参考图4,本发明还提供了一种垃圾邮件识别系统,包括数据获取模块401、分词模块402、降维模块403和垃圾邮件确定模块404,数据获取模块401用于获取邮件文本数据,分词模块402用于对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;降维模块403用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;垃圾邮件确定模块404用于对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
其中,分词模块402包括搜索单元和切分单元,搜索单元用于以获取到的邮件文本数据的首字为起点,在所述词典中搜索与邮件文本数据匹配的最长的词;切分单元用于将搜索单元搜索到的与邮件文本数据匹配的最长的词进行切分,对余下的邮件文本数据重复上述搜索、切分过程,直至将邮件文本数据包括的词全部切分完毕,完成分词过程,分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合;
降维模块403包括向量空间模型确定单元和特征项选择单元,向量空间模型确定单元用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型;特征项选择单元用于对向量空间模型中项的维数进行压缩,输出经过选择的特征项。
参考图5,垃圾邮件确定模块404包括训练寻优单元模块501和分类模型输出模块502,训练寻优单元模块501用于对分类模型进行训练,从而找到准确率最高的分类模型,分类模型输出模块502用于使用最优的分类模型,对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
参考图6,训练寻优单元模块包括样本获取单元601、词典构建单元602、词袋构建单元603、变量选择单元604、随机划分单元605、模型训练选择单元606和测试单元607,样本获取单元601用于获取训练样本集;词典构建单元602用于构建针对某类用户的词典,并对获取到的样本在词典中进行分词;词袋构建单元603用于将某类用户不同类别的词典形成词袋,并通过词袋模型形成代表样本邮件数据的向量空间模型;变量选择单元604用于利用L1/2正则化特征选择算法对代表不同样本的向量空间模型进行降维;随机划分单元605用于对经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集;模型训练选择单元606用于利用训练集中的样本训练不同分类模型并选择最优分类模型;测试单元607用于利用测试集中的样本对选择出的最优模型进行测试验证。
Claims (10)
1.一种垃圾邮件识别方法,其特征在于,包括:
获取邮件文本数据;
对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;
计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
2.如权利要求1所述的垃圾邮件识别方法,其特征在于,针对不同用户,所述词典中的词不相同,词典构建时将每个词按照每行单独存放的方式存放在文件中,对词典中最长的词的长度进行设置。
3.如权利要求1所述的垃圾邮件识别方法,其特征在于,所述分词采用正向最大匹配分词算法,具体过程为:
以获取到的邮件文本数据的首字为起点,在所述词典中搜索与邮件文本数据匹配的最长的词;
将搜索到的与邮件文本数据匹配的最长的词进行切分,对余下的邮件文本数据重复上述分词过程,直至将邮件文本数据包括的词全部切分完毕,完成分词过程,分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合。
4.如权利要求1所述的垃圾邮件识别方法,其特征在于,所述词袋是包括各类文本数据的词典。
5.如权利要求1所述的垃圾邮件识别方法,其特征在于,采用L1/2正则化特征选择算法对所述向量空间模型中项的维数进行压缩。
6.如权利要求1所述的垃圾邮件识别方法,其特征在于,所述分类模型的选择过程为:
将经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集;
对训练集的样本采用5折交叉验证方法选择模型,具体步骤为:
1)将训练集的样本等分为5份;
2)下列步骤重复5次:
201)每一次迭代留存其中一份数据,第一次迭代留存第1份,第二次迭代留存第2份,以此类推,第i次迭代留存第i份;
202)每次迭代中用其他4份数据作为训练数据,训练分类器;
203)每次迭代中利用留存的1份数据作为测试数据,来测试分类器并保存分类结果;
3)从步骤2)中得到的5个分类器模型中,选择准确率最高的模型作为分类模型;
4)用测试集中的样本对步骤3)中选择的分类模型进行结果测试。
7.如权利要求6所述的垃圾邮件识别方法,其特征在于,所述训练集与所述测试集按照7:3的比例进行划分。
8.如权利要求6所述的垃圾邮件识别方法,其特征在于,所述分类模型选择朴素贝叶斯分类模型。
9.一种垃圾邮件识别系统,其特征在于,包括:
数据获取模块,用于获取邮件文本数据;
分词模块,用于对获取到的邮件文本数据在预先建好的词典中进行分词,得到构成邮件文本数据的项的集合;
降维模块,用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型,并对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
垃圾邮件确定模块,用于对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件。
10.如权利要求9所述的一种垃圾邮件识别系统,其特征在于,所述分词模块包括:
搜索单元,用于以获取到的邮件文本数据的首字为起点,在所述词典中搜索与邮件文本数据匹配的最长的词;
切分单元,用于将搜索单元搜索到的与邮件文本数据匹配的最长的词进行切分,对余下的邮件文本数据重复上述搜索、切分过程,直至将邮件文本数据包括的词全部切分完毕,完成分词过程,分出的每一个词即作为构成邮件文本数据的项,得到构成邮件文本数据的项的集合;
所述降维模块包括:
向量空间模型确定单元,用于计算集合中每一项在预先建好的词袋中出现的次数,形成邮件文本数据的向量空间模型;
特征项选择单元,用于对向量空间模型中项的维数进行压缩,输出经过选择的特征项;
所述垃圾邮件确定模块包括:
训练寻优单元模块,用于对分类模型进行训练,从而找到准确率最高的分类模型;
分类模型输出模块,用于使用最优的分类模型,对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出,确定垃圾邮件;
所述训练寻优单元模块包括:
样本获取单元,用于获取训练样本集;
词典构建单元,用于构建针对某类用户的词典,并对获取到的样本在词典中进行分词;
词袋构建单元,用于将某类用户不同类别的词典形成词袋,并通过词袋模型形成代表样本邮件数据的向量空间模型;
变量选择单元,用于利用L1/2正则化特征选择算法对代表不同样本的向量空间模型进行降维;
随机划分单元,用于对经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集;
模型训练选择单元,用于利用训练集中的样本训练不同分类模型并选择最优分类模型;
测试单元,用于利用测试集中的样本对选择出的最优模型进行测试验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329369.6A CN111079427A (zh) | 2019-12-20 | 2019-12-20 | 一种垃圾邮件识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329369.6A CN111079427A (zh) | 2019-12-20 | 2019-12-20 | 一种垃圾邮件识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079427A true CN111079427A (zh) | 2020-04-28 |
Family
ID=70316476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911329369.6A Pending CN111079427A (zh) | 2019-12-20 | 2019-12-20 | 一种垃圾邮件识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079427A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597283A (zh) * | 2021-03-04 | 2021-04-02 | 北京数业专攻科技有限公司 | 通知文本信息实体属性抽取方法、计算机设备及存储介质 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN115086182A (zh) * | 2022-06-20 | 2022-09-20 | 深圳市恒扬数据股份有限公司 | 邮件识别模型的优化方法、装置、电子设备及存储介质 |
CN117474510A (zh) * | 2023-12-25 | 2024-01-30 | 彩讯科技股份有限公司 | 一种基于特征选择的垃圾邮件过滤方法 |
CN115086182B (zh) * | 2022-06-20 | 2024-06-11 | 深圳市恒扬数据股份有限公司 | 邮件识别模型的优化方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN108694202A (zh) * | 2017-04-10 | 2018-10-23 | 上海交通大学 | 基于分类算法的可配置垃圾邮件过滤系统及过滤方法 |
CN109800433A (zh) * | 2019-01-24 | 2019-05-24 | 深圳市小满科技有限公司 | 基于邮件二分类模型的建档方法、装置、电子设备及介质 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110149268A (zh) * | 2019-05-15 | 2019-08-20 | 深圳市趣创科技有限公司 | 一种自动过滤垃圾邮件的方法及其系统 |
-
2019
- 2019-12-20 CN CN201911329369.6A patent/CN111079427A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN108694202A (zh) * | 2017-04-10 | 2018-10-23 | 上海交通大学 | 基于分类算法的可配置垃圾邮件过滤系统及过滤方法 |
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN109800433A (zh) * | 2019-01-24 | 2019-05-24 | 深圳市小满科技有限公司 | 基于邮件二分类模型的建档方法、装置、电子设备及介质 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110149268A (zh) * | 2019-05-15 | 2019-08-20 | 深圳市趣创科技有限公司 | 一种自动过滤垃圾邮件的方法及其系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597283A (zh) * | 2021-03-04 | 2021-04-02 | 北京数业专攻科技有限公司 | 通知文本信息实体属性抽取方法、计算机设备及存储介质 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN115086182A (zh) * | 2022-06-20 | 2022-09-20 | 深圳市恒扬数据股份有限公司 | 邮件识别模型的优化方法、装置、电子设备及存储介质 |
CN115086182B (zh) * | 2022-06-20 | 2024-06-11 | 深圳市恒扬数据股份有限公司 | 邮件识别模型的优化方法、装置、电子设备及存储介质 |
CN117474510A (zh) * | 2023-12-25 | 2024-01-30 | 彩讯科技股份有限公司 | 一种基于特征选择的垃圾邮件过滤方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831790B (zh) | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN109190514B (zh) | 基于双向长短期记忆网络的人脸属性识别方法及系统 | |
CN111079427A (zh) | 一种垃圾邮件识别方法及系统 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN111414479A (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN113505826B (zh) | 基于联合特征选择的网络流量异常检测方法 | |
CN113568368B (zh) | 一种工控数据特征重排序算法的自适应确定方法 | |
CN111160130A (zh) | 一种多平台虚拟身份账号的多维碰撞识别方法 | |
CN111368529B (zh) | 基于边缘计算的移动终端敏感词识别方法、装置及系统 | |
CN116467141A (zh) | 日志识别模型训练、日志聚类方法和相关系统、设备 | |
Bortnikova et al. | Search Query Classification Using Machine Learning for Information Retrieval Systems in Intelligent Manufacturing. | |
CN106384587A (zh) | 一种语音识别方法及系统 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
KR100842216B1 (ko) | 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치 | |
CN112489689A (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 | |
CN116452353A (zh) | 一种财务数据管理方法及系统 | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN115357718A (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |