CN101079851A - 邮件类型判断方法、装置及系统和行为模型建立装置 - Google Patents

邮件类型判断方法、装置及系统和行为模型建立装置 Download PDF

Info

Publication number
CN101079851A
CN101079851A CNA2007101280866A CN200710128086A CN101079851A CN 101079851 A CN101079851 A CN 101079851A CN A2007101280866 A CNA2007101280866 A CN A2007101280866A CN 200710128086 A CN200710128086 A CN 200710128086A CN 101079851 A CN101079851 A CN 101079851A
Authority
CN
China
Prior art keywords
field
mail
behavior model
characteristic vector
email type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101280866A
Other languages
English (en)
Other versions
CN101079851B (zh
Inventor
刘竟
刘峤
秦志光
郑志彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2007101280866A priority Critical patent/CN101079851B/zh
Publication of CN101079851A publication Critical patent/CN101079851A/zh
Priority to PCT/CN2008/070427 priority patent/WO2009006801A1/zh
Priority to EP08159987A priority patent/EP2015240A1/en
Priority to US12/169,864 priority patent/US20090019171A1/en
Application granted granted Critical
Publication of CN101079851B publication Critical patent/CN101079851B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及互联网技术,公开了邮件类型判断方法、装置及系统和行为模型建立装置,其中邮件类型判断方法,其特征在于,包括:读取分类未知邮件的邮件头;从所述邮件头提取符合预置条件一的字段一;将所述字段一与其表现形式组合向量化,得到预置数量一的特征向量一;以所述特征向量一为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;根据所述计算结果对所述分类未知邮件的邮件类型进行判断。与方法对应的,本发明实施例还提供了相应的装置、系统。使用本发明提供的实施例,提高对邮件的邮件类型判断的速度。

Description

邮件类型判断方法、装置及系统和行为模型建立装置
技术领域
本发明涉及互联网技术,具体涉及邮件类型判断方法、装置及系统和行为模型建立装置。
背景技术
电子邮件作为互联网的第一大应用,一直受到广大网民的青睐。但是,近些年来,垃圾邮件问题日益严重。垃圾邮件的基本特征是“不请自来”,而且大部分垃圾邮件都带有商业或者其他宣传目的。同时,垃圾邮件的判定和邮件的接收者有很大关系,不同用户对同一邮件的判断结果可能会存在差异。随着技术的进步,垃圾邮件的过滤技术正由单一基于静态规则和统计分类向着基于行为的过滤技术方向转变。
现有的主流的垃圾邮件过滤方法都是基于邮件内容的,一种垃圾邮件的过滤方法是基于学习矢量量化(Learning Vector Quantization,LVQ)的,LVQ是一种由芬兰学者提出的有监督神经网络,是一种在监督状态下对竞争层进行训练的一种学习方法,通过学习,LVQ将输入向量中与目标向量相近的分离出来。LVQ是一种根据样本模式的特性进行“奖/惩”的迭代学习算法。
其基本思想是:先要设置一个训练集,训练集的数据是由分类已知邮件的邮件体部分向量化后得到的,对于来自训练集中的矢量,如果与最近神经元属同一类,则无需学习,具体过程是这样的:将来自训练集中的向量作为输入,采用LVQ算法进行计算,如果计算结果符合预置的要求,则说明与最近神经元属同一类,则不用对算法的参数进行修改。否则将惩罚分类错误的神经元,奖励分类正确的神经元,如果计算结果不符合预置的规定,则需要对LVQ算法中的参数进行修改,神经网络是由多个神经元构成的,对于计算结果正确的神经元,则可以对其进行奖励,采用与奖励对应的迭代公式进行迭代;如果计算结果错误,则对其进行惩罚,采用与惩罚对应的迭代公式进行迭代。经若干次迭代,所得矢量集合不再有明显变化,即计算结果都符合预置要求,说明对这个训练集的训练完成。
在对邮件进行过滤时,对邮件内容进行分词,计算每个词的词频,然后以每个词的词频作为输入值,使用训练得到的参数,采用LVQ算法进行计算,对计算得到的值进行判断,如果值与1相近则该邮件为垃圾邮件,反之如果与0接近则该邮件为非垃圾邮件,从而完成对垃圾邮件的过滤。
在实现本发明的过程中,发明人发现现有技术至少存在如下缺陷:
邮件体内容多,且变化多,将会导致训练慢且训练集不完整等问题,可能导致过滤得准确率不高;并且,由于邮件体的内容及格式都是不定的,可能会造成邮件判断速度慢;进一步,非中文邮件等邮件的邮件体会被表示成零向量,从而认为该邮件为正常邮件,因而当垃圾邮件也被表示成零向量时,无法对其进行过滤,进一步降低了过滤的正确率。
发明内容
本发明实施例提供邮件类型判断方法、装置及系统和行为模型建立装置,提高对邮件的邮件类型判断的速度。
本发明实施例的目的是通过以下技术方案实现的:
本发明实施例提供了一种邮件类型判断方法,包括:
读取分类未知邮件的邮件头;
从所述邮件头提取符合预置条件一的字段一;
将所述字段一与其表现形式组合向量化,得到预置数量一的特征向量一;
以所述特征向量一为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
本发明实施例还提供了一种行为模型建立装置,包括:
邮件头读取单元,用于读取分类已知邮件的邮件头;
字段提取单元,用于从所述邮件头提取符合预置条件的字段;
向量化单元,用于将所述字段向量化得到预置数量的特征向量;
行为模型建立单元,用于将所述特征向量按预置学习算法建立行为模型。
与方法实施例对应的,本发明实施例还提供了一种邮件类型判断装置,包括:
邮件头读取单元,用于读取分类未知邮件的邮件头;
字段一提取单元,用于从所述邮件头提取符合预置条件一的字段一;
第一向量化单元,用于将所述字段一向量化得到预置数量一的特征向量一;
计算单元,用于以所述特征向量一作为输入,采用预先建立的行为模型
保存的数据,使用预置预测算法进行计算,得到计算结果;
判断单元,用于根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
相应的,本发明实施例还提供了一种邮件类型判断系统,包括:
行为模型建立装置,用于建立用于邮件类型判断的行为模型,所述行为模型的建立是通过:读取分类已知邮件的邮件头,从所述分类已知邮件的邮件头中提取符合预置条件的字段,将所述字段向量化后得到的预置数量的特征向量,按照预置的学习算法建立的;
邮件类型判断装置,用于读取分类未知邮件的邮件头,从所述分类未知
邮件的邮件头提取符合所述预置条件的字段,将所述字段向量化得到所述预置数量的特征向量,以所述特征向量作为输入,采用所述行为模型保存的数据使用预置预测算法进行计算,根据计算结果对邮件类型进行判断。
从本发明实施例提供的以上技术方案可以看出,本发明实施例采用分类已知邮件的邮件头建立行为模型,并且使用该行为模型对分类未知邮件的邮件类型进行判断,由于是将邮件头中特定字段向量化,而邮件头需要符合SMTP协议,所以在邮件类型判断时,需要判断的字段都是预先设定的,对邮件类型进行判断时,判断速度较快;进一步,因为是采用邮件头建立的行为模型,因而不管邮件体是采用哪种语言,都可以采用该行为模型进行判断。
附图说明
图1为本发明实施例中行为模型建立装置实施例一的结构图;
图2为本发明实施例中邮件类型判断方法实施例一的流程图;
图3为本发明实施例中邮件类型判断方法实施例三的流程图;
图4为本发明实施例中邮件类型判断装置实施例一的结构图;
图5为本发明实施例中邮件类型判断装置实施例二的结构图;
图6为本发明实施例中邮件类型判断系统实施例一的结构图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
如图1所示,本发明提供的行为模型建立装置实施例一包括:
邮件头读取单元101,用于读取分类已知邮件的邮件头;
先介绍邮件头,邮件头是在邮件传递过程中,按照简单邮件传输协议(SMTP:Simple Message Transfer Protocol)由邮件服务器之间传输的一些信令交互,一般情况下,这些内容对邮件撰写者和邮件接收者是不可见的;因为是按照SMTP协议传输,因而为了保证邮件的正常传递,邮件头部分的内容是格式化的,并且其中的一些字段也是按照SMTP协议要求预先设置好的;分类已知邮件是指邮件的分类是已知的,也就是该邮件是正常邮件还是垃圾邮件是已经确定的;
字段提取单元102,用于从邮件头提取符合预置条件的字段;邮件头都是符合SMTP协议要求的,因而一些字段是在每一个邮件的邮件头中都有的,按照SMTP协议,在邮件头中如下一些字段是容易被伪造的:来自域字段(From field)、接收域字段(To field)、应答地址域字段(Reply-Tofield)、传输域字段(Delivered-To field)、回复路径域字段(Return-Path field)、接收地址域字段(Received field)和时间域字段(Date field);其中From Field包括发送人邮件地址,To Field包括接收人邮件地址,Reply-To Field包括答复邮件地址(即让收件人应答的邮件地址),Return-Path Field包括由邮件转发过程中由最后一个服务器添加的最终发信人的邮件地址;因为这些字段容易被伪造,所以在对邮件分类的时候使用的预置条件就可以全部或部分选取这些字段,当然也不仅限于这些字段;
向量化单元103,用于将字段向量化得到预置数量的特征向量;
在提取了符合预置条件的字段后,根据每个字段不同情况组合得到若干种组合,例如,对于一封邮件,如果其某些字段满足某个组合,则这个组合的值就为1,否则为0;这样每封邮件都得到一系列的值,这一系列的值就是特征向量值,这个计算过程为向量化的过程;
例如,在邮件头中的前述字段可能会出现如下情况,即表现形式:1)没有这个字段;2)有这个字段,但是该字段的值为空;3)发送人邮件地址的用户名为空,比如@zhangsan.com;4)发送人邮件地址的域名为空;5)发送人邮件地址的格式不正确,比如包含“*”,等非法字符;6)根据其邮件地址域名查不到其DNS记录;7)发送人邮件地址中包含有两个@符号;8)发送人邮件地址中没有@符号;9)发送人邮件地址中只有@符号,而没有用户名和域名;10)Date里面的数据值过老;11)Received个数太多,也就是经过的路由太多;
这样就有11种情况,再对应7个字段,这样就可以组合成77种特征,因而可以将这些字段向量化可以得到77个特征向量,但是,在实际应用中,有的字段并不会出现上述的全部11种情况,例如Date Field只能对应上面的1)、2)和10)这三种情况;并且,对有的字段进行组合判断的效果更好;因而77种的效果不一定是最好,可以根据具体的情况确定应该选取多少种;
行为模型建立单元104,用于将特征向量按预置学习算法建立行为模型;
在得到了字段向量化的特征向量后,就可以将这些特征向量组成一个特征向量组作为输入,采用预置的学习算法进行计算,从而得到参数,将这些参数保存在行为模型中,行为模型可见的是一个文件,保存了在邮件类型判断过程中需要用到的参数,这些参数是与预置算法相关的,使用预置预测算法对邮件类型进行判断时就会调用这些参数;这些参数是在建立该行为模型时保存的,即在使用预置学习算法学习的过程中计算得到的,随着学习过程中的输入数据不断的改变,这些参数也是不断的改变的,随着学习样本的不断完善,输入数据的不断合理化,这些参数的准确性及有效性会不断的提高,因而相应的提高预置预测算法计算的准确率。
从上可知,采用本发明实施例提供的行为模型的建立装置,可以采用邮件头的信息建立起进行邮件类型判断时需要的行为模型,由于邮件头需要符合SMTP协议,不会出现建立行为模型是训练慢或训练集不完整等问题;进一步,在邮件类型判断时,需要判断的字段都是可以预先设定的,因而对邮件类型进行判断时,速度较快;进一步,因为是采用邮件头建立行为模型,因而不管邮件体是采用哪种语言,都可以采用该行为模型进行判断。
本发明进一步提供了一种采用支持向量机(SVM:Support VectorMachine)建立行为模型的实施例,先介绍一下SVM,SVM是一种基于数据的机器学习方法,是建立在统计学习理论的VC维(Vapnik-ChervonenkisDimension)理论和结构风险最小原理(Structural Risk Minimization InductivePrinciple)基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(Generalization Ability),主要有如下优点:首先,它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;其次,算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;再次,算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space),在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关;在SVM方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯分类器、径向基函数(Radial Basic Function或RBF)方法、多层感知器网络等许多现有学习算法,能较好地解决小样本、非线性、高维数和局部极小点等实际问题。
在采用SVM建立行为模型的本实施例中,采用实施例一中描述的7个字段,因为From field、To field、Reply-To field、Delivered-To field和Return-Pathfield的表示格式相同,在此我们可以将这5个字段两两结合成十种组合;加上上述的7个字段就是17个组合,再与实施例一中描述的11种情况结合就可以提取若干种特征;当然在实际应用中可能不止有上述的11种情况,同时也可以根据具体应用情况选取不同的特征数量。在本实例中,经过不断的测试,选取的特征数量为106。
这样在建立行为模型时,从邮件头中提取出上述的7个字段,组成17种组合,然后与11种情况结合就可以将邮件头拆分成106种特征向量;然后就可以使用拆分成的106种特征向量采用SVM学习算法建立行为模型。
如图2所示,本发明提供的邮件类型判断的实施例一包括:
步骤201、读取分类未知邮件的邮件头;
步骤202、从邮件头提取符合预置条件一的字段一;
字段一可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其组合,当然也可以不限于这些字段,而为了能够准确的识别出分类未知邮件的邮件类型,需要对提取的字段一设置预置条件一,即要与建立行为模型时所提取的字段相同;
步骤203、将字段一与其表现形式组合向量化,得到预置数量一的特征向量一;
向量化的过程与建立行为模型时一样,当然得到的特征向量的数量也与建立行为模型时一样,从而能够与行为模型对应,保证判断的正确率;
步骤204、以特征向量一为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
在得到邮件头向量化后得到的向量后,将这些特征向量组成一个特征向量组作为输入,采用预置的预测算法计算得到计算结果,其中预测算法的参数是采用行为模型中的参数,因为行为模型是经过不断的训练得出的,并且其中的参数是随着训练不断的优化,因而采用这些参数可以正确的进行计算;进一步,使行为模型中经过优化的特征向量组的各个特征向量值参与预测算法运算,从而使计算结果更为准确;
其中预置的预测算法要与建立行为模型时采用的学习算法对应,例如建立行为模型时采用的是SVM学习算法,那么该预测算法可以采用SVM预测算法;当建立行为模型时采用基于径向基函数(RBF:Radial Basis Function)学习算法,相应的,该预测算法也可以采用RBF预测算法;当然,在实际应用中,学习算法和预测算法并不一定需要对应,例如采用SVM学习算法建立了行为模型,在实际应用中如果有一种预测算法的计算效果比SVM预测算法的效果更好,就可以在判断时采用这种预测算法;
以只将邮件分为垃圾邮件和非垃圾邮件这两个类型为例,以SVM预测算法进行计算的主要过程是这样的:因为只有两个类型,所以将数据分为两类,数据所属的类标号被重新标记为1或0,针对这两类训练出一个模型。预测时,将测试样本用所有训练好的模型进行预测,根据预测值为0还是1,表明测试样本的归属;
用数学问题表示如下:
目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远;假设该平面方程为y=wx+b。则最主要是求出w和b;
解决方法:构造一个在约束条件下的优化问题,具体的说是一个受限二次规划问题(constrained quadratic programming),求解该问题,得到分类器;
模型建立:子模块先对训练集中的邮件进行邮件向量化,然后利用支持向量机的思想进行建模;具体可以采用C-支持向量(c-svc)分类机,利用该分类机的对偶函数计算以下主要参数;
r 1 = &Sigma; 0 < &alpha; < C , yi = 1 &dtri; f ( &alpha; ) i &Sigma; 0 < &alpha; < C , yi = 1 1
&rho; = r 1 + r 2 2
最后得到分类机的决策函数,并将主要参数和决策信息存入模型文件中,供后面的判断模块调用;其中模型文件中的内容包括:
主要参数即为行为模型中的参数,决策信息为经过修改的邮件特征向量的值;
预测过程:
首先对待处理的邮件进行邮件向量化,然后读取模型文件中的上述两部分内容,并将其代入决策函数:
f ( x ) = sgn ( &Sigma; i = 0 l &alpha; i y i K ( x , x i ) + b )
其中
               K(xi,xj)=exp(-γ‖xi-xj2),γ>0
最后根据获得的f(x)的值来确定分类结果;
步骤205、根据计算结果对分类未知邮件的邮件类型进行判断;
通过预测算法计算后,就可以得到一个值,根据预置行为模型中的邮件头向量化时的规定,可以得到该邮件的分类。例如,在建立行为模型时正常邮件的值为1,则当计算结果为1是认定分类未知邮件为正常邮件;反之,当计算结果为0是认定分类未知邮件为垃圾邮件;当然,也可以任意选取其他整数值进行分类标识,主要由建立行为模型时正常邮件和垃圾邮件所采用的值确定。
从上可知,本实施例在将邮件头向量化后,使用预先训练建立的行为模型保存的数据,采用与建立行为模型采用的学习算法对应的预测算法进行计算,得出计算结果,从而根据计算结果对邮件类型进行判断,由于邮件头需要符合SMTP协议,所以在邮件类型判断时,需要判断的字段都是预先设定的,对邮件类型进行判断时,判断速度较快;进一步,因为是采用邮件头建立的行为模型,因而不管邮件体是采用哪种语言,都可以采用该行为模型进行判断。
与建立行为模型的实施例二对应,本发明也提供了判断邮件类型的方法实施例二:在接收到一个邮件后,从邮件头中提取对应的7个字段,将这些字段向量化得到106个特征向量,然后将这些向量作为输入,使用建立好的行为模型保存的数据,采用SVM预测算法进行计算,然后对计算结果进行判断,如果为1,则说明该邮件为正常邮件,反之为垃圾邮件。
如图3所示,本发明提供的判断邮件类型的方法实施例三包括:
步骤301、读取分类未知邮件的邮件头和邮件体;
步骤302、从邮件头提取符合预置条件一的字段一,从邮件体提取符合预置条件二的字段二;
邮件体的操作与邮件头的操作过程类似,但是对邮件体所选取的字段是与现有技术相类似的,即从邮件体中选取相应的关键字;
步骤303、将字段一与其表现形式组合向量化,得到预置数量一的特征向量一,将字段二与其表现形式组合向量化,得到预置数量二的特征向量二;
关键字的表现形式有:有这个关键字,没有这个关键字,这个关键字出现的次数等;
步骤304、以特征向量一和特征向量二为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
步骤305、根据计算结果对分类未知邮件的邮件类型进行判断;
在本实施例中,增加了对分类未知邮件的邮件体的处理,使对邮件类型进行判断时,可以综合邮件头和邮件体的内容进行判断,从而使判断更加准确。
图4描述的是本发明提供的邮件类型判断装置的实施例一,包括:
邮件头读取单元401,用于读取分类未知邮件的邮件头;
字段一提取单元402,用于从邮件头提取符合预置条件一的字段一;
这些字段也可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其组合,当然也可以不限于这些字段,但是要与建立行为模型时提取的字段相同;
第一向量化单元403,用于将字段一向量化得到预置数量一的特征向量一;
向量化的过程与建立行为模型时一样,得到的特征向量的数量也与建立行为模型时相同;
计算单元404,用于以特征向量一作为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
其中预置的预测算法的相关信息是由建立行为模型时采用的学习算法决定的,保存在行为模型中,在得到邮件头向量化后得到的向量后,将这些向量作为输入,使用预先建立的行为模型保存的数据,采用预置的预测算法计算得到计算结果;
判断单元405,用于根据计算结果对所述分类未知邮件的邮件类型进行判断;
通过预测算法计算后,就可以得到一个值,一般情况下,这个值可以是1或0,根据行为模型中参数的不同,当计算结果为1是认定该邮件为正常邮件,也可以当计算结果为0时认定该邮件为垃圾邮件,当然在实际应用中也可以不限于1或0,具体如何取值由建立行为模型时正常邮件和垃圾邮件所采用的值确定;
从上可知,本实施例在将邮件头向量化后,使用预先训练建立的行为模型保存的数据,采用与建立行为模型采用的学习算法对应的预测算法进行计算,得出计算结果,从而根据计算结果对邮件类型进行判断,由于邮件头需要符合SMTP协议,所以在邮件类型判断时,需要判断的字段都是预先设定的,对邮件类型进行判断时,速度不会很慢;进一步,因为是采用邮件头建立的行为模型,因而不管邮件体是采用哪种语言,都可以采用该行为模型进行判断。
进一步,本发明还提供了判断邮件类型的装置实施例二,如图5所示,包括:
邮件头读取单元501,用于读取分类未知邮件的邮件头;
邮件体读取单元502,用于读取分类未知邮件的邮件体;
字段一提取单元503,用于从邮件头提取符合预置条件一的字段一;
字段二提取单元504,用于从邮件体提取符合预置条件二的字段二;
第一向量化单元505,用于将字段一向量化得到预置数量一的特征向量一;
第二向量化单元506,用于将字段二向量化得到预置数量二的特征向量二;
计算单元507,用于以特征向量一和特征向量二为输入,采用行为模型保存的数据使用预置预测算法进行计算,得到计算结果;
判断单元508,用于根据计算结果对所述分类未知邮件的邮件类型进行判断;
在本实施例中,增加了对分类未知邮件的邮件体的处理,使对邮件类型进行判断时,可以综合邮件头和邮件体的内容进行判断,从而使判断更加准确。
进一步,本发明提供了邮件类型判断系统的实施例一,如图6所示,包括:
行为模型建立装置601,用于建立用于邮件类型判断的行为模型,所述行为模型的建立是通过:读取分类已知邮件的邮件头,从所述分类已知邮件的邮件头中提取符合预置条件的字段,将所述字段向量化后得到的预置数量的特征向量,按照预置的学习算法建立的;
邮件类型判断装置602,用于读取分类未知邮件的邮件头,从所述分类未知邮件的邮件头提取符合所述预置条件的字段,将所述字段向量化得到所述预置数量的特征向量,以所述特征向量作为输入,采用所述行为模型保存的数据使用预置预测算法进行计算,根据计算结果对邮件类型进行判断;
在实际应用中,行为模型建立装置和邮件类型判断装置中的提取邮件头、提取字段、以及向量化所采用的功能单元可以共用,从而减少邮件类型判断系统的投入;
使用邮件类型判断系统的该实施例,可以采用分类已知邮件的邮件头建立行为模型,并且可以采用该行为模型对分类未知邮件的邮件类型进行判断,由于是将邮件头中特定字段向量化,而邮件头需要符合SMTP协议,所以在邮件类型判断时,需要判断的字段都是预先设定的,对邮件类型进行判断时,速度不会很慢;进一步,因为是采用邮件头建立的行为模型,因而不管邮件体是采用哪种语言,都可以采用该行为模型进行判断。
以上对本发明实施例所提供的邮件类型判断方法、装置及系统和行为模型建立装置进行了详细介绍,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1、一种邮件类型判断方法,其特征在于,包括:
读取分类未知邮件的邮件头;
从所述邮件头提取符合预置条件一的字段一;
将所述字段一与其表现形式组合向量化,得到预置数量一的特征向量一;
以所述特征向量一为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
2、如权利要求1所述的邮件类型判断方法,其特征在于:
进一步读取所述分类未知邮件的邮件体;从所述邮件体提取符合预置条件二的字段二;将所述字段二向量化得到预置数量二的特征向量二;
以所述特征向量一为输入时,进一步以所述特征向量二为输入,采用所述行为模型保存的数据,使用预置预测算法进行计算,得到所述计算结果。
3、如权利要求1所述的邮件类型判断方法,其特征在于,所述行为模型是采用如下步骤建立的:
读取分类已知邮件的邮件头;
从所述分类已知邮件的邮件头提取符合预置条件三的字段三;
将所述字段三向量化得到预置数量三的特征向量三;
将所述特征向量三按预置学习算法一建立所述行为模型。
4、如权利要求3所述的邮件类型判断方法,其特征在于,所述字段三与所述字段一相同。
5、如权利要求1至4任一所述的邮件类型判断方法,其特征在于,所述字段一包括:
来自域字段、接收域字段、应答地址域字段、传输域字段、回复路径域字段、接收地址域字段和时间域字段中任一或其组合。
6、如权利要求3或4所述的邮件类型判断方法,其特征在于,所述数量三与所述数量一相同。
7、一种行为模型建立装置,其特征在于,包括:
邮件头读取单元,用于读取分类已知邮件的邮件头;
字段提取单元,用于从所述邮件头提取符合预置条件的字段;
向量化单元,用于将所述字段向量化得到预置数量的特征向量;
行为模型建立单元,用于将所述特征向量按预置学习算法建立行为模型。
8、一种邮件类型判断装置,其特征在于,包括:
邮件头读取单元,用于读取分类未知邮件的邮件头;
字段一提取单元,用于从所述邮件头提取符合预置条件一的字段一;
第一向量化单元,用于将所述字段一向量化得到预置数量一的特征向量一;
计算单元,用于以所述特征向量一作为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;
判断单元,用于根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
9、如权利要求8所述的邮件类型判断装置,其特征在于,还包括:
邮件体读取单元,用于读取所述分类未知邮件的邮件体;
字段二提取单元,用于从所述邮件体提取符合预置条件二的字段二;
第二向量化单元,用于将所述字段二向量化得到预置数量二的特征向量二;
所述计算单元,用于以所述特征向量一和特征向量二为输入,采用所述行为模型保存的数据使用预置预测算法进行计算,得到计算结果。
10、一种邮件类型判断系统,其特征在于,包括:
行为模型建立装置,用于建立用于邮件类型判断的行为模型,所述行为模型的建立是通过:读取分类已知邮件的邮件头,从所述分类已知邮件的邮件头中提取符合预置条件的字段,将所述字段向量化后得到的预置数量的特征向量,按照预置的学习算法建立的;
邮件类型判断装置,用于读取分类未知邮件的邮件头,从所述分类未知邮件的邮件头提取符合所述预置条件的字段,将所述字段向量化得到所述预置数量的特征向量,以所述特征向量作为输入,采用所述行为模型保存的数据使用预置预测算法进行计算,根据计算结果对邮件类型进行判断。
CN2007101280866A 2007-07-09 2007-07-09 邮件类型判断方法、装置及系统 Expired - Fee Related CN101079851B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2007101280866A CN101079851B (zh) 2007-07-09 2007-07-09 邮件类型判断方法、装置及系统
PCT/CN2008/070427 WO2009006801A1 (fr) 2007-07-09 2008-03-06 Procédé de détermination du type de courrier électronique et dispositif et système utilisant celui-ci
EP08159987A EP2015240A1 (en) 2007-07-09 2008-07-09 Method, device and system for determining mail class
US12/169,864 US20090019171A1 (en) 2007-07-09 2008-07-09 Method, device and system for determining mail class

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101280866A CN101079851B (zh) 2007-07-09 2007-07-09 邮件类型判断方法、装置及系统

Publications (2)

Publication Number Publication Date
CN101079851A true CN101079851A (zh) 2007-11-28
CN101079851B CN101079851B (zh) 2011-01-05

Family

ID=38907087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101280866A Expired - Fee Related CN101079851B (zh) 2007-07-09 2007-07-09 邮件类型判断方法、装置及系统

Country Status (4)

Country Link
US (1) US20090019171A1 (zh)
EP (1) EP2015240A1 (zh)
CN (1) CN101079851B (zh)
WO (1) WO2009006801A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009006801A1 (fr) * 2007-07-09 2009-01-15 Huawei Technologies Co., Ltd. Procédé de détermination du type de courrier électronique et dispositif et système utilisant celui-ci
CN102118383A (zh) * 2009-12-30 2011-07-06 凹凸电子(武汉)有限公司 识别电子邮件的方法及识别电子邮件服务器的方法
CN103473219A (zh) * 2013-09-09 2013-12-25 武汉传神信息技术有限公司 基于邮件信息判定邮件语种的方法
CN103490979A (zh) * 2013-09-03 2014-01-01 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN104796318A (zh) * 2014-07-30 2015-07-22 北京中科同向信息技术有限公司 一种行为模式识别技术
CN105992178A (zh) * 2015-02-06 2016-10-05 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN106850415A (zh) * 2017-03-17 2017-06-13 盐城工学院 邮件分类方法及装置
CN106997367A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN109410069A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
CN110610213A (zh) * 2019-09-20 2019-12-24 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质
CN111492388A (zh) * 2017-12-22 2020-08-04 微软技术许可有限责任公司 用于确定可动作意图的ai系统
CN112384938A (zh) * 2018-05-07 2021-02-19 谷歌有限责任公司 基于接收方的电子消息的文本预测

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8715917B2 (en) 2012-10-04 2014-05-06 International Business Machines Corporation Simultaneous photoresist development and neutral polymer layer formation
CN106960248B (zh) * 2016-01-08 2021-02-23 阿里巴巴集团控股有限公司 一种基于数据驱动预测用户问题的方法及装置
CN109460738B (zh) * 2018-11-14 2019-09-27 吉林大学 一种基于无损失函数的深度卷积神经网络的路面类型估算方法
CN109766436A (zh) * 2018-12-04 2019-05-17 北京明略软件系统有限公司 一种数据表的字段与知识库的数据元匹配的方法和装置
CN109800433B (zh) * 2019-01-24 2023-11-10 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
JP2002330414A (ja) * 2001-05-02 2002-11-15 Fkd Lab:Kk インターネット広告方法及び装置
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
JP2005209106A (ja) * 2004-01-26 2005-08-04 Nec Corp 携帯通信端末、受信メール管理方法、プログラムおよび記録媒体
US7412483B2 (en) * 2005-01-07 2008-08-12 International Business Machines Corporation Automated email activity management
CN101079851B (zh) * 2007-07-09 2011-01-05 华为技术有限公司 邮件类型判断方法、装置及系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009006801A1 (fr) * 2007-07-09 2009-01-15 Huawei Technologies Co., Ltd. Procédé de détermination du type de courrier électronique et dispositif et système utilisant celui-ci
CN102118383A (zh) * 2009-12-30 2011-07-06 凹凸电子(武汉)有限公司 识别电子邮件的方法及识别电子邮件服务器的方法
CN103490979A (zh) * 2013-09-03 2014-01-01 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN103490979B (zh) * 2013-09-03 2016-09-14 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN103473219A (zh) * 2013-09-09 2013-12-25 武汉传神信息技术有限公司 基于邮件信息判定邮件语种的方法
CN103473219B (zh) * 2013-09-09 2017-02-08 语联网(武汉)信息技术有限公司 基于邮件信息判定邮件语种的方法
CN104796318A (zh) * 2014-07-30 2015-07-22 北京中科同向信息技术有限公司 一种行为模式识别技术
CN105992178A (zh) * 2015-02-06 2016-10-05 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN105992178B (zh) * 2015-02-06 2019-06-25 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN106997367A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
CN106997367B (zh) * 2016-01-26 2020-05-08 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
US10762194B2 (en) 2016-01-26 2020-09-01 Huawei Technologies Co., Ltd. Program file classification method, program file classification apparatus, and program file classification system
CN106453033B (zh) * 2016-08-31 2019-03-15 电子科技大学 基于邮件内容的多层次邮件分类方法
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN106850415A (zh) * 2017-03-17 2017-06-13 盐城工学院 邮件分类方法及装置
CN106850415B (zh) * 2017-03-17 2021-01-05 盐城工学院 邮件分类方法及装置
CN111492388A (zh) * 2017-12-22 2020-08-04 微软技术许可有限责任公司 用于确定可动作意图的ai系统
CN112384938A (zh) * 2018-05-07 2021-02-19 谷歌有限责任公司 基于接收方的电子消息的文本预测
CN109410069A (zh) * 2018-09-03 2019-03-01 平安医疗健康管理股份有限公司 结算数据处理方法、装置、计算机设备和存储介质
CN110610213A (zh) * 2019-09-20 2019-12-24 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN101079851B (zh) 2011-01-05
EP2015240A1 (en) 2009-01-14
US20090019171A1 (en) 2009-01-15
WO2009006801A1 (fr) 2009-01-15

Similar Documents

Publication Publication Date Title
CN101079851A (zh) 邮件类型判断方法、装置及系统和行为模型建立装置
Yang et al. Deep learning based steel pipe weld defect detection
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
Wan et al. An improved VGG19 transfer learning strip steel surface defect recognition deep neural network based on few samples and imbalanced datasets
CN102509039A (zh) 实时多引擎选择和组合
Cheema et al. Smart waste management and classification systems using cutting edge approach
TW200949570A (en) Method for filtering e-mail and mail filtering system thereof
Gondal et al. Real time multipurpose smart waste classification model for efficient recycling in smart cities using multilayer convolutional neural network and perceptron
CN1700238A (zh) 在彩色数字图像和视频中分割出人体皮肤区域的方法
JP6649174B2 (ja) 分類器の分類結果を改善する方法
Peršak et al. Vision-based sorting systems for transparent plastic granulate
CN109800852A (zh) 一种多模态的垃圾邮件识别方法
Xu et al. Cutting pattern identification for coal mining shearer through a swarm intelligence–based variable translation wavelet neural network
Alarcón et al. Sustainability vs. Circular economy from a disposition decision perspective: A proposal of a methodology and an applied example in SMEs
CN107958219A (zh) 基于多模型和多尺度特征的图像场景分类方法
Chen et al. Microstructure instance segmentation from aluminum alloy metallographic image using different loss functions
CN1374623A (zh) 图像处理设备
Jayasudha et al. Accurate estimation of tensile strength of 3D printed parts using machine learning algorithms
Huang et al. Identification and classification of aluminum scrap grades based on the Resnet18 model
Patrizi et al. Data augmentation using background replacement for automated sorting of littered waste
Baraheem et al. AI vs. AI: Can AI Detect AI-Generated Images?
CN115761259B (zh) 基于类别平衡损失函数的厨余垃圾目标检测方法和系统
Wang et al. A Low-Complexity Fast CU Partitioning Decision Method Based on Texture Features and Decision Trees
González-Hidalgo et al. Impulsive noise removal with an adaptive weighted arithmetic mean operator for any noise density
Giel et al. A fuzzy multi-criteria model for municipal waste treatment systems evaluation including energy recovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110105

Termination date: 20150709

EXPY Termination of patent right or utility model