CN105550295B - 分类模型优化方法及装置 - Google Patents

分类模型优化方法及装置 Download PDF

Info

Publication number
CN105550295B
CN105550295B CN201510919923.1A CN201510919923A CN105550295B CN 105550295 B CN105550295 B CN 105550295B CN 201510919923 A CN201510919923 A CN 201510919923A CN 105550295 B CN105550295 B CN 105550295B
Authority
CN
China
Prior art keywords
feature
mail
data set
disaggregated model
targeted mails
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510919923.1A
Other languages
English (en)
Other versions
CN105550295A (zh
Inventor
汪平仄
张涛
侯文迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510919923.1A priority Critical patent/CN105550295B/zh
Publication of CN105550295A publication Critical patent/CN105550295A/zh
Application granted granted Critical
Publication of CN105550295B publication Critical patent/CN105550295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种分类模型优化方法及装置,属于信息技术领域。方法包括:根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将目标邮件存储于第一类别标识对应的第一邮件文件夹中,当检测到将目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时,确定第二邮件文件夹对应的第二类别标识,根据目标邮件的至少一项特征集合,获取目标邮件的特征向量,根据目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过根据目标邮件对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率,达到了准确分类邮件的效果。

Description

分类模型优化方法及装置
技术领域
本公开涉及信息技术领域,尤其涉及一种分类模型优化方法及装置。
背景技术
随着社交圈的规模越来越大,用户在工作或生活中经常会收到很多邮件,如会议邮件、广告邮件等。为了便于进行管理,通常需要对邮件进行分类。
分类时,用户会先创建多个邮件文件夹,并设置好邮件分类规则,即每个邮件文件夹所对应的邮件特征集合。每当接收到一个邮件时,分析邮件的内容来获取该邮件的特征集合,根据设置好的邮件分类规则,确定与该邮件的特征集合匹配的邮件文件夹,并将该邮件存储于匹配的邮件文件夹中,从而实现对该邮件的分类。
发明内容
为克服相关技术中存在的问题,本公开提供一种分类模型优化方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种分类模型优化方法,所述方法包括:
根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中;
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
在另一实施例中,所述根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1;
根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练,得到所述第二分类模型。
在另一实施例中,所述方法还包括:
根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
在另一实施例中,所述根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
根据所述第一特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第二分类模型,包括:
对所述第一特征数据集进行降维,得到第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述对所述第一特征数据集进行降维,得到第二特征数据集,包括:
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应;
对于每个特征维度标识,
确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述确定所述特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增益类别标识;
删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识;
根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述对所述第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第二分类模型,包括:
对初始分类模型的权重参数进行初始化;
根据当前的分类模型的权重参数,对所述第一特征数据集中第一特征向量进行分类,得到估计类别标识;
获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差;
如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第二分类模型。
在另一实施例中,所述方法还包括:
基于所述第一分类模型,对所述目标邮件进行分类。
在另一实施例中,所述基于所述第一分类模型,对所述目标邮件进行分类,包括:
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
根据本公开实施例的第二方面,提供一种分类模型优化装置,包括装置包括:
存储模块,用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中;
确定模块,用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
获取模块,用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
训练模块,用于根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
在另一实施例中,所述训练模块还用于按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1,根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练,得到所述第二分类模型。
在另一实施例中,所述获取模块还用于根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
所述确定模块还用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
在另一实施例中,所述训练模块还用于将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据所述第一特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述训练模块还用于对所述第一特征数据集进行降维,得到第二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述训练模块还用于确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述训练模块还用于基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增益类别标识,删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述训练模块还用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述训练模块还用于对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对所述第一特征数据集中第一特征向量进行分类,得到估计类别标识,获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差,如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第二分类模型。
在另一实施例中,所述装置还包括:
分类模块,用于基于所述第一分类模型,对所述目标邮件进行分类。
在另一实施例中,所述分类模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
根据本公开的第三方面,提供一种分类模型优化装置,所述装置包括:
处理器;
用于存储处理器可执行的指令的存储器;
其中,所述处理器被配置为:
根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中;
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
本公开的实施例提供的技术方案可以包括以下有益效果:
本实施例提供的方法及装置,通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中,当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过在用户移动目标邮件时,根据目标邮件对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率,达到了准确分类邮件的效果。
在另一实施例中,通过按照预设权重,预设权重大于1,对目标邮件的特征向量进行调整,根据调整后的特征向量、第二类别标识、多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过在训练第二分类模型时先调整目标邮件的特征向量,以增强目标邮件对训练出的分类模型的影响程度,使得训练出的第二分类模型可以体现用户的分类习惯,从而提高了分类邮件的准确率。
在另一实施例中,通过根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。通过获取样本邮件的特征向量以及该样本邮件的类别标识,使得基于第二分类模型得到的分类结果更加接近用户的分类习惯,降低了分类结果与用户的分类习惯不同的概率,提高了用户管理邮件的效率。
在另一实施例中,该根据每个样本邮件的特征向量以及类别标识进行训练,得到第二分类模型,包括:将该目标邮件的特征向量和第二类别标识、多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据该第一特征数据集进行训练,得到该第二分类模型。通过汇总目标邮件的特征向量、第二类别标识、每个样本邮件的特征向量以及用户对样本邮件进行分类所确定的类别标识,组合成第一特征数据集,再对第一特征数据集进行训练得到第二分类模型,使得基于第二分类模型得到的分类结果更加接近用户的分类习惯,降低了分类结果与用户的分类习惯不同的概率,提高了用户管理邮件的效率。
在另一实施例中,根据该第一特征数据集进行训练,得到该第二分类模型,包括:对该第一特征数据集进行降维,得到第二特征数据集,对该第二特征数据集进行归一化,得到第三特征数据集,根据该第三特征数据集进行训练,得到该第二分类模型。通过对第一特征数据集进行降维和归一化的处理后,得到第三特征数据集,减少了训练工作量,提高了训练效率。
在另一实施例中,对该第一特征数据集进行降维,得到第二特征数据集,包括:确定该第一特征数据集中的每个特征维度标识,对于每个特征维度标识,确定该特征维度标识与每个类别标识之间的关联度,如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从该第一特征数据集中,删除该特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为该第二特征数据集。通过获取每个特征维度的特征维度标识,对于每个维度标识,确定该特征维度标识与每个类别标识的关联度,删除对邮件分类结果影响较小的特征维度,在减少工作量的同时,不影响邮件分类的准确率,提高了获取第一分类模型的效率。
在另一实施例中,在进行降维的过程中,基于当前训练得到的分类模型,对多个样本邮件的特征向量分别进行分类,得到多个增益类别标识,并且删除多个样本邮件的特征向量中特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对多个子向量分别进行分类,得到多个测试类别标识,根据多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。通过特征维度标识与每个类别标识之间的关联度,确定了每个特征维度标识对应的特征在分类邮件时影响程度的大小,可以删除一些影响程度较小的特征,既能够保证分类模型的分类准确率,也能够优化第一特征数据集,减少训练过程的计算量。
在另一实施例中,进行归一化处理时,该邮件处理装置可采用线性函数转换算法,对第二特征数据集中各个位置上的值进行归一化。通过获取到归一化的值后,在训练得到第二分类模型时,可以减少计算的复杂程度,提高训练效率。
在另一实施例中,邮件处理装置可以先对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对该第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识,并且获取该估计类别标识与该第一样本邮件对应的类别标识之间的误差。如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第二分类模型。通过对多个样本邮件进行训练,不断调整分类模型中的权重参数,从而得到准确的第二分类模型,能够提高基于第二分类模型分类邮件的准确率。
在另一实施例中,在训练得到第二分类模型后,即可基于第二分类模型,对接收到的任一邮件或者发送的任一邮件进行分类,确定对应的类别标识,实现对目标邮件的分类,提高了对目标邮件分类的准确率。
在另一实施例中,基于该第二分类模型,对目标邮件进行分类,包括:根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该特征向量和该第二分类模型,确定该目标邮件对应的类别标识。通过获取目标邮件的特征集合,生成目标邮件的特征向量,基于第二分类模型,确定目标邮件的类别标识,通过该第二分类模型,结合目标邮件的特征向量,从而确定该目标邮件的类别标识,提高了对目标邮件进行分类的准确率。
在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。通过将邮件的特征集合根据预设规则、发件用户、收件用户和标题划分为四项,使得邮件的特征集合便于管理,提高了获取邮件特征集合的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种分类模型优化方法的流程图;
图2是根据另一示例性实施例示出的一种分类模型优化方法的流程图;
图3是根据一示例性实施例示出的一种分类模型优化装置的框图;
图4是根据另一示例性实施例示出的一种分类模型优化装置的框图;
图5是根据又一示例性实施例示出的一种分类模型优化装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种分类模型优化方法的流程图,如图1所示,该分类模型优化方法用于邮件处理装置中,包括以下步骤:
在步骤101中,根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中。
在步骤102中,当检测到将该目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识。
在步骤103中,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量。
在步骤104中,根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,该第二分类模型用于对邮件进行分类。
本实施例中,如果邮件处理装置将目标邮件分类至第一邮件文件夹后,用户又将目标邮件移动至第二邮件文件夹,说明对目标邮件的分类不符合用户的分类习惯,则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及多个样本邮件的特征向量和对应的类别标识再次进行训练,进一步学习用户的分类习惯,提高了邮件分类的准确率,达到了准确分类邮件的效果。
本实施例提供的方法,通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中,当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过在用户移动目标邮件时,根据目标邮件对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率,达到了准确分类邮件的效果。
在另一实施例中,根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
按照预设权重,对该目标邮件的特征向量进行调整,该预设权重大于1;
根据调整后的特征向量、该第二类别标识、该多个样本邮件的特征向量和对应的类别标识进行训练,得到该第二分类模型。
在另一实施例中,该方法还包括:
根据该多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
在另一实施例中,根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
将该目标邮件的特征向量和该第二类别标识、该多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
根据该第一特征数据集进行训练,得到该第二分类模型。
在另一实施例中,根据该第一特征数据集进行训练,得到该第二分类模型,包括:
对该第一特征数据集进行降维,得到第二特征数据集;
对该第二特征数据集进行归一化,得到第三特征数据集;
根据该第三特征数据集进行训练,得到该第二分类模型。
在另一实施例中,对该第一特征数据集进行降维,得到第二特征数据集,包括:
确定该第一特征数据集中的每个特征维度标识,每个特征维度标识与该第一特征数据集中的多个特征向量相应位置上的特征对应;
对于每个特征维度标识,
确定该特征维度标识与每个类别标识之间的关联度;
如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从该第一特征数据集中,删除该特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为该第二特征数据集。
在另一实施例中,确定该特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对该多个特征向量分别进行分类,得到多个增益类别标识;
删除该多个特征向量中该特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对该多个子向量分别进行分类,得到多个测试类别标识;
根据该多个增益类别标识与该多个测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。
在另一实施例中,对该第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对该第二特征数据集进行归一化,得到该第三特征数据集:
其中,x为该第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,根据该第一特征数据集进行训练,得到该第二分类模型,包括:
对初始分类模型的权重参数进行初始化;
根据当前的分类模型的权重参数,对该第一特征数据集中第一特征向量进行分类,得到估计类别标识;
获取该估计类别标识与该第一特征向量对应的类别标识之间的误差;
如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第二分类模型。
在另一实施例中,该方法还包括:
基于该第一分类模型,对该目标邮件进行分类。
在另一实施例中,基于该第一分类模型,对该目标邮件进行分类,包括:
根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量;
根据该特征向量和该第一分类模型,确定该目标邮件对应的类别标识。
在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种用于邮件分类的分类模型优化方法的流程图,如图2所示,该分类模型优化方法用于邮件处理装置中,包括以下步骤:
在步骤201中,根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量。
其中,邮件处理装置可以为终端,也可以为服务器,本实施例对此不做限定。
在本实施例中,为了准确地对用户的邮件进行分类,邮件处理装置可以将用户邮箱中的多个邮件作为样本邮件,根据每个样本邮件的特征集合,获取每个样本邮件的特征向量,以便根据特征向量训练得到分类模型。
其中,该样本邮件可以包括邮件处理装置接收到的邮件或者邮件处理装置已发送的邮件,本实施例对此不做限定。
另外,该特征集合包括样本邮件在多个特征维度下的特征,样本邮件的特征维度可以包括:邮件标题中是否包含某个关键词、发件人是否在用户通讯录中、用户是收件人还是被抄送人等,本实施例对此不做限定。每个特征维度对应样本邮件的一个特征,在每个特征维度下,根据样本邮件的具体信息的不同,对应的特征也不同。
例如,邮件包括三个特征维度:邮件标题中是否包含关键词“统计”、发件人是否在用户通讯录中、用户是否是收件人。如果邮件的标题中包含关键词“统计”,则标题对应的特征为1,如果不包含关键词“统计”,则标题特征维度对应的特征为0;如果发件人在用户通讯录中,则发件人特征维度对应的特征为1,如果发件人不在用户通讯录中,则发件人特征维度对应的特征为0;如果用户为收件人,则收件人特征维度对应的特征为1,如果用户为被抄送人,而不是收件人,则收件人特征维度对应的特征为0。那么,如果用户A收到用户B发送的邮件,邮件标题为“统计信息”,用户B在用户A的通讯录中,且用户A是该邮件的收件人,则邮件在三个特征维度下的特征集合为{1,1,1}。
由于每个样本邮件具有多个特征维度的特征,为了便于管理样本邮件的特征,可以按照预设规则、发件用户、收件用户和标题的不同,将多个特征划分为四项特征集合:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合,这四项特征集合可以为:
1、预设规则是指用户自定义的邮件分类规则,预设规则特征集合为与该邮件分类规则对应的特征集合。例如,该邮件分类规则为所有来自张三“*******@abc.com”的邮件属于“项目”类别,或者标题中含有“统计”的邮件属于“机器学习”类别。
2、发件用户特征集合为该样本邮件的发件用户的特征集合,例如,发件用户特征集合可以表示该样本邮件的发件用户是否是用户邮件通讯录中的某人、是否是用户通讯录以外的人、是否属于某个群组、是否是群组、发件用户的邮箱后缀是否与用户的邮箱后缀相同。
3、收件用户特征集合为该样本邮件的收件用户的特征集合,例如收件用户特征集合可以表示收件用户是作为收件人还是被抄送人、收件人/被抄送人中还有哪些人、收件人/被抄送人是否含有通讯录中的某人、收件人/被抄送人是否含有通讯录以外的人、收件人/被抄送人是否在用户所属的群组中、收件人/被抄送人是否是群组、收件人/被抄送人的数量。
4、标题特征集合为该样本邮件标题的特征集合,可以包括从标题中提取的关键字或短语对应的特征。例如,样本邮件的标题是“关于用户体验的调查表”,该样本邮件的标题特征集合可以包括“用户体验”对应的特征、“调查表”对应的特征。
获取到样本邮件在每个特征维度下的特征后,多个特征维度下的特征可以组合成特征集合,根据组合的特征集合,得到该样本邮件的特征向量。例如,样本邮件甲中的收件人为当前用户、收件人数量为2、发件人是用户通讯录中的用户,则按照当前用户是否为收件人、收件人数量、发件人是否是用户通讯录中的用户这三个特征维度,可以确定多个特征维度下的特征集合为{1,2,1},即该样本邮件的特征向量为[1,2,1]。
在步骤202中,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
通常情况下为了便于邮件管理,用户会在邮箱中建立多个文件夹,每个文件夹用于存放相同类别的邮件,则该邮件处理装置可以为每个文件夹分配对应的类别标识,以表示位于同一文件夹的邮件属于相同类别,位于不同文件夹的邮件属于不同的类别。
其中,文件夹的类别标识可以为该文件夹的名称、该邮件处理装置为该文件夹分配的序号等,本实施例对此不做限定。
当邮件处理装置接收到某一邮件时,可以按照用户预先设置的分类规则,将该邮件存储于对应的文件夹中,或者,用户可以按照分类习惯,手动将该邮件存储于某一文件夹中。此时,邮件处理装置可以获取该文件夹的类别标识,建立该邮件与该文件夹的类别标识之间的对应关系,并根据建立的对应关系生成历史邮件分类记录。
该历史邮件分类记录可以体现用户对邮件的分类习惯,则为了保证训练得到的分类模型也能够体现用户的分类习惯,该邮件处理装置可以根据该历史邮件分类记录,获取到每个样本邮件对应的类别标识,以便根据每个样本邮件对应的类别标识训练分类模型。
在步骤203中,根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
对于每个样本邮件来说,在获取到样本邮件的特征向量以及类别标识后,可以将类别标识作为该样本邮件的实际分类结果,根据该特征向量和实际的分类结果来训练第一分类模型。
例如,该步骤203可以包括以下步骤2031和2032:
2031、将该多个样本邮件的特征向量以及对应的类别标识组合成第四特征数据集。
对于每个样本邮件,该邮件处理装置可以将该样本邮件的特征向量和类别标识组成一个向量,并以样本邮件作为第四特征数据集的第一维度,将多个样本邮件的向量组成第四特征数据集。
其中,在组成向量时,样本邮件的类别标识可以位于特征向量之前,即该类别标识为所组成向量的第一个元素,或者,样本邮件的类别标识还可以位于特征向量之后,即该类别标识为所组成向量的最后一个元素,本实施例对类别标识在所组成向量中的位置不做限定。
另外,该第一维度可以为行维度,即该邮件处理装置将每个样本邮件的向量作为一行,从而将多个样本邮件的向量组成第四特征数据集。或者,该第一维度可以为列维度,即该邮件处理装置将每个样本邮件的向量作为一列,从而将多个样本邮件的向量组成第四特征数据集。
例如,样本邮件甲的特征向量为[1,1,2,0],类别标识为1,样本邮件乙的特征向量为[0,1,3,1],类别标识为3,则样本邮件甲的特征向量与类别标识组成的向量为[1,1,2,0,1],样本邮件乙的特征向量与类别标识组成的向量为[0,1,3,1,3],则可以将样本邮件甲的向量作为第一行,将样本邮件乙的向量作为第二行,得到第四特征数据集为:
或者,还可以将样本邮件甲的向量作为第一列,将样本邮件乙的向量作为第二列,得到第四特征数据集为:
2032、根据该第四特征数据集进行训练,得到该第一分类模型。
得到第四特征数据集后,该邮件处理装置可以采用预设训练算法,对第四特征数据集进行训练,得到第一分类模型。其中,该预设训练算法可以为HOG、SVM等算法,本实施例对预设训练算法不做限定。
其中,在对第四特征数据集进行训练的训练过程分为以下两个阶段:
第一个阶段:前向传播阶段:
在前向传播阶段,该邮件处理装置根据初始分类模型中的权重参数,计算样本邮件的估计类别标识。
在还未得到第一分类模型时,邮件处理装置可以先设定一个初始分类模型,对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对该第四特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识。
第二个阶段:误差反向传播阶段:
在误差反向传播阶段,邮件处理装置在得到估计类别标识后,获取该估计类别标识与该第一样本邮件对应的类别标识之间的误差。如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第四特征数据集中第二样本邮件的特征向量继续进行分类。
该邮件处理装置可以重复执行上述两个阶段,即该邮件处理装置对该初始分类模型的权重参数进行调整之后,可以基于调整后的权重参数,继续计算另一样本邮件的估计类别标识,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第一分类模型。
此时训练过程结束,后续过程中该邮件处理装置即可根据该第一分类模型的权重参数,对目标邮件进行分类,识别出目标邮件的类别标识。该预设阈值可以根据第一分类模型的精确度需求确定,本实施例对此不做限定。
另外,在本实施例提供的另一实施例中,步骤2032还可以由以下步骤2033-2035代替:
2033、对该第四特征数据集进行降维,得到第五特征数据集。
每个样本邮件的特征向量包括多个特征维度的特征,而其中的某些特征维度对邮件的分类结果影响较小,因此,为了减小计算量,该邮件处理装置可以删除影响较小的特征维度,即对第四特征数据集进行降维,得到第五特征数据集。
其中,在对第四特征数据集进行降维时,该邮件处理装置可以确定该第四特征数据集中每个特征维度的特征维度标识,对于每个特征维度标识,计算该特征维度标识与每个类别标识的关联度,根据计算得到的关联度进行降维。
该关联度用于表示该特征维度标识对应特征维度对邮件分类结果的影响程度,可以根据预设关联算法计算得到,该预设关联算法可以为信息增益、信息增益率、卡方检验和条件概率等算法,本实施例对此不做限定。
而且,在计算特征维度标识与每个类别标识的关联度时,该邮件处理装置可以基于当前训练得到的分类模型,对多个样本邮件的特征向量分别进行分类,得到多个增益类别标识;并且删除多个样本邮件的特征向量中特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对多个子向量分别进行分类,得到多个测试类别标识,根据多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。
其中,为了确定某个特征维度标识与每个类别标识之间的关联度,可以在保留该特征维度标识对应的特征的情况下,对多个样本邮件进行分类,得到多个样本邮件的增益类别标识,并在删除该特征维度标识对应的特征的情况下,对多个样本邮件进行分类,得到多个样本邮件的测试类别标识,此时,多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异可以体现该特征维度标识对分类结果的影响。
如,该邮件处理装置可以计算多个增益类别标识的第一熵值,并计算多个测试类别标识的第二熵值。该第一熵值用于表示在按照该特征维度标识对应的特征进行分类时分类结果的混乱度,第一熵值越大,表示按照该特征维度标识对应的特征进行分类时得到的分类结果越混乱。该第二熵值用于表示在删除该特征维度标识对应的特征后分类结果的混乱度,第二熵值越大,表示删除该特征维度标识对应的特征后的分类结果越混乱。则该邮件处理装置可以计算第二熵值与第一熵值之间的差值,作为该特征维度标识与每个类别标识之间的关联度。关联度越大,表示该特征维度标识在分类邮件时对分类结果的影响程度越大。
例如,如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,表示该特征维度对邮件的分类结果影响较小,则从该第四特征数据集中,删除该特征维度标识对应的特征,将删除特征后得到的特征数据集确定为该第五特征数据集。其中预设阈值可以由邮件处理装置根据各个特征维度标识与每个类别标识之间的关联度的统计值确定,本实施例对此不做限定。
2034、对该第五特征数据集进行归一化,得到第六特征数据集。
由于第五特征数据集中各个位置上的值相差较大,因此为了简化分析,可以对第五特征数据集进行归一化处理,得到第六特征数据集,使得第六特征数据集中的每个特征均属于预设数值范围。其中,该预设数值范围可以为(0,1)或者为其他范围,本实施例对此不做限定。
其中,进行归一化处理时,该邮件处理装置可采用线性函数转换算法,对第五特征数据集中各个位置上的值进行归一化。该线性函数转换算法可以参见下述公式:
其中,x为第五特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
当然,该邮件处理装置也可以采用其他的算法,对第五特征数据集中各个位置上的值进行归一化,本实施例对此不做限定。
在步骤2035中,根据该第六特征数据集进行训练,得到该第一分类模型。
本步骤2035与步骤2032类似,在此不再赘述。
当然,本实施例也可以采用其他方式训练得到第一分类模型,本实施例对此不做限定。另外,该第一分类模型也可以由该邮件处理装置之外的其他设备训练得到,并发送给该邮件处理装置,该邮件处理装置可以根据第一分类模型对邮件进行分类,并在分类过程中根据用户移动邮件的操作对第一分类模型进行优化。
在步骤204中,在对目标邮件进行分类时,根据目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该特征向量和该第一分类模型,确定该目标邮件对应的第一类别标识。
得到第一分类模型后,该邮件处理装置即可基于该第一分类模型,对接收到的任一邮件或者发送的任一邮件进行分类,确定类别标识。
例如,当接收到目标邮件时,获取目标邮件的至少一项特征集合,根据至少一项特征集合,获取该目标邮件的特征向量,并对该目标邮件的特征向量进行降维和归一化处理,得到处理后的特征向量,再将处理后的特征向量输入第一分类模型中,获取对应的类别标识,作为第一类别标识。
其中,对目标邮件的特征向量进行降维和归一化处理的方式与2033和2034中对第四特征数据集进行降维和归一化处理的方式类似,在此不再赘述。
实际应用中,在接收到该目标邮件或者发送该目标邮件时,该邮件处理装置可以立即对该目标邮件进行分类,确定该第一分类标识。或者,在接收到该目标邮件或者发送该目标邮件时,该邮件处理装置还可以不立即对该目标邮件进行分类,而是每隔预设时长,对该预设时长内接收到的邮件以及发送的邮件进行分类,本实施例对分类时机不做限定。
通过周期性的对邮件进行分类,在邮件处理装置短时间内接收到多个邮件的情况下,能够对接收到的多个邮件统一地进行分类,减小了工作量。
在步骤205中,根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中。
邮件处理装置获取目标邮件的第一类别标识后,可以根据该第一类别标识,将该目标邮件存储于与第一类别标识对应的第一邮件文件夹中,用户即可在第一邮件文件夹中查看该目标邮件,提高了用户管理邮件的效率。
在步骤206中,当检测到将该目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识。
当用户在第一邮件文件夹中查看该目标邮件时,如果将该目标邮件移动到第二邮件文件夹,表示邮件处理装置对该目标邮件的分类不符合用户的分类习惯。则为了学习用户的分类习惯,该邮件处理装置检测到将目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定第二邮件文件夹对应的第二类别标识,则可以认为第二类别标识即为目标邮件的正确分类结果。
在步骤207中,根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。
该邮件处理装置在确定第二类别标识后,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,且,根据该多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,第二分类模型用于对邮件进行分类。
其中,根据该目标邮件的特征向量和该第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练的过程可以包括:该邮件处理装置按照预设权重,对该目标邮件的特征向量进行调整,根据调整后的特征向量、该第二类别标识、该多个样本邮件的特征向量和对应的类别标识进行训练,得到该第二分类模型。其中,该预设权重大于1,可以由技术人员在开发时设置,也可以由该邮件处理装置默认设置,本实施例对此不做限定。
由于目标邮件对应的第二类别标识可以体现用户的分类习惯,根据预设权重对目标邮件的特征向量进行调整时,可以增强目标邮件对分类模型的影响程度,使得训练出的第二分类模型也能够体现用户的分类习惯,提高了第二分类模型的准确度。
例如,该邮件处理装置可以按照预设权重增加该特征向量,该预设权重大于1。如多个样本邮件的特征向量权重为1,而该预设权重为1.2,该邮件处理装置可以将目标邮件的特征向量中的每个特征乘以1.2,得到调整后的特征向量,再根据调整后的特征向量进行训练。
在一种可能的实现方式中,该步骤207可以包括以下步骤2071和2072:
2071、将该目标邮件的特征向量和该第二类别标识、该多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集。
2072、根据该第一特征数据集进行训练,得到该第二分类模型。
其中,邮件处理装置可以先设定一个初始分类模型,对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对该第一特征数据集中第一特征向量进行分类,得到估计类别标识,获取该估计类别标识与该第一特征向量对应的类别标识之间的误差,如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第二分类模型。
在另一种可能的实现方式中,步骤2072还可以由以下步骤2073-2075代替:
2073、对该第一特征数据集进行降维,得到第二特征数据集。
其中,邮件处理装置可以先确定该第一特征数据集中的每个特征维度标识,每个特征维度标识与该第一特征数据集中的多个特征向量相应位置上的特征对应,对于每个特征维度标识,确定该特征维度标识与每个类别标识之间的关联度,如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从该第一特征数据集中,删除该特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为该第二特征数据集。
在确定该特征维度标识与每个类别标识之间的关联度时,该邮件处理装置可以基于当前训练得到的分类模型,对该多个特征向量分别进行分类,得到多个增益类别标识,删除该多个特征向量中该特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对该多个子向量分别进行分类,得到多个测试类别标识,根据该多个增益类别标识与该多个测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。
2074、对该第二特征数据集进行归一化,得到第三特征数据集。
其中,进行归一化处理时,该邮件处理装置可应用以下公式,对该第二特征数据集进行归一化,得到该第三特征数据集:
其中,x为该第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
2075、根据该第三特征数据集进行训练,得到该第二分类模型。
需要说明的是,步骤207中训练第二分类模型的过程与步骤203中训练第一分类模型的过程类似,区别仅在于步骤207中在用户移动目标邮件时,将目标邮件也作为一个样本应用到第二分类模型的训练过程中,从而保证训练出的第二分类模型能够更好地体现用户的分类习惯。
另外,如果该邮件处理装置在每次用户移动邮件时均重新训练分类模型,会导致计算量过大,尤其是,如果用户在短时间内频繁地移动同一个邮件,该邮件处理装置重新训练出的多个分类模型不能准确体现用户的分类习惯,浪费了计算资源。
则为了减小计算量,节省计算资源,该邮件处理装置可以在检测到用户移动邮件的操作时,不立即进行训练,而是先生成移动操作记录,在经过预设时长后根据该移动操作记录中对该邮件的最后一次移动操作,确定该邮件当前所在的文件夹,根据当前所在的文件夹的类别标识进行训练。那么,如果在该预设时长内用户多次地移动了该邮件,该邮件处理装置仅需根据该邮件最终的移动位置训练出一个分类模型,而无需训练多个分类模型。
本实施例中,如果邮件处理装置将目标邮件分类至第一邮件文件夹后,用户又将目标邮件移动至第二邮件文件夹,说明对目标邮件的分类不符合用户的分类习惯,则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及多个样本邮件的特征向量和对应的类别标识再次进行训练,进一步学习用户的分类习惯,提高了邮件分类的准确率,达到了准确分类邮件的效果。
本实施例提供的方法,通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中,当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过在用户移动目标邮件时,根据目标邮件对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率,达到了准确分类邮件的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种分类模型优化装置框图,如图3所示,所述分类模型训练装置包括:存储模块301、确定模块302、获取模块303和训练模块304。
所述存储模块301,被配置为用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中;
所述确定模块302,被配置为用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
所述获取模块303,被配置为用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
所述训练模块304,被配置为用于根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
本实施例中,如果邮件处理装置将目标邮件分类至第一邮件文件夹后,用户又将目标邮件移动至第二邮件文件夹,说明对目标邮件的分类不符合用户的分类习惯,则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及多个样本邮件的特征向量和对应的类别标识再次进行训练,进一步学习用户的分类习惯,提高了邮件分类的准确率,达到了准确分类邮件的效果。
本实施例提供的装置,通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中,当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型。通过在用户移动目标邮件时,根据目标邮件对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率,达到了准确分类邮件的效果。
在另一实施例中,所述训练模块304还被配置为用于按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1,根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练,得到所述第二分类模型。
在另一实施例中,所述获取模块303还被配置为用于根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
所述确定模块302还被配置为用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
在另一实施例中,所述训练模块304还被配置为用于将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据所述第一特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述训练模块304还被配置为用于对所述第一特征数据集进行降维,得到第二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特征数据集进行训练,得到所述第二分类模型。
在另一实施例中,所述训练模块304还被配置为用于确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述训练模块304还被配置为用于基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增益类别标识,删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述训练模块304还被配置为用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述训练模块304还被配置为用于对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对所述第一特征数据集中第一特征向量进行分类,得到估计类别标识,获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差,如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第二分类模型。
参见图4,在另一实施例中,所述装置还包括:分类模块305。
所述分类模块305,被配置为用于基于所述第一分类模型,对所述目标邮件进行分类。
在另一实施例中,所述分类模块305还被配置为用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图5是根据另一示例性实施例示出的一种分类模型优化装置的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件502,其进一步包括一个或多个处理器,以及由存储器504所代表的存储器资源,用于存储可由处理组件502的执行的指令,例如应用程序。存储器504中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件502被配置为执行指令,以执行上述分类模型优化方法。
装置500还可以包括一个电源组件506被配置为执行装置500的电源管理,一个有线或无线网络接口508被配置为将装置500连接到网络,和一个输入输出(I/O)接口510。装置500可以操作基于存储在存储器504的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种分类模型优化方法,其特征在于,所述方法包括:
根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中,所述第一分类模型是基于多个样本邮件的特征向量和对应的类别标识训练得到的,所述多个样本邮件包括邮件处理装置接收到的邮件和/或所述邮件处理装置已发送的邮件,所述多个样本邮件对应的类别标识用于分别指示用户在邮箱中建立的多个文件夹的类别;
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1;
将所述目标邮件的调整后的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应;
对于每个特征维度标识,
确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
3.根据权利要求1所述的方法,其特征在于,所述确定所述特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增益类别标识;
删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识;
根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第三特征数据集进行训练,得到所述第二分类模型,包括:
对初始分类模型的权重参数进行初始化;
根据当前的分类模型的权重参数,对所述第三特征数据集中第一特征向量进行分类,得到估计类别标识;
获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差;
如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第三特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第二分类模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第一分类模型,对所述目标邮件进行分类。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一分类模型,对所述目标邮件进行分类,包括:
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
8.根据权利要求1所述的方法,其特征在于,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
9.一种分类模型优化装置,其特征在于,所述装置包括:
存储模块,用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中,所述第一分类模型是基于多个样本邮件的特征向量和对应的类别标识训练得到的,所述多个样本邮件包括邮件处理装置接收到的邮件和/或所述邮件处理装置已发送的邮件,所述多个样本邮件对应的类别标识用于分别指示用户在邮箱中建立的多个文件夹的类别;
确定模块,用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
获取模块,用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
训练模块,用于按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1;将所述目标邮件的调整后的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应;对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度;如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;将删除特征集合后的特征数据集确定为第二特征数据集;对所述第二特征数据集进行归一化,得到第三特征数据集;根据所述第三特征数据集进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还用于根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
所述确定模块还用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
11.根据权利要求9所述的装置,其特征在于,所述训练模块还用于基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增益类别标识,删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
12.根据权利要求9所述的装置,其特征在于,所述训练模块还用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
13.根据权利要求9所述的装置,其特征在于,所述训练模块还用于对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对所述第三特征数据集中第一特征向量进行分类,得到估计类别标识,获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差,如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第三特征数据集中第二特征向量继续进行分类,直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第二分类模型。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
分类模块,用于基于所述第一分类模型,对所述目标邮件进行分类。
15.根据权利要求14所述的装置,其特征在于,所述分类模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
16.根据权利要求9所述的装置,其特征在于,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
17.一种分类模型优化装置,其特征在于,包括:
处理器;
用于存储处理器可执行的指令的存储器;
其中,所述处理器被配置为:
根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中,所述第一分类模型是基于多个样本邮件的特征向量和对应的类别标识训练得到的,所述多个样本邮件包括邮件处理装置接收到的邮件和/或所述邮件处理装置已发送的邮件,所述多个样本邮件对应的类别标识用于分别指示用户在邮箱中建立的多个文件夹的类别;
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1;
将所述目标邮件的调整后的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应;
对于每个特征维度标识,
确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
CN201510919923.1A 2015-12-10 2015-12-10 分类模型优化方法及装置 Active CN105550295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510919923.1A CN105550295B (zh) 2015-12-10 2015-12-10 分类模型优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510919923.1A CN105550295B (zh) 2015-12-10 2015-12-10 分类模型优化方法及装置

Publications (2)

Publication Number Publication Date
CN105550295A CN105550295A (zh) 2016-05-04
CN105550295B true CN105550295B (zh) 2019-09-10

Family

ID=55829484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510919923.1A Active CN105550295B (zh) 2015-12-10 2015-12-10 分类模型优化方法及装置

Country Status (1)

Country Link
CN (1) CN105550295B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897746B (zh) * 2017-02-28 2020-03-03 北京京东尚科信息技术有限公司 数据分类模型训练方法和装置
CN112836792A (zh) * 2017-12-29 2021-05-25 华为技术有限公司 一种神经网络模型的训练方法及装置
CN108614858B (zh) 2018-03-23 2019-07-05 北京达佳互联信息技术有限公司 图像分类模型优化方法、装置及终端
CN110784330B (zh) * 2018-07-30 2022-04-05 华为技术有限公司 一种应用识别模型的生成方法及装置
CN109840274B (zh) * 2018-12-28 2021-11-30 北京百度网讯科技有限公司 数据处理方法及装置、存储介质
CN110209811B (zh) * 2019-04-30 2023-09-22 上海艾瑞数科商务咨询有限公司 一种商品自动分类方法及系统
CN111368788B (zh) * 2020-03-17 2023-10-27 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
CN114228637B (zh) * 2021-12-02 2024-02-20 科大讯飞股份有限公司 一种车辆断电保护方法、装置、存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565403B2 (en) * 2000-03-16 2009-07-21 Microsoft Corporation Use of a bulk-email filter within a system for classifying messages for urgency or importance
CN101330476B (zh) * 2008-07-02 2011-04-13 北京大学 一种垃圾邮件动态检测方法
CN101316246B (zh) * 2008-07-18 2011-08-17 北京大学 一种基于分类器动态更新的垃圾邮件检测方法
CN105095859B (zh) * 2015-06-29 2019-03-15 小米科技有限责任公司 人脸识别方法和装置

Also Published As

Publication number Publication date
CN105550295A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550295B (zh) 分类模型优化方法及装置
CN105574538B (zh) 分类模型训练方法及装置
Gupta et al. A comparative study of spam SMS detection using machine learning classifiers
US7882192B2 (en) Detecting spam email using multiple spam classifiers
US9756073B2 (en) Identifying phishing communications using templates
US7725475B1 (en) Simplifying lexicon creation in hybrid duplicate detection and inductive classifier systems
US8024413B1 (en) Reliability measure for a classifier
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN109074553A (zh) 利用连续模型训练的垃圾邮件处理
US20160156579A1 (en) Systems and methods for estimating user judgment based on partial feedback and applying it to message categorization
US20100145900A1 (en) Spam filtering based on statistics and token frequency modeling
CN105847127B (zh) 一种用户属性信息确定方法以及服务器
Massey et al. Learning Spam: Simple Techniques For Freely-Available Software.
CN109039671A (zh) 群组消息显示方法、装置、终端及存储介质
WO2020224115A1 (zh) 图片处理方法、装置、计算机设备及存储介质
CN103580919B (zh) 一种利用邮件服务器日志进行邮件用户标记的方法与系统
Almeida et al. Filtering spams using the minimum description length principle
US20210019654A1 (en) Sampled Softmax with Random Fourier Features
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN109658120B (zh) 一种业务数据处理方法以及装置
CN108021574A (zh) 一种搜索方法及装置
CN114564582A (zh) 一种短文本分类方法、装置、设备及存储介质
CN108347367A (zh) 一种电子邮件处理方法、装置、服务器及客户端
WO2020015222A1 (zh) 一种处理邮件的方法、装置、存储介质及计算机设备
Lai et al. A collaborative anti-spam system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant