CN105574538B - 分类模型训练方法及装置 - Google Patents

分类模型训练方法及装置 Download PDF

Info

Publication number
CN105574538B
CN105574538B CN201510917223.9A CN201510917223A CN105574538B CN 105574538 B CN105574538 B CN 105574538B CN 201510917223 A CN201510917223 A CN 201510917223A CN 105574538 B CN105574538 B CN 105574538B
Authority
CN
China
Prior art keywords
feature
mail
sample
mails
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510917223.9A
Other languages
English (en)
Other versions
CN105574538A (zh
Inventor
汪平仄
张涛
侯文迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510917223.9A priority Critical patent/CN105574538B/zh
Publication of CN105574538A publication Critical patent/CN105574538A/zh
Application granted granted Critical
Publication of CN105574538B publication Critical patent/CN105574538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种分类模型训练方法及装置,属于信息技术领域。方法包括:根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识,根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。通过根据每个样本邮件的至少一项特征集合,确定特征向量,并根据样本邮件的历史分类记录,确定每个样本邮件的类别标识,从而根据每个样本邮件的特征向量和类别标识进行训练,得到第一分类模型。通过训练得到分类模型,在对邮件进行分类时能够根据用户的分类习惯进行分类,提高了邮件分类的准确率,减少了邮件分类错误的问题,达到了准确分类邮件的效果。

Description

分类模型训练方法及装置
技术领域
本公开涉及信息技术领域,尤其涉及一种分类模型训练方法及装置。
背景技术
随着社交圈的规模越来越大,用户在工作或生活中经常会收到很多邮件,如会议邮件、广告邮件等。为了便于进行管理,通常需要对邮件进行分类。
分类时,用户会先创建多个邮件文件夹,并设置好邮件分类规则,即每个邮件文件夹所对应的邮件特征集合。每当接收到一个邮件时,分析邮件的内容来获取该邮件的特征集合,根据设置好的邮件分类规则,确定与该邮件的特征集合匹配的邮件文件夹,并将该邮件存储于匹配的邮件文件夹中,从而实现对该邮件的分类。
发明内容
为克服相关技术中存在的问题,本公开提供一种分类模型训练方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种分类模型训练方法,所述方法包括:
根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识;
根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
在另一实施例中,所述根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型,包括:
将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
根据所述第一特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第一分类模型,包括:
对所述第一特征数据集进行降维,得到第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述对所述第一特征数据集进行降维,得到第二特征数据集,包括:
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应;
对于每个特征维度标识,
确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述确定所述特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对所述多个样本邮件的特征向量分别进行分类,得到多个增益类别标识;
删除所述多个样本邮件的特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识;
根据所述多个样本邮件的增益类别标识与所述多个样本邮件的测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述对所述第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
Figure BDA0000874128660000021
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第一分类模型,包括:
对初始分类模型的权重参数进行初始化;
根据当前的分类模型的权重参数,对所述第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识;
获取所述估计类别标识与所述第一样本邮件对应的类别标识之间的误差;
如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第一分类模型。
在另一实施例中,所述方法还包括:
基于所述第一分类模型,对目标邮件进行分类。
在另一实施例中,所述基于所述第一分类模型,对目标邮件进行分类,包括:
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
在另一实施例中,所述方法还包括:
根据对所述目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中。
在另一实施例中,所述方法还包括:
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述目标邮件的特征向量和所述第二类别标识以及所述多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
在另一实施例中,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
根据本公开实施例的第二方面,提供一种分类模型训练装置,包括装置包括:
获取模块,用于根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
确定模块,用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识;
训练模块,用于根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
在另一实施例中,所述训练模块还用于将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据所述第一特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述训练模块还用于对所述第一特征数据集进行降维,得到第二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述训练模块还用于确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述训练模块还用于基于当前训练得到的分类模型,对所述多个样本邮件的特征向量分别进行分类,得到多个增益类别标识,删除所述多个样本邮件的特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个样本邮件的增益类别标识与所述多个样本邮件的测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述训练模块还用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
Figure BDA0000874128660000051
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述训练模块还用于对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对所述第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识,获取所述估计类别标识与所述第一样本邮件对应的类别标识之间的误差,如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第一分类模型。
在另一实施例中,所述装置还包括:
分类模块,用于基于所述第一分类模型,对目标邮件进行分类。
在另一实施例中,所述分类模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
在另一实施例中,所述装置还包括:
存储模块,用于根据对所述目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中。
在另一实施例中,所述确定模块还用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
所述获取模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
所述训练模块还用于根据所述目标邮件的特征向量和所述第二类别标识以及所述多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
在另一实施例中,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
根据本公开的第三方面,提供一种分类模型训练装置,所述装置包括:
处理器;
用于存储处理器可执行的指令的存储器;
其中,所述处理器被配置为:
根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识;
根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
本公开的实施例提供的技术方案可以包括以下有益效果:
本实施例提供的方法及装置,通过根据每个样本邮件的特征,得到至少一项特征集合,确定特征向量,并根据样本邮件的历史分类记录,确定每个样本邮件的类别标识,从而根据每个样本邮件的特征向量和类别标识进行训练,得到第一分类模型。通过根据样本邮件的历史分类记录训练得到分类模型,在对邮件进行分类时能够根据用户的分类习惯进行分类,提高了邮件分类的准确率,减少了邮件分类错误的问题,达到了准确分类邮件的效果。
在另一实施例中,该根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型,包括:将该多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据该第一特征数据集进行训练,得到该第一分类模型。通过汇总每个样本邮件的特征向量以及用户对样本邮件进行分类所确定的类别标识,组合成第一特征数据集,再对第一特征数据集进行训练得到第一分类模型,通过获取样本邮件的特征向量以及该样本邮件的类别标识,使得基于第一分类模型得到的分类结果更加接近用户的分类习惯,降低了分类结果与用户的分类习惯不同的概率,提高了用户管理邮件的效率。
在另一实施例中,根据该第一特征数据集进行训练,得到该第一分类模型,包括:对该第一特征数据集进行降维,得到第二特征数据集,对该第二特征数据集进行归一化,得到第三特征数据集,根据该第三特征数据集进行训练,得到该第一分类模型。通过对第一特征数据集进行降维和归一化的处理后,得到第三特征数据集,减少了训练工作量,提高了训练效率。
在另一实施例中,对该第一特征数据集进行降维,得到第二特征数据集,包括:确定该第一特征数据集中的每个特征维度标识,对于每个特征维度标识,确定该特征维度标识与每个类别标识之间的关联度,如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从该第一特征数据集中,删除该特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为该第二特征数据集。通过获取每个特征维度的特征维度标识,对于每个维度标识,确定该特征维度标识与每个类别标识的关联度,删除对邮件分类结果影响较小的特征维度,在减少工作量的同时,不影响邮件分类的准确率,提高了获取第一分类模型的效率。
在另一实施例中,在进行降维的过程中,基于当前训练得到的分类模型,对多个样本邮件的特征向量分别进行分类,得到多个增益类别标识,并且删除多个样本邮件的特征向量中特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对多个子向量分别进行分类,得到多个测试类别标识,根据多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。通过特征维度标识与每个类别标识之间的关联度,确定了每个特征维度标识对应的特征在分类邮件时影响程度的大小,可以删除一些影响程度较小的特征,既能够保证分类模型的分类准确率,也能够优化第一特征数据集,减少训练过程的计算量。
在另一实施例中,进行归一化处理时,该邮件处理装置可采用线性函数转换算法,对第二特征数据集中各个位置上的值进行归一化。通过获取到归一化的值后,在训练得到第一分类模型时,可以减少计算的复杂程度,提高训练效率。
在另一实施例中,在还未得到第一分类模型时,邮件处理装置可以先对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对该第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识,并且获取该估计类别标识与该第一样本邮件对应的类别标识之间的误差。如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第一分类模型。通过对多个样本邮件进行训练,不断调整分类模型中的权重参数,从而得到准确的第一分类模型,能够提高基于第一分类模型分类邮件的准确率。
在另一实施例中,在训练得到第一分类模型后,即可基于第一分类模型,对接收到的任一邮件或者发送的任一邮件进行分类,确定对应的类别标识,实现对目标邮件的分类,提高了对目标邮件分类的准确率。
在另一实施例中,基于该第一分类模型,对目标邮件进行分类,包括:根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该特征向量和该第一分类模型,确定该目标邮件对应的类别标识。通过获取目标邮件的特征集合,生成目标邮件的特征向量,基于第一分类模型,确定目标邮件的类别标识,通过该第一分类模型,结合目标邮件的特征向量,从而确定该目标邮件的类别标识,提高了对目标邮件进行分类的准确率。
在另一实施例中,该方法还包括:根据对该目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中。通过根据目标邮件的第一类别标识,将目标邮件存储在与第一类别标识对应的第一邮件文件夹中,使得对目标邮件的分类更加直观,用户查看不同类别邮件更加方便快捷。
在另一实施例中,该方法还包括:当检测到将该目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该目标邮件的特征向量和该第二类别标识以及该多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,该第二分类模型用于对邮件进行分类。通过检测到目标邮件由第一邮件文件夹移动到第二邮件文件夹,说明该目标邮件的分类不符合用户的分类习惯,根据目标邮件移动后对应的第二类别标识生成第二分类模型,进一步学习用户的分类习惯,提高了分类邮件的准确率,提高了用户管理邮件的效率。
在另一实施例中,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。通过将样本邮件的特征集合根据预设规则、发件用户、收件用户和标题划分为四项,使得样本邮件的特征集合便于管理,提高了获取样本邮件特征集合的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种分类模型训练方法的流程图;
图2是根据另一示例性实施例示出的一种分类模型训练方法的流程图;
图3是根据一示例性实施例示出的一种分类模型训练装置的框图;
图4是根据另一示例性实施例示出的一种分类模型训练装置的框图;
图5是根据又一示例性实施例示出的一种分类模型训练装置的框图;
图6是根据另一示例性实施例示出的一种分类模型训练装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种分类模型训练方法的流程图,如图1所示,该分类模型训练方法用于邮件处理装置中,包括以下步骤:
在步骤101中,根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量。
在步骤102中,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
在步骤103中,根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
本实施例提供的方法,通过根据每个样本邮件的特征,得到至少一项特征集合,确定特征向量,并根据样本邮件的历史分类记录,确定每个样本邮件的类别标识,从而根据每个样本邮件的特征向量和类别标识进行训练,得到第一分类模型。通过根据样本邮件的历史分类记录训练得到分类模型,在对邮件进行分类时能够根据用户的分类习惯进行分类,提高了邮件分类的准确率,减少了邮件分类错误的问题,达到了准确分类邮件的效果。
在另一实施例中,该根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型,包括:
将该多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
根据该第一特征数据集进行训练,得到该第一分类模型。
在另一实施例中,该根据该第一特征数据集进行训练,得到该第一分类模型,包括:
对该第一特征数据集进行降维,得到第二特征数据集;
对该第二特征数据集进行归一化,得到第三特征数据集;
根据该第三特征数据集进行训练,得到该第一分类模型。
在另一实施例中,该对该第一特征数据集进行降维,得到第二特征数据集,包括:
确定该第一特征数据集中的每个特征维度标识,每个特征维度标识与该多个特征向量中相应位置上的特征对应;
对于每个特征维度标识,
确定该特征维度标识与每个类别标识之间的关联度;
如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从该第一特征数据集中,删除该特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为该第二特征数据集。
在另一实施例中,该确定该特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对该多个样本邮件的特征向量分别进行分类,得到多个增益类别标识;
删除该多个样本邮件的特征向量中该特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对该多个子向量分别进行分类,得到多个测试类别标识;
根据该多个样本邮件的增益类别标识与该多个样本邮件的测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。
在另一实施例中,对该第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对该第二特征数据集进行归一化,得到该第三特征数据集:
Figure BDA0000874128660000111
其中,x为该第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,根据该第一特征数据集进行训练,得到该第一分类模型,包括:
对初始分类模型的权重参数进行初始化;
根据当前的分类模型的权重参数,对该第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识;
获取该估计类别标识与该第一样本邮件对应的类别标识之间的误差;
如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第一分类模型。
在另一实施例中,该方法还包括:
基于该第一分类模型,对目标邮件进行分类。
在另一实施例中,该基于该第一分类模型,对目标邮件进行分类,包括:
根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量;
根据该特征向量和该第一分类模型,确定该目标邮件对应的类别标识。
在另一实施例中,该方法还包括:
根据对该目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中。
在另一实施例中,该方法还包括:
当检测到将该目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定该第二邮件文件夹对应的第二类别标识;
根据该目标邮件的至少一项特征集合,获取该目标邮件的特征向量;
根据该目标邮件的特征向量和该第二类别标识以及该多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,该第二分类模型用于对邮件进行分类。
在另一实施例中,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种用于邮件分类的分类模型训练方法的流程图,如图2所示,该分类模型训练方法用于邮件处理装置中,包括以下步骤:
在步骤201中,根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量。
其中,邮件处理装置可以为终端,也可以为服务器,本实施例对此不做限定。
在本实施例中,为了准确地对用户的邮件进行分类,邮件处理装置可以将用户邮箱中的多个邮件作为样本邮件,根据每个样本邮件的特征集合,获取每个样本邮件的特征向量,以便根据特征向量训练得到分类模型。
其中,该样本邮件可以包括邮件处理装置接收到的邮件或者邮件处理装置已发送的邮件,本实施例对此不做限定。
另外,该特征集合包括样本邮件在多个特征维度下的特征,样本邮件的特征维度可以包括:邮件标题中是否包含某个关键词、发件人是否在用户通讯录中、用户是收件人还是被抄送人等,本实施例对此不做限定。每个特征维度对应样本邮件的一个特征,在每个特征维度下,根据样本邮件的具体信息的不同,对应的特征也不同。
例如,邮件包括三个特征维度:邮件标题中是否包含关键词“统计”、发件人是否在用户通讯录中、用户是否是收件人。如果邮件的标题中包含关键词“统计”,则标题对应的特征为1,如果不包含关键词“统计”,则标题特征维度对应的特征为0;如果发件人在用户通讯录中,则发件人特征维度对应的特征为1,如果发件人不在用户通讯录中,则发件人特征维度对应的特征为0;如果用户为收件人,则收件人特征维度对应的特征为1,如果用户为被抄送人,而不是收件人,则收件人特征维度对应的特征为0。那么,如果用户A收到用户B发送的邮件,邮件标题为“统计信息”,用户B在用户A的通讯录中,且用户A是该邮件的收件人,则邮件在三个特征维度下的特征集合为{1,1,1}。
由于每个样本邮件具有多个特征维度的特征,为了便于管理样本邮件的特征,可以按照预设规则、发件用户、收件用户和标题的不同,将多个特征划分为四项特征集合:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合,这四项特征集合可以为:
1、预设规则是指用户自定义的邮件分类规则,预设规则特征集合为与该邮件分类规则对应的特征集合。例如,该邮件分类规则为所有来自张三“*******@abc.com”的邮件属于“项目”类别,或者标题中含有“统计”的邮件属于“机器学习”类别。
2、发件用户特征集合为该样本邮件的发件用户的特征集合,例如,发件用户特征集合可以表示该样本邮件的发件用户是否是用户邮件通讯录中的某人、是否是用户通讯录以外的人、是否属于某个群组、是否是群组、发件用户的邮箱后缀是否与用户的邮箱后缀相同。
3、收件用户特征集合为该样本邮件的收件用户的特征集合,例如收件用户特征集合可以表示收件用户是作为收件人还是被抄送人、收件人/被抄送人中还有哪些人、收件人/被抄送人是否含有通讯录中的某人、收件人/被抄送人是否含有通讯录以外的人、收件人/被抄送人是否在用户所属的群组中、收件人/被抄送人是否是群组、收件人/被抄送人的数量。
4、标题特征集合为该样本邮件标题的特征集合,可以包括从标题中提取的关键字或短语对应的特征。例如,样本邮件的标题是“关于用户体验的调查表”,该样本邮件的标题特征集合可以包括“用户体验”对应的特征、“调查表”对应的特征。
获取到样本邮件在每个特征维度下的特征后,多个特征维度下的特征可以组合成特征集合,根据组合的特征集合,得到该样本邮件的特征向量。例如,样本邮件甲中的收件人为当前用户、收件人数量为2、发件人是用户通讯录中的用户,则按照当前用户是否为收件人、收件人数量、发件人是否是用户通讯录中的用户这三个特征维度,可以确定多个特征维度下的特征集合为{1,2,1},即该样本邮件的特征向量为[1,2,1]。
在步骤202中,根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
通常情况下为了便于邮件管理,用户会在邮箱中建立多个文件夹,每个文件夹用于存放相同类别的邮件,则该邮件处理装置可以为每个文件夹分配对应的类别标识,以表示位于同一文件夹的邮件属于相同类别,位于不同文件夹的邮件属于不同的类别。
其中,文件夹的类别标识可以为该文件夹的名称、该邮件处理装置为该文件夹分配的序号等,本实施例对此不做限定。
当邮件处理装置接收到某一邮件时,可以按照用户预先设置的分类规则,将该邮件存储于对应的文件夹中,或者,用户可以按照分类习惯,手动将该邮件存储于某一文件夹中。此时,邮件处理装置可以获取该文件夹的类别标识,建立该邮件与该文件夹的类别标识之间的对应关系,并根据建立的对应关系生成历史邮件分类记录。
该历史邮件分类记录可以体现用户对邮件的分类习惯,则为了保证训练得到的分类模型也能够体现用户的分类习惯,该邮件处理装置可以根据该历史邮件分类记录,获取到每个样本邮件对应的类别标识,以便根据每个样本邮件对应的类别标识训练分类模型。
在步骤203中,根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
对于每个样本邮件来说,在获取到样本邮件的特征向量以及类别标识后,可以将类别标识作为该样本邮件的实际分类结果,根据该特征向量和实际的分类结果来训练第一分类模型。
例如,该步骤203可以包括以下步骤2031和2032:
2031、将该多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集。
对于每个样本邮件,该邮件处理装置可以将该样本邮件的特征向量和类别标识组成一个向量,并以样本邮件作为第一特征数据集的第一维度,将多个样本邮件的向量组成第一特征数据集。
其中,在组成向量时,样本邮件的类别标识可以位于特征向量之前,即该类别标识为所组成向量的第一个元素,或者,样本邮件的类别标识还可以位于特征向量之后,即该类别标识为所组成向量的最后一个元素,本实施例对类别标识在所组成向量中的位置不做限定。
另外,该第一维度可以为行维度,即该邮件处理装置将每个样本邮件的向量作为一行,从而将多个样本邮件的向量组成第一特征数据集。或者,该第一维度可以为列维度,即该邮件处理装置将每个样本邮件的向量作为一列,从而将多个样本邮件的向量组成第一特征数据集。
例如,样本邮件甲的特征向量为[1,1,2,0],类别标识为1,样本邮件乙的特征向量为[0,1,3,1],类别标识为3,则样本邮件甲的特征向量与类别标识组成的向量为[1,1,2,0,1],样本邮件乙的特征向量与类别标识组成的向量为[0,1,3,1,3],则可以将样本邮件甲的向量作为第一行,将样本邮件乙的向量作为第二行,得到第一特征数据集为:
Figure BDA0000874128660000152
或者,还可以将样本邮件甲的向量作为第一列,将样本邮件乙的向量作为第二列,得到第一特征数据集为:
Figure BDA0000874128660000151
2032、根据该第一特征数据集进行训练,得到该第一分类模型。
得到第一特征数据集后,该邮件处理装置可以采用预设训练算法,对第一特征数据集进行训练,得到第一分类模型。其中,该预设训练算法可以为HOG、SVM等算法,本实施例对预设训练算法不做限定。
其中,在对第一特征数据集进行训练的训练过程分为以下两个阶段:
第一个阶段:前向传播阶段:
在前向传播阶段,该邮件处理装置根据初始分类模型中的权重参数,计算样本邮件的估计类别标识。
在还未得到第一分类模型时,邮件处理装置可以先设定一个初始分类模型,对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对该第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识。
第二个阶段:误差反向传播阶段:
在误差反向传播阶段,邮件处理装置在得到估计类别标识后,获取该估计类别标识与该第一样本邮件对应的类别标识之间的误差。如果该误差不小于预设阈值,则根据该误差对该权重参数进行调整,根据调整后的权重参数,对该第一特征数据集中第二样本邮件的特征向量继续进行分类。
该邮件处理装置可以重复执行上述两个阶段,即该邮件处理装置对该初始分类模型的权重参数进行调整之后,可以基于调整后的权重参数,继续计算另一样本邮件的估计类别标识,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于该预设阈值时,基于当前的权重参数,生成该第一分类模型。
此时训练过程结束,后续过程中该邮件处理装置即可根据该第一分类模型的权重参数,对目标邮件进行分类,识别出目标邮件的类别标识。该预设阈值可以根据第一分类模型的精确度需求确定,本实施例对此不做限定。
另外,在本实施例提供的另一实施例中,步骤2032还可以由以下步骤2033-2035代替:
2033、对该第一特征数据集进行降维,得到第二特征数据集。
每个样本邮件的特征向量包括多个特征维度的特征,而其中的某些特征维度对邮件的分类结果影响较小,因此,为了减小计算量,该邮件处理装置可以删除影响较小的特征维度,即对第一特征数据集进行降维,得到第二特征数据集。
其中,在对第一特征数据集进行降维时,该邮件处理装置可以确定该第一特征数据集中每个特征维度的特征维度标识,对于每个特征维度标识,计算该特征维度标识与每个类别标识的关联度,根据计算得到的关联度进行降维。
该关联度用于表示该特征维度标识对应特征维度对邮件分类结果的影响程度,可以根据预设关联算法计算得到,该预设关联算法可以为信息增益、信息增益率、卡方检验和条件概率等算法,本实施例对此不做限定。
而且,在计算特征维度标识与每个类别标识的关联度时,该邮件处理装置可以基于当前训练得到的分类模型,对多个样本邮件的特征向量分别进行分类,得到多个增益类别标识;并且删除多个样本邮件的特征向量中特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对多个子向量分别进行分类,得到多个测试类别标识,根据多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异,确定该特征维度标识与每个类别标识之间的关联度。
其中,为了确定某个特征维度标识与每个类别标识之间的关联度,可以在保留该特征维度标识对应的特征的情况下,对多个样本邮件进行分类,得到多个样本邮件的增益类别标识,并在删除该特征维度标识对应的特征的情况下,对多个样本邮件进行分类,得到多个样本邮件的测试类别标识,此时,多个样本邮件的增益类别标识与多个样本邮件的测试类别标识之间的差异可以体现该特征维度标识对分类结果的影响。
如,该邮件处理装置可以计算多个增益类别标识的第一熵值,并计算多个测试类别标识的第二熵值。该第一熵值用于表示在按照该特征维度标识对应的特征进行分类时分类结果的混乱度,第一熵值越大,表示按照该特征维度标识对应的特征进行分类时得到的分类结果越混乱。该第二熵值用于表示在删除该特征维度标识对应的特征后分类结果的混乱度,第二熵值越大,表示删除该特征维度标识对应的特征后的分类结果越混乱。则该邮件处理装置可以计算第二熵值与第一熵值之间的差值,作为该特征维度标识与每个类别标识之间的关联度。关联度越大,表示该特征维度标识在分类邮件时对分类结果的影响程度越大。
例如,如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值,表示该特征维度对邮件的分类结果影响较小,则从该第一特征数据集中,删除该特征维度标识对应的特征,将删除特征后得到的特征数据集确定为该第二特征数据集。其中预设阈值可以由邮件处理装置根据各个特征维度标识与每个类别标识之间的关联度的统计值确定,本实施例对此不做限定。
2034、对该第二特征数据集进行归一化,得到第三特征数据集。
由于第二特征数据集中各个位置上的值相差较大,因此为了简化分析,可以对第二特征数据集进行归一化处理,得到第三特征数据集,使得第三特征数据集中的每个特征均属于预设数值范围。其中,该预设数值范围可以为(0,1)或者为其他范围,本实施例对此不做限定。
其中,进行归一化处理时,该邮件处理装置可采用线性函数转换算法,对第二特征数据集中各个位置上的值进行归一化。该线性函数转换算法可以参见下述公式:
Figure BDA0000874128660000181
其中,x为第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
当然,该邮件处理装置也可以采用其他的算法,对第二特征数据集中各个位置上的值进行归一化,本实施例对此不做限定。
在步骤2035中,根据该第三特征数据集进行训练,得到该第一分类模型。
本步骤2035与步骤2032类似,在此不再赘述。
在步骤204中,在对目标邮件进行分类时,根据目标邮件的至少一项特征集合,获取该目标邮件的特征向量,根据该特征向量和该第一分类模型,确定该目标邮件对应的第一类别标识。
得到第一分类模型后,该邮件处理装置即可基于该第一分类模型,对接收到的任一邮件或者发送的任一邮件进行分类,确定类别标识。
例如,当接收到目标邮件时,获取目标邮件的至少一项特征集合,根据至少一项特征集合,获取该目标邮件的特征向量,并对该目标邮件的特征向量进行降维和归一化处理,得到处理后的特征向量,再将处理后的特征向量输入第一分类模型中,获取对应的类别标识,作为第一类别标识。
其中,对目标邮件的特征向量进行降维和归一化处理的方式与2033和2034中对第一特征数据集进行降维和归一化处理的方式类似,在此不再赘述。
实际应用中,在接收到该目标邮件或者发送该目标邮件时,该邮件处理装置可以立即对该目标邮件进行分类,确定该第一分类标识。或者,在接收到该目标邮件或者发送该目标邮件时,该邮件处理装置还可以不立即对该目标邮件进行分类,而是每隔预设时长,对该预设时长内接收到的邮件以及发送的邮件进行分类,本实施例对分类时机不做限定。
通过周期性的对邮件进行分类,在邮件处理装置短时间内接收到多个邮件的情况下,能够对接收到的多个邮件统一地进行分类,减小了工作量。
在步骤205中,根据对该目标邮件进行分类时确定的第一类别标识,将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中。
邮件处理装置获取目标邮件的第一类别标识后,可以根据该第一类别标识,将该目标邮件存储于与第一类别标识对应的第一邮件文件夹中,用户即可在第一邮件文件夹中查看该目标邮件,提高了用户管理邮件的效率。
当用户在第一邮件文件夹中查看该目标邮件时,如果将该目标邮件移动到第二邮件文件夹,表示邮件处理装置对该目标邮件的分类不符合用户的分类习惯。则为了学习用户的分类习惯,该邮件处理装置检测到将目标邮件从该第一邮件文件夹移动至第二邮件文件夹的操作时,确定第二邮件文件夹对应的第二类别标识,根据该目标邮件的至少一项特征集合,获取目标邮件的特征向量,并将第二类别标识作为目标邮件的正确分类结果,根据目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识重新进行训练,得到第二分类模型,从而基于该第二分类模型,对邮件进行分类。
重新训练时,该邮件处理装置将多个样本邮件的特征向量、对应的类别标识、目标邮件的特征向量、第二类别标识组合成特征数据集,根据组合成的特征数据集进行训练,得到第二分类模型。
其中,在组合特征数据集时,该邮件处理装置可以先对目标邮件的特征向量进行调整,增加该特征向量,再将该调整后的特征向量与多个样本邮件的特征向量、对应的类别标识、第二类别标识组合成特征数据集,以增强用户的分类习惯对分类模型的影响程度,提高了训练出的第二分类模型的准确度。
例如,该邮件处理装置可以按照预设权重增加该特征向量,该预设权重大于1。如多个样本邮件的特征向量权重为1,而该预设权重为1.2,该邮件处理装置可以将目标邮件的特征向量中的每个特征乘以1.2,得到调整后的特征向量。
另外,如果该邮件处理装置在每次用户移动邮件时均重新训练分类模型,会导致计算量过大,尤其是,如果用户在短时间内频繁地移动同一个邮件,该邮件处理装置重新训练出的多个分类模型不能准确体现用户的分类习惯,浪费了计算资源。
则为了减小计算量,节省计算资源,该邮件处理装置可以在检测到用户移动邮件的操作时,不立即进行训练,而是先生成移动操作记录,在经过预设时长后根据该移动操作记录中对该邮件的最后一次移动操作,确定该邮件当前所在的文件夹,根据当前所在的文件夹的类别标识进行训练。那么,如果在该预设时长内用户多次地移动了该邮件,该邮件处理装置仅需根据该邮件最终的移动位置训练出一个分类模型,而无需训练多个分类模型。
本实施例提供的方法,通过根据每个样本邮件的特征,得到至少一项特征集合,确定特征向量,并根据样本邮件的历史分类记录,确定每个样本邮件的类别标识,从而根据每个样本邮件的特征向量和类别标识进行训练,得到第一分类模型。通过根据样本邮件的历史分类记录训练得到分类模型,在对邮件进行分类时能够根据用户的分类习惯进行分类,提高了邮件分类的准确率,减少了邮件分类错误的问题,达到了准确分类邮件的效果。如果将目标邮件划分至第一邮件文件夹后用户又将目标邮件移动至第二邮件文件夹,说明对目标邮件的分类不符合用户的分类习惯,则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及该多个样本邮件的特征向量和对应的类别标识再次进行训练,进一步学习用户的分类习惯,提高了邮件分类的准确率,避免了邮件分类错误的问题,达到了准确分类邮件的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种分类模型训练装置框图,如图3所示,该分类模型训练装置包括:获取模块301、确定模块302和训练模块303。
所述获取模块301,被配置为用于根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量;
所述确定模块302,被配置为用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识;
所述训练模块303,被配置为用于根据每个样本邮件的特征向量以及类别标识进行训练,得到第一分类模型。
本实施例提供的装置,通过根据每个样本邮件的特征,得到至少一项特征集合,确定特征向量,并根据样本邮件的历史分类记录,确定每个样本邮件的类别标识,从而根据每个样本邮件的特征向量和类别标识进行训练,得到第一分类模型。通过根据样本邮件的历史分类记录训练得到分类模型,在对邮件进行分类时能够根据用户的分类习惯进行分类,提高了邮件分类的准确率,减少了邮件分类错误的问题,达到了准确分类邮件的效果。
在另一实施例中,所述训练模块303还被配置为用于将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据所述第一特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述训练模块303还被配置为用于对所述第一特征数据集进行降维,得到第二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特征数据集进行训练,得到所述第一分类模型。
在另一实施例中,所述训练模块303还被配置为用于确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为所述第二特征数据集。
在另一实施例中,所述训练模块303还被配置为用于基于当前训练得到的分类模型,对所述多个样本邮件的特征向量分别进行分类,得到多个增益类别标识,删除所述多个样本邮件的特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个样本邮件的增益类别标识与所述多个样本邮件的测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
在另一实施例中,所述训练模块303还被配置为用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
Figure BDA0000874128660000211
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
在另一实施例中,所述训练模块303还被配置为用于对初始分类模型的权重参数进行初始化,根据当前的分类模型的权重参数,对所述第一特征数据集中第一样本邮件的特征向量进行分类,得到估计类别标识,获取所述估计类别标识与所述第一样本邮件对应的类别标识之间的误差,如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的权重参数,对所述第一特征数据集中第二样本邮件的特征向量继续进行分类,直至当前获取到的估计类别标识与当前样本邮件对应的类别标识之间的误差小于所述预设阈值时,基于当前的权重参数,生成所述第一分类模型。
参加图4,在另一实施例中,所述装置还包括:分类模块304。
所述分类模块304,被配置为用于基于所述第一分类模型,对目标邮件进行分类。
在另一实施例中,所述分类模块304还被配置为用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
参加图5,在另一实施例中,所述装置还包括:存储模块305。
所述存储模块305,被配置为用于根据对所述目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中。
在另一实施例中,所述确定模块302还被配置为用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
所述获取模块301还被配置为用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
所述训练模块303还被配置为用于根据所述目标邮件的特征向量和所述第二类别标识以及所述多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
在另一实施例中,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图6是根据另一示例性实施例示出的一种分类模型训练装置的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件602,其进一步包括一个或多个处理器,以及由存储器604所代表的存储器资源,用于存储可由处理组件602的执行的指令,例如应用程序。存储器604中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件602被配置为执行指令,以执行上述分类模型训练方法。
装置600还可以包括一个电源组件606被配置为执行装置600的电源管理,一个有线或无线网络接口608被配置为将装置600连接到网络,和一个输入输出(I/O)接口610。装置600可以操作基于存储在存储器604的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种分类模型训练方法,其特征在于,所述方法包括:
根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,所述多个样本邮件为用户邮箱中的邮件,所述用户邮箱包括由用户建立的多个文件夹,且每个文件夹用于存放相同类别的样本邮件,所述特征集合包括所述样本邮件在多个特征维度下的特征,所述样本邮件的特征维度包括邮件标题中是否包含预设关键词、发件人是否在用户通讯录中、用户是收件人还是被抄送人,每个特征维度对应所述样本邮件的一个特征;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识,所述样本邮件的历史分类记录是根据样本邮件与所属文件夹的类别标识之间的对应关系生成的,用于体现用户对邮件的分类习惯;
将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应;
对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到第一分类模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述特征维度标识与每个类别标识之间的关联度,包括:
基于当前训练得到的分类模型,对所述多个样本邮件的特征向量分别进行分类,得到多个增益类别标识;
删除所述多个样本邮件的特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识;
根据所述多个样本邮件的增益类别标识与所述多个样本邮件的测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二特征数据集进行归一化,得到第三特征数据集,包括:
应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
Figure FDA0002214243500000021
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第一分类模型,对目标邮件进行分类。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一分类模型,对目标邮件进行分类,包括:
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据对所述目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
根据所述目标邮件的特征向量和所述第二类别标识以及所述多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
8.根据权利要求1所述的方法,其特征在于,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
9.一种分类模型训练装置,其特征在于,所述装置包括:
获取模块,用于根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,所述多个样本邮件为用户邮箱中的邮件,所述用户邮箱包括由用户建立的多个文件夹,且每个文件夹用于存放相同类别的样本邮件,所述特征集合包括所述样本邮件在多个特征维度下的特征,所述样本邮件的特征维度包括邮件标题中是否包含预设关键词、发件人是否在用户通讯录中、用户是收件人还是被抄送人,每个特征维度对应所述样本邮件的一个特征;
确定模块,用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识,所述样本邮件的历史分类记录是根据样本邮件与所属文件夹的类别标识之间的对应关系生成的,用于体现用户对邮件的分类习惯;
训练模块,用于将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为第二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特征数据集进行训练,得到第一分类模型。
10.根据权利要求9所述的装置,其特征在于,所述训练模块还用于基于当前训练得到的分类模型,对所述多个样本邮件的特征向量分别进行分类,得到多个增益类别标识,删除所述多个样本邮件的特征向量中所述特征维度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识,根据所述多个样本邮件的增益类别标识与所述多个样本邮件的测试类别标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
11.根据权利要求9所述的装置,其特征在于,所述训练模块还用于应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
Figure FDA0002214243500000041
其中,x为所述第二特征数据集中任一位置上的值,y为对x进行归一化后得到的值,MaxValue为x所在特征维度下多个特征的最大值,MinValue为x所在特征维度下多个特征的最小值。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
分类模块,用于基于所述第一分类模型,对目标邮件进行分类。
13.根据权利要求12所述的装置,其特征在于,所述分类模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
14.根据权利要求12所述的装置,其特征在于,所述装置还包括:
存储模块,用于根据对所述目标邮件进行分类时确定的第一类别标识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中。
15.根据权利要求14所述的装置,其特征在于,所述确定模块还用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
所述获取模块还用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
所述训练模块还用于根据所述目标邮件的特征向量和所述第二类别标识以及所述多个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分类。
16.根据权利要求9所述的装置,其特征在于,样本邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
17.一种分类模型训练装置,其特征在于,包括:
处理器;
用于存储处理器可执行的指令的存储器;
其中,所述处理器被配置为:
根据多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件的特征向量,所述多个样本邮件为用户邮箱中的邮件,所述用户邮箱包括由用户建立的多个文件夹,且每个文件夹用于存放相同类别的样本邮件,所述特征集合包括所述样本邮件在多个特征维度下的特征,所述样本邮件的特征维度包括邮件标题中是否包含预设关键词、发件人是否在用户通讯录中、用户是收件人还是被抄送人,每个特征维度对应所述样本邮件的一个特征;
根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识,所述样本邮件的历史分类记录是根据样本邮件与所属文件夹的类别标识之间的对应关系生成的,用于体现用户对邮件的分类习惯;
将所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集;
确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述多个特征向量中相应位置上的特征对应;
对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度;
如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
将删除特征集合后的特征数据集确定为第二特征数据集;
对所述第二特征数据集进行归一化,得到第三特征数据集;
根据所述第三特征数据集进行训练,得到第一分类模型。
CN201510917223.9A 2015-12-10 2015-12-10 分类模型训练方法及装置 Active CN105574538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510917223.9A CN105574538B (zh) 2015-12-10 2015-12-10 分类模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510917223.9A CN105574538B (zh) 2015-12-10 2015-12-10 分类模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN105574538A CN105574538A (zh) 2016-05-11
CN105574538B true CN105574538B (zh) 2020-03-17

Family

ID=55884644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510917223.9A Active CN105574538B (zh) 2015-12-10 2015-12-10 分类模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN105574538B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106817472B (zh) * 2015-12-02 2020-03-10 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN107590146A (zh) * 2016-07-06 2018-01-16 北京搜狗科技发展有限公司 一种药方匹配方法和装置、一种用于药方匹配的装置
CN106651317A (zh) * 2016-12-28 2017-05-10 浙江省公众信息产业有限公司 一种业务流程相关性的判别方法和装置
CN108229521B (zh) * 2017-02-23 2020-09-15 北京市商汤科技开发有限公司 对象识别网络的训练方法、装置、系统及其应用
CN106897746B (zh) * 2017-02-28 2020-03-03 北京京东尚科信息技术有限公司 数据分类模型训练方法和装置
CN108304890B (zh) * 2018-03-16 2021-06-08 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN108647571B (zh) * 2018-03-30 2021-04-06 国信优易数据股份有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN109033155A (zh) * 2018-06-13 2018-12-18 中国电子科技集团公司电子科学研究院 搜索邮件内容方法、装置、终端及存储介质
CN110633604B (zh) * 2018-06-25 2023-04-25 富士通株式会社 信息处理方法和信息处理装置
CN109124635B (zh) * 2018-09-25 2022-09-02 上海联影医疗科技股份有限公司 模型生成方法、磁共振成像扫描方法及系统
CN109359575B (zh) * 2018-09-30 2022-05-10 腾讯科技(深圳)有限公司 人脸检测方法、业务处理方法、装置、终端及介质
CN111090753B (zh) * 2018-10-24 2020-11-20 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质
CN109995611B (zh) * 2019-03-18 2021-06-25 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110110756B (zh) * 2019-04-09 2021-08-17 北京中科智营科技发展有限公司 一种数据分类优化方法和优化装置
CN111144505B (zh) * 2019-12-30 2023-09-01 北京三快在线科技有限公司 基于维度切片的变量分类方法、装置、设备及介质
CN111506575B (zh) * 2020-03-26 2023-10-24 第四范式(北京)技术有限公司 一种网点业务量预测模型的训练方法、装置及系统
CN111582831B (zh) * 2020-05-12 2023-03-14 深圳博沃智慧科技有限公司 政务信箱管理方法、系统及存储介质
CN113824624B (zh) * 2020-06-19 2023-10-17 阿里巴巴集团控股有限公司 一种邮件标题生成模型的训练方法及邮件标题生成方法
CN112101408A (zh) * 2020-08-03 2020-12-18 联想(北京)有限公司 一种分类方法及分类装置
CN112116391A (zh) * 2020-09-18 2020-12-22 北京达佳互联信息技术有限公司 多媒体资源投放方法、装置、计算机设备及存储介质
CN112149754B (zh) * 2020-09-30 2021-06-11 罗中岩 一种信息的分类方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565403B2 (en) * 2000-03-16 2009-07-21 Microsoft Corporation Use of a bulk-email filter within a system for classifying messages for urgency or importance
CN101316246B (zh) * 2008-07-18 2011-08-17 北京大学 一种基于分类器动态更新的垃圾邮件检测方法
CN105095859B (zh) * 2015-06-29 2019-03-15 小米科技有限责任公司 人脸识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
特征选择方法综述;姚旭 等;《控制与决策》;20120228;第27卷(第2期);第161-166,192页 *

Also Published As

Publication number Publication date
CN105574538A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574538B (zh) 分类模型训练方法及装置
US11734319B2 (en) Question answering method and apparatus
CN105550295B (zh) 分类模型优化方法及装置
CN105608179B (zh) 确定用户标识的关联性的方法和装置
CN109783671B (zh) 一种以图搜图的方法、计算机可读介质及服务器
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
US9195910B2 (en) System and method for classification with effective use of manual data input and crowdsourcing
US7788292B2 (en) Raising the baseline for high-precision text classifiers
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN109889436B (zh) 一种社交网络中垃圾邮件发送者的发现方法
JP2011210252A (ja) マルチクラス分類器をトレーニングするための方法
JP2006243802A (ja) 情報処理システム、プログラム及び情報処理方法
CN108228684B (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN110196904A (zh) 一种获取推荐信息的方法、装置及计算机可读存储介质
WO2022188844A1 (zh) 视频分类方法、装置、设备及介质
CN106649410B (zh) 一种获取聊天回复内容的方法及装置
CN110363228A (zh) 噪声标签纠正方法
CN103580919A (zh) 一种利用邮件服务器日志进行邮件用户标记的方法与系统
JP2020004410A (ja) メディアベースのコンテンツシェアを容易にする方法、コンピュータプログラム及びコンピューティングデバイス
CN114564582B (zh) 一种短文本分类方法、装置、设备及存储介质
US9749277B1 (en) Systems and methods for estimating sender similarity based on user labels
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
US11363064B2 (en) Identifying spam using near-duplicate detection for text and images
CN114528402A (zh) 邮件的智能分类方法及装置
CN110705275B (zh) 主题词提取方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant