CN113706115A

CN113706115A - 一种邮件处理方法、装置及存储介质

Info

Publication number: CN113706115A
Application number: CN202111016447.4A
Authority: CN
Inventors: 陈文捷; 曾利强
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26

Abstract

本申请涉及人工智能技术领域，本申请公开一种邮件处理方法、装置及存储介质，该方法包括：获取用户电子邮箱中的已处理邮件、已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据；基于已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型；获取用户电子邮箱中的待处理邮件及待处理邮件的关键特征变量对应的邮件数据；将待处理邮件的关键特征变量对应的邮件数据输入训练完成的XGBoost模型，获得待处理邮件的目标变量的预测值；基于待处理邮件的目标变量的预测值，确定待处理邮件的重要性级别。采用本申请可以提高邮件分类的智能性。

Description

一种邮件处理方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种邮件处理方法、装置及存储介质。

背景技术

工作中经常收到大量邮件，如果不对邮件分类，处理邮件时容易产生问题，例如未及时处理或者遗漏了重要邮件导致投诉等，因此对邮件进行合理分类非常重要。目前邮件分类包括人工分类或者智能分类，人工分类可以通过手动给邮件加分类标签、自定义收件夹规则等手段实现，但这些手段耗时长，处理不够及时；而智能分类主要指垃圾邮件分类，难以实现对正常邮件的分类处理。因而，如何提高邮件分类的智能性值得研究。

发明内容

本申请实施例提供一种邮件处理方法、装置及存储介质，通过获取已处理邮件的邮件数据来进行模型训练，获得训练完成的XGBoost模型，并利用该模型来预测待处理邮件的目标变量的值，进而确定待处理邮件的重要性级别，可以提高邮件分类的智能性。

第一方面，本申请实施例提供一种邮件处理方法，包括：

获取用户电子邮箱中的已处理邮件，所述已处理邮件为已收到且已回复的邮件；

获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关，所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性；

基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型；

获取所述用户电子邮箱中的待处理邮件，以及所述待处理邮件的所述关键特征变量对应的邮件数据，所述待处理邮件为已收到且未回复的邮件；

将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型，获得所述待处理邮件的所述目标变量的预测值；

基于所述待处理邮件的所述目标变量的预测值，确定所述待处理邮件的重要性级别。

在一种可能的实现方式中，所述获取用户电子邮箱中的已处理邮件，包括：

获取用户电子邮箱中的已收到邮件和已发送邮件，并获取所述已收到邮件和所述已发送邮件的属性数据；

在确定已收到的第一邮件和已发送的第二邮件的属性数据满足对应条件的情况下，将所述第一邮件确定为所述已处理邮件，并将所述第二邮件确定为所述已处理邮件对应的邮件；所述第一邮件是所述已收到邮件中的任一封邮件，所述第二邮件是所述已发送邮件中的任一封邮件，所述对应条件包括：所述第二邮件的收件人包括所述第一邮件的发件人、所述第二邮件的发送时间大于所述第一邮件的接收时间、所述第二邮件与所述第一邮件的主题的相似度大于第一阈值、所述第二邮件与所述第一邮件的正文的相似度大于第二阈值。

在一种可能的实现方式中，所述获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，包括：

将所述已处理邮件对应的邮件的发送时间与所述已处理邮件的接收时间的时间差，确定为所述已处理邮件的目标变量对应的邮件数据；

获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，所述基础特征变量用于表示所述已处理邮件的邮件属性；

基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，对所述至少两个基础特征变量进行筛选处理，获得所述关键特征变量，并获得所述已处理邮件的关键特征变量对应的邮件数据。

在一种可能的实现方式中，所述至少两个基础特征变量包括正文特征变量，所述获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，包括：

对所述已处理邮件的正文进行分词处理，获得所述正文包含的关键词；

将所述正文包含的关键词与预设关键词进行匹配，获得匹配结果，并将所述匹配结果作为所述正文特征变量对应的邮件数据，所述预设关键词包括以下类型中的至少一种：用于表示紧急程度的预设关键词、用于表示时间的预设关键词、用于表示动作的预设关键词、用于表示惩罚意义的预设关键词，所述匹配结果包括所述正文包含的关键词与所述预设关键词是否匹配成功，和/或所述正文包含的关键词与所述预设关键词匹配成功的数量。

在一种可能的实现方式中，所述基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，对所述至少两个基础特征变量进行筛选处理，获得所述关键特征变量，包括：

对所述至少两个基础特征变量中每个基础特征变量分别对应的邮件数据进行证明力权重WOE编码，并基于所述WOE编码的结果计算所述至少两个基础特征变量中每个基础特征变量的信息价值IV值；

将IV值大于第三阈值的基础特征变量或IV值最大的前N个基础特征变量，确定为所述关键特征变量。

在一种可能的实现方式中，所述基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型，包括：

将所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据进行数值化处理，获得总样本数据；

将所述总样本数据分为k-1个训练集和1个测试集，并在所述k-1个训练集上对所述待训练的XGBoost模型进行训练，获得训练后的XGBoost模型，所述k为大于1的整数；

在所述1个测试集上对所述训练后的XGBoost模型进行测试，并基于测试结果计算模型评价指标；

若所述模型评价指标不满足预设条件，重新划分k-1个训练集和1个测试集，并将所述训练后的XGBoost模型作为所述待训练的XGBoost模型，进行模型训练；

若所述模型评价指标满足预设条件，获得所述训练完成的XGBoost模型。

在一种可能的实现方式中，所述确定所述待处理邮件的重要性级别之后，所述方法还包括：

基于预设的重要性级别与标记的映射关系，对所述待处理邮件进行标记；

获取所述待处理邮件的接收时间，基于所述接收时间和所述重要性级别，确定所述待处理邮件的排列顺序，按照所述排列顺序对所述待处理邮件进行排序。

第二方面，本申请实施例提供一种邮件处理装置，包括：

第一获取模块，用于获取用户电子邮箱中的已处理邮件，所述已处理邮件为已收到且已回复的邮件；

第二获取模块，用于获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关，所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性；

模型训练模块，用于基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型；

第三获取模块，用于获取所述用户电子邮箱中的待处理邮件，以及所述待处理邮件的所述关键特征变量对应的邮件数据，所述待处理邮件为已收到且未回复的邮件；

预测模块，用于将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型，获得所述待处理邮件的所述目标变量的预测值；

确定模块，用于基于所述待处理邮件的所述目标变量的预测值，确定所述待处理邮件的重要性级别。

在一种可能的设计中，所述第一获取模块，具体用于：

在一种可能的设计中，所述第二获取模块，具体用于：

在一种可能的设计中，所述至少两个基础特征变量包括正文特征变量，所述第二获取模块，还用于：

在一种可能的设计中，所述第二获取模块，还用于：

在一种可能的设计中，所述模型训练模块，具体用于：

在一种可能的设计中，所述装置还包括：

标记模块，用于基于预设的重要性级别与标记的映射关系，对所述待处理邮件进行标记；

排序模块，用于获取所述待处理邮件的接收时间，基于所述接收时间和所述重要性级别，确定所述待处理邮件的排列顺序，按照所述排列顺序对所述待处理邮件进行排序。

第三方面，本申请实施例提供一种邮件处理装置，所述邮件处理装置包括处理器、存储器以及通信接口，所述处理器、存储器和通信接口相互连接，其中，所述通信接口用于接收和发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面所述的方法。

本申请实施例中，利用已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据来训练XGBoost模型，获得训练完成的XGBoost模型，并利用该模型来预测待处理邮件的目标变量的值，根据该目标变量的预测值来确定待处理邮件的重要性级别，可以提高对邮件分类的智能性，并按重要性级别对邮件进行标记和排序，可以提示用户及时处理重要邮件，提高邮件处理效率。

附图说明

为了说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种邮件处理方法的流程示意图；

图2为本申请实施例提供的一种邮件处理装置的结构示意图；

图3为本申请实施例提供的另一种邮件处理装置的结构示意图。

具体实施方式

下面结合附图对本申请作进一步详细描述。

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。

在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供了一种邮件处理方法，为了更清楚地描述本申请的方案，下面对本申请涉及的一些附图作进一步介绍。

请参见图1，图1为本申请实施例提供的一种邮件处理方法的流程示意图。如图1所示，所述方法可以包括以下步骤110-步骤160。

步骤110，获取用户电子邮箱中的已处理邮件，所述已处理邮件为已收到且已回复的邮件。

在一个实施例中，可以先获取用户电子邮箱中的已收到邮件和已发送邮件，并获取已收到邮件和已发送邮件的属性数据；根据该已收到邮件和已发送邮件的属性数据的关联程度，来确定用户电子邮箱中哪些邮件是已处理邮件。邮件的属性数据可以包括收件人、发件人、接收时间、发送时间、主题、正文等数据。而若已收到邮件和已发送邮件是对应的邮件，即该已发送邮件是回复该已收到邮件的邮件，那么两者的属性数据的关联程度较高，可理解的，此时两者的属性数据满足预设的对应条件。因此，针对已收到邮件中的每一封邮件，判断已发送邮件中是否存在与该已收到邮件对应的邮件，若存在，则确定该已收到邮件为已处理邮件。具体的，在确定已收到的第一邮件和已发送的第二邮件的属性数据满足对应条件的情况下，将所述第一邮件确定为所述已处理邮件，并将所述第二邮件确定为所述已处理邮件对应的邮件；所述第一邮件是所述已收到邮件中的任一封邮件，所述第二邮件是所述已发送邮件中的任一封邮件，所述对应条件包括：所述第二邮件的收件人包括所述第一邮件的发件人、所述第二邮件的发送时间大于所述第一邮件的接收时间、所述第二邮件与所述第一邮件的主题的相似度大于第一阈值、所述第二邮件与所述第一邮件的正文的相似度大于第二阈值。其中，计算两封邮件的主题/正文的相似度的过程包括：先对每封邮件的主题/正文进行分词；在获得多个词语后，分别将每封邮件的主题/正文包括的多个词语向量化，例如，可以采用独热编码的方式将词语向量化；接着，计算两封邮件对应的两个向量的距离，该距离可以是欧式距离或者余弦距离等，根据该距离计算该两封邮件的主题/正文的相似度。而第一阈值、第二阈值可以是事先根据具有对应关系的已发送邮件样本和已收到邮件样本确定的，第一阈值和第二阈值可以固定，也可以随着具有对应关系的邮件样本的数量的增加，不断更新调整，从而确保样本的真实性，保证邮件分类的准确性。可选的，还可以根据已收到的邮件是否带有“已回复”标识，确定该邮件是否为已回复的邮件，进而确定该邮件是否为已处理邮件。

步骤120，获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关，所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性。

在一个实施例中，可以将所述已处理邮件对应的邮件的发送时间与所述已处理邮件的接收时间的时间差，确定为所述已处理邮件的目标变量对应的邮件数据；可理解的，目标变量为已处理邮件的回复时间间隔，代表从接收到该已处理邮件至回复该已处理邮件的过程所花费的时间，而目标变量对应的邮件数据即为已处理邮件的回复时间间隔的具体数值。一般来说，邮件的回复时间间隔越短，该邮件被处理得越及时，可以一定程度上体现该邮件的处理重要性较高，因此，该目标变量对应的邮件数据与已处理邮件的处理重要性相关。

而已处理邮件的处理重要性，与该邮件的邮件属性具有一定的关联性，因此可以根据邮件的邮件属性，来确定邮件的处理重要性。具体的，获取邮件属性的过程可以包括以下两种：方式一，获取邮件的多个邮件属性；方式二，在获取邮件的多个邮件属性后，从中挑选出较重要的邮件属性，该较重要的邮件属性与其他邮件属性相比，可能对邮件的处理重要性具有更大影响。在本申请中，关键特征变量可以是指该较重要的邮件属性。

以方式二为例，下面具体介绍获取关键特征变量对应的邮件数据的过程：

其中，上述基础特征变量可以包括以下邮件属性：是否包含附件、是否已查看、是否已回复、邮件所在文件夹、邮件所在文件夹筛选规则、邮件所属的类别、是否有后续标志、是否有添加提醒、邮件被发件人标识的重要性等等，以上基础特征变量可以是从已处理邮件的相关数据中直接获取的；进一步的，基础特征变量还可以包括更多其他的邮件属性，如发件人与用户是否在同一部门、发件人与用户是否为上下级关系、主题是否包括特定关键词、正文是否包括特定关键词等等。这些基础特征变量可以通过对该邮件进行处理、分析后获得。不限于以上几种邮件属性，基础特征变量还可以包括其他邮件属性，本申请对此不作限制。

下面以正文是否包括特定关键词为例，介绍获取已处理邮件的基础特征变量的过程：

正文是否包含特定关键词，是与正文相关的特征变量，因此可称为正文特征变量。具体的，可以先对所述已处理邮件的正文进行分词处理，获得所述正文包含的关键词；然后将所述正文包含的关键词与预设关键词进行匹配，获得匹配结果，并将所述匹配结果作为所述正文特征变量对应的邮件数据，所述预设关键词包括以下类型中的至少一种：用于表示紧急程度的预设关键词、用于表示时间的预设关键词、用于表示动作的预设关键词、用于表示惩罚意义的预设关键词，所述匹配结果包括所述正文包含的关键词与所述预设关键词是否匹配成功，和/或所述正文包含的关键词与所述预设关键词匹配成功的数量。

示例性的，可以先利用分词工具，如结巴分词工具，对邮件正文进行分词，并去掉停用词、标点符号等，获得多个词语；若词语的数量不多，可直接将该多个词语作为邮件正文包含的关键词；而若词语的数量太多，也可以进一步从中选出有代表性的关键词，作为邮件正文包含的关键词，例如，利用TF-IDF(term frequency-inverse document frequency，一种统计方法)方法来挑选有代表性的关键词；进一步的，将邮件正文包含的关键词与以下类型的预设关键词进行匹配：A如紧急、务必、重要等表示紧急程度的关键词；B如下午、明天等表示较短时间的词；C如审核、确认、核对等表示动作的词；D如超期、扣款、投诉等表示惩罚意义的关键词；不限于以上几种类型，预设关键词还可以包括其他类型的关键词。匹配后获得匹配结果，该匹配结果可以对应以下几种可能的基础特征变量：1)邮件正文是否包含预设关键词；2)邮件正文包含的预设关键词的数量；3)邮件正文是否包含A类型的预设关键词、是否包含B类型的预设关键词等；4)邮件正文包含A类型的预设关键词的数量、包含B类型的预设关键词的数量等；具体可以选择1)、2)或者3)、4)等作为基础特征变量，本申请对此不作限制。

进一步的，获取已处理邮件的基础特征变量对应的邮件数据之后，通过筛选处理从基础特征变量中确定关键特征变量。后续可以利用关键特征变量对应的邮件数据来训练模型，以发现关键特征变量和目标变量之间的联系。通过对基础特征变量进行筛选，选择出对于机器学习算法有益的相关特征变量，可以减少机器学习算法的运行时间，增加模型的可解释性。对基础特征变量进行筛选的方式包括但不限于：相关系数、基尼系数、信息增益和信息价值(Information Value，IV)等。示例性的，本申请可以根据信息价值来进行筛选。信息价值通常用来表示特征对目标预测的贡献程度，也即表示特征的预测能力，一般来说，IV值越高，说明该特征的预测能力越强，信息贡献程度越高。具体的，从基础特征变量中筛选出关键特征变量的过程包括以下步骤：

先将目标变量对应的邮件数据二元化，即根据预设阈值将数值类型的数据转换为二元分类类型的数据，若回复时间间隔小于预设阈值，对应标签为1；若回复时间间隔不小于预设阈值，对应标签为0。

接着将所有的已处理邮件作为样本，对所述至少两个基础特征变量中每个基础特征变量分别对应的邮件数据进行证明力权重WOE编码，并基于所述WOE编码的结果计算所述至少两个基础特征变量中每个基础特征变量的IV值；具体的，对每个基础特征变量对应的邮件数据进行分组，并利用如下公式(1)来计算该基础特征变量包括的每个分组的证明力权重WOE，进一步的，利用公式(2)计算该基础特征变量的IV值：

在公式(1)中，i代表该分组在该基础特征变量中的分组序号，good代表有响应,也即目标变量的标签为1，#good(i)表示该分组中目标变量标签为1的邮件样本数量；bad代表无响应，也即目标变量的标签为0，#bad(i)表示该分组中目标变量标签为0的邮件样本数量。#good(T)表示该基础特征变量的所有分组中目标变量标签为1的邮件样本总数，#bad(T)表示该基础特征变量的所有分组中目标变量标签为0的邮件样本总数。该公式的结果数值反映出该分组有响应与无响应情况跟总体的差异情况。在公式(2)中，k表示该基础特征变量包括的分组总数，IV可以看成是该基础特征变量的多个分组的WOE的加权平均。

之后将IV值大于第三阈值的基础特征变量或IV值最大的前N个基础特征变量，确定为所述关键特征变量。第三阈值或者N的值可以根据实际情况设定。

步骤130，基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型。

XGBoost是机器学习中的集成学习算法Boosting方法中的一种，Boosting方法通过将多个弱学习器集成起来形成一个强学习器。XGBoost模型是一种提升树模型，其本质是多个分类回归树(classification and regression tree,CART)的集成，即用多个CART树来进行预测，将每棵树的预测值相加后获得模型最终的预测值。利用XGBoost模型可以解决回归问题。在一个实施例中，模型训练的过程可以包括以下步骤：

将所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据进行数值化处理，获得总样本数据。具体的，数值化处理是指将分类类型的数据转换为数值类型的数据。另外还可对异常数据进行清理。该已处理邮件的目标变量对应的邮件数据实际上是该邮件的目标变量的真实值，可以作为样本的标签，而该已处理邮件的关键特征变量对应的邮件数据可以作为该样本的特征。

根据k折交叉验证法，将所述总样本数据分为k-1个训练集和1个测试集，并在所述k-1个训练集上对所述待训练的XGBoost模型进行训练，获得训练后的XGBoost模型，所述k为大于1的整数；具体的，k可以为10，即采用10折交叉验证法来划分数据集。即，在训练集上建立m个CART回归树进行预测：每一个CART回归树都是一个弱学习器，通过一步步加入新的弱学习器，来努力纠正前面所有弱学习器的残差，因此，最终这m个学习器相加在一起可以用来对待处理邮件的目标变量的值进行预测。其中，m为大于1的整数。

在所述1个测试集上对所述训练后的XGBoost模型进行测试，并基于测试结果计算模型评价指标；具体的，该模型评价指标可以包括平均绝对误差、均方误差、均方根误差、平均绝对百分误差中的一种。

若所述模型评价指标不满足预设条件，重新划分k-1个训练集和1个测试集，并将所述训练后的XGBoost模型作为所述待训练的XGBoost模型，继续进行模型训练；该预设条件可以根据实际情况进行设定。例如，该预设条件可以设为：均方根误差小于指标阈值。

步骤140，获取所述用户电子邮箱中的待处理邮件，以及所述待处理邮件的所述关键特征变量对应的邮件数据，所述待处理邮件为已收到且未回复的邮件。

可理解的，本申请中的已处理邮件和待处理邮件，均是指除垃圾邮件之外的正常邮件。用户电子邮箱中已收到的邮件中，除了已处理的邮件之外，其他的邮件均可作为待处理邮件。考虑到邮件一般具有时效性，之前已收到的邮件中，已回复的邮件可认为已处理，而未回复但已查看的邮件也可认为已处理，因此，可以限定在预设时间段内的已收到且未回复的邮件，为待处理邮件。预设时间段可以设为最近一个月内、最近一个周内、最近三天内等等，本申请对此不作限制。

可理解的，在模型训练时，模型的输入为已处理邮件的关键特征变量对应的邮件数据，因而，利用训练好的模型进行预测时，模型的输入包括待处理邮件同样的特征变量对应的邮件数据。也就是说，应用模型时需要获取待处理邮件的关键特征变量对应的邮件数据，示例性的，若已经确定关键特征变量包括：是否包含附件，那么，获取该待处理邮件是否包含附件的具体数据，作为该已处理邮件的关键特征变量对应的邮件数据。

步骤150，将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型，获得所述待处理邮件的所述目标变量的预测值。

训练完成的XGBoost模型用于根据输入的关键特征变量对应的邮件数据，预测该邮件的目标变量的值，也即预测该待处理邮件的回复时间间隔。因此，获取待处理邮件的关键特征变量对应的邮件数据，输入训练完成的XGBoost模型，获得该模型的输出，将该输出作为该待处理邮件的目标变量的预测值。该预测值与该待处理邮件的处理重要性相关。

步骤160，基于所述待处理邮件的所述目标变量的预测值，确定所述待处理邮件的重要性级别。

具体的，可以根据待处理邮件的目标变量的预测值所在的数值范围，确定该邮件的重要性级别，每个重要性级别对应一个预设的数值范围。而在确定待处理邮件的重要性级别之后，还可以基于预设的重要性级别与标记的映射关系，对所述待处理邮件进行标记；例如，重要性级别可以包括“很重要”、“重要”和“普通”三种，分别对应红色、黄色和蓝色标记。这样，通过标记可以展示待处理邮件的重要性级别，实现对待处理邮件的分类，从而可以提示用户及时处理较重要的邮件。进一步，还可以获取所述待处理邮件的接收时间，基于所述接收时间和所述重要性级别，确定所述待处理邮件的排列顺序，按照所述排列顺序对所述待处理邮件进行排序。可理解，邮件的重要性级别越高，该待处理邮件排列顺序越靠前，而对于重要性级别相同的多封邮件，邮件的接收时间越早，该待处理邮件排列顺序越靠前，这样，可以按照邮件的重要程度对邮件进行分类展示，使得重要且需先处理的邮件的展示顺序靠前，方便提示用户及时处理，提高邮件的处理效率。可选的，还能通过将重要的邮件置顶、添加备注信息等方式，进一步提高对邮件的处理智能性，提示用户及时处理重要邮件。

可选的，在用户使用电子邮箱的过程中，可以按预设规则如预设时长间隔或者预设数量间隔等，获取电子邮箱中当前的存量邮件，基于该存量邮件对XGBoost模型进行重新训练，获得最新的XGBoost模型；并应用该模型，对待处理邮件进行处理分类，这样可以实现动态调整和持续优化，确保邮件处理的智能性和精确性。可理解的，上述邮件处理方法可以在用户终端本地独立部署实施，无需使用网络，不对外发送信息，从而确保用户的隐私安全。

请参见图2，图2为本申请实施例提供的一种邮件处理装置的结构示意图。如图2所示，所述邮件处理装置可以包括：

第一获取模块10，用于获取用户电子邮箱中的已处理邮件，所述已处理邮件为已收到且已回复的邮件；

第二获取模块11，用于获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关，所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性；

模型训练模块12，用于基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型；

第三获取模块13，用于获取所述用户电子邮箱中的待处理邮件，以及所述待处理邮件的所述关键特征变量对应的邮件数据，所述待处理邮件为已收到且未回复的邮件；

预测模块14，用于将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型，获得所述待处理邮件的所述目标变量的预测值；

确定模块15，用于基于所述待处理邮件的所述目标变量的预测值，确定所述待处理邮件的重要性级别。

在一种可能的设计中，所述第一获取模块10，具体用于：

在一种可能的设计中，所述第二获取模块11，具体用于：

在一种可能的设计中，所述至少两个基础特征变量包括正文特征变量，所述第二获取模块11，还用于：

在一种可能的设计中，所述第二获取模块11，还用于：

在一种可能的设计中，所述模型训练模块12，具体用于：

在一种可能的设计中，所述装置还包括：

其中，图2所示装置实施例的具体描述可以参照前述图1所示方法实施例的具体说明，在此不进行赘述。

请参照图3，图3为本申请实施例提供的另一种邮件处理装置的结构示意图，如图3所示，所述装置1000可以包括：至少一个处理器1001，例如CPU，至少一个通信接口1003，存储器1004，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图3所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块以及程序指令。

在图3所示的装置1000中，处理器1001可以用于加载存储器1004中存储的程序指令，并具体执行以下操作：

需要说明的是，具体执行过程可以参见图1所示方法实施例的具体说明，在此不进行赘述。

具体执行步骤可以参见前述实施例的描述，此处不在赘述。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤，具体执行过程可以参见图1所示实施例的具体说明，在此不进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种邮件处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取用户电子邮箱中的已处理邮件，包括：

3.如权利要求2所述的方法，其特征在于，所述获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据，包括：

4.如权利要求3所述的方法，其特征在于，所述至少两个基础特征变量包括正文特征变量，所述获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，包括：

将所述正文包含的关键词与预设关键词进行匹配，获得匹配结果，并将所述匹配结果作为所述正文特征变量对应的邮件数据，所述预设关键词包括以下类型中的至少一种：用于表示紧急程度的预设关键词、用于表示时间的预设关键词、用于表示动作的预设关键词、用于表示惩罚意义的预设关键词；所述匹配结果包括所述正文包含的关键词与所述预设关键词是否匹配成功，和/或所述正文包含的关键词与所述预设关键词匹配成功的数量。

5.如权利要求3或4所述的方法，其特征在于，所述基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据，对所述至少两个基础特征变量进行筛选处理，获得所述关键特征变量，包括：

6.如权利要求所述1-5任一项的方法，其特征在于，所述基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据，对待训练的XGBoost模型进行训练，获得训练完成的XGBoost模型，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述确定所述待处理邮件的重要性级别之后，所述方法还包括：

8.一种邮件处理装置，其特征在于，包括：

9.一种邮件处理装置，其特征在于，包括处理器、存储器以及通信接口，所述处理器、存储器和通信接口相互连接，其中，所述通信接口用于接收和发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。