CN113094466A

CN113094466A - 一种提取邮件签名的方法、装置、设备及存储介质

Info

Publication number: CN113094466A
Application number: CN202110474239.2A
Authority: CN
Inventors: 高文捷
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-09

Abstract

本申请适用于人工智能技术领域，提供了一种提取邮件签名的方法、装置、设备及存储介质。该方法包括：将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果；基于该分析结果，确定该客户邮件对应的最新邮件；将该最新邮件输入到已训练的签名信息提取模型中进行处理，得到该最新邮件对应的目标签名信息。上述方案中，将获取到的客户邮件输入到邮件识别模型中进行分析处理，并根据分析结果确定客户邮件对应的最新邮件，再通过签名信息提取模型提取最新邮件中的签名信息，可保证提取到的签名信息一定是最新的签名信息，提升了提取到的签名信息的准确性。

Description

一种提取邮件签名的方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种提取邮件签名的方法、装置、设备及存储介质。

背景技术

随着现代科技的发展，电子邮件已成为人们日常沟通不可或缺的一种工具，邮箱帐号更是成为网民畅游互联网的通行证、身份证。因此，邮件签名信息是现代大数据中的重中之重，基本上一个邮箱就绑定了一个人的信息，我们可以通过邮件签名信息了解到该用户的大部分信息。尤其对于商务邮件签名信息来说，这些信息将有助于为客户建档、扩展人脉、促进项目合作等。因此，准确地提取客户邮件中的签名信息非常有必要，然而，传统的提取客户邮件签名信息的方法，提取到的签名信息并不准确。

发明内容

有鉴于此，本申请实施例提供了一种提取邮件签名的方法、装置、设备及存储介质，以解决传统的提取客户邮件签名信息的方法，提取到的签名信息不准确的问题。

本申请实施例的第一方面提供了一种提取邮件签名的方法，该方法包括：

将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果；

基于所述分析结果，确定所述客户邮件对应的最新邮件；

将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息。

可选地，所述基于所述分析结果，确定所述客户邮件对应的最新邮件，包括：

当所述分析结果为所述客户邮件属于往来邮件时，获取所述客户邮件对应的最新回复邮件；

将所述最新回复邮件作为所述客户邮件对应的最新邮件；或

当所述分析结果为所述客户邮件不属于往来邮件时，将所述客户邮件作为所述最新邮件。

可选地，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息之后，所述方法还包括：

通过预设的命名实体识别模型，提取所述最新邮件对应的目标签名信息中的实体信息；

基于所述实体信息更新预设的通讯录。

可选地，所述将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果，包括：

基于所述邮件识别模型对所述客户邮件进行分行处理，得到所述客户邮件对应的多个第一文本；

基于第一预设规则，判断每个第一文本是否包含标识文本，所述标识文本用于标识所述客户邮件属于往来邮件；

当检测到所述多个第一文本中的任意一个第一文本包含所述标识文本时，判定所述客户邮件属于往来邮件；或，

当检测到所述多个第一文本均不包含所述标识文本时，判定所述客户邮件不属于往来邮件。

可选地，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息，包括：

基于所述签名信息提取模型对所述最新邮件进行分行处理，得到所述最新邮件对应的多个第二文本；

基于第二预设规则，判断每个第二文本是否包含签名信息；

将包含所述签名信息的第二文本进行整合，得到所述最新邮件对应的目标签名信息。

可选地，所述将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果之前，所述方法还包括：

获取第一样本训练集，所述第一样本训练集包括多个第一样本邮件、每个第一样本邮件对应的多个第一样本文本以及每个第一样本文本对应的标识标签；

基于所述第一样本训练集对初始邮件识别网络进行训练，并基于训练结果更新所述初始邮件识别网络的参数；

当检测到所述初始邮件识别网络对应的第一损失函数收敛时，得到所述已训练的邮件识别模型。

可选地，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息之前，所述方法还包括：

获取第二样本训练集，所述第二样本训练集包括多个第二样本邮件、每个第二样本邮件对应的多个第二样本文本以及每个第二样本文本对应的签名标签；

基于所述第二样本训练集对初始签名信息提取网络进行训练，并基于训练结果更新所述初始签名信息提取网络的参数；

当检测到所述初始签名信息提取网络对应的第二损失函数收敛时，得到所述已训练的签名信息提取模型。

本申请实施例的第二方面提供了一种提取邮件签名的装置，包括：

第一处理单元，用于将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果；

确定单元，用于基于所述分析结果，确定所述客户邮件对应的最新邮件；

第二处理单元，用于将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息。

本申请实施例的第三方面提供了一种提取邮件签名的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的提取邮件签名的方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的提取邮件签名的方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在提取邮件签名的设备上运行时，使得该设备执行上述第一方面所述的提取邮件签名的方法的步骤。

本申请实施例提供的一种提取邮件签名的方法、装置、设备及存储介质，具有以下有益效果：

将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果；基于该分析结果，确定该客户邮件对应的最新邮件；将该最新邮件输入到已训练的签名信息提取模型中进行处理，得到该最新邮件对应的目标签名信息。上述方案中，将获取到的客户邮件先输入到邮件识别模型中进行分析处理，根据分析结果确定该客户邮件对应的最新邮件，再通过签名信息提取模型提取最新邮件中的签名信息，可保证提取到的签名信息一定是最新的签名信息，提升了提取到的签名信息的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的提取邮件签名的方法的示意性流程图；

图2是本申请一示例性实施例示出的提取邮件签名的方法的步骤S101的具体流程图；

图3是本申请一示例性实施例示出的提取邮件签名的方法的步骤S102的具体流程图；

图4是本申请一示例性实施例示出的提取邮件签名的方法的步骤S103的具体流程图；

图5是本申请另一实施例提供的一种提取邮件签名的方法的示意性流程图；

图6是本申请一实施例提供的一种提取邮件签名的装置的示意图；

图7是本申请另一实施例提供的提取邮件签名的设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着现代科技的发展，电子邮件已成为人们日常沟通不可或缺的一种工具，邮箱帐号更是成为网民畅游互联网的通行证、身份证。因此，邮件签名信息是现代大数据中的重中之重，基本上一个邮箱就绑定了一个人的信息，我们可以通过邮件签名信息了解到该用户的大部分信息。尤其对于商务邮件签名信息来说，这些信息将有助于为客户建档、扩展人脉、促进项目合作等。因此，准确地提取客户邮件中的签名信息非常有必要。

发明人意识到，随着客户信息的变动，客户邮件中的签名信息会经常更新，然而，传统的提取客户邮件签名信息的方法，并不会对客户邮件进行判断，导致提取到的签名信息可能是客户未更新前的，即提取到的签名信息并不准确。

有鉴于此，本申请提供一种提取邮件签名的方法，将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果；基于该分析结果，确定该客户邮件对应的最新邮件；将该最新邮件输入到已训练的签名信息提取模型中进行处理，得到该最新邮件对应的目标签名信息。上述方案中，将获取到的客户邮件先输入到邮件识别模型中进行分析处理，根据分析结果确定该客户邮件对应的最新邮件，再通过签名信息提取模型提取最新邮件中的签名信息，可保证提取到的签名信息一定是最新的签名信息，提升了提取到的签名信息的准确性。

请参见图1，图1是本申请一示例性实施例提供的提取邮件签名的方法的示意性流程图。本申请提供的提取邮件签名的方法的执行主体为提取邮件签名的设备，其中，该设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)、台式电脑等移动终端，还可以包括各种类型的服务器。如图1所示的提取邮件签名的方法可包括：S101～S103，具体如下：

S101：将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果。

客户邮件指客户发来的邮件，也是待提取签名信息的邮件。

在本实施例中，提取邮件签名的设备中预先存储有预先训练好的邮件识别模型。该邮件识别模型是使用机器学习算法，基于第一样本训练集对初始邮件识别网络训练得到。其中，第一样本训练集包括多个第一样本邮件、每个第一样本邮件对应的多个第一样本文本以及每个第一样本文本对应的标识标签。

可以理解的是，邮件识别模型可以由提取邮件签名的设备预先训练好，也可以由其他设备预先训练好后将邮件识别模型对应的文件移植至提取邮件签名的设备中。也就是说，训练该邮件识别模型的执行主体与使用该邮件识别模型进行邮件识别的执行主体可以是相同的，也可以是不同的。例如，当采用其他设备训练初始邮件识别网络时，其他设备对初始邮件识别网络结束训练后，固定初始邮件识别网络的参数，得到训练好的邮件识别模型对应的文件。然后将该文件移植到提取邮件签名的设备中。

预先获取客户邮件。示例性地，可预先将某个合作公司的各个客户发来的客户邮件存储至数据库中，当需要提取这些客户的签名信息时，依次在该数据库中获取客户邮件。将获取到的客户邮件依次输入到已训练的邮件识别模型中进行处理，得到每个客户邮件对应的分析结果。

例如，预先将某个合作公司的客户A、客户B、客户C以及客户D发来的客户邮件存储至数据库中。当需要提取该合作公司的各个客户对应的签名信息时，依次在数据库中获取客户A、客户B、客户C以及客户D发来的客户邮件。将客户A对应的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果，依次对其他客户的客户邮件进行相同处理。此处仅为示例性说明，对此不做限定。

示例性地，分析结果可以包括带有标识文本的一个或多个第一文本，或第一文本均未带有标识文本。其中，第一文本基于对客户邮件进行分行处理得到。标识文本用于标识客户邮件属于往来邮件。例如，若包括带有标识文本的一个或多个第一文本，即表示该分析结果为该客户邮件属于往来邮件。若第一文本均未带有标识文本，即表示该分析结果为客户邮件不属于往来邮件。

例如，对客户邮件进行分行处理，得到该客户邮件对应的多个第一文本。若多个第一文本中有一个或多个带有标识文本，则表示该客户邮件属于往来邮件。若多个第一文本中均未带有标识文本，则表示该客户邮件不属于往来邮件。

可选地，在一种可能的实现过程中，对收到的每一封客户邮件设置对应的邮件标识信息。例如，按照收到客户邮件的时间，为每个客户邮件进行编号，将每个客户邮件的编号作为每个客户邮件的邮件标识信息。当检测到用户在邮件软件中打开某个客户邮件时，获取该客户邮件对应的邮件标识信息，并根据该邮件标识信息在数据库中查找该客户邮件，将在数据库中查找到的客户邮件输入到已训练的邮件识别模型中进行处理，得到该客户邮件对应的分析结果。该示例中，用户可自由选择想要提取哪个客户的签名信息，即用户选择了哪个客户邮件，提取邮件签名的设备便对哪个客户邮件进行处理，进而提取该客户邮件对应的签名信息，对特定的客户邮件进行处理，加快了提取签名信息的速度，提升了用户体验。此处仅为示例性说明，对此不做限定。

值得说明的是，由于使用的邮箱软件不同，在不同邮箱软件中每个客户邮件可能会有不同的显示方式。为了后续准确地对各个客户邮件提取签名信息，预先为不同的邮箱软件设置对应的数据库，即不同的数据库存储不同的邮箱软件中的各个客户邮件，存储在同一数据库中的客户邮件显示方式相同。例如，存储在某个数据库中的客户邮件均以邮件正文开始显示，正文结尾是签名信息，最后显示收发人信息。

示例性地，可获取每个邮箱软件中客户邮件的存储方式，获取各个客户邮件的头信息以及正文标识，该头信息用于标识该客户邮件对应的收发人信息，正文标识用于标识该客户邮件对应的邮件正文。其中，头信息以及正文标识可以在该客户邮件对应的源代码中获取到。基于头信息获取到该客户邮件对应的收发人信息，基于正文标识获取到该客户邮件对应的邮件正文。在该客户邮件对应的数据库设置存储方式，先存储该客户邮件对应的邮件正文，再存储该客户邮件对应的收发人信息。

例如，在Foxmail软件中，邮件显示方式为：最上面显示的为收发人信息，接着是邮件正文，正文结尾是签名信息。获取该邮件的代码信息，可得到头信息和正文标识，基于头信息和正文标识提取出收发人信息以及邮件正文。将该邮件在对应的数据库中存储时，先存储邮件正文，在邮件正文后面存储收发人信息。即得到以邮件正文开始显示，正文结尾是签名信息，最后显示收发人信息这样的存储方式。此处仅为示例性说明，对此不做限定。

示例性地，若某个邮箱软件中的客户邮件在该邮箱软件中，原本就是以邮件正文开始显示，正文结尾是签名信息，最后显示收发人信息这样的存储方式，那么直接将这些客户邮件导出存储在该邮箱软件对应的数据库中即可。此处仅为示例性说明，对此不做限定。

S102：基于该分析结果，确定该客户邮件对应的最新邮件。

通过邮件识别模型对客户邮件进行处理，得到该客户邮件对应的分析结果包括：该客户邮件属于往来邮件，或该客户邮件不属于往来邮件。

往来邮件是指两个邮箱之间互相收发邮件。往来邮件中包含了发件人发送给收件人的一封或多封邮件信息，同时包含了收件人回复给发件人的一封或多封邮件信息。例如，发件人A发送邮件1给收件人B，收件人B回复邮件2给发件人A，往来邮件中包含邮件1和邮件2。发件人A发送邮件1给收件人B，收件人B回复邮件2给发件人A，发件人A又发送邮件3给收件人B，往来邮件中包含邮件1、邮件2以及邮件3。此处仅为示例性说明，对此不做限定。

最新邮件指该客户最后发来的邮件，也可以理解为该客户发来的邮件中发件时间最新的邮件。沿用上述例子，邮件3即为最新邮件。若客户只发了一封邮件，则这封邮件即为最新邮件。

示例性地，若客户只发了一封邮件，即客户邮件只包含这封邮件，则邮件识别模型对该客户邮件进行处理，得到的处理结果为该客户邮件不属于往来邮件。此时，该客户邮件即为最新邮件。

示例性地，若客户与我方的邮件有来往，即客户邮件中可以包含多封邮件。例如，客户A发送邮件1给我方，我方回复邮件2给客户A，客户A又发送邮件3给我方，那么，客户邮件中可以包含邮件1、邮件2以及邮件3。邮件识别模型对该客户邮件进行处理，得到的处理结果为该客户邮件属于往来邮件，获取该客户邮件对应的最新回复邮件，即获取该客户最后发来的邮件，将最新回复邮件最为该客户邮件对应的最新邮件。在上述例子中，邮件3即为该客户邮件对应的最新邮件。此处仅为示例性说明，对此不做限定。

S103：将该最新邮件输入到已训练的签名信息提取模型中进行处理，得到该最新邮件对应的目标签名信息。

在本实施例中，提取邮件签名的设备中预先存储有预先训练好的签名信息提取模型。该签名信息提取模型是使用机器学习算法，基于第二样本训练集对初始签名信息提取网络训练得到。其中，第二样本训练集包括多个第二样本邮件、每个第二样本邮件对应的多个第二样本文本以及每个第二样本文本对应的签名标签。

可以理解的是，签名信息提取模型可以由提取邮件签名的设备预先训练好，也可以由其他设备预先训练好后将签名信息提取模型对应的文件移植至提取邮件签名的设备中。也就是说，训练该签名信息提取模型的执行主体与使用该签名信息提取模型进行签名信息提取的执行主体可以是相同的，也可以是不同的。

目标签名信息可以包括姓名信息、职业信息、职位信息、邮箱信息、地址信息、公司信息、公众号信息、网址信息、QQ信息、微信信息、座机信息、手机信息、热线信息、二维码图片等。

示例性地，若根据S102判定客户邮件即为最新邮件，则将这封客户邮件输入到已训练的签名信息提取模型中进行处理，得到该客户邮件对应的目标签名信息。

示例性地，若根据S102判定该客户对应的最新回复邮件为最新邮件，则将该客户对应的最新回复邮件输入到已训练的签名信息提取模型中进行处理，得到该最新回复邮件对应的目标签名信息。

上述方案中，将获取到的客户邮件先输入到邮件识别模型中进行分析处理，根据分析结果确定该客户邮件对应的最新邮件，再通过签名信息提取模型提取最新邮件中的签名信息，可保证提取到的签名信息一定是最新的签名信息，提升了提取到的签名信息的准确性。

图2是本申请一示例性实施例示出的提取邮件签名的方法的步骤S101的具体流程图；在本申请一些可能的实现方式中，上述S101可包括S1011～S1014，值得说明的是，S1013与S1014并列，并非在S1013后执行S1014，具体执行方式以实际为准，对此不做限定。S1011～S1014具体如下：

S1011：基于邮件识别模型对客户邮件进行分行处理，得到该客户邮件对应的多个第一文本。

邮件识别模型用于判断客户邮件是否属于往来邮件。以客户邮件中的单行文本为单位，对客户邮件进行分行处理，得到该客户邮件对应的多个第一文本，即得到该客户邮件对应的多个单行文本。

S1012：基于第一预设规则，判断每个第一文本是否包含标识文本，该标识文本用于标识客户邮件属于往来邮件。

第一预设规则由用户预先设定，用于判断客户邮件的每个第一文本是否包含标识文本。该标识文用于标识该客户邮件为往来邮件。

第一预设规则可以包括：

1、是否包含特殊的回复邮件标记。例如判断客户邮件的第一文本中是否包含RE、Re、--------Original Message--------、Fw、From:、发件人、回复、sender等标识文本，并且这些标识文本都是在被判断的第一文本的开头。

2、是否符合特殊回复格式，例如包含：“At|On time Monday,who wrote:”、“在什么时候，星期几，谁写道：”等标识文本，并且这些标识文本都是在被判断的第一文本的开头。

3、开头是否以“>”这个符号开始，并且后面每行的第一文本都是以“>”这个符号开头。

4、……

此处仅为示例性说明，对此不做限定。

邮件识别模型依据上述第一预设规则对每个第一文本进行判断。若该第一文本符合第一预设规则中的某条规则，则判定该第一文本包含标识文本。若该第一文本不符合第一预设规则中的所有规则，则判定该第一文本不包含标识文本。

可选地，为了便于机器处理，若该第一文本符合第一预设规则中的某条规则，则对该第一文本标记1。若该第一文本不符合第一预设规则中的所有规则，则对该第一文本标记0。

根据不同的判断结果选择执行S1013或者执行S1014。

S1013：当检测到多个第一文本中的任意一个第一文本包含该标识文本时，判定该客户邮件属于往来邮件。

若判定结果为多个第一文本中的任意一个第一文本包含该标识文本，判定该客户邮件属于往来邮件。即客户邮件对应的多个第一文本中，只要有一个第一文本包含标识文本，就判定该客户邮件属于往来邮件。

S1014：当检测到多个第一文本均不包含该标识文本时，判定该客户邮件不属于往来邮件。

若判定结果为多个第一文本中均不包含该标识文本，判定该客户邮件不属于往来邮件。即只有当客户邮件对应的多个第一文本均不包含标识文本时，判定该客户邮件不属于往来邮件。

上述实施方式中，通过邮件识别模型可准确地判断客户邮件是否属于往来邮件，进而便于后续以此确定最新邮件，从而准确地提取到客户最新的签名信息。

图3是本申请一示例性实施例示出的提取邮件签名的方法的步骤S102的具体流程图；在本申请一些可能的实现方式中，上述S102可包括S1021～S1022，具体如下：

S1021：当分析结果为该客户邮件属于往来邮件时，获取该客户邮件对应的最新回复邮件。

为了保证提取到的签名信息是最新的，当分析结果为该客户邮件属于往来邮件时，获取该客户邮件对应的最新回复邮件。

例如，在S1012中依据邮件识别模型分析客户邮件是否为往来邮件时，对客户邮件对应的每个第一文本进行了1或0标记。由于数据库中存储的客户邮件均以邮件正文开始显示，正文结尾是签名信息，最后显示收发人信息。当客户邮件属于往来邮件时，会在发件人信息前面有标识文本(例如RE字符)，该行文本被标记为1。将第一次标注为1的这行第一文本以及该第一文本后面的所有文本都删除，得到最新回复邮件。也可通过邮件识别模型输出最新回复邮件。

示例性地，乙方先作为发件人发送邮件1给甲方，甲方先回复邮件2给乙方，半个小时后又回复邮件3给乙方，则客户邮件对应的最新回复邮件为邮件3。邮件2与邮件3均为甲方回复给乙方的邮件，按照时间顺序，邮件3排列在邮件2前面，假设邮件2与邮件3的回复邮件标记均为RE，邮件2和邮件3中带有RE的文本均被标记1，但由于顺序关系邮件3中带有RE的文本被先标记为1，因此将邮件3带有RE的文本以及该文本后面的所有文本都删除，得到邮件3的邮件正文以及正文结尾的签名信息，即得到最新回复邮件。也可通过邮件识别模型将邮件3的邮件正文以及正文结尾的签名信息输出。此处仅为示例性说明，对此不做限定。

S1022：将该最新回复邮件作为该客户邮件对应的最新邮件。

最新邮件指该客户最后发来的邮件，也可以理解为该客户发来的邮件中发件时间最新的邮件。最新回复邮件符合该要求，将最新回复邮件作为该客户邮件对应的最新邮件。

可选地，在一种可能的实现方式中，当分析结果为该客户邮件不属于往来邮件时，上述S102可包括S1023，值得说明的是，S1021～S1022与S1023并列，并非在S1022后执行S1023，具体执行方式以实际为准，对此不做限定。S1023具体如下：

S1023：当分析结果为该客户邮件不属于往来邮件时，将该客户邮件作为最新邮件。

分析结果为该客户邮件不属于往来邮件，也就是说客户只发了一封邮件，即客户邮件只包含这封邮件，该客户邮件即为最新邮件。

图4是本申请一示例性实施例示出的提取邮件签名的方法的步骤S103的具体流程图；在本申请一些可能的实现方式中，上述S103可包括S1031～S1033，下面将具体对步骤S1031～S1033进行说明。

S1031：基于签名信息提取模型对最新邮件进行分行处理，得到最新邮件对应的多个第二文本。

签名信息提取模型用于提取邮件中的签名信息。以最新邮件中的单行文本为单位，对最新邮件进行分行处理，得到该最新邮件对应的多个第二文本，即得到该最新邮件对应的多个单行文本。

S1032：基于第二预设规则，判断每个第二文本是否包含签名信息。

第二预设规则由用户预先设定，用于判断最新邮件的每个第二文本是否包含签名信息。

第二预设规则可以包括：

1、是否包含特殊的感谢邮件标记。比如：Thanks、Thank you、best regards、谢谢、此致敬礼等感谢邮件标记，并且这些感谢邮件标记都是在每一行文本的开头。

2、是否有logo标识。

3、是否有签名信息标志。例如：************声明************。

4、是否包含姓名、邮箱、微信、职业、联系电话、地址、公众号等。

5、……

此处仅为示例性说明，对此不做限定。

签名信息提取模型依据上述第二预设规则对每个第二文本进行判断。若第二文本符合第二预设规则中的某条规则，则判定该第二文本包含签名信息。若第二文本不符合第二预设规则中的所有规则，则判定该第二文本不包含签名信息。

可选地，为了便于机器处理，若该第二文本符合第二预设规则中的某条规则，则对该第二文本标记1。若该第二文本不符合第二预设规则中的所有规则，则对该第二文本标记0。

S1032：将包含该签名信息的第二文本进行整合，得到该最新邮件对应的目标签名信息。

将被判定包含签名信息的所有第二文本进行整合，整合后的整个文本即为最新邮件对应的目标签名信息。

可选地，在一种可能的实现方式中，将连续标记为1的多个第二文本进行整合，整合后的整个文本即为最新邮件对应的目标签名信息。其中，连续标记的数量可根据实际情况进行设置，对此不做限定。

可以理解的是，最终的目标签名信息作为一个整体，从目标签名信息的首个第二文本开始，连续的多个第二文本都会被标记为1。将连续标记为1的多个第二文本合并后输出，这些合并的第二文本就是最新回复邮件对应的目标签名信息。

本实施例中，通过签名信息提取模型可准确地提取出签名信息，由于前面确定了最新邮件，因此可保证提取到的签名信息一定是最新的签名信息，提升了提取到的签名信息的准确性。

图5是本申请另一实施例提供的一种提取邮件签名的方法的示意性流程图。示例性地，在本申请一些可能的实现方式中，如图5所示的提取邮件签名的方法可包括：S201～S205，其中，图5所示的步骤S201～S203可以参考上述对S101～S103的相关描述，为了简洁，这里不再赘述。下面将具体对步骤S204～S205进行说明。

S204：通过预设的命名实体识别模型，提取最新邮件对应的目标签名信息中的实体信息。

实体信息通常为客户的信息，例如，姓名、职业、职位、邮箱、地址、公司、公众号、网址、QQ、微信、座机、手机、热线等。实体信息还可以包括二维码、图片等。此处仅为示例性说明，对此不做限定。

预设的命名实体识别模型用于提取签名信息中的实体信息。在本实施例中，提取邮件签名的设备中预先存储有预先训练好的命名实体识别模型。该命名实体识别模型是使用机器学习算法，基于多个样本签名信息对初始命名实体识别网络进行训练得到。其中，每个样本签名信息都带有实体信息标记，即样本签名信息中的实体信息都被打上标签。将多个样本签名信息输入初始命名实体识别网络中进行训练，初始命名实体识别网络学习被标记的实体信息与样本签名信息之间的关系。并在训练过程中不断调整初始命名实体识别网络的网络参数。例如，更新初始命名实体识别网络的网络层的权重值。当初始命名实体识别网络对应的损失函数收敛时，得到训练好的命名实体识别模型。具体的训练过程可参考现有技术中训练命名实体识别模型的过程，此处不再赘述。示例性地，将最新邮件对应的目标签名信息输入到该命名实体识别模型中进行处理，输出最新邮件对应的目标签名信息中的实体信息。通过命名实体识别模型提取实体信息的具体过程，可参考现有技术，此处不再赘述。

S205：基于该实体信息更新预设的通讯录。

可预先构建Excel格式的通讯录，该通讯录中可以包括姓名、职业、职位、邮箱、地址、公司、公众号、网址、QQ、微信、座机、手机、热线等表格头。将提取到的实体信息对应填入该通讯录中。该通讯录便于用户拷贝、查阅、保存。

可选地，可一直通过本方案中描述的方法提取客户邮件的实体信息，当针对同一发件人，检测到新提取出的实体信息与之前保存在通讯录中的信息有出入时，可生成提示信息。该提示信息用于提醒用户是否更新通讯录，若用户选择是，则将用新提取出的实体信息替换之前通讯录中存储的信息；若用户选择否，则不对通讯录中存储的信息进行更新。

例如，对于发件人A，在之前发件人A发出的邮件E中，提取到的签名信息中的手机号为：88888。又收到该发件人A发来的邮件F，在邮件F中提取到的签名信息中的手机为号99999。则生成提示信息，提示信息为：A的手机有变化，是否更新通讯录；或者，提示信息为：A的手机由88888变为99999，是否更新A的手机号等。根据用户不同的选择，看是否需要对通讯录进行更新。此处仅为示例性说明，对此不做限定。

可选地，还可将提取到的实体信息按照预设格式进行整理分类，例如按照不同的公司或不同的职业进行分组，并将分组后的文件进行保存。此处仅为示例性说明，对此不做限定。

本实施例中，可以自动对通讯录中的信息进行更新，节省了人力，降低了经济成本，且基于最新的客户信息便于扩展人脉、促进项目合作等。

在上述方案中，先通过邮件识别模型对客户邮件进行分析，根据不同的分析结果确定最新邮件，通过签名信息提取模型提取目标签名信息，可保证提取到的签名信息为最新的签名信息，保证了签名信息的准确性；再通过命名实体识别模型提取签名信息中的实体信息，使得提取到的实体信息准确、有效；最后对提取到的实体信息自动进行整理分类、保存，便于用户直观查阅。且整个实现过程中，无需人为操作，便可快速获取到签名信息，提升了签名信息的提取效率，也正是没有人为因素干扰，避免了人为操作出现的提取误差，进而提高了提取签名信息的准确度。

可选地，在本申请一些可能的实现方式中，在步骤S101或S201之前，本申请提供的提取邮件签名的方法还可包括：获取第一样本训练集，该第一样本训练集包括多个第一样本邮件、每个第一样本邮件对应的多个第一样本文本以及每个第一样本文本对应的标识标签；基于该第一样本训练集对初始邮件识别网络进行训练，并基于训练结果更新初始邮件识别网络的参数；当检测到该初始邮件识别网络对应的第一损失函数收敛时，得到已训练的邮件识别模型。

示例性地，预先随机采集若干封第一样本邮件，可采用计算机编程语言(例如python)工具提取每封第一样本邮件中的特征。例如，对每封第一样本邮件进行分行处理，得到每封第一样本邮件对应的多个第一样本文本，提取每个第一样本文本对应的特征。这些特征可以包括：该第一样本文本对应的单词数、该第一样本文本对应的字符数、是否包含特殊的回复邮件标记、是否包含网址、邮箱标志字符(@、.com、www等)、是否包含大小写、开头是否包含有人名、是否包含地址、是否包含职业、是否包含特殊符号(例如“------”)等。值得说明的是，对于判断的特征，若该第一样本文本包含，则将该第一样本文本对应的特征记为1；若该第一样本文本不包含，则将该第一样本文本对应的特征记为0。将提取到的特征进行归一化处理，可以理解为将所有的特征均以1和0表示。

可选地，将1和0作为每个第一样本文本对应的标识标签。基于多个第一样本邮件、每个第一样本邮件对应的多个第一样本文本以及每个第一样本文本对应的标识标签构成第一样本训练集。初始邮件识别网络的原型可以为机器学习网络(例如XGBOOST网络)，将第一样本训练集中的第一样本文本输入至初始邮件识别网络进行训练。每间隔预设的训练次数根据预设的第一损失函数计算该初始邮件识别网络的原型对应的第一损失值。即根据第一损失函数计算初始邮件识别网络实际输出的第一样本文本对应的标识标签，与第一样本训练集中该第一样本文本对应的标识标签之间的第一损失值。

当第一损失值不满足第一预设条件时，调整初始邮件识别网络的参数，并继续训练该初始邮件识别网络。示例性地，当第一损失值不满足第一预设条件时，调整初始邮件识别网络的对应的booster参数、alpha参数、objective参数、colsample_bylevel参数、lambda参数等，并继续训练该初始邮件识别网络。此处仅为示例性说明，对此不做限定。当第一损失值满足第一预设条件时，停止训练该初始邮件识别网络，并将训练后的该初始邮件识别网络作为已训练好的邮件识别模型。例如，假设第一预设条件为第一损失值小于或等于预设的第一损失值阈值。那么，当第一损失值大于第一损失值阈值时，调整初始邮件识别网络的参数，并继续训练该初始邮件识别网络。当第一损失值小于或等于第一损失值阈值时，停止训练该初始邮件识别网络，并将训练后的该初始邮件识别网络作为已训练好的邮件识别模型。此处仅为示例性说明，对此不做限定。

可选地，也可以是在训练初始邮件识别网络的过程中，观察初始邮件识别网络对应的第一损失函数收敛情况，当第一损失函数收敛时，停止训练该初始邮件识别网络，并将训练后的该初始邮件识别网络作为已训练好的邮件识别模型。其中，第一损失函数收敛是指第一损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

可选地，在本申请一些可能的实现方式中，在步骤S103或S203之前，本申请提供的提取邮件签名的方法还可包括：获取第二样本训练集，该第二样本训练集包括多个第二样本邮件、每个第二样本邮件对应的多个第二样本文本以及每个第二样本文本对应的签名标签；基于该第二样本训练集对初始签名信息提取网络进行训练，并基于训练结果更新初始签名信息提取网络的参数；当检测到该初始签名信息提取网络对应的第二损失函数收敛时，得到已训练的签名信息提取模型。

示例性地，预先随机采集若干封第二样本邮件，可采用计算机编程语言(例如python)工具提取每封第二样本邮件中的签名特征。其中，第二样本邮件可以与第一样本邮件相同，也可以不同。示例性地，对每封第二样本邮件的邮件正文和签名信息进行分行处理，得到每封第二样本邮件对应的多个第二样本文本，提取每个第二样本文本对应的签名特征。这些签名特征可以包括：该第二样本文本对应的单词数；该第二样本文本对应的字符数；是否包含特殊的感谢邮件标记，比如：Thanks、Thank you、best regards、谢谢、此致敬礼等；是否包含签名信息标志，例如：************声明************；是否包含职业、联系电话、地址、公众号等；是否包含logo标识等。对于需要判断的签名特征，若第二样本文本包含，则将该第二样本文本对应的签名特征标记为1；若该第二样本文本不包含，则将该第二样本文本对应的签名特征标记为0。将提取到的签名特征进行归一化处理，可以理解为将所有的签名特征均以1和0表示。

可选地，将1和0作为每个第二样本文本对应的签名标签。基于第二样本邮件、每个第二样本邮件对应的多个第二样本文本以及每个第二样本文本对应的签名标签构成第二样本训练集。将第二样本训练集中的每个第二样本文本输入至初始签名信息提取网络进行训练，并每间隔预设的训练次数根据预设的第二损失函数计算该初始签名信息提取网络对应的第二损失值。即根据第二损失函数计算初始签名信息提取网络实际输出的第二样本文本对应的签名标签，与第二样本训练集中该第二样本文本对应的签名标签之间的第二损失值。

当第二损失值不满足第二预设条件时，调整初始签名信息提取网络的参数，并继续训练该初始签名信息提取网络。示例性地，当第二损失值不满足第二预设条件时，调整初始签名信息提取网络的对应的silent参数、learning_rate参数、subsample参数、eval_metric参数、max_depth参数等，并继续训练该初始邮件识别网络。此处仅为示例性说明，对此不做限定。当第二损失值满足第二预设条件时，停止训练该初始签名信息提取网络，并将训练后的该初始签名信息提取网络作为已训练好的签名信息提取模型。例如，假设第二预设条件为第二损失值小于或等于预设的第二损失值阈值。那么，当第二损失值大于第二损失值阈值时，调整初始签名信息提取网络的参数，并继续训练该初始签名信息提取网络。当第二损失值小于或等于第二损失值阈值时，停止训练该初始签名信息提取网络，并将训练后的该初始签名信息提取网络作为已训练好的签名信息提取模型。此处仅为示例性说明，对此不做限定。

可选地，也可以是在训练初始签名信息提取网络的过程中，观察初始签名信息提取网络对应的第二损失函数收敛情况，当第二损失函数收敛时，停止训练该初始签名信息提取网络，并将训练后的该初始签名信息提取网络作为已训练好的签名信息提取模型。其中，第二损失函数收敛是指第二损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

请参见图6，图6是本申请一实施例提供的一种提取邮件签名的装置的示意图。该装置包括的各单元用于执行图1～图5对应的实施例中的各步骤。具体请参阅图1～图5各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，包括：

第一处理单元310，用于将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果；

确定单元320，用于基于所述分析结果，确定所述客户邮件对应的最新邮件；

第二处理单元330，用于将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息。

可选地，所述确定单元320具体用于：

将所述最新回复邮件作为所述客户邮件对应的最新邮件；或

可选地，所述装置还包括：

提取单元，用于通过预设的命名实体识别模型，提取所述最新邮件对应的目标签名信息中的实体信息；

更新单元，用于基于所述实体信息更新预设的通讯录。

可选地，所述第一处理单元310具体用于：

可选地，所述第二处理单元330具体用于：

基于第二预设规则，判断每个第二文本是否包含签名信息；

可选地，所述装置还包括：

第一获取单元，用于获取第一样本训练集，所述第一样本训练集包括多个第一样本邮件、每个第一样本邮件对应的多个第一样本文本以及每个第一样本文本对应的标识标签；

第一训练单元，用于基于所述第一样本训练集对初始邮件识别网络进行训练，并基于训练结果更新所述初始邮件识别网络的参数；

第一检测单元，用于当检测到所述初始邮件识别网络对应的第一损失函数收敛时，得到所述已训练的邮件识别模型。

可选地，所述装置还包括：

第二获取单元，用于获取第二样本训练集，所述第二样本训练集包括多个第二样本邮件、每个第二样本邮件对应的多个第二样本文本以及每个第二样本文本对应的签名标签；

第二训练单元，用于基于所述第二样本训练集对初始签名信息提取网络进行训练，并基于训练结果更新所述初始签名信息提取网络的参数；

第二检测单元，用于当检测到所述初始签名信息提取网络对应的第二损失函数收敛时，得到所述已训练的签名信息提取模型。

请参见图7，图7是本申请另一实施例提供的提取邮件签名的设备的示意图。如图6所示，该实施例的设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个提取邮件签名的方法实施例中的步骤，例如图1所示的S101至S103。或者，所述处理器40执行所述计算机程序42时实现上述各实施例中各单元的功能，例如图6所示单元310至330功能。

示例性地，所述计算机程序42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段，该指令段用于描述所述计算机程序42在所述设备4中的执行过程。例如，所述计算机程序42可以被分割为第一处理单元、确定单元以及第二处理单元，各单元具体功能如上所述。

所述设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图7仅仅是设备4的示例，并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述设备的内部存储单元，例如设备的硬盘或内存。所述存储器41也可以是所述设备的外部存储终端，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述设备的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机存储介质，计算机存储介质可以是非易失性，也可以是易失性，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个提取邮件签名的方法实施例中的步骤。

本申请还提供了一种计算机程序产品，当计算机程序产品在设备上运行时，使得该设备执行上述各个提取邮件签名的方法实施例中的步骤。

本申请实施例还提供了一种芯片或者集成电路，该芯片或者集成电路包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片或者集成电路的设备执行上述各个提取邮件签名的方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种提取邮件签名的方法，其特征在于，包括：

基于所述分析结果，确定所述客户邮件对应的最新邮件；

2.如权利要求1所述的方法，其特征在于，所述基于所述分析结果，确定所述客户邮件对应的最新邮件，包括：

将所述最新回复邮件作为所述客户邮件对应的最新邮件；或

3.如权利要求1所述的方法，其特征在于，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息之后，所述方法还包括：

基于所述实体信息更新预设的通讯录。

4.如权利要求1所述的方法，其特征在于，所述将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果，包括：

5.如权利要求1所述的方法，其特征在于，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息，包括：

基于第二预设规则，判断每个第二文本是否包含签名信息；

6.如权利要求1至5任一项所述的方法，其特征在于，所述将获取的客户邮件输入到已训练的邮件识别模型中进行处理，得到所述客户邮件对应的分析结果之前，所述方法还包括：

7.如权利要求1至5任一项所述的方法，其特征在于，所述将所述最新邮件输入到已训练的签名信息提取模型中进行处理，得到所述最新邮件对应的目标签名信息之前，所述方法还包括：

8.一种提取邮件签名的装置，其特征在于，包括：

9.一种提取邮件签名的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。