CN110990570A

CN110990570A - 一种基于深度学习的邮件落款提取方法

Info

Publication number: CN110990570A
Application number: CN201911217802.7A
Authority: CN
Inventors: 李曙光; 宋万军; 倪良胜; 李峰; 陈白雪; 高永伟; 姜广栋; 杨万刚; 郭晓杰; 王黎黎
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-10

Abstract

本发明公开了一种基于深度学习的邮件落款提取方法，包括：收集电子邮件样本，提取所收集电子邮件的正文，对正文进行标记，标签为是否有邮件落款；使用机器学习的方法，训练一个文本分类模型，利用所述文本分类模型判断电子邮件中是否含有落款；筛选出含有落款的邮件正文，使用深度学习的方法，进行序列标注，并训练命名实体识别模型，提取其中的姓名、公司和地址信息；使用模式识别的方法，先提取邮件正文中结构化的手机、电话的模式，然后使用模式识别提取其中的手机、电话信息；对提取的信息进行校验，得到最终的落款。本发明将邮件正文中的落款信息进行结构化，对电子邮件处理时可以通过信息抽取，识别并得到电子邮件发件人的落款信息。

Description

一种基于深度学习的邮件落款提取方法

技术领域

本发明公开了一种基于深度学习的邮件落款提取方法，涉及自然语言处理中的信息抽取技术领域。

背景技术

在现有技术中，想通过电子邮件获取发件人的信息，只能通过邮件文件中结构化的头部信息，获取发件人的昵称和邮箱，但这样无法获取发件人的其他信息。

而在通常商业邮件的正文落款里面，会包含发件人的姓名、电话、手机、公司、地址等具体信息。现有技术只能提取发件人的昵称，无法提取其他包含在正文中的发件人姓名、电话、手机、公司、地址等信息，造成了针对电子邮件信息抽取的不完备，使得电子邮件中的信息抽取内容不足，无法有效的提高后续信息甄别或摘选能力。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于深度学习的邮件落款提取方法。

本发明为解决上述技术问题采用以下技术方案：

一种基于深度学习的邮件落款提取方法，所述方法包括如下步骤：

步骤一、收集电子邮件样本，提取所收集电子邮件的正文，对正文进行标记，标签为是否有邮件落款；

步骤二、使用机器学习的方法，训练一个文本分类模型，利用所述文本分类模型判断电子邮件中是否含有落款；

步骤三、经过步骤一和步骤二筛选出含有落款的邮件正文，使用深度学习的方法，进行序列标注，并训练命名实体识别模型，提取其中的姓名、公司和地址信息；

步骤四、使用模式识别的方法，先提取邮件正文中结构化的手机、电话的模式，然后使用模式识别提取其中的手机、电话信息；

步骤五、对经过步骤四提取的信息进行校验，得到最终的落款。

作为本发明的进一步优选方案，所述步骤一中，使用TFIDF方法进行特征抽取，使用SVM算法训练一个文本分类模型，记为落款分类模型。

作为本发明的进一步优选方案，所述步骤二中，抽取电子邮件正文中的每一行，使用BIO格式进行序列标注，标注每一行中的姓名、地址、公司，然后使用tensorflow平台搭建biLSTM+crf模型的神经网络，进行训练，得到命名实体识别模型。

作为本发明的进一步优选方案，所述步骤四中，将电子邮件中key:value结构的手机、电话抽取出来，将value提取成手机、电话的模式。

作为本发明的进一步优选方案，所述步骤三具体包括：

301、对新的电子邮件进行解析，获取正文和发件人；

302、对电子邮件正文进行分割，如果有转发邮件内容，将正文分成多封邮件；

303、使用落款分类模型判断每封邮件是否含有落款；

304、对含有落款的邮件：

1)、使用命名实体识别模型，提取姓名、公司和地址；

2)、使用手机、电话模式抽取正文中的手机、电话；

3)、对抽取的姓名、公司、地址、手机、电话做校验；

305、对每封邮件的落款信息进行去重。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明将邮件正文中的落款信息进行结构化，使得在面对电子邮件时可以通过信息抽取，识别并得到电子邮件发件人的落款等具体信息。

附图说明

图1是本发明的流程示意图。

图2是本发明的一个具体实施例中，使用BIO格式进行序列标注的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的流程示意图如图1所示，本发明首先搜集大量邮件样本，将其正文提取出来，进行标记，标签为是否有邮件落款。然后使用机器学习的方法，训练一个文本分类模型，使用此模型可以判断邮件中是否含有正文。

对于含有落款的邮件正文，使用深度学习的方法，进行序列标注，并训练命名实体识别模型，提取其中的姓名、公司、地址；使用模式识别的方法，先提取邮件正文中结构化的手机、电话的模式，然后使用模式提取其中的手机、电话。

部分邮件正文转发了其他邮件，其他邮件中存在落款信息的，也需要进行判断并提取。

最后，对提取的信息进行校验，得到最终的落款。

下面结合附图及具体实施例，进一步说明本发明的技术方案：

一、模型训练

1、搜集大量邮件样本，将其正文提取出来，进行标记，标签为是否有邮件落款。使用TFIDF方法进行特征抽取，使用SVM算法训练一个文本分类模型，记为落款分类模型。

2、抽取邮件正文中的每一行，使用BIO格式进行序列标注，如图2所示，标注每一行中的姓名、地址、公司，然后使用tensorflow平台搭建biLSTM+crf模型的神经网络，进行训练，得到命名实体识别模型。

3、将邮件中key:value结构的手机、电话抽取出来，将value提取成手机、电话的模式二、提取落款

1、对新邮件进行解析，获取正文和发件人；

2、对正文进行分割，如果有转发邮件内容，将正文分成多封邮件；

3、使用落款分类模型判断每封邮件是否含有落款

4、对含有落款的邮件：

1)、使用命名实体识别模型，提取姓名、公司和地址；

2)、使用手机、电话模式抽取正文中的手机、电话；

3)、对抽取的姓名、公司、地址、手机、电话做校验；

5、对每封邮件的落款信息进行去重。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于深度学习的邮件落款提取方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种基于深度学习的邮件落款提取方法，其特征在于：所述步骤一中，使用TFIDF方法进行特征抽取，使用SVM算法训练一个文本分类模型，记为落款分类模型。

3.如权利要求1所述的一种基于深度学习的邮件落款提取方法，其特征在于：所述步骤二中，抽取电子邮件正文中的每一行，使用BIO格式进行序列标注，标注每一行中的姓名、地址、公司，然后使用tensorflow平台搭建biLSTM+crf模型的神经网络，进行训练，得到命名实体识别模型。

4.如权利要求1所述的一种基于深度学习的邮件落款提取方法，其特征在于：所述步骤四中，将电子邮件中key:value结构的手机、电话抽取出来，将value提取成手机、电话的模式。

5.如权利要求1所述的一种基于深度学习的邮件落款提取方法，其特征在于，所述步骤三具体包括：

301、对新的电子邮件进行解析，获取正文和发件人；

303、使用落款分类模型判断每封邮件是否含有落款；

304、对含有落款的邮件：

1)、使用命名实体识别模型，提取姓名、公司和地址；

2)、使用手机、电话模式抽取正文中的手机、电话；

3)、对抽取的姓名、公司、地址、手机、电话做校验；

305、对每封邮件的落款信息进行去重。