CN107977399A

CN107977399A - 一种基于机器学习的英文邮件签名提取方法及系统

Info

Publication number: CN107977399A
Application number: CN201710928672.2A
Authority: CN
Inventors: 宋东旭; 罗丁; 杨浩
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-05-01
Anticipated expiration: 2037-10-09
Also published as: CN107977399B

Abstract

本发明提供一种基于机器学习的英文邮件签名提取方法，包括以下步骤：通过正则切分方式，对待处理的英文邮件进行签名提取，获取一部分签名数据；提取样本签名数据的行特征，将所述行特征输入SVM进行训练获得训练模型；所述行特征包括sender比对特征；对于通过正则切分方式无法提取获得签名数据的英文邮件数据，通过训练模型，识别英文邮件中的签名行，对签名行进行合并后获得另一部分签名数据。能够从英文邮件数据中准确地提出发件人的个人信息，从而解决了在对邮件数据的数据挖掘中，经常挖掘到邮箱就无法继续深入的难题。且提取结果具有较高的准确率，具有很高的泛用性。同时提供对应该方法的系统。

Description

一种基于机器学习的英文邮件签名提取方法及系统

技术领域

本发明涉及计算机操作软件设计领域，尤其涉及文本挖掘及信息整合系统，具体涉及一种基于机器学习的英文邮件签名提取方法及系统。

背景技术

电子邮件是新的刑诉法规定的电子数据类证据，在涉网案件侦办中的作用越来越重要。而作为侦查办案人员，面对海量的电子邮件，尤其是英文邮件作为证据时，如何快速清理出人物和事件的脉络，查找到重要的涉案数据和嫌疑人员，是一个值得持续研究的问题。

在对英文邮件数据进行处理时，签名在英文邮件数据中，作为少数能够将邮件与现实中的人对应起来的信息，在对英文邮件数据分析中尤为重要。但由于目前绝大部分的英文邮件签名的格式没有固定统一格式，造成目前几乎无法从英文邮件数据中通过某种特定规则来完全将邮件签名提取出来。

目前存在的关于英文邮件的签名提取相关技术大致有两类，以下分别介绍这两类方法的核心思路及缺点。

第一类为传统的英文邮件签名提取方法，往往是基于英文邮件的已有的标准签名格式，通过正则、与已有数据库进行比对等方式进行签名提取。如：形如“————————”的标准签名格式。

该方法具有一定的局限性，往往只能适用于格式比较标准的英文邮件签名提取，而且往往会由于存在格式不对、签名的位置不对等因素，造成最终无法正确提取出签名。

第二类是近年出现的一种通过对英文邮件进行自然语言处理(NLP)，来判断该内容是否为签名的方法。这种方法通过对英文邮件全文进行分词，并根据每个词的前后文的特征，通过机器学习的算法来判断当前词是否为签名的一种判断方式，来提取出模型判定为签名的部分内容。

该方法的准确率相对较高，但由于对英文邮件全文进行自然语言处理，对英文邮件全文进行形态素解析、构文解析等自然语言处理的操作，造成计算量非常大，而且对于一些包含不常见词汇的英文邮件，无法达到理想的提取效果。

发明内容

针对现有技术存在的不足，本发明的核心目的在于提供一种基于机器学习的英文邮件签名提取方法及系统。能够从英文邮件数据中准确地提出发件人的个人信息，从而解决了在对邮件数据的数据挖掘中，经常挖掘到邮箱就无法继续深入的难题。且提取结果具有较高的准确率，具有很高的泛用性。

为实现上述目的，本发明采取的技术方案是：

一种基于机器学习的英文邮件签名提取方法，包括以下步骤：

通过正则切分方式，对待处理的英文邮件进行签名提取，获取一部分签名数据；

提取样本签名数据的行特征，将所述行特征输入SVM进行训练获得训练模型；所述行特征包括sender比对特征；

对于通过正则切分方式无法提取获得签名数据的英文邮件数据，通过训练模型，识别英文邮件中的签名行，对签名行进行合并后获得另一部分签名数据。

进一步地，所述待处理的英文邮件的文件格式为.eml，文字编码为UTF-8。

进一步地，所述正则包括以下模式：

模式1:------------------------------------；

模式2:********************。

进一步地，所述一部分签名数据为标准格式邮件的签名信息。

进一步地，以邮件正文中的行为单位，对每行提取行特征，以每次提取针对的行为目标行。

进一步地，所述行特征还包括：目标行的特征、目标行以上的行的特征及目标行以下的行的特征。

进一步地，所述目标行的特征包括：该行是否带有指定关键字，该行是否为最后一行，该行是否为倒数第二行；

所述目标行以上的行的特征包括：该行是否为标点符号开始，该行的内容是否为空；

所述目标行以下的行的特征包括：该行是否为最后一行，该行是否为标点符号开始。

进一步地，所述训练模型选用LibSVM包来对待识别数据进行分类；训练模型的参数选择为线性，训练模型的验证方式选择为5交叉验证。

一种存储计算机程序的可读存储介质，所述计算机程序包括指令，所述指令用以执行上述方法中的各个步骤。

一种基于机器学习的英文邮件签名提取系统，包括：

正则提取模块，用以通过正则切分方式，对待处理的英文邮件进行签名提取，获取一部分签名数据；

样本特征提取模块，用以提取样本签名数据的行特征；所述行特征包括sender比对特征；

SVM训练模块，以行特征作为输入进行训练获得训练模型；对于通过正则切分方式无法提取获得签名数据的英文邮件数据，通过训练模型，识别英文邮件中的签名行，对签名行进行合并后获得另一部分签名数据。

本发明首先以传统的正则切分方式提取待处理邮件中的签名数据，从而高效地筛除大部分可以通过传统方式提取签名的待处理邮件。对于剩余的邮件，则以邮件中的每行为判断对象，判断各行是否为组成签名的签名行；通过对邮件行与行之间的深度思考及试验，总结出了确认有效的判断目标行是否为签名行的有效特征；并根据使用场景，选择了机器学习中的SVM作为建模方法。确保能够准确地从剩余邮件中提取出签名数据。

根据签名数据即可以从邮件数据中准确地提出发件人的个人信息(如姓名、电话、地址、公司、职务等)，从而解决了在对邮件数据的数据挖掘中，经常挖掘到邮箱就无法继续深入的难题。经过对网上公开的英文邮件数据的签名提取实验中，提取结果的准确率高达93％以上，并同时具有很高的泛用性。

附图说明

图1为一封电子邮件内容示意图。

图2为本发明是一实施例中基于机器学习的英文邮件签名提取方法的流程示意图。

具体实施方式

Claims

1.一种基于机器学习的英文邮件签名提取方法，包括以下步骤：

2.如权利要求1所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述待处理的英文邮件的文件格式为.eml，文字编码为UTF-8。

3.如权利要求1或2所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述正则包括以下模式：

模式1：由多个-组成的行；

模式2：由多个*组成的行。

4.如权利要求1所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述一部分签名数据为标准格式邮件的签名信息。

5.如权利要求1所述的基于机器学习的英文邮件签名提取方法，其特征在于，以邮件正文中的行为单位，对每行提取行特征，以每次提取针对的行为目标行。

6.如权利要求5所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述行特征还包括：目标行的特征、目标行以上的行的特征及目标行以下的行的特征。

7.如权利要求6所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述目标行的特征包括：该行是否带有指定关键字，该行是否为最后一行，该行是否为倒数第二行；

8.如权利要求1所述的基于机器学习的英文邮件签名提取方法，其特征在于，所述训练模型选用LibSVM包来对待识别数据进行分类；训练模型的参数选择为线性，训练模型的验证方式选择为5交叉验证。

9.一种存储计算机程序的可读存储介质，所述计算机程序包括指令，所述指令用以执行权利要求1至8任一项所述方法中的各个步骤。

10.一种基于机器学习的英文邮件签名提取系统，其特征在于，包括：