CN111985896A

CN111985896A - 邮件过滤方法及装置

Info

Publication number: CN111985896A
Application number: CN202010836926.XA
Authority: CN
Inventors: 申亚坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-24
Anticipated expiration: 2040-08-19
Also published as: CN111985896B

Abstract

本发明提供了一种邮件过滤方法及装置，该方法包括：从邮件的标题、正文和附件，提取得到邮件的词组数据；将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行；其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。该方法实现了将银行系统接收到的邮件，进行分类，只有不包含敏感词且不是垃圾邮件的邮件，予以安全放行，减轻工作人员的工作负担，提高邮件的安全性。

Description

邮件过滤方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种邮件过滤方法及装置。

背景技术

在银行中，日常办公都是通过邮件进行沟通和交流的，但在互联网外部邮件传入到银行内部邮件系统时，很难过滤到带有银行特殊敏感信息或含有垃圾信息的邮件，从而增加了工作人员的工作负担；带有银行特殊敏感信息或含有垃圾信息的邮件，若不慎点开，有可能会带来信息泄露等安全隐患。

发明内容

本发明实施例提供一种邮件过滤方法，用以过滤含敏感词或含有垃圾信息的邮件，减轻工作人员的工作负担，提高邮件的安全性，该方法包括：

提取接收到的邮件的标题、正文和附件；

从所述邮件的标题、正文和附件，提取得到所述邮件的词组数据；

将所述邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定所述邮件的词组数据中是否包含敏感词时，对所述邮件的词组数据进行分析，确定所述词组数据的特征信息；

利用预先训练好的应用贝叶斯定理的概率探针，根据所述词组数据的特征信息，确定所述邮件不是垃圾邮件后，予以安全放行；其中，所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。

本发明实施例还提供一种邮件过滤装置，用以过滤含敏感词或含有垃圾信息的邮件，减轻工作人员的工作负担，提高邮件的安全性，该装置包括：

邮件信息提取模块，用于提取接收到的邮件的标题、正文和附件；

词组数据提取模块，用于从所述邮件的标题、正文和附件，提取得到所述邮件的词组数据；

敏感词检索模块，用于将所述邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定所述邮件的词组数据中不包含敏感词时，对所述邮件的词组数据进行分析，确定所述词组数据的特征信息；

邮件分类过滤模块，用于利用预先训练好的应用贝叶斯定理的概率探针，根据所述词组数据的特征信息，确定所述邮件不是垃圾邮件后，予以安全放行；其中，所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述邮件过滤方法。

本发明实施例也提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述邮件过滤方法的计算机程序。

本发明实施例中，通过提取接收到的邮件的标题、正文和附件；从邮件的标题、正文和附件，提取得到邮件的词组数据；将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行；其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件，进行分类，只有不包含敏感词且不是垃圾邮件的邮件，予以安全放行，即含有敏感词的邮件和垃圾邮件，均被拦截在银行的内部邮件系统之外，减轻工作人员的工作负担，提高邮件的安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中邮件过滤方法的示意图。

图2为本发明具体实施例中步骤102的具体实现方法示意图。

图3为本发明具体实施例中步骤201的具体实现方法示意图。

图4为本发明具体实施例中应用贝叶斯定理的概率探针的预先训练过程示意图。

图5为本发明实施例中具体实施例中步骤401的具体实现方法示意图。

图6为本发明实施例中邮件过滤装置的示意图。

图7为本发明具体实施例中词组数据提取模块602的结构示意图。

图8为本发明具体实施例中邮件过滤装置的示意图。

图9为本发明具体实施例中预训练模块801的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种邮件过滤方法，用以过滤含敏感词或含有垃圾信息的邮件，减轻工作人员的工作负担，提高邮件的安全性，如图1所示，该方法包括：

步骤101：提取接收到的邮件的标题、正文和附件；

步骤102：从邮件的标题、正文和附件，提取得到邮件的词组数据；

步骤103：将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中是否包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；

步骤104：利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行。

其中，上述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。

由图1所示流程可以得知，本发明实施例中，通过提取接收到的邮件的标题、正文和附件；从邮件的标题、正文和附件，提取得到邮件的词组数据；将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行；其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件，进行分类，只有不包含敏感词且不是垃圾邮件的邮件，予以安全放行，即含有敏感词的邮件和垃圾邮件，均被拦截在银行的内部邮件系统之外，减轻工作人员的工作负担，提高邮件的安全性。

具体实施时，首先提取接收到的邮件的标题、正文和附件。

从上述邮件的标题、正文和附件，提取得到邮件的词组数据，具体实施时，如图 2所示，包括：

步骤201：从邮件的标题、正文和附件，识别并提取文字片段；

步骤202：对文字片段进行标准化字符处理，处理得到一个或多个词组。

其中，标准化字符处理包括：去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。

具体实施例中，步骤201具体实施过程如图3所示，包括：

步骤301：若邮件的正文和附件包括图片信息，利用光学字符识别OCR(OpticalCharacter Recognition)技术，对邮件的正文和附件中图片上的文字进行识别，提取得到文字片段；

步骤302：若邮件的正文和附件中包括MP3语音片段，利用语音识别技术，对 MP3语音片段进行语音转文字，提取得到文字片段。

提取得到邮件的词组数据后，将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息。其中，银行知识库记录有相关敏感词，一旦邮件中含有相关敏感词，一律不予接入银行系统中内部的邮件系统，直接拒绝该邮件，并且提示发件方：“含有敏感词XXXX，请重新发送”，以保证邮件的安全性。

对邮件的词组数据进行分析，确定词组数据的特征信息，具体实施时，统计词组中各单词出现的频率、词组平均长度等信息，作为词组数据的特征信息。

确定词组数据的特征信息后，利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行。其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。

具体实施时，应用贝叶斯定理的概率探针的预先训练过程，如图4所示，包括：

步骤401：获取历史邮件数据集；其中，历史邮件数据集包括历史邮件的词组数据的特征信息，以及历史邮件的样本标签；

步骤402：以历史邮件的词组数据的特征信息为输入，以历史邮件的样本标签为输出，训练贝叶斯分类器，得到最优的分类模型，作为应用贝叶斯定理的概率探针。

具体实施例中，获取历史邮件数据集的过程，如图5所示，包括：

步骤501：采集历史邮件；

步骤502：根据历史邮件的邮件信息，对历史邮件进行正负样本标签的标注，将不含垃圾信息的邮件标注为正样本标签，将垃圾邮件标注为负样本标签；

步骤503：样本标签标注的过程中，统计各单词出现频率和词组的平均长度，作为历史邮件的词组数据的特征信息。

本发明具体实施例，通过识别出邮件标题、正文、附件的数据，对数据进行标准化字符串处理和分词等处理，得到词组集，对词组集，基于知识库进行敏感词检测和贝叶斯分类，当两者都通过时，邮件可正常发送，否则进行拦截。

基于同一发明构思，本发明实施例还提供一种邮件过滤装置，由于邮件过滤装置所解决问题的原理与邮件过滤方法相似，因此邮件过滤装置的实施可以参见邮件过滤方法的实施，重复之处不再赘述，具体结构如图6所示：

邮件信息提取模块601，用于提取接收到的邮件的标题、正文和附件；

词组数据提取模块602，用于从邮件的标题、正文和附件，提取得到邮件的词组数据；

敏感词检索模块603，用于将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；

邮件分类过滤模块604，用于利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行；其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。

具体实施例中，词组数据提取模块602，如图7所示，包括：

文字提取单元701，用于从邮件的标题、正文和附件，识别并提取文字片段；

字符处理单元702，用于对文字片段进行标准化字符处理，处理得到一个或多个词组；

具体实施时，文字提取单元701具体用于：

若邮件的正文和附件包括图片信息，利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别，提取得到文字片段；

若邮件的正文和附件中包括MP3语音片段，利用语音识别技术，对MP3语音片段进行语音转文字，提取得到文字片段。

具体实施例中，还提供一种邮件过滤装置，如图8所示，在图6的基础上，还包括：

预训练模块801，用于预先训练应用贝叶斯定理的概率探针，具体结构如图9所示，包括：

历史数据获取单元901，用于获取历史邮件数据集；其中，历史邮件数据集包括历史邮件的词组数据的特征信息，以及历史邮件的样本标签；

分类训练单元902，用于以历史邮件的词组数据的特征信息为输入，以历史邮件的样本标签为输出，训练贝叶斯分类器，得到最优的分类模型，作为应用贝叶斯定理的概率探针。

具体实施时，历史数据获取单元901具体用于：

采集历史邮件；

根据历史邮件的邮件信息，对历史邮件进行正负样本标签的标注，将不含垃圾信息的邮件标注为正样本标签，将垃圾邮件标注为负样本标签；

样本标签标注的过程中，统计各单词出现频率和词组的平均长度，作为历史邮件的词组数据的特征信息。

本发明实施例还提供一种计算机可读存储介质，存储有执行上述邮件过滤方法的计算机程序。

综上所述，本发明实施例提供的邮件过滤方法及装置具有如下优点：

通过提取接收到的邮件的标题、正文和附件；从邮件的标题、正文和附件，提取得到邮件的词组数据；将邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定邮件的词组数据中不包含敏感词时，对邮件的词组数据进行分析，确定词组数据的特征信息；利用预先训练好的应用贝叶斯定理的概率探针，根据词组数据的特征信息，确定邮件不是垃圾邮件后，予以安全放行；其中，概率探针为根据历史邮件建立的应用贝叶斯定理的分类器，用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件，进行分类，只有不包含敏感词且不是垃圾邮件的邮件，予以安全放行，即含有敏感词的邮件和垃圾邮件，均被拦截在银行的内部邮件系统之外，减轻工作人员的工作负担，提高邮件的安全性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种邮件过滤方法，其特征在于，包括：

提取接收到的邮件的标题、正文和附件；

将所述邮件的词组数据与银行知识库的敏感词比对，根据比对结果确定所述邮件的词组数据中不包含敏感词时，对所述邮件的词组数据进行分析，确定所述词组数据的特征信息；

2.如权利要求1所述的方法，其特征在于，从所述邮件的标题、正文和附件，提取得到所述邮件的词组数据，包括：

从所述邮件的标题、正文和附件，识别并提取文字片段；

对所述文字片段进行标准化字符处理，处理得到一个或多个词组；

其中，所述标准化字符处理包括：去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。

3.如权利要求2所述的方法，其特征在于，从所述邮件的标题、正文和附件，识别并提取文字片段，包括：

若所述邮件的正文和附件包括图片信息，利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别，提取得到文字片段；

若所述邮件的正文和附件中包括MP3语音片段，利用语音识别技术，对MP3语音片段进行语音转文字，提取得到文字片段。

4.如权利要求1所述的方法，其特征在于，所述应用贝叶斯定理的概率探针的预先训练过程，包括：

获取历史邮件数据集；所述历史邮件数据集包括历史邮件的词组数据的特征信息，以及历史邮件的样本标签；

以所述历史邮件的词组数据的特征信息为输入，以所述历史邮件的样本标签为输出，训练贝叶斯分类器，得到最优的分类模型，作为应用贝叶斯定理的概率探针。

5.如权利要求4所述的方法，其特征在于，获取历史邮件数据集，包括：

采集历史邮件；

6.一种邮件过滤装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述词组数据提取模块，包括：

文字提取单元，用于从所述邮件的标题、正文和附件，识别并提取文字片段；

字符处理单元，用于对所述文字片段进行标准化字符处理，处理得到一个或多个词组；

8.如权利要求7所述的装置，其特征在于，所述文字提取单元具体用于：

9.如权利要求6所述的装置，其特征在于，还包括：预训练模块，用于预先训练应用贝叶斯定理的概率探针，包括：

历史数据获取单元，用于获取历史邮件数据集；所述历史邮件数据集包括历史邮件的词组数据的特征信息，以及历史邮件的样本标签；

分类训练单元，用于以所述历史邮件的词组数据的特征信息为输入，以所述历史邮件的样本标签为输出，训练贝叶斯分类器，得到最优的分类模型，作为应用贝叶斯定理的概率探针。

10.如权利要求9所述的装置，其特征在于，所述历史数据获取单元具体用于：

采集历史邮件；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。