CN111985896A - 邮件过滤方法及装置 - Google Patents

邮件过滤方法及装置 Download PDF

Info

Publication number
CN111985896A
CN111985896A CN202010836926.XA CN202010836926A CN111985896A CN 111985896 A CN111985896 A CN 111985896A CN 202010836926 A CN202010836926 A CN 202010836926A CN 111985896 A CN111985896 A CN 111985896A
Authority
CN
China
Prior art keywords
mail
mails
phrase data
historical
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010836926.XA
Other languages
English (en)
Other versions
CN111985896B (zh
Inventor
申亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010836926.XA priority Critical patent/CN111985896B/zh
Publication of CN111985896A publication Critical patent/CN111985896A/zh
Application granted granted Critical
Publication of CN111985896B publication Critical patent/CN111985896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种邮件过滤方法及装置,该方法包括:从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。该方法实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,减轻工作人员的工作负担,提高邮件的安全性。

Description

邮件过滤方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种邮件过滤方法及装置。
背景技术
在银行中,日常办公都是通过邮件进行沟通和交流的,但在互联网外部邮件传入到银行内部邮件系统时,很难过滤到带有银行特殊敏感信息或含有垃圾信息的邮件,从而增加了工作人员的工作负担;带有银行特殊敏感信息或含有垃圾信息的邮件,若不慎点开,有可能会带来信息泄露等安全隐患。
发明内容
本发明实施例提供一种邮件过滤方法,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,该方法包括:
提取接收到的邮件的标题、正文和附件;
从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中是否包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;
利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
本发明实施例还提供一种邮件过滤装置,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,该装置包括:
邮件信息提取模块,用于提取接收到的邮件的标题、正文和附件;
词组数据提取模块,用于从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
敏感词检索模块,用于将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;
邮件分类过滤模块,用于利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述邮件过滤方法。
本发明实施例也提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述邮件过滤方法的计算机程序。
本发明实施例中,通过提取接收到的邮件的标题、正文和附件;从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,即含有敏感词的邮件和垃圾邮件,均被拦截在银行的内部邮件系统之外,减轻工作人员的工作负担,提高邮件的安全性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中邮件过滤方法的示意图。
图2为本发明具体实施例中步骤102的具体实现方法示意图。
图3为本发明具体实施例中步骤201的具体实现方法示意图。
图4为本发明具体实施例中应用贝叶斯定理的概率探针的预先训练过程示意图。
图5为本发明实施例中具体实施例中步骤401的具体实现方法示意图。
图6为本发明实施例中邮件过滤装置的示意图。
图7为本发明具体实施例中词组数据提取模块602的结构示意图。
图8为本发明具体实施例中邮件过滤装置的示意图。
图9为本发明具体实施例中预训练模块801的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种邮件过滤方法,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,如图1所示,该方法包括:
步骤101:提取接收到的邮件的标题、正文和附件;
步骤102:从邮件的标题、正文和附件,提取得到邮件的词组数据;
步骤103:将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中是否包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;
步骤104:利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行。
其中,上述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
由图1所示流程可以得知,本发明实施例中,通过提取接收到的邮件的标题、正文和附件;从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,即含有敏感词的邮件和垃圾邮件,均被拦截在银行的内部邮件系统之外,减轻工作人员的工作负担,提高邮件的安全性。
具体实施时,首先提取接收到的邮件的标题、正文和附件。
从上述邮件的标题、正文和附件,提取得到邮件的词组数据,具体实施时,如图 2所示,包括:
步骤201:从邮件的标题、正文和附件,识别并提取文字片段;
步骤202:对文字片段进行标准化字符处理,处理得到一个或多个词组。
其中,标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。
具体实施例中,步骤201具体实施过程如图3所示,包括:
步骤301:若邮件的正文和附件包括图片信息,利用光学字符识别OCR(OpticalCharacter Recognition)技术,对邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;
步骤302:若邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对 MP3语音片段进行语音转文字,提取得到文字片段。
提取得到邮件的词组数据后,将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息。其中,银行知识库记录有相关敏感词,一旦邮件中含有相关敏感词,一律不予接入银行系统中内部的邮件系统,直接拒绝该邮件,并且提示发件方:“含有敏感词XXXX,请重新发送”,以保证邮件的安全性。
对邮件的词组数据进行分析,确定词组数据的特征信息,具体实施时,统计词组中各单词出现的频率、词组平均长度等信息,作为词组数据的特征信息。
确定词组数据的特征信息后,利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行。其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
具体实施时,应用贝叶斯定理的概率探针的预先训练过程,如图4所示,包括:
步骤401:获取历史邮件数据集;其中,历史邮件数据集包括历史邮件的词组数据的特征信息,以及历史邮件的样本标签;
步骤402:以历史邮件的词组数据的特征信息为输入,以历史邮件的样本标签为输出,训练贝叶斯分类器,得到最优的分类模型,作为应用贝叶斯定理的概率探针。
具体实施例中,获取历史邮件数据集的过程,如图5所示,包括:
步骤501:采集历史邮件;
步骤502:根据历史邮件的邮件信息,对历史邮件进行正负样本标签的标注,将不含垃圾信息的邮件标注为正样本标签,将垃圾邮件标注为负样本标签;
步骤503:样本标签标注的过程中,统计各单词出现频率和词组的平均长度,作为历史邮件的词组数据的特征信息。
本发明具体实施例,通过识别出邮件标题、正文、附件的数据,对数据进行标准化字符串处理和分词等处理,得到词组集,对词组集,基于知识库进行敏感词检测和贝叶斯分类,当两者都通过时,邮件可正常发送,否则进行拦截。
基于同一发明构思,本发明实施例还提供一种邮件过滤装置,由于邮件过滤装置所解决问题的原理与邮件过滤方法相似,因此邮件过滤装置的实施可以参见邮件过滤方法的实施,重复之处不再赘述,具体结构如图6所示:
邮件信息提取模块601,用于提取接收到的邮件的标题、正文和附件;
词组数据提取模块602,用于从邮件的标题、正文和附件,提取得到邮件的词组数据;
敏感词检索模块603,用于将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;
邮件分类过滤模块604,用于利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
具体实施例中,词组数据提取模块602,如图7所示,包括:
文字提取单元701,用于从邮件的标题、正文和附件,识别并提取文字片段;
字符处理单元702,用于对文字片段进行标准化字符处理,处理得到一个或多个词组;
其中,标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。
具体实施时,文字提取单元701具体用于:
若邮件的正文和附件包括图片信息,利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;
若邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对MP3语音片段进行语音转文字,提取得到文字片段。
具体实施例中,还提供一种邮件过滤装置,如图8所示,在图6的基础上,还包括:
预训练模块801,用于预先训练应用贝叶斯定理的概率探针,具体结构如图9所示,包括:
历史数据获取单元901,用于获取历史邮件数据集;其中,历史邮件数据集包括历史邮件的词组数据的特征信息,以及历史邮件的样本标签;
分类训练单元902,用于以历史邮件的词组数据的特征信息为输入,以历史邮件的样本标签为输出,训练贝叶斯分类器,得到最优的分类模型,作为应用贝叶斯定理的概率探针。
具体实施时,历史数据获取单元901具体用于:
采集历史邮件;
根据历史邮件的邮件信息,对历史邮件进行正负样本标签的标注,将不含垃圾信息的邮件标注为正样本标签,将垃圾邮件标注为负样本标签;
样本标签标注的过程中,统计各单词出现频率和词组的平均长度,作为历史邮件的词组数据的特征信息。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述邮件过滤方法。
本发明实施例还提供一种计算机可读存储介质,存储有执行上述邮件过滤方法的计算机程序。
综上所述,本发明实施例提供的邮件过滤方法及装置具有如下优点:
通过提取接收到的邮件的标题、正文和附件;从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,即含有敏感词的邮件和垃圾邮件,均被拦截在银行的内部邮件系统之外,减轻工作人员的工作负担,提高邮件的安全性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种邮件过滤方法,其特征在于,包括:
提取接收到的邮件的标题、正文和附件;
从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;
利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
2.如权利要求1所述的方法,其特征在于,从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据,包括:
从所述邮件的标题、正文和附件,识别并提取文字片段;
对所述文字片段进行标准化字符处理,处理得到一个或多个词组;
其中,所述标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。
3.如权利要求2所述的方法,其特征在于,从所述邮件的标题、正文和附件,识别并提取文字片段,包括:
若所述邮件的正文和附件包括图片信息,利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;
若所述邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对MP3语音片段进行语音转文字,提取得到文字片段。
4.如权利要求1所述的方法,其特征在于,所述应用贝叶斯定理的概率探针的预先训练过程,包括:
获取历史邮件数据集;所述历史邮件数据集包括历史邮件的词组数据的特征信息,以及历史邮件的样本标签;
以所述历史邮件的词组数据的特征信息为输入,以所述历史邮件的样本标签为输出,训练贝叶斯分类器,得到最优的分类模型,作为应用贝叶斯定理的概率探针。
5.如权利要求4所述的方法,其特征在于,获取历史邮件数据集,包括:
采集历史邮件;
根据历史邮件的邮件信息,对历史邮件进行正负样本标签的标注,将不含垃圾信息的邮件标注为正样本标签,将垃圾邮件标注为负样本标签;
样本标签标注的过程中,统计各单词出现频率和词组的平均长度,作为历史邮件的词组数据的特征信息。
6.一种邮件过滤装置,其特征在于,包括:
邮件信息提取模块,用于提取接收到的邮件的标题、正文和附件;
词组数据提取模块,用于从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
敏感词检索模块,用于将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;
邮件分类过滤模块,用于利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。
7.如权利要求6所述的装置,其特征在于,所述词组数据提取模块,包括:
文字提取单元,用于从所述邮件的标题、正文和附件,识别并提取文字片段;
字符处理单元,用于对所述文字片段进行标准化字符处理,处理得到一个或多个词组;
其中,所述标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。
8.如权利要求7所述的装置,其特征在于,所述文字提取单元具体用于:
若所述邮件的正文和附件包括图片信息,利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;
若所述邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对MP3语音片段进行语音转文字,提取得到文字片段。
9.如权利要求6所述的装置,其特征在于,还包括:预训练模块,用于预先训练应用贝叶斯定理的概率探针,包括:
历史数据获取单元,用于获取历史邮件数据集;所述历史邮件数据集包括历史邮件的词组数据的特征信息,以及历史邮件的样本标签;
分类训练单元,用于以所述历史邮件的词组数据的特征信息为输入,以所述历史邮件的样本标签为输出,训练贝叶斯分类器,得到最优的分类模型,作为应用贝叶斯定理的概率探针。
10.如权利要求9所述的装置,其特征在于,所述历史数据获取单元具体用于:
采集历史邮件;
根据历史邮件的邮件信息,对历史邮件进行正负样本标签的标注,将不含垃圾信息的邮件标注为正样本标签,将垃圾邮件标注为负样本标签;
样本标签标注的过程中,统计各单词出现频率和词组的平均长度,作为历史邮件的词组数据的特征信息。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。
CN202010836926.XA 2020-08-19 2020-08-19 邮件过滤方法及装置 Active CN111985896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010836926.XA CN111985896B (zh) 2020-08-19 2020-08-19 邮件过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010836926.XA CN111985896B (zh) 2020-08-19 2020-08-19 邮件过滤方法及装置

Publications (2)

Publication Number Publication Date
CN111985896A true CN111985896A (zh) 2020-11-24
CN111985896B CN111985896B (zh) 2023-08-18

Family

ID=73435049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010836926.XA Active CN111985896B (zh) 2020-08-19 2020-08-19 邮件过滤方法及装置

Country Status (1)

Country Link
CN (1) CN111985896B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127874A (zh) * 2021-05-18 2021-07-16 中国银行股份有限公司 内网敏感信息处理方法及装置
CN114629872A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN114629870A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN114629873A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN116663001A (zh) * 2023-06-02 2023-08-29 北京永信至诚科技股份有限公司 一种针对邮件的安全分析方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN110149268A (zh) * 2019-05-15 2019-08-20 深圳市趣创科技有限公司 一种自动过滤垃圾邮件的方法及其系统
CN110442568A (zh) * 2019-07-30 2019-11-12 北京明略软件系统有限公司 字段标签的获取方法及装置、存储介质、电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103347009A (zh) * 2013-06-20 2013-10-09 新浪网技术(中国)有限公司 一种信息过滤方法及装置
CN110149268A (zh) * 2019-05-15 2019-08-20 深圳市趣创科技有限公司 一种自动过滤垃圾邮件的方法及其系统
CN110442568A (zh) * 2019-07-30 2019-11-12 北京明略软件系统有限公司 字段标签的获取方法及装置、存储介质、电子装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114629872A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN114629870A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN114629873A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN113127874A (zh) * 2021-05-18 2021-07-16 中国银行股份有限公司 内网敏感信息处理方法及装置
CN116663001A (zh) * 2023-06-02 2023-08-29 北京永信至诚科技股份有限公司 一种针对邮件的安全分析方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN111985896B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111985896B (zh) 邮件过滤方法及装置
EP2378475A1 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN110149266B (zh) 垃圾邮件识别方法及装置
US8762375B2 (en) Method for calculating entity similarities
CN104714938B (zh) 一种信息处理的方法及电子设备
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
WO2017173093A1 (en) Method and device for identifying spam mail
CN103441924A (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN104268203B (zh) 一种移动终端及其有效过滤垃圾信息的方法和装置
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN109446299A (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN116881395A (zh) 一种舆情信息检测方法和装置
CN114896358A (zh) 一种知识产权数据库关键词抓取识别方法及装置
CN118070324A (zh) 一种基于多模态算法网络的数据脱敏优化方法
CN107992508A (zh) 一种基于机器学习的中文邮件签名提取方法及系统
CN112487795A (zh) 上下文讽刺检测方法、装置、电子设备及存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
CN113343229A (zh) 一种基于人工智能的网络安全防护系统及方法
CN113468889A (zh) 一种基于bert预训练模型信息提取的方法和装置
CN115481240A (zh) 一种数据资产质量检测方法和检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant