CN115567476A - 垃圾邮件检测方法、装置、处理器及存储介质 - Google Patents

垃圾邮件检测方法、装置、处理器及存储介质 Download PDF

Info

Publication number
CN115567476A
CN115567476A CN202211193674.9A CN202211193674A CN115567476A CN 115567476 A CN115567476 A CN 115567476A CN 202211193674 A CN202211193674 A CN 202211193674A CN 115567476 A CN115567476 A CN 115567476A
Authority
CN
China
Prior art keywords
mail
spam detection
spam
frequency
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211193674.9A
Other languages
English (en)
Inventor
彭赓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202211193674.9A priority Critical patent/CN115567476A/zh
Publication of CN115567476A publication Critical patent/CN115567476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种垃圾邮件检测方法、装置、处理器及存储介质,属于计算机领域,包括:训练生成邮件高频词频率表;利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测;生成垃圾邮件检测结果。通过本申请提供的方法,能够减少前后端交互,降低后端计算量。而且采用基于Webassembly技术的垃圾邮件检测算法提高了垃圾邮件检测的执行效率和准确率,同时垃圾邮件检测算法对用户不可见,能够规避检测逻辑的暴露,避免不法分子绕过垃圾邮件检测,提高邮件检测的安全性。

Description

垃圾邮件检测方法、装置、处理器及存储介质
技术领域
本申请涉及计算机技术领域,具体地,涉及一种垃圾邮件检测方法、一种垃圾邮件检测装置、一种处理器及一种存储介质。
背景技术
随着互联网技术的日趋发展,电子邮件已成为人们日常交流和获取信息的一种方式。由于无需事前征求邮件接收人同意就可以在短时间内发送大量邮件给一个或者多个邮件接收人,因此邮件为广告宣传提供了成本低廉、传播面广的传播平台,一些商家和不法分子会利用垃圾邮件传播广告信息,甚至获取邮件接收人的消费行为等信息。严重影响了电子邮箱的工作效率,占用了邮箱的存储空间,直接影响到邮箱的用户体验。因此,识别这些垃圾邮件会大大提升用户使用电子邮件的交流体验感,并破坏不法分子利用垃圾邮件来获取利益的企图。
现有技术中,垃圾邮件的检测方法为在邮件接收端对垃圾邮件进行检测,若检测到邮件接收人接收到的邮件为垃圾邮件,则直接拦截该邮件或者删除该邮件,又或者向邮件接收人发出告警,以提醒邮件接收人接收到的邮件为垃圾邮件。但是发送者在网页版邮箱发送邮件之后,由邮件服务器后端计算出该邮件是否为垃圾邮件,如果是垃圾邮件则退回给发送者,多了发送者和服务器、以及服务器和接收者之间的额外网络请求交互。且邮件服务器后端运行计算密集型的垃圾邮件分类算法,会占用宝贵的后端计算资源。
发明内容
本申请实施例的目的是提供一种垃圾邮件检测方法、装置、处理器及存储介质。
为了实现上述目的,本申请第一方面提供一种垃圾邮件检测方法,所述垃圾邮件检测方法包括:训练生成邮件高频词频率表;利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测;生成垃圾邮件检测结果。
在本申请实施例中,所述训练生成邮件高频词频率表,包括:选取邮件训练集,所述邮件训练集中的邮件包括垃圾邮件和正常邮件;对所述邮件训练集中的邮件进行分词处理,得到词汇表;统计所述词汇表中的高频词汇;计算所述高频词汇在所述垃圾邮件和所述正常邮件中出现的次数,得到所述邮件高频词频率表。
在本申请实施例中,在对所述邮件训练集中的邮件进行分词处理之前,所述方法还包括:去除所述邮件训练集中每封邮件的非中文字符和停用词。
在本申请实施例中,所述利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法,包括:利用所述邮件高频词频率表和Webassembly技术支持的编程语言编译形成垃圾邮件检测算法;利用Webassembly技术将所述垃圾邮件检测算法编译形成.wasm二进制文件。
在本申请实施例中,所述调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,包括:调用基于Webassembly技术的垃圾邮件检测算法计算发生发送点击动作的待发送邮件的垃圾邮件概率和正常邮件概率;在所述垃圾邮件概率大于所述正常邮件概率的情况下,确定发生发送点击动作的待发送邮件为垃圾邮件。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的垃圾邮件概率:
Figure BDA0003870390030000031
Figure BDA0003870390030000032
其中,p(S|w)为垃圾邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|S)为垃圾邮件S中高频词汇wi出现的概率,Yi为垃圾邮件S中高频词语wi出现的次数,p(S)为邮件训练集中垃圾邮件的概率。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的正常邮件概率:
Figure BDA0003870390030000033
Figure BDA0003870390030000034
其中,p(M|w)为正常邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|M)为正常邮件M中高频词汇wi出现的概率,Zi为正常邮件M中高频词语wi出现的次数,p(M)为邮件训练集中正常邮件的概率。
在本申请实施例中,所述方法还包括:在垃圾邮件检测结果为发生发送点击动作的待发送邮件为垃圾邮件的情况下,禁止该待发送邮件的发送操作。
本申请第二方面提供一种垃圾邮件检测装置,所述垃圾邮件检测装置包括:生成模块,用于训练生成邮件高频词频率表;Webassembly模块,用于利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;检测模块,用于在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾检测,并生成垃圾邮件检测结果。
本申请第三方面提供一种处理器,被配置成执行上文所述的垃圾邮件检测方法。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上文所述的垃圾邮件检测方法。
本申请第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上文所述的垃圾邮件检测方法。
通过本申请提供的技术方案,本申请至少具有如下技术效果:
本申请的垃圾邮件检测方法,预先生成邮件高频词频率表,然后利用邮件高频词频率表生成Webassembly技术的垃圾邮件检测算法,在网页版邮箱实时检测邮件是否发生发送点击动作,当检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,并生成垃圾邮件检测结果。本申请提供的垃圾邮件检测方法应用于网页版邮箱的发送端,在发送端检测到邮件发生发送点击动作时,调用基于Webassembly技术的垃圾邮件检测算法对待发送邮件进行垃圾邮件检测,减少了前后端交互,降低了后端计算量。而且基于Webassembly技术的垃圾邮件检测算法在垃圾邮件检测时的执行效率高,能够准确检测出垃圾邮件,且垃圾邮件检测算法对用户不可见,能够规避检测逻辑的暴露,避免不法分子绕过垃圾邮件检测,提高垃圾邮件检测的安全性。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的垃圾邮件检测方法的流程图;
图2示意性示出了根据本申请实施例的垃圾邮件检测装置的示意图;
图3示意性示出了根据本申请实施例的计算机设备的内部结构图。
附图标记说明:
201-生成模块;202-Webassembly模块;203-检测模块;A01-处理器;A02-网络接口;A03-内存储器;A04-非易失性存储介质;B01-操作系统;B02-计算机程序。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
图1示意性示出了根据本申请实施例的垃圾邮件检测方法的流程示意图。如图1所示,在本申请一实施例中,提供了一种垃圾邮件检测方法,包括以下步骤:步骤101:训练生成邮件高频词频率表;步骤102:利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;步骤103:在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测;步骤104:生成垃圾邮件检测结果。
具体地,预先生成邮件高频词频率表,然后利用邮件高频词频率表生成Webassembly技术编译生成垃圾邮件检测算法,在网页版邮箱实时检测邮件是否发生邮件的发送点击动作,当检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,并生成垃圾邮件检测结果。
本申请提供的垃圾邮件检测方法应用于网页版邮箱的发送端,在发送端检测到邮件发生发送点击动作时,调用基于Webassembly技术的垃圾邮件检测算法对待发送邮件进行垃圾邮件检测,减少了前后端交互,降低了后端计算量。而且基于Webassembly技术的垃圾邮件检测算法在垃圾邮件检测时的执行效率高,能够准确检测出垃圾邮件,且垃圾邮件检测算法对用户不可见,能够规避检测逻辑的暴露,避免不法分子绕过垃圾邮件检测,提高垃圾邮件检测的安全性。
在本申请实施例中,所述训练生成邮件高频词频率表,包括:选取邮件训练集,所述邮件训练集中的邮件包括垃圾邮件和正常邮件;对所述邮件训练集中的邮件进行分词处理,得到词汇表;统计所述词汇表中的高频词汇;计算所述高频词汇在所述垃圾邮件和所述正常邮件中出现的次数,得到所述邮件高频词频率表。
在本申请实施例中,在对所述邮件训练集中的邮件进行分词处理之前,所述方法还包括:去除所述邮件训练集中每封邮件的非中文字符和停用词。
具体的,本申请实施例中使用公开的邮件语料库,比如trec06c作为训练语料,从中选取垃圾邮件和正常邮件作为邮件训练集,垃圾邮件和正常邮件的比例为1:1,比如各选取5000件。邮件训练集标记为L=(L1,L2,L3...L10000),垃圾邮件标记为S,正常邮件记为M。首先,使用正则表达式去除所有非中文字符,比如标点符号、英文字符、数字、网站链接等特殊字符。其次,利用网上公开的停用词词典过滤掉停用词,比如语气助词、副词、介词、连接词等。最后,使用结巴分词,对每一封邮件内容进行分词处理,得到词汇表。统计词汇表中每一词汇在邮件训练集L的出现频率,将出现频率最高的x个词汇作为的高频词汇,记为W=(W1,W2,W3,...Wx),统计高频词汇W=(W1,W2,W3,...Wx)在垃圾邮件S和正常邮件M中出现的次数,得到邮件高频词频率表。其中,垃圾邮件S中高频词汇Wi出现的次数记为Yi。正常邮件M中高频词汇Wi出现的次数记为Zi
在本申请实施例中,所述利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法,包括:利用所述邮件高频词频率表和Webassembly技术支持的编程语言编译形成垃圾邮件检测算法;利用Webassembly技术将所述垃圾邮件检测算法编译形成.wasm二进制文件。
在本申请实施例中,所述Webassembly技术支持的编程语言包括:C语言、C++语言、Go语言和Rust语言。
具体地,本申请实施例中在朴素贝叶斯算法中预置邮件高频词频率表,使用Webassembly支持的编程语言,编码朴素贝叶斯算法,形成垃圾邮件检测算法,然后利用Webassembly技术将垃圾邮件检测算法编译形成.wasm二进制文件。当检测到网页版邮箱的待发送邮件发生发送点击动作时,直接调用.wasm二进制文件对待发送邮件进行垃圾邮件检测。商家和不法分子无法在网页上读取.wasm二进制文件,因此不会暴露垃圾邮件检测算法的检测逻辑,商家和不法分子也就无法规避垃圾邮件检测算法,保证了网页代码的安全,从而提高了垃圾邮件检测的安全性。
在本申请实施例中,所述调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,包括:调用基于Webassembly技术的垃圾邮件检测算法计算发生发送点击动作的待发送邮件的垃圾邮件概率和正常邮件概率;在所述垃圾邮件概率大于所述正常邮件概率的情况下,确定发生发送点击动作的待发送邮件为垃圾邮件。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的垃圾邮件概率:
Figure BDA0003870390030000081
Figure BDA0003870390030000082
其中,p(S|w)为垃圾邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|S)为垃圾邮件S中高频词汇wi出现的概率,Yi为垃圾邮件S中高频词语wi出现的次数,p(S)为邮件训练集中垃圾邮件的概率。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的正常邮件概率:
Figure BDA0003870390030000083
Figure BDA0003870390030000084
其中,p(M|w)为正常邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|M)为正常邮件M中高频词汇wi出现的概率,Zi为正常邮件M中高频词语wi出现的次数,p(M)为邮件训练集中正常邮件的概率。
具体地,本申请实施例中,在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,统计高频词汇W=(W1,W2,W3,...Wx)在待测试邮件分词中出现过的词语,记为w=(w1,w2,...wm),m<x,作为当前待测试邮件的特征向量。调用基于Webassembly技术的垃圾邮件检测算法计算特征向量w=(w1,w2,...wm)分别在垃圾邮件S和正常邮件M中的出现概率,即待发送邮件的垃圾邮件概率和正常邮件概率。
待发送邮件的垃圾邮件概率为:
Figure BDA0003870390030000091
Figure BDA0003870390030000092
其中,p(S|w)为垃圾邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x。p(wi|S)为垃圾邮件S中高频词汇wi出现的概率,Yi为利用预置的邮件高频词频率表确定出的垃圾邮件S中高频词语wi出现的次数,p(S)为邮件训练集中垃圾邮件的概率。为避免Yi为0,导致最终概率为0,引入拉普拉斯平滑系数a,其中a为指定系数通常设定为1。
待发送邮件的正常邮件概率为:
Figure BDA0003870390030000093
Figure BDA0003870390030000094
其中,p(M|w)为正常邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x。p(wi|M)为正常邮件M中高频词汇wi出现的概率,Zi为利用预置的邮件高频词频率表确定出的正常邮件M中高频词语wi出现的次数,p(M)为邮件训练集中正常邮件的概率。为避免Zi为0,导致最终概率为0,引入拉普拉斯平滑系数a,其中a为指定系数通常设定为1。
若垃圾邮件概率p(S|w)小于等于正常邮件概率p(M|w),则确定发生发送点击动作的待发送邮件为正常邮件。若垃圾邮件概率p(S|w)大于正常邮件概率p(M|w),则确定发生发送点击动作的待发送邮件为垃圾邮件。
在本申请实施例中,所述方法还包括:在垃圾邮件检测结果为发生发送点击动作的待发送邮件为垃圾邮件的情况下,禁止该待发送邮件的发送操作。
具体的,本申请实施例中,在确定发生发送点击动作的待发送邮件为垃圾邮件的情况下,禁止该待发送邮件的发送操作。进一步地,可以在前端发出提示信息,提醒用户对待发送邮件进行修改,避免用户不小心在邮件写入敏感的高频词汇。待用户重新修改邮件内容之后可以再次发送,当检测为正常邮件时允许该待发送邮件的发送操作,邮件可以顺利发送。
本申请提供的垃圾邮件检测方法应用于网页版邮箱的发送端,在发送端检测到邮件发生发送点击动作时,调用基于Webassembly技术的垃圾邮件检测算法对待发送邮件进行垃圾邮件检测,减少了前后端交互,降低了后端计算量。而且基于Webassembly技术的垃圾邮件检测算法在垃圾邮件检测时的执行效率高,能够准确检测出垃圾邮件,且垃圾邮件检测算法对用户不可见,能够规避检测逻辑的暴露,避免不法分子绕过垃圾邮件检测,提高垃圾邮件检测的安全性。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供一种垃圾邮件检测装置,所述垃圾邮件检测装置200包括:生成模块201,用于训练生成邮件高频词频率表;Webassembly模块202,用于利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;检测模块203,用于在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾检测,并生成垃圾邮件检测结果。
在本申请实施例中,所述训练生成邮件高频词频率表,包括:选取邮件训练集,所述邮件训练集中的邮件包括垃圾邮件和正常邮件;对所述邮件训练集中的邮件进行分词处理,得到词汇表;统计所述词汇表中的高频词汇;计算所述高频词汇在所述垃圾邮件和所述正常邮件中出现的次数,得到所述邮件高频词频率表。
在本申请实施例中,在对所述邮件训练集中的邮件进行分词处理之前,还包括:去除所述邮件训练集中每封邮件的非中文字符和停用词。
在本申请实施例中,所述利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法,包括:利用所述邮件高频词频率表和Webassembly技术支持的编程语言编译形成垃圾邮件检测算法;利用Webassembly技术将所述垃圾邮件检测算法编译形成.wasm二进制文件。
在本申请实施例中,所述Webassembly技术支持的编程语言包括:C语言、C++语言、Go语言和Rust语言。
在本申请实施例中,所述调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,包括:调用基于Webassembly技术的垃圾邮件检测算法计算发生发送点击动作的待发送邮件的垃圾邮件概率和正常邮件概率;在所述垃圾邮件概率大于所述正常邮件概率的情况下,确定发生发送点击动作的待发送邮件为垃圾邮件。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的垃圾邮件概率:
Figure BDA0003870390030000121
Figure BDA0003870390030000122
其中,p(S|w)为垃圾邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|S)为垃圾邮件S中高频词汇wi出现的概率,Yi为垃圾邮件S中高频词语wi出现的次数,p(S)为邮件训练集中垃圾邮件的概率。
在本申请实施例中,通过以下方式计算发生发送点击动作的待发送邮件的正常邮件概率:
Figure BDA0003870390030000123
Figure BDA0003870390030000124
其中,p(M|w)为正常邮件概率,x为高频词汇的个数,(w1,w2,…,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|M)为正常邮件M中高频词汇wi出现的概率,Zi为正常邮件M中高频词语wi出现的次数,p(M)为邮件训练集中正常邮件的概率。
在本申请实施例中,所述检测模块203还用于:在垃圾邮件检测结果为发生发送点击动作的待发送邮件为垃圾邮件的情况下,禁止该待发送邮件的发送操作。
所述垃圾邮件检测装置包括处理器和存储器,上述生成模块、Webassembly模块和检测模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现垃圾邮件检测。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种处理器,被配置成执行上文所述的垃圾邮件检测方法。
本申请实施例提供了一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上文所述的垃圾邮件检测方法。
在一个实施方式中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。图3示意性示出了根据本申请实施方式的计算机设备的内部结构图该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种垃圾邮件检测方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:训练生成邮件高频词频率表;利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测;生成垃圾邮件检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种垃圾邮件检测方法,其特征在于,所述垃圾邮件检测方法包括:
训练生成邮件高频词频率表;
利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;
在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测;
生成垃圾邮件检测结果。
2.根据权利要求1所述的垃圾邮件检测方法,其特征在于,所述训练生成邮件高频词频率表,包括:
选取邮件训练集,所述邮件训练集中的邮件包括垃圾邮件和正常邮件;
对所述邮件训练集中的邮件进行分词处理,得到词汇表;
统计所述词汇表中的高频词汇;
计算所述高频词汇在所述垃圾邮件和所述正常邮件中出现的次数,得到所述邮件高频词频率表。
3.根据权利要求2所述的垃圾邮件检测方法,其特征在于,在对所述邮件训练集中的邮件进行分词处理之前,所述方法还包括:
去除所述邮件训练集中每封邮件的非中文字符和停用词。
4.根据权利要求1所述的垃圾邮件检测方法,其特征在于,所述利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法,包括:
利用所述邮件高频词频率表和Webassembly技术支持的编程语言编译形成垃圾邮件检测算法;
利用Webassembly技术将所述垃圾邮件检测算法编译形成.wasm二进制文件。
5.根据权利要求1所述的垃圾邮件检测方法,其特征在于,所述调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾邮件检测,包括:
调用基于Webassembly技术的垃圾邮件检测算法计算发生发送点击动作的待发送邮件的垃圾邮件概率和正常邮件概率;
在所述垃圾邮件概率大于所述正常邮件概率的情况下,确定发生发送点击动作的待发送邮件为垃圾邮件。
6.根据权利要求5所述的垃圾邮件检测方法,其特征在于,通过以下方式计算发生发送点击动作的待发送邮件的垃圾邮件概率:
Figure FDA0003870390020000021
Figure FDA0003870390020000022
其中,p(S|w)为垃圾邮件概率,x为高频词汇的个数,(w1,w2,···,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|S)为垃圾邮件S中高频词汇wi出现的概率,Yi为垃圾邮件S中高频词语wi出现的次数,p(S)为邮件训练集中垃圾邮件的概率。
7.根据权利要求5所述的垃圾邮件检测方法,其特征在于,通过以下方式计算发生发送点击动作的待发送邮件的正常邮件概率:
Figure FDA0003870390020000023
Figure FDA0003870390020000031
其中,p(M|w)为正常邮件概率,x为高频词汇的个数,(w1,w2,···,wm)为发生发送点击动作的待发送邮件中出现的高频词汇,m<x,a为拉普拉斯平滑系数,p(wi|M)为正常邮件M中高频词汇wi出现的概率,Zi为正常邮件M中高频词语wi出现的次数,p(M)为邮件训练集中正常邮件的概率。
8.根据权利要求1所述的垃圾邮件检测方法,其特征在于,所述方法还包括:
在垃圾邮件检测结果为发生发送点击动作的待发送邮件为垃圾邮件的情况下,禁止该待发送邮件的发送操作。
9.一种垃圾邮件检测装置,其特征在于,所述垃圾邮件检测装置包括:
生成模块,用于训练生成邮件高频词频率表;
Webassembly模块,用于利用所述邮件高频词频率表生成基于Webassembly技术的垃圾邮件检测算法;
检测模块,用于在检测到网页版邮箱的待发送邮件发生发送点击动作的情况下,调用基于Webassembly技术的垃圾邮件检测算法对发生发送点击动作的待发送邮件进行垃圾检测,并生成垃圾邮件检测结果。
10.一种处理器,其特征在于,被配置成执行权利要求1至8中任一项所述的垃圾邮件检测方法。
11.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行权利要求1至8中任一项所述的垃圾邮件检测方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求1至8中任一项所述的垃圾邮件检测方法。
CN202211193674.9A 2022-09-28 2022-09-28 垃圾邮件检测方法、装置、处理器及存储介质 Pending CN115567476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211193674.9A CN115567476A (zh) 2022-09-28 2022-09-28 垃圾邮件检测方法、装置、处理器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211193674.9A CN115567476A (zh) 2022-09-28 2022-09-28 垃圾邮件检测方法、装置、处理器及存储介质

Publications (1)

Publication Number Publication Date
CN115567476A true CN115567476A (zh) 2023-01-03

Family

ID=84743278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211193674.9A Pending CN115567476A (zh) 2022-09-28 2022-09-28 垃圾邮件检测方法、装置、处理器及存储介质

Country Status (1)

Country Link
CN (1) CN115567476A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法
CN101009666A (zh) * 2006-01-26 2007-08-01 腾讯科技(深圳)有限公司 一种邮件发送控制系统及方法
CN101795273A (zh) * 2010-01-26 2010-08-04 联想网御科技(北京)有限公司 一种垃圾邮件过滤方法及装置
CN110740089A (zh) * 2018-07-20 2020-01-31 深信服科技股份有限公司 一种群发垃圾邮件的检测方法、装置及设备
CN113992623A (zh) * 2021-11-19 2022-01-28 四川大学 一种基于邮件内容与源码信息的网页邮件xss检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法
CN101009666A (zh) * 2006-01-26 2007-08-01 腾讯科技(深圳)有限公司 一种邮件发送控制系统及方法
CN101795273A (zh) * 2010-01-26 2010-08-04 联想网御科技(北京)有限公司 一种垃圾邮件过滤方法及装置
CN110740089A (zh) * 2018-07-20 2020-01-31 深信服科技股份有限公司 一种群发垃圾邮件的检测方法、装置及设备
CN113992623A (zh) * 2021-11-19 2022-01-28 四川大学 一种基于邮件内容与源码信息的网页邮件xss检测方法

Similar Documents

Publication Publication Date Title
US10812427B2 (en) Forgotten attachment detection
CN109087163B (zh) 信用评估的方法及装置
US20180189628A1 (en) Determining semantically diverse responses for providing as suggestions for inclusion in electronic communications
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
US20200223061A1 (en) Automating a process using robotic process automation code
CN110728526B (zh) 地址识别方法、设备以及计算机可读介质
WO2017173093A1 (en) Method and device for identifying spam mail
CN110674188A (zh) 一种特征提取方法、装置及设备
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
CN109918678B (zh) 一种字段含义识别方法和装置
EP3510539A1 (en) Training and/or utilizing an interaction prediction model to determine when to interact, and/or prompt for interaction, with an application on the basis of an electronic communication
CN114118100A (zh) 用于生成对话语句的方法、装置、设备、介质和程序产品
CN110909540A (zh) 短信垃圾新词识别方法、装置及电子设备
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
US20230351121A1 (en) Method and system for generating conversation flows
CN113010562A (zh) 一种信息推荐的方法以及装置
CN115567476A (zh) 垃圾邮件检测方法、装置、处理器及存储介质
CN115048425A (zh) 一种基于强化学习的数据筛选方法及其装置
CN113191777A (zh) 风险识别方法和装置
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
US20230076279A1 (en) Deep learning for multi-channel customer feedback identification
CN113504836B (zh) 一种信息输入方法和电子设备
US11100412B2 (en) Extending question and answer samples
CN109391535B (zh) 域级的联系人确定方法、垃圾邮件判断方法和装置
CN117459640A (zh) 一种基于语音外呼的机器人对话智能预警系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination