CN115695364A - 邮件处理方法、装置、设备和介质 - Google Patents
邮件处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115695364A CN115695364A CN202211086951.6A CN202211086951A CN115695364A CN 115695364 A CN115695364 A CN 115695364A CN 202211086951 A CN202211086951 A CN 202211086951A CN 115695364 A CN115695364 A CN 115695364A
- Authority
- CN
- China
- Prior art keywords
- webpage
- matching
- class
- verbs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本公开提供了一种邮件处理方法,涉及信息安全领域。该方法包括:解析第一邮件中二维码获取第一网页地址;对所述第一网页地址链接的第一网页进行分类,得到分类结果,其中,所述分类结果包括静态类、交互类或公众平台类;根据所述分类结果对应的邮件检测规则,检测所述第一邮件和所述第一网页,获取检测结果;根据所述检测结果处理所述第一邮件。本公开还提供了一种邮件处理装置、设备、存储介质和程序产品。
Description
技术领域
本公开涉及信息安全领域,更具体地,涉及一种邮件处理方法、装置、设备、介质和程序产品。
背景技术
二维码是一种获取信息的常见方式,在邮件中也能够经常见到二维码。由于二维码由图形的样式存在,所以导致用户在扫描前存在不确定性。例如安全意识较低的用户可能见码就扫,导致掉入钓鱼网站陷阱。相关技术中,可以利用邮件网关来进行钓鱼二维码的识别和拦截。
在实现本公开发明构思的过程中,发明人发现:对于例如利用二维码金融诈骗或恶意营销等邮件,邮件本身与二维码各自单独来看皆是正常的,都不具有恶意内容,但是两者内容不相符,此类邮件难以通过现有的邮件网关检测出来。
发明内容
鉴于上述问题,本公开提供了一种邮件处理方法、装置、设备、介质和程序产品,可以对带有二维码的邮件进行检测并处理。
本公开实施例的一个方面提供了一种邮件处理方法,包括:解析第一邮件中二维码获取第一网页地址;对所述第一网页地址链接的第一网页进行分类,得到分类结果,其中,所述分类结果包括静态类、交互类或公众平台类;根据所述分类结果对应的邮件检测规则,检测所述第一邮件和所述第一网页,获取检测结果,其中,所述静态类、交互类或公众平台类各自具有对应的邮件检测规则;根据所述检测结果处理所述第一邮件。
根据本公开的实施例,所述检测所述第一邮件和所述第一网页包括:对所述第一邮件和所述第一网页进行内容匹配,所述内容包括邮件正文、网页文本和网页代码;和/或对所述二维码进行归属匹配,所述归属匹配包括匹配所述第一邮件的发件信息、邮件正文与所述第一网页的所属主体及其关联信息。
根据本公开的实施例,所述对所述第一邮件和所述第一网页进行内容匹配包括:提取所述邮件正文中的N个第一名词和/或M个第一动词,N和M为大于或等于1的整数;将所述N个第一名词和/或所述M个第一动词与所述第一网页的网页内容进行匹配。
根据本公开的实施例,所述将所述N个第一名词与所述第一网页的网页内容进行匹配包括:从所述网页文本确定出所述N个第一名词中每个第一名词对应的目标名词;获取所述每个第一名词与对应目标名词之间的名词关联度。
根据本公开的实施例,若所述分类结果为所述交互类,所述将所述M个第一动词与所述第一网页的网页内容进行匹配包括:从所述网页代码中确定出S个动态代码,所述动态代码用于提供交互功能,S为大于或等于1的整数;根据预设对应关系,获取所述S个动态代码对应的S个第二动词;将所述M个第一动词与所述S个第二动词进行匹配。
根据本公开的实施例,所述将所述M个第一动词与所述S个第二动词进行匹配包括:从所述S个第二动词确定出所述M个第一动词中每个第一动词对应的目标动词;获取所述每个第一动词与对应目标动词之间的动词关联度。
根据本公开的实施例,所述公众平台类包括公众号类,若所述分类结果为所述公众号类,所述第一网页为公众号关联的任一页面,所述对所述二维码进行归属匹配包括:提取所述邮件正文的正文主旨;将所述正文主旨与所述公众号的简介、认证信息和经营范围中至少一项进行匹配。
根据本公开的实施例,所述对所述二维码进行归属匹配还包括:将所述第一邮件的发件人与所述公众号的简介和/或认证信息进行匹配。
根据本公开的实施例,所述根据所述检测结果处理所述第一邮件包括:将所述第一网页地址、所述第一网页的预览图、所述分类结果、所述检测结果中的至少一项插入到所述第一邮件的邮件正文,得到第二邮件;和/或将所述第二邮件发送至所述第一邮件的收件人。
本公开实施例的另一方面提供了一种邮件处理装置,包括:二维码解析模块,用于解析第一邮件中二维码获取第一网页地址;规则分类模块,用于对所述第一网页地址链接的第一网页进行分类,得到分类结果,其中,所述分类结果包括静态类、交互类或公众平台类;检测模块,用于根据所述分类结果对应的邮件检测规则,检测所述第一邮件和所述第一网页,获取检测结果,其中,所述静态类、交互类或公众平台类各自具有对应的邮件检测规则;邮件处理模块,用于根据所述检测结果处理所述第一邮件。
所述邮件处理装置包括分别用于执行如上所述任意一项所述的邮件处理方法的各个步骤的模块。
本公开实施例的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
上述一个或多个实施例具有如下有益效果:解析第一邮件中附有的二维码来获取第一网页地址,并对该地址链接的第一网页进行分类,可以执行静态类、交互类或公众平台类中任一分类结果对应的邮件检测规则,通过检测结果可以确定第一邮件与第一网页是否相符,从而即使邮件与二维码都不具有恶意内容,也可以检测出恶意邮件,避免用户因扫描二维码而遭受损失。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的邮件处理方法的应用场景图;
图2示意性示出了根据本公开实施例的邮件处理方法的流程图;
图3示意性示出了根据本公开实施例的检测第一邮件和第一网页的流程图;
图4示意性示出了根据本公开实施例的内容匹配的流程图;
图5示意性示出了根据本公开实施例的名词匹配的流程图;
图6示意性示出了根据本公开实施例的动词匹配的流程图;
图7示意性示出了根据本公开实施例的获得动词关联度的流程图;
图8示意性示出了根据本公开实施例的归属匹配的流程图;
图9示意性示出了根据本公开另一实施例的邮件处理方法的流程图;
图10示意性示出了根据本公开实施例的邮件处理装置的结构框图;以及
图11示意性示出了根据本公开实施例的适于实现邮件处理方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
例如为了推广某个理财公众号,在邮件中正文编写的是某银行的推广,由于银行知名度更高,用户直接扫描关注了该公众号。但实际上该公众号与银行并无关系,由于公众号确为通过官方认证的公众号,无恶意内容,所以常规检测可能无法检验出来。又例如金融诈骗邮件,邮件正文中是账号销户的内容,扫描二维码进入网页后,网页文字是销户相关,但是某些交互类按钮,比如销户按钮,实际上是支付功能,常规检测同样可能无法检验出来。
本公开的实施例提供了一种邮件处理方法、装置、设备、介质和程序产品,解析第一邮件中附有的二维码来获取第一网页地址,并对该地址链接的第一网页进行分类,可以执行静态类、交互类或公众平台类中任一分类结果对应的邮件检测规则,通过检测结果可以确定第一邮件与第一网页是否相符,即使邮件与二维码都不具有恶意内容,也可以检测出恶意邮件,避免用户因扫描二维码而遭受损失。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。所涉及的用户个人信息(如邮件内容)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本公开实施例的邮件处理方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括邮件收发服务器110、邮件处理服务器120、防火墙130、网络140和终端设备151、152、153。网络140用以提供通信链路的介质。网络140可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备151、152、153通过网络140接收或发送邮件等。终端设备151、152、153上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备151、152、153可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
邮件收发服务器110、邮件处理服务器120可以是提供各种服务的服务器,例如对用户利用终端设备151、152、153所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
根据本公开的实施例,用户可以通过终端设备151、152、153发送邮件至邮件收发服务器110,首先由防火墙130中邮件网关对邮件进行检测,若检测无问题则放行。然后由邮件处理服务器120执行本公开实施例所提供的邮件处理方法或利用安装在其中的邮件处理装置对邮件进行检测获得检测结果,若检测结果符合条件则放行至邮件收发服务器110。
在一些实施例中,可以将本公开实施例所提供的邮件处理装置安装在邮件收发服务器110中,或由邮件收发服务器110执行本公开实施例所提供的邮件处理方法,并取消邮件处理服务器120。
在一些实施例中,应用场景100并不局限于如图1由终端设备151、152、153发送邮件至邮件收发服务器110。例如,可以在终端设备151、152、153安装可以执行本公开实施例的邮件处理方法的应用程序,以对终端设备151、152、153所接收的邮件进行检测。该情况下,应用场景100可以不包括邮件收发服务器110、邮件处理服务器120、防火墙130中一个或多个。
应该理解,图1中的终端设备、网络、邮件收发服务器和邮件处理服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、邮件收发服务器和邮件处理服务器。
以下将基于图1描述的场景,通过图2~图9对本公开实施例的邮件处理方法进行详细描述。
图2示意性示出了根据本公开实施例的邮件处理方法的流程图。
如图2所示,该实施例的邮件处理方法包括操作S210~操作S240。
在操作S210,解析第一邮件中二维码获取第一网页地址。
参照图1,对于通过防火墙130到达邮件处理服务器120的邮件,可以先通过图片识别和文件中的图片识别,识别出带有二维码的邮件,即第一邮件。邮件处理服务器120对于无二维码邮件的直接通过,有二维码的邮件将邮件中二维码以图片方式存储,并进行二维码解析获得URL(Uniform Resource Locator,统一资源定位符),即第一网页地址。
在操作S220,对第一网页地址链接的第一网页进行分类,得到分类结果,其中,分类结果包括静态类、交互类或公众平台类。
示例性地,静态类包括文本类和无交互功能类,交互类包括有交互功能类,公众平台类包括公众号类、登录类和支付类。通过第一网页地址可以访问第一网页,即链接到第一网页。举例而言,通过向该URL地址发包,对回包代码进行解析,对于文本类和无交互功能页面标记为静态类。对于回包页面代码中有链接、表单、按钮等标识的,将页面标记为交互类,其中,对于有链接的页面,可以将该链接作为第二网页地址,访问其对应的第二网页进行分类,这样可以防止跳转到恶意网页。对于例如公众号、登录、支付等,标记为公众平台类。
示例性地,文本类网页包括页面仅显示文本的网页,无交互功能类包括页面显示文本、表单、按钮或图片等元素,但是用户无法和页面交互的网页。交互类网页包括向用户提供交互功能的网页,该交互功能指用户能够通过和页面交互(输入数据等操作)来控制程序,让页面返回想要的成果。公众平台可以指微信、QQ即时聊天软件、微博等给个人、企业和组织提供业务服务与用户管理能力的一对多的服务平台。公众平台类网页包括访问该服务平台所展示的页面,例如微信公众号(如公众号关注页面、功能页面或消息页面)、微信登录页面和微信支付页面。其他公众平台也可提供上述微信相同或相似的功能。
在一些实施例中,分类结果还可以包括官网类和非官网类,例如可以建立动态更新的官网白名单,将URL地址(第一网页地址)进行一级域名提取,若URL在白名单内则标记为官网类,其他标记非官网。
在操作S230,根据分类结果对应的邮件检测规则,检测第一邮件和第一网页,获取检测结果,其中,静态类、交互类或公众平台类各自具有对应的邮件检测规则。
示例性地,分类结果可以为静态类、交互类或公众平台类中的任一个,由于不同类别的页面向用户传递的信息有所差异,且能够向用户传递恶意内容产生错误认识的方式也不同,因此适应性的提供对应的邮件检测规则。还可以具体为文本类、无交互功能类、交互功能类、公众号类、登录类和支付类中的任一个,以预设每个类别的邮件检测规则。
在操作S240,根据检测结果处理第一邮件。
示例性地,检测结果的作用可以包括确定第一邮件和第一网页的内容是否相符,也可以确定第一邮件和第一网页各自的内容是否存在问题。若检测结果表明第一邮件存在问题,则可以将其拦截处理,若不存在问题,则放行处理。
根据本公开的实施例,解析第一邮件中附有的二维码来获取第一网页地址,并对该地址链接的第一网页进行分类,可以执行静态类、交互类或公众平台类中任一分类结果对应的邮件检测规则,通过检测结果可以确定第一邮件与第一网页是否相符,即使邮件与二维码都不具有恶意内容,也可以检测出恶意邮件,避免用户因扫描二维码而遭受损失。
根据本公开的实施例,根据检测结果处理第一邮件包括:将第一网页地址、第一网页的预览图、分类结果、检测结果中的至少一项插入到第一邮件的邮件正文,得到第二邮件。和/或将第二邮件发送至第一邮件的收件人。
其中,第一网页的预览图可以是通过访问第一网页截图获得,作用在于让用户无需扫描二维码即可知道第一网页的内容,预先知道扫描二维码后的信息。
相关技术中,现有的邮件网关对钓鱼邮件可能仍存在漏网之鱼,很多用户在扫描后才发现网页不可靠,虽未进行进一步操作,但扫描过程中已被窃取部分信息。即便非钓鱼邮件,尤其由于收件人对钓鱼邮件过滤方式未知,收件人仍无法判断收到的邮件二维码安全性。例如对于未拦截的二维码邮件(防火墙识别为非钓鱼的邮件),安全意识较高的用户,由于无法把握其真实性,每个二维码都不敢扫,可能都要发送给技术部门进行分析排除钓鱼邮件或直接删除,费时费力的同时可能错过重要信息。
根据本公开的实施例,将识别出的URL、标记、预览图片,插入到邮件正文中,作为邮件中的二维码详情展示,将邮件向后转发给邮件收发服务器。可以一定程度上解决收件人对于邮件中的二维码无法判断二维码内容问题,克服了收件人对于邮件中二维码无法辨别的困难,使收件人在扫码前可直观判断是否进行扫描,提高用户的办公效率,打消被钓鱼的疑虑。
图3示意性示出了根据本公开实施例的检测第一邮件和第一网页的流程图。
如图3所示,在操作S230检测第一邮件和第一网页包括操作S310和/或操作S320。
在操作S310,对第一邮件和第一网页进行内容匹配,该些内容包括邮件正文、网页文本和网页代码。
示例性地,提取第一邮件的邮件正文、第一网页的网页文本和网页代码,将邮件正文与网页文本和网页代码进行匹配。
在操作S320,对二维码进行归属匹配,归属匹配包括匹配第一邮件的发件信息、邮件正文与第一网页的所属主体及其关联信息。
示例性地,对于公众号而言,其关联的第一网页的所属主体可以包括该公众号的认证主体。对于网站的网页而言,所属主体可以包括该网站的运营者或所有者。关联信息可以包括主体的经营范围、工商管理信息、业务或产品信息等。
示例性地,二维码归属匹配的目的包括确定二维码是由哪个主体发出的,第一网页的所属主体是谁,从而通过发件信息、邮件正文和所属主体及该主体关联信息的匹配来获得检测结果。一些实施例中,在匹配之前,可以先确定发件人和所属主体各自是否存在过恶意行为。
在一些实施例中,例如静态类和交互类对应的邮件检测规则为内容匹配,公众号类对应的邮件检测规则为内容匹配和二维码归属匹配。
在另一些实施例中,静态类、交互类和公众号类对应的邮件检测规则皆为内容匹配和二维码归属匹配。
根据本公开的实施例,通过内容匹配和/或归属匹配,可以从内容、发件信息、主体及其关联信息等多个角度确定是否相符。
根据本公开的实施例,针对邮件正文内容与二维码实际信息进行匹配,为加强匹配符合度使用“名动词”匹配方式,下面通过图4~图7进一步介绍。
图4示意性示出了根据本公开实施例的内容匹配的流程图。
如图4所示,在操作S310对第一邮件和第一网页进行内容匹配包括操作S410~操作S420。
在操作S410,提取邮件正文中的N个第一名词和/或M个第一动词,N和M为大于或等于1的整数。
在一些实施例中,可以利用自然语言处理技术对邮件正文进行语义分析,并自动识别名词或动词,例如考虑句子中词汇之间的前后联系,利用语义信息对词汇进行分类,确定每个词汇属于名词或动词。
在一些实施例中,可以预设词汇库和规则库,词汇库用于存储词汇和不能用规则控制的字组并标注这些单位的语义信息,如动词、名词或单字。规则库用于存储字组的组合规则,在满足预定规则的情况下为动词或名词。例如可以先通过词汇库进行名词或动词识别,用词汇库中的单位匹配文本,将词汇库中存在的名词或动词提取处理,然后利用规则库筛选剩余的文本内容,以确定不同的单字与单字或词汇之间的搭配是否是名词或动词。
在操作S420,将N个第一名词和/或M个第一动词与第一网页的网页内容进行匹配。
示例性地,第一网页的内容可以包括网页文本和/或网页代码。对于静态类、交互类或公众平台类的网页,皆可以进行N个第一名词网页文本中对应名词,和/或M个第一动词与网页文本中对应动词之间的匹配。对于交互类网页,可以进行M个第一动词与网页代码中对应动态内容之间的匹配。
根据本公开的实施例,以词汇为单位进行匹配,并通过“名动词”匹配方式,可以细化匹配粒度,加强匹配符合度,提高检测内容是否相符的准确性。
图5示意性示出了根据本公开实施例的名词匹配的流程图。
如图5所示,在操作S420将N个第一名词与第一网页的网页内容进行匹配包括操作S510~操作S520。对于静态类、交互类或公众平台类的网页,皆可以执行操作S510~操作S520进行名词匹配。
在操作S510,从网页文本确定出N个第一名词中每个第一名词对应的目标名词。
示例性地,网页文本可以包括段落文本、表单中的文本和按钮文本(如确定按钮、提交按钮、取消按钮等),其中包括一个或多个第二名词和第二动词。
可以从网页文本中提取出多个第二名词,如对于任一个第一名词,计算其与每个第二名词的相似度,将相似度最高的值作为目标名词。
在操作S520,获取每个第一名词与对应目标名词之间的名词关联度。其中,在操作S510的相似度作为名词关联度,或根据相似度的等级分配名词关联度的值。
以静态类网页举例,首先提取邮件正文关键字,然后对于静态类页面将页面内容与邮件正文“名词”进行匹配,例如,页面信息为招聘信息,邮件正文中名词关键字包含“招聘”“简历”等关键字,通过分析该两个词与网页中对应目标名词的名词关联度,如名词关联度超过阈值,说明关联度高,则匹配成功,反之失败。尤其说明,可以根据每个第一名词的名词关联度,获取N个第一名词的总名词关联度,以判断其是否超过阈值。还可以判断每个名词关联度是否超过阈值。在一些实施例中,可以将静态类网页的页面内容与邮件正文“动词”进行匹配,具体过程与上述名词匹配类似,在此不做赘述。
图6示意性示出了根据本公开实施例的动词匹配的流程图。
若分类结果为交互类,如图6所示,在操作S420将M个第一动词与第一网页的网页内容进行匹配包括操作S610~操作S630。
在操作S610,从网页代码中确定出S个动态代码,动态代码用于提供交互功能,S为大于或等于1的整数。
在操作S620,根据预设对应关系,获取S个动态代码对应的S个第二动词。
示例性地,动态代码包括从源代码获取的可以响应于用户的交互操作进行数据处理的标识,如download、search、register、Pay或login等。预设对应关系包括标识与第二动词之间的映射,例如上述标识映射的第二动词为下载、搜索、注册、支付和登录。
在操作S630,将M个第一动词与S个第二动词进行匹配。
对于交互类页面将页面中的文字内容(包括名词和动词)与邮件正文“名词”进行匹配,动态代码与邮件正文中的“动词”进行匹配,通过代码分析提取动态代码并利用预设对应关系确定出第二动词,可以将邮件正文与该网页实际的功能进行匹配,避免网页文本与网页代码不对应的情况。
图7示意性示出了根据本公开实施例的获得动词关联度的流程图。
如图7所示,在操作S630将M个第一动词与S个第二动词进行匹配包括操作S710~操作S720。
在操作S710,从S个第二动词确定出M个第一动词中每个第一动词对应的目标动词。
其中M与S相等或不等,部分第一动词可能无法确定出对应的目标动词,该情况下则放弃计算该部分第一动词的动词关联度。
可以从网页文本中提取出多个第二动词,如对于任一个第一动词,计算其与每个第二动词的相似度,将相似度最高的值作为目标动词。
在操作S720,获取每个第一动词与对应目标动词之间的动词关联度。其中,在操作S710的相似度作为动词关联度,或根据相似度的等级分配动词关联度的值。
以交互类网页举例,例如通过热词分析确定邮件正文中的名词中包含“销户”热词,二维码的页面中热词为“支付”关键词,通过分析两个词关联度低于阈值,则匹配项1不匹配。又如邮件正文中的动词包含“找回密码”关键词,通过代码分析提取动态页面中的动作,如通过分析网页按钮代码中包含“download”确定按钮实际动作为“下载”或者通过分析网页按钮代码中包含“pay”确定按钮实际动作为“支付”,则匹配项2不成功。尤其说明,可以根据每个第一动词的动词关联度,获取M个第一动词的总动词关联度,以判断其是否超过阈值。还可以判断每个动词关联度是否超过阈值。还可以综合判断邮件正文中名词与网页文本内容之间的关联度和总动词关联度是否超过阈值。
根据本公开的实施例,通过动态代码与邮件正文中动词的匹配可以防止恶意欺骗行为,避免用户遭受损失。
图8示意性示出了根据本公开实施例的归属匹配的流程图。
若分类结果为公众号类,第一网页为公众号关联的任一页面,如图8所示,在操作S320对二维码进行归属匹配包括操作S810~操作S820。
在操作S810,提取邮件正文的正文主旨。
示例性地,例如可以使用pLSA(ProbabilisticLatent Semantic Analysis)或LDA(Latent Dirichlet Allocation)等主题模型提取正文主旨。以LDA模型举例,其认为主题可以由一个词汇分布来表示,而文章可以由主题分布来表示。换言之,该模型的思想为一篇文档是有多个主题的,而每个主题又对应不同的词。LDA模型的使用是生成文档的逆过程,即输入一篇文档,寻找这篇文档的主题,再去寻找各个主题对应的词。
在操作S820,将正文主旨与公众号的简介、认证信息和经营范围中至少一项进行匹配。
示例性地,如果任一项匹配不上(相似度低于阈值),则检测结果为不相符。或者与之相反,如果任一项匹配上(相似度高于阈值),则检测结果为相符。可根据实际情况选择。
根据本公开的实施例,对二维码进行归属匹配还包括:将第一邮件的发件人与公众号的简介和/或认证信息进行匹配。公众号的简介和/或认证信息一般会存在该公众号的所属主体。
以微信公众号类举例,除了进行内容匹配外,还可以获取公众号简介和基础信息,如公众号认证信息(如认证主体、认证类型)、认证主体或该公众号的经营范围等。例如将认证主体与邮件发件人进行匹配,看是否匹配。提取邮件正文主旨,与公众号经营范围进行匹配,看是否在经营范围内。
具体而言,通过获取公众号认证信息,公众号认证主体为“xx银行”,与邮件发件人为xx银行官方邮箱相符合,则匹配项1成功。通过获取邮件中主旨核心与公众号认证与经营范围信息匹配,如邮件核心为“外汇兑换”,而公众号经营范围内不包括此项且认证主体为“运营商”,则匹配项2不成功。上述确定匹配项是否成功也可以通过匹配对象之间的相似度是否超过阈值来确定。
根据本公开的实施例,归属匹配可以防止恶意营销等行为,避免用户受到恶意营销行为的影响。
图9示意性示出了根据本公开另一实施例的邮件处理方法的流程图。
如图9所示,该实施例的邮件处理方法包括操作S910~操作S940。
在操作S910,接收邮件并识别存在二维码的邮件。
在操作S920,将二维码解析为URL并分类,根据提前设定的规则进行检测,可以参照操作S220和操作S230。
示例性地,可以对静态类网页进行邮件正文和网页文本之间的名词匹配和动词匹配,以及二维码的归属匹配。可以对交互类网页将页面中的文字内容(包括名词和动词)与邮件正文“名词”进行匹配,动态代码与邮件正文中的“动词”进行匹配,以及二维码的归属匹配。可以对公众号类网页进行邮件正文和公众号文章之间的名词匹配和动词匹配,以及二维码的归属匹配。
其中,在对静态类网页或交互类网页进行二维码的归属匹配时,可以参照操作S810~操作S820,区别在于邮件正文对比的是网页的所属主体相关信息,以及将第一邮件的发件人与网页所属主体的简介和/或认证信息进行匹配。
在操作S930,将检测详情插入到邮件中,可以参照操作S240。
在操作S940,若检测结果表明邮件正文和二维码的网页内容相符,向后转发到邮件收发服务器。
基于上述邮件处理方法,本公开还提供了一种邮件处理装置。以下将结合图10对该装置进行详细描述。
图10示意性示出了根据本公开实施例的邮件处理装置的结构框图。
如图10所示,该实施例的邮件处理装置1000包括二维码解析模块1010、规则分类模块1020、检测模块1030和邮件处理模块1040。
二维码解析模块1010可以执行操作S210,用于解析第一邮件中二维码获取第一网页地址。
规则分类模块1020可以执行操作S220,用于对第一网页地址链接的第一网页进行分类,得到分类结果,其中,分类结果包括静态类、交互类或公众平台类。其中,静态类包括文本类和无交互功能类,交互类包括有交互功能类,公众平台类包括公众号类、登录类和支付类。
检测模块1030可以执行操作S230,用于根据分类结果对应的邮件检测规则,检测第一邮件和第一网页,获取检测结果,其中,静态类、交互类或公众平台类各自具有对应的邮件检测规则。
根据本公开的实施例,检测模块1030可以包括内容匹配模块和归属匹配模块,内容匹配模块可以执行操作S310~操作S320、操作S410~操作S420、操作S510~操作S520、操作S610~操作S630和操作S710~操作S720。归属匹配模块可以执行操作S810~操作S820。在此不做赘述。
根据本公开的实施例,归属匹配模块还用于将第一邮件的发件人与公众号的简介和/或认证信息进行匹配。
邮件处理模块1040可以执行操作S240,用于根据检测结果处理第一邮件。
根据本公开的实施例,邮件处理装置1000可以包括二维码邮件识别模块,该模块用于通过图片识别和文件中的图片识别,识别出带有二维码的邮件。
根据本公开的实施例,邮件处理装置1000可以包括邮件插入模块,用于将第一网页地址、第一网页的预览图、分类结果、检测结果中的至少一项插入到第一邮件的邮件正文,得到第二邮件。和/或将第二邮件发送至第一邮件的收件人。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例,二维码解析模块1010、规则分类模块1020、检测模块1030和邮件处理模块1040中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,二维码解析模块1010、规则分类模块1020、检测模块1030和邮件处理模块1040中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,二维码解析模块1010、规则分类模块1020、检测模块1030和邮件处理模块1040中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图11示意性示出了根据本公开实施例的适于实现邮件处理方法的电子设备的方框图。
如图11所示,根据本公开实施例的电子设备1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106。包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107。包括硬盘等的存储部分1108。以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1109被下载和安装,和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (13)
1.一种邮件处理方法,包括:
解析第一邮件中二维码获取第一网页地址;
对所述第一网页地址链接的第一网页进行分类,得到分类结果,其中,所述分类结果包括静态类、交互类或公众平台类;
根据所述分类结果对应的邮件检测规则,检测所述第一邮件和所述第一网页,获取检测结果,其中,所述静态类、交互类或公众平台类各自具有对应的邮件检测规则;
根据所述检测结果处理所述第一邮件。
2.根据权利要求1所述的方法,其中,所述检测所述第一邮件和所述第一网页包括:
对所述第一邮件和所述第一网页进行内容匹配,所述内容包括邮件正文、网页文本和网页代码;和/或
对所述二维码进行归属匹配,所述归属匹配包括匹配所述第一邮件的发件信息、邮件正文与所述第一网页的所属主体及其关联信息。
3.根据权利要求2所述的方法,其中,所述对所述第一邮件和所述第一网页进行内容匹配包括:
提取所述邮件正文中的N个第一名词和/或M个第一动词,N和M为大于或等于1的整数;
将所述N个第一名词和/或所述M个第一动词与所述第一网页的网页内容进行匹配。
4.根据权利要求3所述的方法,其中,所述网页内容包括网页文本,所述将所述N个第一名词与所述第一网页的网页内容进行匹配包括:
从所述网页文本确定出所述N个第一名词中每个第一名词对应的目标名词;
获取所述每个第一名词与对应目标名词之间的名词关联度。
5.根据权利要求3或4所述的方法,其中,所述网页内容包括网页代码,若所述分类结果为所述交互类,所述将所述M个第一动词与所述第一网页的网页内容进行匹配包括:
从所述网页代码中确定出S个动态代码,所述动态代码用于提供交互功能,S为大于或等于1的整数;
根据预设对应关系,获取所述S个动态代码对应的S个第二动词;
将所述M个第一动词与所述S个第二动词进行匹配。
6.根据权利要求5所述的方法,其中,所述将所述M个第一动词与所述S个第二动词进行匹配包括:
从所述S个第二动词确定出所述M个第一动词中每个第一动词对应的目标动词;
获取所述每个第一动词与对应目标动词之间的动词关联度。
7.根据权利要求2~4中任一项所述的方法,其中,所述公众平台类包括公众号类,若所述分类结果为所述公众号类,所述第一网页为公众号关联的任一页面,所述对所述二维码进行归属匹配包括:
提取所述邮件正文的正文主旨;
将所述正文主旨与所述公众号的简介、认证信息和经营范围中至少一项进行匹配。
8.根据权利要求7所述的方法,其中,所述对所述二维码进行归属匹配还包括:
将所述第一邮件的发件人与所述公众号的简介和/或认证信息进行匹配。
9.根据权利要求1所述的方法,其中,所述根据所述检测结果处理所述第一邮件包括:
将所述第一网页地址、所述第一网页的预览图、所述分类结果、所述检测结果中的至少一项插入到所述第一邮件的邮件正文,得到第二邮件;和/或
将所述第二邮件发送至所述第一邮件的收件人。
10.一种邮件处理装置,包括:
二维码解析模块,用于解析第一邮件中二维码获取第一网页地址;
规则分类模块,用于对所述第一网页地址链接的第一网页进行分类,得到分类结果,其中,所述分类结果包括静态类、交互类或公众平台类;
检测模块,用于根据所述分类结果对应的邮件检测规则,检测所述第一邮件和所述第一网页,获取检测结果,其中,所述静态类、交互类或公众平台类各自具有对应的邮件检测规则;
邮件处理模块,用于根据所述检测结果处理所述第一邮件。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~9中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086951.6A CN115695364A (zh) | 2022-09-06 | 2022-09-06 | 邮件处理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086951.6A CN115695364A (zh) | 2022-09-06 | 2022-09-06 | 邮件处理方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115695364A true CN115695364A (zh) | 2023-02-03 |
Family
ID=85061063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211086951.6A Pending CN115695364A (zh) | 2022-09-06 | 2022-09-06 | 邮件处理方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115695364A (zh) |
-
2022
- 2022-09-06 CN CN202211086951.6A patent/CN115695364A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110537180B (zh) | 用于直接浏览器内标记因特网内容中的元素的系统和方法 | |
EP2859495B1 (en) | Malicious message detection and processing | |
KR100996311B1 (ko) | 스팸 ucc를 감지하기 위한 방법 및 시스템 | |
US9419987B2 (en) | Method and device for prompting information about e-mail | |
RU2637477C1 (ru) | Система и способ обнаружения фишинговых веб-страниц | |
CN103685307A (zh) | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 | |
JP2005339545A (ja) | 外部データを使用した検索エンジンスパムの検出 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
WO2016188029A1 (zh) | 解析二维码的方法及装置、计算机可读存储介质、计算机程序产品与终端设备 | |
WO2017121076A1 (zh) | 信息推送方法和装置 | |
US10733247B2 (en) | Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management | |
CN106681598B (zh) | 信息输入方法和装置 | |
CN103986731A (zh) | 通过图片匹配来检测钓鱼网页的方法及装置 | |
CN104143008A (zh) | 基于图片匹配检测钓鱼网页的方法及装置 | |
CN111753171A (zh) | 一种恶意网站的识别方法和装置 | |
CN104158828A (zh) | 基于云端内容规则库识别可疑钓鱼网页的方法及系统 | |
CN111586005A (zh) | 扫描器扫描行为识别方法及装置 | |
US20240154978A1 (en) | Identifying fraudulent requests for content | |
Van Nortwick et al. | Setting the bar low: are websites complying with the minimum requirements of the CCPA? | |
US9432401B2 (en) | Providing consistent security information | |
US10078750B1 (en) | Methods and systems for finding compromised social networking accounts | |
US9584537B2 (en) | System and method for detecting mobile cyber incident | |
US9904661B2 (en) | Real-time agreement analysis | |
CN115695364A (zh) | 邮件处理方法、装置、设备和介质 | |
US11257090B2 (en) | Message processing platform for automated phish detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |