CN107402936A - 信息识别方法及装置 - Google Patents

信息识别方法及装置 Download PDF

Info

Publication number
CN107402936A
CN107402936A CN201610342120.9A CN201610342120A CN107402936A CN 107402936 A CN107402936 A CN 107402936A CN 201610342120 A CN201610342120 A CN 201610342120A CN 107402936 A CN107402936 A CN 107402936A
Authority
CN
China
Prior art keywords
information
similarity
setting
mail
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610342120.9A
Other languages
English (en)
Inventor
卞雄峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610342120.9A priority Critical patent/CN107402936A/zh
Publication of CN107402936A publication Critical patent/CN107402936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了信息识别方法及装置,该方法包括:获取待识别信息;计算所述待识别信息与历史信息的相似度;根据所述相似度判断所述待识别信息是否为特定类型信息。因此,本申请可以实现对恶意信息的溯源、以及有针对性的信息防御,从而提高了信息识别的准确度和可靠性。

Description

信息识别方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及信息识别方法及装置。
背景技术
随着互联网技术的不断发展,针对电子邮件的安全防御也成为了一个关键问题。
现有技术中,针对电子邮件的安全防御一般采用反垃圾反病毒的方法。其中,反垃圾是基于文本进行检测,反病毒是基于已有的病毒特征库进行检测。
但是,攻击者可以通过伪造文本或伪造特征的方式来避免被检测到,使得现有的反垃圾反病毒的方法对邮件防御的安全性能很低,容易对用户造成大量的损失。
发明内容
本申请提供信息识别方法及装置,以解决现有技术中的反垃圾反病毒的方法对信息识别的安全性能很低,容易对用户造成大量的损失的问题。
根据本申请实施例的第一方面,提供一种信息识别方法,所述方法包括:
获取待识别信息;
计算所述待识别信息与历史信息的相似度;
根据所述相似度判断所述待识别信息是否为特定类型信息。
根据本申请实施例的第二方面,提供一种信息识别装置,所述装置包括:
获取单元,用于获取待识别信息;
计算单元,用于计算所述待识别信息与历史信息的相似度;
第一识别单元,用于根据所述相似度判断所述待识别信息是否为特定类型信息。
根据本申请实施例的第三方面,提供一种信息识别装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别信息;
计算所述待识别信息与历史信息的相似度;
根据所述相似度判断所述待识别信息是否为特定类型信息。
应用本申请实施例,通过获取待识别信息,并计算待识别信息与历史信息的相似度,根据待识别信息与历史信息的相似度判断待识别信息是否为特定类型信息,使得信息识别设备可以综合与历史信息的相似度来识别待识别信息是否为特定类型信息,这样可以实现对恶意信息的溯源、以及有针对性的信息防御,从而提高了信息识别的准确度和可靠性。
附图说明
图1为本申请实施例的信息识别场景示意图;
图2为本申请信息识别方法的一个实施例流程图;
图3为本申请信息识别方法的另一个实施例流程图;
图4为本申请信息识别装置所在设备的一种硬件结构图;
图5为本申请信息识别装置的一个实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
定义:本申请中的待识别信息可以是当前邮件信息。其中,当前邮件可以为待发的邮件,也可以为新收到的邮件。
本申请中的历史信息是与待识别信息对应的。比如:待识别信息为当前邮件信息,历史信息可以为设定时间内(如一个月)的历史邮件信息。本申请中的相似度指的是待识别信息和历史信息之间的相似度,若待识别信息和历史信息是文本形式的,可以进行基于文本的相似度计算;若待识别信息和历史信息是文件形式的,可以进行基于文件的相似度计算。
比如:待识别信息为当前邮件信息、且当前邮件信息不属于设定安全类型的邮件信息,历史信息可以为历史邮件信息,这时可以从当前邮件信息中提取出发件人、收件人、邮件主题、链接地址、发送时间和邮件正文等对应的内容,并将提取的内容与历史邮件信息中对应的内容进行比较,并进行基于文本的相似度计算。
又比如:若当前邮件包括附件,可以从附件中提取出文件名称、文件大小、文件类型和文件散列值等对应的内容,并将取的内容与历史邮件信息的附件中对应的内容进行比较,并进行基于文件的相似度计算。
本申请的防御处理是针对特定类型信息的一种安全处理方式。比如:若判定当前邮件信息为特定类型信息,此时可以对当前邮件进行拦截或提示。
参见图1,为本申请实施例的信息识别场景示意图:
图1场景中包括:第一用户、第二用户和邮件服务器。其中,邮件服务器可以对第一用户发送至第二用户的邮件进行信息识别,也可以对第二用户发送至第一用户的邮件进行信息识别。
在进行信息识别时,邮件服务器会获取当前邮件信息和设定时间内的历史邮件信息,并计算当前邮件信息与历史邮件信息的相似度;当计算得到的相似度满足设定条件时,此时可以判定当前邮件为特定类型信息,并需要对当前邮件进行拦截或提示,从而实现了对当前邮件的安全防御,避免了恶意邮件对用户造成的大量损失
下面对本申请实施例进行详细说明。
参见图2,为本申请信息识别方法的一个实施例的流程图,该方法可以应用于信息识别设备上。比如:信息识别设备为邮件服务器,该邮件服务器可以对当前收发的邮件进行信息识别。该方法可以包括以下步骤:
步骤210:获取待识别信息。
本申请实施例中,待识别信息可以为当前邮件信息,当前邮件可以为待发的邮件,也可以为新收到的邮件。其中,当前邮件信息可以包括发件人地址、收件人地址、邮件主题、链接地址、发送时间、邮件正文等。
若当前邮件包括一个或一个以上的附件,则当前邮件信息也包括附件中包括的相关信息。
步骤220:计算待识别信息与历史信息的相似度。
本申请实施例中,若待识别信息为当前邮件信息,则历史信息可以为设定时间内的历史邮件信息。其中,设定时间可以是邮件服务器根据实际情况设定的一个时间值,比如:一个月。
针对当前邮件信息中的文本信息可以进行基于文本的相似度计算,而针对附件中的信息可以进行基于文件的相似度计算。
步骤230:根据待识别信息与历史信息的相似度判断待识别信息是否为特定类型信息。其中,特定类型信息可以为危险信息。比如:特定类型信息为包括病毒的信息。
本申请实施例中,判断是否为特定类型信息时,可以设置一个相似度阈值,当相似度大于该相似度阈值时,则判定是特定类型信息;当相似度不大于该相似度阈值时,则判定不是特定类型信息。
若待识别信息为当前邮件信息,历史信息可以为设定时间内的历史邮件信息,则可以根据当前邮件信息与设定时间内的历史邮件信息的相似度判断当前邮件信息是否为特定类型信息。
并且,当根据当前邮件信息与设定时间内的历史邮件信息的相似度判定当前邮件信息为特定类型信息时,则可以对当前邮件进行防御处理。比如:拦截或提示。
另外,当根据当前邮件信息与设定时间内的历史邮件信息的相似度判定当前邮件不是特定类型信息时,则可以对当前邮件进行放行处理。
由上述实施例可见,通过获取待识别信息,并计算待识别信息与历史信息的相似度,根据待识别信息与历史信息的相似度判断待识别信息是否为特定类型信息,使得信息识别设备可以综合与历史信息的相似度来识别待识别信息是否为特定类型信息,这样可以实现对恶意信息的溯源、以及有针对性的信息防御,从而提高了信息识别的准确度和可靠性。
参见图3,为本申请信息识别方法的一个实施例的流程图,该方法可以应用于邮件服务器上,该方法可以包括以下步骤:
步骤300:获取当前邮件信息。其中,当前邮件信息为待识别信息。
步骤310:判断当前邮件信息是否属于设定安全类型的邮件信息,若是,则执行步骤390;若否,则执行步骤320。
本申请实施例中,设定安全类型可以是邮件服务器提前设置的,并设定安全类型可以包括一个类型,也可以包括多个类型。比如:设定安全类型包括定期通知类型等。并且,若当前邮件信息不属于设定安全类型的邮件信息才判断当前邮件信息是否为特定类型信息,这样可以避免出现将定期通知类型等正常邮件信息误识别为特定类型信息的情形。
步骤320:对当前邮件信息进行信息提取,得到至少一个第一要素信息。
本申请实施例中,可以按照第一设定要素类型从当前邮件信息中提取对应的要素信息,并将第一设定要素类型对应的要素信息确定为第一要素信息。
第一设定要素类型可以包括以下至少一项:发件人、收件人、邮件主题、链接地址、发送时间和邮件正文等。其中,在从邮件正文中提取信息时,可以根据信息安全等级的不同提取对应的信息。还有,链接地址可以指的是邮件中包括的所有超链接地址。比如:邮件正文中提到的超链接地址。
另外,当检测到当前邮件中包括至少一个附件时,则可以按照第二设定要素类型从附件中提取对应的要素信息,并将第二设定要素类型对应的要素信息也确定为第一要素信息。
第二设定要素类型可以包括以下至少一项:文件名称、文件大小、文件类型和文件散列值等。
除了第一设定要素类型和第二设定要素类型之外,还可以按照扩展要素类型查询与当前邮件关联的要素信息,若查询到扩展要素类型对应的要素信息后,也可以将扩展要素类型对应的要素信息确定为第一要素信息,这样第一要素信息包括的范围进一步扩大,同时也提高了信息识别的识别范围,还提高了信息识别的可靠性。
其中,扩展要素类型可以根据邮件用户的不同而设置对应的类型。
比如:对于企业用户,可以将要素类型扩展到企业类型、行业类型等企业用户授权的信息;对于个人用户,可以将要素类型扩展到用户行业,地域等用户授权信息。
步骤330:判断设定白名单中是否不包括各个第一要素信息,若是,则执行步骤340;若否,则执行步骤390。
步骤340:判断设定黑名单中是否不包括各个第一要素信息,若是,则执行步骤350;若否,则执行步骤380。
步骤350:从设定时间内的历史邮件信息中获取与第一要素信息对应的第二要素信息。
步骤360:计算第一要素信息和对应的第二要素信息之间的相似度,该相似度为第一相似度。
本申请实施例中,可以对第一设定要素类型对应的要素信息和对应的第二要素信息进行基于文本的相似度计算。另外,由于第二设定要素类型对应的要素信息皆是与附件相关的信息,此时可以对第二设定要素类型对应的要素信息进行基于文件的相似度计算。
步骤370:判断是否检测到至少一个第一相似度大于设定相似度阈值,若是,则执行步骤380;若否,则步骤390。
在一个例子中,在步骤370中检测到至少一个第一相似度大于设定相似度阈值后,可以不是直接执行步骤380,而是先计算各个要素类型中大于设定相似度阈值的第二要素信息的第一数量,当检测到至少一个第一数量大于第一设定数量阈值时,再执行步骤380。
比如:当前邮件的发件人为A,收件人为B、邮件主题为C,设定相似度阈值为80%,第一设定数量阈值为20。若在一个月之内的接收到所有历史邮件中,发件人A对应的第一相似度大于80%的邮件数是25封,收件人B对应的第一相似度大于80%的邮件数是22封(大于20),邮件主题C对应的第一相似度大于80%的邮件数是21封(大于20),…等,此时就可以确定当前邮件信息是特定类型信息,并可以对当前邮件进行防御处理。
另一个例子中,在步骤370中在检测到至少一个第一相似度大于设定相似度阈值后,可以不是直接执行步骤380,而是计算至少一个指定要素类型中大于设定相似度阈值的第二要素信息的第二数量,当检测到至少一个第二数量大于第二设定数量阈值时,再执行步骤380。
比如:指定要素类型为发件人,当前邮件的发件人为D,设定相似度阈值为80%,第二设定数量阈值为30。若在一个月之内的接收到所有历史邮件中,发件人A对应的第一相似度大于80%的邮件数是35封(大于30),此时就可以确定当前邮件信息是特定类型信息,并可以对当前邮件进行防御处理。
又比如:指定要素类型为邮件主题,当前邮件的邮件主题为E,设定相似度阈值为80%,第二设定数量阈值为30。若在一个月之内的接收到所有历史邮件中,邮件主题E对应的第一相似度大于80%的邮件数是35封(大于30),此时就可以确定当前邮件信息是特定类型信息,并可以对当前邮件进行防御处理。
又比如:指定要素类型为发件人和邮件主题,当前邮件的发件人为G,邮件主题为E,设定相似度阈值为80%,第二设定数量阈值为30。若在一个月之内的接收到所有历史邮件中,发件人G或邮件主题E对应的第一相似度大于80%的邮件数大于30封时,就可以确定当前邮件信息是特定类型信息,并可以对当前邮件进行防御处理。
步骤380:判定当前邮件信息是特定类型信息,并对当前邮件进行防御处理,流程结束。其中,特定类型信息可以为需要进行防御处理的信息。比如:特定类型信息为包括病毒的信息,若判定当前邮件信息是包括病毒的信息,则需要对当前邮件进行防御处理。
本申请实施例中,若设定黑名单中包括至少一个第一要素信息时,则可以确定当前邮件信息是特定类型信息,并可以对当前邮件进行拦截处理。
另外,对当前邮件进行防御处理时,除了可以直接对当前邮件进行拦截处理外,还可以进行向用户进行拦截提示,若用户同意拦截后再进行拦截,包括:
(1)输出拦截提示,该拦截提示包括允许拦截和拒绝拦截。
(2)当接收到针对拦截提示中的允许拦截的确认指令时,则可以对当前邮件进行拦截。
步骤390:判定当前邮件信息不是特定类型信息,并对当前邮件进行放行处理,流程结束。
本申请实施例中,若设定白名单中包括至少一个第一要素信息时,则确定当前邮件不是待防御邮件,并对当前邮件进行放行处理。
另外,在对当前邮件进行放行处理后,还可以根据当前邮件为对白名单中的统计信息进行更新。
比如:白名单中包括发件人A和发件人A对应的统计信息(即发件人A对应历史邮件数),若当前邮件的发件人也为A,此时可以将发件人A对应的历史邮件数加1。
由上述实施例可见,通过白名单、黑名单、基于文本或基于文件的相似度计算、以及统计大于设定相似度阈值的历史邮件数量等多种方式来识别当前邮件信息是否为特定类型信息,若判定当前邮件信息是特定类型信息,则对当前邮件进行防御处理,使得邮件服务器可以综合多种方式来识别当前邮件信息是否为特定类型信息,这样可以实现对恶意邮件的溯源、以及有针对性的邮件防御,从而提高了邮件防御的安全程度。
与本申请信息识别方法的实施例相对应,本申请还提供了信息识别装置的实施例。
本申请信息识别装置的实施例可以应用在信息识别设备上,比如:邮件服务器。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请信息识别装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,如对于终端来说,可能包括摄像头、触摸屏子、通信组件等,对于服务器来说,可能包括负责处理报文的转发芯片等等。
参见图5,为本申请信息识别装置的一个实施例框图,该信息识别装置可以应用在信息识别设备上,比如:邮件服务器上,并可以用于执行图2所示的信息识别方法,该装置包括:获取单元51、计算单元52和第一识别单元53。
获取单元51,用于获取待识别信息;
计算单元52,用于计算所述待识别信息与历史信息的相似度;
第一识别单元53,用于根据所述相似度判断所述待识别信息是否为特定类型信息。
在一个可选的实现方式中:所述待识别信息为当前邮件信息,所述历史信息为设定时间内的历史邮件信息;所述计算单元52可以包括:判断子单元、提取子单元、获取子单元和计算子单元(图5中未示出)。
判断子单元,用于判断当前邮件信息是否属于设定安全类型的邮件信息;
提取子单元,用于当所述当前邮件信息不属于设定安全类型的邮件信息时,则对所述当前邮件信息进行信息提取,得到至少一个第一要素信息;
获取子单元,用于当设定白名单和设定黑名单中均不包括各个所述第一要素信息时,则从所述历史邮件信息中获取与所述第一要素信息对应的第二要素信息;
计算子单元,用于计算所述第一要素信息和对应的第二要素信息之间的相似度,所述相似度为第一相似度(图5中未示出)。
在另一个可选的实现方式中:提取子单元可以包括:第一提取模块和第二提取模块(图5中未示出)。
第一提取模块,用于按照第一设定要素类型从所述当前邮件信息中提取对应的要素信息,并将所述第一设定要素类型对应的要素信息确定为所述第一要素信息,所述第一设定要素类型包括以下至少一项:发件人、收件人、邮件主题、链接地址、发送时间和邮件正文;
第二提取模块,用于当检测到所述当前邮件中包括至少一个附件时,则按照第二设定要素类型从所述附件中提取对应的要素信息,并将所述第二设定要素类型对应的要素信息也确定为所述第一要素信息,所述第二设定要素类型包括文件名称、文件大小、文件类型和文件散列值。
在另一个可选的实现方式中:计算子单元可以包括:第一计算模块和第二计算模块(图5中未示出)。
第一计算模块,用于对所述第一设定要素类型对应的要素信息和对应的第二要素信息进行基于文本的相似度计算;
第二计算模块,用于对所述第二设定要素类型对应的要素信息进行基于文件的相似度计算。
在另一个可选的实现方式中:所述装置第一识别单元53包括:识别子单元。
识别子单元,用于当检测到至少一个第一相似度大于设定相似度阈值时,则判定当前邮件信息为特定类型信息。
在另一个可选的实现方式中:所述识别子单元包括:第三计算模块和第一确定模块(图5中未示出)。
第三计算模块,用于当检测到至少一个第一相似度大于设定相似度阈值时,则计算各个要素类型中大于所述设定相似度阈值的第二要素信息的第一数量;
第一确定模块,用于当检测到至少一个所述第一数量大于第一设定数量阈值时,则判定当前邮件信息为特定类型信息。
在另一个可选的实现方式中:所述识别子单元可以包括:第四计算模块和第二确定模块(图5中未示出)。
第四计算模块,用于当检测到至少一个第一相似度大于设定相似度阈值时,则计算至少一个指定要素类型中大于所述设定相似度阈值的第二要素信息的第二数量;
第二确定模块,用于当检测到至少一个所述第二数量大于第二设定数量阈值时,则判定当前邮件信息为特定类型信息。
在另一个可选的实现方式中:所述装置还可以包括:第二识别单元(图5中未示出)。
第二识别单元,用于当所述设定黑名单中包括至少一个所述第一要素信息时,则判定当前邮件信息为特定类型信息。
在另一个可选的实现方式中:所述特定类型信息为包括病毒的信息;所述装置还包括:防御单元(图5中未示出)。
防御单元,用于当判定当前邮件信息为特定类型信息时,对当前邮件进行防御处理;
所述防御单元可以包括:输出子单元和拦截子单元(图5中未示出)。
输出子单元,用于输出拦截提示,所述拦截提示包括允许拦截和拒绝拦截;
拦截子单元,用于当接收到针对所述允许拦截的确认指令时,则对当前邮件进行拦截。
在另一个可选的实现方式中:所述装置还可以包括:第三识别单元(图5中未示出)。
第三识别单元,用于当所述设定白名单中包括至少一个所述第一要素信息时,则判定当前邮件信息不是特定类型信息,并对当前邮件进行放行处理。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本请求方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
与图5相对应,本申请实施例还提供了一种信息识别装置,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别信息;
计算所述待识别信息与历史信息的相似度;
根据所述相似度判断所述待识别信息是否为特定类型信息。
由上述实施例可见,通过获取待识别信息,并计算待识别信息与历史信息的相似度,根据待识别信息与历史信息的相似度判断待识别信息是否为特定类型信息,使得信息识别设备可以综合与历史信息的相似度来识别待识别信息是否为特定类型信息,这样可以实现对恶意信息的溯源、以及有针对性的信息防御,从而提高了信息识别的准确度和可靠性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (21)

1.一种信息识别方法,其特征在于,所述方法包括:
获取待识别信息;
计算所述待识别信息与历史信息的相似度;
根据所述相似度判断所述待识别信息是否为特定类型信息。
2.根据权利要求1所述的方法,其特征在于,所述待识别信息为当前邮件信息,所述历史信息为设定时间内的历史邮件信息;
所述计算所述待识别信息与历史信息的相似度,包括:
判断当前邮件信息是否属于设定安全类型的邮件信息;
当所述当前邮件信息不属于设定安全类型的邮件信息时,则对所述当前邮件信息进行信息提取,得到至少一个第一要素信息;
当设定白名单和设定黑名单中均不包括各个所述第一要素信息时,则从所述历史邮件信息中获取与所述第一要素信息对应的第二要素信息;
计算所述第一要素信息和对应的第二要素信息之间的相似度,所述相似度为第一相似度。
3.根据权利要求2所述的方法,其特征在于,所述对所述当前邮件信息进行信息提取,得到至少一个第一要素信息,包括:
按照第一设定要素类型从所述当前邮件信息中提取对应的要素信息,并将所述第一设定要素类型对应的要素信息确定为所述第一要素信息,所述第一设定要素类型包括以下至少一项:发件人、收件人、邮件主题、链接地址、发送时间和邮件正文;
当检测到所述当前邮件中包括至少一个附件时,则按照第二设定要素类型从所述附件中提取对应的要素信息,并将所述第二设定要素类型对应的要素信息也确定为所述第一要素信息,所述第二设定要素类型包括文件名称、文件大小、文件类型和文件散列值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第一要素信息和对应的第二要素信息之间的相似度,包括:
对所述第一设定要素类型对应的要素信息和对应的第二要素信息进行基于文本的相似度计算;
对所述第二设定要素类型对应的要素信息进行基于文件的相似度计算。
5.根据权利要求2所述的方法,其特征在于,所述根据所述相似度判断所述待识别信息是否为特定类型信息,包括:
当检测到至少一个第一相似度大于设定相似度阈值时,则判定当前邮件信息为特定类型信息。
6.根据权利要求5所述的方法,其特征在于,所述当检测到至少一个第一相似度大于设定相似度阈值时,则判定当前邮件信息为特定类型信息,包括:
当检测到至少一个第一相似度大于所述设定相似度阈值时,则计算各个要素类型中大于所述设定相似度阈值的第二要素信息的第一数量;
当检测到至少一个所述第一数量大于第一设定数量阈值时,则判定当前邮件信息为特定类型信息。
7.根据权利要求5所述的方法,其特征在于,所述当检测到至少一个第一相似度大于设定相似度阈值时,则判定当前邮件信息为特定类型信息,包括:
当检测到至少一个第一相似度大于所述设定相似度阈值时,则计算至少一个指定要素类型中大于所述设定相似度阈值的第二要素信息的第二数量;
当检测到至少一个所述第二数量大于第二设定数量阈值时,则判定当前邮件信息为特定类型信息。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述设定黑名单中包括至少一个所述第一要素信息时,则判定当前邮件信息为特定类型信息。
9.根据权利要求2至8任一项所述的方法,其特征在于,所述特定类型信息为包括病毒的信息;所述方法还包括:
当判定当前邮件信息为特定类型信息时,对当前邮件进行防御处理;
所述对当前邮件进行防御处理,包括:
输出拦截提示,所述拦截提示包括允许拦截和拒绝拦截;
当接收到针对所述允许拦截的确认指令时,则对当前邮件进行拦截。
10.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述设定白名单中包括至少一个所述第一要素信息时,则判定当前邮件信息不是特定类型信息,并对当前邮件进行放行处理。
11.一种信息识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别信息;
计算单元,用于计算所述待识别信息与历史信息的相似度;
第一识别单元,用于根据所述相似度判断所述待识别信息是否为特定类型信息。
12.根据权利要求11所述的装置,其特征在于,所述待识别信息为当前邮件信息,所述历史信息为设定时间内的历史邮件信息;
所述计算单元包括:
判断子单元,用于判断当前邮件信息是否属于设定安全类型的邮件信息;
提取子单元,用于当所述当前邮件信息不属于设定安全类型的邮件信息时,则对所述当前邮件信息进行信息提取,得到至少一个第一要素信息;
获取子单元,用于当设定白名单和设定黑名单中均不包括各个所述第一要素信息时,则从所述历史邮件信息中获取与所述第一要素信息对应的第二要素信息;
计算子单元,用于计算所述第一要素信息和对应的第二要素信息之间的相似度,所述相似度为第一相似度。
13.根据权利要求12所述的装置,其特征在于,所述提取子单元包括:
第一提取模块,用于按照第一设定要素类型从所述当前邮件信息中提取对应的要素信息,并将所述第一设定要素类型对应的要素信息确定为所述第一要素信息,所述第一设定要素类型包括以下至少一项:发件人、收件人、邮件主题、链接地址、发送时间和邮件正文;
第二提取模块,用于当检测到所述当前邮件中包括至少一个附件时,则按照第二设定要素类型从所述附件中提取对应的要素信息,并将所述第二设定要素类型对应的要素信息也确定为所述第一要素信息,所述第二设定要素类型包括文件名称、文件大小、文件类型和文件散列值。
14.根据权利要求13所述的装置,其特征在于,所述计算子单元包括:
第一计算模块,用于对所述第一设定要素类型对应的要素信息和对应的第二要素信息进行基于文本的相似度计算;
第二计算模块,用于对所述第二设定要素类型对应的要素信息进行基于文件的相似度计算。
15.根据权利要求13所述的装置,其特征在于,所述第一识别单元包括:
识别子单元,用于当检测到至少一个第一相似度大于设定相似度阈值时,则判定当前邮件信息为特定类型信息。
16.根据权利要求15所述的装置,其特征在于,所述识别子单元包括:
第三计算模块,用于当检测到至少一个第一相似度大于所述设定相似度阈值时,则计算各个要素类型中大于所述设定相似度阈值的第二要素信息的第一数量;
第一确定模块,用于当检测到至少一个所述第一数量大于第一设定数量阈值时,则判定当前邮件信息为特定类型信息。
17.根据权利要求15所述的装置,其特征在于,所述识别子单元包括:
第四计算模块,用于当检测到至少一个第一相似度大于所述设定相似度阈值时,则计算至少一个指定要素类型中大于所述设定相似度阈值的第二要素信息的第二数量;
第二确定模块,用于当检测到至少一个所述第二数量大于第二设定数量阈值时,则判定当前邮件信息为特定类型信息。
18.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二识别单元,用于当所述设定黑名单中包括至少一个所述第一要素信息时,则判定当前邮件信息为特定类型信息。
19.根据权利要求12至18任一项所述的装置,其特征在于,所述特定类型信息为包括病毒的信息;所述装置还包括:
防御单元,用于当判定当前邮件信息为特定类型信息时,对当前邮件进行防御处理;
所述防御单元包括:
输出子单元,用于输出拦截提示,所述拦截提示包括允许拦截和拒绝拦截;
拦截子单元,用于当接收到针对所述允许拦截的确认指令时,则对当前邮件进行拦截。
20.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第三识别单元,用于当所述设定白名单中包括至少一个所述第一要素信息时,则判定当前邮件信息不是特定类型信息,并对当前邮件进行放行处理。
21.一种信息识别装置,其特征在于,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别信息;
计算所述待识别信息与历史信息的相似度;
根据所述相似度判断所述待识别信息是否为特定类型信息。
CN201610342120.9A 2016-05-20 2016-05-20 信息识别方法及装置 Pending CN107402936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610342120.9A CN107402936A (zh) 2016-05-20 2016-05-20 信息识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610342120.9A CN107402936A (zh) 2016-05-20 2016-05-20 信息识别方法及装置

Publications (1)

Publication Number Publication Date
CN107402936A true CN107402936A (zh) 2017-11-28

Family

ID=60389192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610342120.9A Pending CN107402936A (zh) 2016-05-20 2016-05-20 信息识别方法及装置

Country Status (1)

Country Link
CN (1) CN107402936A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN116529678A (zh) * 2020-11-09 2023-08-01 大金工业株式会社 管理装置
CN117014228A (zh) * 2023-09-27 2023-11-07 太平金融科技服务(上海)有限公司 一种邮件内容检测结果的确定方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
US8566938B1 (en) * 2012-11-05 2013-10-22 Astra Identity, Inc. System and method for electronic message analysis for phishing detection
CN103843003A (zh) * 2011-07-08 2014-06-04 Uab研究基金会 句法指纹识别
CN105072137A (zh) * 2015-09-15 2015-11-18 蔡丝英 鱼叉式钓鱼邮件的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN103843003A (zh) * 2011-07-08 2014-06-04 Uab研究基金会 句法指纹识别
US8566938B1 (en) * 2012-11-05 2013-10-22 Astra Identity, Inc. System and method for electronic message analysis for phishing detection
CN105072137A (zh) * 2015-09-15 2015-11-18 蔡丝英 鱼叉式钓鱼邮件的检测方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN112039874B (zh) * 2020-08-28 2023-03-24 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN116529678A (zh) * 2020-11-09 2023-08-01 大金工业株式会社 管理装置
CN117014228A (zh) * 2023-09-27 2023-11-07 太平金融科技服务(上海)有限公司 一种邮件内容检测结果的确定方法、装置、设备及介质
CN117014228B (zh) * 2023-09-27 2024-01-23 太平金融科技服务(上海)有限公司 一种邮件内容检测结果的确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US8549642B2 (en) Method and system for using spam e-mail honeypots to identify potential malware containing e-mails
US20170085584A1 (en) Detecting and thwarting spear phishing attacks in electronic messages
US10333877B2 (en) Methods of generating signatures from groups of electronic messages and related methods and systems for identifying spam messages
CA2859131C (en) Systems and methods for spam detection using character histograms
US11563757B2 (en) System and method for email account takeover detection and remediation utilizing AI models
JP2013229656A (ja) メール処理方法及びシステム
CN105704685B (zh) 一种短信安全处理方法及装置
CN108418777A (zh) 一种钓鱼邮件检测方法、装置及系统
CN109450929B (zh) 一种安全检测方法及装置
CN109600362B (zh) 基于识别模型的僵尸主机识别方法、识别设备及介质
CN107402936A (zh) 信息识别方法及装置
US11665195B2 (en) System and method for email account takeover detection and remediation utilizing anonymized datasets
CN112039874B (zh) 一种恶意邮件的识别方法及装置
CN114095274A (zh) 一种攻击研判方法及装置
CN114760119B (zh) 一种钓鱼邮件攻击检测方法、装置及系统
US9813412B1 (en) Scanning of password-protected e-mail attachment
CN113630397A (zh) 电子邮件安全控制方法、客户端及系统
CN116074278A (zh) 恶意邮件的识别方法、系统、电子设备和存储介质
CN109391583B (zh) 一种基于恶意应用的攻击者溯源方法和系统
JP4564916B2 (ja) フィッシング詐欺対策方法、端末、サーバ及びプログラム
CN108965350B (zh) 一种邮件审计方法、装置和计算机可读存储介质
EP3837625A1 (en) Fuzzy inclusion based impersonation detection
CN107786413B (zh) 一种浏览电子邮件的方法及用户终端
CN115037698A (zh) 一种数据识别方法、装置及电子设备
US20210264430A1 (en) Message Processing Platform for Automated Phish Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128