CN102124485A

CN102124485A - 用于检测欺诈性文本消息的设备和相关方法

Info

Publication number: CN102124485A
Application number: CN2009801317919A
Authority: CN
Inventors: C·W·维克; M·里索夫
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2008-08-15
Filing date: 2009-08-04
Publication date: 2011-07-13
Anticipated expiration: 2029-08-04
Also published as: CN102124485B; EP2316106A2; US8150679B2; US20100042402A1; WO2010019410A2; WO2010019410A3; EP2316106A4

Abstract

一种设备和相关方法检测发送到接收站的垃圾和其他欺诈性消息。接收消息的文本部分被分析以确定消息是否包括非母语说话者在创建文本消息时犯下的错误。文本分析引擎使用识别非母语说话者犯下的语法错误、非母语说话者犯下的使用错误和其他错误的规则集分析文本。

Description

用于检测欺诈性文本消息的设备和相关方法

技术领域

本发明一般涉及一种方式，通过该方式来检测接收的电子邮件或其他文本消息是垃圾或其他欺诈性消息。更具体而言，本发明涉及一种设备和相关方法，通过该设备和相关方法，通过针对非母语说话者（non-native language speaker）使用的文本所特有的文本对消息进行分析来确定该消息是否是欺诈性的。

包括非母语说话者通常所犯的语法和使用错误的列表的规则集被访问且用于分析接收消息的文本。如果接收消息被确定为很可能由非母语说话者所写且具有指示欺诈性消息的其他特性，则该消息被认为很可能是欺诈性消息。

背景技术

通信技术的进步已经允许新类型的通信服务的开发、部署和常规使用。对于很多人而言，能够使用这些通信服务来进行通信是他们日常生活的不可或缺的部分，无论是用于业务通信还是用于个人通信。

例如，常常通过使用诸如可连接到通信网络的计算机站的基于处理器的装置来实施通信。常规的个人计算机可连接到私有网络和公共网络，例如互联网。一旦连接，在计算机站发源的通信数据能够被传送到其他地点，诸如传送到另一类似连接的计算机站。到通信网络的连接通过有线连接或无线连接以各种方式进行。例如，无线连接通过各种蜂窝通信系统、基于WiFi的通信、基于IEEE 802.11的通信等的任意一种中定义的任何无线电空中接口。

诸如电子邮件消息的文本消息常常通过通信网络在计算机或其他通信站之间传送。电子邮件服务有时被称为存储转发服务，因为为了实施创建的消息的发送和接收，消息的发源者和消息的接收者不需要同时可用。而是，一旦创建，消息被路由到邮件服务服务器或其他装置，以在接收者可用于接收消息时将其递送给接收者。邮件服务器或类似装置存储消息，直到接收者可用为止，且当接收者可用时，消息被转发给接收者。

一般地，消息包括消息的发源者的识别、消息的预期接收者的识别、包括主题行的消息主体且有时包括附件。

典型地，消息的发送者和接收者不需要付费。而是，消息的发送和接收一般包括在对网络连接收费的服务预订或者周期访问中。

消息的发送的通常免费的性质有时导致这种通信服务的滥用。如使用邮件服务发送或接收消息的几乎任何人所意识到的，很多消息由未知发送者发送，经常恳求出售接收者不想要的产品或服务，并且经常是令人讨厌的。这些消息有时被称为垃圾消息。并且，一些消息试图引诱接收者购买决不会被运送的物品，或者提供使得接收者被欺诈的金融信息。所有这些消息在此处有时被称为欺诈性消息。很多时候，这些欺诈性消息源于远离接收者所处的管辖区域的位置。

不幸的是，大量垃圾消息被传送。一些人估计，垃圾消息的数目明显超过了通过公共网络传送的合法消息的数目。如很多人所知道的，在打开接收者的邮件客户端或者应用时，在接收者的收件箱接收的垃圾消息数目常包括这种垃圾或其他欺诈性消息。为了减小寄至接收者的邮件客户端或应用的接收者的收件箱的欺诈性消息的数目，开发了过滤器来过滤这种消息。当过滤器检测到欺诈性消息时，消息被删除或路由到不同于接收者收件箱的文件夹。也就是说，过滤器的操作过滤了欺诈性消息，使得接收者的收件箱文件夹不会被不想要的消息充斥。

垃圾过滤器以各种方式工作以区分合法消息和欺诈性即垃圾消息。有时利用关键词或字符串识别。概念识别、用户限定的基于规则的过滤、发源者的身份的分析、消息内容的统计分析以及与类似消息的过滤器数据库的比较有时都被使用。

然而，尽管做出了最大的努力，现有的过滤器经常过滤合法消息或者不能过滤欺诈性消息。接收的消息的过度过滤和不充分过滤都是有问题的。

如果能够提供一种改进的方式，通过该方式来更好地过滤接收的消息，则将减轻与过度过滤和不充分过滤相关的问题。

正是鉴于与传送消息相关的这种背景信息而发展了本发明的显著改进。

发明内容

因此，本发明有利地提供一种设备和相关方法，通过该设备和相关方法来检测接收的电子邮件或其他文本消息是垃圾或其他欺诈性消息。

通过本发明的实施例的操作，提供一种方式，通过该方式，通过结合欺诈分析的常规方法（即，关键词或内容分析），针对非母语说话者键入的文本特有的文本部分对消息进行分析，来确定该消息是否是欺诈性的。

在本发明的一个方面中，包括非母语说话者常犯的语法和使用错误的列表的规则集被访问且用于分析接收的消息。如果包含潜在欺诈性内容的接收消息被确定为很可能由非母语说话者所写，则指示较高的欺诈概率。通过考虑包括语法错误和使用模式的句法模式，提供对接收消息的改善过滤。

在本发明的另一方面，在通信装置（诸如计算机站、移动站或者能够留下电子邮件、或其他文本消息的任意其他类型的装置）处接收消息。接收的消息是任意常规格式，且例如包括在消息的报头部分中的识别接收者的IP（网际协议）地址以及形成消息内容的文本部分。文本部分包含ASCII文本或以任意常规方式格式化的文本。

在本发明的另一方面中，接收的消息最初在初始过滤器级被过滤。在初始过滤级执行的过滤例如包括常规过滤技术。常规过滤技术例如包括关键词或字符串识别以及相关内容分析、概念识别、用户限定的基于规则的过滤、邮件路由（例如发源IP地址、发源邮件地址）的分析，消息的批量传输的检测、消息内容的统计分析以及与其他消息的过滤器数据库的比较。

在本发明的另一方面中，向文本分析引擎提供接收消息的文本部分。文本分析引擎解析接收的消息以分析其内容且确定该消息是否很可能由非母语说话者创建。

在本发明的另一方面中，提供识别由非母语说话者常犯的语法错误的规则集。所述错误例如包括由不完全熟悉在消息的文本部分中使用的语言的语法规则和词语使用的那些人所犯的动词时态、主语-动词错误等。

在本发明的另一方面中，提供指示通常由非母语说话者利用的使用模式的规则集。尽管语法上正确，该使用模式是该语言的流利说话者一般不用的模式。该使用模式是一般不被流利的语言说话者使用的那些模式，且这种使用一般能够被流利使用该语言的人注意到。

在本发明的另一方面中，提供识别非母语说话者和母语说话者二者所犯的一般性错误的规则集。例如英语的母语和非母语说话者常犯的一般性错误包括拼接（splice）和名词动词不一致。

在本发明的另一方面中，文本分析器访问每个规则集且依照接收的消息的文本部分的分析使用其中的指示和规则。例如，顺序地执行分析。也就是说，例如，首先访问与非母语说话者的错误相关的规则，且关于该第一规则集分析接收的消息的文本。然后，例如访问识别非母语说话者的使用模式的规则。并且，关于该第二规则集分析接收的消息的文本。然后，例如访问与一般性错误相关的规则，且关于该第三规则集分析接收的消息的文本。

在本发明的另一方面中，在每一次迭代中文本分析器检测的错误被加权。加权因子通过加权因子计算确定。一旦执行了加权因子计算，获得加权因子且将其与相关分析结果相组合。

在本发明的另一方面中，提供概率值。该概率表示接收消息是欺诈性消息即垃圾消息的概率。概率是在文本分析器的分析过程中识别的内容、非母语错误、非母语使用以及一般性错误的数学函数。例如，通过文本分析引擎的计算器执行数学函数，且获得所得的概率。所得的概率用于警告消息的查看者接收消息是欺诈性消息的可能性。或者，该值用于促使消息自动路由到诸如垃圾文件夹的文件夹。

由此提供接收消息的改善过滤，因为确定为由非母语说话者构建的消息更可能是常规过滤技术否则可能不能检测的垃圾消息。

因此，在这些和其他方面中，提供用于促进检测接收的文本消息形成欺诈性消息的设备和相关方法。文本分析器配置成分析接收的文本消息的文本部分以检测非母语内容。检测器配置成基于文本分析器做出的分析检测指示接收的消息是否形成欺诈性消息的至少一个标记。

通过结合下面简要概括的附图参考目前优选的实施例的下面的详细描述且通过参考所附权利要求可以获得本发明的范围及其实现上述和其他改进的方式的更完整的理解。

附图说明

图1示出其中本发明实施例可操作的布置的功能框图。

图2示出代表图1中示出的布置的示例性操作序列的序列图。

图3示出代表本发明实施例的操作方法的方法流程图。

具体实施方式

首先转向图1，大体以10示出的布置形成互连通信装置的通信系统。此处通信装置包括由计算机站12形成的通信站以及通信站14和16。计算机站12以及站14和16通过诸如互联网的数据网络18互连。计算机站12此处代表接收从其他站（此处为站14或16）产生的消息的接收站。站14代表产生合法电子邮件的发源电子邮件产生器，且站16代表产生垃圾或欺诈性消息的欺诈性电子邮件消息产生器。该布置还示出邮件服务器22，邮件消息通过该邮件服务器22路由到计算机站12。一开始应当注意，图1中示出的布置10仅是示例性的。在其他实现中，通信系统以其他方式配置。此处重要的是电子邮件消息向接收者（即装置12）的递送以及其处的接收的消息是欺诈性例如垃圾消息的可能性的确定。

站14的消息传送通过网络18和邮件服务器22完成，以便最终递送到计算机站12。类似地，源于站16且寻址到计算机站12的用户的消息通过网络18、邮件服务器22路由，且当计算机站12处的用户的电子邮件应用打开时被引导至计算机站12。

尽管欺诈性消息源于很多位置中的任意一个，很多这种欺诈性消息来源于管辖权不同于消息接收者的管辖权的站。欺诈性消息产生者有时选择处于管理接收者所处的区域的本地执法和监管机构的管辖权之外的这种位置。处于本地执法和监管机构的作用范围之外使得欺诈性邮件消息可能是其一部分的欺诈性活动不太可能被起诉或防止。由于欺诈性消息的发源的离岸（offshore）位置的盛行，该消息常由对接收者区域中使用的语言不流利的语言说话者创建。例如，如果接收者位于美国，在东亚或远东亚国家发源的消息很有可能由英语不完全流利的人创作。在本发明实施例的操作中利用这种盛行状况。

计算机站12或类似装置形成接收者使用的接收站，其包括本发明实施例的设备28。该设备的元件被在功能上进行表示，可以以任意希望的方式实现，例如包括通过可由处理电路执行的算法、硬件元件和其组合实现。并且，尽管在示例性实施方式中设备28在接收者所处的站12处被实施，在其他实施方式中，该设备在其他地点或者在多于一个物理位置处被实施。

此处，设备28包括文本分析引擎32和存储器元件34。文本分析引擎32能够访问存储器元件34。

文本分析引擎包括分析器36和检测器38。并且，存储器元件包括过滤规则集42、44、46和48。规则集42记载初始过滤规则。过滤集44记载通常由非母语说话者所犯的语法错误。规则集46记载非母语说话者特有的使用错误。并且，规则集48记载非母语说话者以及母语说话者所犯的一般性错误。

操作中，至少接收的消息的文本部分被提供到文本分析引擎32。在示例性实施方式中，文本分析引擎32的分析器36迭代地对接收消息的文本进行操作和解析以针对指示欺诈性消息的特性对该消息进行分析。

首先，规则集42被调用。该规则集提供消息的初始过滤。初始过滤例如包括常规过滤操作，诸如关键词或字符串识别和相关内容分析、概念识别、消息与类似消息的过滤器数据库的比较、用户限定的基于规则的过滤操作以及消息内容的统计分析。在一个实施方式中，初始过滤也在邮件服务器22执行或者在网络的其他地点处执行以分析消息的路由、确定消息的发源地址、其IP地址以及因此做出的批量电子邮件消息检测。在一个实施方式中，如果初始过滤指示消息是欺诈性消息，则使得消息被路由到特殊文件夹，例如垃圾文件夹，或者被拒绝。在另一实施方式中，消息并不被立即拒绝，而是被进一步分析。

在初始过滤之后，分析器调用规则集44。规则集44由分析器使用以针对非母语说话者通常所犯的语法错误分析接收的消息文本。例如，对于英语而言，非母语说话者经常做出动词时态（诸如过去分词时态）的不当变形。英语是使用现在时态动词来描述过去动作的仅仅少数语言之一。例如，“what did you had for lunch”是非母语说话者犯下的语法错误的代表。并且，“what did you had”也是非母语说话者犯下的典型错误的示例。另外，在名词前没有冠词，例如“going to American continent”而不是“going to the American continent”也是典型的语法错误。其他典型的语法错误例如包括在名词之后而不是在名词之前放置形容词，例如“house white”而不是“white house”。并且，介词“in”和“on”的不当使用以及数目不一致，例如，“one of my client has not collected his money”也是英语非母语说话者犯下的典型语法错误的示例。当规则集44被访问和调用时，分析器针对这种语法错误的发生分析接收的文本。错误的指示被提供到检测器38。

此处，接下来，分析器还访问规则集46且使用其中记载的错误规则对接收的文本进行操作。规则集46的错误规则识别非母语说话者特有的句法以及不寻常的词语使用。再次，对于英语而言，示例性异常使用模式包括以“please”开头的引导从句，例如“please if you are interested, reply by tomorrow”。另一示例性非母语使用模式包含使用“of”而不是“’s”来表示拥有，例如，“at the house of my mother”而不是“at my mother’s house”。并且，另一示例性非母语说话者使用模式例如包含“inside the morning”而不是“in the morning”。在这个迭代中分析器36形成的分析结果也被提供到检测器38。

另外，且此处，接下来，分析器访问且调用规则集48。规则集48识别母语说话者和非母语说话者二者犯下的语法错误。再次对于英语而言，示例性的这种错误包括逗号拼接错误以及名词动词不一致。当连同规则集44和46识别的错误一起犯下这种错误时，接收的消息是欺诈性消息的可能性增大。在这个迭代中分析器做出的分析结果也被提供到检测器38。

检测器38加权分析结果且形成此处在线56上的值，该值指示接收的消息是欺诈性消息的可能性。该值例如用于警告查看者消息是欺诈性的或者自动将该消息路由到特殊文件夹。

在示例性实施方式中，检测器38包含或包括计算欺诈概率值的计算器。欺诈概率值是内容、非母语错误、非母语使用以及一般性错误（诸如在文本分析引擎的分析器的操作过程中探知的那些错误）的数学函数。

在示例性实施方式中，进一步执行值的加权，且还执行权重因子。例如，非母语错误的权重N是概率计算的分量之一。对于在文本中出现的每种类型的错误E，出现次数被求和且除以文本消息的总字数。针对每种类型的错误的计算然后相加，且将它们的权重增加一定量，诸如增加50％。这种相加代表与非母语使用相比非母语错误更加重要。字数最终通过除以诸如2、3等的数字而被调节，以使得所得权重更容易在整体欺诈计算中使用。

用于非母语使用权重U的计算类似于且相似于用于非母语错误值N的计算。加一，使得在最终算法中N+G（一般性错误因子）总是增加内容分数。如果N+G导致小于1的任意结果，则该结果将是不可能的。用于一般性错误权重G的计算也类似。1/1被加到针对每种类型的一般性错误的计算的总和。这防止与零相乘。

欺诈概率值或分数的数学表示F为：

F=C+θC((αN+U)+βG))，其中：

C=内容分数；

F=欺诈概率分数；

N=非母语错误因子；

U=使用因子；以及

G=一般性错误因子；并且

θ、α、β是在训练过程中优化的参数。

本领域技术人员将意识到θ=10、α=1.5、以及β=1的初始设置组成自身似乎合理的参数，当针对一组预先分类的数据测试模型时可以优化该参数。参数Theta(θ)支配与纯C分数相比错误分量作为整体贡献多少权重。参数Alfa(α)和beta(β)使得每个分量的权重可调节。

举例而言，如果内容分数C是20，N是.4，且G是1.2，则当考虑加权时，F（所得的欺诈概率分数）是45.2。

在该示例中，如果在文本消息中不存在非母语错误或使用的实例，内容分数20简单地乘以1.2（G），仅稍微增加了欺诈概率分数（因为一般性的重要性相对于其他三个因子的权重增加和减小）。

相反，一个或两个金融相关的关键词触发的低内容分数5例如可以通过非母语错误、非母语使用以及一般性错误的存在而被增加，导致欺诈概率提升到较高的水平。

图2示出代表图1中示出的布置10的部分的操作的序列图62。此处，在由通信站16形成的欺诈性消息产生器处产生欺诈性消息。由片段64指示的，将该消息通过网络发送到邮件服务器22。在邮件服务器22处首先执行初始过滤。并且，此处，由片段66指示的，该消息被转发到计算机站12。在计算机站12，由方框68指示的，执行附加初始过滤，由方框70指示的，进行消息的分析，以包括非母语说话者常犯的语法错误。然后，如方框72所示，对接收的消息进行分析以检测消息是否包括非母语说话者常犯的使用错误。并且，然后，如方框74所示，对接收的文本进行分析以确定消息是否包含一般性语法错误。

响应于方框70、72和74指示的分析，诸如通过概率值的计算检测接收的消息是否很可能是欺诈性消息。如果消息包含欺诈性消息，由片段80所示的，产生告警，该告警在计算机站的显示器82处显示。

图3示出大体以88示出的一种方法，其代表本发明实施例的操作方法。该方法促进检测接收的文本消息形成欺诈性消息。首先，如92所示，分析接收的文本消息的文本部分以检测非母语内容。然后，如94所示，基于所述分析，检测指示接收的消息是否形成欺诈性消息的至少一个标记。

此后，如方框96所示，在接收的消息看上去形成欺诈性消息的情况下采取告警动作。

因为欺诈性消息确定考虑了创作欺诈性消息的非母语说话者犯下的语法、句法以及其他错误，检测出欺诈性消息且响应于这种检测而采取告警动作的可能性增大。

前述描述是用于实现本发明的优选示例的描述，且本发明的范围应不必受此描述限制。本发明的范围由所附权利要求限定。

Claims

1. 一种用于促进检测接收的文本消息形成欺诈性消息的设备，所述设备包含：

文本分析器，其配置成分析接收的文本消息的文本部分以检测非母语内容；以及

检测器，其配置成基于所述文本分析器做出的分析，检测指示接收的消息是否形成欺诈性消息的至少一个标记。

2. 根据权利要求1所述的设备，还包含语法规则错误集，所述语法规则错误集识别非母语句法。

3. 根据权利要求2所述的设备，其中所述文本分析器配置成访问该语法规则集且依据所述文本分析器做出的分析使用该语法规则集。

4. 根据权利要求2所述的设备，其中该语法规则错误集包含与非母语说话者犯下的语法错误相关的规则。

5. 根据权利要求2所述的设备，其中该语法规则错误集包含与非母语说话者犯下的使用错误相关的规则。

6. 根据权利要求2所述的设备，其中该语法规则错误集包含与一般性句法错误相关的规则。

7. 根据权利要求1所述的设备，其中所述检测器配置成计算可能性值，该可能性值指示接收的消息形成欺诈性消息的可能性。

8. 根据权利要求1所述的设备，其中该可能性值包含文本部分、其中的非母语语法错误、其中的非母语使用错误以及其中的一般性错误的函数。

9. 根据权利要求8所述的设备，其中该函数包含加权函数。

10. 根据权利要求9所述的设备，其中所述检测器用于计算可能性值做出的计算还包含计算加权因子的计算，且其中该可能性值包含第一加权因子加权的加权文本部分、第二加权因子加权的加权非母语语法错误、第三加权因子加权的加权非母语使用以及第四加权因子加权的加权一般性错误的函数。

11. 根据权利要求10所述的设备，其中该加权因子具有不等值。

12. 根据权利要求1所述的设备，还包含警告器，其配置成产生警告以警告由所述检测器检测到指示接收的消息形成欺诈性消息的标记。

13. 一种垃圾邮件检测器，用于在接收的电子邮件是垃圾电子邮件时进行检测，所述垃圾邮件检测器包含：

分析器，其配置成分析接收的电子邮件中是否存在通常由非母语作者形成的内容；以及

告警产生器，其配置成如果所述分析器做出的分析指示接收的电子邮件是垃圾电子邮件则在显示接收的电子邮件之前产生告警显示。

14. 一种用于促进检测接收的文本消息形成欺诈性消息的方法，所述方法包含：

分析接收的文本消息的文本部分以检测非母语内容；以及

基于在所述分析期间做出的分析，检测指示接收的消息是否形成欺诈性消息的至少一个标记。

15. 根据权利要求14所述的方法，还包含如果在所述分析期间检测到的标记指示接收的消息形成欺诈性消息则产生告警。

16. 根据权利要求15所述的方法，还包含提供是否显示接收的消息的选择。

17. 根据权利要求14所述的方法，其中所述分析包含访问语法规则错误集且将其中的错误规则与接收的消息进行比较。

18. 根据权利要求17所述的方法，其中该语法规则错误集包含识别非母语句法的规则。

19. 根据权利要求17所述的方法，其中该语法规则错误集包含与非母语说话者犯下的语法错误相关的规则。

20. 根据权利要求17所述的方法，其中该语法规则错误集包含与非母语说话者犯下的使用错误相关的规则。