CN103548016A - 用于消息分类的动态规则重新排序 - Google Patents

用于消息分类的动态规则重新排序 Download PDF

Info

Publication number
CN103548016A
CN103548016A CN201280024973.8A CN201280024973A CN103548016A CN 103548016 A CN103548016 A CN 103548016A CN 201280024973 A CN201280024973 A CN 201280024973A CN 103548016 A CN103548016 A CN 103548016A
Authority
CN
China
Prior art keywords
message
fingerprint
execution order
classifying rules
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280024973.8A
Other languages
English (en)
Other versions
CN103548016B (zh
Inventor
M·H·甘地
S·卡维希瓦
C·W·拉曼纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN103548016A publication Critical patent/CN103548016A/zh
Application granted granted Critical
Publication of CN103548016B publication Critical patent/CN103548016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Abstract

实施例旨在生成定制分类规则执行次序并且为先前处理的数据标识最优排序规则。在一个实施例中,计算机系统对经由计算机网络接收的消息进行指纹识别。该指纹识别标识出该消息的特定特征。计算机系统将该消息的指纹与从先前接收的消息生成的各个经存储消息指纹进行比较。该比较确定该指纹与各经存储指纹不匹配。计算机系统根据预定的规则执行次序将各分类规则应用于该消息以确定该消息的分类。计算机系统接着生成定制分类规则执行次序以将最优地标识该消息的分类的那些分类规则排序在定制分类规则执行次序的顶部。

Description

用于消息分类的动态规则重新排序
背景
计算机已变得高度集成于工作、家庭、移动设备以及许多其他地方中。计算机可快速且有效地处理大量信息。被设计成在计算机系统上运行的软件应用允许用户执行包括商业应用、学校作业、娱乐等等在内的各种各样的功能。软件应用通常被设计成执行特定的任务,诸如用于草拟文档的文字处理器应用或者用于发送、接收和组织电子邮件的电子邮件程序。
在某些情况下,软件应用可被设计成标识并过滤某些类型的消息。例如,反垃圾邮件应用或服务可被配制以分析电子邮件消息并确定哪些消息是垃圾邮件消息。可通过应用将那些被识别为垃圾邮件的消息过滤掉,从而不将它们递送给最终用户。标识垃圾邮件消息的应用可通过将各种规则应用于该消息来标识出垃圾邮件消息。如果某数量的规则适用于该消息,则该消息被标识为垃圾邮件并且被丢弃。
概述
本文中所述的实施例旨在生成定制分类规则执行次序并为先前处理的数据识别最优排序规则。在一个实施例中,计算机系统对经由计算机网络接收的消息进行指纹识别(fingerprint)。该指纹识别标识出消息的特定特征。计算机系统将该消息的指纹与从先前接收的消息生成的各个经存储消息指纹作比较。该比较确定该指纹与各经存储指纹不匹配。计算机系统根据预定的规则执行次序将各分类规则应用于该消息以确定该消息的分类。计算机系统接着生成定制分类规则执行次序以把最优地标识该消息的分类的那些分类规则排序在定制分类规则执行次序的顶部。
在另一个实施例中,计算机系统对经由计算机网络接收的消息进行指纹识别。计算机系统将该消息的指纹与从先前接收的消息生成的各个经存储消息指纹作比较。该比较确定该指纹与经存储指纹中的一个或多个匹配。计算机系统访问与匹配的指纹相对应的先前生成的定制分类规则执行次序,并且将所访问的定制分类规则执行次序应用于该消息以确定该消息的分类。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的选择的概念。本概述既不旨在标识出所要求保护的主题内容的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题内容的范围。
将在以下的描述中阐述另外的特征和优点,并且部分特征和优点可从该描述中显而易见,或者可从本文教导的实践中获知。本发明的特征和优点可以通过在所附权利要求中特别指出的手段和组合来实现并获取。本发明的特征将从以下描述和所附权利要求书中变得完全显而易见,或者可通过如下所述对本发明的实践而获知。
附图简述
为了进一步阐明本发明的各实施例的以上和其他优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。本发明将通过使用附图用附加特征和细节来描述和解释,附图中:
图1示出本发明的各实施例可在其中操作的计算机体系结构,本发明的各实施例包括生成定制分类规则执行次序并为先前处理的数据标识最优排序规则。
图2示出了用于生成定制分类规则执行次序的示例方法的流程图。
图3示出了用于为先前处理的数据标识最优排序规则的示例方法的流程图。
图4A和4B示出规则执行次序改变的实施例。
详细描述
本文中所述的实施例旨在生成定制分类规则执行次序并且为先前处理的数据标识最优排序规则。在一个实施例中,计算机系统对经由计算机网络接收的消息进行指纹识别。该指纹识别标识该消息的特定特征。计算机系统将该消息的指纹与从先前接收的消息生成的各个经存储消息指纹作比较。该比较确定该指纹与各经存储指纹不匹配。计算机系统根据预定的规则执行次序将各分类规则应用于该消息以确定该消息的分类。计算机系统接着生成定制分类规则执行次序以把最优地标识该消息的分类的那些分类规则排序在定制分类规则执行次序的顶部。
在另一个实施例中,计算机系统对经由计算机网络接收的消息进行指纹识别。计算机系统把该消息的指纹与从先前接收的消息生成的各个经存储消息指纹作比较。该比较确定该指纹与经存储指纹中的一个或多个指纹匹配。计算机系统访问与最接近匹配的指纹相对应的先前生成的定制分类规则执行次序,并且将所访问的定制分类规则执行次序应用于该消息以确定该消息的分类。
以下讨论现涉及可以执行的多种方法以及方法动作。应当注意,虽然这些方法动作可能是按一定次序讨论的,或者是在流程图中被描绘为是按照特定顺序进行的,然而并非必然需要特定的次序,除非是特别声明的或者是因为一个动作依赖于在执行该动作之前完成另一动作而需要的。
本发明的各实施例可包括或利用专用或通用计算机,该专用或通用计算机包括诸如举例而言一个或多个处理器和系统存储器的计算机硬件,如以下更详细讨论的。本发明范围内的各实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。以数据形式存储有计算机可执行指令的计算机可读介质是计算机存储介质。承载计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种显著不同的计算机可读介质:计算机存储介质和传输介质。
计算机存储介质包括RAM、ROM、EEPROM、CD-ROM、基于RAM、闪存、相变存储器(PCM),或其它类型的存储器的固态驱动器(SSD),或者其他光盘存储、磁盘存储或其他磁存储设备,或可用于以计算机可执行指令、数据或数据结构形式存储所期望的程序代码装置且可被通用或专用计算机访问的任何其他介质。
“网络”被定义成允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路和/或数据交换机。当信息通过网络(硬连线、无线、或者硬连线或无线的组合)被传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可以包括如下的网络:所述网络可以用于运送计算机可执行指令形式或数据结构形式的数据或所期望的程序代码装置,并且可以被通用或专用计算机访问。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码资料可从传输介质自动传输到计算机存储介质(或反之亦然)。例如,通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,网络接口卡或“NIC”)内的RAM中,然后最终被传输给计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质。因而,应当理解,计算机存储介质可被包括在还利用(或甚至主要利用)传输介质的计算机系统组件中。
计算机可执行(或计算机可解释)的指令包括例如致使通用计算机、专用计算机、或专用处理设备执行某个功能或某组功能的指令。计算机可执行指令例如可以是二进制代码、诸如汇编语言之类的中间格式指令或者甚至是源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题内容,但可以理解,所附权利要求书中定义的主题内容不必限于上述特征或动作。更具体而言,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明还可在分布式系统环境中实践,在该环境中本地和远程计算机系统通过网络(经由硬连线数据链路、无线数据链路、或者经由硬连线和无线数据链路的组合)链接起来,每个计算机系统都执行任务(例如,云计算、云服务等)。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备二者中。
用来检测消息的特征的系统可通过使消息运行通过一系列分类规则(或,在本文中简称为“规则”)来这样做。每条规则用来检测该消息中的某一模式。如果检测到该模式,则该特征的总置信度被更新那条规则所指定的值。这条规则被认为被该系统(例如,图1中的计算机系统110)“击中”或“匹配”。一旦该特征的置信度达到某预定值,可跳过其余规则的执行以减少执行时间。
在某些实施例中,计算机系统110可以是垃圾邮件检测系统。该系统可使用查找该消息中的模式的一系列规则。如果检测到那个模式(即,该规则被匹配),则总垃圾邮件分数可被更新由被匹配的规则所指定的值。一旦垃圾邮件分数达到特定的预定义阈值,则将该消息分类为垃圾邮件并且跳过对其余规则的处理。
在某些情况下,可以对正在处理的消息顺序地执行分类规则。在某些实例中,仅仅规则的子集与该消息匹配。与该消息不匹配的那些规则不被执行,因为它们有处理成本并且不增加最终的置信值。可为那条消息或消息类型重新排序相匹配的规则。通过这种方式,规则执行次序可针对每条消息而改变,并可专用于每条消息。对于每条消息而言,存在与总置信度匹配且有助于总置信度的那些规则被最先执行的最优规则次序。在这样的场景中,不匹配的那些规则不会被执行。一旦达到置信阈值,则无需执行进一步的规则,并且停止规则执行。
在某些实施例中,指纹识别(例如,模块120)可被用来检测相似的消息,并接着将计算出的最优规则次序(例如,136)应用于将来作处理的相似消息。由此,指纹识别被用来检测公共消息“分类”,并接着应用对该特定消息分类而言最优的规则排序。在实现指纹识别的情况下,无需在带外预定义或确定消息“分类”。更确切而言,这些“分类”是在系统运行时在基本(或完全)无需用户干预的情况下如通过指纹识别检测到的、动态标识出的和调整到的相似消息的“聚类”。
计算机系统110可被配置以处理传入的消息,并对这些消息进行指纹识别。例如,消息106可从用户105或计算机系统107发送到消息接收模块115。通过消息指纹识别模块120来对每条接收到的消息116进行指纹识别。指纹标识消息的某些特征,并可被用来将消息分类为某种类型的消息(例如,垃圾邮件)。指纹121还可被用来检测先前处理的相似消息。这里,应该注意指纹识别并不需要精确的匹配,而是可以检测相似或基本相似的消息。
指纹比较模块125可把消息指纹121与其他先前生成并存储的指纹141作比较。先前生成的指纹是从其他先前接收的消息生成的指纹。经存储指纹可被存储在数据库140中。如果最近接收到的消息的指纹与任何先前处理的消息的都不匹配,用该系统中的预定分类规则处理该消息,该预定分类规则的次序是静态的并且在系统的配置时间被确定。基于哪些规则匹配,规则次序生成模块135为该消息计算新的、更优的规则执行次序。计算出的规则次序136与该消息指纹121相关联并且被保存在系统中用于将来的消息(例如,经存储规则执行次序142)。
如果消息指纹121确与先前处理的消息(即,经存储指纹之一)相匹配,则以为对应的先前生成的指纹而计算出的最优次序用各规则处理该消息。处理结果可用来细化规则排序。在某些情况下,可仅为与消息足够频繁地匹配的指纹存储最优规则排序。在这些情况下,可移除不经常使用的指纹,而保留经常使用的指纹。确定哪些指纹被足够频繁地使用可基于匹配的总数或指定时段内的匹配数(例如,五分钟内少于3次匹配)。消息指纹的总数及相关联的最优规则排序可根据存储成本及其他考虑因素而变化。
如上面所解释的,指纹可被用来检测相似消息。计算两条数据是否相似可包括两方面:1)相似度处理本身可基于消费系统的当前需要而仅被应用于实际数据的子集。例如,在计算机系统110是垃圾邮件检测系统的实施例中,如果规则涉及邮件正文则可仅对邮件正文计算相似度,或者如果这些规则适用于主题则可仅对主题计算相似度。2)检查两条消息是否相似可涉及将两条消息认为相似要达到的阈值。当比较两段时,它们可具有范围从0%(即,其文本完全不同的消息)至100%(即,消息的文本相同)的相似度值。例如为70%的阈值可用作将两条消息或两段文本标记为“相似”的阈值。
为了执行指纹识别,模块120可实现b位Minwise散列算法(因为其为本领域所公知)以生成给定消息或文本段的模糊指纹。两段文本的相似度使用它们的指纹相似度来计算。至少在某些情况下,比较指纹显著快于比较文本本身。可把消息的指纹(例如,121)与数据库140中存储的多个不同的经存储指纹141作比较。可使用索引来快速比较新生成的指纹与各经存储指纹。
可配置规则次序生成模块135为每个指纹或每类消息计算最优规则次序。计算出的规则执行次序接着可用来处理将来接收的相似消息。指纹识别用来检测两条消息是否相似。如果所比较的消息是相似的,则在处理第二条消息时,可使用该系统处理第一条消息的计算出的最优规则次序。两条消息的相似度被用来从第一条消息的计算出的规则次序计算用于第二条消息的近似最优规则次序。
在这样的系统中,使用静态的、预配置的规则次序处理第一条消息以得到特征结果(例如,它是否为垃圾邮件)。规则匹配结果还可被用来为消息计算最优规则次序。由于系统已经确定了用于消息的特征结果,该规则排序对特定的消息处理而言可能不重要;然而,该规则排序可在将来处理相似消息时被使用。
在一个示例中,使用具有100条顺序执行的规则[R1…R100]的垃圾邮件检测系统。消息M由系统处理且其匹配5条规则{R35,R40,R50,R70,R86}。规则处理在规则R86处停止,因为置信阈值伴随该规则被达到。为该消息确定最优规则次序(OM=[R35,R40,R50,R70,R86…按照任何次序的其余规则])。如果消息M在系统中是用如OM所指定的那样排序的规则来处理的,将在执行了仅5条规则后达到置信阈值,而不是在执行了规则86后才达到置信阈值(原始系统中是这样做的)。在执行了消息M后才计算出消息M的最优规则执行次序使得该计算出的规则次序对消息M的处理无用。但是,如果随后接收到的消息N被该系统处理,并且以充分高的相似度分数(例如,70%)与消息M类似,则计算出的规则次序M可作为消息N的近似(及合适的)规则次序被应用于消息N。
在某些实施例中,可实现上文的变体。例如,在一个变体中,可使用实现为每条规则添加正分和负分的规则的系统。规则次序生成模块可为规则的子集(例如,仅为正规则,或仅为负规则)生成定制规则执行次序。在此种系统中,为了系统的可靠性,可在正规则之前执行负规则。由此,可首先按照静态次序执行负规则,并接着按照最优次序执行正规则。
在另一变体中,当新接收的消息的指纹与先前生成的消息指纹匹配,且与先前生成的指纹相对应的定制规则次序被用来处理该新接收的消息时,可基于当前消息处理的结果来更新先前生成的指纹的最优规则排序。由此,如果某些规则在新消息的处理中匹配,这些规则和与较老消息匹配的那些规则不同,则可根据与新消息匹配的那些规则来更新这些类型的消息的处理次序。
另一变体与上面的变体相似,但取代更新先前消息的规则次序,而是在数据库140中保存新消息及其计算到的规则次序。当接收到与之前两条消息均匹配的第三后续消息时,使用规则次序1)前两条消息的规则次序的组合,或规则次序2)与第三条消息最相似的消息的规则次序。在又一变体中,当匹配消息时可使用包容关系替代相似度来取得最优规则排序。如果原始消息完全包含在新消息中,则从原始消息计算出的规则排序被应用于该新消息。这里,不为随后接收到的消息计算规则次序。下面,分别针对图2的方法200和图3的方法300,进一步解释这些及其他概念。
考虑到以上描述的系统和体系结构,参考图2和图3的流程图将更好地理解根据所公开的主题实现的方法。为了说明简明起见,这些方法被示出和描述为一系列框。然而,应该理解和了解,所要求保护的主题不受框的次序的限制,因为一些框可按不同的次序进行和/或与此处所描绘和描述的其他框同时进行。此外,并非全部所示的框都是实现下面所述的方法所必需的。
图2示出了用于生成定制分类规则执行次序的方法200的流程图。现在将频繁参考图1的环境100的组件和数据以及图4A和4B来描述方法200。
方法200包括对经由计算机网络接收的消息进行指纹识别的动作,其中所述指纹识别标识消息的一个或多个特定特征(动作210)。例如,消息指纹识别模块120可以对(由模块115接收的)所接收消息116进行指纹识别。指纹121可标识有关该消息的不同特征。相似或基本相似的消息可被给出相同或非常相似的指纹。因此,分配给一条消息的指纹可用来标识与初始消息相似的消息。
方法200还包括将消息的指纹与从先前接收的消息生成的一个或多个经存储消息指纹作比较的动作,其中该比较确定该指纹与各经存储指纹不匹配(动作220)例如,指纹比较模块125可把消息116的指纹121与从其他先前接收的消息生成的各个其他经存储指纹141作比较。该比较可确定该消息的指纹与经存储指纹中的任一个指纹匹配或不匹配。在此情况下,比较模块确定该消息的指纹与经存储指纹中的任一个指纹不匹配。
接下来,方法200包括根据预定的规则执行次序将一个或多个分类规则应用于该消息以确定该消息的分类的动作(动作230)。例如,消息分类模块130可根据预定的(可能为静态的)执行次序应用各种分类规则以确定接收到的消息116的分类131。预定的规则执行次序从其独立于消息的指纹或特征的意义上而言是通用的如图4A所示,可按照顺序执行各个规则405A、405B、405C和405D。这可表示预定的、静态的执行次序401A。当执行与接收的消息相似或相同的消息时,可生成并使用新的、定制分类规则执行次序(136/401B)。
定制分类规则执行次序401B可将最优地标识该消息的分类的那些分类规则(规则405C、405A和405D)排序在定制分类规则执行次序的顶部(动作240)。由此,可根据哪些规则最优地标识了该消息的分类(例如,个人消息、高优先级消息、垃圾邮件消息等)来重新排序这些规则。“最优”标识可以指在执行成本方面(即,使用可能的最低执行成本)或在准确性方面(即,得到可能的最高准确性)最优地标识消息的分类。应当理解可以使用、重新排序或移除基本上任何数量的规则,并且重新排序可在任何时间动态地发生。
如上文所提及的,可使用其中分类规则包括正分规则和负分规则的系统。在某些情况下,可单独为正分规则(或单独为诸如负分规则的不同规则子集)确定定制分类规则执行次序。当使用这些系统时,负分规则可在正分规则前被执行。由此,如果负分规则与消息匹配(即,标识该消息不是先前存储的消息指纹的匹配),则不执行正分规则(因为该消息不匹配已经是显而易见的)。避免正分规则的执行可减少处理负载。
通过仅存储在充分地频繁的基础上与消息匹配的那些指纹,可进一步细化定制分类规则执行次序136。由此,如果给定指纹继续在频繁的基础上(例如,阈值水平)与其他接收的消息匹配,则它将被保留在数据库140中。如果该给定指纹不以阈值水平匹配,则将移除它。一旦已经为给定消息/指纹生成了定制分类规则执行次序,就把该规则执行次序与该消息/指纹相关联。
在某些情况下,可在已处理了初始接收的消息116之后接收消息。后续消息可由模块120来进行指纹识别。指纹比较模块125可确定随后接收到的消息的指纹与为原始消息116生成的指纹匹配。消息分类模块130可使用为第一条消息生成的经生成的定制分类规则执行次序来处理随后接收到的消息。可基于随后接收到的消息的执行来进一步细化经生成的定制分类规则执行次序。
在另一实施例中,多个消息可在初始消息116之后被接收到。可接收并保存第一后续消息。可为第一后续消息确定对应的定制分类规则执行次序。接着,可接收第二后续消息。计算机系统110可接着确定第二后续消息与原始接收的消息和第一后续消息二者均匹配。在一种情况下,可应用原始消息的定制分类规则执行次序和第一后续消息的定制分类规则执行次序的组合。在另一种情况下,可根据原始消息的定制分类规则执行次序和第一后续消息的定制分类规则执行次序中的哪个与第二后续消息的定制分类规则执行次序最相似来应用该原始消息的定制分类规则执行次序或该第一后续消息的定制分类规则执行次序。在又一种情况下,可接收后续消息。计算机系统可确定原始消息包括在后续消息中,并且可应用原始消息的定制分类规则执行次序。
图3示出了用于为先前处理的数据标识最优排序规则的方法300的流程图。现在将频繁参考环境100的组件和数据来描述方法300。
方法300包括对经由计算机网络接收的消息进行指纹识别的动作,其中指纹识别标识出消息的一个或多个特定特征(动作310)。例如,消息指纹识别模块120可以对消息116进行指纹识别,从而得到消息指纹121。指纹比较模块125将该消息的指纹与从先前接收的消息生成的一个或多个经存储消息指纹141作比较。该比较可确定指纹121与一个或多个经存储指纹匹配(动作320)。消息分类模块130可访问与匹配的指纹(即,消息116的指纹)相对应的先前生成的定制分类规则执行次序142(动作330)。可将所访问的定制分类规则执行次序应用于该消息以确定该消息的分类(动作340)。
在处理了随后接收到的消息之后,可基于定制分类规则执行次序在接收到的消息116上的执行来细化该定制分类规则执行次序。如果某些规则未被使用,则这些规则可按照该规则执行次序被重新排序(即,被移到该列表中较低处)。最优地标识该消息的分类的其他规则可被保留并移动到规则执行次序的顶部。
在某些情况下,定制分类规则执行次序基于经聚集数据(例如,静态数据或其他类型的数据)的一个或多个部分而被动态地改变。生成的定制分类规则执行次序136可包括用以适当地分类消息的最少数目的分类规则。由此,各规则可被应用于某消息,直到分类已被确定为止。用来分类消息(即,达到阈值确定百分比)的最少数目的规则可存储为新的、定制规则次序。最佳标识该消息的分类的那些规则可被置于规则执行次序的开始处。此外,在某些情况下,可从最优规则执行次序移除不匹配(并由此无助于标识该消息的分类)的规则。例如,在图4B中,移除规则405B。在其他情况下,不匹配的那些规则可处于规则执行次序之中,或在规则执行次序中重新排序。
因此,提供了生成定制分类规则执行次序的方法、系统和计算机程序产品。指纹用来标识消息,并接着与那些指纹相对应的定制规则次序被用来处理这些消息。此外,提供了为先前处理的消息标识最优排序规则的方法、系统和计算机程序产品。
本发明可具体化为其他具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变应被权利要求书的范围所涵盖。

Claims (15)

1.在包括多个计算系统的计算机联网环境中的包括至少一个处理器和存储器的计算机系统处,一种用于生成定制分类规则执行次序的计算机实现的方法,所述方法包括:
对经由计算机网络接收的消息进行指纹识别的动作,其中所述指纹识别标识出所述消息的一个或多个特定特征;
将所述消息的指纹与从先前接收的消息生成的一个或多个经存储消息指纹进行比较的动作,其中所述比较确定该指纹与所述经存储指纹不匹配;
根据预定的规则执行次序将一个或多个分类规则应用于所述消息以确定所述消息的分类的动作;以及
生成定制分类规则执行次序以将最优地识别出所述消息的分类的那些分类规则排序在所述定制分类规则执行次序的顶部的动作。
2.如权利要求1所述的方法,其特征在于,还包括使所生成的定制分类规则执行次序与所述消息的指纹相关联。
3.如权利要求2所述的方法,其特征在于,还包括:
对随后接收的消息进行指纹识别的动作;
确定所述随后接收的消息的指纹与为原始消息生成的指纹匹配的动作;以及
使用所生成的定制分类规则执行次序来处理所述随后接收的消息的动作。
4.如权利要求3所述的方法,还包括基于随后接收的消息的执行来细化所生成的定制分类规则执行次序。
5.如权利要求1所述的方法,其特征在于,所述分类规则被置于所述规则执行次序的开始处。
6.如权利要求5所述的方法,其特征在于,所生成的定制分类规则执行次序包括用以适当地分类消息的最少数目的分类规则。
7.如权利要求1所述的方法,其特征在于,所述分类规则包括正分规则和负分规则,并且其中所述定制分类规则执行次序是单独为所述正分规则确定的。
8.如权利要求1所述的方法,其特征在于,所述分类规则包括正分规则和负分规则,并且其中所述定制分类规则执行次序是单独为负分规则确定的。
9.如权利要求1所述的方法,其特征在于,还包括:
接收第一后续消息的动作;
保存所述第一后续消息和对应的为所述第一后续消息确定的定制分类规则执行次序的动作;
接收第二后续消息的动作;以及
确定所述第二后续消息与原始接收的消息和所述第一后续消息二者均匹配的动作。
10.如权利要求9所述的方法,其特征在于,还包括应用原始消息的定制分类规则执行次序和第一后续消息的定制分类规则执行次序的组合。
11.如权利要求9所述的方法,其特征在于,还包括根据原始消息的定制分类规则执行次序和所述第一后续消息的定制分类规则执行次序中的哪个与所述第二后续消息的定制分类规则执行次序最相似来应用其中的至少一个。
12.如权利要求9所述的方法,其特征在于,还包括根据哪条消息与所述第二后续消息最相似来应用原始消息的定制分类规则执行次序和所述第一后续消息的定制分类规则执行次序中的至少一个的动作。
13.一种用于实现用于为先前处理的数据标识最优排序规则的方法的计算机程序产品,所述计算机程序产品包括其上储存有计算机可执行指令的一个或多个计算机可读存储介质,所述计算机可执行指令在被计算系统的一个或多个处理器执行时使得所述计算系统执行所述方法,所述方法包括:
对经由计算机网络接收的消息进行指纹识别的动作,其中所述指纹识别标识出所述消息的一个或多个特定特征;
将所述消息的指纹与从先前接收的消息生成的一个或多个经存储消息指纹进行比较的动作,其中所述比较确定所述指纹与一个或多个经存储指纹匹配;
访问与匹配的指纹相对应的先前生成的定制分类规则执行次序的动作;以及
将所访问的定制分类规则执行次序应用于所述消息以确定所述消息的分类的动作。
14.如权利要求13所述的计算机程序产品,其特征在于,还包括:
接收后续消息的动作;
确定所述原始消息包括在所述后续消息中的动作;以及
应用所述原始消息的定制分类规则执行次序的动作。
15.一种计算机系统,包括以下:
一个或多个处理器;
系统存储器;
其上存储有计算机可执行指令的一个或多个计算机可读存储介质,所述计算机可执行指令在被所述一个或多个处理器执行时使得所述计算系统执行用于生成定制分类规则执行次序的方法,所述方法包括以下:
对经由计算机网络接收的消息进行指纹识别的动作,其中所述指纹识别标识所述消息的一个或多个特定特征;
将所述消息的指纹与从先前接收的消息生成的一个或多个经存储消息指纹进行比较的动作,其中所述比较确定所述指纹与所述经存储指纹不匹配;
根据预定的规则执行次序将一个或多个分类规则应用于所述消息以确定所述消息的分类的动作;
生成定制分类规则执行次序以把最优地标识所述消息的分类的那些分类规则排序在所述定制分类规则执行次序的顶部的动作;
使所生成的定制分类次序与所述消息的指纹相关联的动作;
对随后接收的消息进行指纹识别的动作;
确定所述随后接收的消息的指纹与为所述原始消息生成的指纹匹配的动作;以及
使用所生成的定制分类规则执行次序来处理所述随后接收的消息的动作。
CN201280024973.8A 2011-05-25 2012-05-25 用于消息分类的动态规则重新排序 Active CN103548016B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/115,804 2011-05-25
US13/115,804 US9116879B2 (en) 2011-05-25 2011-05-25 Dynamic rule reordering for message classification
PCT/US2012/039738 WO2012162676A2 (en) 2011-05-25 2012-05-25 Dynamic rule reordering for message classification

Publications (2)

Publication Number Publication Date
CN103548016A true CN103548016A (zh) 2014-01-29
CN103548016B CN103548016B (zh) 2016-11-02

Family

ID=47218127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280024973.8A Active CN103548016B (zh) 2011-05-25 2012-05-25 用于消息分类的动态规则重新排序

Country Status (4)

Country Link
US (1) US9116879B2 (zh)
EP (1) EP2715565B1 (zh)
CN (1) CN103548016B (zh)
WO (1) WO2012162676A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9876742B2 (en) * 2012-06-29 2018-01-23 Microsoft Technology Licensing, Llc Techniques to select and prioritize application of junk email filtering rules
US9720974B1 (en) 2014-03-17 2017-08-01 Amazon Technologies, Inc. Modifying user experience using query fingerprints
US10304111B1 (en) * 2014-03-17 2019-05-28 Amazon Technologies, Inc. Category ranking based on query fingerprints
US9727614B1 (en) 2014-03-17 2017-08-08 Amazon Technologies, Inc. Identifying query fingerprints
US9760930B1 (en) 2014-03-17 2017-09-12 Amazon Technologies, Inc. Generating modified search results based on query fingerprints
US10026107B1 (en) * 2014-03-17 2018-07-17 Amazon Technologies, Inc. Generation and classification of query fingerprints
US9747628B1 (en) 2014-03-17 2017-08-29 Amazon Technologies, Inc. Generating category layouts based on query fingerprints
US20150378795A1 (en) 2014-06-27 2015-12-31 Pivotal Software, Inc. Stream computing event models
CN104463663A (zh) * 2014-12-05 2015-03-25 税友软件集团股份有限公司 一种数据排序方法、装置及系统
CN105389566B (zh) * 2015-11-13 2018-09-11 广东欧珀移动通信有限公司 指纹识别方法、指纹模板的更新方法、装置和移动终端
US9946789B1 (en) * 2017-04-28 2018-04-17 Shenzhen Cestbon Technology Co. Limited Classifying electronic messages using individualized artificial intelligence techniques
WO2018222895A1 (en) 2017-05-31 2018-12-06 Inteliquent, Inc. Content-based routing and rating of messages in a telecommunications network
CN107733923B (zh) * 2017-11-23 2020-01-24 韵盛发科技(北京)股份有限公司 一种基于报文指纹的认证方法及系统
CN108377211B (zh) * 2018-01-31 2021-06-11 湖南戎腾网络科技有限公司 基于报文内容感知的动态规则链式递归触发方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312769A1 (en) * 2009-06-09 2010-12-09 Bailey Edward J Methods, apparatus and software for analyzing the content of micro-blog messages

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654787B1 (en) 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
US20040073617A1 (en) 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
AU2003300083A1 (en) 2002-12-30 2004-07-29 Activestate Corporation Method and system for feature extraction from outgoing messages for use in categorization of incoming messages
US20050132197A1 (en) 2003-05-15 2005-06-16 Art Medlar Method and apparatus for a character-based comparison of documents
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US7814545B2 (en) 2003-07-22 2010-10-12 Sonicwall, Inc. Message classification using classifiers
US20050060643A1 (en) 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20050102366A1 (en) 2003-11-07 2005-05-12 Kirsch Steven T. E-mail filter employing adaptive ruleset
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
US20060149821A1 (en) 2005-01-04 2006-07-06 International Business Machines Corporation Detecting spam email using multiple spam classifiers
US8739278B2 (en) 2006-04-28 2014-05-27 Oracle International Corporation Techniques for fraud monitoring and detection using application fingerprinting
US7716297B1 (en) 2007-01-30 2010-05-11 Proofpoint, Inc. Message stream analysis for spam detection and filtering
WO2010054293A1 (en) * 2008-11-08 2010-05-14 Massachusetts Institute Of Technology Hardware synthesis from multicycle rules
US8718318B2 (en) 2008-12-31 2014-05-06 Sonicwall, Inc. Fingerprint development in image based spam blocking

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312769A1 (en) * 2009-06-09 2010-12-09 Bailey Edward J Methods, apparatus and software for analyzing the content of micro-blog messages

Also Published As

Publication number Publication date
EP2715565A4 (en) 2015-07-15
EP2715565B1 (en) 2017-02-15
CN103548016B (zh) 2016-11-02
US9116879B2 (en) 2015-08-25
WO2012162676A2 (en) 2012-11-29
EP2715565A2 (en) 2014-04-09
US20120303624A1 (en) 2012-11-29
WO2012162676A3 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
CN103548016A (zh) 用于消息分类的动态规则重新排序
AU2017260360B2 (en) Security weakness and infiltration detection and repair in obfuscated website content
US20200082083A1 (en) Apparatus and method for verifying malicious code machine learning classification model
US11347891B2 (en) Detecting and obfuscating sensitive data in unstructured text
CN111814472B (zh) 文本识别方法、装置、设备及存储介质
EP3685243A1 (en) Content pattern based automatic document classification
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN110688974A (zh) 一种身份识别方法及装置
US20200334553A1 (en) Apparatus and method for predicting error of annotation
CN111428506B (zh) 实体分类方法、实体分类装置和电子设备
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN111259207A (zh) 短信的识别方法、装置及设备
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111221690A (zh) 针对集成电路设计的模型确定方法、装置及终端
CN115186151A (zh) 简历筛选方法、装置、设备及存储介质
US20220391734A1 (en) Machine learning based dataset detection
CN112632059B (zh) 数据核对方法、装置、电子设备及机器可读存储介质
CN109344132B (zh) 用户信息的合并方法、计算机可读存储介质及终端设备
CN117574184A (zh) 证据合并处理方法及装置
CN114647777A (zh) 触达任务的处理方法、装置和服务器
CN112328779A (zh) 训练样本构建方法、装置、终端设备及存储介质
CN115098686A (zh) 分级信息确定方法、装置、计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150729

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150729

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant