CN103942282A - 一种样本数据获取方法、装置及系统 - Google Patents

一种样本数据获取方法、装置及系统 Download PDF

Info

Publication number
CN103942282A
CN103942282A CN201410130898.4A CN201410130898A CN103942282A CN 103942282 A CN103942282 A CN 103942282A CN 201410130898 A CN201410130898 A CN 201410130898A CN 103942282 A CN103942282 A CN 103942282A
Authority
CN
China
Prior art keywords
mail
spam
mail messages
receiving
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410130898.4A
Other languages
English (en)
Other versions
CN103942282B (zh
Inventor
叶森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201410130898.4A priority Critical patent/CN103942282B/zh
Publication of CN103942282A publication Critical patent/CN103942282A/zh
Application granted granted Critical
Publication of CN103942282B publication Critical patent/CN103942282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种样本数据获取方法、装置及系统,包括:搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,该邮件信息为表征所述待收发邮件关键属性的信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设的匹配规则,从该索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。采用本发明实施例提供的方案,提高了垃圾邮件样本数据的获取效率。

Description

一种样本数据获取方法、装置及系统
技术领域
本发明涉及互联网通信领域,尤其涉及一种样本数据获取方法、装置及系统。
背景技术
随着互联网技术的快速发展,电子邮件以方便、快速的优点成为提供信息交换的一种重要通信方式。用户可以通过电子邮件传送信件、资料等各种信息,还可以得到大量免费的新闻、专题邮件等。电子邮件的快速传播以及信息多样化的特点也成为了一些商家或个人宣传产品、服务或传播各种商业信息的手段,随之便出现了垃圾邮件,即在未经用户许可的情况下,强行批量发送到用户邮箱中的电子邮件。如果垃圾邮件带有攻击性和破坏性,不仅对个人电脑的系统安全构成威胁,同样对邮件服务器也造成威胁。随着垃圾邮件的问题日益严重,反垃圾邮件技术应运而生,实现对垃圾邮件的有效过滤。
在对垃圾邮件进行过滤之前,首先要采集垃圾邮件的样本数据。现有的垃圾邮件样本数据获取方式主要为:用户在查看邮件时,当查收到批量推送的广告、电子杂志或连环信等邮件时,如果用户不感兴趣,会将这些邮件标记为垃圾邮件,后台的工作人员通过查看用户已标记的垃圾邮件,判断已标记的垃圾邮件是否为真正的垃圾邮件,通过服务器将判断后的垃圾邮件的邮件数据信息存储到数据库中,作为垃圾邮件样本数据,邮件数据信息包括邮件的发件人、标题、内容关键字、来源地址等信息。
上述垃圾邮件样本数据的获取方法中,如果用户在收到垃圾邮件一段时间之后才登录邮箱,对垃圾邮件进行标记,推送垃圾邮件不及时,不能满足对收集垃圾邮件的数量大的要求,并且由人工参与垃圾邮件样本数据的获取,使得垃圾邮件样本数据获取效率低。
发明内容
本发明实施例提供一种样本数据获取方法、装置及系统,用以解决现有技术中存在的垃圾邮件样本数据获取效率低的问题。
本发明实施例提供一种样本数据获取方法,包括:
搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;
按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
采用本发明实施例提供的上述方法,由于搜索服务器将邮箱服务器发送的待收发邮件的邮件信息存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。
进一步的,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;
将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,所述预设垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;
将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,具体包括:
使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
进一步的,所述待收发邮件的邮件信息包括待收发邮件的邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。
本发明实施例提供一种样本数据获取装置,包括:
接收单元,用于接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
存储单元,用于用于针对每个待收发邮件的所述邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;
确定单元,用于按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
采用本发明实施例提供的上述装置,由于将邮箱服务器发送的待收发邮件的邮件信息存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。
进一步的,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述确定单元,具体用于在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,所述垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述确定单元,具体用于统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,所述确定单元,具体用于使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
本发明实施例还提供了一种样本数据获取系统,包括:邮箱服务器和搜索服务器,其中:
所述邮箱服务器,用于在收发邮件过程中提取待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;将所述邮件信息发送给所述搜索服务器;
所述搜索服务器,用于接收所述邮箱服务器发送的所述邮件信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
采用本发明实施例提供的上述系统,由于搜索服务器将邮箱服务器发送的待收发邮件的邮件信息存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的样本数据获取方法的流程图;
图2为本发明实施例1提供的样本数据获取方法的流程图;
图3为本发明实施例2提供的样本数据获取方法的流程图;
图4为本发明实施例3提供的样本数据获取装置的结构示意图;
图5为本发明实施例4提供的样本数据获取系统的结构示意图。
具体实施方式
为了给出提高垃圾邮件样本数据获取效率的实现方案,本发明实施例提供了一种样本数据获取方法、装置及系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种样本数据获取方法,如图1所示,包括:
步骤101、搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,该邮件信息为表征所述待收发邮件关键属性的信息。
步骤102、针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中。
步骤103、按照预设的匹配规则,从该索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
本发明实施例提供的上述方法中,该邮箱服务器为发送邮件和接收邮件的服务器,在该邮箱服务器在收发邮件过程中,该邮箱服务器提取待收发邮件的邮件信息,并将该邮件信息发送给搜索服务器,该邮箱服务器可以对收发的每一个邮件进行邮件信息提取,也可以对收发邮件的一部分邮件进行邮件信息提取,其中,待收发邮件的邮件信息为表征该待收发邮件关键属性的信息,例如,该待收发邮件的邮件信息可以包括该待收发邮件的邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。其中,该索引数据库可以为在搜索服务器上建立的数据库,也可以为在其他独立的服务器设备上建立的数据库。在确定垃圾邮件样本数据时,可以根据不同的需求设置不同的匹配规则,在索引数据库中匹配得到想要获取的信息数据。
下面结合附图,用具体实施例对本发明提供的方法及装置进行详细描述。
实施例1:
图2为本发明实施例1提供的样本数据获取方法的流程图,具体包括如下处理流程:
步骤201、邮箱服务器在收发邮件过程中提取待收发邮件的邮件信息。
本步骤中,邮箱服务器提取待收发邮件的邮件信息可以包括邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。
步骤202、邮箱服务器将该待收发邮件的邮件信息发送给搜索服务器。
步骤203、当该搜索服务器接收到邮件信息后,针对每个待收发邮件的邮件信息,该搜索服务器为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中。
本步骤中,该搜索服务器为该待收发邮件分配的索引标识可以为分配的一个数字标记,也可以将待收发邮件的邮件类型作为索引标识(例如:将免费邮箱和VIP邮箱作为索引标识)。
步骤204、当搜索服务器需要在索引数据库中获取垃圾邮件样本数据时,该搜索服务器使用搜索应用程序编程接口(API,Application ProgrammingInterface)调用该索引数据库。
步骤205、搜索服务器在该索引数据库的邮件信息中查找与预设的垃圾邮件关键字相同的邮件信息。
本步骤中,预设的垃圾邮件关键字可以根据实际经验和需要进行设置,例如,垃圾邮件关键字可以为发票、个人贷款。
步骤206、搜索服务器将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,在确定垃圾邮件样本数据以后,可以使用垃圾邮件样本数据判断待检测邮件是否为垃圾邮件,即对垃圾邮件的过滤,具体处理过程可以采用现有技术中的各种方式,例如:基于内容关键字过滤垃圾邮件,或者基于邮件来源过滤垃圾邮件,在此不再赘述。
进一步的,在确定垃圾邮件样本数据以后,还可以将该垃圾邮件样本数据添加到反垃圾算法样本库中,作为反垃圾算法样本库的扩充样本。
通过本发明实施例提供的方法,由于搜索服务器将邮箱服务器发送的待收发邮件的邮件信息存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。
实施例2:
图3为本发明实施例2提供的样本数据获取方法的流程图,具体包括如下处理流程:
步骤301、邮箱服务器在收发邮件过程中提取待收发邮件的邮件信息。
本步骤中,邮箱服务器提取待收发邮件的邮件信息可以包括邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。
步骤302、邮箱服务器将待收发邮件的邮件信息发送给搜索服务器。
步骤303、当该搜索服务器接收到邮件信息后,针对每个待收发邮件的邮件信息,搜索服务器为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中。
本步骤中,该搜索服务器为该待收发邮件分配的索引标识可以为分配的一个数字标记,也可以将待收发邮件的邮件类型作为索引标识(例如:将免费邮箱和VIP邮箱作为索引标识)。
步骤304、当搜索服务器需要在索引数据库中获取垃圾邮件样本数据时,搜索服务器使用搜索应用程序编程接口(API,Application ProgrammingInterface)调用该索引数据库。
步骤305、搜索服务器统计多个预设的垃圾邮件来源地址各自在该索引数据库中所属邮件的邮件数量。
步骤306、将邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,在确定垃圾邮件样本数据以后,可以使用垃圾邮件样本数据判断待检测邮件是否为垃圾邮件,即对垃圾邮件的过滤,具体处理过程可以采用现有技术中的各种方式,例如:基于内容关键字过滤垃圾邮件,或者基于邮件来源过滤垃圾邮件,在此不再赘述。
进一步的,在确定垃圾邮件样本数据以后,还可以将该垃圾邮件样本数据添加到反垃圾算法样本库中,作为反垃圾算法样本库的扩充样本。
通过本发明实施例提供的方法,由于搜索服务器将邮箱服务器发送的待收发邮件的信息数据存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的样本数据获取方法,相应地,本发明实施例3还提供了一种样本数据获取装置,其结构示意图如图4所示,具体包括:
接收单元401,用于接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
存储单元402,用于针对每个待收发邮件的所述邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;
确定单元403,用于按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
进一步的,所述垃圾邮件关键属性信息为垃圾邮件关键字;
确定单元403,具体用于在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,所述预设垃圾邮件关键属性信息为多个垃圾邮件来源地址;
确定单元403,具体用于统计多个预设垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
进一步的,确定单元403,具体用于使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
上述各单元的功能可对应于图1、图2或图3所示流程中的相应处理步骤,在此不再赘述。
实施例4:
基于同一发明构思,根据本发明上述实施例提供的样本数据获取方法,相应地,本发明实施例4还提供了一种样本数据获取系统,如图5所示,包括:邮箱服务器501和搜索服务器502,其中:
邮箱服务器501,用于在收发邮件过程中提取待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;将所述邮件信息发送给所述搜索服务器;
搜索服务器502,用于接收所述邮箱服务器发送的所述邮件信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
本发明实施例4提供的如图5所示的样本数据获取系统,其中所包括的邮箱服务器501和搜索服务器502进一步的功能,可对应于图1、图2、和图3所示流程中的相应处理步骤,在此不再赘述。
综上所述,本发明实施例提供的方案,包括:搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,该邮件信息为表征所述待收发邮件关键属性的信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设的匹配规则,从该索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。采用本发明实施例提供的方案,提高了垃圾邮件样本数据的获取效率。
本申请的实施例所提供的样本数据获取装置和系统可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要样本数据获取装置和系统具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种样本数据获取方法,其特征在于,包括:
搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;
按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
2.如权利要求1所述的方法,其特征在于,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;
将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
3.如权利要求1所述的方法,其特征在于,所述垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;
将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
4.如权利要求1所述的方法,其特征在于,所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,具体包括:
使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
5.如权利要求1-4任一所述的方法,其特征在于,所述待收发邮件的邮件信息包括待收发邮件的邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。
6.一种样本数据获取装置,其特征在于,包括:
接收单元,用于接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
存储单元,用于针对每个待收发邮件的所述邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;
确定单元,用于按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
7.如权利要求6所述的装置,其特征在于,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述确定单元,具体用于在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
8.如权利要求6所述的装置,其特征在于,所述垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述确定单元,具体用于统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
9.如权利要求6所述的装置,其特征在于,所述确定单元,具体用于使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
10.一种样本数据获取系统,其特征在于,包括:邮箱服务器和搜索服务器,其中:
所述邮箱服务器,用于在收发邮件过程中提取待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;将所述邮件信息发送给所述搜索服务器;
所述搜索服务器,用于接收所述邮箱服务器发送的所述邮件信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
CN201410130898.4A 2014-04-02 2014-04-02 一种样本数据获取方法、装置及系统 Active CN103942282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410130898.4A CN103942282B (zh) 2014-04-02 2014-04-02 一种样本数据获取方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410130898.4A CN103942282B (zh) 2014-04-02 2014-04-02 一种样本数据获取方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103942282A true CN103942282A (zh) 2014-07-23
CN103942282B CN103942282B (zh) 2018-01-02

Family

ID=51189950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410130898.4A Active CN103942282B (zh) 2014-04-02 2014-04-02 一种样本数据获取方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103942282B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156105A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 电子邮件聚合分类方法和装置
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN110162649A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 样本数据获取方法、获取系统、服务器和计算机可读介质
CN113342831A (zh) * 2021-08-02 2021-09-03 长沙海信智能系统研究院有限公司 数据处理方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015626A1 (en) * 2003-07-15 2005-01-20 Chasin C. Scott System and method for identifying and filtering junk e-mail messages or spam based on URL content
CN101150535A (zh) * 2007-06-15 2008-03-26 腾讯科技(深圳)有限公司 一种电子邮件的过滤方法、装置及设备
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN102902775A (zh) * 2012-09-27 2013-01-30 新浪网技术(中国)有限公司 互联网实时计算的方法和系统
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015626A1 (en) * 2003-07-15 2005-01-20 Chasin C. Scott System and method for identifying and filtering junk e-mail messages or spam based on URL content
CN101150535A (zh) * 2007-06-15 2008-03-26 腾讯科技(深圳)有限公司 一种电子邮件的过滤方法、装置及设备
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法
CN102902775A (zh) * 2012-09-27 2013-01-30 新浪网技术(中国)有限公司 互联网实时计算的方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156105A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 电子邮件聚合分类方法和装置
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN106844553B (zh) * 2016-12-30 2020-05-01 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108154177B (zh) * 2017-12-20 2020-01-21 宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108055195A (zh) * 2017-12-22 2018-05-18 广东睿江云计算股份有限公司 一种过滤垃圾电子邮件的方法
CN110162649A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 样本数据获取方法、获取系统、服务器和计算机可读介质
CN113342831A (zh) * 2021-08-02 2021-09-03 长沙海信智能系统研究院有限公司 数据处理方法及相关设备

Also Published As

Publication number Publication date
CN103942282B (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
CN103942282A (zh) 一种样本数据获取方法、装置及系统
US10516638B2 (en) Techniques to select and prioritize application of junk email filtering rules
CN103309998B (zh) 一种消息查询方法及装置、终端设备
CN101505311A (zh) 一种基于社会化网络的信息传播方法及系统
CN103391547A (zh) 一种信息处理的方法和终端
CN102769640B (zh) 用户信息的更新方法、服务器以及系统
CN106648698A (zh) 一种展示消息通知的方法、装置及电子设备
CN103533152A (zh) 一种移动终端的短信处理方法及系统
CN104182549A (zh) 一种电子邮件摘要生成方法及装置
CN105260881A (zh) 一种基于任务的信息管理方法、装置及系统
CN107589990A (zh) 一种基于线程池的数据通讯的方法及系统
CN104967978A (zh) 一种节日祝福短信的发送方法
KR101606319B1 (ko) 데이터베이스를 이용한 푸시메시지 관리 방법
CN109429190A (zh) 一种短信分类显示方法及装置
CN112039874B (zh) 一种恶意邮件的识别方法及装置
CN111010336A (zh) 一种海量邮件解析方法及装置
CN106982128A (zh) 基于网络的社群构建方法
CN110011898A (zh) 电子邮件的回复方法、装置、存储介质及计算机设备
CN101795273A (zh) 一种垃圾邮件过滤方法及装置
CN104065617B (zh) 一种骚扰邮件处理方法、装置和系统
CN106169979B (zh) 一种业务处理方法和设备
US9805290B2 (en) Skeleton data point clustering
CN105653533A (zh) 一种更新分类关联词集合的方法和装置
CN104836881A (zh) 一种信息控制方法及电子设备
US20130091224A1 (en) Managing Meetings Relative to Messages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230420

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.