CN103490980B - 一种电子邮件中号码的提取方法及其装置 - Google Patents

一种电子邮件中号码的提取方法及其装置 Download PDF

Info

Publication number
CN103490980B
CN103490980B CN201310397191.5A CN201310397191A CN103490980B CN 103490980 B CN103490980 B CN 103490980B CN 201310397191 A CN201310397191 A CN 201310397191A CN 103490980 B CN103490980 B CN 103490980B
Authority
CN
China
Prior art keywords
symbol
byte
tal
email
pure digi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310397191.5A
Other languages
English (en)
Other versions
CN103490980A (zh
Inventor
陈颖棠
叶远鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Critics of science and Technology (Guangzhou) Co. Ltd.
Original Assignee
MAIMAILTECH (BEIJING) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAIMAILTECH (BEIJING) CO Ltd filed Critical MAIMAILTECH (BEIJING) CO Ltd
Priority to CN201310397191.5A priority Critical patent/CN103490980B/zh
Priority to PCT/CN2013/086174 priority patent/WO2015032123A1/zh
Publication of CN103490980A publication Critical patent/CN103490980A/zh
Application granted granted Critical
Publication of CN103490980B publication Critical patent/CN103490980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种电子邮件中号码的提取方法及其装置,其中,该方法包括:对所述电子邮件中的单个符号进行识别,并获得识别结果;对所述识别结果进行分类判定,获得判定结果;对所述判定结果进行转换,获得纯数字号码串。实施本发明实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。

Description

一种电子邮件中号码的提取方法及其装置
技术领域
本发明涉及电子邮件技术领域,特别是涉及一种电子邮件中号码的提取方法及其装置。
背景技术
随着移动终端技术的不断发展,手机、掌上电脑、平板、笔记本等各种移动设备已经成为人们工作、生活中必不可缺的一部分,而电子邮件是人们办公、通信最常用的功能之一。在互联网用户的各种应用中,电子邮件是一种比较常用的基础应用,用户可以通过发送电子邮件向对方传送信息,十分便捷,但也同时产生了垃圾电子邮件的问题。
垃圾电子邮件是指未经用户(接收方)许可就强行发送到用户的电子邮箱中的任何电子邮件,垃圾电子邮件的内容包括推销广告、成人广告、赚钱信息,或者包含电脑病毒,以至接收方用户的电脑系统受到侵害。这些垃圾电子邮件给邮箱用户带来了困扰,影响到了邮箱用户的使用体验,因此各大邮件提供商都把提升电子邮件反垃圾系统效果作为提升邮箱用户体验的重要关注点。
现有技术存在一种通过提取号码的形式识别电子邮件是否为垃圾电子邮件,号码的提取主要在电子邮件主题以及电子邮件的内容中提取,主要用途是作为电子邮件的附加特征应用于反垃圾领域,如一些留有联系方式的垃圾邮件,可将所提取的号码跟存有垃圾号码的数据库中的数据进行对比,以识别电子邮件是否为垃圾电子邮件,现有提取号码的技术存在两种方式,一种是多数的号码提取都是直接寻找全是数字的号码串,另一种方式是使用正则表达式进行号码提取。
直接查找全是数字的号码提取的方法的适用性较窄,仅适用于连续数字串,无法识别带有分隔符的号码;而使用正则表达式进行号码识别只是识别并提取符合规则的串,由于本身具有强大的功能而导致编写和测试验证的难度较大,且比较消耗资源。上述两种方法所提取出的号码都是原始的字符串,不能转换成一般的纯数字串,不方便反垃圾模块的分析以及规则的应用。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种电子邮件中号码的提取方法及其装置,可以降低号码提取的难度,以及降低资源的消耗。
为了解决上述问题,本发明提出了一种电子邮件中号码的提取方法,所述方法包括:
对所述电子邮件中的单个符号进行识别,并获得识别结果;
对所述识别结果进行分类判定,获得判定结果;
对所述判定结果进行转换,获得纯数字号码串。
优选地,所述对所述电子邮件中的单个符号进行识别,并获得识别结果的步骤包括:
根据字符编码识别所述符号为单字节符号或者为双字节符号。
优选地,所述对所述识别结果进行分类判定,获得判定结果的步骤包括:
当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;
当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
优选地,所述对所述判定结果进行转换,获得纯数字号码串的步骤包括:
若判定为单字节纯数字,则直接记录该数字;
若判定为双字节字符,则转换为单字节字符,并转换为纯数字号码。
优选地,所述方法还包括:对所述纯数字号码串进行检验记录。
相应地,本发明还提供一种电子邮件中号码的提取装置,所述装置包括:
识别模块,用于对所述电子邮件中的单个符号进行识别,并获得识别结果;
判定模块,用于对所述识别模块所获得的识别结果进行分类判定,获得判定结果;
转换模块,用于对所述判定模块所获得的判定结果进行转换,获得纯数字号码串。
优选地,所述识别模块用于根据字符编码识别所述符号为单字节符号或者为双字节符号。
优选地,所述判定模块还用于当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
优选地,所述转换模块用于若所述判定结果为单字节纯数字时,则直接记录该数字;以及用于若所述判定结果为双字节字符时,则转换为单字节字符,并转换为纯数字号码。
优选地,所述装置还包括:检验记录模块,用于对所述纯数字号码串进行检验记录。
实施本发明实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的电子邮件中号码的提取方法的流程示意图;
图2是本发明实施例的电子邮件中号码的提取装置的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
电子邮件系统中的反垃圾模块的主要作用是对电子邮件进行分析、进行特征记录及统计,并判定是否为垃圾电子邮件,而传统的反垃圾模块无法识别“400-235-335”和“400-235335”所代表的含义是相同的,都是指“400235335”,而系统只能判定两组号码是不同的东西。因此需要一个统一的号码表示方式,来让电子邮件系统可以识别,避免符号的差异性所带来的干扰。
图1是本发明实施例的电子邮件中号码的提取方法的流程示意图,如图1所示,该方法包括:
S101,对电子邮件中的单个符号进行识别,并获得识别结果;
S102,对识别结果进行分类判定,获得判定结果;
S103,对判定结果进行转换,获得纯数字号码串。
其中,在S101中,根据字符编码识别符号为单字节符号或者为双字节符号。根据字符编码的特性(最高位是否为1)识别出所提取符号为单字节符号还是双字节符号。若该符号为单字节符号,则取一个字节内容;若该符号为双字节符号,则取两个字节内容。
在S102中,当判定符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;当判定符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
具体实施中,若符号为单字节符号时,则根据字符编码的内容判定是否为单字节纯数字“0-9”,或者是否为单字节分隔符;若符号为双字节符号时,则根据字符编码的内容判定,是否为符号号码(“⑨”之类,如“⑨”的编码为0xA2,0xE1),或者是否为双字节分隔符。
在S103中,若判定为单字节纯数字,则直接记录该数字;若判定为双字节字符,则转换为单字节字符,并转换为纯数字号码。
具体实施中,若为单字节纯数字,则直接记录;若为连接符,则获取并继续处理获取下一符号;若为双字节字符,则转换成对应的单字节字符(由于这类符号编码是连续的,只要跟起始编码相减的值就是所要转换到的号码,如⑨,0xE1–0xA8 =0x39,则数字“9”的编码为0x39);若为其他,则当前号码提取结束,校验号码是否需要记录,号码长度等。
进一步地,在获得纯数字号码串后,还可以对纯数字号码串进行检验记录,包括是否为纯数字号码、号码的长度是否符合要求、以及是否需要记录等。
实施本发明的方法实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。
本发明实施例还提供了一种电子邮件中号码的提取装置,如图2所示,该装置包括:
识别模块1,用于对电子邮件中的单个符号进行识别,并获得识别结果;
判定模块2,用于对识别模块1所获得的识别结果进行分类判定,获得判定结果;
转换模块3,用于对判定模块2所获得的判定结果进行转换,获得纯数字号码串。
其中,该识别模块1用于根据字符编码识别符号为单字节符号或者为双字节符号。具体方式是:根据字符编码的特性(最高位是否为1)识别出所提取符号为单字节符号还是双字节符号。若该符号为单字节符号,则取一个字节内容;若该符号为双字节符号,则取两个字节内容。
判定模块2还用于当判定符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
具体实施中,若符号为单字节符号时,则判定模块2根据字符编码的内容判定是否为单字节纯数字“0-9”,或者是否为单字节分隔符;若符号为双字节符号时,则判定模块2根据字符编码的内容判定,是否为符号号码(“⑨”之类,如“⑨”的编码为0xA2,0xE1),或者是否为双字节分隔符。
另外,转换模块3还用于若判定结果为单字节纯数字时,则直接记录该数字;以及用于若判定结果为双字节字符时,则转换为单字节字符,并转换为纯数字号码。具体实施中,若为单字节纯数字,则直接记录;若为连接符,则获取并继续处理获取下一符号;若为双字节字符,则转换成对应的单字节字符(由于这类符号编码是连续的,只要跟起始编码相减的值就是所要转换到的号码,如⑨,0xE1–0xA8 =0x39,则数字“9”的编码为0x39);若为其他,则当前号码提取结束,校验号码是否需要记录,号码长度等。
进一步地,该装置还可以包括:检验记录模块(图中未示出),用于对纯数字号码串进行检验记录,包括是否为纯数字号码、号码的长度是否符合要求、以及是否需要记录等。
实施本发明的装置实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的电子邮件中号码的提取方法及其装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种电子邮件中号码的提取方法,其特征在于,所述方法包括:
对所述电子邮件中的单个符号进行识别,并获得识别结果;其中,根据字符编码识别所述符号为单字节符号或者为双字节符号;
对所述识别结果进行分类判定,获得判定结果;其中,当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符;
对所述判定结果进行转换,获得纯数字号码串;其中,若判定为单字节纯数字,则直接记录该数字;若判定为双字节符号号码,则将所述双字节符号号码的编码减去预设的编码,得到对应的单字节纯数字的编码,以将所述双字节符号号码转换为所述对应的单字节纯数字,并记录该数字。
2.如权利要求1所述的电子邮件中号码的提取方法,其特征在于,所述方法还包括:对所述纯数字号码串进行检验记录。
3.一种电子邮件中号码的提取装置,其特征在于,所述装置包括:
识别模块,用于对所述电子邮件中的单个符号进行识别,并获得识别结果;其中,所述识别模块用于根据字符编码识别所述符号为单字节符号或者为双字节符号;
判定模块,用于对所述识别模块所获得的识别结果进行分类判定,获得判定结果;其中,所述判定模块还用于当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符;
转换模块,用于对所述判定模块所获得的判定结果进行转换,获得纯数字号码串;其中,所述转换模块用于若所述判定结果为单字节纯数字时,则直接记录该数字;以及用于若所述判定结果为双字节符号号码时,则将所述双字节符号号码的编码减去预设的编码,得到对应的单字节纯数字的编码,以将所述双字节符号号码转换为所述对应的单字节纯数字,并记录该数字。
4.如权利要求3所述的电子邮件中号码的提取装置,其特征在于,所述装置还包括:检验记录模块,用于对所述纯数字号码串进行检验记录。
CN201310397191.5A 2013-09-04 2013-09-04 一种电子邮件中号码的提取方法及其装置 Active CN103490980B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310397191.5A CN103490980B (zh) 2013-09-04 2013-09-04 一种电子邮件中号码的提取方法及其装置
PCT/CN2013/086174 WO2015032123A1 (zh) 2013-09-04 2013-10-29 一种电子邮件中号码的提取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310397191.5A CN103490980B (zh) 2013-09-04 2013-09-04 一种电子邮件中号码的提取方法及其装置

Publications (2)

Publication Number Publication Date
CN103490980A CN103490980A (zh) 2014-01-01
CN103490980B true CN103490980B (zh) 2017-07-28

Family

ID=49830951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310397191.5A Active CN103490980B (zh) 2013-09-04 2013-09-04 一种电子邮件中号码的提取方法及其装置

Country Status (2)

Country Link
CN (1) CN103490980B (zh)
WO (1) WO2015032123A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020366B (zh) * 2017-12-07 2021-06-15 北大方正集团有限公司 邮箱信息抽取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088697A (zh) * 2010-12-17 2011-06-08 北京华中融合科技有限公司 垃圾短信的处理方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101087259A (zh) * 2006-06-07 2007-12-12 深圳市都护网络科技有限公司 一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及系统
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
KR101735613B1 (ko) * 2010-07-05 2017-05-24 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
CN102078984A (zh) * 2010-11-26 2011-06-01 西南铝业(集团)有限责任公司 分流模上模芯头工作带的加工方法及加工系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088697A (zh) * 2010-12-17 2011-06-08 北京华中融合科技有限公司 垃圾短信的处理方法和系统

Also Published As

Publication number Publication date
CN103490980A (zh) 2014-01-01
WO2015032123A1 (zh) 2015-03-12

Similar Documents

Publication Publication Date Title
CN103166982B (zh) 一种电子书注释信息的分享方法和设备
CN104036160B (zh) 一种网页浏览方法、装置及浏览器
CN103218363B (zh) 信息处理方法及装置
CN103428662B (zh) 短信信息处理方法及装置
CN103546877A (zh) 一种获取并输入内容码的方法、系统和移动终端
CN112487149B (zh) 一种文本审核方法、模型、设备及存储介质
CN103268449B (zh) 一种手机恶意代码的高速检测方法和系统
CN103092799A (zh) 一种usb设备及其识别主机操作系统的方法
CN107424065A (zh) 一种处理电子邮件中电子发票的方法及系统
CN112307369A (zh) 一种短链接处理方法、装置、终端及存储介质
CN111475785B (zh) 信息采集方法、装置、计算机设备和存储介质
CN103631506A (zh) 基于终端的阅读方法及相应的终端
CN102523533A (zh) 视频内容关联的在线视频广告管理方法
CN111488556A (zh) 一种嵌套文档提取方法、装置及电子设备和存储介质
CN103064928A (zh) 基于关键词的垃圾文档过滤方法和装置
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN103490980B (zh) 一种电子邮件中号码的提取方法及其装置
CN103150172A (zh) 一种实现个性化场景的方法和设备
CN101702835A (zh) 一种实现手写消息的方法及移动终端
CN105320641B (zh) 一种文本校验方法及用户终端
CN104834924B (zh) 一种防错填信息的方法、系统及移动终端
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN104376304B (zh) 一种文本广告图像的识别方法及装置
CN101686274B (zh) 联系人查找系统及方法
US9544252B2 (en) Compressing and decompressing electronic messages in message threads

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180110

Address after: 510000 Guangdong city of Guangzhou province Panyu District Xiaoguwei Street Mingzhi University City Street No. 1 Building 5 building 503 room information hub

Patentee after: Critics of science and Technology (Guangzhou) Co. Ltd.

Address before: 100080 room 8003, cyber building, No. 19 South Haidian Road, Beijing, Haidian District

Patentee before: MaiMailtech (Beijing) Co., Ltd.