CN108234434B

CN108234434B - 一种基于email地址识别的侦测方法

Info

Publication number: CN108234434B
Application number: CN201611201725.2A
Authority: CN
Inventors: 唐亘; 周辉; 张克
Original assignee: Shanghai Xingyi Information Technology Co ltd
Current assignee: Shanghai Xingyi Information Technology Co ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2020-12-29
Anticipated expiration: 2036-12-22
Also published as: CN108234434A

Abstract

本发明提供一种基于email地址识别的侦测方法，包括：从服务器端接收一email地址的邮件操作产生的数据包以获取email参数集W；基于所述参数集W选定多个元素以更新历史记录数据库，所述多个元素至少包含本次邮件操作事件的类型、email地址参数及事件时间戳；基于所述历史数据库统计每一个元素的使用习惯向量以构成参数集W对应的使用习惯向量集L，所述使用习惯向量至少包括以下向量的至少一种：元素出现比例的第一分布向量及每个元素对应邮件操作事件时间频率的第二分布向量；针对所述使用习惯向量集L进行聚类分析，并根据聚类结果侦测异常email地址。本发明能够提供email侦测的准确度。

Description

一种基于email地址识别的侦测方法

技术领域

本发明涉及计算机领域，特别涉及一种基于email地址识别的侦测方法。

背景技术

随着计算机技术的不断发展，电子邮件(email)已成为组织、公司及个人的主要通信手段。电子邮件运行简单、高效，更重要的是它几乎没有成本，使得它得到了广泛的使用。不过正是这些优点对于全世界的email用户而言又成了问题，由于电子邮件的简单便捷，大量电子邮件的收发及运行被不良发件人滥用，产生垃圾邮件。用户经常遭到垃圾邮件的轰炸，垃圾邮件包括大量的未经请求的、非法的email，而不良发件人的成本却几乎为零。

针对不良发件人及垃圾邮件，现有技术主要提出了以下几种方案：

一、过滤法：在这种情况下，利用用户生成的列表，或用数学算法推导出的一组规则将收件人接收到的email分类。这种过滤法的例子是白名单、黑名单、以及Bayesian过滤器。尽管这种技术可在短期有用，但对于长期的email交换则不切实际，因为它们会导致垃圾邮件滥发人(spammer)的竞争(arms-race)，并且经常会造成伪-肯定(合法的email被丢弃)或伪-否定(非法的email被接受)，尽管这种方案被越来越多地采用，但它们仅是权宜措施，垃圾邮件滥发人数的增多，使得过滤机制失去了作用。

二、询问-回答法：在这种情况下，收件人(或他使用的邮件阅读软件)在收到来自陌生发件人的email时，产生并发送一个对所述地发件人的询问。这一询问是自动应答器很难回答的，但人却很容易回答。该发件人一旦回答了该询问，他就被添加到收件人的合法发件人的列表上了。尽管该系统可能的确减少了收件人收信箱内的“垃圾邮件”，但它给发件人附加了一个被许多人认为是反直觉(conter-intutitive)的负担。因此，这一方案未被广泛地采用。

三、签名法：在这种情况下，发件人必须使用某种形式的加密方法为他的email加上签名。于是收件人就可以检验发件人的身份，并且，由此通过将该签名和该发件人已知的加密身份进行匹配来检验该email的真实性。该方案现有的实现方式的问题是他们需要对收件人和发件人一方的加密机制做过多的理解。此外，目前还没有任何一种所提出的方案可提供一个可行的(scalable)、加密身份交换机制。因此，该方案未被广泛采用。

四、契约(Escrow)和合同(bond)法：在这种情况下，发件人必须将一定量的钱款放到契约里或提供合同以便将email发送给他的收件人。相反，如果收件人感到或可以证明发件人发出了一个非法的email，他就可以收取这笔钱款。除了是否可行的问题以外，该方案的主要问题是它假设收件人的行为是诚信的，然而这一点却是不可担保的。因此，该方案未被广泛地采用。

五、邮票法：在这种情况下，发件人必须为一张邮票支付费用以便发送一封email。代替现款，一张邮票也可能要求CPU做大量的计算，或要求发件人一方做一些其它的操作。总之，该方案对于很少发送email的发件人是容易的，但对于那些发送垃圾邮件的人则变得十分昂贵。而该方案的问题是：它要求对现有的基础设施做大量的改造，以便收款或者检验CPU的计算结果。因此，该方案未被广泛地采用。

六、服务器软件的改造法：在这种情况下，要对email服务器上的软件进行修改以便实现新的email验证策略。这种验证可能需要提供一个已知用户的列表，使远程服务器可以向起始服务器检验身份，或可以由起始服务器提供某种形式的加密签名。这种策略以及其变体需要对全世界的大量email服务器进行改造，因此是不可行的。因此，该方案未被广泛地采用。

七、商标签名法：在这种情况下，发件人可以在他们的标题上使用一个商标以确保他们的email不是垃圾邮件，并且商标的所有人确保他将起诉不当使用他的商标的任一方。该策略的问题是，它假设入侵者的数量相当少或只居住在法律允许这种起诉的地理位置。不过，实际上这种假设几乎不能成立，而这种签名实际上几乎已变成了垃圾邮件的肯定标记。因此，该方案未被广泛地采用。

现有技术还有其它几个现有的和建议中的方案，包括上述策略的组合。不过目前还没有一种能成功地提供对垃圾邮件的可行解决方案。

发明内容

本发明技术方案所解决的技术问题为，如何有效的判断不良发件人及垃圾邮件。

为了解决上述技术问题，本发明技术方案提供了一种基于email地址识别的侦测方法，包括：

从服务器端接收一email地址的邮件操作产生的数据包以获取email参数集W；

基于所述参数集W选定多个元素以更新历史记录数据库，所述多个元素至少包含本次邮件操作事件的类型、email地址参数及事件时间戳；

基于所述历史数据库统计每一个元素的使用习惯向量以构成参数集W对应的使用习惯向量集L，所述使用习惯向量至少包括以下向量的至少一种：元素出现比例的第一分布向量及每个元素对应邮件操作事件时间频率的第二分布向量；

针对所述使用习惯向量集L进行聚类分析，并根据聚类结果侦测异常email地址。

可选的，所述方法还包括：预先定义所述数据包；所述数据包包括：进行所述邮件操作的设备信息、网络信息及账户信息。

可选的，所述邮件操作事件的类型包括：注册新账户、登录账户及邮件发送。

可选的，所述参数集W包括如下email地址参数：

email地址合法参数；

email所属类型参数；

email所属厂商参数；

email用户名字符串的特殊字符判定参数；

email用户名字符串的分割字符判定参数；

email用户名字符串的数字判定参数；

email用户名字符串的名字判定参数；

email用户名被上述分割字符分割后的长度参数。

可选的，所述历史记录数据库还记录了对应时间维度上相同email地址参数类型账户数目的赋值比例。

可选的，所述从所述参数集W中选定多个元素以更新历史记录数据库包括：

对所述设定时间单位；

基于所设定的时间单位对历史时间维度上的所述赋值比例分配权重；

对所述时间单位下的所述赋值比例进行加权相加以更新所述历史记录数据库。

可选的，所述权重为J，则有：

Jn＝aⁿ(a/(1-a))，其中，a为大于零且小于1的预定常数，n为时间单位的计数，n＝1～N，1为最近一次更新的时间段，N为第一次更新的时间段。

可选的，所述针对所述使用习惯向量集L进行聚类分析包括：

设使用习惯向量集L为v，将所述参数集W中参数对应的使用习惯向量按预定分组方式进行分组，以得到组向量集合v1＝(v11，…，v1r₁)、v2＝(v21，…，v2r₂)、…、vm＝(vm1，…，vmr_m)，1、2、...、m分别为分组数目，r₁、r₂、...、r_m分别为各组向量集合的元素个数；

设定各组向量集合对应的权重w₁～w_m，并定义两两组向量集合之间距离为两个组向量距离分别与各自对应权重之积的相加结果；

针对所述两两组向量集合之间距离使用K-means算法进行聚类，并使用Elbowmethod算法确定最佳聚类个数f以及f个聚类中心，记为{k₁，k₂，...k_f}；

计算所述每一个email地址参数的使用习惯向量到对应聚类中心的距离，并计算对应的分布分位数。

可选的，所述根据聚类结果侦测异常email地址包括：

设定选定分位数阈值；

若所述email地址参数的分布分位数大于所述分位数阈值，则将所述email地址参数输入至异常email信息库。

可选的，所述方法还包括：

若所述email地址参数的分布分位数与所述分位数阈值相较不符合选定要求，则依据所述聚类结果对所述email地址确定风险等级。

本发明技术方案的有益效果至少为：

本发明技术方案能够有效监测操作异常的电子邮件，对电子邮件发送过程中产生的数据包进行检测并对每一个参数进行习惯聚类，侦测异常邮件地址，从而提高监测风险发件人及垃圾邮件的准确度。

本发明技术方案还可以针对本次电子邮件的参数集，结合历史参数数据进行参数集的聚类评估，并基于时间单位对历史参数集进行加权积累，并基于聚类结果计算分布分位数，将异常电子邮件进行量化评估，从而进一步提高监测风险发件人及垃圾邮件的准确度。

本发明技术方案还可基于上述聚类结果对电子邮件进行风险等级的划分，从而使第三方使用人可以有效确认其适用的风险等级，使风险发件人及垃圾邮件的评估准确度可依据第三方使用人的情况而得到评估，扩大本发明技术方案的适用范围，做到多种评估系统的兼容。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明技术方案提供的一种基于email地址识别的侦测方法的流程示意图；

图2为本发明技术方案提供的一种更新历史记录数据库的方法流程示意图；

图3为本发明技术方案提供的另一种基于email地址识别的侦测方法的流程示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

电子邮件(以下简称：email)在目前不仅用于计算机网络的通信传输，email用户也可以基于email地址进行网页或终端应用的注册、登录，email地址具有用户身份的代表意义。在采用email进行应用的注册、登录等操作时，会发送不良用户的恶意操作，比如：用户同时注册了多个email地址，对某个终端应用进行恶意注册，并产生恶意邮件或恶意申请，对网页或终端应用产生资源的损失、金钱的浪费。

在上述注册或者登陆过程中，终端的网站或应用基于用户某个特定的操作，比如注册账户，登陆账户，网站或应用会向服务器发送预先预定好的数据包，数据包里面包含此次事件的终端信息(也即机器信息)，网络信息，以及用户本身的账户信息。

本发明技术通过监测上述服务器中接收的数据包，从而实现本发明技术方案的email地址识别侦测。

如图1所示的一种基于email地址识别的侦测方法，包括步骤：

步骤S100，从服务器端接收一email地址的邮件操作产生的数据包以获取email参数集W。

所述邮件操作包括终端用户进行的上述注册账户、登录账户、发送邮件等多个与邮件操作有关的行为。所述数据包则是预先定义的，预先定义数据包的过程在其他实施例中可以作为一个额外步骤进行执行。预先定义数据包的内容包括：定义进行所述邮件操作的设备信息；定义网络信息；以及，定义账户信息。

在步骤S100中，所述email参数集W的内容具体包括如下信息：

email地址合法参数；email所属类型参数；email所属厂商参数；email用户名字符串的特殊字符判定参数；email用户名字符串的分割字符判定参数；email用户名字符串的数字判定参数；email用户名字符串的名字判定参数；以及，email用户名被上述分割字符分割后的长度参数。

具体的，所述email地址合法参数指示了email地址是否合法；email所属类型参数指示email所属的com，edu等指示email类型的信息；email所属厂商参数指示email所属公司信息；email用户名字符串的特殊字符判定参数指示email的名称(即email地址“@”前面的字符串)是否包含特殊字符，所述特殊字符一般是指除数字与字母以外的字符；email用户名字符串的分割字符判定参数指的是上述email的名称是否包含分割字符(比如：“_”、“.”、“-”等)；email用户名字符串的数字判定参数指示email名称是否使用数字的信息；email用户名字符串的名字判定参数指示email名称是否包含名字信息，所述名字信息是指email地址的用户名部分是否可视为英文的中文拼音或英文单词；email用户名被上述分割字符分割后的长度参数指示email名称被分割后的长度，比如email为tian.shi@163.com，email名称为tian.shi，其中，分割字符为“.”，tian.shi被分割字符“.”分割为tian和shi，长度为2。

继续参考图1，本发明技术方案基于email地址识别的侦测方法还包括：

步骤S101，基于所述参数集W选定多个元素以更新历史记录数据库，所述多个元素至少包含本次邮件操作事件的类型、email地址参数及事件时间戳。

在本步骤中，所述多个元素包括参数集W中的所有参数、事件类型及事件发生的时间戳。所述事件类型即为上述邮件操作的类型信息，所述事件时间戳则记录了上述邮件操作的时间序列。所述历史记录数据库记录了有关参数集W的所有历史数据、发生的事件类型以及对应的事件的时间戳。

进一步的，在统计上述多个元素时，所述历史记录数据库还记录了对应时间维度上相同email地址参数类型账户数目所占总账户数目的赋值比例，上述相同email地址参数类型包括参数集W中统计的所有参数，所述账户数目指示email地址中具有同一email地址参数类型的账户数，比如，email名称中使用数字的账户数为L个，所述赋值比例指的是统计一个时间维度上具有相同email地址参数的账户数占所有邮件账户数的比例。基于该统计方案，历史记录数据库除了记录参数集W的所有历史数据，以及对应的事件时间戳，还包括用于计算每个时间维度上相同email地址参数类型的账户数目所占总账户数目的赋值比例。

进一步的，结合图2，所述更新历史记录数据库包括：

步骤S200，对所述时间戳依据设定的时间单位转换至时间维度。

在本步骤中，所述时间戳即上述邮件事件的时间序列，所述时间单位可以是天、小时等预先设定的单位，所述时间序列依据上述时间单位建立本发明技术方案中的时间维度。

继续参考图2，所述更新历史记录数据库还包括：

步骤S201，基于所设定的时间单位对历史时间维度上的所述赋值比例分配权重；以及，

步骤S202，对所述时间单位下历史时间维度上的所述赋值比例进行加权相加以更新所述历史记录数据库。

具体的，在步骤S201中，需要依据时间维度对时间维度上的每一个元素分配权重，本发明技术方案优选的按时间维度的时间序列分配不同的权重，并对基于相同元素的赋值比例进行加总更新，从而实现本发明技术方案所指更新历史数据库，权重设置的思路为时间越久远的数据，权重越低。更为具体的，所述权重为J，时间维度n上对所述赋值比例分配的权重Jn有：Jn＝aⁿ(a/(1-a))，其中，a为大于零且小于1的预定常数，n为时间单位的计数，也即所述时间维度上的时间序列数值，n＝1～N，1为最近一次更新的时间序列，N为初始更新的时间序列。在步骤S202中，所述对所述时间单位下历史时间维度上的所述赋值比例进行加权相加包括如下过程：对所述时间单位下历史时间维度上针对同一元素的赋值比例进行加权相加。其中，加权相加的结果用于更新所述历史记录数据库，所述历史记录数据库中记录的是每一个元素依据所述历史时间维度对该元素在时间维度上的赋值比例加权相加的结果。

步骤S102，基于所述历史数据库统计每一个元素的使用习惯向量以构成参数集W对应的使用习惯向量集L，所述使用习惯向量至少包括以下向量的至少一种：参数出现比例的第一分布向量及每个参数邮件操作事件时间频率的第二分布向量。

根据步骤S102，所述使用习惯向量是依据上述历史数据库计算得到的。所统计的每一个元素的使用习惯向量也可以是历史数据库的部分元素，比如，在其他实施例中，所统计的元素可以仅是email地址参数集W中的参数。所述使用习惯向量集L的信息至少为第一分布向量及第二分布向量中的至少一种，在其他实施例中，所述使用习惯向量集L的信息可以包含上述两类，即所述第一分布向量及第二分布向量。

具体的，所述第一分布向量为每一个参数对应的出现比例，比如email名称是否使用数字的比例，由于上述习惯向量集L的信息都是基于所述历史数据库统计的，所述第一分布向量为一个参数在历史时间维度上所述赋值比例的加权相加结果。所述第二分布向量为一个参数对应的平均登陆频率，比如email名称中使用数字的账户平均3天登陆一次，登陆的频率可以按预定时间单位分布，比如按小时分布向量。在其他实施例中，第二分布向量可以根据设定需要统计的邮件操作事件进行统计，而不限于登录这一操作事件，比如所述第二分布向量可为一个参数对应的平均发送邮件的频率，也就是为一个参数对应的平均接收邮件的频率。

步骤S103，针对所述使用习惯向量集L进行聚类分析，并根据聚类结果侦测异常email地址。

在本步骤中，包括如下聚类分析的过程：

针对所述两两组向量集合之间距离使用K-means算法进行聚类，并使用Elbowmethod算法确定最佳聚类个数f，记为{k₁，k₂，...k_f}，得到f个聚类中心；

具体的，在聚类分析过程中，所述组向量距离为组向量集合中向量元素两两距离之和，所述向量元素两两距离为向量元素之积的绝对值。K-means算法过程包括输入确定的聚类个数以及包含若干数据对象的数据库，输出满足方差最小标准的聚类(即上述聚类中心)，具体包括：

(1)从若干数据对象任意选择确定聚类个数的对象作为初始聚类中心；(2根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；(3)重新计算每个(有变化)聚类的均值(中心对象)；(4)计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止，输出满足方差最小标准的聚类；如果条件不满足则回到步骤(2)。

上述K-means算法中，所述若干数据对象的数据库即为所述两两组向量集合之间距离的计算结果集合。所述聚类个数的确定可以采用以下两种方式中的一种：其一通过Elbow method算法确定，即根据聚类的结果和聚类个数的函数关系判断聚类个数为多少的时候效果最好，从而确定聚类个数；其二是根据具体的需求确定K的取值，比如说衬衫尺寸的聚类就会考虑LMS三类等。本发明技术方案中优选的通过Elbow method算法确定本发明技术方案的聚类个数f。

具体的，所述分布分位数是通过如下过程得到的：将所计算的每一个email地址参数的使用习惯向量到对应聚类中心的距离进行排序；以及，按上述排序结果计算分位数。

在计算上述分位数的过程中，所述排序结果可以是从小到大也可以是从大到小，其分位数是一个相对概念，即根据排序与分布数值的对应关系进行取值打分，以得到上述参数对应的分位数。

在本申请的一则实例中，该实例说明上述聚类分析的一种过程，包括：

基于email参数的向量集合v’，其中向量集合v’记录了每一个具有向量表示的email参数；将v’分组为组向量集合v1’、v2’，记为v’＝(v1’，v2’)，v2’为v’的最后24个元素，表示登陆按小时的分布向量，v1’为v’剩下的元素；

定义v1’及v2’的权重分为w1’及w2’，定义v1’＝(v11’，v12’)、v2’＝(v21’，v22’)，则v1’与v2’之间的距离为：

w1’×||v11’，v21’||+w2’×||v12’，v22’||；

使用K-means算法，进行聚类，其中使用Elbow method方法确定最佳聚类个数f以及f个聚类中心，聚类中心记为{k1，k2，...kf}；

计算向量集合v’中的每条记录到对应聚类中心{k1，k2，...kf}的距离，并计算每条记录对应的分布分位数，从而得到每一个email参数的对应分布分位数。

继续参考步骤S103，更为具体的，所述根据聚类结果侦测异常email地址包括：

设定选定分位数阈值；以及，若所述email地址参数的分布分位数与所述分位数阈值相较不符合选定要求，则将所述email地址参数输入至异常email信息库。

分位数阈值的确定可以根据终端网站或应用对风险防范的不同要求，若对异常email准入比较严格，则可以将分位数阈值设定的高，若对异常email准入比较宽松，则将分位数阈值设定的低一些。本发明技术方案在选定分位数阈值后，凡是大于此阈值的记录被放到异常email信息库中。需要说明的是，上述大于或小于的评价取决于步骤S103中聚类分析过程的分位数，该分位数是依据排序结果相对设定，因此，在分位数采用分位数越大，则异常可能性越大的情况下，则所述email地址参数的分布分位数与所述分位数阈值相较偏大，则不符合选定要求；在分位数采用分位数越小，则异常可能性越大的情况下，则所述email地址参数的分布分位数与所述分位数阈值相较偏小，则不符合选定要求。

获取异常email信息库可以对终端网站及应用时登录、注册的email信息进行实时检测，维护网络安全，并且，具有一定的检测准确度。本发明技术方案可获取异常email信息库，并能够根据历史email的使用状态进行不断侦测更新，有效评估风险发件人，并进一步提高检测风险准确度。

特别的，如图3所示，在其他实施例中，本发明技术方案基于email地址识别的侦测方法还可包括：

步骤S104，若所述email地址参数为所述异常email地址，则依据所述聚类结果对所述email地址确定风险等级。

风险等级的划分含义在于对异常email地址参数进行风险划分，风险等级可以使用该email地址对应email参数的分位数总和来评定，也可以使用该email地址对应email参数的分位数平均值来评定，还可以使用该email地址对应email参数的分位数最大值来评定，并发明技术方案并不对上述风险等级的确定做限定。

在具体应用例中，终端网站或应用可以基于所评定的风险等级对登录、注册的email进行不同的权限限制，以维护网络安全或优化产品风险。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于email地址识别的侦测方法，其特征在于，包括：

基于所述历史记录数据库统计每一个元素的使用习惯向量以构成参数集W对应的使用习惯向量集L，所述使用习惯向量至少包括以下向量的至少一种：元素出现比例的第一分布向量及每个元素对应邮件操作事件时间频率的第二分布向量；

针对所述使用习惯向量集L进行聚类分析，并根据聚类结果侦测异常email地址，

还包括：预先定义所述数据包；所述数据包包括：进行所述邮件操作的设备信息、网络信息及账户信息。

2.如权利要求1所述的方法，其特征在于，所述邮件操作事件的类型包括：注册新账户、登录账户及邮件发送。

3.如权利要求1所述的方法，其特征在于，所述参数集W包括如下email地址参数：

email地址合法参数；

email所属类型参数；

email所属厂商参数；

email用户名字符串的特殊字符判定参数；

email用户名字符串的分割字符判定参数；

email用户名字符串的数字判定参数；

email用户名字符串的名字判定参数；

email用户名被上述分割字符分割后的长度参数。

4.如权利要求1所述的方法，其特征在于，所述历史记录数据库还记录了对应时间维度上相同email地址参数类型账户数目的赋值比例。

5.如权利要求4所述的方法，其特征在于，所述基于所述参数集W选定多个元素以更新历史记录数据库包括：

对所述时间戳依据设定的时间单位转换至时间维度；

6.如权利要求5所述的方法，其特征在于，所述权重为J，则有：

7.如权利要求1所述的方法，其特征在于，所述针对所述使用习惯向量集L进行聚类分析包括：

设使用习惯向量集L为v，将所述参数集W中参数对应的使用习惯向量按预定分组方式进行分组，以得到组向量集合v1＝(v11，…，v1r₁)、v2＝(v21，…，v2r₂)、…、vm＝(vm1，…，vmr_m)，1、2、…、m分别为分组数目，r₁、r₂、…、r_m分别为各组向量集合的元素个数；

针对所述两两组向量集合之间距离使用K-means算法进行聚类，并使用Elbow method算法确定最佳聚类个数f以及f个聚类中心，记为{k₁,k₂,...k_f}；

计算每一个email地址参数的使用习惯向量到对应聚类中心的距离，并计算对应的分布分位数。

8.如权利要求7所述的方法，其特征在于，所述根据聚类结果侦测异常email地址包括：

设定选定分位数阈值；

若所述email地址参数的分布分位数与所述分位数阈值相较不符合选定要求，则将所述email地址参数输入至异常email信息库。

9.如权利要求1所述的方法，其特征在于，还包括：

若所述email地址参数为所述异常email地址，则依据所述聚类结果对所述email地址确定风险等级。