一种信息过滤方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息过滤方法及装置。
背景技术
随着信息技术的发展,网站已经可以为用户提供非常丰富的网络服务,用户通常需要在网站上注册自己的账户信息,以便获得更全面的服务。
目前,存在由机器自动生成大量垃圾账户的情况,这些垃圾账户并不会被正常使用,通常是被恶意利用以获得更多的网络服务的资源。大量垃圾账户的存在不仅占用网络服务商的资源,而且过多的垃圾账户被恶意利用后,严重影响其他用户所获取的网络服务,导致网络服务资源的分配不均。
现有技术中,对于垃圾账户的过滤通常采用地址信息过滤和网络行为过滤两种方式,其中,地址信息过滤的主要方法为:当监测到同一介质访问控制(MediaAccessControl,MAC)地址或互联网协议(InternetProtocol,IP)地址短时间内注册大量账户时,则判定这些账户为自动生成的垃圾账户,从而对这些垃圾账户进行过滤。而网络行为过滤的主要实现方式为:在已注册的账户进行登录后,针对该账户的网络行为进行监测,根据监测到的该账户的网络行为判断该账户是否为垃圾账户,并进行相应过滤。
但是,一旦修改了注册账户信息的设备的MAC地址或IP地址,地址信息过滤的方法就将失效,因此,地址信息过滤的方法漏检率较高。而网络行为过滤的方法在执行时,由于垃圾账户的注册毕竟已经完成,而且对账号的网络行为进行监测也需要消耗较多的资源来完成,因此网络行为过滤的方法的效率较低。
发明内容
本申请实施例提供一种信息过滤方法及装置,用以解决对账户信息的过滤准确性较差且效率较低的问题。
本申请实施例提供的一种信息过滤方法,包括:
接收待注册账户信息;
根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值;
当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。
本申请实施例提供的一种信息过滤装置,包括:接收模块、表征值模块以及过滤处理模块,其中,
所述接收模块,用于接收待注册账户信息;
所述表征值模块,用于根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值;
所述过滤处理模块,用于当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。
本申请实施例提供一种信息过滤方法及装置,接收待注册账户信息,根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值,当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。通过上述方法,由于可能性表征值直观反映了待注册账户信息是垃圾账户的可能性,从而,使用可能性表征值和预先设定的阀值相比较,可准确判断出该账户信息是垃圾账户还是正常账户,采用上述方法不仅在新的账户信息在注册的过程中,就可对账户信息进行及时过滤,有效提升了对账户信息的过滤效率,而且,对新注册的账户信息的过滤过程不依赖于注册设备的地址信息,避免出现漏检的情况。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的信息过滤过程示意图;
图2为申请实施例提供的信息过滤过程在具体应用中的流程图;
图3本申请实施例提供的信息过滤装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的信息过滤过程,该过程具体包括以下步骤:
S101:接收待注册账户信息。
本申请实施例中所述的待注册账户信息,包括但不限于:包含有英文字母的用户名,如,Email地址信息。
现有技术中,对账户信息的过滤通常需等待账户信息注册完成后,才能对账户信息进行相应的判断,即使服务器采用地址信息过滤的方法,也不能及时过滤垃圾账户,当注册账户信息的设备使用的新的MAC地址或IP地址时,也仍会有一定数量的垃圾账户完成注册,直到服务器监测到大量注册成功后的账户信息均来自于同一MAC地址或IP地址,服务器才会禁止该MAC地址或IP地址再次进行注册,在这个过程中,一定数量的垃圾账户的已经注册成功。
因此,本申请实施例中的上述步骤S101,为了避免出现垃圾账户注册成功的情况,服务器在注册过程中就对待注册账户信息进行过滤。服务器在接收到待注册账户信息之后,便会立即确定该待注册账户信息为垃圾账户的可能性,即步骤S102。
S102,根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值。
对于正常的待注册账户信息而言,待注册账户信息作为一种具有唯一性的用户标识,其中包含的字符存在大量的组合方式(如:大小写字母、数字、符号等各种字符的组合等等),该待注册账户信息中所包含的字符通过这些组合方式形成相应的字符串,且各待注册账户信息的字符串长度也各不相同,有些待注册账户信息对应的字符串的组合虽然没有规律,但仍可能是用户为了避免出现账户名称重复而设计的独特组合方式。例如:字符串为“LXF1989”的账户信息中,三个英文字母“LXF”很可能对应于该用户姓名的拼音缩写,数字“1989”是该用户的出生年份;字符串为“Sylvia11”的账户信息中,英文单词“Sylvia”很可能对应于该用户的英文名,数字“11”可能是该用户为了避免与其他名为Sylvia的用户的账户信息发生冲突而添加的数字。可见,对于正常的待注册账户信息而言,其中的字符串均有相应的意义。
但是,对于设备自动注册的待注册账户信息(垃圾账户),该设备为了保证顺利的完成注册(即保证待注册账户信息的唯一性),通常将待注册账户信息设置为较长且随机组合的字符串,例如:“jvhjvhb”、“zjbvvb”等。可见,这些垃圾账户对应的字符串并不是用户的姓名的拼音缩写,也不是英文单词,也就是说,这些字符串是无意义的。这样一来,就表明上述待注册账户信息是垃圾账户的可能性较高,那么,为了直观表示这种可能性,在本申请实施例中,采用可能性表征值的方式,量化待注册账户信息为垃圾账户的可能性,也即,本申请中所述的可能性表征值是该待注册账户信息是垃圾账户的可能性的量化值,该可能性表征值越高,表示该待注册账户信息是垃圾账户的可能性越大,反之,该可能性表征值越低,表示该待注册账户信息是垃圾账户的可能性越小。S103,判断确定的可能性表征值是否大于预设阀值,若是,则执行步骤S104,否则,执行步骤S105。
S104,拒绝注册所述待注册账户信息。
S105,注册该待注册账户信息。
在本申请实施例中,上述预设阀值可根据需要进行设定。具体的,可预先根据已经注册、且确认为是垃圾账户的每个账户信息中包含的字符,确定出每个垃圾账户的可能性表征值,再将其中的最小值设定为上述预设阀值。其中,对于已注册账户信息,服务器可以通过现有技术中的网络行为过滤和地址信息过滤等多种方式,来确定已注册的账户信息是否为垃圾账户,这并不构成对本申请的限定。
如果步骤S102中确定的待注册账户信息是垃圾账户的可能性表征值大于该预设阀值,就表明该待注册账户信息很可能为垃圾账户,所以,服务器拒绝该待注册账户信息进行注册,而如果步骤S102中确定的可能性表征值不大于该预设阀值,则说明该待注册账户信息不是垃圾账户,服务器可直接注册该待注册账户信息。
通过上述方法可见,对账户信息的过滤是在账户信息注册的过程中完成的,也即,在账户信息完成注册之前,就可以对待注册账户信息是否为垃圾账户做出判断,并可及时拒绝注册被确定为垃圾账户的待注册账户信息,从而无需在对账户信息进行注册后,耗费大量的资源来监测该账户的网络行为,大幅节省了服务器资源,提升了对账户进行过滤的效率。而且,上述如图1所示的方法通过确定待注册账户信息为垃圾账户的可能性表征值,来判断该待注册账户信息是否为垃圾账户,不依赖于发起注册该待注册账户信息的设备的地址,因此,即使修改了发起注册的设备的地址,如图1所示的方法仍可准确的过滤垃圾账户。
从上述图1所示的方法可以看出,本申请中判断一个待注册账户信息是否为垃圾账户的依据就是:根据该待注册账户信息中包含的字符,判断这些字符所构成的字符串是否是具有某种含义的字符串,若是,则可将该字符串称为表意字符串,从而确定该待注册账户信息不是垃圾账户,否则,可将这些字符串称为随机字符串,从而确定该待注册账户信息是垃圾账户。因此,图1所示的步骤S102中,服务器根据待注册账户信息中包含的字符确定可能性表征值时,可先根据待注册账户信息中包含的字符,分析这些字符所构成的字符串是表意字符串的可能性,从而确定出该待注册账户信息是垃圾账户的可能性表征值。如果该字符串是表意字符串的可能性越高,则该待注册账户信息是垃圾账户的可能性表征值也就越小,反之,如果该字符串是表意字符串的可能性越低,则该待注册账户信息是垃圾账户的可能性表征值也就越大。也即,该待注册账户信息是垃圾账户的可能性表征值与该字符串是表意字符串的可能性成反比。
然而,由于在实际应用场景中,待注册账户信息对应的字符串一般均具有唯一性,因此,在分析待注册账户信息中包含的字符构成的字符串是表意字符串的可能性时,直接根据待注册账户信息中完整的字符串并不能准确的分析出这种可能性,也就不能准确的确定出该可能性表征值。为了准确的确定出可能性表征值,在图1所示的步骤S102中,服务器可先对该待注册账户信息中包含的字符进行分词,得到各判断词,再根据各判断词确定该待注册账户信息为垃圾账户的可能性表征值。也即,可根据分词后得到的各判断词,确定这些判断词是表意字符串的可能性,从而确定出该待注册账户信息是垃圾账户的可能性表征值。
具体的,在对待注册账户信息中包含的字符进行分词时,可根据N-gram语言模型进行分词,即,服务器可根据预设数量,从该待注册账户信息包含的各字符中,选择出连续的、预设数量的字符,将选择出的字符构成的字符串作为得到的判断词。
其中,N-gram语言模型会将某一信息中包含的连续N个字符划分为一个字符串,N就是所要划分一个字符串中所包含的字符的数量,也就是上述的预设数量,而划分得到的字符串就是上述的判断词。
例如:在3-gram的情况下(即预设数量为3),假设待注册账户信息中包含的字符为“acbed”,则服务器可从该待注册账户信息“acbed”中,选择出连续的3个字符构成字符串,选择方法共有三种,三种选择方法分别构成的字符串为:“acb”、“cbe”、“bed”。得到的这3个字符串就是分词后得到的3个判断词。
需要说明的是,上述的预设数量可根据需要进行设定,例如,可预先根据已经确定为正常账户的账户信息所包含的表意字符串的平均长度,来设定上述预设数量。
另外,考虑到在实际应用场景中,账户信息中携带的符号类型的字符一般仅表示分隔意义,甚至无任何意义,数字类型的字符一般多表示用户的出生时间或其他代号,而字母类型的字符则可表示用户的姓名、姓名的首字母缩写、英文名等多种含义。可见,相比于符号类型和数字类型的字符,字母类型的字符所表示的含义更加细致和准确,也就是说根据字母类型的字符,可更加准确的分析字符串是表意字符串的可能性。因此,在本申请实施例中,在对待注册账户信息中包含的字符进行分词时,还可提取该待注册账户信息中指定类型的字符,再对提取的字符进行分词。其中,该指定类型包括字母类型。
也即,服务器可先提取该待注册账户信息中字母类型的字符,再根据预设数量,对提取的字母类型的字符中,选择出连续的、预设数量的字符,将选择出的字符构成的字符串作为得到的判断词。这样,得到的各判断词都是由字母类型的字符所构成的字符串,后续则可以更加准确的确定出每个判断词是表意字符串的可能性,从而更加准确的确定出可能性表征值。
进一步的,在对待注册账户信息进行分词得到判断词后,就可根据服务器中保存的大量已确定为正常账户的账户信息,分析各判断词是表意字符串的可能性,从而确定出该待注册账户信息是垃圾账户的可能性表征值。
具体的,由于对于一个判断词来说,如果该判断词出现在已经确定为正常账户的账户信息中的次数越多,则说明该判断词是表意字符串的可能性越大,该待注册账户信息是垃圾账户的可能性表征值就越小,因此,在本申请实施例中,服务器在对该待注册账户信息进行分词并得到各判断词后,根据各判断词确定该待注册账户信息为垃圾账户的可能性表征值的方法具体可以为:针对得到的每个判断词,确定该判断词在预先确定的各正常账户信息中出现的次数,根据针对每个判断词确定的次数,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与针对每个判断词确定的次数成反比。
继续沿用上例,在3-gram情况下对待注册账户信息中包含的字符为“acbed”进行分词后,得到的3个判断词“acb”、“cbe”、“bed”中,假设这3个判断词在各正常账户信息中出现的次数分别为:tf1、tf2、tf3。tf1~3在各正常账户信息中出现的次数越高,就反映了“acbed”为表意字符串的可能性越大,也即,该待注册账户信息为垃圾账户的可能性表征值就越小,所以,本申请实施例中采用各判断词在各正常账户信息中出现的次数来反映各判断词是表意字符串的可能性,从而确定出的该待注册账户信息为垃圾账户的可能性表征值可以表示为
进一步的,仅通过上述判断词在正常账户信息中出现的次数,并不能准确确定出待注册账户信息为垃圾账户的可能性表征值,这是因为:在实际应用场景中,由于服务器中存在大量已注册的账户信息,字符数量较少的账户信息几乎已被注册,因此,对于自动注册账户信息的设备来说,为了保证其生成的待注册账户信息具备唯一性,其设置的待注册账户信息包含的字符数量均较多,也就是说,待注册账户信息包含的字符越多,越有可能是垃圾账户,可见,待注册账户信息为垃圾账户的可能性表征值还与其包含的字符的数量有关。
因此,在本申请实施例中,根据针对每个判断词确定的次数,确定所述待注册账户信息为垃圾账户的可能性表征值的方法,具体可以为:根据针对每个判断词确定的次数以及所述待注册账户信息中包含的字符的数量,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与所述待注册账户信息中包含的字符的数量成正比。
结合上述方法,在本申请实施例中,可以通过公式 来准确确定所述待注册账户信息为垃圾账户的可能性表征值。
其中,S为待注册账户信息为垃圾账户的可能性表征值。
tfi为对所述待注册账户信息中包含的字符进行分词后,得到的第i个判断词在预先确定的各正常账户信息中出现的次数,i=1、2……k,k为对所述待注册账户信息中包含的字符进行分词后,得到的判断词的数量。
a为预设的长度惩罚系数,b为预设的短度补偿值,a、b为大于0的常数。长度惩罚系数a的取值通常小于1,例如:a=0.2。
x、y为预设的大于0的常数,例如,x取值为10,y的取值为0.2。
n为所述待注册账户信息中包含的字符的数量。
N为每个判断词中所包含的字符的数量,其中,每个判断词中包含的字符的数量均相同。例如:在3-gram的情况下,N=3。
h为预设的整数,且N>h>0。h可以为N-1,例如,在N=3时,h=2。
短度补偿值b可以对判断词的次数起到补偿的作用,使整体计算结果维持在一个较均衡的数值水平上。对于上述短度补偿值b而言,一般的,可根据各已注册的账户信息中的所有的字符,遍历所有由N个字符所构成的字符串,确定这些字符串在预先确定的各正常账户信息中出现的次数的平均值,并将短度补偿值b的取值设定为该平均值的5~10倍,以起到使整体计算结果维持在一个较均衡的数值水平上的作用,例如,b的取值可为50。
在上述参数给定的情况下,直接采用上例中的公式,对各账户信息进行实测,并得到如表1所示的可能性表征值:
1 |
zdvbdzvbz123.com |
1.4888989 |
2 |
jbvhjvhb123.com |
1.4160879 |
3 |
swdmslfmdknmfgvdk123.com |
1.4068766 |
4 |
gfvmxmuwfhbk7tz2123.com |
1.4014327 |
5 |
asgfsrdbgvrgfdc1123.com |
1.3994009 |
6 |
liu543261123.com |
0.5161457 |
7 |
liu3697336123.com |
0.5161457 |
8 |
liu198619123.com |
0.5161457 |
9 |
liu18975619281123.com |
0.5161457 |
10 |
liu119930123.com |
0.5161457 |
表1
在表1中,对于序号为1~5的待注册账户信息而言,非常近似于垃圾账户,而序号为6~10的待注册账户信息,很有可能是正常账户,经过上述公式计算后,得到了表1中的各待注册账户信息为垃圾账户的可能性表征值。其中,序号为6~10的待注册账户信息为垃圾账户的可能性表征值均为0.5161457,而序号为1~5的5个待注册账户信息中,为垃圾账户的可能性表征值的最小值为1.3994009。这里假设可能性表征值的预设阀值为1,显然,序号为1~5的5个待注册账户信息中可能性表征值均大于预设阀值为1,所以,序号为1~5的待注册账户信息是垃圾账户。可见,本申请实施例中的上述公式可以准确确定出待注册账户信息为垃圾账户的可能性表征值,从而可以准确对待注册账户信息进行过滤。
如图2所示,本申请实施例的信息过滤方法的应用如下:
S201,服务器接收上述待注册账户信息。
S202,服务器提取该待注册账户信息中的字母型字符。
S203,服务器根据预设数量,在提取出的字符中,选择出连续的、预设数量的字符,得到该待注册账户信息的各判断词。
S204,服务器针对得到的每个判断词,确定各判断词在预先确定的所有正常账户信息中出现的次数。
S205,根据各判断词在预先确定的所有正常账户信息中出现的次数以及待注册账户信息中包含的字符的数量,确定待注册账户信息是垃圾账户的可能性表征值。
S206,服务器判断待注册账户信息的可能性表征值是否大于预置阀值,若是,则执行步骤S207,否则,执行步骤S208。
S207,服务器拒绝待注册账户信息的注册。
S208,服务器对待注册账户信息进行注册。
以上为本申请实施例提供的信息过滤方法,基于同样的思路,本申请实施例还提供一种信息过滤装置,如图3所示。
图3中的信息过滤装置,设置在终端中,所述装置包括:接收模块301、表征值模块302以及过滤处理模块303,其中,
所述接收模块301,用于接收待注册账户信息。
所述表征值模块302,用于根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值。
所述过滤处理模块303,用于当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。
其中,所述表征值模块302,具体用于:对所述待注册账户信息中包含的字符进行分词,得到各判断词,根据各判断词确定所述待注册账户信息为垃圾账户的可能性表征值。
对于判断词的获得,表征值模块302,具体用于根据预设数量,从所述待注册账户信息包含的各字符中,选择出连续的、预设数量的字符,将选择出的字符构成的字符串作为得到的判断词。
表征值模块302,具体用于提取所述待注册账户信息中指定类型的字符,对提取的字符进行分词。
所述表征值模块302,具体用于针对得到的每个判断词,确定该判断词在预先确定的各正常账户信息中出现的次数,根据针对每个判断词确定的次数,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与针对每个判断词确定的次数成反比。
表征值模块302,具体用于根据针对每个判断词确定的次数以及所述待注册账户信息中包含的字符的数量,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与所述待注册账户信息中包含的字符的数量成正比。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。