CN107861941B

CN107861941B - 用户昵称真实性评估方法、存储介质、电子设备及系统

Info

Publication number: CN107861941B
Application number: CN201710935293.6A
Authority: CN
Inventors: 王璐; 陈少杰; 张文明
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2021-04-23
Anticipated expiration: 2037-10-10
Also published as: CN107861941A

Abstract

本发明公开了一种用户昵称真实性评估方法、存储介质、电子设备及系统，涉及大数据风控领域，该方法包括S1：对用户昵称进行拆分，形成多个元素，且拆分形成的多个元素构成一个序列；S2：建立用户昵称的昵称困惑度计算公式；S3：进行用户昵称的昵称困惑度计算，所述昵称困惑度值越小，其对应的用户昵称真实度越高。本发明能够有效而快速地对恶意用户的用户昵称进行判断和识别。

Description

用户昵称真实性评估方法、存储介质、电子设备及系统

技术领域

本发明涉及大数据风控领域，具体涉及一种用户昵称真实性评估方法、存储介质、电子设备及系统。

背景技术

在直播行业，某些非法人员出于利益的考虑，会注册多个账户，俗称恶意账号，从而进行刷关注数、观众数等恶意行为来增加某个主播的人气，一般来讲，非法人员为了达到快速注册账户的目的，会采用较简单和随意的账户昵称，如my71ym4g4等，此类昵称通常由机器自动生成，且没有任何含义。正常用户的昵称虽然具有一定的随意性，但大多都还是正常的语言表达文本形式，且容易记忆，根据这一点，便可通过一定的方法来评估用户的昵称是否真实合理，从而判断相对应的用户账号是否是恶意账号。

目前，对于恶意账号昵称的识别是基于一定的规则的，即从收集的恶意账号中发现并总结其昵称的规律，形成固定规则，从而比对新增的可疑账号昵称，判断其是否是恶意账号，但这种识别方法需要大量的人力工作去总结恶意账号昵称的规律，费时费力，识别效率和准确率低。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种用户昵称真实性评估方法，能够有效而快速地对恶意用户的用户昵称进行判断和识别。

为达到以上目的，本发明采取的技术方案是，包括：

S1：对用户昵称进行拆分，形成多个元素，且拆分形成的多个元素构成一个序列；

S2：建立用户昵称的昵称困惑度计算公式

其中，nick-perplexity为昵称困惑度，x_i是序列中的第i个元素，其中i为正整数，n为序列的子序列所包含的元素个数，取值为2或3，m为整个序列中元素的个数，其中m为大于1的正整数，N是序列中元素个数为n的子序列的个数，N＝m-n+1，k是权重系数，为取值在0和1之间的常数；

p(x_i|x_i-n+1,...,x_i-1)是元素x_i出现的条件概率，其计算公式为

其中，N{x_i-n+1,...,x_i-1}是序列{x_i-n+1,...,x_i-1}在整个用户昵称语料库中出现的次数，N{x_i-n+1,...,x_i-1,x_i}是序列{x_i-n+1,...,x_i-1,x_i}在整个用户昵称语料库中出现的次数；

S3：进行用户昵称的昵称困惑度计算，所述昵称困惑度值越小，其对应的用户昵称真实度越高。

在上述技术方案的基础上，所述用户昵称为文本信息，所述用户昵称包含汉字、英文、数字或符号中的至少一类。

在上述技术方案的基础上，

对于用户昵称的元素划分按照文本元素划分原则；

所述文本元素划分原则为：单个汉字为1个元素，单个词语为1个元素，单个英文单词为1个元素，单个英文字母为1个元素，单个数字为1个元素，连续数字为1个元素，单个符号为1个元素。

在上述技术方案的基础上，基于文本元素划分原则，对用户昵称进行元素划分，并按照先后顺序，将划分得到的元素放入序列中。

在上述技术方案的基础上，所述用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。

本发明还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法。

本发明还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

本发明还提供一种用户昵称真实性评估系统，其特征在于，包括：

拆分模块，其用于对用户昵称进行拆分，形成多个元素，且拆分形成的多个元素构成一个序列；

创建模块，其用于建立用户昵称的昵称困惑度计算公式

执行模块，其用于根据序列中的元素进行用户昵称的昵称困惑度计算，所述昵称困惑度值越小，其对应的用户昵称真实度越高。

在上述技术方案的基础上，对于用户昵称的元素划分按照文本元素划分原则；所述文本元素划分原则为：单个汉字为1个元素，单个词语为1个元素，单个英文单词为1个元素，单个英文字母为1个元素，单个数字为1个元素，连续数字为1个元素，单个符号为1个元素。

与现有技术相比，本发明的优点在于：基于自然语言模型中，用户的昵称应该是便于记忆，且复杂度较低的，采用困惑度的计算方式对用户的用户昵称进行元素划分后计算，进而得到具体的数值以对用户昵称的真实性进行度量和判断，判断方便，采用量化判定方式，能够有效而快速地对恶意用户的用户昵称进行判断和识别。

附图说明

图1为本发明实施例中一种用户昵称真实性评估方法的流程图；

图2为本发明实施例中一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种用户昵称真实性评估方法，通过对用户昵称进行分析判断，进而判断用户昵称对应的账号是否为用于刷人气、增加直播间在线人数的恶意账号。本发明实施例的用户昵称真实性评估方法具体包括：

S1：对用户昵称进行拆分，形成多个元素，且拆分形成的多个元素构成一个序列。用户昵称为文本信息，即用户在进行账号注册时输入的一段文本，用户昵称包含汉字、英文、数字或符号中的至少一类。

对于用户昵称的元素划分按照文本元素划分原则，文本元素划分原则为：单个字为1个元素，单个词语为1个元素，单个英文单词为1个元素，单个英文字母为1个元素，单个数字为1个元素，连续数字为1个元素，单个符号为1个元素。例如，某个用户昵称为“a我是1中国人35love、”，其中，“a”为1个元素，“我”为1个元素，“是”为1个元素，“1”为1个元素，“中国人”为1个元素，“35”为1个元素，“love”为1个元素。

同时，基于文本元素划分原则，对用户昵称进行元素划分，并按照先后顺序，将划分得到的元素放入序列中，即序列中，先划分得到的元素排在后划分得到的元素前面。

S2：建立用户昵称的昵称困惑度计算公式

其中，nick-perplexity为昵称困惑度，x_i是序列中的第i(i为正整数)个元素，n为序列的子序列所包含的元素个数，取值为2或3，m(m为大于1的正整数)为整个序列中元素的个数，N是序列中元素个数为n的子序列的个数，N＝m-n+1，k是权重系数，为取值在0和1之间的常数；

p(x_i|x_i-n+1,...,x_i-1)是元素x_i出现的条件概率，其计算公式为

其中，N{x_i-n+1,...,x_i-1}是序列{x_i-n+1,...,x_i-1}在整个用户昵称语料库中出现的次数，N{x_i-n+1,...,x_i-1,x_i}是序列{x_i-n+1,...,x_i-1,x_i}在整个用户昵称语料库中出现的次数。用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。

用户昵称的昵称困惑度计算公式由两部分组成，加号前面的项是序列出现概率的负平均自然数，该项表示序列中元素的困惑度，值越大说明整个序列出现的平均概率越小，用户昵称的真实性越低，加号后面的项是序列中的子序列数，该项表示用户昵称的记忆难易程度，子序列数越多说明用户的昵称越难以记忆，显然，nick-perplexity的值越小，说明用户昵称的真实性越高，其对应的用户为真实用户，而不是机器生成的恶意账号。真实的用户的用户昵称应该是便于记忆，且复杂程度较低的，同时真实用户的用户昵称从语言模型的角度上看，其子序列出现的可能性应该较大，而一个恶意账号的用户昵称从统计学的角度上将，其出现的概率会非常低，因此可以采用困惑度的方式去判断用户昵称的真实性。

S3：进行用户昵称的昵称困惑度计算，昵称困惑度值越小，其对应的用户昵称真实度越高。即将用户昵称对应的序列带入到昵称困惑度计算公式中，进行昵称困惑度的计算，产生一量化值，便于对用户昵称的真实性进行更直观的判断，具体多少数值的昵称困惑度对应的是恶意账户的用户昵称，由人为根据实际情况进行设定。

在一种实施方式中，例如对“我的爱人12”的用户昵称进行昵称困惑度值计算，为方便表述，单个汉字用CC表示，单个词语用CW表示，单个英文单词用EW表示，单个英文字母用EC表示，单个数字用NU表示，单个符号用SPE表示，则将“我的爱人12”拆分为“我|的|爱人|12”，对应序列为{CC,CC,CW,NB}。

这里取n＝2，得到该用户昵称的子序列为{(CC,CC),(CC,CW),(CW,NB)}，以及{(CC),(CC),(CW)}，计算子序列在整个用户昵称语料库中出现的次数，N(CC,CC)＝1000，N(CC,CW)＝800，N(CW,NB)＝2000，N(CC)＝20000，N(CW)＝10000，取权重系数0.5，从而计算用户昵称的nick-perplexity＝-(log(1000/20000)+log(800/20000)+log(2000/10000))/3+3*0.5＝4.11。

本发明的用户昵称真实性评估方法的原理在于，基于自然语言模型中，用户的昵称应该是便于记忆，且复杂度较低的，采用困惑度的计算方式对用户的用户昵称进行元素划分后计算，进而得到具体的数值以对用户昵称的真实性进行度量和判断，判断方便，采用量化判定方式，能够有效而快速地对恶意用户的用户昵称进行判断和识别。

另外，对应上述用户昵称真实性评估方法，本发明还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所述的用户昵称真实性评估方法的步骤。需要说明的是，所述存储介质包括U盘、移动硬盘、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示，对应上述用户昵称真实性评估方法，本发明还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例的用户昵称真实性评估方法。

本发明实施例还提供一种基于上述用户昵称真实性评估方法的用户昵称真实性评估系统，包括拆分模块、创建模块和执行模块。

拆分模块用于对用户昵称进行拆分，形成多个元素，且拆分形成的多个元素构成一个序列；创建模块用于建立用户昵称的昵称困惑度计算公式

执行模块用于根据序列中的元素进行用户昵称的昵称困惑度计算，所述昵称困惑度值越小，其对应的用户昵称真实度越高。用户昵称为文本信息，用户昵称包含汉字、英文、数字或符号中的至少一类。对于用户昵称的元素划分按照文本元素划分原则；所述文本元素划分原则为：单个汉字为1个元素，单个词语为1个元素，单个英文单词为1个元素，单个英文字母为1个元素，单个数字为1个元素，连续数字为1个元素，单个符号为1个元素。

本发明实施例的用户昵称真实性评估系统的原理在于，基于自然语言模型中，用户的昵称应该是便于记忆，且复杂度较低的，采用困惑度的计算方式，同时拆分模块对用户的用户昵称进行元素划分，然后执行模块进行计算，进而得到具体的数值以对用户昵称的真实性进行度量和判断，判断方便，采用量化判定方式，能够有效而快速地对恶意用户的用户昵称进行判断和识别。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。