CN107861941B - 用户昵称真实性评估方法、存储介质、电子设备及系统 - Google Patents

用户昵称真实性评估方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN107861941B
CN107861941B CN201710935293.6A CN201710935293A CN107861941B CN 107861941 B CN107861941 B CN 107861941B CN 201710935293 A CN201710935293 A CN 201710935293A CN 107861941 B CN107861941 B CN 107861941B
Authority
CN
China
Prior art keywords
nickname
user
sequence
elements
confusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710935293.6A
Other languages
English (en)
Other versions
CN107861941A (zh
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201710935293.6A priority Critical patent/CN107861941B/zh
Publication of CN107861941A publication Critical patent/CN107861941A/zh
Application granted granted Critical
Publication of CN107861941B publication Critical patent/CN107861941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户昵称真实性评估方法、存储介质、电子设备及系统,涉及大数据风控领域,该方法包括S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;S2:建立用户昵称的昵称困惑度计算公式;S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。本发明能够有效而快速地对恶意用户的用户昵称进行判断和识别。

Description

用户昵称真实性评估方法、存储介质、电子设备及系统
技术领域
本发明涉及大数据风控领域,具体涉及一种用户昵称真实性评估方法、存储介质、电子设备及系统。
背景技术
在直播行业,某些非法人员出于利益的考虑,会注册多个账户,俗称恶意账号,从而进行刷关注数、观众数等恶意行为来增加某个主播的人气,一般来讲,非法人员为了达到快速注册账户的目的,会采用较简单和随意的账户昵称,如my71ym4g4等,此类昵称通常由机器自动生成,且没有任何含义。正常用户的昵称虽然具有一定的随意性,但大多都还是正常的语言表达文本形式,且容易记忆,根据这一点,便可通过一定的方法来评估用户的昵称是否真实合理,从而判断相对应的用户账号是否是恶意账号。
目前,对于恶意账号昵称的识别是基于一定的规则的,即从收集的恶意账号中发现并总结其昵称的规律,形成固定规则,从而比对新增的可疑账号昵称,判断其是否是恶意账号,但这种识别方法需要大量的人力工作去总结恶意账号昵称的规律,费时费力,识别效率和准确率低。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种用户昵称真实性评估方法,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
为达到以上目的,本发明采取的技术方案是,包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
S2:建立用户昵称的昵称困惑度计算公式
Figure BDA0001429655950000021
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
Figure BDA0001429655950000022
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。
在上述技术方案的基础上,所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
在上述技术方案的基础上,
对于用户昵称的元素划分按照文本元素划分原则;
所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
在上述技术方案的基础上,基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
在上述技术方案的基础上,所述用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
本发明还提供一种用户昵称真实性评估系统,其特征在于,包括:
拆分模块,其用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
创建模块,其用于建立用户昵称的昵称困惑度计算公式
Figure BDA0001429655950000031
执行模块,其用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。
在上述技术方案的基础上,所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
在上述技术方案的基础上,对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
与现有技术相比,本发明的优点在于:基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式对用户的用户昵称进行元素划分后计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
附图说明
图1为本发明实施例中一种用户昵称真实性评估方法的流程图;
图2为本发明实施例中一种电子设备的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种用户昵称真实性评估方法,通过对用户昵称进行分析判断,进而判断用户昵称对应的账号是否为用于刷人气、增加直播间在线人数的恶意账号。本发明实施例的用户昵称真实性评估方法具体包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列。用户昵称为文本信息,即用户在进行账号注册时输入的一段文本,用户昵称包含汉字、英文、数字或符号中的至少一类。
对于用户昵称的元素划分按照文本元素划分原则,文本元素划分原则为:单个字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。例如,某个用户昵称为“a我是1中国人35love、”,其中,“a”为1个元素,“我”为1个元素,“是”为1个元素,“1”为1个元素,“中国人”为1个元素,“35”为1个元素,“love”为1个元素。
同时,基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中,即序列中,先划分得到的元素排在后划分得到的元素前面。
S2:建立用户昵称的昵称困惑度计算公式
Figure BDA0001429655950000051
其中,nick-perplexity为昵称困惑度,xi是序列中的第i(i为正整数)个元素,n为序列的子序列所包含的元素个数,取值为2或3,m(m为大于1的正整数)为整个序列中元素的个数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
Figure BDA0001429655950000052
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数。用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
用户昵称的昵称困惑度计算公式由两部分组成,加号前面的项是序列出现概率的负平均自然数,该项表示序列中元素的困惑度,值越大说明整个序列出现的平均概率越小,用户昵称的真实性越低,加号后面的项是序列中的子序列数,该项表示用户昵称的记忆难易程度,子序列数越多说明用户的昵称越难以记忆,显然,nick-perplexity的值越小,说明用户昵称的真实性越高,其对应的用户为真实用户,而不是机器生成的恶意账号。真实的用户的用户昵称应该是便于记忆,且复杂程度较低的,同时真实用户的用户昵称从语言模型的角度上看,其子序列出现的可能性应该较大,而一个恶意账号的用户昵称从统计学的角度上将,其出现的概率会非常低,因此可以采用困惑度的方式去判断用户昵称的真实性。
S3:进行用户昵称的昵称困惑度计算,昵称困惑度值越小,其对应的用户昵称真实度越高。即将用户昵称对应的序列带入到昵称困惑度计算公式中,进行昵称困惑度的计算,产生一量化值,便于对用户昵称的真实性进行更直观的判断,具体多少数值的昵称困惑度对应的是恶意账户的用户昵称,由人为根据实际情况进行设定。
在一种实施方式中,例如对“我的爱人12”的用户昵称进行昵称困惑度值计算,为方便表述,单个汉字用CC表示,单个词语用CW表示,单个英文单词用EW表示,单个英文字母用EC表示,单个数字用NU表示,单个符号用SPE表示,则将“我的爱人12”拆分为“我|的|爱人|12”,对应序列为{CC,CC,CW,NB}。
这里取n=2,得到该用户昵称的子序列为{(CC,CC),(CC,CW),(CW,NB)},以及{(CC),(CC),(CW)},计算子序列在整个用户昵称语料库中出现的次数,N(CC,CC)=1000,N(CC,CW)=800,N(CW,NB)=2000,N(CC)=20000,N(CW)=10000,取权重系数0.5,从而计算用户昵称的nick-perplexity=-(log(1000/20000)+log(800/20000)+log(2000/10000))/3+3*0.5=4.11。
本发明的用户昵称真实性评估方法的原理在于,基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式对用户的用户昵称进行元素划分后计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
另外,对应上述用户昵称真实性评估方法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的用户昵称真实性评估方法的步骤。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,对应上述用户昵称真实性评估方法,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的用户昵称真实性评估方法。
本发明实施例还提供一种基于上述用户昵称真实性评估方法的用户昵称真实性评估系统,包括拆分模块、创建模块和执行模块。
拆分模块用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;创建模块用于建立用户昵称的昵称困惑度计算公式
Figure BDA0001429655950000071
执行模块用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。用户昵称为文本信息,用户昵称包含汉字、英文、数字或符号中的至少一类。对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
本发明实施例的用户昵称真实性评估系统的原理在于,基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式,同时拆分模块对用户的用户昵称进行元素划分,然后执行模块进行计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (7)

1.一种用户昵称真实性评估方法,其特征在于,包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
S2:建立用户昵称的昵称困惑度计算公式
Figure FDA0002917148190000011
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
Figure FDA0002917148190000012
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高;
对于用户昵称的元素划分按照文本元素划分原则;
所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素;
基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
2.如权利要求1所述的一种用户昵称真实性评估方法,其特征在于:所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
3.如权利要求1所述的一种用户昵称真实性评估方法,其特征在于:所述用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
4.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
5.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。
6.一种用户昵称真实性评估系统,其特征在于,包括:
拆分模块,其用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
创建模块,其用于建立用户昵称的昵称困惑度计算公式
Figure FDA0002917148190000021
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
Figure FDA0002917148190000031
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
执行模块,其用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高;
对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素;
基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
7.如权利要求6所述的一种用户昵称真实性评估系统,其特征在于:所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
CN201710935293.6A 2017-10-10 2017-10-10 用户昵称真实性评估方法、存储介质、电子设备及系统 Active CN107861941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710935293.6A CN107861941B (zh) 2017-10-10 2017-10-10 用户昵称真实性评估方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710935293.6A CN107861941B (zh) 2017-10-10 2017-10-10 用户昵称真实性评估方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN107861941A CN107861941A (zh) 2018-03-30
CN107861941B true CN107861941B (zh) 2021-04-23

Family

ID=61698382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710935293.6A Active CN107861941B (zh) 2017-10-10 2017-10-10 用户昵称真实性评估方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN107861941B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144100B (zh) * 2019-12-24 2023-08-18 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823859A (zh) * 2014-02-21 2014-05-28 安徽博约信息科技有限责任公司 基于决策树规则和多种统计模型相结合的人名识别算法
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033941A1 (en) * 2006-08-07 2008-02-07 Dale Parrish Verfied network identity with authenticated biographical information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823859A (zh) * 2014-02-21 2014-05-28 安徽博约信息科技有限责任公司 基于决策树规则和多种统计模型相结合的人名识别算法
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置

Also Published As

Publication number Publication date
CN107861941A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN109241523B (zh) 变体作弊字段的识别方法、装置及设备
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN111078892A (zh) 对抗样本生成方法、装置、电子设备及存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN110516210A (zh) 文本相似度的计算方法和装置
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN107861941B (zh) 用户昵称真实性评估方法、存储介质、电子设备及系统
CN114936594A (zh) 一种利用标点进行文本后门攻击的方法
CN111402924B (zh) 一种口语测评方法、设备及计算机可读存储介质
CN112100355A (zh) 一种智能交互方法、装置及设备
CN112951013B (zh) 一种学习交互方法、装置、电子设备以及存储介质
CN109918646B (zh) 篇章因果关系判断方法、系统、装置
CN114417268A (zh) 水印加密和溯源用户泄密的方法、装置及计算机存储介质
CN113392309A (zh) 一种数据处理方法、装置、设备及存储介质
CN112364154A (zh) 一种评论内容显示方法及装置
JP5807966B2 (ja) 文書評価学習装置、文書評価装置、方法、及びプログラム
Yamaguchi et al. An accessible captcha system for people with visual disability–generation of human/computer distinguish test with documents on the net
CN111401060B (zh) 一种干扰词生成方法、装置、电子设备和存储介质
Tupsamudre et al. POSTER: improved markov strength meters for passwords
JP4919386B2 (ja) 情報抽出・表示装置
JP2018045690A5 (zh)
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
CN111274392B (zh) 一种多频道联合处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant