CN107861941B - 用户昵称真实性评估方法、存储介质、电子设备及系统 - Google Patents
用户昵称真实性评估方法、存储介质、电子设备及系统 Download PDFInfo
- Publication number
- CN107861941B CN107861941B CN201710935293.6A CN201710935293A CN107861941B CN 107861941 B CN107861941 B CN 107861941B CN 201710935293 A CN201710935293 A CN 201710935293A CN 107861941 B CN107861941 B CN 107861941B
- Authority
- CN
- China
- Prior art keywords
- nickname
- user
- sequence
- elements
- confusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用户昵称真实性评估方法、存储介质、电子设备及系统,涉及大数据风控领域,该方法包括S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;S2:建立用户昵称的昵称困惑度计算公式;S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。本发明能够有效而快速地对恶意用户的用户昵称进行判断和识别。
Description
技术领域
本发明涉及大数据风控领域,具体涉及一种用户昵称真实性评估方法、存储介质、电子设备及系统。
背景技术
在直播行业,某些非法人员出于利益的考虑,会注册多个账户,俗称恶意账号,从而进行刷关注数、观众数等恶意行为来增加某个主播的人气,一般来讲,非法人员为了达到快速注册账户的目的,会采用较简单和随意的账户昵称,如my71ym4g4等,此类昵称通常由机器自动生成,且没有任何含义。正常用户的昵称虽然具有一定的随意性,但大多都还是正常的语言表达文本形式,且容易记忆,根据这一点,便可通过一定的方法来评估用户的昵称是否真实合理,从而判断相对应的用户账号是否是恶意账号。
目前,对于恶意账号昵称的识别是基于一定的规则的,即从收集的恶意账号中发现并总结其昵称的规律,形成固定规则,从而比对新增的可疑账号昵称,判断其是否是恶意账号,但这种识别方法需要大量的人力工作去总结恶意账号昵称的规律,费时费力,识别效率和准确率低。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种用户昵称真实性评估方法,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
为达到以上目的,本发明采取的技术方案是,包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
S2:建立用户昵称的昵称困惑度计算公式
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。
在上述技术方案的基础上,所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
在上述技术方案的基础上,
对于用户昵称的元素划分按照文本元素划分原则;
所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
在上述技术方案的基础上,基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
在上述技术方案的基础上,所述用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
本发明还提供一种用户昵称真实性评估系统,其特征在于,包括:
拆分模块,其用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
创建模块,其用于建立用户昵称的昵称困惑度计算公式
执行模块,其用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。
在上述技术方案的基础上,所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
在上述技术方案的基础上,对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
与现有技术相比,本发明的优点在于:基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式对用户的用户昵称进行元素划分后计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
附图说明
图1为本发明实施例中一种用户昵称真实性评估方法的流程图;
图2为本发明实施例中一种电子设备的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种用户昵称真实性评估方法,通过对用户昵称进行分析判断,进而判断用户昵称对应的账号是否为用于刷人气、增加直播间在线人数的恶意账号。本发明实施例的用户昵称真实性评估方法具体包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列。用户昵称为文本信息,即用户在进行账号注册时输入的一段文本,用户昵称包含汉字、英文、数字或符号中的至少一类。
对于用户昵称的元素划分按照文本元素划分原则,文本元素划分原则为:单个字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。例如,某个用户昵称为“a我是1中国人35love、”,其中,“a”为1个元素,“我”为1个元素,“是”为1个元素,“1”为1个元素,“中国人”为1个元素,“35”为1个元素,“love”为1个元素。
同时,基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中,即序列中,先划分得到的元素排在后划分得到的元素前面。
S2:建立用户昵称的昵称困惑度计算公式
其中,nick-perplexity为昵称困惑度,xi是序列中的第i(i为正整数)个元素,n为序列的子序列所包含的元素个数,取值为2或3,m(m为大于1的正整数)为整个序列中元素的个数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数。用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
用户昵称的昵称困惑度计算公式由两部分组成,加号前面的项是序列出现概率的负平均自然数,该项表示序列中元素的困惑度,值越大说明整个序列出现的平均概率越小,用户昵称的真实性越低,加号后面的项是序列中的子序列数,该项表示用户昵称的记忆难易程度,子序列数越多说明用户的昵称越难以记忆,显然,nick-perplexity的值越小,说明用户昵称的真实性越高,其对应的用户为真实用户,而不是机器生成的恶意账号。真实的用户的用户昵称应该是便于记忆,且复杂程度较低的,同时真实用户的用户昵称从语言模型的角度上看,其子序列出现的可能性应该较大,而一个恶意账号的用户昵称从统计学的角度上将,其出现的概率会非常低,因此可以采用困惑度的方式去判断用户昵称的真实性。
S3:进行用户昵称的昵称困惑度计算,昵称困惑度值越小,其对应的用户昵称真实度越高。即将用户昵称对应的序列带入到昵称困惑度计算公式中,进行昵称困惑度的计算,产生一量化值,便于对用户昵称的真实性进行更直观的判断,具体多少数值的昵称困惑度对应的是恶意账户的用户昵称,由人为根据实际情况进行设定。
在一种实施方式中,例如对“我的爱人12”的用户昵称进行昵称困惑度值计算,为方便表述,单个汉字用CC表示,单个词语用CW表示,单个英文单词用EW表示,单个英文字母用EC表示,单个数字用NU表示,单个符号用SPE表示,则将“我的爱人12”拆分为“我|的|爱人|12”,对应序列为{CC,CC,CW,NB}。
这里取n=2,得到该用户昵称的子序列为{(CC,CC),(CC,CW),(CW,NB)},以及{(CC),(CC),(CW)},计算子序列在整个用户昵称语料库中出现的次数,N(CC,CC)=1000,N(CC,CW)=800,N(CW,NB)=2000,N(CC)=20000,N(CW)=10000,取权重系数0.5,从而计算用户昵称的nick-perplexity=-(log(1000/20000)+log(800/20000)+log(2000/10000))/3+3*0.5=4.11。
本发明的用户昵称真实性评估方法的原理在于,基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式对用户的用户昵称进行元素划分后计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
另外,对应上述用户昵称真实性评估方法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的用户昵称真实性评估方法的步骤。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,对应上述用户昵称真实性评估方法,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的用户昵称真实性评估方法。
本发明实施例还提供一种基于上述用户昵称真实性评估方法的用户昵称真实性评估系统,包括拆分模块、创建模块和执行模块。
拆分模块用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;创建模块用于建立用户昵称的昵称困惑度计算公式
执行模块用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高。用户昵称为文本信息,用户昵称包含汉字、英文、数字或符号中的至少一类。对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素。
本发明实施例的用户昵称真实性评估系统的原理在于,基于自然语言模型中,用户的昵称应该是便于记忆,且复杂度较低的,采用困惑度的计算方式,同时拆分模块对用户的用户昵称进行元素划分,然后执行模块进行计算,进而得到具体的数值以对用户昵称的真实性进行度量和判断,判断方便,采用量化判定方式,能够有效而快速地对恶意用户的用户昵称进行判断和识别。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (7)
1.一种用户昵称真实性评估方法,其特征在于,包括:
S1:对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
S2:建立用户昵称的昵称困惑度计算公式
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
S3:进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高;
对于用户昵称的元素划分按照文本元素划分原则;
所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素;
基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
2.如权利要求1所述的一种用户昵称真实性评估方法,其特征在于:所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
3.如权利要求1所述的一种用户昵称真实性评估方法,其特征在于:所述用户昵称语料库中存储有所有注册用户的用户昵称以及用户昵称对应的序列。
4.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
5.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。
6.一种用户昵称真实性评估系统,其特征在于,包括:
拆分模块,其用于对用户昵称进行拆分,形成多个元素,且拆分形成的多个元素构成一个序列;
创建模块,其用于建立用户昵称的昵称困惑度计算公式
其中,nick-perplexity为昵称困惑度,xi是序列中的第i个元素,其中i为正整数,n为序列的子序列所包含的元素个数,取值为2或3,m为整个序列中元素的个数,其中m为大于1的正整数,N是序列中元素个数为n的子序列的个数,N=m-n+1,k是权重系数,为取值在0和1之间的常数;
p(xi|xi-n+1,...,xi-1)是元素xi出现的条件概率,其计算公式为
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整个用户昵称语料库中出现的次数,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整个用户昵称语料库中出现的次数;
执行模块,其用于根据序列中的元素进行用户昵称的昵称困惑度计算,所述昵称困惑度值越小,其对应的用户昵称真实度越高;
对于用户昵称的元素划分按照文本元素划分原则;所述文本元素划分原则为:单个汉字为1个元素,单个词语为1个元素,单个英文单词为1个元素,单个英文字母为1个元素,单个数字为1个元素,连续数字为1个元素,单个符号为1个元素;
基于文本元素划分原则,对用户昵称进行元素划分,并按照先后顺序,将划分得到的元素放入序列中。
7.如权利要求6所述的一种用户昵称真实性评估系统,其特征在于:所述用户昵称为文本信息,所述用户昵称包含汉字、英文、数字或符号中的至少一类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710935293.6A CN107861941B (zh) | 2017-10-10 | 2017-10-10 | 用户昵称真实性评估方法、存储介质、电子设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710935293.6A CN107861941B (zh) | 2017-10-10 | 2017-10-10 | 用户昵称真实性评估方法、存储介质、电子设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107861941A CN107861941A (zh) | 2018-03-30 |
CN107861941B true CN107861941B (zh) | 2021-04-23 |
Family
ID=61698382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710935293.6A Active CN107861941B (zh) | 2017-10-10 | 2017-10-10 | 用户昵称真实性评估方法、存储介质、电子设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861941B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144100B (zh) * | 2019-12-24 | 2023-08-18 | 五八有限公司 | 一种问题文本识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN104866478A (zh) * | 2014-02-21 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 恶意文本的检测识别方法及装置 |
CN105991620A (zh) * | 2015-03-05 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 恶意账户识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080033941A1 (en) * | 2006-08-07 | 2008-02-07 | Dale Parrish | Verfied network identity with authenticated biographical information |
-
2017
- 2017-10-10 CN CN201710935293.6A patent/CN107861941B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN104866478A (zh) * | 2014-02-21 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 恶意文本的检测识别方法及装置 |
CN105991620A (zh) * | 2015-03-05 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 恶意账户识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107861941A (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241523B (zh) | 变体作弊字段的识别方法、装置及设备 | |
CN112926327B (zh) | 一种实体识别方法、装置、设备及存储介质 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN111078892A (zh) | 对抗样本生成方法、装置、电子设备及存储介质 | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
CN111444905B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN110516210A (zh) | 文本相似度的计算方法和装置 | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN107861941B (zh) | 用户昵称真实性评估方法、存储介质、电子设备及系统 | |
CN114936594A (zh) | 一种利用标点进行文本后门攻击的方法 | |
CN111402924B (zh) | 一种口语测评方法、设备及计算机可读存储介质 | |
CN112100355A (zh) | 一种智能交互方法、装置及设备 | |
CN112951013B (zh) | 一种学习交互方法、装置、电子设备以及存储介质 | |
CN109918646B (zh) | 篇章因果关系判断方法、系统、装置 | |
CN114417268A (zh) | 水印加密和溯源用户泄密的方法、装置及计算机存储介质 | |
CN113392309A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN112364154A (zh) | 一种评论内容显示方法及装置 | |
JP5807966B2 (ja) | 文書評価学習装置、文書評価装置、方法、及びプログラム | |
Yamaguchi et al. | An accessible captcha system for people with visual disability–generation of human/computer distinguish test with documents on the net | |
CN111401060B (zh) | 一种干扰词生成方法、装置、电子设备和存储介质 | |
Tupsamudre et al. | POSTER: improved markov strength meters for passwords | |
JP4919386B2 (ja) | 情報抽出・表示装置 | |
JP2018045690A5 (zh) | ||
JP7131518B2 (ja) | 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム | |
CN111274392B (zh) | 一种多频道联合处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |