CN113010670B - 账号信息聚类方法、检测方法、装置及存储介质 - Google Patents

账号信息聚类方法、检测方法、装置及存储介质 Download PDF

Info

Publication number
CN113010670B
CN113010670B CN202110195867.7A CN202110195867A CN113010670B CN 113010670 B CN113010670 B CN 113010670B CN 202110195867 A CN202110195867 A CN 202110195867A CN 113010670 B CN113010670 B CN 113010670B
Authority
CN
China
Prior art keywords
vector
word
account
account name
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110195867.7A
Other languages
English (en)
Other versions
CN113010670A (zh
Inventor
李文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110195867.7A priority Critical patent/CN113010670B/zh
Publication of CN113010670A publication Critical patent/CN113010670A/zh
Application granted granted Critical
Publication of CN113010670B publication Critical patent/CN113010670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种账号信息聚类方法、检测方法、装置及存储介质,通过对账号名称信息进行分词处理,得到多个目标单词,然后对这些目标单词进行向量化处理,得到多个单词向量,再根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量,接着根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合,由于本申请是先进行分词处理和向量化处理,再根据词性类型进行加权求和,由于词性类型是确定的,因此即使账号名称信息中包括有较多的随机单词,也能够突出相应的单词向量之间的区别,从而能够更加准确地对账号名称信息进行识别及聚类。可见,本申请可以广泛应用于自然语言处理技术中。

Description

账号信息聚类方法、检测方法、装置及存储介质
技术领域
本申请涉及自然语言处理技术,尤其是一种账号信息聚类方法、检测方法、装置及计算机可读存储介质。
背景技术
计算机、通信以及网络技术的迅速发展,使得包括电脑、平板电脑、智能手机、网络电视等在内的终端设备的性能不断提高,相应地,互联网社交平台,凭借其多元性、迅捷性、交互性、易复制性、多媒体化等特点,已逐渐成为人们沟通交流的主要途径之一。人们通过在互联网社交平台上注册账号,即可通过其账号在互联网社交平台上发布心情动态、与其他用户交流思想看法等。此外,对于具有消费交易功能的互联网社交平台,用户还能够通过账号进行消费交易,大大提高了人们日常生活的便利性。
但是,由于互联网社交平台一般都不会过于限制用户注册账号,并且,用户所注册的账号一般难以与用户的真实身份对应,从而给了不法分子通过批量注册账号以扰乱互联网社交平台的可乘之机。
为了解决上述问题,需要对所注册的账号名称进行文本识别及聚类。但是,由于账号名称具有很强的随意性,因此导致目前常用的文本识别及聚类方法对账号名称的识别及聚类效果较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种账号信息聚类方法、账号信息检测方法、账号信息聚类装置、账号信息检测装置及计算机可读存储介质,能够提高识别及聚类账号名称的准确性。
一方面,本申请实施例提供了一种账号信息聚类方法,包括以下步骤:
获取账号名称信息;
对所述账号名称信息进行分词处理,得到多个目标单词;
对多个所述目标单词进行向量化处理,得到多个单词向量,其中,所述单词向量与所述目标单词一一对应;
根据多个所述目标单词的词性类型对多个所述单词向量进行加权求和,得到账号名称向量;
根据所述账号名称向量和历史账号向量集合的中心向量对所述账号名称向量进行增量聚类处理,得到聚类结果集合。
另一方面,本申请实施例还提供了一种账号信息检测方法,包括以下步骤:
应用如上所述的账号信息聚类方法处理账号名称信息,得到聚类结果集合;
获取所述聚类结果集合所对应的集合类别;
根据所述集合类别确定所述账号名称信息的支付合法性。
另一方面,本申请实施例还提供了一种账号信息聚类装置,包括:
账号信息获取单元,用于获取账号名称信息;
分词单元,用于对所述账号名称信息进行分词处理,得到多个目标单词;
向量化单元,用于对多个所述目标单词进行向量化处理,得到多个单词向量,其中,所述单词向量与所述目标单词一一对应;
向量计算单元,用于根据多个所述目标单词的词性类型对多个所述单词向量进行加权求和,得到账号名称向量;
聚类单元,用于根据所述账号名称向量和历史账号向量集合的中心向量对所述账号名称向量进行增量聚类处理,得到聚类结果集合。
另一方面,本申请实施例还提供了一种账号信息检测装置,包括:
如上所述的账号信息聚类装置,用于处理账号名称信息,得到聚类结果集合;
类别获取单元,用于获取所述聚类结果集合所对应的集合类别;
合法性确定单元,用于根据所述集合类别确定所述账号名称信息的支付合法性。
另一方面,本申请实施例还提供了一种账号信息聚类装置,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述存储器存储所述程序,所述处理器执行至少一个所述程序以实现如上所述的账号信息聚类方法。
另一方面,本申请实施例还提供了一种账号信息检测装置,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述存储器存储所述程序,所述处理器执行至少一个所述程序以实现如上所述的账号信息检测方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如上所述的账号信息聚类方法,或者实现如上所述的账号信息检测方法。
本申请实施例的有益效果是:
通过对账号名称信息进行分词处理,得到多个目标单词,然后对这些目标单词进行向量化处理,得到多个单词向量,再根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量,接着根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合。本申请实施例在对账号名称信息进行识别及聚类的过程中,先对账号名称信息进行分词处理以得到多个目标单词,在将这些目标单词向量化为单词向量之后,再根据这些目标单词的词性类型对这些单词向量进行加权求和,由于目标单词的词性类型是确定的,所以,即使账号名称信息中包括有较多的随机单词,也能够突出相应的单词向量之间的区别,从而能够更加准确地对账号名称信息进行识别及聚类。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种账号信息聚类方法的流程图;
图3是本申请一个具体示例提供的得到账号名称向量的处理过程的示意图;
图4是图2中步骤400的具体方法流程图;
图5是图4中步骤410的具体方法流程图;
图6是图2中步骤200的一个实施例的具体方法流程图;
图7是图2中步骤200的另一实施例的具体方法流程图;
图8是图2中步骤100之后的步骤的一个实施例的具体方法流程图;
图9是图2中步骤500的具体方法流程图;
图10是本申请一个示例提供的账号信息聚类方法的方案流程图;
图11是与图10对应的步骤流程图;
图12是本申请实施例提供的一种账号信息检测方法的流程图;
图13是图12中步骤800的一个实施例的具体方法流程图;
图14是图12中步骤800的另一实施例的具体方法流程图;
图15是本申请实施例提供的一种账号信息聚类装置的结构示意图;
图16是本申请实施例提供的一种账号信息检测装置的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)账号信息:是指用户在互联网社交平台中注册后获得的用于登录或者用于支付转账的标识信息,例如手机号、微信号或者QQ号等。
2)账号名称信息:是指与账号信息相关的信息,例如用户的昵称,可以由中文、英文、数字或者其他符号中的至少一种构成,其中,其他符号可以为其他语言符号或者其他标识符号等。
3)分词:是指将句子切分成一个一个单独的词,将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,中文分词技术的目标就是将一句话切分为一个一个单独的中文词语,从而使得机器能够识别人类的语言。
4)单词向量:是指将一个单词转化为向量的表示。
5)词性:是指以词的特点作为划分词类的根据,词类是一个语言学术语,是语言中词的语法分类,以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。
6)词性类型:是指词性的具体类型,包括名词、代词、动词、形容词等。
7)账号名称向量:是指以向量的方式表示的账号名称信息。
8)聚类:是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
9)增量聚类:是指基于增量模式的聚类,例如,将一个新的对象划分到一个已有的簇中,或者将该新的对象划分到一个新的簇中。
10)词向量模型:是指用于将单词映射为单词向量的自然语言处理模型。
11)自然语言处理(Natural Language Processing,NLP):是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
12)Word2vec、OpenAI-GPT、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、语义表示模型(Embeddings fromLanguage Models,ELMo)、双向转换编码器(Bidirectional Encoder Representationfrom Transformer,BERT),为自然语言技术领域常见的模型。Convolutional NeuralNetworks,CNN
本申请实施例所提供的账号信息聚类方法和账号信息检测方法均可以应用于人工智能之中。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
在文本识别及聚类的相关技术中,通常基于word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型,来对输入文本进行处理,具体地,这些模型会将输入文本中的词语转化为词向量,然后以词向量矩阵的方法来表示整个输入文本,利用卷积神经网络及池化等方式对向量矩阵进行处理,得到整个输入文本的向量表示,接着计算该文本向量与已有的向量集合中的中心向量的相似度,根据计算得到的相似度对该文本进行聚类。但是,相关技术中常用的文本识别及聚类方法往往适合具有一定主题内容的短文本,而针对用户所注册的账号名称,则具有很强的随意性,并且不一定具有特定的主题内容,特别地,在批量注册的账号名称中,往往仅有某些关键单词相同或者相似,而其他更多的单词则是随机的,所以,常用的文本识别及聚类方法对账号名称的识别及聚类效果较差。
目前,在一些相关技术中,也有针对账号名称这种不一定具有特定的主题内容的文本的识别及聚类方法,该方法先对目标账号名称进行分词,然后计算该目标账号名称和已有的账号名称的jaccad相似度,接着利用K-means等常规聚类算法实现对该目标账号名称的聚类。由于jaccad相似度为两个集合的交集大小与这两个集合的并集大小的比值,并且jaccad相似度越大,样本相似度越高,因此,该方法在对账号名称进行识别及聚类处理时,存在一定的局限性。例如,假设一个已注册的账号名称为“深圳市天天开心杂货店第一分店”,一个待聚类的新注册账号名称为“广州市天天开心零售店第一分店”,那么,利用上述的常规方法对该新注册账号名称进行识别及聚类时,先对该新注册账号名称进行分词处理,得到“广州市”、“天天”、“开心”、“零售店”、“第一”和“分店”这些单词,那么,计算得到的jaccad相似度为4/8=0.5,根据该jaccad相似度,无法判定这两个账号名称是否相近似,因此无法实现对该新注册账号名称的聚类处理。此外,K-means等常规聚类算法无法实现增量聚类,每次接收到新注册的账号名称,均需要把新注册的账号名称和所有历史账号名称进行一次全量聚类,计算量大,导致聚类效率差。
为了提高识别及聚类账号名称的准确性,本申请实施例提供了一种账号信息聚类方法、账号信息检测方法、账号信息聚类装置、账号信息检测装置及计算机可读存储介质,在对账号名称信息进行识别及聚类的过程中,先对账号名称信息进行分词处理以得到多个目标单词,在将这些目标单词向量化为单词向量之后,再根据这些目标单词的词性类型对这些单词向量进行加权求和,由于目标单词的词性类型是确定的,所以,即使账号名称信息中包括有较多的随机单词,也能够突出相应的单词向量之间的区别,从而能够更加准确地对账号名称信息进行识别及聚类。
本申请实施例提供的方案主要涉及的人工智能技术是自然语言处理技术,具体通过如下实施例进行说明。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括服务器201和终端202。
服务器201可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器201至少具有对文本的识别及聚类功能,能够对账号名称信息进行分词处理、对分词处理后得到的目标单词进行向量化处理、对单词向量进行加权求和以得到账号名称向量,以及根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理。另外,用于对目标单词进行向量化处理的词向量模型的下载或构建功能、对词向量模型的训练功能,都可以由服务器201实现,或者,也可以由与服务器201关联的其他服务器实现。在本申请实施例中,以服务器201具有词向量模型的下载功能、对文本的识别及聚类功能为例进行说明。
终端202可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。可选地,终端202上运行有客户端,如浏览器客户端、互联网社交平台客户端或者购物类客户端等。终端202以及服务器201可以通过有线或无线通信方式进行直接或间接的连接,本申请在此不做限制。
在一种可选的实现方式中,终端202响应于用户在客户端中的账号注册操作,获取用户所录入的账号名称信息,向服务器201发送该账号名称信息;服务器201基于接收到的账号名称信息,对该账号名称信息进行分词处理,得到多个目标单词,然后对这些目标单词进行向量化处理,得到多个单词向量,再根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量,接着根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合。
图2是本申请实施例提供的一种账号信息聚类方法的流程图。在本申请实施例中,以服务器为执行主体为例进行说明,参见图2,该实施例包括以下步骤100至步骤500。
步骤100,获取账号名称信息。
在本步骤中,账号名称信息可以为用户所注册的账号的昵称,可以由中文、英文、数字或者其他符号中的至少一种构成,并且,账号名称信息不一定具有特定的主题内容。需要说明的是,在一般情况下,账号名称信息存在字符数限制,例如不超过20个字符。该账号名称信息可以为服务器从终端获取得到,例如,用户通过终端注册账号后,服务器获取终端发送的用户在注册账号过程中所录入的账号名称信息。
步骤200,对账号名称信息进行分词处理,得到多个目标单词。
本步骤中,对账号名称信息的分词处理,可以是按照账号名称信息中的上下文语义划分成多个单词,例如,对账号名称信息“天天杂货店第一分店”进行分词处理,可以得到“天天”、“杂货店”和“第一分店”三个单词;或者,可以按照账号名称信息中的单词的词性类型划分成多个单词,例如,对账号名称信息“天天杂货店第一分店”进行分词处理,可以得到“天天”、“杂货店”、“第一”和“分店”四个单词,其中,单词“天天”的词性类型为“副词”,单词“杂货店”的词性类型为“名词”,单词“第一”的词性类型为“数词”,单词“分店”的词性类型为“名词”。可以根据实际应用情况选择合适的分词处理方式,以便于提高对账号名称信息的聚类的效率和准确性。例如,可以采用Python软件所提供的分词工具,如“盘古分词”工具、“结巴分词”工具等,对账号名称信息的分词处理,由于上述分词工具能够支持分词处理以及词性标注,因此在采用诸如“盘古分词”工具、“结巴分词”工具等分词工具对账号名称信息进行分词处理而得到多个目标单词时,能够得到这些目标单词的词性类型,从而能够方便后续步骤根据这些目标单词的词性类型得到账号名称向量。
步骤300,对多个目标单词进行向量化处理,得到多个单词向量,其中,单词向量与目标单词一一对应。
本步骤中,对多个目标单词进行向量化处理,可以有多种不同的实施方式,本实施例对此并不作具体限定。例如,可以采用Word2vec模型、OpenAI-GPT模型、语义表示模型等常规模型对这些目标单词进行向量化处理,也可以采用One-hot编码的方式实现对这些目标单词的向量化处理,还可以采用腾讯ailab所发布的800万开源词向量模型把这些目标单词映射为单词向量,以实现对这些目标单词的向量化处理。
需要说明的是,经过向量化处理得到的单词向量的数量,与进行向量化处理的目标单词的数量相一致,并且,单词向量与目标单词一一对应。例如,对“天天”、“杂货店”、“第一”和“分店”这四个目标单词进行向量化处理,会得到与“天天”对应的第一单词向量、与“杂货店”对应的第二单词向量、与“第一”对应的第三单词向量和与“分店”对应的第四单词向量。
步骤400,根据多个目标单词的词性类型对多个单词向量进行加权求和,得到账号名称向量。
本步骤中,由于上述步骤300得到了与目标单词对应的单词向量,因此可以根据这些单词向量得到与整个账号名称信息对应的账号名称向量。由于不同目标单词具有不同的词性类型,并且,在账号名称信息中,不同词性类型的目标单词所起到的识别作用是不相同的,为了突出账号名称信息中起到关键识别作用的目标单词,并且提高后续步骤中对账号名称向量的聚类准确性,可以根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量。例如,对于“美丽天使”这一账号名称信息,包括有“美丽”和“天使”这两个目标单词,当对这两个目标单词进行向量化处理后,可以得到分别与“美丽”和“天使”对应的单词向量,假设与“美丽”对应的单词向量为A,与“天使”对应的单词向量为B,由于“美丽”的词性类型为“形容词”,“天使”的词性类型为“名词”,那么,可以为A赋予权重值x,为B赋予权重值y,则,根据多个目标单词的词性类型对多个单词向量进行加权求和,可以为xA+yB,所以,得到的账号名称向量为xA+yB。通过根据多个目标单词的词性类型对多个单词向量进行加权求和,即使账号名称信息中包括有较多的随机单词,也能够根据与词性类型对应的权重值突出单词向量之间的区别,从而能够更加准确地对账号名称信息进行识别及聚类。
步骤500,根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合。
本步骤中,由于上述步骤400得到了账号名称向量,因此可以根据该账号名称向量和历史账号向量集合的中心向量,对该账号名称向量进行增量聚类处理,得到聚类结果集合。在根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理的过程中,可以先计算账号名称向量和历史账号向量集合的中心向量的相似度,例如欧氏距离、皮尔逊相关系数、余弦相似度等,接着根据计算得到的相似度对账号名称向量进行增量聚类处理,例如采用BRICH算法、COBWEB算法、DBSCAN算法或Singlepass算法等实现增量聚类处理。由于本步骤实现的是增量聚类,因此不需要进行全量聚类,具有计算量小、聚类效率高等优点。
需要说明的是,历史账号向量集合的中心向量,是指历史账号向量集合中所有账号向量的平均值。例如,假设历史账号向量集合中包括有三个账号向量,则这个历史账号向量集合的中心向量为这三个账号向量的平均值。又如,假设有两个历史账号向量集合,第一个历史账号向量集合包括有五个账号向量,第二个历史账号向量集合包括有四个账号向量,则第一个历史账号向量集合的中心向量为这第一个历史账号向量集合中的五个账号向量的平均值,第二个历史账号向量集合的中心向量为这第二个历史账号向量集合中的四个账号向量的平均值。
需要说明的是,欧氏距离是指向量空间中向量的自然长度,例如向量空间中账号名称向量到历史账号向量集合的中心向量的距离。
皮尔逊相关系数是用两个向量的协方差除以这两个向量的标准差而得到,当皮尔逊相关系数为1时,两个向量为完全正相关;当皮尔逊相关系数为-1时,两个向量为完全负相关;皮尔逊相关系数的绝对值越大,两个向量的相关性越强;皮尔逊相关系数越接近于0,两个向量的相关度越弱。
余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量这两个向量间的差异大小的度量;余弦相似度越接近1,表明两个向量的夹角越接近0度,即两个向量越相似。
BRICH(Balanced Iterative Reducing and Clustering Using Hierarchies,利用层次方法的平衡迭代规约和聚类)算法,是利用一个聚类特征树(Clustering FeatureTree,CF Tree)的分层数据结构来对数据点进行动态的、增量式的聚类。CF Tree是存储了层次聚类过程中的聚类特征信息的一个加权平衡树,树中每个节点代表一个子聚类,并保持有一个聚类特征向量CF。每个聚类特征向量是一个三元组,存储了一个聚类的统计信息,包括数据点的数目,这些数据点的线性和,以及这些数据点的平方和。一个CF Tree是用于存储聚类特征CF的平衡树,具有两个参数:每个节点的最大子节点数和每个子聚类的最大直径。当有新数据插入时,就动态地构建CF Tree,用以实现增量聚类。
COBWEB算法是一种流行的简单增量概念聚类算法,其输入对象采用分类属性-值对来描述。该算法以一个分类树的形式创建层次聚类,分类树的每个节点对应一个概念,包含有概念的一个概率描述被分在对应的节点下的对象中,在分类树某个层次上的兄弟节点形成了一个划分。为了用分类树对一个对象进行分类,采用了一个部分匹配函数沿着“最佳”匹配节点的路径在树中向下移动,寻找可以分类该对象的最好节点。这个判定基于将对象临时置于每个节点,并计算结果划分的分类效用,产生最高分类效用的位置即是适合该对象的节点。但是,如果该对象不属于树中现有的任何概念,则需要为该对象创建一个新的类别。
DBSCAN(Density-Based Spatial Clustering of Application with Noise,基于高密度连接区域的密度聚类)算法,其采用空间索引技术来搜索对象的邻域,从核心对象出发,把所有密度可达的对象组成一个簇,当没有新的对象可以被添加到任何簇时,该算法过程结束。
Singlepass算法,是一种流式的聚类算法,每个样本只会参与一次样本聚类,被广泛应用于文本的在线聚类。该算法的基本原理为:对于某个未知的新样本,如果与现有的某个类足够相似,则将该新样本划分到这个类中,否则,该新样本自成一类。
下面以具体的示例说明得到账号名称向量的处理过程:
参照图3所示,假设获取到账号名称信息“看喔盆友圈扫码看大片”,先对该账号名称信息进行分词处理,得到“看”、“喔”、“盆友圈”、“扫码”、“看”和“大片”这些目标单词,其中,目标单词“看”的词性类型为动词,目标单词“喔”的词性类型为语气词,目标单词“盆友圈”的词性类型为名词,目标单词“扫码”的词性类型为动词,目标单词“看”的词性类型为动词,目标单词“大片”的词性类型为名词,接着对这些目标单词进行向量化处理(如词向量映射),分别得到包括有200个维度的向量数据的单词向量,然后根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量,其中,目标单词“看”所对应的单词向量的权重值为1,目标单词“喔”所对应的单词向量的权重值为0.5,目标单词“盆友圈”所对应的单词向量的权重值为1,目标单词“扫码”所对应的单词向量的权重值为1,目标单词“看”所对应的单词向量的权重值为1,目标单词“大片”所对应的单词向量的权重值为1。
本申请实施例提供的技术方案,通过对账号名称信息进行分词处理,得到多个目标单词,然后对这些目标单词进行向量化处理,得到多个单词向量,再根据这些目标单词的词性类型对这些单词向量进行加权求和,得到账号名称向量,接着根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合。本申请实施例与常用的对短文本的识别及聚类方法不同,常用的对短文本的识别及聚类方法往往适合具有一定主题内容的短文本,而用户所注册的账号名称一般具有很强的随意性,不一定具有特定的主题内容,特别地,在批量注册的账号名称中,往往仅有某些关键单词相同或者相似,而其他更多的单词则是随机的,因此,常用的对短文本的识别及聚类方法对账号名称的识别及聚类效果较差,而本申请实施例提供的技术方案,并不需要准确确定出账号名称信息的具体含义,只需突出起到关键的识别及聚类作用的单词即可。本申请实施例在对账号名称信息进行识别及聚类的过程中,先对账号名称信息进行分词处理以得到多个目标单词,在将这些目标单词向量化为单词向量之后,再根据这些目标单词的词性类型对这些单词向量进行加权求和,由于目标单词的词性类型是确定的,所以,即使账号名称信息中包括有较多的随机单词,也能够突出相应的单词向量之间的区别,从而能够更加准确地对账号名称信息进行识别及聚类。
参照图4所示,本申请的一个实施例,对步骤400进行进一步的说明,在执行步骤300得到单词向量之后,在单词向量包括至少一个维度的向量数据的情况下,步骤400具体可以包括步骤410至步骤420。本实施例中的步骤410至步骤420,首先确定单词向量的每一个维度的向量数据的权重值,再计算得到账号名称向量,具体包括:
步骤410,根据目标单词的词性类型,确定单词向量的每一个维度的向量数据的权重值。
本步骤中,由于步骤300中得到的单词向量包括至少一个维度的向量数据,为了方便根据这些单词向量得到账号名称向量,可以先确定单词向量的每一个维度的向量数据的权重值,由于与单词向量对应的目标单词具有其特定的词性类型(步骤200中对账号名称信息进行分词处理的过程中获得目标单词的词性类型),为了突出单词向量之间的区别,可以根据目标单词的词性类型确定该权重值。
需要说明的是,根据目标单词的词性类型确定权重值,可以有不同的实施方式,例如,对于账号名称信息,其中的词性类型为实词的单词,更能够体现该账号名称信息的特点,因此,当词性类型为实词(如名词、动词等)时,可以确定对应的权重值为更高的值,而当词性类型为非实词(如谓词、感叹词等)时,可以确定对应的权重值为更低的值,本实施例对此并不作具体限定。需要说明的是,根据目标单词的词性类型而确定的权重值的具体数值,可以由人为预设,例如,可以预设实词所对应的权重值为1.5,预设非实词所对应的权重值为0.5,本实施例对此并不作具体限定。
需要说明的是,确定单词向量的每一个维度的向量数据的权重值,也可以有不同的实施方式,例如,可以确定单词向量的每一个维度的向量数据的权重值为相同的数值,也可以根据实际情况为不同维度的向量数据赋予不同的权重值,本实施例对此并不作具体限定。以一个示例进行说明,假设单词向量具有200个维度的向量数据,则可以为这200个维度的向量数据赋予相同的权重值;或者,假设单词向量具有200个维度的向量数据,并且该单词向量所对应的目标单词的词性类型为实词,则可以确定该单词向量的每一个维度的向量数据的权重值在一个预设范围(例如1至1.5)之间,其中,该单词向量的前100个维度的向量数据的权重值为1.3,该单词向量的后100个维度的向量数据的权重值为1.4。
步骤420,将所有单词向量按照相同维度的向量数据乘以权重值后再相加得到账号名称向量。
本步骤中,由于步骤420中已经确定了单词向量的每一个维度的向量数据的权重值,因此可以根据这些单词向量及其每一个维度的向量数据的权重值,计算得到账号名称向量。计算得到账号名称向量的具体处理方式,可以为将所有单词向量按照相同维度的向量数据乘以权重值后再相加得到账号名称向量。
下面以一个具体示例说明计算得到账号名称向量的具体处理方式:
表1账号名称向量的数据结构
参见表1所示的账号名称向量的数据结构,假设账号名称信息为“美丽天使”,则可以分词得到“美丽”和“天使”这两个目标单词,其中,“美丽”和“天使”所对应的单词向量均包括有两个维度的向量数据(同样地,账号名称信息“美丽天使”所对应的账号名称向量,也包括有两个维度的向量数据)。“美丽”所对应的单词向量的第一维度的向量数据为X1,第二维度的向量数据为X2,X1和X2的权重值均为a;“天使”所对应的单词向量的第一维度的向量数据为Y1,第二维度的向量数据为Y2,Y1和Y2的权重值均为b。那么,将所有单词向量按照相同维度的向量数据乘以权重值后再相加,即可得到账号名称向量的第一维度的向量数据为aX1+bY1,账号名称向量的第二维度的向量数据为aX2+bY2。
本申请实施例提供的技术方案,单词向量的权重值和与该单词向量对应的目标单词的词性类型是相关的,通过根据目标单词的词性类型而确定单词向量的每一个维度的向量数据的权重值,由于不同目标单词具有不同的词性类型,因此可以区别开不同单词向量的向量数据的权重值,在将所有单词向量按照相同维度的向量数据乘以权重值后再相加得到账号名称向量之后,即可更加准确地对账号名称信息进行识别及聚类。
参照图5所示,本申请的一个实施例,对步骤410进行进一步的说明,该步骤410具体包括步骤411和步骤412。
步骤411,当目标单词的词性类型为实词,确定单词向量的每一个维度的向量数据为第一权值。
本步骤中,当目标单词的词性类型为实词(如名词、动词、形容词等),而实词一般具有确切的含义,因此可以确定对应的单词向量的每一个维度的向量数据为取值更高的第一权值。例如,对于账号名称信息“凡吧匕互联网零售店”,包括有“凡”、“吧”、“匕”、“互联网”和“零售店”这几个目标单词,其中,“互联网”和“零售店”的词性类型均为实词(名词),能够在识别及聚类过程中起到较为重要的作用,因此可以确定“互联网”和“零售店”所对应的单词向量的每一个维度的向量数据为取值更高的第一权值(例如为1.5)。此外,在上述判断规则的基础上,还可以根据实际情况适当增加额外的判断规则,例如,对于微信支付商户的账号名称信息,可以进一步规定词性类型为名词(地名),并且该名词(地名)的字数大于1时,该名词(地名)对应的单词向量的每一个维度的向量数据的权重值为取值更高的第一权值。
步骤412,当目标单词的词性类型为非实词,确定单词向量的每一个维度的向量数据为第二权值。
本步骤中,当目标单词的词性类型为非实词(如谓词、语气词、无意义词等),而非实词一般不具有确切的含义,因此可以确定对应的单词向量的每一个维度的向量数据为取值更低的第二权值。例如,对于账号名称信息“凡吧匕互联网零售店”,包括有“凡”、“吧”、“匕”、“互联网”和“零售店”这几个目标单词,其中,“凡”、“吧”、“匕”的词性类型均为非实词(无意义词),在识别及聚类过程中起到的作用较小,因此可以确定“凡”、“吧”和“匕”所对应的单词向量的每一个维度的向量数据为取值更低的第二权值(例如为0.5)。此外,在上述判断规则的基础上,还可以根据实际情况适当增加额外的判断规则,例如,对于微信支付商户的账号名称信息,可以进一步规定词性类型为非名词(非地名),并且该非名词(非地名)的字数等于1时,该非名词(非地名)对应的单词向量的每一个维度的向量数据的权重值为取值更低的第二权值。
需要说明的是,步骤411中的第一权值大于步骤412中的第二权值,此外,步骤411中的第一权值和步骤412中的第二权值,均可以根据实际应用情况而选择适合的数值,本实施例对此并不作具体限定,满足第一权值大于第二权值即可。
此外,本申请的一个实施例,对步骤300进行进一步的说明,该步骤300具体包括以下步骤:
利用预先训练好的词向量模型对多个目标单词进行词向量映射,得到多个单词向量。
本步骤中,可以利用预先训练好的词向量模型对多个目标单词进行词向量映射,以得到多个单词向量。需要说明的是,所利用的预先训练好的词向量模型,可以为word2vec模型、ELMo模型、openAI-GPT模型、BERT模型或者腾讯ailab所发布的800万开源词向量模型,本实施例对此并不作具体限定。
此外,一实施例中,也可以利用现有的历史账号名称作为训练样本,对该词向量模型进行训练。利用历史账号名称为训练样本对该词向量模型进行训练的过程中,先将历史账号名称输入到该词向量模型,该词向量模型会对该历史账号名称进行词向量映射,并输出对应的单词向量,然后,获取该输出的单词向量与目标单词向量的偏差,反馈到该词向量模型中以改善该词向量模型对历史账号名称的词向量映射处理,直到该词向量模型所输出的单词向量与目标单词向量的偏差小于预设阈值,此时,说明该词向量模型完成了训练的处理。在完成了对词向量模型的预先训练后,即可利用该预先训练好的词向量模型对多个目标单词进行词向量映射,以得到多个单词向量。值得注意的是,由于训练好的词向量模型具有上下文语义,因此,采用词向量模型对目标单词进行词向量映射,能够更有效地识别出相似的账号名称信息;此外,利用词向量模型映射得到的单词向量为连续型的词向量,与相关技术中利用jaccad相似度来对目标单词进行0/1型的离散型向量表示相比,在后续步骤中计算相似度时能够更加准确、细致,并且没有维度灾难的困扰。
参照图6和图7所示,本申请的一个实施例,对步骤200进行进一步的说明,该步骤200具体可以包括步骤210或者步骤220。
步骤210,提取账号名称信息中的关键词信息,对关键词信息进行分词处理,得到多个目标单词。
参照图6,在步骤210中,可以先提取账号名称信息中的关键词信息,即剔除账号名称信息中的无价值信息,再对关键词信息进行分词处理,从而得到能够在识别及聚类过程中起到较为重要的作用的多个目标单词。例如,对于账号名称信息“通辽市科尔沁区科尔沁大街凡吧匕互联网零售店”,可以先提取出其中的关键词信息“通辽市科尔沁区科尔沁大街互联网零售店”,然后再对该关键词信息进行分词处理,得到“通辽市”、“科尔沁区”、“科尔沁”、“大街”、“互联网”和“零售店”这些目标单词。
步骤220,对账号名称信息进行分词处理,得到多个待处理单词,从多个待处理单词中提取多个目标单词。
参照图7,在步骤220中,可以先对账号名称信息进行分词处理以得到多个待处理单词,再从这些待处理单词中提取出能够在识别及聚类过程中起到较为重要的作用的多个目标单词,即剔除这些待处理单词中的无价值的单词,剩下有价值的单词。例如,对于账号名称信息“通辽市科尔沁区科尔沁大街凡吧匕互联网零售店”,可以先对该账号名称信息进行分词处理,得到“通辽市”、“科尔沁区”、“科尔沁”、“大街”、“凡”、“吧”、“匕”、“互联网”和“零售店”这些待处理单词,然后再从这些待处理单词中提取出“通辽市”、“科尔沁区”、“科尔沁”、“大街”、“互联网”和“零售店”这些目标单词。
需要说明的是,步骤210和步骤220互为并列的技术方案,在对账号名称信息进行分词处理以得到多个目标单词的处理过程中,可以采用步骤210的技术方案或者步骤220的技术方案,本实施例对此并不作具体限定。
参照图8所示,本申请的一个实施例,对步骤100之后的步骤进行进一步的说明,在执行步骤100之后,该账号信息聚类方法还可以包括步骤110至步骤120。
步骤110,对账号名称信息进行高频词剔除。
本步骤中,在步骤100中获取到账号名称信息之后,由于账号名称信息中可能包含有“是”、“的”、“了”等出现频率高但无意义的单词,因此可以先对账号名称信息进行高频词剔除,避免这些无意义的高频词对后续步骤中准确识别及聚类账号名称信息的操作产生影响。
步骤120,利用正则匹配,将账号名称信息中的无含义信息进行剔除。
本步骤中,虽然在步骤110中剔除了无意义的高频词,但账号名称信息中可能还包含有“\”、“$”、“?”等无含义信息,这些无含义信息同样会影响后续步骤中对账号名称信息的准确识别及聚类,因此可以利用正则匹配,将账号名称信息中的诸如“\”、“$”、“?”等的无含义信息进行剔除,使得账号名称信息中的信息剩下较为重要的目标单词。
需要说明的是,正则匹配是对字符串进行操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,该字符串包括普通字符(例如英文字母a到z之间的字母)和特殊字符(又称为“元字符”,例如包括“$”、“?”等)。正则匹配是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。
需要说明的是,本实施例中的步骤110和步骤120,可以作为如上实施例的步骤210中“提取账号名称信息中的关键词信息”的细化步骤,也可以作为如上实施例的步骤220中“从多个待处理单词中提取多个目标单词”的细化步骤,本实施例对此并不作具体限定。
参照图9所示,本申请的一个实施例,对步骤500进行进一步的说明,在执行步骤400得到账号名称向量之后,在历史账号向量集合的数量为多个的情况下,步骤500具体可以包括步骤510至步骤520。本实施例中的步骤510至步骤520,首先计算账号名称向量与各个历史账号向量集合的中心向量的相似度,再对账号名称向量进行增量聚类处理,具体包括:
步骤510,计算账号名称向量与各个历史账号向量集合的中心向量的相似度,得到多个相似度参数。
本步骤中,由于在步骤400中计算得到了账号名称向量,因此可以计算账号名称向量与各个历史账号向量集合的中心向量的相似度,分别得到账号名称向量与各个中心向量的相似度参数,例如欧氏距离、皮尔逊相关系数或者余弦相似度等,以便于后续步骤中能够根据这些相似度参数实现对账号名称向量的聚类处理。例如计算账号名称向量与历史账号向量集合的中心向量的余弦相似度,假设账号名称向量为“a”,历史账号向量集合的中心向量为“b”,则该账号名称向量与该历史账号向量集合的中心向量的余弦相似度cosθ为:
步骤520,当多个相似度参数中的最大相似度参数大于等于预设相似度阈值,将账号名称向量增量聚类至与最大相似度参数对应的历史账号向量集合,得到聚类结果集合;或者,当多个相似度参数中的最大相似度参数小于预设相似度阈值,将账号名称向量归类至新的账号向量集合,得到聚类结果集合。
本步骤中,由于在步骤510中计算得到了账号名称向量与各个历史账号向量集合的中心向量的相似度参数,因此可以根据这些相似度参数对账号名称向量进行增量聚类处理,以得到聚类结果集合。例如,可以采用Singlepass算法实现对账号名称向量的增量聚类处理,不仅计算的时间复杂度低,并且每次对账号名称向量进行聚类时,不需要计算全量用户,可以根据历史账号向量集合的中心向量实现对账号名称向量的增量聚类处理。采用Singlepass算法实现对账号名称向量的增量聚类处理的具体过程为:首先在这些相似度参数中确定最大相似度参数,然后比较该最大相似度参数和预设相似度阈值,当该最大相似度参数大于等于预设相似度阈值,说明账号名称向量和与该最大相似度参数对应的历史账号向量集合的中心向量的相似度比较高,因此可以将该账号名称向量增量聚类至与该最大相似度参数对应的历史账号向量集合,从而得到聚类结果集合;当该最大相似度参数小于预设相似度阈值,说明账号名称向量和与该最大相似度参数对应的历史账号向量集合的中心向量的相似度比较低,不应该将该账号名称向量增量聚类至与该最大相似度参数对应的历史账号向量集合,因此可以将该账号名称向量归类至新的账号向量集合,从而得到聚类结果集合。由于对账号名称信息的聚类处理是流式以及增量式的,因此不会出现遗漏不处理的情况,从而能够方便识别出批量恶意注册的账号名称信息。
需要说明的是,预设相似度阈值可以根据实际情况而进行适当的选择,本实施例对此并不作具体限定。
为了更加清楚的说明账号信息聚类方法的处理流程,下面以具体的示例进行说明。
参见图10和图11所示,图10为一个示例提供的账号信息聚类方法的方案流程图,图11为与图10对应的步骤流程图。假设服务器获取到由终端发送的新注册的账号名称信息“通辽市科尔沁区科尔沁大街凡吧匕互联网零售店”,则服务器先利用正则表达式剔除该账号名称信息中的无价值信息,再进行分词处理,得到“通辽市”、“科尔沁区”、“科尔沁”、“大街”、“凡”、“吧”、“匕”、“互联网”和“零售店”这些目标单词,然后利用预先训练好的词向量模型对这些目标单词进行词向量映射,得到与这些目标单词对应的单词向量,接着根据这些目标单词的词性类型确定这些单词向量的权重值,例如,确定目标单词“通辽市”、“科尔沁区”、“科尔沁”和“大街”所对应的单词向量的权重值为1.2,确定目标单词“互联网”和“零售店”所对应的单词向量的权重值为1.0,确定目标单词“凡”、“吧”和“匕”所对应的单词向量的权重值为0.5,然后将所有单词向量按照相同维度的向量数据乘以权重值后再相加的方式得到账号名称向量,接着采用Singlepass算法实现对账号名称向量的增量聚类处理。采用Singlepass算法对账号名称向量进行增量聚类处理的具体步骤为:计算账号名称向量与各个历史账号向量集合的中心向量的相似度,得到多个相似度参数,当这些相似度参数中的最大相似度参数大于等于预设相似度阈值,则将账号名称向量增量聚类至与该最大相似度参数对应的历史账号向量集合,得到聚类结果集合;或者,当这些相似度参数中的最大相似度参数小于预设相似度阈值,则将账号名称向量归类至新的账号向量集合,得到聚类结果集合。
参见图12所示,图12为本实施例提供的一种账号信息检测方法,该账号信息检测方法包括有上述实施例中的账号信息聚类方法,该账号信息检测方法包括步骤600至步骤800。
步骤600,应用上述实施例的账号信息聚类方法处理账号名称信息,得到聚类结果集合。
本步骤中,当获取到账号名称信息后,可以采用上述实施例的账号信息聚类方法对该账号名称信息进行处理,得到聚类结果集合,以便于后续步骤中可以根据该聚类结果集合进行相关的管理操作。需要说明的是,本实施例中对账号名称信息进行处理以得到聚类结果集合的具体过程,可以参考上述实施例的账号信息聚类方法的技术原理及相关说明,为避免内容重复,此处不再赘述。
步骤700,获取聚类结果集合所对应的集合类别。
本步骤中,由于在步骤600中获取到了包括有账号名称信息所对应的账号名称向量的聚类结果集合,因此可以获取该聚类结果集合所对应的集合类别,以便于后续步骤中能够根据该集合类别对该聚类结果集合进行相关的管理操作,例如将该聚类结果集合设置为白名单或者黑名单等。
需要说明的是,该集合类别可以为具体的类别内容,例如“异常类别”或者“正常类别”等,也可以为用来表示具体类别内容的标识,例如数字序号或者字母序号等,本实施例对此并不作具体限定。
步骤800,根据集合类别确定账号名称信息的支付合法性。
本步骤中,由于在步骤700中获取到了聚类结果集合所对应的集合类别,因此可以根据该集合类别判断该聚类结果集合中的账号名称信息是否为批量恶意注册的账号名称信息,从而可以确定该账号名称信息的支付合法性,以便于可以根据所确定的支付合法性而对该账号名称信息执行相关的管理操作。
本申请实施例提供的技术方案,可以利用上述实施例的账号信息聚类方法作为对批量注册恶意团体的检测的前置操作,通过上述实施例的账号信息聚类方法,迅速对新注册的账号名称信息进行增量聚类处理,得到聚类结果集合,从而可以便于采用对应的管理策略进行账号异常检测,为实现对恶意注册团体的检测与打击提供良好的前置指导。
参照图13和图14所示,本申请的一个实施例,对步骤800进行进一步的说明,该步骤800具体可以包括步骤810或者步骤820。
步骤810,当集合类别被检测确定为正常类别,确定账号名称信息的支付合法性为合法。
参照图13,在步骤810中,当集合类别被检测确定为正常类别,即说明该账号名称信息为用户正常注册的账号名称信息,因此确定该账号名称信息的支付合法性为合法,以保证用户对该账号名称信息的正常支付使用。
步骤820,当集合类别被检测确定为异常类别,确定账号名称信息的支付合法性为非法。
参照图14,在步骤810中,当集合类别被检测确定为异常类别,即说明该账号名称信息可能为批量恶意注册的账号名称信息,因此确定该账号名称信息的支付合法性为非法,从而可以限制该账号名称信息的支付功能或者将该账号名称信息设置为黑名单,避免恶意注册团体利用该账号名称信息进行犯罪行为或者扰乱互联网社交平台的正常运营。
需要说明的是,步骤810和步骤820互为并列的技术方案,在根据集合类别确定账号名称信息的支付合法性的处理过程中,可以采用步骤810的技术方案或者步骤820的技术方案,本实施例对此并不作具体限定。
参照图15,本实施例公开了一种账号信息聚类装置,该账号信息聚类装置1500能够实现如前面实施例所述的账号信息聚类方法,该账号信息聚类装置1500包括:
账号信息获取单元1510,用于获取账号名称信息;
分词单元1520,用于对账号名称信息进行分词处理,得到多个目标单词;
向量化单元1530,用于对多个目标单词进行向量化处理,得到多个单词向量,其中,单词向量与目标单词一一对应;
向量计算单元1540,用于根据多个目标单词的词性类型对多个单词向量进行加权求和,得到账号名称向量;
聚类单元1550,用于根据账号名称向量和历史账号向量集合的中心向量对账号名称向量进行增量聚类处理,得到聚类结果集合。
一实施例中,在单词向量包括至少一个维度的向量数据的情况下,向量计算单元1540具体包括:
权重确定单元1541,用于根据目标单词的词性类型,确定单词向量的每一个维度的向量数据的权重值;
求和单元1542,用于将所有单词向量按照相同维度的向量数据乘以权重值后再相加得到账号名称向量。
一实施例中,权重确定单元1541具体用于:
当目标单词的词性类型为实词,确定单词向量的每一个维度的向量数据为第一权值;
或者,
当目标单词的词性类型为非实词,确定单词向量的每一个维度的向量数据为第二权值;
其中,第一权值大于第二权值。
需要说明的是,由于本实施例的账号信息聚类装置1500能够实现如前面实施例所述的账号信息聚类方法,因此本实施例的账号信息聚类装置1500与前面实施例所述的账号信息聚类方法具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
参照图16,本实施例公开了一种账号信息检测装置,该账号信息检测装置1600能够实现如前面实施例所述的账号信息检测方法,该账号信息检测装置1600包括:
如前面实施例的账号信息聚类装置1500,用于处理账号名称信息,得到聚类结果集合;
类别获取单元1610,用于获取聚类结果集合所对应的集合类别;
合法性确定单元1620,用于根据集合类别确定账号名称信息的支付合法性。
需要说明的是,由于本实施例的账号信息检测装置1600能够实现如前面实施例所述的账号信息检测方法,因此本实施例的账号信息检测装置1600与前面实施例所述的账号信息检测方法具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
本实施例公开了一种账号信息聚类装置,该账号信息聚类装置包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
存储器存储程序,处理器执行至少一个程序以实现前面任意实施例的账号信息聚类方法。
本实施例公开了一种账号信息检测装置,该账号信息检测装置包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
存储器存储程序,处理器执行至少一个程序以实现前面任意实施例的账号信息检测方法。
本实施例公开了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行程序,计算机可执行程序被处理器执行时实现前面任意实施例的账号信息聚类方法,或者实现前面任意实施例的账号信息检测方法。
本实施例公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面任意实施例的账号信息聚类方法或者执行前面任意实施例的账号信息检测方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims (13)

1.一种账号信息聚类方法,其特征在于,包括以下步骤:
获取账号名称信息;
对所述账号名称信息进行分词处理,得到多个目标单词;
对多个所述目标单词进行向量化处理,得到多个单词向量,其中,所述单词向量与所述目标单词一一对应;
根据多个所述目标单词的词性类型对多个所述单词向量进行加权求和,得到账号名称向量;
根据所述账号名称向量和历史账号向量集合的中心向量对所述账号名称向量进行增量聚类处理,得到聚类结果集合;
其中,所述单词向量包括至少一个维度的向量数据,所述根据多个所述目标单词的词性类型对多个所述单词向量进行加权求和,得到账号名称向量,包括:
根据所述目标单词的词性类型,确定所述单词向量的每一个维度的向量数据的权重值;
将所有所述单词向量按照相同维度的向量数据乘以所述权重值后再相加得到账号名称向量;其中,所述单词向量的每一个维度的向量数据的权重值确定在一个预设范围。
2.根据权利要求1所述的账号信息聚类方法,其特征在于,所述根据所述目标单词的词性类型,确定所述单词向量的每一个维度的向量数据的权重值,包括:
当所述目标单词的词性类型为实词,确定所述单词向量的每一个维度的向量数据为第一权值;
当所述目标单词的词性类型为非实词,确定所述单词向量的每一个维度的向量数据为第二权值;
其中,所述第一权值大于所述第二权值。
3.根据权利要求1所述的账号信息聚类方法,其特征在于,所述对多个所述目标单词进行向量化处理,得到多个单词向量,包括:
利用预先训练好的词向量模型对多个所述目标单词进行词向量映射,得到多个单词向量。
4.根据权利要求1所述的账号信息聚类方法,其特征在于,所述对所述账号名称信息进行分词处理,得到多个目标单词,包括:
提取所述账号名称信息中的关键词信息,对所述关键词信息进行分词处理,得到多个目标单词;
或者,
对所述账号名称信息进行分词处理,得到多个待处理单词,从多个所述待处理单词中提取多个目标单词。
5.根据权利要求1所述的账号信息聚类方法,其特征在于,所述获取账号名称信息的步骤之后,还包括:
对所述账号名称信息进行高频词剔除;
利用正则匹配,将所述账号名称信息中的无含义信息进行剔除。
6.根据权利要求1所述的账号信息聚类方法,其特征在于,所述历史账号向量集合的数量为多个,所述根据所述账号名称向量和历史账号向量集合的中心向量对所述账号名称向量进行增量聚类处理,得到聚类结果集合,包括:
计算所述账号名称向量与各个历史账号向量集合的中心向量的相似度,得到多个相似度参数;
当多个所述相似度参数中的最大相似度参数大于等于预设相似度阈值,将所述账号名称向量增量聚类至与所述最大相似度参数对应的历史账号向量集合,得到聚类结果集合;或者,当多个所述相似度参数中的最大相似度参数小于预设相似度阈值,将所述账号名称向量归类至新的账号向量集合,得到聚类结果集合。
7.一种账号信息检测方法,其特征在于,包括以下步骤:
应用权利要求1至6任意一项所述的账号信息聚类方法处理账号名称信息,得到聚类结果集合;
获取所述聚类结果集合所对应的集合类别;
根据所述集合类别确定所述账号名称信息的支付合法性。
8.根据权利要求7所述的账号信息检测方法,其特征在于,所述根据所述集合类别确定所述账号名称信息的支付合法性,包括:
当所述集合类别被检测确定为正常类别,确定所述账号名称信息的支付合法性为合法;
或者,
当所述集合类别被检测确定为异常类别,确定所述账号名称信息的支付合法性为非法。
9.一种账号信息聚类装置,其特征在于,包括:
账号信息获取单元,用于获取账号名称信息;
分词单元,用于对所述账号名称信息进行分词处理,得到多个目标单词;
向量化单元,用于对多个所述目标单词进行向量化处理,得到多个单词向量,其中,所述单词向量与所述目标单词一一对应;
向量计算单元,用于根据多个所述目标单词的词性类型对多个所述单词向量进行加权求和,得到账号名称向量;其中,所述单词向量包括至少一个维度的向量数据,所述向量计算单元包括:权重确定单元,用于根据所述目标单词的词性类型,确定所述单词向量的每一个维度的向量数据的权重值;求和单元,用于将所有所述单词向量按照相同维度的向量数据乘以所述权重值后再相加得到账号名称向量;其中,所述单词向量的每一个维度的向量数据的权重值确定在一个预设范围;
聚类单元,用于根据所述账号名称向量和历史账号向量集合的中心向量对所述账号名称向量进行增量聚类处理,得到聚类结果集合。
10.根据权利要求9所述的账号信息聚类装置,其特征在于,所述权重确定单元具体用于:
当所述目标单词的词性类型为实词,确定所述单词向量的每一个维度的向量数据为第一权值;
或者,
当所述目标单词的词性类型为非实词,确定所述单词向量的每一个维度的向量数据为第二权值;
其中,所述第一权值大于所述第二权值。
11.一种账号信息检测装置,其特征在于,包括:
如权利要求9至10任意一项所述的账号信息聚类装置,用于处理账号名称信息,得到聚类结果集合;
类别获取单元,用于获取所述聚类结果集合所对应的集合类别;
合法性确定单元,用于根据所述集合类别确定所述账号名称信息的支付合法性。
12.一种账号信息聚类装置,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述存储器存储所述程序,所述处理器执行至少一个所述程序以实现如权利要求1至6任意一项所述的账号信息聚类方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序被处理器执行时实现如权利要求1至6任意一项所述的账号信息聚类方法,或者实现如权利要求7或8所述的账号信息检测方法。
CN202110195867.7A 2021-02-22 2021-02-22 账号信息聚类方法、检测方法、装置及存储介质 Active CN113010670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195867.7A CN113010670B (zh) 2021-02-22 2021-02-22 账号信息聚类方法、检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195867.7A CN113010670B (zh) 2021-02-22 2021-02-22 账号信息聚类方法、检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113010670A CN113010670A (zh) 2021-06-22
CN113010670B true CN113010670B (zh) 2023-09-19

Family

ID=76405317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195867.7A Active CN113010670B (zh) 2021-02-22 2021-02-22 账号信息聚类方法、检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113010670B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN106339495A (zh) * 2016-08-31 2017-01-18 广州智索信息科技有限公司 一种基于层次增量聚类的话题检测方法及系统
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN109508379A (zh) * 2018-12-21 2019-03-22 上海文军信息技术有限公司 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403696B2 (ja) * 2010-10-12 2014-01-29 株式会社Nec情報システムズ 言語モデル生成装置、その方法及びそのプログラム
US10282411B2 (en) * 2016-03-31 2019-05-07 International Business Machines Corporation System, method, and recording medium for natural language learning
CN108921221B (zh) * 2018-07-04 2022-11-18 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN106339495A (zh) * 2016-08-31 2017-01-18 广州智索信息科技有限公司 一种基于层次增量聚类的话题检测方法及系统
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN109508379A (zh) * 2018-12-21 2019-03-22 上海文军信息技术有限公司 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113010670A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Sundararajan et al. Multi‐Rule Based Ensemble Feature Selection Model for Sarcasm Type Detection in Twitter
Chowdhury et al. Speak up, fight back! detection of social media disclosures of sexual harassment
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
Qiu et al. ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Liu et al. A Self‐Adaptive Hidden Markov Model for Emotion Classification in Chinese Microblogs
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
CN114997288A (zh) 一种设计资源关联方法
Han et al. An attention-based neural framework for uncertainty identification on social media texts
Nikhila et al. Text imbalance handling and classification for cross-platform cyber-crime detection using deep learning
Dwivedi et al. Survey on fake news detection techniques
Roman et al. Exploiting contextual word embedding of authorship and title of articles for discovering citation intent classification
Aarthi et al. Deep recurrent neural network‐based Aquila optimization‐based online shaming emotion analysis
CN113010670B (zh) 账号信息聚类方法、检测方法、装置及存储介质
Ling Coronavirus public sentiment analysis with BERT deep learning
Oghaz et al. Detection and Classification of ChatGPT Generated Contents Using Deep Transformer Models
Yun et al. Hypert: hypernymy-aware BERT with Hearst pattern exploitation for hypernym discovery
Zheng Logical intelligent detection algorithm of chinese language articles based on text mining
CN111046191A (zh) 一种电力领域语义增强方法和装置
Diaz-Garcia et al. A fuzzy-based approach for cyberbullying analysis
Hao Naive Bayesian Prediction of Japanese Annotated Corpus for Textual Semantic Word Formation Classification
Yang et al. Adaptive slide window-based feature cognition for deceptive information identification
Singh et al. Axiomatic Analysis of Pre‐Processing Methodologies Using Machine Learning in Text Mining: A Social Media Perspective in Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045934

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant