CN115545015A - 仿冒账号的识别方法、装置、介质及设备 - Google Patents

仿冒账号的识别方法、装置、介质及设备 Download PDF

Info

Publication number
CN115545015A
CN115545015A CN202211075939.5A CN202211075939A CN115545015A CN 115545015 A CN115545015 A CN 115545015A CN 202211075939 A CN202211075939 A CN 202211075939A CN 115545015 A CN115545015 A CN 115545015A
Authority
CN
China
Prior art keywords
account
similarity
information
target
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211075939.5A
Other languages
English (en)
Inventor
何晔
邓薇
虞珍妮
高思雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211075939.5A priority Critical patent/CN115545015A/zh
Publication of CN115545015A publication Critical patent/CN115545015A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例揭示了一种仿冒账号的识别方法、装置、介质及设备。该方法包括:提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,并根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值,然后根据相似度权值对每个特征相似度进行加权计算,得到更加准确的账号相似度,以根据该账号相似度判断待识别账号是否为仿冒账号,提高了仿冒账号的识别效率和准确性。

Description

仿冒账号的识别方法、装置、介质及设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种仿冒账号的识别方法、装置、计算机可读存储介质及电子设备。
背景技术
随着互联网技术的快速发展,面向用户进行信息传播、事务办理等功能的软件已经越来越普遍,同时由于在这些软件中会存在一些组织机构的官方账号或者粉丝数量较多的个人账号等,因此一些不法分子会通过仿冒这类账号来被众多其他用户误识别,从而造成不良影响,如侵权正版账号给用户造成混淆进行流量引流,或者利用仿冒账号窃取用户信息或财产等。
目前,通常通过解析用户举报消息,或者定期人工审核排查的方式来识别此类仿冒账号,但由于仿冒账号的数量较多,通过人工审核的方式存在无法及时排查出全部的仿冒账号,且排查效率低等问题。
发明内容
为解决上述技术问题,本申请的实施例提供了一种仿冒账号的识别方法、装置、计算机可读存储介质及电子设备,以提高仿冒账号的识别效率。
根据本申请实施例的一个方面,提供了一种仿冒账号的识别方法,方法包括:获取与目标账号存在关联的待识别账号;提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征;对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度;根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值;根据相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。
在一些实施例中,获取与目标账号存在关联的待识别账号,包括:获取目标账号的目标账号名称;提取目标账号名称中的名称关键词;根据名称关键词进行关联账号查询,得到与目标账号存在关联的待识别账号。
在一些实施例中,账号信息的类型包括账号文字信息和账号图像信息;提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,包括:提取待识别账号中账号文字信息对应的待识别文字特征,提取待识别账号中账号图像信息对应的待识别图像特征;提取目标账号中账号文字信息对应的目标文字特征,提取目标账号中账号图像信息对应的目标图像特征;对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,包括:对待识别文字特征和目标文字特征进行相似度计算,得到账号文字信息对应的特征相似度;对待识别图像特征和目标图像特征进行相似度计算,得到账号图像信息对应的特征相似度。
在一些实施例中,待识别账号和目标账号的账号图像信息中均含有文字;提取待识别账号中账号图像信息对应的待识别图像特征,以及提取目标账号中账号图像信息对应的目标图像特征,包括:提取待识别账号的账号图像信息中的待识别文字内容特征,并提取待识别账号的账号图像信息中的待识别图像内容特征;提取目标账号的账号图像信息中的目标文字内容特征,并提取目标账号的账号图像信息中的目标图像内容特征;对待识别图像特征和目标图像特征进行相似度计算,得到账号图像信息对应的特征相似度,包括:对待识别文字内容特征和目标文字内容特征进行相似度计算,得到文字内容相似度;对待识别图像内容特征和目标图像内容特征进行相似度计算,得到图像内容相似度;根据文字内容相似度和图像内容相似度,得到账号图像信息对应的特征相似度。
在一些实施例中,账号信息包括账号静态信息和账号动态信息,账号相似度是根据账号静态信息对应的特征相似度计算得到的;根据账号相似度判断待识别账号是否为仿冒账号,包括:若账号相似度处于第一相似度阈值范围内,则将待识别账号判断为仿冒账号;若账号相似度处于第二相似度阈值范围内,则分别获取待识别账号的账号动态信息得到待识别账号动态信息,并获取目标账号的账号动态信息得到目标账号动态信息;对待识别账号动态信息和目标账号动态信息进行相似度计算,得到动态特征相似度;根据动态特征相似度判断待识别账号是否为仿冒账号。
在一些实施例中,待识别账号动态信息包括待识别账号发布的待识别文章,目标账号动态信息包括目标账号发布的目标文章;对待识别账号动态信息和目标账号动态信息进行相似度计算,得到动态特征相似度,包括:提取待识别文章对应的待识别文章特征,并提取目标文章对应的目标文章特征;对待识别文章特征和目标文章特征进行相似度计算,得到动态特征相似度。
在一些实施例中,根据动态特征相似度判断待识别账号是否为仿冒账号,包括:若待识别文章和目标文章对应的动态特征相似度处于第三相似度阈值范围内,则判断为待识别文章与目标文章相似;确认待识别账号所发布的待识别文章中与目标账号所发布的目标文章相似的文章数量;若文章数量达到文章数量阈值,则确认待识别账号为仿冒账号。
根据本申请实施例的一个方面,提供了一种仿冒账号的识别装置,装置包括:待识别账号获取模块,配置为获取与目标账号存在关联的待识别账号;特征提取模块,配置为提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征;特征相似度计算模块,配置为对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度;权值确认模块,配置为根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值;判断模块,配置为根据相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上的仿冒账号的识别方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被电子设备执行时,使得电子设备实现如上的仿冒账号的识别方法。
在本申请的实施例提供的技术方案中,通过提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,并根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值,然后根据相似度权值对每个特征相似度进行加权计算,得到更加准确的账号相似度,以根据该账号相似度判断待识别账号是否为仿冒账号,提高了仿冒账号的识别效率和准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是可以应用本申请实施例的技术方案的示例性应用环境的示意图;
图2是本申请的一示例性实施例示出的仿冒账号的识别方法的流程图;
图3是本申请的一示例性实施例示出的获取目标账号特征的示意图;
图4是本申请的一示例性实施例示出的计算特征相似度的示意图;
图5是本申请的一示例性实施例示出的确认账号简介信息量的示意图;
图6是本申请的一示例性实施例示出的待识别账号和目标账号的账号图像信息中均含有文字时,对账号图像信息进行对比的示意图;
图7是本申请的一示例性实施例示出的识别仿冒账号的示意图;
图8是本申请的一示例性实施例示出的仿冒账号的识别装置的框图;
图9是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相同的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相同的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用应用程序形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是,在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
可选地,在本实施例中,上述仿冒账号的识别方法可以应用于如图1所示的环境中。如图1所示,该实施环境包括终端110和服务器120,终端110和服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端110可以泛指多个终端中的一个,本实施例仅以终端110来举例说明,本领域技术人员可以知晓,上述终端的数量可以更多或更少,比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述文本编码方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为终端110运行的应用程序提供后台服务。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
可选地,服务器120承担主要仿冒账号的识别工作,终端110承担次要仿冒账号的识别工作;或者,服务器120承担次要仿冒账号的识别工作,终端110承担主要仿冒账号的识别工作;或者,服务器120或终端110分别可以单独承担仿冒账号的识别工作。
示例性地,终端110向服务器120发送仿冒账号识别指令,该仿冒账号识别指令中携带有目标账号以及目标账号的账号信息,服务器120接收到终端110发送的仿冒账号识别指令,获取与目标账号存在关联的待识别账号,提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,然后对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值,进而根据相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。
请参阅图2,图2是本申请的一示例性实施例示出的仿冒账号的识别方法的流程图。该仿冒账号的识别方法可以应用于图1所示的实施环境,并由该实施环境中的服务器120具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
下面以服务器作为具体的执行主体来对本申请实施例提出的仿冒账号的识别方法进行详细介绍。
如图2所示,在一示例性的实施例中,仿冒账号的识别方法至少包括步骤S210至步骤S250,详细介绍如下:
步骤S210,获取与目标账号存在关联的待识别账号。
可以是终端向服务器发送仿冒账号识别指令,该仿冒账号识别指令中携带有目标账号,例如,可以是目标账号对应的软件界面中提供有仿冒账号识别按钮,用户针对该软件进行账号登录后,终端若检测到用户触发该仿冒账号识别按钮,则将登录的账号作为目标账号,以向服务器携带有目标账号以及该目标账号对应的账号信息的仿冒账号识别指令,进而服务器得到目标账号。
还可以是服务器检测到预设条件被触发后,对指定的目标账号进行仿冒账号的识别。例如,服务器存储有目标账号列表,目标账号列表中存储有需要进行仿冒账号识别的目标账号,以及每个目标账号进行仿冒账号识别的触发预设条件,触发预设条件可以是当前时间与目标账号上一次进行仿冒账号识别的时间之间的间隔达到预设条件,触发预设条件还可以是预设时间段内目标账号的流量下降幅度达到预设条件。
可以理解的是,目标账号的确认方式可以根据实际应用情况进行灵活选择,本申请对此不进行限定。
确认需要进行仿冒账号识别的目标账号后,获取与目标账号存在关联的待识别账号。
例如,提取目标账号的关键词,并根据目标账号的关键词对其它账号进行账号匹配,将匹配成功的账号作为与目标账号存在关联的待识别账号。目标账号的关键词可以是通过目标账号的账号信息得到的,如目标账号的账号名称、账号简介等,通过对这些账号信息进行关键词提取,得到目标账号的关键词,本申请对此不进行限定。
其中,待识别账号所注册的软件可以与目标账号所注册的软件相同,待识别账号所注册的软件也可以与目标账号所注册的软件不同,本申请对此不进行限定。
其中,本申请中的待识别账号可以为一个或多个,本申请不对获取的待识别账号的数量进行限定。
步骤S220,提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征。
需要说明的是,账号信息包括多个类型,分别提取待识别账号中每个类型的账号信息对应的待识别账号特征和目标账号中每个类型的账号信息对应的目标账号特征。
例如,账号信息的类型包括但不限于账号名称、账号简介、账号图标、账号认证信息等,则提取待识别账号中账号名称对应的待识别账号名称特征、待识别账号中账号简介对应的待识别账号简介特征、待识别账号中账号图标对应的待识别账号图标特征;提取目标账号中账号名称对应的目标账号名称特征、目标账号中账号简介对应的目标账号简介特征、目标账号中账号图标对应的目标账号图标特征。
例如,请参阅图3,图3为获取目标账号特征的示意图,如图3所示,目标账号的账号信息包括目标账号的账号名称、账号简介和账号图标,然后分别对目标账号的账号名称、账号简介和账号图标进行特征提取处理,得到目标账号名称特征、目标账号简介特征和目标账号图标特征。其中,向量化处理对应的算法可以是神经网络算法,比如,可以使用训练好的神经网络模型来对账号信息进行向量化。
可以理解的是,待识别账号对应的待识别账号特征提取过程与目标账号对应的目标账号特征提取过程类似,本申请在此不做赘述。
步骤S230,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度。
根据待识别账号和目标账号包含的账号信息的类型,分别计算每个账号信息类型对应的待识别账号特征和目标账号特征之间的特征相似度。
例如,请参阅图4,图4为计算特征相似度的示意图,如图4所示,目标账号的目标账号特征包括目标账号名称特征、目标账号简介特征和目标账号图标特征,待识别账号的待识别账号特征包括待识别账号名称特征、待识别账号简介特征和待识别账号图标特征,计算目标账号名称特征和待识别账号名称特征之间的相似度,得到账号信息类型为账号名称的账号名称特征相似度;计算目标账号简介特征和待识别账号简介特征之间的相似度,得到账号信息类型为账号简介的账号简介特征相似度;计算目标账号图标特征和待识别账号图标特征之间的相似度,得到账号信息类型为账号图标的账号图标特征相似度。
步骤S240,根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值。
账号信息包含的信息量是指账号信息中有效信息的多少,有效信息是指含有实质意义的信息。
例如,以待识别账号的账号信息包括账号简介为例进行说明,请参阅图5,图5为确认账号简介信息量的示意图,如图5所示,对账号简介进行有效信息提取,以过滤掉无效信息,如过滤掉广告内容、重复内容等,得到具有实质意义的有效信息,如对图5中的账号简介部分的文本进行有效信息提取,得到的账号简介的有效信息包括“快递A、寄快递、查快递、运单状态提醒”。然后获取所有类型的账号信息中的有效信息,计算账号简介对应的有效信息相对于所有有效信息的占比,得到待识别账号的账号简介对应的信息量。进一步地,待识别账号对应的其它类型的账号信息包含的信息量的确认方式与账号简介的信息量的确认方式类似。
然后,根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值。可以理解的是,待识别账号中信息量越大的账号信息对应的特征相似度的相似度权值越大,信息量越小的账号信息对应的特征相似度的相似度权值越小。
示例性地,可以将待识别账号中每个类型的账号信息输入预先训练好的神经网络模型,以得到神经网络模型输出的每个类型的账号信息对应的特征相似度的相似度权值,例如,可以结合训练样本训练Adaboost或XGBoost等机器学习算法,以通过训练完成的机器学习算法对每个类型的账号信息进行相似度权值分类,得到每个类型的账号信息对应的特征相似度的相似度权值。
通过每个类型的账号信息包含的信息量对特征相似度的相似度权值进行动态分配,提高后续仿冒账号的识别的准确性。
在一些实施方式中,特征相似度的相似度权值包括动态权值与静态权值,根据每个类型的账号信息的重要程度,确认每个类型的账号信息对应的静态权值,根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的动态权值,根据特征相似度的静态权值和动态权值得到该特征相似度的相似度权值,通过静态权值使得到的特征相似度的相似度权值更加符合每个类型的账号信息的重要程度,并通过动态权值使得到的特征相似度的相似度权值符合待识别账号的具体情况。
步骤S250,根据相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。
可以理解的是,目标账号与待识别账号之间的账号相似度越高,则表明该待识别账号为该目标账号的仿冒账号的可能性越大,目标账号与待识别账号之间的账号相似度越低,则表明该待识别账号为该目标账号的仿冒账号的可能性越小。
通过相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。示例性地,账号信息的类型包括账号名称、账号简介和账号图标,账号相似度的计算公式可以如下:
α=μ1β12β23β3
其中,α为账号相似度,μ1为账号简介对应的相似度权值,β1为账号简介对应的特征相似度,μ2为账号图标对应的相似度权值,β2为账号图标对应的特征相似度,μ3为账号名称对应的相似度权值,β3为账号名称对应的特征相似度。
本申请通过提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,并根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值,然后根据相似度权值对每个特征相似度进行加权计算,得到更加准确的账号相似度,以根据该账号相似度判断待识别账号是否为仿冒账号,提高了仿冒账号的识别效率和准确性。
在一些实施方式中,获取与目标账号存在关联的待识别账号,包括:获取目标账号的目标账号名称;提取目标账号名称中的名称关键词;根据名称关键词进行关联账号查询,得到与目标账号存在关联的待识别账号。
在用户搜索账号进行关注时,通常是通过账号名称进行搜索的,因此,仿冒账号的账号名称通常和目标账号的账号名称相似。
示例性地,使用Appium自动化测试工具,通过其中的save_screenshot()函数对目标账号的展示页面进行截图,然后利用文字识别技术(optical character recognition,OCR)识别目标账号的展示页面截图中的文字,并从这些文字中提取目标账号名称。
在对目标账号名称进行关键词提取之前,还包括对目标账号名称进行预处理。对目标账号名称进行预处理可以包括对目标账号名称进行数据清洗操作,数据清洗操作可以包括去除语气词等无效信息、去除特殊符号、去除重复内容等。然后,对预处理后的目标账号名称进行分词处理,得到目标账号名称包含的词语单元。
本申请实施例中,分词(Word Segmentation)操作的过程是指将一个句子切分成一个个单独的词,可以通过任意可能的分词方法进行分词操作,例如字符匹配方法、理解法或者统计法,也可以采用相应的分词工具进行分词操作,例如结巴(jieba)分词等。
进一步地,得到目标账号名称对应的词语单元后,计算每个词语单元针对目标账号名称的重要程度,重要程度用于表征相应词语单元对于目标账号名称的语义理解的影响程度。例如,对目标账号名称进行特征编码,获得目标账号名称对应的账号名称特征矩阵,以及对目标账号名称包含的各个词语单元进行特征编码,获得各个词语单元各自对应的词向量,以根据账号名称特征矩阵和各个词语单元各自对应的词向量计算各个词语单元针对目标账号名称的重要程度。
本申请实施例中,可以采用任意可能的语义编码方式进行对目标账号名称、词语单元等文本进行特征编码,例如可以采用BERT(Bidirectional Encoder Representationfrom Transformers)、卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆人工神经网络(Long-Short Term Memory,LSTM)或者LSTM结合注意力(Attention)机制等多种方式完成。
可选地,可以分别对账号名称特征矩阵和各个词向量进行拼接处理,获得所述各个词语单元各自对应的拼接特征矩阵,以及分别对获得的各个拼接特征矩阵进行特征提取,得到相应词语单元在目标账号名称中的重要程度。特征提取的过程可以多种方式来实现,例如可以采用N元模型(N-gram)进行特征提取,也可以采用CNN进行特征提取,当然,也可以采用其他可能的方式进行特征提取,本申请实施例对此不做限制。例如,基于预设的多个特征窗口,从拼接特征矩阵的首行开始,按照一个特征窗口滑动进行特征提取,对拼接特征矩阵进行特征提取,一个特征窗口对应一个第一中间特征向量,获得相应的多个第一中间特征向量,对获得的各个第一中间特征向量分别进行拼接处理,以获得各个词语单元对应的融合特征向量。然后,根据任何可能的分类算法来对融合特征向量进行分类,例如可以通过softmax算法、逻辑回归(Logistic)或者全连接层等来进行分类,以获得各个词语单元所对应的分类结果,分类结果即为各个词语单元的重要程度。
本申请实施例中,在获取各个词语单元对应的重要程度之后,则可以获知哪些词更为重要,进而基于重要程度获取目标账号名称中的名称关键词。其中,重要程度更高,其为名称关键词的可能性更大。可以将重要程度大于设定重要程度阈值的词语单元确认为名称关键词,也可以按照重要程度的大小对词语单元进行排序,进而将排名靠前的几个词语单元作为名称关键词。
在一些实施方式中,账号信息的类型包括账号文字信息和账号图像信息;提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,包括:提取待识别账号中账号文字信息对应的待识别文字特征,提取待识别账号中账号图像信息对应的待识别图像特征;提取目标账号中账号文字信息对应的目标文字特征,提取目标账号中账号图像信息对应的目标图像特征;对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,包括:对待识别文字特征和目标文字特征进行相似度计算,得到账号文字信息对应的特征相似度;对待识别图像特征和目标图像特征进行相似度计算,得到账号图像信息对应的特征相似度。
可以理解的是,账号文字信息和账号图像信息中还可以进一步包括更详细的信息类型,如账号文字信息包括账号名称、账号简介,本申请对此不进行限定。
例如,账号信息包括但不限于账号名称、账号简介和账号图标,其中,账号名称及账号简介为账号文字信息,通过文本特征提取网络对账号名称及账号简介分别进行特征提取,得到待识别账号名称特征、待识别账号简介特征、目标账号名称特征、目标账号简介特征;账号图标为账号图像信息,可以将账号图标映射为指定长度和高度,如映射为为128*128,然后通过图像特征提取网络对账号图标进行特征提取,得到待识别账号图标特征、目标账号图标特征。
然后,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,如待识别账号名称特征和目标账号名称特征均属于账号文字信息中的账号名称类型,因此计算待识别账号名称特征和目标账号名称特征之间的相似度,得到账号名称特征相似度;待识别账号简介特征和目标账号简介特征均属于账号文字信息中的账号简介类型,因此计算待识别账号简介特征和目标账号简介特征之间的相似度,得到账号简介特征相似度;待识别账号图标特征和目标账号图标特征均属于账号图像信息中的账号图标类型,因此计算待识别账号图标特征和目标账号图标特征之间的相似度,得到账号图标特征相似度。
计算特征之间的相似度的方法可以采用欧式距离、曼哈顿距离、切比雪夫距离、余弦距离等。
例如,目标账号图标特征和待识别账号图标特征之间的特征相似度的计算公式为:
Figure BDA0003829849920000131
其中,Cosdis表示为目标账号图标特征和待识别账号图标特征之间的特征相似度,待识别账号的目标账号图标特征表示为A=[a1,…,an],待识别账号的待识别账号图标特征表示为B=[b1,…,bn]。
通过账号信息的类型对各个账号信息分别进行相似度计算,以提高待识别账号和目标账号之间对比的准确性。
在一些实施方式中,待识别账号和目标账号的账号图像信息中均含有文字;提取待识别账号中账号图像信息对应的待识别图像特征,以及提取目标账号中账号图像信息对应的目标图像特征,包括:提取待识别账号的账号图像信息中的待识别文字内容特征,并提取待识别账号的账号图像信息中的待识别图像内容特征;提取目标账号的账号图像信息中的目标文字内容特征,并提取目标账号的账号图像信息中的目标图像内容特征;对待识别图像特征和目标图像特征进行相似度计算,得到账号图像信息对应的特征相似度,包括:对待识别文字内容特征和目标文字内容特征进行相似度计算,得到文字内容相似度;对待识别图像内容特征和目标图像内容特征进行相似度计算,得到图像内容相似度;根据文字内容相似度和图像内容相似度,得到账号图像信息对应的特征相似度。
可以理解的是,图像中可能包含有文字信息,本申请实施例通过分别对图像中的文字内容和图像内容进行分析,以提高账号图像信息对比的准确性。
例如,请参阅图6,图6为待识别账号和目标账号的账号图像信息中均含有文字时,对账号图像信息进行对比的示意图。如图6所示,根据文字识别技术提取待识别账号的账号图像信息中的待识别文字内容特征,并提取待识别账号的账号图像信息中的待识别图像内容特征,然后,根据文字识别技术提取目标账号的账号图像信息中的目标文字内容特征,并提取目标账号的账号图像信息中的目标图像内容特征。即待识别账号中账号图像信息对应的待识别图像特征包括待识别文字内容特征和待识别图像内容特征;目标账号中账号图像信息对应的目标图像特征包括目标文字内容特征和目标图像内容特征。
进一步地,对待识别文字内容特征和目标文字内容特征进行相似度计算,得到文字内容相似度;对待识别图像内容特征和目标图像内容特征进行相似度计算,得到图像内容相似度,相似度计算的具体方式可以参见上述对目标账号图标特征和待识别账号图标特征之间的相似度的计算方式,本申请在此不进行赘述。
然后,根据文字内容相似度和图像内容相似度,得到账号图像信息对应的特征相似度,例如,可以是对文字内容相似度和图像内容相似度进行加权求和,得到账号图像信息对应的特征相似度;也可以是选取文字内容相似度和图像内容相似度中的最高值作为账号图像信息对应的特征相似度,本申请对此不进行限定。
通过分别考虑账号图像信息中的文字内容和图像内容,以综合文字内容和图像内容得到待识别账号和目标账号的账号图像信息之间的相似度,提高账号图像信息相似度分析的准确性,进而提高仿冒账号识别的准确性。
在一些实施方式中,账号信息包括账号静态信息和账号动态信息,账号相似度是根据账号静态信息对应的特征相似度计算得到的;根据账号相似度判断待识别账号是否为仿冒账号,包括:若账号相似度处于第一相似度阈值范围内,则将待识别账号判断为仿冒账号;若账号相似度处于第二相似度阈值范围内,则分别获取待识别账号的账号动态信息得到待识别账号动态信息,并获取目标账号的账号动态信息得到目标账号动态信息;对待识别账号动态信息和目标账号动态信息进行相似度计算,得到动态特征相似度;根据动态特征相似度判断待识别账号是否为仿冒账号。
账号静态信息是指用于描述账号的信息,如账号名称、账号图标、账号简介、账号认证信息等。账号动态信息是指账号的行为信息,如账号发布的文章、账号的浏览记录等。
可以先通过对账号静态信息进行分析,得到账号相似度,若账号相似度处于第一相似度阈值范围内,则表明该账号相似度可以反映待识别账号为仿冒账号,若账号相似度处于第二相似度阈值范围内,则表明该还需要对待识别账号进行进一步判断,即进一步根据目标账号的目标账号动态信息和待识别账号的待识别账号动态信息之间的动态特征相似度,判断待识别账号是否为仿冒账号。
在一些实施方式中,待识别账号动态信息包括待识别账号发布的待识别文章,目标账号动态信息包括目标账号发布的目标文章;对待识别账号动态信息和目标账号动态信息进行相似度计算,得到动态特征相似度,包括:提取待识别文章对应的待识别文章特征,并提取目标文章对应的目标文章特征;对待识别文章特征和目标文章特征进行相似度计算,得到动态特征相似度。
可以理解的是,账号动态信息还可以包括账号发布的视频、账号的浏览记录等行为信息,本申请以账号动态信息为账号发布的文章为例进行说明。
例如,可以对每篇目标文章的标题进行特征提取,得到目标文章标题特征,以及对每篇目标文章的图像进行特征提取,得到目标文章图像特征;对每篇待识别文章的标题进行特征提取,得到待识别文章标题特征,以及对每篇待识别文章的图像进行特征提取,得到待识别文章图像特征。然后,计算每篇待识别文章的待识别文章标题特征与每篇目标文章的目标文章标题特征之间的文章标题相似度,并计算每篇待识别文章的待识别文章图像特征与每篇目标文章的目标文章图像特征之间的文章图像相似度,进而根据文章标题相似度和文章图像相似度得到相应待识别文章和目标文章之间的动态特征相似度,如对文章标题相似度和文章图像相似度加权求和得到动态特征相似度,文章标题相似度和文章图像相似度对应的权值可以根据待识别文章的文章标题包含的信息量和待识别文章的文章图像包含的信息量进行确认,本申请对此不进行限定。
在一些实施方式中,根据动态特征相似度判断待识别账号是否为仿冒账号,包括:若待识别文章和目标文章对应的动态特征相似度处于第三相似度阈值范围内,则判断为待识别文章与目标文章相似;确认待识别账号所发布的待识别文章中与目标账号所发布的目标文章相似的文章数量;若文章数量达到文章数量阈值,则确认所述待识别账号为仿冒账号。
可以理解的是,本申请提到的第一相似度阈值范围、第二相似度阈值范围和第三相似度阈值范围可以是预先设置的阈值数据,第一相似度阈值范围、第二相似度阈值范围和第三相似度阈值范围可以是动态计算的阈值数据,如根据待识别账号的账号认证信息、目标账号的账号安全等级等数据,确认各个阈值范围。且第一相似度阈值范围的最低值大于第二相似度阈值范围的最高值,如第一相似度阈值范围为大于0.8且小于等于1,第二相似度阈值范围为大于0.5且小于等于0.8,第三相似度阈值范围为大于0.6且小于等于1。
将动态特征相似度处于第三相似度阈值范围内的待识别文章作为相似文章,若待识别账号所发布的待识别文章中相似文章的文章数量达到文章阈值,则确认该待识别账号为仿冒账号。
在一些实施方式中,根据动态特征相似度判断待识别账号是否为仿冒账号,还可以是计算每篇目标文章和每篇待识别文章之间的动态特征相似度的平均值,若平均值达到平均值阈值,则判断待识别账号为仿冒账号。
本申请结合账号静态信息和账号动态信息判断目标账号和待识别账号之间是否相似,且先根据账号静态信息进行仿冒账号判断,在根据账号静态信息得到的账号相似度处于第二相似度阈值范围内时再对账号动态信息进行仿冒账号判断,可以再提高仿冒账号识别的准确性的前提下,减少计算量,提高仿冒账号判断效率。
例如,请参阅图7,图7为本申请示例性实施例提供的识别仿冒账号的示意图。如图7所示,分别获取目标账号和待识别账号的账号静态信息,账号静态信息包括账号图标、账号名称、账号简介,以计算目标账号和待识别账号的这些账号静态信息之间的特征相似度,并根据这些账号静态信息包含的信息量确认每个类型的账号静态信息的特征相似度的相似度权值,以进行特征权值调节。然后,根据调节后的相似度权值对每个账号静态信息的特征相似度进行加权计算,得到账号相似度,判断账号相似度是否处于第一相似度阈值范围,若处于第一相似度阈值范围,则判断该待识别账号为仿冒账号;若不处于第一相似度阈值范围,则判断账号相似度是否处于第二相似度阈值范围,若不处于第二相似度阈值范围,则判断该待识别账号不为仿冒账号;若处于第二相似度阈值范围,则获取目标账号和待识别账号的账号动态信息,账号动态信息包括目标账号和待识别账号各自发布的文章,以计算各个目标账号和待识别账号的各个文章之间的文章相似度,以根据各个文章相似度得到目标账号和待识别账号之间的动态特征相似度,如对各个文章相似度求平均值,得到目标账号和待识别账号之间的动态特征相似度。判断动态特征相似度是否达到指定阈值,若达到指定阈值,则判断该待识别账号为仿冒账号;若没有达到指定阈值,则判断该待识别账号不为仿冒账号。
进一步地,针对账号相似度处于第一相似度阈值范围或动态特征相似度达到平均值阈值的待识别账号,还可以提取待识别账号的账号认证信息,以得到对账号进行信息认证的认证主体,计算待识别账号和目标账号的认证主体之间的认证主体相似度,认证主体相似度低于相似度阈值,则判断待识别账号的认证主体与目标账号的认证主体无关的,则判断待识别账号为仿冒账号。同时,由于个人认证账号可信度较低,因此,若账号相似度处于第一相似度阈值范围或动态特征相似度达到平均值阈值的待识别账号的认证主体为个人的则判断为仿冒账号。
本申请通过提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征,对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,并根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值,然后根据相似度权值对每个特征相似度进行加权计算,得到更加准确的账号相似度,以根据该账号相似度判断待识别账号是否为仿冒账号,提高了仿冒账号的识别效率和准确性。
图8是本申请的一个实施例示出的仿冒账号的识别装置的框图,如图8所示,该装置包括:
待识别账号获取模块810,配置为获取与目标账号存在关联的待识别账号;
特征提取模块820,配置为提取待识别账号中每个类型的账号信息对应的待识别账号特征,并提取目标账号中每个类型的账号信息对应的目标账号特征;
特征相似度计算模块830,配置为对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度;
权值确认模块840,配置为根据待识别账号中每个类型的账号信息包含的信息量,确认每个类型的账号信息对应的特征相似度的相似度权值;
判断模块850,配置为根据相似度权值对每个特征相似度进行加权计算,得到账号相似度,以根据账号相似度判断待识别账号是否为仿冒账号。
在本申请的一个实施例中,待识别账号获取模块810可以包括:
目标账号名称获取单元,配置为获取目标账号的目标账号名称;
名称关键词提取单元,配置为提取目标账号名称中的名称关键词;
关联账号查询单元,配置为根据名称关键词进行关联账号查询,得到与目标账号存在关联的待识别账号。
在本申请的一个实施例中,账号信息的类型包括账号文字信息和账号图像信息;特征提取模块820可以包括:
文字及图像特征提取单元,配置为提取待识别账号中账号文字信息对应的待识别文字特征,提取待识别账号中账号图像信息对应的待识别图像特征;提取目标账号中账号文字信息对应的目标文字特征,提取目标账号中账号图像信息对应的目标图像特征;
特征相似度计算模块830可以包括:
文字相似度计算单元,配置为对待识别文字特征和目标文字特征进行相似度计算,得到账号文字信息对应的特征相似度;
图像相似度计算单元,配置为对待识别图像特征和目标图像特征进行相似度计算,得到账号图像信息对应的特征相似度。
在本申请的一个实施例中,待识别账号和目标账号的账号图像信息中均含有文字;文字及图像特征提取单元可以包括:
文字内容及图像内容提取单元,配置为提取待识别账号的账号图像信息中的待识别文字内容特征,并提取待识别账号的账号图像信息中的待识别图像内容特征;提取目标账号的账号图像信息中的目标文字内容特征,并提取目标账号的账号图像信息中的目标图像内容特征;
图像相似度计算单元可以包括:
文字内容相似度计算单元,配置为对待识别文字内容特征和目标文字内容特征进行相似度计算,得到文字内容相似度;
图像内容相似度计算单元,配置为对待识别图像内容特征和目标图像内容特征进行相似度计算,得到图像内容相似度;
综合相似度计算单元,配置为根据文字内容相似度和图像内容相似度,得到账号图像信息对应的特征相似度。
在本申请的一个实施例中,账号信息包括账号静态信息和账号动态信息,账号相似度是根据账号静态信息对应的特征相似度计算得到的;判断模块850可以包括:
第一判断单元,配置为若账号相似度处于第一相似度阈值范围内,则将待识别账号判断为仿冒账号;
账号动态信息获取单元,配置为若账号相似度处于第二相似度阈值范围内,则分别获取待识别账号的账号动态信息得到待识别账号动态信息,并获取目标账号的账号动态信息得到目标账号动态信息;
动态特征相似度计算单元,配置为对待识别账号动态信息和目标账号动态信息进行相似度计算,得到动态特征相似度;
第二判断单元,配置为根据动态特征相似度判断待识别账号是否为仿冒账号。
在本申请的一个实施例中,待识别账号动态信息包括待识别账号发布的待识别文章,目标账号动态信息包括目标账号发布的目标文章;动态特征相似度计算单元包括:
文章特征提取单元,配置为提取待识别文章对应的待识别文章特征,并提取目标文章对应的目标文章特征;
文章相似度计算单元,配置为对待识别文章特征和目标文章特征进行相似度计算,得到动态特征相似度。
在本申请的一个实施例中,第二判断单元可以包括:
相似文章判断单元,配置为若待识别文章和目标文章对应的动态特征相似度处于第三相似度阈值范围内,则判断为待识别文章与目标文章相似;
计数单元,配置为确认待识别账号所发布的待识别文章中与目标账号所发布的目标文章相似的文章数量;
仿冒账号确认单元,配置为若文章数量达到文章数量阈值,则确认待识别账号为仿冒账号。
需要说明的是,上述实施例所提供的仿冒账号的识别装置与上述实施例所提供的仿冒账号的识别方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的仿冒账号的识别装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。
其中,存储单元存储有程序代码,程序代码可以被处理单元910执行,使得处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)921和/或高速缓存存储单元922,还可以进一步包括只读存储单元(ROM)923。
存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924,这样的程序模块925包括但不限于:操作系统、一个或者多个应用程序、其它程序模块和程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备970(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或应用程序模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据备份存储系统等。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机应用程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在该计算机程序被处理单元910执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发起、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
描述于本申请实施例中所涉及到的单元可以通过应用程序的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的仿冒账号的识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的仿冒账号的识别方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种仿冒账号的识别方法,其特征在于,所述方法包括:
获取与目标账号存在关联的待识别账号;
提取所述待识别账号中每个类型的账号信息对应的待识别账号特征,并提取所述目标账号中每个类型的账号信息对应的目标账号特征;
对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度;
根据所述待识别账号中每个类型的账号信息包含的信息量,确认所述每个类型的账号信息对应的特征相似度的相似度权值;
根据所述相似度权值对每个所述特征相似度进行加权计算,得到账号相似度,以根据所述账号相似度判断所述待识别账号是否为仿冒账号。
2.根据权利要求1所述的方法,其特征在于,所述获取与目标账号存在关联的待识别账号,包括:
获取所述目标账号的目标账号名称;
提取所述目标账号名称中的名称关键词;
根据所述名称关键词进行关联账号查询,得到与所述目标账号存在关联的待识别账号。
3.根据权利要求1所述的方法,其特征在于,所述账号信息的类型包括账号文字信息和账号图像信息;所述提取所述待识别账号中每个类型的账号信息对应的待识别账号特征,并提取所述目标账号中每个类型的账号信息对应的目标账号特征,包括:
提取所述待识别账号中账号文字信息对应的待识别文字特征,提取所述待识别账号中账号图像信息对应的待识别图像特征;提取所述目标账号中账号文字信息对应的目标文字特征,提取所述目标账号中账号图像信息对应的目标图像特征;
所述对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度,包括:
对所述待识别文字特征和所述目标文字特征进行相似度计算,得到所述账号文字信息对应的特征相似度;
对所述待识别图像特征和所述目标图像特征进行相似度计算,得到所述账号图像信息对应的特征相似度。
4.根据权利要求3所述的方法,其特征在于,所述待识别账号和所述目标账号的账号图像信息中均含有文字;所述提取所述待识别账号中账号图像信息对应的待识别图像特征,以及所述提取所述目标账号中账号图像信息对应的目标图像特征,包括:
提取所述待识别账号的账号图像信息中的待识别文字内容特征,并提取所述待识别账号的账号图像信息中的待识别图像内容特征;提取所述目标账号的账号图像信息中的目标文字内容特征,并提取所述目标账号的账号图像信息中的目标图像内容特征;
所述对所述待识别图像特征和所述目标图像特征进行相似度计算,得到所述账号图像信息对应的特征相似度,包括:
对所述待识别文字内容特征和所述目标文字内容特征进行相似度计算,得到文字内容相似度;
对所述待识别图像内容特征和所述目标图像内容特征进行相似度计算,得到图像内容相似度;
根据所述文字内容相似度和所述图像内容相似度,得到所述账号图像信息对应的特征相似度。
5.根据权利要求1所述的方法,其特征在于,所述账号信息包括账号静态信息和账号动态信息,所述账号相似度是根据所述账号静态信息对应的特征相似度计算得到的;所述根据所述账号相似度判断所述待识别账号是否为仿冒账号,包括:
若所述账号相似度处于第一相似度阈值范围内,则将所述待识别账号判断为仿冒账号;
若所述账号相似度处于第二相似度阈值范围内,则分别获取所述待识别账号的账号动态信息得到待识别账号动态信息,并获取所述目标账号的账号动态信息得到目标账号动态信息;
对所述待识别账号动态信息和所述目标账号动态信息进行相似度计算,得到动态特征相似度;
根据所述动态特征相似度判断所述待识别账号是否为仿冒账号。
6.根据权利要求5所述的方法,其特征在于,所述待识别账号动态信息包括所述待识别账号发布的待识别文章,所述目标账号动态信息包括所述目标账号发布的目标文章;所述对所述待识别账号动态信息和所述目标账号动态信息进行相似度计算,得到动态特征相似度,包括:
提取所述待识别文章对应的待识别文章特征,并提取所述目标文章对应的目标文章特征;
对所述待识别文章特征和所述目标文章特征进行相似度计算,得到动态特征相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述动态特征相似度判断所述待识别账号是否为仿冒账号,包括:
若所述待识别文章和所述目标文章对应的动态特征相似度处于第三相似度阈值范围内,则判断为所述待识别文章与所述目标文章相似;
确认所述待识别账号所发布的待识别文章中与所述目标账号所发布的目标文章相似的文章数量;
若所述文章数量达到文章数量阈值,则确认所述待识别账号为仿冒账号。
8.一种仿冒账号的识别装置,其特征在于,所述装置包括:
待识别账号获取模块,配置为获取与目标账号存在关联的待识别账号;
特征提取模块,配置为提取所述待识别账号中每个类型的账号信息对应的待识别账号特征,并提取所述目标账号中每个类型的账号信息对应的目标账号特征;
特征相似度计算模块,配置为对属于同一账号信息类型的待识别账号特征和目标账号特征进行相似度计算,得到每个类型的账号信息对应的特征相似度;
权值确认模块,配置为根据所述待识别账号中每个类型的账号信息包含的信息量,确认所述每个类型的账号信息对应的特征相似度的相似度权值;
判断模块,配置为根据所述相似度权值对每个所述特征相似度进行加权计算,得到账号相似度,以根据所述账号相似度判断所述待识别账号是否为仿冒账号。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的仿冒账号的识别方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的仿冒账号的识别方法。
CN202211075939.5A 2022-09-02 2022-09-02 仿冒账号的识别方法、装置、介质及设备 Pending CN115545015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211075939.5A CN115545015A (zh) 2022-09-02 2022-09-02 仿冒账号的识别方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211075939.5A CN115545015A (zh) 2022-09-02 2022-09-02 仿冒账号的识别方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN115545015A true CN115545015A (zh) 2022-12-30

Family

ID=84725841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211075939.5A Pending CN115545015A (zh) 2022-09-02 2022-09-02 仿冒账号的识别方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115545015A (zh)

Similar Documents

Publication Publication Date Title
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN112507936B (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN111210335B (zh) 用户风险识别方法、装置及电子设备
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
WO2022105496A1 (zh) 智能回访方法、装置、电子设备及可读存储介质
CN112468658A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN113961764A (zh) 诈骗电话的识别方法、装置、设备及存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN115545015A (zh) 仿冒账号的识别方法、装置、介质及设备
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN112862305A (zh) 确定对象风险状态的方法、装置、设备和存储介质
KR102524828B1 (ko) 빅데이터 기반의 탐정기관 중개 시스템
CN114239595B (zh) 回访名单智能生成方法、装置、设备及存储介质
CN113792549B (zh) 一种用户意图识别的方法、装置、计算机设备及存储介质
CN113609274B (zh) 智能问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination