CN116644367A - 一种异常对象的检测方法、装置以及存储介质 - Google Patents

一种异常对象的检测方法、装置以及存储介质 Download PDF

Info

Publication number
CN116644367A
CN116644367A CN202210133868.3A CN202210133868A CN116644367A CN 116644367 A CN116644367 A CN 116644367A CN 202210133868 A CN202210133868 A CN 202210133868A CN 116644367 A CN116644367 A CN 116644367A
Authority
CN
China
Prior art keywords
sample
discriminator
behavior sequence
abnormal
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210133868.3A
Other languages
English (en)
Other versions
CN116644367B (zh
Inventor
罗齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210133868.3A priority Critical patent/CN116644367B/zh
Priority claimed from CN202210133868.3A external-priority patent/CN116644367B/zh
Publication of CN116644367A publication Critical patent/CN116644367A/zh
Application granted granted Critical
Publication of CN116644367B publication Critical patent/CN116644367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种异常对象的检测方法、装置以及存储介质,应用于人工智能领域。通过获取交互场景中待识别对象的行为序列数据;然后基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;进而将特征向量输入判别器得到异常对象检测结果。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,减少了标注成本,提高了异常对象的检测效率。

Description

一种异常对象的检测方法、装置以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种异常对象的检测方法、装置以及存储介质。
背景技术
互联网在线社交和娱乐平台飞速发展。网络直播是随着互联网技术发展而诞生的新兴产业。但是网络直播中存在的异常对象如网络水军、僵尸粉、女巫节点等,这些异常对象创造虚假热度、传播虚假信息谋取非法利益,严重破坏了直播平台的正常秩序,影响用户的使用体验。如何检测出这些异常用户对于净化网络空间十分重要。
一般,异常对象检测可以通过提取对象特征进行建模,即通过对异常对象进行标记,然后收集其对应的特征进行模型训练,从而进行对象的识别。
但是,在直播场景中,用户的数量庞大,且特征具有动态性,从中提取异常对象的工作量大,影响异常对象检测的效率。
发明内容
有鉴于此,本申请提供一种异常对象的检测方法,可以有效提高异常对象检测的效率。
本申请第一方面提供一种异常对象的检测方法,可以应用于终端设备中包含异常对象的检测功能的系统或程序中,具体包括:
获取交互场景中待识别对象的行为序列数据;
基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量;
将所述特征向量输入判别器,以基于所述判别器得到所述待识别对象对应的异常对象检测结果,其中所述判别器基于噪声样本与正常样本进行训练所得,所述噪声样本为基于所述正常样本生成的特征分布相似的样本,所述异常对象检测结果基于所述待识别对象与所述正常样本的相似度确定。
可选的,在本申请一些可能的实现方式中,所述基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量,包括:
基于预设行为从所述行为序列数据中进行数据提取,以确定对象行为序列,所述预设行为基于所述交互场景包含的特征行为设定;
将所述对象行为序列输入目标编码器,以得到行为序列向量;
获取所述待识别对象对应的关联特征向量,所述关联特征向量基于对象画像特征、位置特征或文本特征确定;
将所述关联特征向量与所述行为序列向量进行拼接,以得到所述待识别对象对应的对象特征向量。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取训练行为序列;
将所述训练行为序列输入初始编码器,以得到所述训练行为序列的隐状态信息;
将所述隐状态信息输入解码器,以重建所述训练行为序列;
确定重建所述训练行为序列过程中对应的损失信息;
基于所述损失信息对所述初始编码器进行训练,以得到所述目标编码器。
可选的,在本申请一些可能的实现方式中,所述获取训练行为序列,包括:
基于直播场景中异常处理信息确定参数更新周期;
根据所述参数更新周期获取所述训练行为序列。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取所述交互场景中的正常样本;
确定所述正常样本的特征分布信息;
基于所述特征分布信息中指示的异常概率配置所述生成器对应的样本分布信息;
根据所述样本分布信息与所述特征分布信息之间的距离配置生成器函数;
基于所述生成器函数进行损失计算,以对所述生成器进行训练;
基于训练后的所述生成器生成噪声样本;
将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新,包括:
将所述噪声样本输入所述判别器的中间层,以得到噪声抽象信息;
获取所述中间层根据所述正常样本提取的正常抽象信息;
基于所述判别器区别所述噪声抽象信息与所述正常抽象信息,并对所述判别器的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述异常对象的检测方法应用于区块链设备,所述区块链设备为区块链中的节点。
本申请第二方面提供一种异常对象的检测装置,包括:获取单元,用于获取交互场景中待识别对象的行为序列数据;
确定单元,用于基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量;
检测单元,用于将所述特征向量输入判别器,以基于所述判别器得到所述待识别对象对应的异常对象检测结果,其中所述判别器基于噪声样本与正常样本进行训练所得,所述噪声样本为基于所述正常样本生成的特征分布相似的样本,所述异常对象检测结果基于所述待识别对象与所述正常样本的相似度确定。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于基于预设行为从所述行为序列数据中进行数据提取,以确定对象行为序列,所述预设行为基于所述交互场景包含的特征行为设定;
所述确定单元,具体用于将所述对象行为序列输入目标编码器,以得到行为序列向量;
所述确定单元,具体用于获取所述待识别对象对应的关联特征向量,所述关联特征向量基于对象画像特征、位置特征或文本特征确定;
所述确定单元,具体用于将所述关联特征向量与所述行为序列向量进行拼接,以得到所述待识别对象对应的对象特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取训练行为序列;
所述确定单元,具体用于将所述训练行为序列输入初始编码器,以得到所述训练行为序列的隐状态信息;
所述确定单元,具体用于将所述隐状态信息输入解码器,以重建所述训练行为序列;
所述确定单元,具体用于确定重建所述训练行为序列过程中对应的损失信息;
所述确定单元,具体用于基于所述损失信息对所述初始编码器进行训练,以得到所述目标编码器。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于基于直播场景中异常处理信息确定参数更新周期;
所述确定单元,具体用于根据所述参数更新周期获取所述训练行为序列。
可选的,在本申请一些可能的实现方式中,所述判别器为生成对抗网络中的判别器,所述生成对抗网络包括所述判别器和生成器,所述生成器用于基于所述交互场景中的正常样本生成特征分布相似的噪声样本,所述检测单元,具体用于获取所述交互场景中的正常样本;
所述检测单元,具体用于确定所述正常样本的特征分布信息;
所述检测单元,具体用于基于所述特征分布信息中指示的异常概率配置所述生成器对应的样本分布信息;
所述检测单元,具体用于根据所述样本分布信息与所述特征分布信息之间的距离配置生成器函数;
所述检测单元,具体用于基于所述生成器函数进行损失计算,以对所述生成器进行训练;
所述检测单元,具体用于基于训练后的所述生成器生成噪声样本;
所述检测单元,具体用于将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于将所述噪声样本输入所述判别器的中间层,以得到噪声抽象信息;
所述检测单元,具体用于获取所述中间层根据所述正常样本提取的正常抽象信息;
所述检测单元,具体用于基于所述判别器区别所述噪声抽象信息与所述正常抽象信息,并对所述判别器的参数进行更新。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的异常对象的检测方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的异常对象的检测方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的异常对象的检测方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取交互场景中待识别对象的行为序列数据;并基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;然后将特征向量输入判别器,以基于判别器得到待识别对象对应的异常对象检测结果,其中判别器基于噪声样本与正常样本进行训练所得,该噪声样本为基于正常样本生成的特征分布相似的样本,该异常对象检测结果基于待识别对象与正常样本的相似度确定。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,减少了标注成本,提高了异常对象的检测效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为异常对象的检测系统运行的网络架构图;
图2为本申请实施例提供的一种异常对象的检测的流程架构图;
图3为本申请实施例提供的一种异常对象的检测方法的流程图;
图4为本申请实施例提供的一种异常对象的检测方法的场景示意图;
图5为本申请实施例提供的另一种异常对象的检测方法的场景示意图;
图6为本申请实施例提供的另一种异常对象的检测方法的场景示意图;
图7为本申请实施例提供的另一种异常对象的检测方法的场景示意图;
图8为本申请实施例提供的另一种异常对象的检测方法的场景示意图;
图9为本申请实施例提供的一种异常对象的检测装置的结构示意图;
图10为本申请实施例提供的一种终端设备的结构示意图;
图11为本申请实施例提供的一种服务器的结构示意图;
图12A为本申请实施例提供的一种数据共享系统;
图12B为本申请实施例提供的一种区块链的区块组成;
图12C为本申请实施例提供的一种区块链节点的输入信息。
具体实施方式
本申请实施例提供了一种异常对象的检测方法以及相关装置,可以应用于终端设备中包含异常对象的检测功能的系统或程序中,通过获取交互场景中待识别对象的行为序列数据;并基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;然后将特征向量输入判别器,以基于判别器得到待识别对象对应的异常对象检测结果,其中判别器基于噪声样本与正常样本进行训练所得,该噪声样本为基于正常样本生成的特征分布相似的样本,该异常对象检测结果基于待识别对象与正常样本的相似度确定。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,减少了标注成本,提高了异常对象的检测效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
生成对抗网络(Generative Adversarial Networks,GAN):生成对抗网络为生成器与判别器组成的网络结构,其中生成器通过机器生成数据,目的是“骗过”判别器;而判别器用于判断这张图像是真实的还是机器生成的,目的是找出生成器做的“假数据”。
定位信息(Location Based Service,LBS):通过确定移动设备或用户所在的地理位置,确定与定位相关的各类服务系统的信息。
应理解,本申请提供的异常对象的检测方法可以应用于终端设备中包含异常对象的检测功能的系统或程序中,例如直播应用,具体的,异常对象的检测系统可以运行于如图1所示的网络架构中,如图1所示,是异常对象的检测系统运行的网络架构图,如图可知,异常对象的检测系统可以提供与多个信息源的异常对象的检测过程,即通过终端侧在直播过程中的交互操作触发服务器对相应用户的特征进行识别;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到异常对象的检测的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。具体的,本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
可以理解的是,上述异常对象的检测系统可以运行于个人移动终端,例如:作为直播应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供异常对象的检测,以得到信息源的异常对象的检测处理结果;具体的异常对象的检测系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
互联网在线社交和娱乐平台飞速发展。网络直播是随着互联网技术发展而诞生的新兴产业。但是网络直播中存在的异常对象如网络水军、僵尸粉、女巫节点等,这些异常对象创造虚假热度、传播虚假信息谋取非法利益,严重破坏了直播平台的正常秩序,影响用户的使用体验。如何检测出这些异常用户对于净化网络空间十分重要。
一般,异常对象检测可以通过提取对象特征进行建模,即通过对异常对象进行标记,然后收集其对应的特征进行模型训练,从而进行对象的识别。
但是,在直播场景中,用户的数量庞大,且特征具有动态性,从中提取异常对象的工作量大,影响异常对象检测的效率。此外,异常账号特征存在动态变化,人工标注数据需要不断进行。且特征的提取过程大多无法补获对象行为的序列信息,无法根据对象行为的变化去动态调整模型和作出预测,而异常用户的行为是变化多端的。且特征构建的效果对模型预测性能影响很大,需要依赖专家经验捕捉最能体现数据特点的特征。
本实施例中的异常对象检测采用了人工智能技术,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
为了解决上述问题,本申请提出了一种异常对象的检测方法,该方法应用于图2所示的异常对象的检测的流程框架中,如图2所示,为本申请实施例提供的一种异常对象的检测的流程架构图,用户通过终端侧的直播交互操作,使得服务器收集得到用户的行为序列数据,然后将对象行为序列提取得到一个高阶向量表示,并结合用户基础画像等其他信息,得到一个用户的特征向量。并使用生成对抗网络技术训练得到判别器,用于判别正常用户与异常用户。在训练中使用正常用户的行为序列作为输入,解决目前技术方案的依赖大量异常用户样本、无法端到端建模、无法捕捉序列数据等问题。
本实施例,只使用正常用户作为样本进行训练,通过序列到序列(Sequence-to-sequence)模型和生成对抗网络(GAN)相结合,对输入序列的数据进行端到端的训练和预测的方法,解决目前技术方案的依赖大量异常用户样本、无法端到端建模(端到端模型就是将可以多步骤/模块解决的任务使用单个模型来建模解决)、无法捕捉序列数据等问题。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种异常对象的检测装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该异常对象的检测装置通过获取交互场景中待识别对象的行为序列数据;并基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;然后将特征向量输入判别器,以基于判别器得到待识别对象对应的异常对象检测结果,其中判别器基于噪声样本与正常样本进行训练所得,该噪声样本为基于正常样本生成的特征分布相似的样本,该异常对象检测结果基于待识别对象与正常样本的相似度确定。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,减少了标注成本,提高了异常对象的检测效率。
本申请实施例提供的方案涉及人工智能的深度学习技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中异常对象的检测方法进行介绍,请参阅图3,图3为本申请实施例提供的一种异常对象的检测方法的流程图,该管理方法可以是由终端或服务器执行的,本申请实施例至少包括以下步骤:
301、获取交互场景中待识别对象的行为序列数据。
本实施例中,交互场景可以是直播场景,还可应用于其他场景如视频网站及短视频APP中异常用户检测等。下述实施例直播平台的直播过程为例进行说明,并不作限定。具体如图4所示,图4为为本申请实施例提供的一种异常对象的检测方法的场景示意图,图中示出了一种直播平台手机端页面,用户可以在直播页面观看主播的实时播放内容,同时进行互动行为,即为行为序列数据。互动行为包括发送弹幕评论、赠送礼品、关注主播、与其他粉丝互动、参与抽奖等等。异常用户即混杂其中,如发送广告、色情弹幕的Spam账号,主播为了提高人气而创建的僵尸账号等。在此应用场景中,用户的行为会被后台记录并上报,本实施例通过用户的行为数据和平台能获取的其他信息等,对异常用户做出预测并处以禁言、封禁等措施,以净化直播平台的网络环境,改善用户体验。
可以理解的是,待识别对象可以是用户,也可以是用户对应的账号,还可以是观看直播的终端,下面以用户为例进行说明,并不作限定。
302、基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量。
本实施例中,对行为序列数据进行向量表示的过程,为一种具有时序关系的数据进行高维表征的过程。其中,本实施例中的对象特征向量应用于图5所示的模型场景,图5为本申请实施例提供的另一种异常对象的检测方法的场景示意图,即通过用户向量提取模块提取用户向量表示(对象特征向量),并训练一个生成对抗网络,用于区分真实的正常样本还是由生成器生成的样本。训练得到的判别器可投入生产环境作为推理的模型,用于判别正常用户与异常用户。
具体的,对于对象特征向量的表示,可以是基于行为序列数据与对象画像等关联数据拼接所得,即首先基于预设行为从行为序列数据中进行数据提取,以确定对象行为序列,该预设行为基于直播场景包含的特征行为设定,例如充值、提现、购买礼物、赠送礼物、关注、弹幕发送、参与互动活动、广告点击、拉黑、删除、投诉等;然后将对象行为序列输入目标编码器,以得到行为序列向量;进一步的获取待识别对象对应的关联特征向量,关联特征向量基于对象画像特征、位置特征或文本特征确定,其中对象画像特征向量包括实名认证情况、绑卡情况、基本信息情况、染黑情况等,LBS特征向量包括多设备登陆、登陆地等,文本向量Embedding包括用户弹幕或评论的文本词嵌入处理等;然后将关联特征向量与行为序列向量进行拼接,以得到待识别对象对应的对象特征向量,从而提高向量表示的准确性。
应当注意的是,本实施例中的对象画像可以是用于指示用户、终端或其他对象数据的载体,具体的对象形式因实际场景而定。
可以理解的是,向量表示所用的目标编码器,可以是基于训练数据训练所得,即用户向量表示的Embedding提取模块主要由编码器(encoder)和解码器(decoder)组成,其中编码器负责将对象行为序列编码到一个隐空间的向量表示。具体训练过程即首先获取训练行为序列;然后将训练行为序列输入初始编码器,以得到训练行为序列的隐状态信息;然后将隐状态信息输入解码器,以重建训练行为序列;并确定重建训练行为序列过程中对应的损失信息;从而基于损失信息对初始编码器进行训练,以得到目标编码器。
具体的,对于编码器和解码器的训练框架,如图6所示,图6为本申请实施例提供的另一种异常对象的检测方法的场景示意图,图中示出了模型输入的用户向量表示主要是用户在某时刻的行为向量Embedding、对象画像特征向量、LBS特征向量、文本向量Embedding等拼接而成。其行为包括充值、提现、购买礼物、赠送礼物、关注、弹幕发送、参与互动活动、广告点击、拉黑、删除、投诉等,对象画像特征向量包括实名认证情况、绑卡情况、基本信息情况、染黑情况等,LBS特征向量包括多设备登陆、登陆地等,文本向量Embedding包括用户弹幕或评论的文本词嵌入处理等。其中预处理步骤包括对非离散的连续特征进行分桶离散化处理,将类别型特征使用独热编码(One Hot Encoding)等方式进行编码。用户在一段时间内的行为序列向量可表示为S=(x1,x2,……,xt)。
在本实施例中,编码器负责将对象行为序列编码到一个隐空间的向量表示。编码器主要由LSTM(Long short-term memory)模型构成:
其中,xt表示用户在t时刻的行为序列向量。LSTM模型在每一个时刻的输入是上一个时刻的输出以及在该时刻行为序列向量。LSTM每一个时刻的输出表示为又称为隐状态。在本实施例中使用的隐层维度为200,具体维度因实际场景而定。
通过编码器处理,最后一个隐状态(隐状态信息)输出包含了整个输入用户序列S的信息,也可视为将用户序列进行抽象化处理,映射到一个隐空间中,捕捉不同行为与信息在高维空间的联系。再将最后一个隐状态/>作为解码器的输入,用以重建用户输入信息。解码器的输出/>再经过一个前向神经网络,还原到输入序列的空间中。另外编码器的训练目标为尽可能还原输入序列S的信息,即可定义损失函数:
在训练之后得到的编码器输出隐状态即为行为向量Embedding。对象画像特征向量、LBS特征向量、文本向量Embedding等经过预处理,与行为向量Embedding进行拼接,作为用户的特征向量表示用于后续步骤的训练中。
在一种可能的场景中,用户向量表示模块(编码器-解码器结构)采用离线计算的方式,可以进行实时的参数更新。即首先基于直播场景中异常处理信息确定参数更新周期;然后根据参数更新周期获取训练行为序列。例如参数更新周期为以天为单位进行计算更新模型,从而提高用户向量表示的准确性。
303、将特征向量输入判别器,以基于判别器得到待识别对象对应的异常对象检测结果。
本实施例中,判别器用于对于输入的数据进行特征提取以得到判别信息即可,例如分类、检测等。具体的,判别器可以是生成对抗网络中的判别器,也可以是其他采用判别器的模型,具体的模型形式因实际场景而定,本实施例以生成对抗网络为例进行说明。
在一种可能的场景中,生成对抗网络包括判别器和生成器,该生成器用于基于直播场景中的正常样本生成特征分布相似的噪声样本,判别器基于噪声样本与正常样本进行训练所得;即本实施例只使用正常用户作为样本进行训练,通过序列到序列模型(编码器-解码器)和生成对抗网络相结合,对输入序列的数据进行端到端的训练和预测的方法,解决目前技术方案的依赖大量异常用户样本、无法端到端建模、无法捕捉序列数据等问题。
具体的,对于异常对象检测结果的确定,可以是基于待识别对象与正常样本的相似度确定,即通过判别器输出待识别对象对应的对象特征向量与正常样本对应的对象特征向量的相似度,若小于相似阈值,则可以作为异常对象,从而到达无需异常对象标注而进行异常对象识别的过程。
可选的,通过模型计算出异常概率后,可进一步对异常概率高的用户进行排序并由人工进行复核,以确认其行为是否违反社区规定或法律。
下面对生成对抗网络的训练过程进行说明,生成式对抗网络的思想来自博弈论的纳什均衡,如参与游戏的双方一样,GAN包含一个生成器(Generator)和一个判别器(Discriminator),通常由前向神经网络构成。常规生成器的目的是学习真实数据的分布,而判别器的目的是尽量正确判别输入数据是来自生成器还是来自真实数据。在训练优化过程中,判别器与生成器不断博弈并尽可能寻找两者之间的纳什均衡。
但是,本实施例中生成器的训练目标与常规不同,GAN常应用于生成与真实数据分布一致的数据样本,如用于解决标注数据不足的问题、生成对话等。在异常检测中,常将生成器训练学习异常样本的分布,可解决异常样本数据不足的问题,但缺点是在异常样本较少的情况下,其分布与线上场景有较大差别。本实施例中模型的训练只使用正常用户的数据作为样本,生成器不直接学习真实样本的分布,而是学习一个分布接近真实样本分布、但不与真实样本分布重合的分布,落在真实样本分布的邻近区域。生成器生成的样本在真实样本的低密度空间中,即特征稀疏的空间中。
具体的,对于生成对抗网络的训练过程即首先获取交互场景中的正常样本;然后确定正常样本的特征分布信息;并基于特征分布信息中指示的异常概率配置生成器对应的样本分布信息;从而根据样本分布信息与特征分布信息之间的距离配置生成器函数;然后基于生成器函数进行损失计算,以对生成器进行训练;即定义生成器生成的向量表示为z,其分布为pgen(z),真实样本向量表示的分布为preal(z)。当样本向量的异常概率preal(z)小于一定阈值时,pgen(z)定义为极小的一个常数C;当样本向量的异常概率preal(z)大于一定阈值时,pgen(z)定义为preal(z)的倒数,随着preal(z)的增大而逐渐减小。将目标函数表示为两个分布之间的距离,用KL散度(Kullback-Leibler Divergence)实现。其中H(pgen)在应用中也可使用余弦距离。
其中,preal(z)为特征分布信息,pgen(z)为样本分布信息。
而对于判别器的训练则是基于训练后的生成器生成噪声样本;然后将噪声样本输入判别器,以使得判别器区别正常样本与噪声样本,并对判别器的参数进行更新。具体的,判别器的输入是生成器生成的向量表示为z和正常用户的向量表示v。本实施例中的判别器由前向神经网络构成。判别器训练的目标是将生成器生成向量和真实向量表示区分开来。判别器的训练为最小化一个交叉熵。判别器的损失函数为:
其中,z为生成器生成的向量表示,v为正常用户的向量表示。
在一种可能的场景中,上述对于生成对抗网络的训练过程可以通过如下伪代码进行。
Input:训练集模型超参数,LSTM-Autoencoder训练epochM1,GAN训练epoch M2
Output:F已训练的编码器Encoder(x)和判别器Discriminator(x)
初始化模型参数
For i=1to M1do:
For user S=(x1,x2,……,xt)in训练集D:
输入到LSTM-Autoencoder模型中
使用损失函数LossLSTM-Autoencoder
梯度下降更新参数
End for
End for
For user S=(x1,x2,……,xt)in训练集D:
使用训练好的编码器计算用户向量表示v
End for
End for
For user S=(x1,x2,……,xt)in训练集D:
使用训练好的编码器计算用户向量表示v
End for
For j=1to M2do:
For user v in训练集用户的向量表示V=(v1,v2,…,vt):
梯度下降更新判别器和生成器参数
End for
End for
可以理解的是,在上述训练过程中,需要对用户向量表示提取模块和生成对抗网络模块进行分开训练。用户的行为数据通过后台上报并存储在数据库中,只保留指定行为的对象行为作为训练用数据,相关行为向量特征包括但不限于充值、提现、购买礼物、赠送礼物、关注、弹幕发送、参与互动活动、广告点击、拉黑、删除、投诉等。对非离散的连续特征进行分桶离散化处理,将类别型特征使用独热编码(One Hot Encoding)等方式进行编码。编码结果Embedding与对象画像特征和LBS特征等进行拼接。保留序列长度为10到100的对象行为序列,对短序列进行padding补齐到100,对过长的对象行为序列进行窗口滑动生成多个样本。用户向量表示模块采用离线计算的方式,以天为单位进行计算更新模型。对于用户向量表示提取模块中的LSTM-Autoencoder模型,其隐层维度为200,训练epoch为50,最终输出的用户向量表示embedding为200维。
应当注意的是,本实施例中采用了Autoencoder-LSTM结构,生成对抗网络中采用的是前向神经网络,前向网络采用了两层的多层感知机结构。但是,本发明不具体限定深度神经网络的模型类型和拓扑结构,可以替换为各种其它有效的新型的模型结构,例如,CNN和其它网络结构相结合的模型,或者其它网络结构,如网络隐层数、隐层的维度等可以根据具体的数据和场景进行调节。此外,可以根据实际应用对模型内存占用的限制和对检测准确率的要求,对深度神经网络和前向网络的拓扑结构加以拓展或简化。
在一种可能的场景中,生成对抗网络的结构如图7,图7为本申请实施例提供的另一种异常对象的检测方法的场景示意图,图中的生成对抗网络模块中生成器和判别器均为两隐层,生成器使用50维随机噪声作为输入,使用随机均匀分布生成-1到1之间的随机噪声。生成器隐层维度分别为100维和200维,最终输出200维的生成样本向量表示embedding。判别器隐层维度为200维和100维,输出层为softmax函数;其中,训练epoch为50,训练中使用的优化器为ADAM优化器。
在一种可能的场景中,为解决实际训练中出现的模式坍塌问题(mode collapse),提高训练的稳定程度,还可以引入特征匹配(feature matching)其中f代表判别器中间层的输出。即首先将噪声样本输入判别器的中间层,以得到噪声抽象信息;然后获取中间层根据正常样本提取的正常抽象信息;并基于判别器区别噪声抽象信息与正常抽象信息,并对判别器的参数进行更新。具体的即从生成器生成的样本的中用f提取的抽象特征与在真实样本中用f提取的抽象特征在同一空间中,从而保证不同空间的特征关联度,提高训练的稳定程度。
另外,本实施例也可使用小批量判别(minibatch discrimination)等训练技巧,此处不作限定。
结合上述实施例可知,通过获取交互场景中待识别对象的行为序列数据;并基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;然后将特征向量输入判别器,以基于判别器得到待识别对象对应的异常对象检测结果,其中判别器基于噪声样本与正常样本进行训练所得,该噪声样本为基于正常样本生成的特征分布相似的样本,该异常对象检测结果基于待识别对象与正常样本的相似度确定。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,减少了标注成本,提高了异常对象的检测效率。
下面结合直播场景对本实施例的异常对象识别过程进行说明。请参阅图8,图8为本申请实施例提供的另一种异常对象的检测方法的场景示意图,图中示出了首先获取对象行为序列并拉取用户其他画像特征等其他特征,对数据进行预处理并拼接成训练样本。该训练样本作为用户向量表示提取模块中编码器的输入,计算得到用户的向量表示。然后用户的特征向量表示作为生成对抗网络中判别器的输入,可预测得到用户的异常概率。
本实施例考虑了直播平台中用户社交联系较弱的特点,更注重利用对象行为序列和画像信息。此外本实施例采用无监督算法,减轻了标注的成本,且将本实施例对象行为的序列信息作为模型输入,可以根据对象行为进行模型迭代;另外,本实施例采用端到端的深度学习方案,即将可以多步骤/模块解决的任务使用单个模型(图5中编码器+判别器的架构)来建模解决,提升效率与准确率。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图9,图9为本申请实施例提供的一种异常对象的检测装置的结构示意图,异常对象的检测装置900包括:
获取单元901,用于获取交互场景中待识别对象的行为序列数据;
确定单元902,用于基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量;
检测单元903,用于将所述特征向量输入判别器,以基于所述判别器得到所述待识别对象对应的异常对象检测结果,其中所述判别器基于噪声样本与正常样本进行训练所得,所述噪声样本为基于所述正常样本生成的特征分布相似的样本,所述异常对象检测结果基于所述待识别对象对应的对象特征向量与所述正常样本对应的对象特征向量的相似度确定。
可选的,在本申请一些可能的实现方式中,所述确定单元902,具体用于基于预设行为从所述行为序列数据中进行数据提取,以确定对象行为序列,所述预设行为基于所述交互场景包含的特征行为设定;
所述确定单元902,具体用于将所述对象行为序列输入目标编码器,以得到行为序列向量;
所述确定单元902,具体用于获取所述待识别对象对应的关联特征向量,所述关联特征向量基于对象画像特征、位置特征或文本特征确定;
所述确定单元902,具体用于将所述关联特征向量与所述行为序列向量进行拼接,以得到所述待识别对象对应的对象特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元902,具体用于获取训练行为序列;
所述确定单元902,具体用于将所述训练行为序列输入初始编码器,以得到所述训练行为序列的隐状态信息;
所述确定单元902,具体用于将所述隐状态信息输入解码器,以重建所述训练行为序列;
所述确定单元902,具体用于确定重建所述训练行为序列过程中对应的损失信息;
所述确定单元902,具体用于基于所述损失信息对所述初始编码器进行训练,以得到所述目标编码器。
可选的,在本申请一些可能的实现方式中,所述确定单元902,具体用于基于所述交互场景中异常处理信息确定参数更新周期;
所述确定单元902,具体用于根据所述参数更新周期获取所述训练行为序列。
可选的,在本申请一些可能的实现方式中,所述检测单元903,具体用于获取所述交互场景中的正常样本;
所述检测单元903,具体用于确定所述正常样本的特征分布信息;
所述检测单元903,具体用于基于所述特征分布信息中指示的异常概率配置所述生成器对应的样本分布信息;
所述检测单元903,具体用于根据所述样本分布信息与所述特征分布信息之间的距离配置生成器函数;
所述检测单元903,具体用于基于所述生成器函数进行损失计算,以对所述生成器进行训练;
所述检测单元903,具体用于基于训练后的所述生成器生成噪声样本;
所述检测单元903,具体用于将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新。
可选的,在本申请一些可能的实现方式中,所述检测单元903,具体用于将所述噪声样本输入所述判别器的中间层,以得到噪声抽象信息;
所述检测单元903,具体用于获取所述中间层根据所述正常样本提取的正常抽象信息;
所述检测单元903,具体用于基于所述判别器区别所述噪声抽象信息与所述正常抽象信息,并对所述判别器的参数进行更新。
通过获取交互场景中待识别对象的行为序列数据;然后基于行为序列数据进行向量表示,以得到待识别对象对应的对象特征向量;进而将特征向量输入生成对抗网络中的判别器,以基于判别器得到待识别对象对应的异常对象检测结果,其中生成对抗网络包括判别器和生成器,该生成器用于基于直播场景中的正常样本生成特征分布相似的噪声样本,该判别器基于噪声样本与正常样本进行训练所得,该异常对象检测结果基于待识别对象与正常样本的相似度确定。从而实现无监督算法的对象识别过程,由于判别器基于与正常样本相似的噪声样本训练所得,并基于待识别对象与正常样本的相似度确定检测结果,该过程无需进行异常样本的标记,减少了标注成本,提高了异常对象的检测效率。
本申请实施例还提供了一种终端设备,如图10所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10,手机包括:射频(radio frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作,以及在触控面板1031上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1080还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图11,图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图11所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有异常对象的检测指令,当其在计算机上运行时,使得计算机执行如前述图3至图8所示实施例描述的方法中异常对象的检测装置所执行的步骤。
本申请实施例中还提供一种包括异常对象的检测指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图8所示实施例描述的方法中异常对象的检测装置所执行的步骤。
本申请实施例还提供了一种异常对象的检测系统,所述异常对象的检测系统可以包含图9所描述实施例中的异常对象的检测装置,或图10所描述实施例中的终端设备,或者图11所描述的服务器。
在一种可能的场景中,本申请中的网络资源管理的方法应用于区块链设备中,即权威DNS、LDNS或终端为区块链设备,且该区块链设备为区块链中的节点,下面结合附图进行说明;参见图12A所示的数据共享系统,数据共享系统1200是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点1201,多个节点1201可以是指数据共享系统中各个客户端。每个节点1201在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1节点名称与节点标识的对应关系
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
节点N 119.123.789.258
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图12B,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图12C,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,异常对象的检测装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种异常对象的检测方法,其特征在于,包括:
获取交互场景中待识别对象的行为序列数据;
基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量;
将所述特征向量输入判别器,以基于所述判别器得到所述待识别对象对应的异常对象检测结果,其中所述判别器基于噪声样本与正常样本进行训练所得,所述噪声样本为基于所述正常样本生成的特征分布相似的样本,所述异常对象检测结果基于所述待识别对象对应的对象特征向量与所述正常样本对应的对象特征向量的相似度确定。
2.根据权利要求1所述的方法,其特征在于,所述基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量,包括:
基于预设行为从所述行为序列数据中进行数据提取,以确定对象行为序列,所述预设行为基于所述交互场景包含的特征行为设定;
将所述对象行为序列输入目标编码器,以得到行为序列向量;
获取所述待识别对象对应的关联特征向量,所述关联特征向量基于对象画像特征、位置特征或文本特征确定;
将所述关联特征向量与所述行为序列向量进行拼接,以得到所述待识别对象对应的对象特征向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取训练行为序列;
将所述训练行为序列输入初始编码器,以得到所述训练行为序列的隐状态信息;
将所述隐状态信息输入解码器,以重建所述训练行为序列;
确定重建所述训练行为序列过程中对应的损失信息;
基于所述损失信息对所述初始编码器进行训练,以得到所述目标编码器。
4.根据权利要求3所述的方法,其特征在于,所述获取训练行为序列,包括:
基于所述交互场景中异常处理信息确定参数更新周期;
根据所述参数更新周期获取所述训练行为序列。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述判别器为生成对抗网络中的判别器,所述生成对抗网络包括所述判别器和生成器,所述生成器用于基于所述交互场景中的正常样本生成特征分布相似的噪声样本,所述方法还包括:
获取所述交互场景中的正常样本;
确定所述正常样本的特征分布信息;
基于所述特征分布信息中指示的异常概率配置所述生成器对应的样本分布信息;
根据所述样本分布信息与所述特征分布信息之间的距离配置生成器函数;
基于所述生成器函数进行损失计算,以对所述生成器进行训练;
基于训练后的所述生成器生成噪声样本;
将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新。
6.根据权利要求5所述的方法,其特征在于,所述将所述噪声样本输入判别器,以使得所述判别器区别所述正常样本与所述噪声样本,并对所述判别器的参数进行更新,包括:
将所述噪声样本输入所述判别器的中间层,以得到噪声抽象信息;
获取所述中间层根据所述正常样本提取的正常抽象信息;
基于所述判别器区别所述噪声抽象信息与所述正常抽象信息,并对所述判别器的参数进行更新。
7.一种异常对象的检测装置,其特征在于,包括:
获取单元,用于获取交互场景中待识别对象的行为序列数据;
确定单元,用于基于所述行为序列数据进行向量表示,以得到所述待识别对象对应的对象特征向量;
检测单元,用于将所述特征向量输入判别器,以基于所述判别器得到所述待识别对象对应的异常对象检测结果,其中所述判别器基于噪声样本与正常样本进行训练所得,所述噪声样本为基于所述正常样本生成的特征分布相似的样本,所述异常对象检测结果基于所述待识别对象对应的对象特征向量与所述正常样本对应的对象特征向量的相似度确定。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的异常对象的检测方法。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现上述权利要求1至6任一项所述的异常对象的检测方法的步骤。
10.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至6任一项所述的异常对象的检测方法。
CN202210133868.3A 2022-02-14 一种异常对象的检测方法、装置以及存储介质 Active CN116644367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210133868.3A CN116644367B (zh) 2022-02-14 一种异常对象的检测方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210133868.3A CN116644367B (zh) 2022-02-14 一种异常对象的检测方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN116644367A true CN116644367A (zh) 2023-08-25
CN116644367B CN116644367B (zh) 2024-10-22

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992299A (zh) * 2023-09-28 2023-11-03 北京邮电大学 区块链交易异常检测模型的训练方法、检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
KR20210013865A (ko) * 2019-07-29 2021-02-08 에스앤즈 주식회사 생성적 대립 네트워크를 이용한 사람의 비정상 행동 탐지 시스템 및 방법
US20210073516A1 (en) * 2018-10-25 2021-03-11 Tencent Technology (Shenzhen) Company Limited Living body detection method and apparatus, electronic device, storage medium, and related system to which living body detection method is applied
CN113554624A (zh) * 2021-07-23 2021-10-26 深圳市人工智能与机器人研究院 异常检测方法、装置及计算机存储介质
CN113569111A (zh) * 2021-09-24 2021-10-29 腾讯科技(深圳)有限公司 对象属性识别方法、装置、存储介质及计算机设备
CN113658115A (zh) * 2021-07-30 2021-11-16 华南理工大学 一种基于深度卷积生成对抗网络的图像异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073516A1 (en) * 2018-10-25 2021-03-11 Tencent Technology (Shenzhen) Company Limited Living body detection method and apparatus, electronic device, storage medium, and related system to which living body detection method is applied
KR20210013865A (ko) * 2019-07-29 2021-02-08 에스앤즈 주식회사 생성적 대립 네트워크를 이용한 사람의 비정상 행동 탐지 시스템 및 방법
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
CN113554624A (zh) * 2021-07-23 2021-10-26 深圳市人工智能与机器人研究院 异常检测方法、装置及计算机存储介质
CN113658115A (zh) * 2021-07-30 2021-11-16 华南理工大学 一种基于深度卷积生成对抗网络的图像异常检测方法
CN113569111A (zh) * 2021-09-24 2021-10-29 腾讯科技(深圳)有限公司 对象属性识别方法、装置、存储介质及计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992299A (zh) * 2023-09-28 2023-11-03 北京邮电大学 区块链交易异常检测模型的训练方法、检测方法及装置
CN116992299B (zh) * 2023-09-28 2024-01-05 北京邮电大学 区块链交易异常检测模型的训练方法、检测方法及装置

Similar Documents

Publication Publication Date Title
CN108304758B (zh) 人脸特征点跟踪方法及装置
CN110738211B (zh) 一种对象检测的方法、相关装置以及设备
CN111368290B (zh) 一种数据异常检测方法、装置及终端设备
US10853716B2 (en) Systems and methods for a mathematical chat bot
CN110995810B (zh) 一种基于人工智能的对象识别方法和相关装置
CN110209810B (zh) 相似文本识别方法以及装置
CN110798718B (zh) 一种视频推荐方法以及装置
CN112995757B (zh) 视频剪裁方法及装置
CN110516113A (zh) 一种视频分类的方法、视频分类模型训练的方法及装置
CN116644367B (zh) 一种异常对象的检测方法、装置以及存储介质
CN117115590A (zh) 基于自监督学习的内容审核模型训练方法、装置及介质
CN114722234B (zh) 基于人工智能的音乐推荐方法、装置、存储介质
CN116959059A (zh) 一种活体检测的方法、装置以及存储介质
CN116644367A (zh) 一种异常对象的检测方法、装置以及存储介质
CN115801366A (zh) 攻击检测的方法、装置、电子设备及计算机可读存储介质
CN115439141A (zh) 用户交际圈画像的处理方法、装置、电子设备及存储介质
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN115248894A (zh) 一种信息推荐方法、装置和计算机可读存储介质
CN118051782B (zh) 一种模型训练的方法、业务处理的方法以及相关装置
CN114743081B (zh) 模型训练方法、相关装置及存储介质
CN117216756A (zh) 一种账号挖掘方法、装置及相关产品
CN117079356A (zh) 一种对象鉴伪模型构建方法、虚假对象检测方法及装置
CN117237652A (zh) 一种对象集合的检测方法、装置以及存储介质
CN116992125A (zh) 一种对象的推荐方法、装置以及存储介质
CN116959054A (zh) 一种图像识别方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091123

Country of ref document: HK

GR01 Patent grant