CN110995810A - 一种基于人工智能的对象识别方法和相关装置 - Google Patents
一种基于人工智能的对象识别方法和相关装置 Download PDFInfo
- Publication number
- CN110995810A CN110995810A CN201911167470.6A CN201911167470A CN110995810A CN 110995810 A CN110995810 A CN 110995810A CN 201911167470 A CN201911167470 A CN 201911167470A CN 110995810 A CN110995810 A CN 110995810A
- Authority
- CN
- China
- Prior art keywords
- identified
- network
- objects
- neighbor
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于人工智能的对象识别方法和相关装置,通过获取网络行为数据,可以确定出实施网络行为的多个对象和所实施网络行为,针对其中的待识别对象的类型,可以基于网络行为与待识别对象所建立的关联确定关联对象,对关联对象的时序行为特征携带有与待识别对象类型相关的大量有效内容,可以为识别待识别对象提供依据。而且针对任一个待识别对象,所构建出的邻居特征集合中均包括指定数量的时序行为特征,通过这种统一的构建方式确定出特征一致性较高的邻居特征集合,该统一构建方式能够提供很好的可泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中的人为影响。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种基于人工智能的对象识别方法和相关装置。
背景技术
随着网络普及化,用户可以通过网络行为实现正常的日常、工作需求。例如可以通过手机登录游戏通过其他用户对战,通过电脑登录购物软件进行网购,通过笔记本登录社交软件与好友聊天等。
然而,有些用户会通过网络行为实现不正当需求,例如通过移动设备进行游戏作弊、购物刷单、虚拟货币买卖等,如果放任不管,必然会对用户的网络大环境造成不良影响。为了识别这类实施不正当网络行为的异常用户,相关技术主要采用通过预设规则对网络行为数据进行筛选,以此识别异常用户。
然而这类通过简单规则识别异常用户的准确性与规则设置者的个人经验有直接关系,导致识别准确性波动很大。
发明内容
为了解决上述技术问题,本申请提供了一种基于人工智能的对象识别方法和相关装置,提供很好的可泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中的人为影响。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种对象识别方法,所述方法包括:
获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
根据所述邻居特征集合识别所述待识别对象的类型。
第二方面,本申请实施例提供了一种对象识别装置,所述装置包括获取单元、确定单元和识别单元:
所述获取单元,用于获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
所述确定单元,用于若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
所述确定单元还用于根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
所述识别单元,用于根据所述邻居特征集合识别所述待识别对象的类型。
第三方面,本申请实施例提供了一种用于对象识别的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的对象识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的对象识别方法。
由上述技术方案可以看出,通过获取网络行为数据,可以确定出实施网络行为的多个对象和所实施网络行为,若需要基于网络行为数据识别其中待识别对象的类型,可以从多个对象中确定与该待识别对象具有关联关系的关联对象,由于关联对象的时序行为特征可以体现出该关联对象相关的网络行为数据,且该关联对象是基于网络行为与待识别对象建立的关联,故通过对关联对象的时序行为特征确定出的邻居特征集合携带有与待识别对象类型相关的大量有效内容,可以为识别待识别对象提供依据。而且,针对任一个待识别对象,所构建出的邻居特征集合中均包括指定数量的时序行为特征,即使不同的待识别对象确定出数量各异的关联对象,也可以通过这种统一的构建方式确定出特征一致性较高的邻居特征集合,该统一构建方式能够提供很好的可泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中的人为影响。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种对象识别场景示意图;
图2为本申请实施例提供的一种对象识别方法的方法流程图;
图3为本申请实施例提供的一种关联结构的图结构网络示意图;
图4a为本申请实施例提供的一种基于关联结构的近邻采样示意图;
图4b为本申请实施例提供的一种基于关联结构的特征聚合示意图;
图5为本申请实施例提供的一种基于神经网络模型的模型训练和对象识别流程图;
图6为一种基于全邻居计算的对象识别相关技术示意图;
图7为本申请实施例提供的一种对象识别流程图;
图8为本申请实施例提供的一种对象识别装置的装置结构图;
图9为本申请实施例提供的一种设备的结构图;
图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在相关技术中,对网络中的对象例如用户或设备,多采用人工设置规则进行识别,以判别是否异常。但是人工规则设置的方式受人为经验影响大,识别准确性不稳定。
为此,本申请实施例提供了一种对象识别方法,通过网络行为数据确定出实施网络行为所涉及多个对象间的关联关系,在将其中某对象作为待识别对象进行识别时,根据该待识别对象的关联对象的时序行为特征,通过统一的构建方式确定出具有指定数量的邻居特征集合。这种构建方式可以确定出特征一致性较高的邻居特征集合,能够提供很好的泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度。
本申请实施例所提供的对象识别方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述的机器学习等方向。
例如可以涉及机器学习(Machine learning,ML),机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(RecurrentNeural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
本申请实施例提供的对象识别方法可以通过具有数据处理、分析能力的数据处理设备实现。该数据处理设备可以是终端设备,也可以是服务器。其中,终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant,PDA)、平板电脑等;服务器具体可以为独立服务器,也可以为集群服务器。
上述数据处理设备可以具备上述机器学习能力,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
在本申请实施例中,数据处理设备可以通过机器学习技术对根据待识别对象所确定的邻居特征集合进行处理,例如数据处理设备可以通过神经网络模型识别该待识别对象的类型。
如图1所示的场景中,数据处理设备为服务器100,在获取网络行为数据后,根据网络行为数据确定出关联关系。
网络行为数据是用于标识网络行为的数据,网络行为可以理解为用户通过设备在网络上做出的动作、行为,例如游戏登录、发帖、网购、下载等等。需要注意的是网络行为可以是通过用户在设备上实施操作产生的,也可以是用户通过软件、代码、程序等自动产生的。
网络行为数据可以通过行为信息和对象标识来标识网络行为,其中行为信息可以标识网络行为,携带有与该网络行为相关的信息,例如时间、行为类型、所涉及的对象标识等。
对象标识用于标识对象,在本申请实施例中,对象可以是用户,也可以是设备。
从而服务器100通过网络行为数据可以确定出在什么时间发生了何种网络行为,以及这种网络行为所涉及的对象。服务器100基于上述数据,可以通过网络行为确定出对象间的关联关系,当多个对象涉及同一个网络行为时,这多个对象具有关联。例如图1中示出了七个对象间的关联关系,为了便于说明,通过数字1-7区别这七个对象,两个对象间的连线可以体现这两个对象同时涉及至少一个网络行为。
除此之外,每个对象还具有时序行为特征,一个对象的时序行为特征是根据与这个对象相关的网络行为数据确定的,用于体现这个对象在所涉及网络行为中的相关数据,并且体现所涉及网络行为间的时序。
当需要识别对象1的类型时,服务器100可以将对象1作为待识别对象,并根据关联关系确定出对象1的关联对象,例如为对象2-5这四个对象。这四个对象由于与对象1具有关联,故这四个对象的时序行为数据携带有与对象1实际类型相关的大量有效内容。
服务器100可以根据指定数量从这四个对象的时序行为数据中确定出对象1的邻居特征集合。这种基于指定数量从待识别对象的关联对象中确定时序行为特征的方式可以属于一种统一的近邻采用方式,即不论待识别对象的关联对象数量有多少,确定出的邻居特征集合中的时序行为特征的数量均为指定数量,导致确定出的邻居特征集合特征一致性较高,能够提供很好的可泛化性,可以有效的适用于不同的网络行为数据。
例如图1中指定数量设置为三个,由于对象1的关联对象有四个,故服务器100随机从这四个关联对象的时序行为特征中确定三个,分别为对象2-4的时序行为特征:[X21,X22…X2n],[X31,X32…X3n],[X41,X42…X4n],以此作为邻居特征集合。并根据该邻居特征集合确定对象1的类型为正常或异常。这里的Xin可以表征第i个关联对象的时序行为特征中的第n个维度的数据,维度可以根据不同场景需求进行设置,例如可以是时间,n可以为24,每一个维度的数据体现该关联对象在该维度所对应时间所涉及的网络行为。
由于针对任一个待识别对象,所确定出的邻居特征集合中均包括指定数量的时序行为特征,即使不同的待识别对象确定出数量各异的关联对象,也可以通过该统一的构建方式确定出特征一致性较高的邻居特征集合,带来的高可泛化性可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中人为影响。
接下来结合附图说明本申请的技术方案。为了便于描述,下述实施例中主要以服务器作为前述数据处理设备进行举例、说明。
图2为本申请实施例提供的一种对象识别方法的方法流程图,所述方法包括:
S201:获取通过网络行为所产生的网络行为数据。
如前所述,用户通过设备直接或间接实施网络行为时,会产生网络行为数据,该网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象。
例如行为信息可以标识用户a通过设备b登录了手机游戏这一网络行为,该网络行为涉及的多个对象包括用户a和设备b。
由于在不同的对象识别场景中,识别对象所需的网络行为数据一般具有一定的区间性、范围性。例如在一种可能的实现方式中,网络行为数据为在目标软件中所实施网络行为产生的,这种情况下,识别对象的类型可以体现对象在该目标软件中做出网络行为是否正常。例如针对一款手机游戏的用户作弊识别,针对一款购物软件的商家、用户刷单识别等。
需要注意的是,根据应用场景或实际需求的不同,目标软件可以指示不同的范围。例如目标软件可以是指一个软件,例如某款手机游戏、某款购物软件,例如目标软件还可以是指一类软件,例如射击类游戏、社交类软件等。
网络行为数据中的对象可以包括用户和/或设备,其中设备可以是各类能够实现联网的设备,例如手机、笔记本、台式机、服务器、网络接口等等。服务器为可以根据不同的识别需求和场景,从网络行为数据中确定出不同组成的对象,例如可以均为用户,或均为设备。
网络行为数据通过不同的对象标识来标识对象,例如通过用户标识来标识用户,设备标识来标识设备。
当对象为用户时,对象标识可以是用户标识,该用户标识可以唯一对应于一个用户,一个用户可以具有至少一个用户标识。
在不同的应用场景中可以提取不同类型的用户标识,例如可以是用户名、手机号码、身份证号码等等。若网络行为数据涉及的是目标软件,也可以是目标软件为用户分配的用户标识,例如QIMSI等。
当对象为设备时,对象标识可以是该设备的设备标识,设备标识用于标识对象的网络位置和/或硬件信息。其中,硬件信息可以标识设备的硬件,网络位置可以是该设备连接网络所使用的网络标识。其中,硬件标识例如可以为设备的IMSI(国际移动用户识别码,International Mobile Subscriber Identification Number)、IMEI(国际移动设备识别码,International Mobile Equipment Identity,IMEI)等。网络标识例如可以为设备的IP地址、MAC地址等。
需要说明的是,在一些情况下,网络行为数据是通过目标软件上报的日志数据确定得到的。
S202:若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象。
目标对象可以是该多个对象中的任意一个,属于尚未识别类型的对象,或者曾经识别过类型但是需要再次核实的对象。目标对象可以是用户,也可以是设备。
服务器通过S201所获取的网络行为数据,可以确定出网络行为数据中对象间的关联关系,该关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联。
例如网络行为数据中包括与用户a通过设备b登录了手机游戏这一网络行为相关的数据,根据该网络行为可以确定用户a和设备b建立了关联,具有关联关系。
故服务器可以根据确定出的关联关系和作为待识别对象的目标对象,将与目标对象具有关联关系的对象确定为关联对象。
例如网络行为数据所标识的网络行为包括用户a通过手机b登录了手机游戏1,用户a通过手机c登录了手机游戏1,用户a通过台式机d登录了手机游戏1。若将用户a作为待识别对象,那么确定出的关联对象可以包括手机b、手机c和台式机d(具体可以通过设备标识进行表示)。
S203:根据所述关联对象的时序行为特征确定邻居特征集合。
通过S201中所获取的网络行为数据,服务器除了可以确定前述的关联关系,还可以基于所标识的网络行为确定出各个对象的时序行为特征。
一个对象的时序行为特征是根据与这个对象相关的网络行为数据确定的,用于体现这个对象在所涉及网络行为中的相关数据,并且体现所涉及网络行为间的时序。
例如对象为用户,用户标识为0001时,这个对象的时序行为数据可以包括:用户标识为0001的移动用户,在2019年1月30日14:00:00登录了产品P,其行为发生的IP地址为127.0.0.0,MAC地址为00:00:00:00:00,IMSI为0000001,IMEI为0000000;在2019年1月30日18:10:00登录了产品N,其行为发生的IP地址为123.0.0.0,MAC地址为00:00:00:00:10,IMSI为0000011,IMEI为0000001。
例如对象为设备时,这个对象的时序行为数据可以包括:IP地址为127.0.0.0的设备,在2019年1月30日14:00:00登录了用户标识为00001的移动用户,在当天15:00:00登录了用户标识为00002的移动用户。
服务器根据关联对象分别对应的时序行为特征,可以确定出包括指定数量的时序行为特征的邻居特征集合。
本申请实施例中,针对不同的待识别对象,不论当前处理的待识别对象的关联对象实际有多少个,确定出的邻居特征集合中的时序行为特征的数量一直保持相同,即为指定数量,从而统一化了邻居特征集合的构建方式。
这样构建的好处在于,用于确定待识别对象的数据形式始终保持统一,可以适用于体现不同关联关系的网络行为数据,即使原网络行为数据通过更新增加了新的对象、新的关联关系,或者改变了原有的关联关系,均可以采用原有的根据邻居特征集合确定待识别对象类型方式进行对象识别,从而实现了本申请实施例所提供对象识别方式的可泛化性,即针对各种不同的网络行为数据,不论实际关联关系是什么,均可以采用统一化的邻居特征集合的构建方式来进行对象识别。而且,这种稳定的构建方式使得用于识别待识别对象类型的邻居特征集合所体现的特征维度表达统一,更容易达到稳定的识别精度和准度。
接下来针对不同可能的关联关系为例,介绍本步骤的相应实现方式。
若待识别对象的关联对象的数量小于所述指定数量,根据所述关联对象的时序行为特征进行复用,以将所述邻居特征集合中的时序行为特征的数量增加到所述指定数量。
例如指定数量为三个,若待识别对象的关联对象为两个,可以通过复用的方式从这两个关联对象的时序行为特征中新增一个时序行为特征,实现邻居特征集合中时序行为特征的数量为三个。具体的复用方式可以复制其中一个时序行为特征作为新增的时序行为特征。
若待识别对象的关联对象的数量大于所述指定数量,从所述关联对象的时序行为特征中选取所述指定数量的时序行为特征作为所述邻居特征集合。
例如指定数量为三个,若待识别对象的关联对象为四个,可以从这四个关联对象的时序行为特征中选择三个时序行为特征构成邻居特征集合。具体的选择方式可以为随机选择等。
S204:根据所述邻居特征集合识别所述待识别对象的类型。
如前所述,邻居特征集合中的时序行为特征是关联对象的时序行为特征,由于关联对象与待识别对象间与网络行为具有关联,即任一个关联对象与待识别对象至少共同涉及了一个网络行为,那么关联对象的时序行为特征携带有与待识别对象所涉及网络行为相关的信息,属于可以用于确定待识别对象类型的有效数据。
而且,由于前述指定数量构建方式的原因,邻居特征集合所体现的特征维度表达统一,针对待识别对象的类型识别,更容易达到稳定的识别精度和准度。
需要注意的是,本申请实施例并未限定用于识别待识别对象类型的数据仅为邻居特征集合,待识别对象本身也具有时序行为特征,能够直接体现出待识别对象所涉及的网络行为。
故一种可能的实现方式中,在识别待识别对象的类型时,除了需要依据邻居特征集合,还可以进一步依据待识别对象的时序行为特征。
识别出的类型可以体现待识别对象与网络行为相关的行为倾向,例如包括正常和异常这两种类型。
若识别出待识别对象为正常,证明该待识别对象涉及的网络行为处于正常规则允许下,并未影响网络环境。当网络行为数据为在目标软件中所实施的网络行为产生的,那么待识别对象在目标软件中的网络行为未影响目标软件的网络环境,例如未影响到其他用户的正常使用等。
若识别出待识别对象为异常,证明该待识别对象涉及的网络行为全部或部分超出了正常规则的允许,已经影响了网络环境,或者具有潜在异常可能。当网络行为数据为在目标软件中所实施的网络行为产生的,那么待识别对象在目标软件中的网络行为已经影响了目标软件的网络环境,或者具有潜在异常可能,例如影响到或即将影响其他用户的正常使用、使得待识别对象或与待识别对象相关对象非法获利等。
通过上述实施例可以看出,通过获取网络行为数据,可以确定出实施网络行为的多个对象和所实施网络行为,若需要基于网络行为数据识别其中待识别对象的类型,可以从多个对象中确定与该待识别对象具有关联关系的关联对象,由于关联对象的时序行为特征可以体现出该关联对象相关的网络行为数据,且该关联对象是基于网络行为与待识别对象建立的关联,故通过对关联对象的时序行为特征确定出的邻居特征集合携带有与待识别对象类型相关的大量有效内容,可以为识别待识别对象提供依据。而且,针对任一个待识别对象,所构建出的邻居特征集合中均包括指定数量的时序行为特征,即使不同的待识别对象确定出数量各异的关联对象,也可以通过这种统一的构建方式确定出特征一致性较高的邻居特征集合,该统一构建方式能够提供很好的可泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中的人为影响。
本申请提供的高准确度、高效率的对象类型识别可以提高对网络环境的净化速度,有利于网络环境的整体发展。
接下来针对S204,介绍一种通过邻居特征集合识别待识别对象类型的可选实现方式,在本实现方式中,采用了神经网络模型计算待识别对象的类型。
本实现方式中的神经网络模型并不限定具体的网络类型,例如可以是CNN模型、DNN模型、RNN模型等。
为了能够使用神经网络模型,需要将邻居特征集合进行聚合计算,确定出适用于输入神经网络模型的输入向量。
S2041:通过对所述邻居特征集合中的时序行为特征进行聚合,得到所述待识别对象对应的待检测特征向量。
为了便于对时序行为特征进行聚合,可以预先对时序行为特征进行统一化处理,生成的时序行为特征为具有相同长度的特征向量。
本申请实施例并不限定具体的聚合方式,只要通过聚合,可以使得得到的待检测特征向量具有用于识别待识别对象类型的作用即可,例如至少可以包括以下几种:
a)平均聚合:首先对邻居特征集合中的每个时序行为特征(embedding)在每个维度取平均,然后与待识别对象的时序行为特征(embedding)进行拼接,最后进行非线性转换。其定义如以下公式所述:
b)归纳式聚合:直接对待识别对象的时序行为特征和邻居特征集合中的每个时序行为特征在每个维度取平均,然后进行非线性转换。其定义如以下公式所述:
c)LSTM聚合:首先对邻居特征集合中的时序行为特征进行随机排序,然后将邻居特征集合中的时序行为特征作为LSTM模型的输入进行训练,LSTM模型的输出即为待识别对象的时序行为特征。
d)Pooling聚合器:首先对邻居特征集合中的关联对象的上一层关联对象的时序行为特征进行非线性转换,然后按维度应用最大/最小池化(max/mean pooling),以捕获在某方面的突出的/综合的表现,以此表示待识别对象的时序行为特征。其定义如以下公式所述:
上述公式中各参数定义如下所述:
h表示异构图网络的隐藏层;k表示聚合次数;N(v)表示节点v的邻居节点集合;σ表示非线性激活函数(Rectified Linear Unit,ReLu);W k表示k层神经网络的参数矩阵;CONCAT表示连接算法;Wpool表示神经网络模型中的池化参数矩阵;b为常量;ui表示N(v)中的任意一个节点;N(u)表示N(v)中的节点的邻居节点集合。
除了以上几种列出的聚合方式,可泛化异构图神经网络模型的聚合计算方法还可以包括均值聚合、归纳式聚合等等。
S2042:根据所述待检测特征向量,通过神经网络模型确定所述待识别对象的类型。
在本申请实施例中,对任意待识别对象的邻居特征集合的聚合都采用统一的聚合方式,使得聚合后得到的待检测特征向量的特征表达具有较高的一致性,不会影响本申请前述的可泛化性。
通过聚合后得到的待检测特征向量可以通过训练好的神经网络模型,确定出待识别对象的类型。
可选的,该神经网络模型是通过如下方式训练的:
S301:根据历史网络行为数据和所述历史网络行为数据所标识的历史关联关系,确定已识别对象的历史邻居特征集合;所述历史邻居特征集合包括所述指定数量的时序行为特征。
其中已识别对象为已经识别出类型的对象,可以是通过人工标注或者其他方式确定的,例如针对指定游戏的黑名单,可以以此确定出异常用户、异常设备的标识。该已识别对象的类型可以作为后续训练数据中的标签。
而历史网络行为数据可以是用于识别出这些已识别对象的网络行为数据。
基于历史网络行为数据确定历史关联关系,基于历史关联关系和已识别对确定历史邻居特征集合的方式可以参见前述S201-S203中的描述,这里不再一一赘述。需要强调的是,根据已识别对象和历史关联关系确定出的历史邻居特征集合中包括了指定数量的时序行为特征,该指定数量与前述实施例中一致。
需要说明的是,本申请实施例并不限定历史网络行为数据所标识的历史关联关系与S201所获取的网络行为数据所标识的关联关系相同,即在一种可能的实现方式中,所述网络行为数据所标识的关联关系与所述历史网络行为数据所标识的历史关联关系不同。
原因在于,在确定训练数据的过程中,和在使用神经网络模型的过程中,不论是在确定待识别对象对应的邻居特征集合,还是在确定已识别对象对应的历史邻居特征集合,采用的均为统一的构建方式,即集合中包括的均是指定数量的时序行为特征,而不会关注实际情况下待识别对象或已识别对象的关联对象数量。而且,在一些可能的实现方式下,即使对集合进行聚合得到特征向量,不论是对邻居特征集合的聚合方式,还是对历史邻居集合的聚合方式都是一致的。由此可以看出,通过本申请实施例提供的对象类型识别方案,可以适用于不同的网络行为数据,且不关注网络行为数据实际体现的关联关系,具有极好的可泛化性,从而可以有效适应网络行为数据的变化,出现了更新也不需要重新训练神经网络模型,实现了一次训练,多次使用的作用。
S302:根据所述历史邻居特征集合和所述已识别对象的类型确定训练数据。
若前述在通过神经网络模型对待识别对象进行识别时采用的是待检测特征向量,在确定神经网络模型的训练数据的过程中,在一种可能的实现方式中,可以基于前述的聚合方式对历史邻居特征集合进行聚合,得到已识别对象对应的特征向量。将该特征向量和已识别对象的类型确定出训练数据。
S303:根据所述训练数据训练所述神经网络模型。
在根据训练数据训练神经网络模型的过程中,可以将历史邻居特征集合确定出的特征向量作为模型输入,已识别对象的类型作为模型输出的对照标签。
如前所述,由于在模型训练过程中基于统一的邻居特征集合构建方式,以及在需要聚合处理的情况下,采用统一的聚合方式。这里的统一是指与使用模型过程中对网络行为数据处理方式上的统一。故模型训练好后,可以针对各种标识不同关联关系的网络行为数据提供对象类型识别服务,达到了一次训练多次使用的效果,对于多变的网络行为数据具有很好的适应性和通用性,大大提升了识别效率,并具有稳定的识别精度。
接下来将对说明一种通过构建可泛化图结构类型的关联结构,来梳理网络行为数据中关联关系和相关行为信息的可选方式。
建立的关联结构中,各个对象分别具有对应的对象节点,通过对象节点间的关联关系体现所述多个对象间基于所述网络行为建立的关联,也就是说,关联结构中对象节点的关联关系直观的体现了网络行为数据中的关联关系。同时,对象节点还具有所对应对象的时序行为特征。从而实现了通过关联结构对网络行为数据的具象化。
关联结构可以如图3所示,为了便于描述,针对采用不同对象标识的对象,其对应的对象节点采用了不同形式的图案。例如黑色的对象节点用于表示通过用户标识所标识的用户,白色的对象节点用于表示通过IP所标识的设备,横条纹的对象节点用于表示通过MAC所标识的设备,竖条纹的对象节点用于表示通过IMSI所标识的设备,灰色的对象节点用于表示通过IMEI所标识的设备。
在图3中,关联结构通过对象节点间的连线标识对象节点间具有关联,由于包括表示不同类型对象的对象节点,从而形成了异构图网络结构。本申请实施例并不限定网络结构的类型,也可以是同构图网络结构,在此结构中,每个对象节点表示相同类型的对象,例如均为用户,或者均为具有相同类型设备标识的设备。
在关联结构中,与待识别对象的对象节点直接连线的可以认为是一级邻居节点,例如图3所示的关联结构中,待识别对象的对象节点具有六个一级邻居节点,一级邻居节点的一级邻居节点可以认为是待识别对象的对象节点的二级邻居。
在通过关联结构具象化网络行为数据中的关联关系和多个对象后,针对S202的从多个对象中确定与待识别对象具有关联关系的关联对象时,可以根据所述待识别对象在所述关联结构中对应的目标对象节点和所述关联关系确定与所述目标对象节点相邻的相邻对象节点;所述相邻对象节点对应的对象为所述关联对象。
例如图3所示的关联结构中,待识别对象的关联对象可以通过待识别对象对应的对象节点的六个一级邻居节点或者说相邻对象节点来确定。
本申请实施例并不限定相邻对象节点一定只局限于直接相邻的情况,也可以进一步包括间接相邻的对象节点,例如二级邻居节点。也就是说,在一种可能的实现方式中,与所述目标对象节点相邻的相邻对象节点是通过至少一级邻居关系确定的。
接下来结合上述关联结构形式的图结构网络对确定待识别对象的关联对象、确定邻居特征集合(相当于前述的近邻采样)和确定待检测特征向量(相当于前述的特征聚合)这几个阶段进行说明。在近邻采样和特征聚合中,结合了GraphSAGE的思想,GraphSAGE是一种归纳式(inductive)学习的图神经网络框架。归纳式学习旨在将特殊问题一般化,使得模型在未知的数据上也具有较好的性能。
如图4a所述的图结构网络中,黑色的对象节点为待识别对象对应的对象节点,k为邻居级数,箭头为近邻采样的选取对象节点。
待识别对象的一级邻居节点包括五个(处于k=1的圆形区间中),构建邻居特征集合的指定数量在近邻采样中被设置为三个,可以从一级邻居节点中选择其中三个(k=1的圆形区间中的三个灰色对象节点)的时序行为特征来构建邻居特征集合。
如果构建邻居特征集合还需要涉及二级邻居节点,也可以从二级邻居节点(k=2的环形区间中的五个灰色对象节点)获取对应的时序行为特征,结合到一级邻居节点的时序行为特征中。在图4a所示出的场景中,针对二级邻居节点的指定数量在近邻采样中被设置为两个。
根据待识别对象的关联对象确定了邻居特征集合后,在一种可能的实现方式中可以对邻居特征集合中的时序行为特征进行特征聚合,得到待检测特征向量。
基于图4a的近邻采样方式,相应的特征聚合方式可以参见图4b,其中箭头方向可以体现特征聚合的方向。以k=1的圆形区间中左上角的灰色对象节点为例,将该节点的两个一级邻居节点(k=2的环形区间中左上角的两个灰色对象节点)的时序行为特征进行聚合作为该节点的时序行为特征。在对k=2的环形区间中的灰色对象节点昨晚聚合处理后,将k=1的圆形区间中的三个灰色对象节点的时序行为特征进行聚合,确定出待识别对象的待检测特征向量。
相应的,关联结构也可以应用于神经网络模型的训练和使用中。如图5所示,模型的训练和预测过程可以分离。
训练过程为:首先读入图结构,然后对图结构网络中的对象节点进行近邻采样和聚合计算,从而训练基于异构图这种关联结构的神经网络模型,训练后保存模型。
当图结构网络发生改变或者说图结构网络所依据的网络行为数据发生改变时,例如有新对象、新关联关系出现,则针对待识别对象(具有新关联关系的对象或者新对象)的预测过程例如可以为:对新对象进行与模型训练过程相同的近邻采样和聚合计算,然后载入之前保存的模型,通过该模型进行预测。
由于各待识别对象采用统一的近邻采样方式,因此构建邻居特征集合的时间复杂度相对降低,对新对象保持着较好的泛化能力。即使图结构网络发生改变,依旧可以使用原先训练好的模型进行对象类型识别,达到了“一次训练、多次使用”的目的,缩短对象类型识别的时间,一定程度上节省了计算资源。
图5所对应的方式可以有效的避免相关技术中利用直推式(transductive)学习进行对象识别所带来的问题。该相关技术中,模型以业务用户集所构建的图结构作为输入,训练过程中需要对每个节点进行全邻居卷积计算,这是一种直推式学习,即仅考虑当前数据,不能直接泛化到未知节点。因此,当图结构发生改变时(如节点的添加或删除),由于卷积的节点发生变化,会导致原先训练好的模型无法使用,所以需要将新的图结构作为输入,重新进行训练,如图6所示。
而对于处在上升期的业务产品,拉新等运营活动会使这类业务的用户集频繁变化,因此对应生成的图结构也会经常性地发生改变,而频繁地执行“构建图结构-训练图卷积网络模型-预测异常用户”,对于业务来说存在耗时长、反馈结果有延时、计算资源成本较高等问题。
接下来结合应用场景说明本申请实施例所提供的技术方案,该应用场景中对象包括移动用户和设备,如图7所示:
步骤1,基于上报的日志,在数据工厂分别提取移动用户和设备的属性和标识:
步骤1.1,移动用户属性是指移动用户的硬件或系统信息,如QIMEI、IP地址、IMSI、MAC地址、IMEI等;
步骤1.2,设备的属性是当前设备的类型和标识,如某一设备的类型为IP地址,其标识为127.0.0.0;
步骤2,基于步骤1中所述的上报日志,在数据工厂分别提取移动用户和设备的行为记录:
步骤2.1,移动用户的行为记录是指移动用户在某一时间所发生的行为信息,如QIMEI为0001的移动用户,在2019年1月30日14:00:00登录了产品P,其行为发生的IP地址为127.0.0.0,MAC地址为00:00:00:00:00,IMSI为0000001,IMEI为0000000;
步骤2.2,设备的行为记录是指设备在某一时间所发生的行为信息,如IP地址为127.0.0.0的设备,在2019年1月30日14:00:00登录了QIMEI为00001的移动用户,在当天15:00:00登录了QIMEI为00002的移动用户;
步骤3,对步骤1中所涉及的移动用户和设备进行类型编码,目的在于区分移动用户和设备类型:
步骤3.1,标记移动用户,将步骤1.1中涉及移动用户的类型标记为0;
步骤3.2,标记各个设备的类型,例如,若数据集中存在4类设备(IP地址,IMEI,IMSI,MAC地址),则用4个不同的数字进行类型标记,即IP地址标记为1,IMEI标记为2,IMSI标记为3,MAC地址标记为4;
步骤4,根据步骤2中提取的行为记录,生成各个移动用户和设备的时序行为特征。时序行为特征是指一天24小时中,每小时各个移动用户和设备的行动次数,24个记录结果即组成了长度为24的向量,用以表征移动用户和设备在当天的时序特征;
步骤5,根据步骤4得到的各设备的时序行为特征,对所有设备进行特征统一化处理,为每个移动用户和设备生成长度一致的特征向量;
步骤6,基于反作弊产品所累积的移动用户黑库(即QIMEI黑库),在数据工厂上对步骤1涉及日志中的移动用户进行打标签:存在于黑库中的移动用户标记为1,记作正例样本集P;不存在于黑库中的移动用户标记为0,记作负例样本集N;
步骤7,基于步骤3至步骤6的结果,构建异构图网络,该图网络可以如图3所示:以移动用户和设备作为图中的节点,移动用户和设备的特征作为图中节点的属性,设备描述的是同一移动用户则在这些移动用户和设备之间建立边关系;
步骤8,基于步骤7中构建好的异构图网络,结合GraphSAGE的思想,训练可泛化的异构图神经网络模型:
步骤8.1,针对异构图结构中目标节点的邻居,按照邻居节点的类型进行随机采样,如图4a所示;
步骤8.2,对异构图结构的目标各节点进行聚合计算,如图4b所示;
步骤9,保存步骤8中训练好的可泛化异构图神经网络模型;
步骤10,当业务用户集所构建的图结构发生变化时,对图结构中节点进行与步骤8.1和8.2所述相同近邻采样和聚合计算方法,然后载入保存好的模型,即可对待识别对象进行预测。
图8为本申请实施例提供的一种对象识别装置的装置结构图,所述对象识别装置800包括获取单元801、确定单元802和识别单元803:
所述获取单元801,用于获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
所述确定单元802,用于若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
所述确定单元802还用于根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
所述识别单元803,用于根据所述邻居特征集合识别所述待识别对象的类型。
在一种可能的实现方式中,所述确定单元还用于:
若所述关联对象的数量小于所述指定数量,根据所述关联对象的时序行为特征进行复用,以将所述邻居特征集合中的时序行为特征的数量增加到所述指定数量;
若所述关联对象的数量大于所述指定数量,从所述关联对象的时序行为特征中选取所述指定数量的时序行为特征作为所述邻居特征集合。
在一种可能的实现方式中,所述识别单元还用于:
通过对所述邻居特征集合中的时序行为特征进行聚合,得到所述待识别对象对应的待检测特征向量;
根据所述待检测特征向量,通过神经网络模型确定所述待识别对象的类型。
在一种可能的实现方式中,所述装置还包括训练单元,所述训练单元用于通过如下方式训练所述神经网络模型:
根据历史网络行为数据和所述历史网络行为数据所标识的历史关联关系,确定已识别对象的历史邻居特征集合;所述历史邻居特征集合包括所述指定数量的时序行为特征;
根据所述历史邻居特征集合和所述已识别对象的类型确定训练数据;
根据所述训练数据训练所述神经网络模型。
在一种可能的实现方式中,所述网络行为数据所标识的关联关系与所述历史网络行为数据所标识的历史关联关系不同。
在一种可能的实现方式中,所述确定单元还用于:
根据所述网络行为数据确定关联结构;所述关联结构包括所述多个对象分别对应的对象节点,所述对象节点间的关联关系体现所述多个对象间基于所述网络行为建立的关联;所述对象节点的时序行为特征是根据与所述对象节点相关的网络行为数据确定的;
根据所述待识别对象在所述关联结构中对应的目标对象节点和所述关联关系确定与所述目标对象节点相邻的相邻对象节点;所述相邻对象节点对应的对象为所述关联对象。
在一种可能的实现方式中,所述与所述目标对象节点相邻的相邻对象节点是通过至少一级邻居关系确定的。
在一种可能的实现方式中,所述多个对象包括用户标识和/或设备标识,所述设备标识用于标识对象的网络位置和/或硬件信息。
在一种可能的实现方式中,所述网络行为数据为在目标软件中所实施的网络行为产生的。
需要注意的是,以上单元所执行步骤的相关说明可以参见图1-7所对应实施例的相关介绍,这里不再一一赘述。
由此可见,通过获取网络行为数据,可以确定出实施网络行为的多个对象和所实施网络行为,若需要基于网络行为数据识别其中待识别对象的类型,可以从多个对象中确定与该待识别对象具有关联关系的关联对象,由于关联对象的时序行为特征可以体现出该关联对象相关的网络行为数据,且该关联对象是基于网络行为与待识别对象建立的关联,故通过对关联对象的时序行为特征确定出的邻居特征集合携带有与待识别对象类型相关的大量有效内容,可以为识别待识别对象提供依据。而且,针对任一个待识别对象,所构建出的邻居特征集合中均包括指定数量的时序行为特征,即使不同的待识别对象确定出数量各异的关联对象,也可以通过这种统一的构建方式确定出特征一致性较高的邻居特征集合,该统一构建方式能够提供很好的可泛化性,可以有效的适用于不同的网络行为数据,具有稳定的识别精度,且提高了计算性能和计算效率,排除了对象识别中的人为影响。
本申请实施例还提供了一种设备,该设备可以进行编码单元处理。下面结合附图对该设备进行介绍。请参见图9所示,本申请实施例提供了一种的设备1300,该设备1300还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9,手机包括:射频(Radio Frequency,简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity,简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路1310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1380处理;另外,将设计上行的数据发送给基站。通常,RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1320可用于存储软件程序以及模块,处理器1380通过运行存储在存储器1320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331,输入单元1330还可以包括其他输入设备1332。具体地,其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1341。进一步的,触控面板1331可覆盖显示面板1341,当触控面板1331检测到在其上或附近的触摸操作后,传送给处理器1380以确定触摸事件的类型,随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图9中,触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1360、扬声器1361,传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出;另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出处理器1380处理后,经RF电路1310以发送给比如另一手机,或者将音频数据输出至存储器1320以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1320内的软件程序和/或模块,以及调用存储在存储器1320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1380可包括一个或多个处理单元;优选的,处理器1380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1380中。
手机还包括给各个部件供电的电源1390(比如电池),优选的,电源可以通过电源管理系统与处理器1380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1380还具有以下功能:
获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
根据所述邻居特征集合识别所述待识别对象的类型。
本申请实施例还提供服务器,请参见图10所示,图10为本申请实施例提供的服务器1400的结构图,服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中的步骤也可以由服务器执行,该服务器可以基于该图10所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的对象识别方法。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的对象识别方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种对象识别方法,其特征在于,所述方法包括:
获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
根据所述邻居特征集合识别所述待识别对象的类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联对象的时序行为特征确定邻居特征集合,包括:
若所述关联对象的数量小于所述指定数量,根据所述关联对象的时序行为特征进行复用,以将所述邻居特征集合中的时序行为特征的数量增加到所述指定数量;
若所述关联对象的数量大于所述指定数量,从所述关联对象的时序行为特征中选取所述指定数量的时序行为特征作为所述邻居特征集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述邻居特征集合识别所述待识别对象的类型,包括:
通过对所述邻居特征集合中的时序行为特征进行聚合,得到所述待识别对象对应的待检测特征向量;
根据所述待检测特征向量,通过神经网络模型确定所述待识别对象的类型。
4.根据权利要求3所述的方法,其特征在于,所述神经网络模型是通过如下方式训练的:
根据历史网络行为数据和所述历史网络行为数据所标识的历史关联关系,确定已识别对象的历史邻居特征集合;所述历史邻居特征集合包括所述指定数量的时序行为特征;
根据所述历史邻居特征集合和所述已识别对象的类型确定训练数据;
根据所述训练数据训练所述神经网络模型。
5.根据权利要求4所述的方法,其特征在于,所述网络行为数据所标识的关联关系与所述历史网络行为数据所标识的历史关联关系不同。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述方法还包括:
根据所述网络行为数据确定关联结构;所述关联结构包括所述多个对象分别对应的对象节点,所述对象节点间的关联关系体现所述多个对象间基于所述网络行为建立的关联;所述对象节点的时序行为特征是根据与所述对象节点相关的网络行为数据确定的;
所述从所述多个对象中确定与所述待识别对象具有关联关系的关联对象,包括:
根据所述待识别对象在所述关联结构中对应的目标对象节点和所述关联关系确定与所述目标对象节点相邻的相邻对象节点;所述相邻对象节点对应的对象为所述关联对象。
7.根据权利要求6所述的方法,其特征在于,所述与所述目标对象节点相邻的相邻对象节点是通过至少一级邻居关系确定的。
8.根据权利要求1-5任意一项所述的方法,其特征在于,所述多个对象包括用户标识和/或设备标识,所述设备标识用于标识对象的网络位置和/或硬件信息。
9.根据权利要求1-5任意一项所述的方法,其特征在于,所述网络行为数据为在目标软件中所实施的网络行为产生的。
10.一种对象识别装置,其特征在于,所述装置包括获取单元、确定单元和识别单元:
所述获取单元,用于获取通过网络行为所产生的网络行为数据,所述网络行为数据包括标识所述网络行为的行为信息,以及与所述网络行为相关的多个对象;
所述确定单元,用于若所述多个对象中的目标对象被确定为待识别对象,从所述多个对象中确定与所述待识别对象具有关联关系的关联对象;所述关联关系用于标识所述网络行为数据中所述对象间基于所述网络行为建立的关联;
所述确定单元还用于根据所述关联对象的时序行为特征确定邻居特征集合;所述关联对象的时序行为特征是根据与所述关联对象相关的网络行为数据确定的,所述邻居特征集合包括指定数量的时序行为特征;
所述识别单元,用于根据所述邻居特征集合识别所述待识别对象的类型。
11.根据权利要求10所述的装置,其特征在于,所述确定单元还用于:
若所述关联对象的数量小于所述指定数量,根据所述关联对象的时序行为特征进行复用,以将所述邻居特征集合中的时序行为特征的数量增加到所述指定数量;
若所述关联对象的数量大于所述指定数量,从所述关联对象的时序行为特征中选取所述指定数量的时序行为特征作为所述邻居特征集合。
12.根据权利要求10所述的装置,其特征在于,所述识别单元还用于:
通过对所述邻居特征集合中的时序行为特征进行聚合,得到所述待识别对象对应的待检测特征向量;
根据所述待检测特征向量,通过神经网络模型确定所述待识别对象的类型。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括训练单元,所述训练单元用于通过如下方式训练所述神经网络模型:
根据历史网络行为数据和所述历史网络行为数据所标识的历史关联关系,确定已识别对象的历史邻居特征集合;所述历史邻居特征集合包括所述指定数量的时序行为特征;
根据所述历史邻居特征集合和所述已识别对象的类型确定训练数据;
根据所述训练数据训练所述神经网络模型。
14.一种用于对象识别的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-9任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-9任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911167470.6A CN110995810B (zh) | 2019-11-25 | 2019-11-25 | 一种基于人工智能的对象识别方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911167470.6A CN110995810B (zh) | 2019-11-25 | 2019-11-25 | 一种基于人工智能的对象识别方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110995810A true CN110995810A (zh) | 2020-04-10 |
CN110995810B CN110995810B (zh) | 2021-08-06 |
Family
ID=70086700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911167470.6A Active CN110995810B (zh) | 2019-11-25 | 2019-11-25 | 一种基于人工智能的对象识别方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110995810B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476668A (zh) * | 2020-06-24 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 可信关系的识别方法、装置、存储介质和计算机设备 |
CN111507264A (zh) * | 2020-04-17 | 2020-08-07 | 浙江大学 | 基于视频的行为分析方法、装置、设备 |
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
CN112347316A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于GraphSAGE的不良嗜好行为检测方法、装置及电子设备 |
CN113011483A (zh) * | 2021-03-11 | 2021-06-22 | 北京三快在线科技有限公司 | 一种模型训练和业务处理的方法及装置 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107230108A (zh) * | 2017-06-13 | 2017-10-03 | 北京百分点信息科技有限公司 | 业务数据的处理方法及装置 |
US20180218258A1 (en) * | 2017-01-27 | 2018-08-02 | International Business Machines Corporation | Context-based photography and captions |
CN109801077A (zh) * | 2019-01-21 | 2019-05-24 | 北京邮电大学 | 一种套现用户检测方法、装置及设备 |
CN110177179A (zh) * | 2019-05-16 | 2019-08-27 | 国家计算机网络与信息安全管理中心 | 一种基于图嵌入的诈骗号码识别方法 |
CN110209820A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 用户标识检测方法、装置及存储介质 |
CN110232630A (zh) * | 2019-05-29 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 恶意账户识别方法、装置及存储介质 |
-
2019
- 2019-11-25 CN CN201911167470.6A patent/CN110995810B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218258A1 (en) * | 2017-01-27 | 2018-08-02 | International Business Machines Corporation | Context-based photography and captions |
CN107230108A (zh) * | 2017-06-13 | 2017-10-03 | 北京百分点信息科技有限公司 | 业务数据的处理方法及装置 |
CN109801077A (zh) * | 2019-01-21 | 2019-05-24 | 北京邮电大学 | 一种套现用户检测方法、装置及设备 |
CN110177179A (zh) * | 2019-05-16 | 2019-08-27 | 国家计算机网络与信息安全管理中心 | 一种基于图嵌入的诈骗号码识别方法 |
CN110232630A (zh) * | 2019-05-29 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 恶意账户识别方法、装置及存储介质 |
CN110209820A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 用户标识检测方法、装置及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507264A (zh) * | 2020-04-17 | 2020-08-07 | 浙江大学 | 基于视频的行为分析方法、装置、设备 |
CN111476668A (zh) * | 2020-06-24 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 可信关系的识别方法、装置、存储介质和计算机设备 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN112347316A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于GraphSAGE的不良嗜好行为检测方法、装置及电子设备 |
CN112221156A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据异常识别方法、装置、存储介质以及电子设备 |
CN113011483A (zh) * | 2021-03-11 | 2021-06-22 | 北京三快在线科技有限公司 | 一种模型训练和业务处理的方法及装置 |
CN113011483B (zh) * | 2021-03-11 | 2022-08-05 | 北京三快在线科技有限公司 | 一种模型训练和业务处理的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110995810B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110995810B (zh) | 一种基于人工智能的对象识别方法和相关装置 | |
US10943091B2 (en) | Facial feature point tracking method, apparatus, storage medium, and device | |
CN110210605B (zh) | 硬件算子匹配方法及相关产品 | |
CN107222914B (zh) | 应用控制方法及相关产品 | |
CN110443190B (zh) | 一种对象识别方法和装置 | |
CN111125523B (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN113284142B (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
CN110704661A (zh) | 一种图像分类方法和装置 | |
CN111222563A (zh) | 一种模型训练方法、数据获取方法以及相关装置 | |
CN113709385A (zh) | 一种视频处理方法及装置、计算机设备和存储介质 | |
CN111265881B (zh) | 一种模型训练方法、内容生成方法以及相关装置 | |
CN110929882A (zh) | 一种基于人工智能的特征向量计算方法和相关装置 | |
CN115392405A (zh) | 模型训练方法、相关装置及存储介质 | |
CN116644367A (zh) | 一种异常对象的检测方法、装置以及存储介质 | |
CN116259083A (zh) | 一种图像质量识别模型的确定方法和相关装置 | |
CN110209924B (zh) | 推荐参数获取方法、装置、服务器及存储介质 | |
CN113383311A (zh) | 应用处理方法、装置、存储介质及电子设备 | |
CN111368211B (zh) | 关系链确定方法、装置及存储介质 | |
CN117692898B (zh) | 具有风险自动识别的监督预警方法及系统 | |
CN117852753A (zh) | 一种基于物联网的印染车间智能管理系统 | |
CN117009171A (zh) | 一种预流失对象的处理方法、装置以及存储介质 | |
CN117216756A (zh) | 一种账号挖掘方法、装置及相关产品 | |
CN115204868A (zh) | 一种数据处理的方法、装置以及存储介质 | |
CN117079356A (zh) | 一种对象鉴伪模型构建方法、虚假对象检测方法及装置 | |
CN117237652A (zh) | 一种对象集合的检测方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022218 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |