CN111784392A - 基于孤立森林的异常用户群组检测方法、装置、设备 - Google Patents
基于孤立森林的异常用户群组检测方法、装置、设备 Download PDFInfo
- Publication number
- CN111784392A CN111784392A CN202010611692.9A CN202010611692A CN111784392A CN 111784392 A CN111784392 A CN 111784392A CN 202010611692 A CN202010611692 A CN 202010611692A CN 111784392 A CN111784392 A CN 111784392A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- user
- processed
- user behavior
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 300
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 230000006399 behavior Effects 0.000 claims description 102
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 210000002268 wool Anatomy 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0225—Avoiding frauds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于异常数据分析领域,公开了一种基于孤立森林的异常用户群组检测方法、装置、计算机设备及可读存储介质。所述方法包括对获取到的用户行为特征数据编码处理;对编码处理后的用户行为特征数据降维得到待处理特征数据,并从中随机选择一用户行为特征,根据其对应的分割值构建孤立森林;并计算从孤立树根节点到叶子节点的路径长度及其平均路径长度;最后计算每个待处理特征数据的异常得分,将异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;计算各异常用户间的相似度再分群处理得到异常用户群组。本申请还涉及区块链技术,所述用户行为特征分布式部署于区块链中。采用本方法解决了数据处理分析不准确的技术问题。
Description
技术领域
本申请涉及异常数据分析领域,特别是涉及一种基于孤立森林的异常用户检测方法、装置、计算机设备和存储介质。
背景技术
目前,各互联网平台推出各类活动用以吸引用户,但是也招来了以各类工具、虚假信息进行批量注册,以绩效的代价获取活动奖励的“羊毛党”,即具有群居性特征的异常用户。现有技术中,针对这类异常用户的检测方式有多种,比如通过建立孤立森林的方式检测出异常数据点,得到异常用户。但是这种方式只能从大量用户中筛选出异常用户,有时得到的异常数据点还比较分散无法确定该异常用户是否属于异常用户、群居性异常用户,给数据定位和分析带来困难。
中国发明专利申请CN109976930A公开了一种异常数据的检测方法,包括根据检测节点获取预先建立的孤立森林模型,然后获取待检测数据子集,子集中包括待检测数据,将待检测数据输入到孤立森林模型中,计算每个待检测数据在孤立森林模型中平均路径长度,根据平均路径长度计算每个待检测数据的检测分数,根据检测分数确定每个待检测数据的检测结果。该检测结果得到的是待检测数据为异常或正常,而且只通过计算各个异常数据之间的相似度对异常数据进行分组,因为有些异常数据点远离异常数据的聚集点,无法确定这些异常点是否为羊毛党,导致异常数据检测遗漏,造成数据处理分析不准确的技术问题。
发明内容
基于此,有必要针对上述技术问题,本申请提供一种基于孤立森林的异常用户群组检测方法、装置、计算机设备及存储介质,以解决现有技术中因无法确定这些异常点是否为羊毛党,导致异常数据检测遗漏,造成数据处理分析不准确的技术问题。
一种基于孤立森林的异常用户群组检测方法,所述方法包括:
对获取到的用户行为特征数据进行编码处理;并
对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据;
从所述待处理特征数据中随机选择一个用户行为特征,根据与所述用户行为特征对应的分割值构建孤立森林,其中,所述孤立森林中是包括若干基于不同所述用户行为特征构建得到孤立树,每一所述待处理特征数据对应至少一个用户行为特征;
对于所述孤立树的每个叶子节点上的待处理特征数据,计算从所述孤立树的根节点到每个叶子节点的路径长度以及所述孤立树的平均路径长度;
根据所述路径长度和所述平均路径长度计算每个待处理特征数据的异常得分,将所述异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;
计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组。
一种基于孤立森林的异常用户群组检测装置,所述装置包括:
编码模块,用于对获取到的用户行为特征数据进行编码处理;以及
降维模块,用于对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据;
构建模块,用于从所述待处理特征数据中随机选择一个用户行为特征,根据设定的与所述用户行为特征对应的分割值构建孤立森林,其中,所述孤立森林中是包括若干基于不同所述用户行为特征构建得到孤立树,每一所述待处理特征数据对应至少一个用户行为特征;
路径模块,用于对于所述孤立树的每个叶子节点上的待处理特征数据,计算从所述孤立树的根节点到每个叶子节点的路径长度以及所述孤立树的平均路径长度;
异常模块,用于根据所述路径长度和所述平均路径长度计算每个待处理特征数据的异常得分,将所述异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;
相似模块,用于计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于孤立森林的异常用户群组检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于孤立森林的异常用户群组检测方法的步骤。
上述基于孤立森林的异常用户群组检测方法、装置、计算机设备和存储介质,通过孤立树输出异常用户,并通过计算该异常用户与其他异常用户之间的相似度,对异常用户进行分组;能够兼顾所有的异常数据的分布,解决现有技术中因异常数据点远离异常数据聚集点,异常数据检测遗漏,造成数据处理分析不准确,导致的无法对这些异常点进行羊毛党确认的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于孤立森林的异常用户群组检测方法的应用环境示意图;
图2为基于孤立森林的异常用户群组检测方法的流程示意图;
图3为图2中步骤212的流程示意图;
图4为基于孤立森林的异常用户群组检测装置的示意图;
图5为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于孤立森林的异常用户群组检测方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于孤立森林的异常用户群组检测方法一般由服务端/终端执行,相应地,基于孤立森林的异常用户群组检测装置一般设置于服务端/终端设备中。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。服务端104通过网络从终端102获取用户行为特征数据,建立孤立树,基于建立的孤立树求取每个待处理特征数据的异常得分,根据异常得分确定异常用户,再根据异常用户之间的相似度,对异常用户进行分组处理后得到异常用户群组。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于孤立森林的异常用户群组检测方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,对获取到的用户行为特征数据进行编码处理。
用户行为特征数据描述为:WHO(谁),WHEN(什么时候),WHERE(在哪里),WHAT(做了什么);
映射为实际的例子:用户A,7天内在首页链接的签到按钮上,点击了3次。
其中,WHEN包含了时间跨度和时间长度,时间跨度是指某行为发生到现在间隔了多长时间,时间长度是标识用户在某一页面的停留时间、WHERE是指内容+网址、WHAT是指用户做了什么。
具体地:
本实施例的用户行为特征数据一般包括有用户的归属地、IP地址、手机号这样的字符串特征。可以通过read_cav函数读取用户行为特征数据,read_cav函数是python集成的一种常用数据读取的方法,是将csv文件的数据,按行读取至系统内存中。所有的数据预处理,特征提取过程都是在大数据平台进行的,处理完的特征数据导出为CSV文件,通过数据孤立森林进行预测。因为读取到的原始的用户行为特征数据为字符串,所以需要对其进行转化,在通过one-hot将其转换为数值后,才能进行数据检测,但是one-hot输出的结果的维数过大,对计算机系统的内存要求过高,因此需要对其进行降维处理。可以通过one-hot算法对用户行为特征数据进行编码,输出的用户行为特征数据的格式为list,需要将其转换为array的数组进行降维。
当然,在对编码后的用户行为特征数据进行降维之前,需要根据与异常用户具有关联关系对用户行为特征数据进行特征提取操作,剔除与异常用户检测无关的用户行为特征数据后对剩下的用户行为特征数据再进行降维操作,以降低运算量、提高异常用户检测的准确率。
具体地,可以使用panda库中的csv_data函数选取所需要的特征:比如对用户行为特征数据进行特征提取得到50维的数据,可以通过csv_data函数选取出48维特征进行后续算法处理。取出的维度不一定是50维,这里是一个具体的实施例,然后再根据与检测羊毛党结果的相关性提取出48维,相当于降维的过程。
需要强调的是,为进一步保证上述用户行为数据的私密和安全性,上述的用户行为特征数据还可以存储于一区块链的节点中。
步骤204,对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据。
若编码后,得到有n条m维的用户行为特征数据,则可以:
将编码后得到的用户行为特征数据组成n行m列的用户行为特征矩阵X,并对用户行为特征矩阵X的每一行进行零均值化,根据零均值化后的用户行为特征矩阵X得到协方差矩阵。
比如根据编码后的用户行为特征数据组成的用户行为特征矩阵X为:
X=[[2,0,-1.4],
[2.2,0.2,-1.5],
[2.4,0.1,-1],
[1.9,0,-1.2]]
其中,用户行为特征矩阵X中的每一行都代表一个属性字段。
计算协方差矩阵的特征值的特征向量。则,本实施例实际计算得到的协方差矩阵为:
[[0.04916667 0.01416667 0.01916667]
[0.01416667 0.00916667 -0.00583333]
[0.01916667 -0.00583333 0.04916667]]
其中,向量是具有大小(magnitude)和方向(direction)的几何概念。特征向量(eigenvector)是一个矩阵的满足如下公式的非零向量,如公式(1):
然后,再按照从上到下的顺序对特征向量对应的特征值按行排序,并取前k行的得到用户特征矩阵P,其中,k为正整数,n>k>1。
根据公式(2):
Y=PX (2)
降维得到待处理特征数据,其中,Y为得到的待处理特征数据,P为用户特征矩阵,X为用户行为特征矩阵。
通过以上的数据降维,可以在将高维数据集映射到低维空间的同时,尽可能的保留更多变量。
步骤206,从待处理特征数据中随机选择一个用户行为特征,根据设定的与用户行为特征对应的分割值构建孤立森林,其中,孤立森林包括若干基于不同用户行为特征构建得到的孤立树,每一待处理特征数据对应至少一个用户行为特征。
待处理特征数据是指一个用户,及与该用户对应的若干用户行为特征。对于一棵孤立树中的一个节点T,可以是叶子节点,也可能是有两个子节点的中间节点,孤立树中最顶端的节点是根节点,一个根节点可以对应若干子节点,每个子节点下又可以对应若干子节点,其中,没有下一子节点的节点T被称为叶子节点。
随机选择一个用户行为特征的q,将与该用户行为特征q对应的特征值作为分割值建立孤立树。
基于用户行为特征数据构建孤立森林的过程,其实就是构建多棵孤立树形成孤立森林的过程,而且每一棵孤立树中都包括所有的待处理特征数据。
本实施例以构建一颗孤立树为例,若用户行为特征数据中有N个样本数据,每个样本数据有M个特征。随机选择其中一个用户行为特征q,确定其对应的特征值作为分割值p,将特征q小于p的样本划分到节点的左边(即作为左边的子节点),将用户行为特征q大于等于p的样本划分到节点的右边(即作为右边的子节点)。这一步的划分,就将待处理特征数据作为一个根节点、以选取到的到用户行为特征q的分割值,将根节点上的待处理特征数据划分为了两个子节点。按这样的方式,继续从每一子节点中随机选择用户行为特征,递归对两个子节点继续划分,直到孤立树达到了限制的高度、或节点上只有一个样本、或节点上的样本的所有特征都相同,最后得到基于用户行为特征的孤立树。
以此类推,选择其他类型的用户行为特征构建孤立树,最后得到基于不同的用户行为特征构建得到的不同的孤立树,多棵不同的孤立树形成的孤立森林。
一般构建孤立森林的时候,节点特征种类最终不会保持一致。在停止划分节点时,比如节点的100个用户参加活动的次数相同,手机号码归属地相同等等,都是以特征值相同来评判的。由于所有特征都相同,就无法按特征再进行分割。
步骤208,对于每一孤立树的每个叶子节点上的待处理特征数据,计算从孤立树的根节点到每个叶子节点的路径长度以及孤立树的平均路径长度。
根节点是指待处理特征数据;叶子节点是指同类的用户,可能是单个用户也可能是具有相同特征的用户群。
本实施例需要根据孤立树上根节点到每一叶子节点的路径长度以及孤立树的平均路径长度来获取异常得分。具体地:
对于每个待处理特征数据对应的叶子节点X,从孤立树的根节点开始到叶子节点X所经过的边的数量即为叶子节点X的路径长度,计算根节点到每个叶子节点上待处理特征数据的路径长度。
根据路径长度计算孤立树中每一待处理特征数据的平均路径长度,根据得到的路径长度和平均路径长度计算每一待处理特征数据在孤立森林中的路径长度的均值。具体地:
给定一个包括n个待处理特征数据构建的孤立森林,该孤立森林中所有待处理特征数据的平均路径长度计算公式(3)为:
其中,H(i)为调和数(若一个正整数n的所有因子的调和平均是整数,n便称为调和数),该值可以被估计为ln(i)+0.5772156649,c(n)为给定数据量为n时,所有待处理特征数据的路径长度的平均值,用来标准化每一待处理特征数据x的路径长度h(x)。
步骤210,根据路径长度和平均路径长度计算每个待处理特征数据的异常得分,将异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户。
异常得分是评估一个用户行为特征数据是否异常的数值。对于每一个用户行为特征数据的异常得分,可以通过公式(4)计算:
其中,E(h(x))为每一待处理特征数据在孤立森林中的路径长度的期望,c(n)为孤立森林中所有待处理特征数据的路径长度的均值,其中,在概率论和统计学中,期望(数学期望或均值)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量(待处理特征数据)平均取值的大小。
计算每个待处理特征数据的异常得分后,进行排序。如果得分接近1,则异常的可能性越高,如果得分小于第一预设值0.5,比如,为0.4,则为正常数据,如果在0.5左右,比如,0.51、0.49等等,则具有不确定性。
步骤212,计算各异常用户之间的相似度,根据相似度对异常用户进行分群处理,得到异常用户群组。
仅仅基于孤立森林进行异常检测,获取的结果是单个的异常点,无法给出强有力的证据,说明该用户是羊毛党的原因,即解释性太弱,针对该问题,在使用孤立森林处理完后。将获取的异常用户进行下一步分群处理。
前面孤立森林输出的m个异常用户集合:X=(x1,x2,x3,…xi,…,xm-1,xm),获取每个异常用户在通过PCA降维后的20维特征,即异常用户xi=(xi1,xi2,…,xij,…,xi20)。其中,xij=0或者1,使用PCA方式对用户特征进行降维处理,使得数据从高维空间降到低维,因为求方差的缘故,相似的特征会被合并掉,因此数据会缩减,特征的个数会减小,这有利于防止过拟合现象的出现。其中,可以通过公式(5)计算m个异常用户之间的相似度:
其中,ξ为一个极小数,可以设定为0.00001,防止分母为0,xmj是第m个异常用户的第j维特征,xnj为第n个异常用户的第j个特征,其中m不等于n。
该计算方式,是基于余弦相似度对相似度的计算进行了改造,在分母处增加了一个极小值参数ξ,用于应对实际数据计算中存在两个向量都为0的情况。
cos(xm,xn)的取值范围在0到1之间。若为0,表示两个向量垂直,若为1,表示两个向量相同,即,结果越接近于1,表明两个向量越相似,两个异常用户越相似。
上述基于孤立森林的异常用户群组检测方法中,通过孤立树输出异常用户,并通过余弦相似度计算该异常用户与其他异常用户之间的相似度,对异常用户进行分组;能够兼顾所有的异常数据的分布,解决现有技术中因异常数据点远离异常数据聚集点,无法对这些异常点进行羊毛党确认的技术问题,而且通过改造后的余弦相似度公式对比计算每一个异常用户与其他异常用户之间的相似度,对异常用户进行分组,能够更加准确地将相同类型的异常用户划分同一组别中。
在一个实施例中,如图3所示,步骤212,包括:
步骤302,将每一异常用户作为中心点,分别计算与其他异常用户之间的余弦相似度,得到第一异常集合,其中,第一异常集合包括若干与中心点对应的异常群组,异常群组包括中心点及与中心点的余弦相似度大于第二预设值的异常用户。
若得到的异常用户有m个,则可以从m个异常用户中任选一个异常用户作为中心点,例如:以异常用户x1为中心,根据余弦相似度算法分别计算与其余的m-1个异常用户之间的相似度,并将相似度大于第二预设值0.7的异常用户,与异常用户x1组成一个集合作为异常群组,记为g1=(x1,…,xq)。其中,q为集合中异常用户的数量。
后续分别以其余的m-1个用户为中心,计算与其余的m-1个异常用户相似度,并将相似度大于0.7的异常用户,组成异常群组。
经过m次后,将得到的m个异常群组组成一个第一异常集合G=(g1,g2,…,gm)。
步骤304,以任意两个异常群组中的异常用户完全相同为条件,对第一异常集合进行去重处理,得到第二异常集合。
对第一异常集合G进行去重处理,若第一异常集合G中存在至少两个完全相同的异常群组,则只保留这些完全相同的异常群组中的其中一个,而将其他的异常群组剔除,最终得到第二异常集合G′。其中,本实施例所说的完全相同是指,任意两个异常群组中的异常用户完全相同,包括异常用户、以及异常用户的数量。
进一步地,通过遍历第一异常集合中的异常群组,若第一异常集合中存在至少两个完全相同的异常群组,则只保留完全相同的异常群组中的一个,并删除其他完全相同的异常群组,得到第二异常集合;
若第一异常集合中不存在至少两个完全相同的异常群组,则直接将第一异常集合作为第二异常集合。
步骤306,统计每一第二异常集合中每一异常用户在各个用户行为特征上的分布、用户占比,并根据最高分布、最高用户占比对应的用户行为特征生成该第二异常集合中异常群组的异常类型,得到异常用户群组。
对于异常群组g1=(x1,…,xq),提取每个异常用户48维度的特征信息,即用户xi=(xi1,xi2,…,xij,…,xi48)。分别针对每个维度的特征,统计该特征取值的分布,用户占比。
例如,该特征分布可以是:手机号归属地可以是江西省、广东省、四川省;用户占比:在广东省的异常用户占比为80%,江西省的异常用户占比为10%,四川省的异常用户占比10%。
取各用户行为特征用户占比最高的取值的分布和占比,组成该异常群组异常的原因。
可选地,该异常群组输出的异常原因为:61%的用户使用ip123.***.***,80%手机号归属地为广东省的异常用户参与了新人有礼活动。而该异常原因即该异常群组的异常类型。
同理,遍历完第二异常集合G′中的剩余异常群组。
按第二异常集合G′中的异常群组的序号,依次输出异常群组序号(集合G′中元素的下标)、异常群组的用户以及异常原因。通过上述方式可能会出现一个异常用户出现在多个异常群组中的情况。
本实施例进一步通过余弦相似度计算两异常用户之间的相似度,并根据预设值对得到的异常群组进行去重处理,再根据用户的行为特征数据计算每一个异常群组中异常用户在各个行为特征上的取值的分布、占比情况,最后根据得到的分布、占比情况精确地确认每一异常群组的异常类型,能够更加准确地将相同类型的异常用户划分同一组别中,还通过得到的第一异常群组对后续得到的群组进行去重处理,减少服务器后期的数据计算量,减少了能耗。
应该理解的是,虽然图2-图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于孤立森林的异常用户群组检测装置,该基于孤立森林的异常用户群组检测装置与上述实施例中基于孤立森林的异常用户群组检测方法一一对应。该基于孤立森林的异常用户群组检测装置包括:
编码模块402,用于对获取到的用户行为特征数据进行编码处理;以及降维模块404,用于对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据;
构建模块406,用于从待处理特征数据中随机选择一个用户行为特征,根据设定的与用户行为特征对应的分割值构建孤立森林,其中,所述孤立森林包括若干基于不同用户行为特征构建的孤立树,每一待处理特征数据对应至少一个用户行为特征;
路径模块408,用于对于每一孤立树的每个叶子节点上的待处理特征数据,计算从孤立树的根节点到每个叶子节点的路径长度以及孤立树的平均路径长度;
异常模块410,用于根据路径长度和平均路径长度计算每个待处理特征数据的异常得分,将异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;
相似模块412,用于计算各异常用户之间的相似度,根据相似度对异常用户进行分群处理,得到异常用户群组。
需要强调的是,为进一步保证上述用户行为数据的私密和安全性,上述的用户行为特征数据还可以存储于一区块链的节点中。
进一步地,编码模块402,包括:
均值子模块,用于将编码后得到的用户行为特征数据组成n行m列的用户行为特征矩阵X,并对用户行为特征矩阵X的每一行进行零均值化,根据零均值化后的用户行为特征矩阵X得到协方差矩阵;
向量子模块,用于计算协方差矩阵的特征值的特征向量;
排序子模块,用于按照从上到下的顺序对特征向量对应的特征值按行排序,并取前k行的得到用户特征矩阵P,其中,k为正整数,n>k>1;
降维子模块,用于根据所述用户特征矩阵和用户行为特征矩阵进行降维计算,
得到降维后的待处理特征数据。
进一步地,路径模块408,包括:
路径子模块,用于计算根节点到每个叶子节点上待处理特征数据的路径长度;
平均子模块,用于根据路径长度计算孤立树的平均路径长度。
进一步地,相似模块412,包括:
第一相似子模块,用于通过余弦相似度计算各异常用户之间的相似度;以及
分群子模块,用于将相似度大于第二预设值的异常用户作为异常用户群组。
进一步地,相似模块412,还包括:
第二相似子模块,用于将每一异常用户作为中心点,分别计算与其他异常用户之间的余弦相似度,得到第一异常集合,其中,第一异常集合包括若干与中心点对应的异常群组,异常群组包括中心点及与中心点的余弦相似度大于第二预设值的异常用户;
去重子模块,用于以任意两个异常群组中的异常用户完全相同为条件,对第一异常集合进行去重处理,得到第二异常集合;
分类子模块,用于统计每一第二异常集合中每一异常用户在各个用户行为特征上的分布、用户占比,并根据最高分布、最高用户占比对应的用户行为特征生成该第二异常集合中异常群组的异常类型,得到异常用户群组。
进一步地,去重子模块,包括:
遍历单元,用于遍历第一异常集合中的异常群组;
第一去重单元,用于在第一异常集合中存在至少两个完全相同的异常群组时,只保留完全相同的异常群组中的一个,并删除其他完全相同的异常群组,得到第二异常集合;
第二去重单元,用于在第一异常集合中不存在至少两个完全相同的异常群组时,直接将第一异常集合作为第二异常集合。
上述基于孤立森林的异常用户群组检测装置,通过孤立树输出异常用户,并将每一个异常用户都作为中心点通过余弦相似度计算该异常用户与其他异常用户之间的相似度,对异常用户进行分组;能够兼顾所有的异常数据的分布,解决现有技术中异常数据点原理异常数据聚集点,无法对这些异常点进行羊毛党确认的技术问题;而且根据预设值对得到的异常群组进行去重处理,再根据用户的行为特征数据计算每一个异常群组中异常用户在各个行为特征上的取值的分布、占比情况,最后根据得到的分布、占比情况精确地确认每一异常群组的异常类型,得到准确的异常用户群组的检测结果,解决了现有技术中因无法确定这些异常点是否为羊毛党,导致异常数据检测遗漏,造成数据处理分析不准确的技术问题。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户行为特征数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于孤立森林的异常用户群组检测方法。该方法通过孤立树输出异常用户,并将每一个异常用户都作为中心点通过余弦相似度计算该异常用户与其他异常用户之间的相似度,对异常用户进行分组;能够兼顾所有的异常数据的分布,解决现有技术中异常数据点原理异常数据聚集点,无法对这些异常点进行羊毛党确认的技术问题;而且根据预设值对得到的异常群组进行去重处理,再根据用户的行为特征数据计算每一个异常群组中异常用户在各个行为特征上的取值的分布、占比情况,最后根据得到的分布、占比情况精确地确认每一异常群组的异常类型,得到准确的异常用户群组的检测结果,解决了现有技术中因无法确定这些异常点是否为羊毛党,导致异常数据检测遗漏,造成数据处理分析不准确的技术问题。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于孤立森林的异常用户群组检测方法的步骤,例如图2所示的步骤202至步骤212,或者,处理器执行计算机程序时实现上述实施例中基于孤立森林的异常用户群组检测装置的各模块/单元的功能,例如图4所示模块402至模块412的功能。为避免重复,此处不再赘述。通过孤立树输出异常用户,并将每一个异常用户都作为中心点通过余弦相似度计算该异常用户与其他异常用户之间的相似度,对异常用户进行分组;能够兼顾所有的异常数据的分布,解决现有技术中异常数据点原理异常数据聚集点,无法对这些异常点进行羊毛党确认的技术问题;而且根据预设值对得到的异常群组进行去重处理,再根据用户的行为特征数据计算每一个异常群组中异常用户在各个行为特征上的取值的分布、占比情况,最后根据得到的分布、占比情况精确地确认每一异常群组的异常类型,得到准确的异常用户群组的检测结果,解决了现有技术中因无法确定这些异常点是否为羊毛党,导致异常数据检测遗漏,造成数据处理分析不准确的技术问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于孤立森林的异常用户群组检测方法,其特征在于,所述方法包括:
对获取到的用户行为特征数据进行编码处理;
对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据;
从所述待处理特征数据中随机选择一个用户行为特征,根据与所述用户行为特征对应的分割值构建孤立森林,其中,所述孤立森林中是包括若干基于不同所述用户行为特征构建得到孤立树,每一所述待处理特征数据对应至少一个用户行为特征;
对于每一所述孤立树的每个叶子节点上的待处理特征数据,计算从所述孤立树的根节点到每个叶子节点的路径长度以及所述孤立树的平均路径长度;
根据所述路径长度和所述平均路径长度计算每个待处理特征数据的异常得分,将所述异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;
计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组。
2.根据权利要求1所述的方法,其特征在于,所述对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据,包括;
将编码后得到的用户行为特征数据组成n行m列的用户行为特征矩阵X,并对所述用户行为特征矩阵X的每一行进行零均值化,根据零均值化后的用户行为特征矩阵X得到协方差矩阵;
计算所述协方差矩阵的特征值的特征向量;
按照从上到下的顺序对特征向量对应的特征值按行排序,并取前k行的得到用户特征矩阵,其中,k为正整数,n>k>1;
根据所述用户特征矩阵和用户行为特征矩阵进行降维计算,得到降维后的所述待处理特征数据。
3.根据权利要求1所述的方法,其特征在于,所述计算从所述孤立树的根节点到每个叶子节点的路径长度以及所述孤立树的平均路径长度,包括:
计算根节点到每个叶子节点上待处理特征数据的路径长度;
根据所述路径长度计算所述孤立树的平均路径长度。
5.根据权利要求1所述的方法,其特征在于,所述计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组,包括:
通过余弦相似度计算各所述异常用户之间的所述相似度;并
将所述相似度大于第二预设值的异常用户作为所述异常用户群组。
6.根据权利要求1所述的方法,其特征在于,所述计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组,包括:
将每一所述异常用户作为中心点,分别计算与其他异常用户之间的余弦相似度,基于所述余弦相似度得到第一异常集合,其中,所述第一异常集合包括若干与所述中心点对应的异常群组,所述异常群组包括所述中心点及与所述中心点的余弦相似度大于所述第二预设值的异常用户;
以任意两个所述异常群组中的异常用户完全相同为条件,对所述第一异常集合进行去重处理,得到第二异常集合;
统计每一所述第二异常集合中每一异常用户在各个用户行为特征上的分布、用户占比,并根据最高分布、最高用户占比对应的用户行为特征生成该第二异常集合中异常群组的异常类型,得到异常用户群组。
7.根据权利要求6所述的方法,其特征在于,所述以任意两个所述异常群组中的异常用户完全相同为条件,对所述异常集合进行去重处理,得到第二异常集合,包括:
遍历所述第一异常集合中的异常群组;
若所述第一异常集合中存在至少两个完全相同的异常群组,则只保留完全相同的异常群组中的一个,并删除其他完全相同的异常群组,得到所述第二异常集合;
若所述第一异常集合中不存在至少两个完全相同的异常群组,则直接将所述第一异常集合作为所述第二异常集合。
8.一种基于孤立森林的异常用户群组检测装置,其特征在于,包括:
编码模块,用于对获取到的用户行为特征数据进行编码处理;以及
降维模块,用于对编码处理后的用户行为特征数据降维处理,得到降维后的待处理特征数据;
构建模块,用于从所述待处理特征数据中随机选择一个用户行为特征,根据设定的与所述用户行为特征对应的分割值构建基于所述待处理特征数据的孤立树;
路径模块,用于对于所述孤立树的每个叶子节点上的待处理特征数据,计算从所述孤立树的根节点到每个叶子节点的路径长度以及所述孤立树的平均路径长度;
异常模块,用于根据所述路径长度和所述平均路径长度计算每个待处理特征数据的异常得分,将所述异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;
相似模块,用于计算各所述异常用户之间的相似度,根据所述相似度对所述异常用户进行分群处理,得到异常用户群组。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611692.9A CN111784392A (zh) | 2020-06-29 | 2020-06-29 | 基于孤立森林的异常用户群组检测方法、装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611692.9A CN111784392A (zh) | 2020-06-29 | 2020-06-29 | 基于孤立森林的异常用户群组检测方法、装置、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111784392A true CN111784392A (zh) | 2020-10-16 |
Family
ID=72761385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010611692.9A Pending CN111784392A (zh) | 2020-06-29 | 2020-06-29 | 基于孤立森林的异常用户群组检测方法、装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111784392A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488175A (zh) * | 2020-11-26 | 2021-03-12 | 中孚安全技术有限公司 | 一种基于行为聚合特征的异常用户检测方法、终端及存储介质 |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN112733897A (zh) * | 2020-12-30 | 2021-04-30 | 胜斗士(上海)科技技术发展有限公司 | 确定多维样本数据的异常原因的方法和设备 |
CN112819230A (zh) * | 2021-02-04 | 2021-05-18 | 北京建筑大学 | 一种基于打卡数据的用户打卡地点预测方法及装置 |
CN114066261A (zh) * | 2021-11-18 | 2022-02-18 | 广东电网有限责任公司 | 一种电表的篡改检测方法、装置、计算机设备和存储介质 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN114666136A (zh) * | 2022-03-23 | 2022-06-24 | 阿里云计算有限公司 | 一种网络攻击行为的检测方法和装置 |
CN115840924A (zh) * | 2023-02-15 | 2023-03-24 | 深圳市特安电子有限公司 | 一种压力变送器测量数据智慧处理系统 |
CN117057821A (zh) * | 2023-08-22 | 2023-11-14 | 江苏省家禽科学研究所 | 一种肉鸡质量溯源的管理系统 |
CN117408734A (zh) * | 2023-12-15 | 2024-01-16 | 广东云百科技有限公司 | 基于物联网设备的客户信息智能管理系统 |
CN117540304A (zh) * | 2024-01-10 | 2024-02-09 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据高效处理方法 |
-
2020
- 2020-06-29 CN CN202010611692.9A patent/CN111784392A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488175A (zh) * | 2020-11-26 | 2021-03-12 | 中孚安全技术有限公司 | 一种基于行为聚合特征的异常用户检测方法、终端及存储介质 |
CN112488175B (zh) * | 2020-11-26 | 2023-06-23 | 中孚安全技术有限公司 | 一种基于行为聚合特征的异常用户检测方法、终端及存储介质 |
CN112633395B (zh) * | 2020-12-29 | 2024-07-19 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN112733897A (zh) * | 2020-12-30 | 2021-04-30 | 胜斗士(上海)科技技术发展有限公司 | 确定多维样本数据的异常原因的方法和设备 |
CN112819230A (zh) * | 2021-02-04 | 2021-05-18 | 北京建筑大学 | 一种基于打卡数据的用户打卡地点预测方法及装置 |
CN114066261A (zh) * | 2021-11-18 | 2022-02-18 | 广东电网有限责任公司 | 一种电表的篡改检测方法、装置、计算机设备和存储介质 |
CN114666136A (zh) * | 2022-03-23 | 2022-06-24 | 阿里云计算有限公司 | 一种网络攻击行为的检测方法和装置 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN114580580B (zh) * | 2022-05-07 | 2022-08-16 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN115840924A (zh) * | 2023-02-15 | 2023-03-24 | 深圳市特安电子有限公司 | 一种压力变送器测量数据智慧处理系统 |
CN117057821A (zh) * | 2023-08-22 | 2023-11-14 | 江苏省家禽科学研究所 | 一种肉鸡质量溯源的管理系统 |
CN117408734A (zh) * | 2023-12-15 | 2024-01-16 | 广东云百科技有限公司 | 基于物联网设备的客户信息智能管理系统 |
CN117408734B (zh) * | 2023-12-15 | 2024-03-19 | 广东云百科技有限公司 | 基于物联网设备的客户信息智能管理系统 |
CN117540304A (zh) * | 2024-01-10 | 2024-02-09 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据高效处理方法 |
CN117540304B (zh) * | 2024-01-10 | 2024-05-17 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784392A (zh) | 基于孤立森林的异常用户群组检测方法、装置、设备 | |
CN112148987B (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN107066616B (zh) | 用于账号处理的方法、装置及电子设备 | |
CN108897734B (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN110866181B (zh) | 资源推荐的方法、装置及存储介质 | |
CN108491511B (zh) | 基于图数据的数据挖掘方法和装置、模型训练方法和装置 | |
CN109829020B (zh) | 地点资源数据推送方法、装置、计算机设备和存储介质 | |
US9176969B2 (en) | Integrating and extracting topics from content of heterogeneous sources | |
CN110880006B (zh) | 用户分类方法、装置、计算机设备和存储介质 | |
CN109447731B (zh) | 跨平台产品推荐方法、装置、计算机设备和存储介质 | |
CN112380344B (zh) | 文本分类的方法、话题生成的方法、装置、设备及介质 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN112395500A (zh) | 内容数据推荐方法、装置、计算机设备及存储介质 | |
CN111178949B (zh) | 服务资源匹配参考数据确定方法、装置、设备和存储介质 | |
CN108182633B (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN110555305A (zh) | 基于深度学习的恶意应用溯源方法及相关装置 | |
CN112784168B (zh) | 信息推送模型训练方法以及装置、信息推送方法以及装置 | |
JP2023012406A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN114219664B (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN110598126A (zh) | 基于行为习惯的跨社交网络用户身份识别方法 | |
CN116738009B (zh) | 一种对数据进行归档回溯的方法 | |
CN111291795A (zh) | 人群特征分析方法、装置、存储介质和计算机设备 | |
CN110597977A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
Sharma et al. | Comparative analysis of different algorithms in link prediction on social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |