CN113987018A - 人物特征的挖掘方法、装置、设备及存储介质 - Google Patents
人物特征的挖掘方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113987018A CN113987018A CN202111255004.0A CN202111255004A CN113987018A CN 113987018 A CN113987018 A CN 113987018A CN 202111255004 A CN202111255004 A CN 202111255004A CN 113987018 A CN113987018 A CN 113987018A
- Authority
- CN
- China
- Prior art keywords
- dynamic
- value set
- static
- feature
- discrete value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000003068 static effect Effects 0.000 claims abstract description 121
- 230000006399 behavior Effects 0.000 claims abstract description 69
- 238000007635 classification algorithm Methods 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000003066 decision tree Methods 0.000 claims description 40
- 238000007637 random forest analysis Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 239000000523 sample Substances 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007334 memory performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,本申请公开了一种人物特征的挖掘方法,通过将用户关于购物行为的行为数据划分为静态特征和动态特征,并利用独热算法离散化静态特征和动态特征,得到静态离散值集合和动态离散值集合;通过训练后的特征挖掘模型的人工神经网络筛选出动态离散值集合中的正动态离散值集合,再基于正动态离散值集合和静态离散值集合通过训练后的特征挖掘模型的分类算法单元进行分类预测;合并分类预测结果获得最终挖掘出的人物特征数值集合。通过将行为数据根据特点划分,并基于划分后的静态特征和动态特征,利用人工神经网络和分类算法进行分类预测,提高了行为数据的利用率,从而提高了人物特征挖掘的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种人物特征的挖掘方法、装置、计算机设备及存储介质。
背景技术
随着手机网络时代的发展,用户在各网站或软件上的行为产生了大量行为数据,多数企业通过将用户的行为数据进行统计,提取人物特征将用户标签化,并结合用户多个维度的信息构建用户画像,从而帮助企业快速找到精准用户群体以及用户需求等价值信息,实现精准营销,挖掘潜在用户。
用户画像是大数据技术的重要应用,其目标是在很多的维度上建立针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
然而,现有技术中,在将用户标签化中的挖掘人物特征步骤,针对用户信息的不同行为数据,不注重各行为数据之间的区别,仅通过单一的分类模型处理整体行为数据,导致行为数据的利用率不高,从而导致了人物特征挖掘的准确率较低。
发明内容
本申请提供一种人物特征的挖掘方法、装置、计算机设备及存储介质,解决了现有技术中,在将用户标签化中的挖掘人物特征步骤,针对用户信息的不同行为数据,仅通过单一的分类模型进行处理,不注重各行为数据之间的区别,现有的人物特征提取的准确率不高的问题。
第一方面,本申请实施例提供了一种人物特征的挖掘方法,包括:
获取用户关于购物行为的多个动态特征与多个静态特征;
利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合;将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型;
通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值;
通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合;合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
第二方面,本申请实施例还提供了一种人物特征的挖掘装置,包括:
获取模块,获取用户关于购物行为的多个动态特征与多个静态特征;
特征离散化模块,利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合;
输入模块,将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型;
动态特征挖掘模块,通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值;
静态特征挖掘模块,通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合;
人物特征输出模块,合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述人物特征的挖掘方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述人物特征的挖掘方法的步骤。
本申请提供的人物特征的挖掘方法、装置、计算机设备及存储介质,其中,一种人物特征的挖掘方法,通过将用户关于购物行为的行为数据划分为静态特征和动态特征,并利用独热算法离散化静态特征和动态特征,得到静态离散值集合和动态离散值集合输入训练后的特征挖掘模型,充分了利用购物行为不同的行为数据的特点,以提高后续人物特征提取的准确度;通过训练后的特征挖掘模型的人工神经网络筛选出动态离散值集合中的正动态离散值集合,再基于正动态离散值集合和静态离散值集合通过训练后的特征挖掘模型的分类算法单元进行分类预测;合并分类预测后得到的静态特征数值集合和动态特征数值集合,获得最终挖掘出的人物特征数值集合。通过将行为数据根据特点划分,并基于划分后的静态特征和动态特征,利用人工神经网络和分类算法进行分类预测,提高了行为数据的利用率,从而提高了人物特征挖掘的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种人物特征的挖掘方法的应用环境示意图;
图2是本申请一实施例提供的一种人物特征的挖掘方法的实现流程图;
图3是本申请一实施例提供的一种人物特征的挖掘方法中步骤S40的流程图;
图4是本申请另一实施例提供的一种人物特征的挖掘方法中步骤S71-S74的流程图;
图5是本申请一实施例提供的人物特征的挖掘装置的结构示意图;
图6是本申请一实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的人物特征的挖掘方法,可应用在如图1示出的应用环境中。如图1所示,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本实施例提供的人物特征的挖掘方法可以由服务端执行,例如,用户通过客户端将用户若干个关于购物行为发送至服务端,服务端基于该待处理的购物行为,执行本实施例提供的人物特征的挖掘方法,进而得到分类预测后的人物特征数值集合,最后还可以将该人物特征数值集合发送至客户端。
在图1之外的一些场景中,还可以是由客户端执行该人物特征的挖掘方法,直接根据用户若干个关于购物行为,通过执行本实施例提供的人物特征的挖掘方法,得到分类预测后的人物特征数值集合,然后将该人物特征数值集合发送至服务端进行存储。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可以理解地,用户画像(User Profile),即用户信息标签化,是基于数据挖掘的用户特征提取及需求深度挖掘,是大数据时代围绕“以用户为中心”开展的个性化服务,标签化的模型是从用户社交属性、生活习惯、消费者行为等信息中抽象出来的产物,是用户“特征标签”的集合。用户画像的内涵包含三个要素,即用户属性、用户特征、用户标签,且具有标签化、时效性、动态性三大特征。
图2示出了本申请一实施例提供的人物特征的挖掘方法的实现流程图。如图2所示,提供一种人物特征的挖掘方法,其技术方案主要包括以下步骤S10-S60:
步骤S10、获取用户关于购物行为的多个动态特征与多个静态特征。
在步骤S10中,用户在网站或者软件上进行购物行为的操作时,会产生大量的操作痕迹,该操作痕迹就是用户关于购物行为的行为数据,通过获取用户关于购物行为的多个行为数据,将用户在操作时的所产生的具有先后关联的操作行为数据作为动态特征。同时用户在购物中所产生订单信息,也就是用户的历史购物记录或者历史收藏记录,此类不具有先后关联的操作行为的记录作为静态特征,通过将购物的操作行为划分为静态特征和动态特征有利于提高对用户关于购物的操作行为的利用,从而提高用户特征挖掘的准确率。
在一实施例中,用户的操作行为数据常见包括,用户通过网站或者软件上对于某商品的浏览行为、点击行为、点击次数和操作行为。其中,对于商品的浏览行为通常包括对商品详情的浏览行为、对于商品评论的浏览行为及浏览时长;点击行为主要为某一时期所点击的商品,点击次数则是多点击商品对应的点击次数;操作行为则为对于该商品的操作步骤的记录,示例如“通过点击加入购物车,进行支付时,并未进行支付操作”。
在一实施例中,同时用户在购物中所产生订单信息常见包括用户通过网站或者软件上购买商品的订单信息,也包括用户对于某商品或商家的收藏信息。
在一实施例中,获取用户原始数据具体包括但不限于,用户本身使用系统的一些基础数据和业务数据;利用埋点、探针等方式采集用户的行为数据,通过与第三方商家合作实现用户在第三方系统数据的获取。
步骤S20、利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合。
在步骤S20中,由于动态特征和静态特征通常包括数字、文字及符号,通过将动态特征和静态特征处理为对应的离散值,并将处理后得到的动态离散值集合与静态离散值集合后输入训练后的特征挖掘模型,以减少后续人物特征挖掘的计算量,保证运算速度,提高模型对动态特征和静态特征的分类聚类能力和抗噪声能力。
在一实施例中,通过利用独热算法(one-hot)根据所述静态特征和动态特征中的多个元素处理为对应的静态离散值和动态离散值。在本实施例中,静态特征转换静态离散值的示例如下,某静态特征中包括订单是否完成:["完成","未完成"],按照N位状态寄存器来对N个状态进行编码的原理,该元素只有两个状态,所以N=2),处理后如下:(完成→10)(未完成→01);品质元素:["低档","中档,"高档"](N=3):(低档→100)(中档→010)(高档→001);种类特征:["日用品","食品","服饰","电子产品"](N=4):(日用品→1000)(食品→0100)(服饰→0010)(电子产品→0001)。当一个样本为["未完成","低档","电子产品"]的时候,完整的元素离散化结果为:[1,0,1,0,0,0,0,0,1],其所对应的为未完成(01),低档(100),电子产品(0001)合起来的编码。
可以理解地,One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。对于每一个特征,如果它有m个可能值,那么经过One-Hot编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。
在另一实施例中,利用分词工具将动态特征和静态特征处理为对应的字词向量,通过分词工具将动态特征的各元素处理为对应的字符向量,并将元素对应的值进行结合作为离散值;且通过分词工具将静态特征的各元素处理为对应的字符向量,并将元素对应的值进行结合作为离散值。其中,分词工具包括但不限于Ansj、ICTCLAS和HanLP。
步骤S30、将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型。
在步骤S30中,通过特征挖掘模型对动态离散值集合和静态离散值集合进行人物特征的挖掘,特征挖掘模型需要通过大量的样本进行训练以保证最后所挖掘出的人物特征的准确性。
在一实施例中,特征挖掘模型基于人工神经网络和分类算法单元构建,其中,通过利用人工神经网络先对利用率高的正动态特征进行筛选,后续通过分类算法单元进行人物特征的挖掘,从而保证挖掘出的人物特征的准确性。
在一实施例中,通过获取往期的动态特征和静态特征,将其离散化后得到对应得动态特征样本集和静态特征样本集;利用动态特征样本集中已经确认的正动态特征样本集训练人工神经网络对动态特征的正动态特征的分辨,提高人工神经网络对与正动态特征的认识,从而提高正动态特征的识别率;再利用动态特征样本集中已经确认的正动态特征样本集和静态特征样本集,训练分类算法单元对各样本集中的特征数值进行分类预测,以保证分类算法单元所输出的人物特征数值集合的准确率。
步骤S40、通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值。
在步骤S40中,利用训练后的特征挖掘模型的人工神经网络,分辨出动态离散值集合中具有正关联性的动态离散值与具有负关联性的动态离散值,其中,具有负关联性的动态离散值作为负动态离散值,具有正关联性的动态离散值作为正动态离散值,分辨出的多个正动态离散值作为正动态离散值集合。筛选出正动态离散值进行进一步预测,减少了运算量及负动态离散值所带来的噪点。对于筛选后的正动态离散值集合,还要通过特征挖掘模型中的分类算法单元,对正动态离散值集合得到相应的动态特征数值集合进行分类预测,得到相应的动态特征数值集合。其中,动态特征数值集合中的动态特征数值用于描述某一动态特征在描述人物特征时的所占比重。
在一实施例中,分类算法单元可以但不限于为以下算法,决策树分类算法、神经网络分类算法、支持向量机分类算法(SVM)、随机森林算法、逻辑回归算法(LogisticRegression,LR)和XGBoost算法。
如图3所示,通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合的步骤S40,包括:
步骤S401、通过所述训练后的特征挖掘模型的人工神经网络,分辨出所述动态离散值集合中具有正关联性的动态离散值与具有负关联性的动态离散值,筛选出所述正动态离散值,得到正动态离散值集合;
步骤S402、将所述正动态离散值集合中的多个正动态离散值输入利用随机森林算法的分类算法单元,所述随机森林包括多个决策树;
步骤S403、所述决策树根据所述正动态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为正动态特征数值集合。
在一实施例中,具有负关联性的动态离散值,该动态离散值其所对应的动态特征,是用户关于购物行为的操作流程中,没有进行最终购物行为的动态特征,常见的简单流程如下:通过多次点击并长时间停留在该商品页面的行为后,进行了下单操作,但最终并未付款。由于该动态特征并没有形成有效的购物行为,该动态特征则被定义为负关联性的动态特征,通过离散化后作为负动态离散值。具有正关联性的动态离散值,该动态离散值其所对应的动态特征,是用户关于购物行为的操作流程中,进行最终购物行为的动态特征,常见的简单流程如下:在通过多次点击该商品页面,最终产生了对该商品的购物行为,并完成该订单。该动态特征则被定义为负关联性的动态特征,通过离散化后作为正动态离散值。
在一实施例中,通过利用分类算法中的随机森林算法作为对人物特征数值集合进一步处理,根据训练后的分类算法单元,利用随机森林算法中的多个决策树匹配正动态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为动态特征数值集合。
在一实施例中,所使用的人工神经网络还包括但不限于循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和卷积神经网络(Convolutional Neural Network,CNN)。人工神经网络主要用于对于正动态离散值的分辨,通过输入大量的正动态离散值和负动态离散值后对人工神经网络进行训练,利用训练后的人工神经网络分辨哪些动态特征具有大概率的产生购物行为,哪些动态特征最终不会产生购物行为。由于在实际过程中,会出现在多次关注后进行购买,或者通过筛选对比后进行购买此类具有利用价值的有效相关操作行为;也会出现经过多次查看和对比,最终没有选择进行购买的无效操作行为,所以利用人工神经网络去分辨出正动态特征,可以提高预测的准确度。
步骤S50、通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合。
在步骤S50中,通过特征挖掘模型中的分类算法单元,对静态离散值集合进行分类预测,得到相应的静态特征数值集合。其中,静态特征数值集合中的静态特征数值用于描述某一静态特征在描述人物特征时的所占比重。而得到的动态特征数值集合或者静态离散值集合,是根据用户不同的购物方式得到的,仅利用动态特征数值集合或者静态离散值集合作为人物特征会有部分的偏差,需要通过进一步的处理以上集合,才能挖掘出精确度更高的人物特征。
该实施例为通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合的步骤S50,包括:
步骤S501、将所述静态离散值集合中的多个静态离散值输入利用随机森林算法的分类算法单元,所述随机森林包括多个决策树;
步骤S502、所述决策树根据所述静态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为静态特征数值集合;
在一实施例中,通过利用分类算法中的随机森林算法作为对人物特征数值集合进一步处理,通过将所述静态离散值集合中的多个静态离散值输入利用所述随机森林算法的分类算法单元进行决策,根据训练后的分类算法单元,利用随机森林算法中的多个决策树匹配静态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为静态特征数值集合。
可以理解地,随机森林算法(Random Forest,RF)为一种利用多个决策树对样本进行训练并预测的一种分类算法,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩,主要归功于“随机”和“森林”,一个使它具有抗过拟合能力,一个使它更加精准。
S60、合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
在步骤S60中,通过将所述动态特征数值集合和所述静态特征数值集合进行合并,得到特征数值合集;所述特征数值合集中的元素进行同类合并,得到包括多个人物特征元素的人物特征数值集合。
在一实施例中,合并同类项就是通过将动态特征数值集合中的多个特征元素,与静态特征数值集合中的多个特征元素相同的元素的权重,也就是两个集合相同特征元素的特征数值进行合并,从而得到最终的特征元素所对应的特征数值,根据多个最终的特征元素所对应的特征数值得到人物特征数值集合。
在另一实施例中,挖掘出的人物特征通常通过数值进行表现,根据人物特征的数值所占权重,构建出人物特征,通过人物特征数值集合可用于绘制用户的用户画像,还可用于制作用户的词云图,以及通过人物特征数值集合进一步处理后挖掘潜在用户。
图4是本申请另一实施例提供的一种人物特征的挖掘方法的流程图。如图4所示,与图2示出的实施例不同的是,在步骤S30、将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型的步骤之前还包括步骤S71~S74,具体地:
步骤S71、获取往期离散化后的动态特征作为动态特征样本集,所述动态特征样本集包括正动态样本集和负动态样本集;所述正动态样本集为用户在往期的操作行为数据与历史购物记录具有关联性的动态特征样本所组成;所述负动态样本集为用户在往期的操作行为数据与历史购物记录不具有关联性的动态特征样本所组成;
步骤S72、将所述负动态样本集与所述正动态样本集输入所述特征挖掘模型中的人工神经网络进行正动态样本集与负动态样本集进行区分的预先的训练,并从动态特征样本集中筛选出正动态样本集;
步骤S73、通过预先的训练所述人工神经网络可对所述动态特征所对应的动态离散值进行识别,从而所述动态离散值集合中确定出正动态离散值集合。
在一实施例中,所述特征挖掘模型需进行预先的训练,才能保证预测结果的准确性,通过将获取的正动态样本集和负动态样本集利用长短期记忆网络进行学习,使长短期记忆网络根据正动态样本中的元素学习哪些动态特征样本为正动态样本,以及根据负动态样本中的元素学习哪些动态特征样本为负动态样本。经过大量的预先训练后的长短期记忆网络可对所述动态特征所对应的动态离散值进行识别,从而所述动态离散值集合中确定出正动态离散值集合。
可以理解地,长短期记忆网络(Long Short-term Memory,LSTM)基于传统RNN(RecurrentNeural Networks)网络改进的变种网络,能很好地解决梯度爆炸(explodinggradient)和梯度消失(vanishing gradient)问题,让循环网络具备更强更好的记忆性能。
步骤S74、获取往期离散化后的静态特征作为静态特征样本集,并将所述正动态样本集和所述静态特征样本集输入所述特征挖掘模型,利用所述特征挖掘模型的分类算法单元进行分类预测训练。
在一实施例中,利用随机森林算法对静态特征样本进行有放回的抽样,每次从原来的N个训练样本中有放回地随机抽取N个样本,得到多个样本集。从候选的特征中随机抽取m个特征,作为当前决策的备选特征,用静态特征样本集作为训练样本构造决策树,决策树通过对多个静态特征样本中的元素进行测算得到各元素的权重,训练后的决策树根据输入的静态特征样本中的元素做出预测,进行输出。在得到所需数目的决策树后,随机森林方法对这些决策树的输出进行投票,以得票最多的类作为随机森林的决策,从而得到静态特征数值集合。
同理,用正动态样本集作为训练样本构造决策树,决策树通过对多个静态特征样本中的元素进行测算得到各元素的权重,训练后的决策树根据输入的正动态样本中的元素做出预测,进行输出。在得到所需数目的决策树后,随机森林方法对这些决策树的输出进行投票,以得票最多的类作为随机森林的决策,从而得到动态特征数值集合。
可以理解地,随机森林算法是一种监督学习算法,随机森林就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。这种方法能够有效地提高对新样本的分类准确度。随机森林在以决策树为基学习器构建Bagging集成(样本的随机选取)的基础上,进一步在决策树的训练过程中引入随机属性选择。具体来说,传统决策树在选择划分属性时是在当前节点的属性集合(假设有d个属性)中选择一个最优属性;而在RF随机森林中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含K个属性的子集,然后在从这个子集中选择一个最优属性用于划分。
在一实施例中,提供一种人物特征的挖掘装置,该人物特征的挖掘装置与上述实施例中人物特征的挖掘方法一一对应。如图5所示,该人物特征的挖掘装置包括获取模块11、特征离散化模块12、输入模块13、动态特征挖掘模块14、静态特征挖掘模块15和人物特征输出模块16,各功能模块详细说明如下:
获取模块11,获取用户关于购物行为的多个动态特征与多个静态特征;
特征离散化模块12,利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合;
输入模块13,将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型;
动态特征挖掘模块14,通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值;
静态特征挖掘模块15,通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合;
人物特征输出模块16,合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
关于人物特征的挖掘装置的具体限定可以参见上文中对于人物特征的挖掘方法的限定,在此不再赘述。上述人物特征的挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端或者服务端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人物特征的挖掘方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中人物特征的挖掘方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中人物特征的挖掘方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种人物特征的挖掘方法,其特征在于,包括:
获取用户关于购物行为的多个动态特征与多个静态特征;
利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合;
将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型;其中,所述训练后的特征挖掘模型包括人工神经网络和分类算法单元;
通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值;
通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合;
合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
2.如权利要求1所述的人物特征的挖掘方法,其特征在于,所述合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合,包括:
将所述动态特征数值集合和所述静态特征数值集合进行合并,得到特征数值合集;
所述特征数值合集中的元素进行同类合并,得到包括多个人物特征元素的人物特征数值集合。
3.如权利要求1所述的人物特征的挖掘方法,其特征在于,所述通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合,包括:
通过所述训练后的特征挖掘模型的人工神经网络,分辨出所述动态离散值集合中具有正关联性的动态离散值与具有负关联性的动态离散值,筛选出所述正动态离散值,得到正动态离散值集合;
将所述正动态离散值集合中的多个正动态离散值输入利用随机森林算法的分类算法单元,所述随机森林包括多个决策树;
所述决策树根据所述正动态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为正动态特征数值集合。
4.如权利要求1所述的人物特征的挖掘方法,其特征在于,所述通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合,包括:
将所述静态离散值集合中的多个静态离散值输入利用随机森林算法的分类算法单元,所述随机森林包括多个决策树;
所述决策树根据所述静态离散值中不同元素的权重进行决策,每个决策树对应得到一个决策结果,多个所述决策树将对应的所述决策结果少数服从多数,筛选出最终决策结果作为静态特征数值集合。
5.如权利要求1所述的人物特征的挖掘方法,其特征在于,在将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型的步骤之前,还包括:
获取往期离散化后的动态特征作为动态特征样本集,所述动态特征样本集包括正动态样本集和负动态样本集;所述正动态样本集为用户在往期的操作行为数据与历史购物记录具有关联性的动态特征样本所组成;所述负动态样本集为用户在往期的操作行为数据与历史购物记录不具有关联性的动态特征样本所组成;
将所述负动态样本集与所述正动态样本集输入所述特征挖掘模型中的人工神经网络进行正动态样本集与负动态样本集进行区分的预先的训练,并从动态特征样本集中筛选出正动态样本集;
通过预先的训练所述人工神经网络可对所述动态特征所对应的动态离散值进行识别,从而所述动态离散值集合中确定出正动态离散值集合。
6.如权利要求5所述的人物特征的挖掘方法,其特征在于,在所述将所述负动态样本集与所述正动态样本集输入所述特征挖掘模型中的人工神经网络进行正动态样本集与负动态样本集进行区分的预先的训练,并从动态特征样本集中筛选出正动态样本集的步骤之后,还包括:
获取往期离散化后的静态特征作为静态特征样本集,并将所述正动态样本集和所述静态特征样本集输入所述特征挖掘模型,利用所述特征挖掘模型的分类算法单元进行分类预测训练。
7.如权利要求1所述的人物特征的挖掘方法,其特征在于,在利用训练后特征挖掘模型中的分类算法单元将静态离散值集合以及正动态离散值集合进行分类预测,得到的预测结果结合所述静态离散值集合与正动态离散值集合所对应的权重,得到人物特征挖掘结果的步骤之后,还包括:
周期性更新所述用户的购物行为,并基于更新后的用户的购物行为更新所述人物特征数值集合;
所述人物特征数值集合用于绘制用户的用户画像。
8.一种人物特征的挖掘装置,其特征在于,包括:
获取模块,获取用户关于购物行为的多个动态特征与多个静态特征;
特征离散化模块,利用独热算法分别对多个所述动态特征与多个所述静态特征进行处理,分别得到动态离散值集合与静态离散值集合;
输入模块,将所述动态离散值集合与所述静态离散值集合输入训练后的特征挖掘模型;
动态特征挖掘模块,通过所述训练后的特征挖掘模型的人工神经网络,从所述动态离散值集合中筛选出正动态离散值,得到正动态离散值集合;通过所述训练后特征挖掘模型中的分类算法单元,对所述正动态离散值集合进行分类预测,得到动态特征数值集合;其中,所述正动态离散值集合为所述动态离散值集合中与购物行为具有正关联性的动态离散值;
静态特征挖掘模块,通过所述训练后特征挖掘模型中的分类算法单元,对所述静态离散值集合进行分类预测得到静态特征数值集合;
人物特征输出模块,合并所述动态特征数值集合和所述静态特征数值集合得到人物特征数值集合。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述人物特征的挖掘方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人物特征的挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255004.0A CN113987018B (zh) | 2021-10-27 | 2021-10-27 | 人物特征的挖掘方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255004.0A CN113987018B (zh) | 2021-10-27 | 2021-10-27 | 人物特征的挖掘方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987018A true CN113987018A (zh) | 2022-01-28 |
CN113987018B CN113987018B (zh) | 2024-05-07 |
Family
ID=79742464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111255004.0A Active CN113987018B (zh) | 2021-10-27 | 2021-10-27 | 人物特征的挖掘方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987018B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162706A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种基于交互数据聚类的个性化推荐方法及系统 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
CN110688553A (zh) * | 2019-08-13 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
-
2021
- 2021-10-27 CN CN202111255004.0A patent/CN113987018B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162706A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种基于交互数据聚类的个性化推荐方法及系统 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
CN110688553A (zh) * | 2019-08-13 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
WO2021027362A1 (zh) * | 2019-08-13 | 2021-02-18 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
CN111738778A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113987018B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
US12118317B2 (en) | Techniques to add smart device information to machine learning for increased context | |
US11645548B1 (en) | Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling | |
CN109471938A (zh) | 一种文本分类方法及终端 | |
WO2022016556A1 (zh) | 一种神经网络蒸馏方法以及装置 | |
CN113536139B (zh) | 基于兴趣的内容推荐方法、装置、计算机设备及存储介质 | |
Barry-Straume et al. | An evaluation of training size impact on validation accuracy for optimized convolutional neural networks | |
WO2023050143A1 (zh) | 一种推荐模型训练方法及装置 | |
CN115017288A (zh) | 模型训练方法、模型训练装置、设备及存储介质 | |
CN115132324A (zh) | 心理健康预测方法和装置、电子设备、存储介质 | |
CN113643283A (zh) | 一种人体衰老状况的检测方法、装置、设备及存储介质 | |
CN113987018B (zh) | 人物特征的挖掘方法、装置、设备及存储介质 | |
CN115062230B (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
US20230117893A1 (en) | Machine learning techniques for environmental discovery, environmental validation, and automated knowledge repository generation | |
CN116204709A (zh) | 一种数据处理方法及相关装置 | |
CN116796729A (zh) | 基于特征强化的文本推荐方法、装置、设备及存储介质 | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN115618950A (zh) | 一种数据处理方法及相关装置 | |
Hidalgo et al. | Paired k-NN learners with dynamically adjusted number of neighbors for classification of drifting data streams | |
CN114048392B (zh) | 多媒体资源推送方法、装置、电子设备及存储介质 | |
CN114417944B (zh) | 识别模型训练方法及装置、用户异常行为识别方法及装置 | |
CN114238726A (zh) | 用户分类的方法、装置、设备及存储介质 | |
Lovett et al. | Simulating user intervention for interactive semantic place recognition with mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |