CN111460323B - 基于人工智能的焦点用户挖掘方法和装置 - Google Patents

基于人工智能的焦点用户挖掘方法和装置 Download PDF

Info

Publication number
CN111460323B
CN111460323B CN202010555168.4A CN202010555168A CN111460323B CN 111460323 B CN111460323 B CN 111460323B CN 202010555168 A CN202010555168 A CN 202010555168A CN 111460323 B CN111460323 B CN 111460323B
Authority
CN
China
Prior art keywords
user
characteristic
focus
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010555168.4A
Other languages
English (en)
Other versions
CN111460323A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010555168.4A priority Critical patent/CN111460323B/zh
Publication of CN111460323A publication Critical patent/CN111460323A/zh
Application granted granted Critical
Publication of CN111460323B publication Critical patent/CN111460323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于人工智能的焦点用户挖掘方法和装置;方法包括:将样本焦点用户的特征按照所涉及的类型进行编码处理,以获得样本焦点用户的特征编码序列;针对每个样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;对频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征焦点用户集合的共性的强相关特征编码;基于焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于分类模型获得表征待识别用户是否是焦点用户的分类结果。通过本发明,能够高效且准确的挖掘焦点用户。

Description

基于人工智能的焦点用户挖掘方法和装置
技术领域
本发明涉及人工智能领域和大数据技术领域,尤其涉及一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展,并广泛应用于各种行业。
以焦点用户挖掘的应用场景为例,焦点用户是指拥有更多且更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。随着大数据的发展,焦点用户的识别和挖掘对行业领域内相关应用具有非常重要的意义,通过挖掘行业或产品高潜和传播力较强的焦点用户,能够指导产品和相关业务的运营和投放,且更有针对性的对目标用户群体进行推送,达到事半功倍的效果。因此,如何高效且准确地挖掘焦点用户群体,对行业发展、产品运营、业务引流等都起着至关重要的作用。
然而,相关技术对于如何高效且准确的挖掘焦点用户尚无有效的方案。
发明内容
本发明实施例提供一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质,能够高效且准确的挖掘焦点用户。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的焦点用户挖掘方法,所述方法包括:
针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。
本发明实施例提供一种基于人工智能的焦点用户挖掘装置,包括:
编码模块,用于针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
选取模块,用于针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
衍生模块,用于对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
识别模块,用于基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。
上述方案中,所述编码模块,还用于在所述样本焦点用户的用户数据中,提取基础属性类型和行为属性类型的数据,并基于所提取的数据构建多个用户特征;根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值;将对应每个所述用户特征的特征值所查找到的编码值进行组合,以获得所述样本焦点用户的特征编码序列。
上述方案中,所述编码模块,还用于对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作:确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征中缺失的特征值进行特征值填充;构造所述过滤后的特征、以及特征值填充后的特征值,以获得用于进行编码处理的用户特征。
上述方案中,所述选取模块,还用于在不同样本焦点用户的多个特征编码序列中,多次选取特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。
上述方案中,所述选取模块,还用于在所述序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项特征编码序列前缀确定为频繁一项特征编码序列;在所述频繁一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。
上述方案中,所述衍生模块,还用于从所述频繁特征编码序列中提取多个特征编码;将所述提取的多个特征编码进行以下至少之一的处理:将所述多个特征编码中的单一变量进行基础转换;将所述多个特征编码中的多变量进行组合;在所述多个特征编码中添加时间维度以进行衍生;根据决策树的路径,将所述多个特征编码进行组合。
上述方案中,所述分类模型包括多个基分类模型;所述识别模块,还用于将所述焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;基于构造的多个训练样本,训练所述多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得所述分类模型。
上述方案中,所述分类模型包括多个基分类模型;所述识别模块,还用于获取所述待识别用户的用户数据;从所述待识别用户的用户数据中提取所述待识别用户的特征;通过所述多个基分类模型,分别基于所述待识别用户的特征进行分类处理,以获得每个基分类模型的分类结果;将所述多个分类结果通过集合策略进行整合,以获得表征所述待识别用户是否是焦点用户的分类结果。
上述方案中,所述基于人工智能的焦点用户挖掘装置还包括:筛选模块,用于获取多个样本用户的用户数据;根据数据转化维度,将所述多个样本用户的用户数据进行标准化处理,以获得每个样本用户的焦点评分,其中,所述焦点评分表征所述样本用户是样本焦点用户的概率;根据所述多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户。
上述方案中,所述筛选模块,还用于在所述多个样本用户中,选取焦点评分高于焦点评分阈值的部分样本用户以作为样本焦点用户;或者,根据所述多个样本用户的焦点评分,将所述多个样本用户进行降序排序,并选取排序在前的、且数量为样本数量阈值的部分样本用户以作为样本焦点用户。
上述方案中,所述基于人工智能的焦点用户挖掘装置还包括:相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;确定所述多个非强相关特征编码的方差,并将方差低于方差阈值的非强相关特征编码进行过滤;将过滤后的非强相关特征编码进行组合,以获得非强相关特征编码集合;确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码;所述识别模块,还用于基于所述焦点用户集合中每个样本焦点用户的所述强相关特征编码和所述预备强相关特征编码训练所述分类模型。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的焦点用户挖掘方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的焦点用户挖掘方法。
本发明实施例具有以下有益效果:
通过序列模式挖掘焦点用户人群频繁特征编码序列,解决了相关技术构建特征比较粗糙的问题;并且对频繁特征编码序列中的特征编码进行衍生处理,不仅可以提高特征编码的数量,还可以提高特征编码之间的粘性;基于与焦点用户相关性高的特征编码训练分类模型,不仅使得模型泛化能力更高,而且提高了训练完成的分类模型识别焦点用户的准确性。
附图说明
图1是本发明实施例提供的焦点用户挖掘系统100的架构示意图;
图2是本发明实施例提供的电子设备500的结构示意图;
图3是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图;
图4是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图;
图5是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图;
图6是本发明实施例提供的基于人工智能的焦点用户挖掘方法的应用示意图;
图7是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)云技术(Cloud Technology),基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
2)大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
3)关键意见领袖(KOL,Key Opinion Leader),或称焦点用户,是指拥有更多且更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。例如,互联网产品KOL指在互联网产品运营投放上对带动产品活跃量、知名度或营收增长具有更高传播和影响价值的用户,该部分用户的挖掘对于产品的推广运营和销售具有更大的意义。
4)序列模式,是指给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于最小支持度阈值。
5)数据的标准化(Normalization),是将数据按比例缩放,使之落入一个小的特定区间。可以去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据的标准化的处理方式包括数据的归一化处理,即将数据统一映射到[0,1]区间上。常用的数据归一化的方法为Min-Max标准化,也称离差标准化,是指对原始数据的线性变换,使标准化结果落到[0,1]区间。
6)训练样本,或称训练数据,是经过预处理后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与训练过程。
7)神经网络模型的参数,在神经网络模型的训练过程中自动更新或自行学习所获得的参数,包括有特征权重、偏置等。
8)梯度,在神经网络模型的训练过程中用于对模型参数进行梯度计算。模型计算节点每次根据各自所接收的样本数据的子集训练神经网络模型的过程均包括有正向传播和反向传播。其中,正向传播是指在训练模型中输入样本数据的子集并获得预测结果,计算预测结果与期望结果的差异的过程;反向传播则是指按照输出层、中间层、输入层的顺序,在根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新模型参数。
9)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
10)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
11)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易数据的快速查询。
12)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
13)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,并被用于更新状态数据库。
焦点用户的识别和挖掘对行业领域内相关应用具有非常重要的意义,通过挖掘行业或产品高潜和传播力较强的焦点用户,能够指导产品和相关业务的运营和投放,且更有针对性的对目标用户群体进行推送,达到事半功倍的效果。例如,在消费类产品领域,挖掘焦点客户,对增强客户群体之间的传播效应,提高产品的页面浏览量(PV,Page View)和访问用户数(UV,Unique Visitor),并且对于带动营收增长有显著作用;在资讯和论坛领域,对焦点用户的发掘和引导,可以有效地带动行情趋势和舆论方向。因此,准确有效地识别挖掘焦点用户群体,对行业发展和产品运营、业务引流等都起着至关重要的作用。
相关技术中,挖掘焦点用户的方法主要是基于规则或神经网络方法构建用户社交关系网络扩展目标用户群体、以及基于分类模型对挖掘维度拟合或分类得到分类概率,下面分别介绍这两种方法。
(1)基于规则或神经网络等方法构建用户社交关系网络,首先通过获取目标用户群体的社交数据,如红包或转账关系,然后指定用户亲密度计算规则或者构建深层神经网络,预测及量化其他用户与焦点用户的关联度,根据关联度提取条件匹配的其他用户作为焦点用户。
(2)基于分类模型则通过多个维度特征获取所有用户的历史数据,然后训练建立用于进行用户预测的多个挖掘模型,并基于多个分类回归模型确定目标挖掘模型,通过目标挖掘模型从所有用户中确定焦点用户。
上述两种方法在应用过程中,会出现以下技术问题:
(1)特征构建过程没有充分挖掘出与焦点用户强相关的特征,没有对各特征的特征值进行重要性衡量,忽略了某些特征值可能是区分焦点用户的重要影响因素。
(2)基于规则等方法构建用户社交关系网络方法可解释性较高,但对于不同的目标人群挖掘需要重新指定规则,通用性不高,模型泛化性能较低。
(3)基于神经网络构建用户关系链方法需要构建庞大的网络和复杂的节点关系,随着节点数和节点连线的增加,训练神经网络模型过程非常耗时。
针对上述问题,本发明实施例提供一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质,能够高效且准确的挖掘焦点用户。下面说明本发明实施例提供的基于人工智能的焦点用户挖掘方法的示例性应用,本发明实施例提供的基于人工智能的焦点用户挖掘方法可以由各种电子设备实施,例如可以由服务器实施。
需要说明的是,上述的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,本发明在此不做限制。
下面,以由服务器实施为例说明本发明实施例,参见图1,图1是本发明实施例提供的焦点用户挖掘系统100的架构示意图。其中,焦点用户挖掘系统100包括有:服务器200、网络300和终端400,将分别进行说明。
服务器200,用于获取训练样本,并基于训练样本训练分类模型,以获得用于焦点用户挖掘的分类模型(将在下文详细说明训练分类模型的过程);还用于通过客户端410采集待识别用户的用户数据,并基于训练完成的分类模型判断待识别用户是否是焦点用户。当待识别用户是焦点用户时,向该用户投放相应的推荐信息等,以引导该用户向客户群体进行传播。
网络300用于作为服务器200和终端400之间通信的媒介,可以是广域网或者局域网,又或者是二者的组合。
终端400用于运行客户端410,客户端410用于向服务器200发送待识别用户(即终端400的持有者)的用户数据;还用于接收服务器200投放的相应的推荐信息等,以向用户进行展示。
本发明实施例可以广泛应用于各种场景的焦点用户挖掘领域,例如,在理财产品的运营投放场景中,通过挖掘对产品具有传播力和影响力的焦点用户,能够精准投放产品推荐信息,从而能够提高产品的活跃量,刺激增长;在选股的新闻资讯场景中,通过挖掘金融事件的焦点用户能够更好地了解行业观点和市场行情,从而有效地分析未来趋势和走向甚至做一些引导和监督。除此以外,只要涉及对于焦点用户的识别和挖掘,都属于本发明实施例的潜在应用场景。
接下来说明本发明实施例提供的用于焦点用户挖掘的电子设备的结构,电子设备可以是图1所示的服务器200。下面以电子设备是图1所示的服务器200为例说明该电子设备的结构,参见图2,图2是本发明实施例提供的电子设备500的结构示意图,图2所示的电子设备500包括:至少一个处理器510、存储器540和至少一个网络接口520。电子设备500中的各个组件通过总线系统530耦合在一起。可理解,总线系统530用于实现这些组件之间的连接通信。总线系统530除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统530。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器540包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器540旨在包括任意适合类型的存储器。存储器540可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器540能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统541,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块542,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本发明实施例提供的基于人工智能的焦点用户挖掘装置可以采用软件方式实现,图2示出了存储在存储器540中的基于人工智能的焦点用户挖掘装置543,其可以是程序和插件等形式的软件,包括以下软件模块:编码模块5431、选取模块5432、衍生模块5433、以及识别模块5434。这些模块是可以是逻辑功能模块,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于人工智能的焦点用户挖掘装置543可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的焦点用户挖掘方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,以由图1中的服务器200实施本发明实施例提供的基于人工智能的焦点用户挖掘方法为例说明。参见图3,图3是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图,将结合图3示出的步骤进行说明。
在步骤S101中,针对焦点用户集合(或称焦点用户样本库)中的每个样本焦点用户,将样本焦点用户的特征按照所涉及的类型进行编码处理,以获得样本焦点用户的特征编码序列。
这里,样本焦点用户的特征是指样本焦点用户自身的基础属性特征,以及样本焦点用户与社交用户(即具有社交关系的用户,可以是实际生活社交关系或网络社交关系等)之间的社交行为的行为属性特征。
在一些实施例中,在样本焦点用户的用户数据中,提取基础属性类型(或称基础属性维度)和行为属性类型(或称行为属性维度)的数据,并基于所提取的数据构建多个用户特征;根据每个用户特征的特征值(或称特征取值、特征数据),从相应类型的编码表查找特征值的编码值;将对应每个用户特征的特征值所查找到的编码值进行组合,以获得样本焦点用户的特征编码序列。
以理财产品的运营投放场景为例,用户数据包括:职位、年龄、性别、教育状况(学历)、最近N天(如7天、30天、90天等)内红包发送/接收次数、最近N天(如7天、30天、90天等)内转账与被转账次数、最近N天(如7天、30天、90天等)内信息收发人数、交易笔数、交易金额,理财产品历史申购赎回笔数、金额、最近一次申购/赎回时间、最近一次互动/交流时间、社交产品评论消息发表条数、发送接收信息比、关注与被关注人数占比、互动次数、以及受邀回答问题次数等数据。其中,基础属性类型包括职位、年龄、性别、教育状况(学历)等;行为属性类型包括最近N天(如7天、30天、90天等)内红包发送/接收次数、最近N天(如7天、30天、90天等)内转账与被转账次数、最近N天(如7天、30天、90天等)内信息收发人数、交易笔数等。
参见表1、表2和表3,表1是年龄特征的编码表,表2是性别特征的编码表,表3是最近N天(如7天、30天、90天等)内红包发送次数特征的编码表。
表1 年龄特征的编码表
Figure 130888DEST_PATH_IMAGE001
表2 性别特征的编码表
Figure 89617DEST_PATH_IMAGE002
表3 最近N天(如7天、30天、90天等)内红包发送次数特征的编码表
Figure 823218DEST_PATH_IMAGE003
作为示例,首先获得样本焦点用户的用户数据,并将用户数据中的关键字段(或特征)进行提取,例如,年龄、性别和最近N天内红包发送次数等;然后根据每个用户特征的特征值,从相应类型的编码表查找特征值的编码值,例如,该用户性别男,则查找编码表后获取的编码值为性别a;最后将对应每个用户特征的特征值所查找到的编码值进行组合,以获得样本焦点用户的特征编码序列。
举例来说,样本焦点用户的用户数据为{年龄18岁,性别男,最近N天内红包发送次数30},将其进行编码处理后,获得的样本焦点用户的特征编码序列为{年龄a,性别a,N天发红包次数c}。
在一些实施例中,还可以对多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作,具体过程为:
(1)过滤(或称舍弃)缺失值过多的特征和单值特征:确定每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;
(2)过滤异常特征值:舍弃对应于过滤后的特征的异常特征值;
(3)缺失的特征值的填充:针对过滤后的特征中缺失的特征值进行特征值填充;
(4)特征和特征值的构造:将过滤后的特征中的连续型特征对应的特征值进行离散处理,以获得离散型特征;将离散处理后得到的离散型特征和过滤后的特征中的离散型特征,作为用于进行编码处理的用户特征。
这里,缺失值过滤阈值
Figure 841989DEST_PATH_IMAGE004
,其中,b为样本数据量,G为缺失值过滤系数,缺失值过滤系数越小,过滤门槛越高,过滤后特征的数量越少、且过滤后特征所对应的特征值更完整。相同数量阈值
Figure 723357DEST_PATH_IMAGE005
,其中,d为样本数据量,M为相同数量过滤系数。若某个特征的取值(即特征值)90%都是一样的、或者所有取值都是一样的,则该特征称为单值特征,需要将单值特征进行过滤。因为对应于用户特征的相同特征值的数量越大,对于后续筛选样本焦点用户的强相关特征编码用处越小,所以需要将其过滤。也就是说,焦点用户集合中,针对单值特征的相同特征值的数量超过相同数量阈值。
作为示例,舍弃对应于过滤后的特征的异常特征值,例如,根据特征分布,舍弃特征取值太大的异常值;针对过滤后的特征中缺失的特征值进行特征值填充,例如,连续型特征中对应缺失的特征取值用均值填充,离散型特征中对应缺失的特征取值用常数填充。
作为示例,离散处理可以是分箱操作,包括等距分箱操作和等频分箱操作,例如,表1中年龄特征是连续型特征,将年龄特征对应的特征值等频分箱操作后离散型年龄特征为{18-25,26-30,31-35,36-40,41-45,46-50,51-60,60以上};表3中最近N天(如7天、30天、90天等)内红包发送次数特征是连续型特征,将最近N天(如7天、30天、90天等)内红包发送次数特征对应的特征值等距分箱操作后离散型最近N天(如7天、30天、90天等)内红包发送次数特征为{0-10,11-20,21-30,31-40,41-50,51-60,61-70,70以上}。表2中的性别特征是离散型特征,因此无需对性别特征进行离散处理。
本发明实施例中,对于后续筛选样本焦点用户的强相关特征编码处理缺失和异常,能够更好的构建焦点用户的强相关特征编码,从而可以提高后续基于强相关特征编码训练获得的分类模型识别焦点用户的准确性;将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小训练分类模型的时间和空间开销,并且可以提高分类模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服用户数据中隐藏的缺陷,使分类模型的训练结果更加稳定。
在步骤S102中,针对每个样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列。
这里,频繁特征编码序列中可以仅包括样本焦点用户自身的基础属性特征编码;也可以仅包括样本焦点用户与社交用户之间的社交行为的行为属性特征编码子序列;还可以既包括样本焦点用户自身的基础属性特征编码,也包括样本焦点用户与社交用户之间的社交行为的行为属性特征编码子序列。
在一些实施例中,在不同样本焦点用户的多个特征编码序列中,多次选取(多个)特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;在多个不同的特征编码子序列形成的序列集合中,选取出现频率超过频率阈值(或称最小支持度阈值)的特征编码子序列,以作为频繁特征编码序列。
作为示例,首先在多个不同样本焦点用户的特征编码序列中提取的所有特征编码,然后在所有特征编码中随机抓取多个特征编码以形成特征编码子序列。例如:焦点用户A的特征编码序列为{年龄a,性别a,N天发红包次数c};焦点用户B的特征编码序列为{年龄b,性别b,N天发红包次数a};那么抓取的子序列可能为{年龄a,年龄b}、{年龄a,性别b,N天发红包次数a}或{性别a,N天发红包次数a},只需要每次抓取的多个特征编码至少归属于两个不同的焦点用户即可。
作为示例,在序列集合中,根据出现频率选取频繁特征编码序列的过程具体为:选取单位长度为一的一项特征编码序列前缀,并确定对应于一项特征编码序列前缀的投影数据集;当对应于一项特征编码序列前缀的投影数据集不为空时,将出现频率超过频率阈值的一项特征编码序列前缀确定为频繁一项特征编码序列;在频繁一项特征编码序列的基础上,选取单位长度为二的二项特征编码序列前缀,并确定对应于二项特征编码序列前缀的投影数据集;当对应于二项特征编码序列前缀的投影数据集不为空时,将出现频率超过频率阈值的二项特征编码序列前缀确定为频繁二项特征编码序列;……以此类推,进行递归计算;在频繁n-1项特征编码序列的基础上,选取单位长度为n的n项特征编码序列前缀,并确定对应于n项特征编码序列前缀的投影数据集;当对应于n项特征编码序列前缀的投影数据集为空、且n项特征编码序列前缀的出现频率超过频率阈值时,将n项特征编码序列前缀确定为频繁特征编码序列;其中,n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是序列集合中长度最大的特征编码子序列中所包含的特征编码的数量,也就是说,K是序列集合中所有不同的特征编码的数量总和。
这里,频率阈值或称最小支持度阈值,最小支持度阈值为
Figure 220198DEST_PATH_IMAGE006
,其中,e为焦点用户样本数量,f为最小支持率,最小支持率f可根据训练样本集的数量进行调整,当训练样本集的数量越大时,最小支持率越大。
下面,以样本焦点用户的数量是2,频率阈值是0.5为例,说明根据出现频率选取频繁特征编码序列的具体过程。
表4是样本焦点用户的特征编码序列表,其中,N天收发信息比=N天内收到信息条数/N天内发送信息条数;好友中理财产品用户关系占比=好友为理财产品用户数/好友数;关注与被关注人数占比=用户关注人数/用户被关注人数。
表4 样本焦点用户的特征编码序列表
Figure 870622DEST_PATH_IMAGE007
根据表4,可统计获得样本焦点用户的所有类型特征的出现频率如表5所示。
表5 样本焦点用户的所有类型特征的出现频率
Figure 529137DEST_PATH_IMAGE008
满足最小支持度阈值的一项特征编码序列前缀和与其对应后缀(即投影数据集)如表6所示。
表6 一项特征编码序列前缀和与其对应后缀
Figure 101063DEST_PATH_IMAGE009
同样地,满足最小支持度阈值的二项特征编码序列前缀和与其对应后缀(即投影数据集)如表7所示。
表7 二项特征编码序列前缀和与其对应后缀
Figure 136015DEST_PATH_IMAGE010
同样地,满足最小支持度阈值的三项特征编码序列前缀和与其对应后缀(即投影数据集)如表8所示。
表8 三项特征编码序列前缀和与其对应后缀
Figure 703263DEST_PATH_IMAGE011
上面例子中,最后确定的频繁特征编码序列是{N天收发信息条数比e、好友中理财产品用户关系占比c、关注与被关注人数占比c}。
本发明实施例从样本焦点用户的特征编码序列中挖掘频繁特征编码序列,频繁特征编码序列中包括的特征编码是焦点用户群体所普遍具备的共同特征编码,针对此特征编码进行后续训练,可以提高训练获得的分类模型识别焦点用户的准确性。本发明实施例还可以解决相关技术中无法对用户特征值和行为特征值进行重要性量化和进一步分析处理,以及忽略了某些特征值可能是区分焦点用户的重要影响因素的技术问题,剔除影响不明显的特征,极大程度地减少了噪音特征的影响,提高模型预测的准确率。
在步骤S103中,对频繁特征编码序列中的特征编码进行衍生处理,得到表征焦点用户集合的共性的强相关特征编码。
在一些实施例中,对频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码(即,新的样本焦点用户的基础属性特征编码,以及新的样本焦点用户与社交用户之间的社交行为的行为属性特征编码)作为表征焦点用户集合的共性的强相关特征编码。
具体的,从频繁特征编码序列中提取多个特征编码;对多个特征编码进行衍生处理,以获得样本焦点用户的强相关特征编码。
这里,衍生处理的过程包括以下至少之一:将多个特征编码中的单一变量进行基础转换;将多个特征编码中的多变量进行组合;在多个特征编码中添加时间维度以进行衍生;根据决策树(Xgboost)的路径,将多个特征编码进行组合。
作为上述实施例的一种替代方案,具体包括:首先从频繁特征编码序列中提取多个特征编码,将特征编码根据编码表反向转换为相应的特征值,然后对特征值进行转换、计算以及组合而产生的新的特征值;最后将新的特征值按照步骤S101进行编码处理,以获得表征焦点用户集合的共性的强相关特征编码。
举例来说,用户的特征编码序列中包括{年龄a,性别b,7天交易金额e},可以将“年龄a”和“性别b”组合成一个新特征“年龄a性别b”;还可以将“7天交易金额e”根据时间维度进行衍生,以获得“21天交易金额f”(f的数值为e的三倍),只要属于衍生的范畴之内均可,在此不详尽举例。
本发明实施例通过对频繁特征编码序列中的特征编码进行衍生处理,不仅可以提高特征编码的数量,还可以提高特征编码之间的粘性,从而可以避免训练获得的分类模型出现欠拟合和过拟合的问题。
在步骤S104中,基于焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型。
在一些实施例中,当分类模型为神经网络模型时,训练过程具体为:将焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;提取训练样本中样本焦点用户的特征,将提取的特征输入至神经网络模型,以获得预测结果,并计算预测结果与期望结果(即焦点用户标签)的差异,根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新神经网络模型的参数,以获得训练完成的神经网络模型。
本发明实施例搭建基于样本焦点用户的强相关特征编码的神经网络模型,充分利用与焦点用户强关联的因素进行学习,使得训练后的神经网络模型识别焦点用户的准确性更高。
在另一些实施例中,当分类模型是集成学习模型、且分类模型包括多个基分类模型时,训练过程具体为:将焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;基于构造的多个训练样本,训练多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得分类模型。
这里,集合策略包括平均法(例如,简单平均法和加权平均法)、投票法(例如,简单投票法和加权投票法)和学习法。平均法是对于多个基分类模型的输出进行简单平均或加权平均,以得到最终的分类结果;投票法是多个基分类模型的对样本的分类结果中,数量最多的分类结果为最终的分类结果;学习法是将多个基分类模型的输出作为输入,将训练集的输出作为输出,重新训练一个中间分类模型来得到最终的分类结果。
作为一个示例,将样本焦点用户的强相关特征编码和焦点用户标签构成正样本,将非样本焦点用户的强相关特征编码和非焦点用户标签构成负样本,并将正样本和负样本组合为训练集,其中,训练集中包括正样本的数量和负样本的数量可以相同也可以不相同。首先从训练集用初始权重训练出一个基分类模型1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前基分类模型1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的基分类模型2中得到更多的重视。然后基于调整权重后的训练集来训练基分类模型2,如此重复进行,直到基分类模型的数量达到事先指定的数目T,最终将这T个基分类模型通过集合策略进行整合,得到最终的分类模型。
作为另一个示例,将样本焦点用户的强相关特征编码和焦点用户标签构成正样本,将非样本焦点用户的强相关特征编码和非焦点用户标签构成负样本,并将正样本和负样本组合为训练集,其中,训练集中包括正样本的数量和负样本的数量可以相同也可以不相同。首先从训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回,也就是说,之前采集到的样本在放回后有可能继续被采集到。例如,对于包含m个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集m次,最终可以得到m个样本的采样集,由于是随机采样,这样每次的采样集是和原始训练集不同的,和其他采样集也是不同的,然后基于这些采样集分别训练不同的基分类模型,以获得多个基分类模型。最后将多个基分类模型通过集合策略进行整合,得到最终的分类模型。本示例通过降低基分类模型的方差,改善了泛化误差;并且有助于降低训练数据的随机波动导致的误差;以及由于每个样本被选中的概率相同,因此本示例并不侧重于训练数据集中的任何特定实例。
本发明实施例搭建基于样本焦点用户的强相关特征编码的集成学习模型,充分利用与焦点用户强关联的因素进行学习,使得模型泛化能力更高。并且本发明实施例采用集成学习模型,可以解决相关技术中存在的基于神经网络构建用户关系链方法需要构建庞大的网络和复杂的节点关系,随着节点数和节点连线的增加,训练神经网络模型过程非常耗时的技术问题,从而减少了训练的时间,从而提高了训练的效率。
在步骤S105中,基于分类模型获得表征待识别用户是否是焦点用户的分类结果。
在一些实施例中,当分类模型为神经网络模型时,识别过程具体为:获取待识别用户的用户数据;通过神经网络模型,从待识别用户的用户数据中提取对应于待识别用户的特征,并将提取的特征映射为对应属于焦点用户类型的概率、以及属于非焦点用户类型的概率;将最大概率对应的类型确定为待识别用户的分类结果。
在另一些实施例中,当分类模型是集成学习模型、且分类模型包括多个基分类模型时,识别过程具体为:获取待识别用户的用户数据;从待识别用户的用户数据中提取待识别用户的特征;通过多个基分类模型,分别基于待识别用户的特征进行分类处理,以获得每个基分类模型的分类结果;将多个分类结果通过集合策略进行整合,以获得表征待识别用户是否是焦点用户的分类结果。
这里,集合策略包括平均法(例如,简单平均法和加权平均法)、投票法(例如,简单投票法和加权投票法)和学习法。平均法是对于多个基分类模型的输出的分类结果进行简单平均或加权平均,以得到表征待识别用户是否是焦点用户的分类结果;投票法是多个基分类模型的对样本的分类结果中,将数量最多的分类结果作为表征待识别用户是否是焦点用户的分类结果;学习法是将多个基分类模型的输出的分类结果输入至中间分类模型,以获得表征待识别用户是否是焦点用户的最终分类结果。
作为示例,获取待识别用户的用户数据;从待识别用户的用户数据中提取对应于待识别用户的特征;对提取的特征进行独热(One-Hot)编码,以获得特征独热编码;通过多个基分类模型,分别对特征独热编码进行分类处理,以获得每个基分类模型的分类结果;将多个分类结果通过集合策略进行整合,以获得表征待识别用户是否是焦点用户的分类结果。
本发明实施例基于从用户数据中提取强相关特征编码来训练分类模型,不同于相关技术中的通过构建用户社交关系网络方法来获得训练完成的分类模型,本发明实施例训练所获得的分类模型不仅通用性高,模型泛化性能强,而且基于分类模型判断待识别用户是否是焦点用户,提高了挖掘焦点用户的准确性。并且,相关技术的分类模型(位于推荐系统/服务器)是基于规则区分焦点用户的模型,通用性不好,面对多种应用场景(例如,新闻或广告)的焦点用户识别,需要分布部署对应的服务器,系统架构复杂,硬件资源消耗高;然而本发明实施例所获得的分类模型支持多种应用场景,具有良好的通用性,降低了系统布局的复杂度,减少了硬件资源消耗。
在一些实施例中,参见图4,图4是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图,图3示出的步骤S101之前还可以包括步骤S106。
在步骤S106中,在多个样本用户中选取多个样本焦点用户。
这里,选取的多个样本焦点用户即可组合为步骤S101中焦点用户集合。
在一些实施例中,获取多个样本用户的用户数据;根据数据转化维度,将多个样本用户的用户数据进行标准化处理,以获得每个样本用户的焦点评分,其中,焦点评分表征样本用户是样本焦点用户的概率;根据多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户。
作为一个示例,根据多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户的具体过程可以是:在多个样本用户中,选取焦点评分高于焦点评分阈值的部分样本用户以作为样本焦点用户。其中,焦点评分阈值可以是所有样本用户的焦点评分的平均值。
作为另一个示例,根据多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户的具体过程还可以是:根据多个样本用户的焦点评分,将多个样本用户进行降序排序,并选取排序在前的、且数量为样本数量阈值的部分样本用户以作为样本焦点用户。其中,样本数量阈值与样本总量成正比。
以理财产品的运营投放场景为例,通过数据转化维度在多个样本用户中选取样本焦点用户,其中,数据转化维度包括:历史申购赎回次数、申购总金额、好友中理财产品用户关系占比、历史收益、产品评分等级等。计算样本用户的焦点评分的过程是:将用户数据中分别对应于各个维度的用户数据进行Min-Max标准化处理,以获得该维度的得分,然后将所有维度的得分相乘以获得焦点评分。
本发明实施例,根据样本用户的焦点评分选取样本焦点用户,可以保证训练样本中分类标签的准确性,从而提高判断待识别用户是否是焦点用户的准确性。
在一些实施例中,参见图5,图5是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图,图3示出的步骤S104之前还可以包括步骤S107,步骤S104可以用步骤S108替换,需要说明的是,步骤S107和步骤S103之间并无先后顺序,可以步骤S107在前,也可以步骤S103在前,还可以步骤S107和步骤S103并行执行。
在步骤S107中,在多个非强相关特征编码中,根据特征编码之间的相关度,选取部分特征编码以作为预备强相关特征编码。
这里,非强相关特征编码是出现频率不超过频率阈值的特征编码子序列中所包含的特征编码;也就是说,非强相关特征编码是不属于频繁特征编码序列中的特征编码。
在一些实施例中,确定多个非强相关特征编码,其中,非强相关特征编码是出现频率不超过频率阈值的特征编码子序列中所包含的特征编码;确定多个非强相关特征编码的方差,并将方差低于方差阈值的非强相关特征编码进行过滤;将过滤后的非强相关特征编码进行组合,以获得非强相关特征编码集合;确定非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据任意两个非强相关特征编码之间的特征相关度,确定非强相关特征编码集合中的每一个非强相关特征编码与非强相关特征编码集合的平均相关度;根据平均相关度,将非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码。
作为示例,首先计算非强相关特征编码集合中所有特征编码的方差,方差越大的特征编码越有用,本发明实施例中设定方差阈值为1,方差小于该阈值的特征编码被过滤。然后根据公式(1)计算非强相关特征编码之间的特征相关度(相关度系数或相关系数)为:
Figure 532679DEST_PATH_IMAGE012
(1)
其中,
Figure 123060DEST_PATH_IMAGE013
表示特征
Figure 961703DEST_PATH_IMAGE014
的每一维度,
Figure 321140DEST_PATH_IMAGE015
表示特征
Figure 587036DEST_PATH_IMAGE016
的每一维度,
Figure 664714DEST_PATH_IMAGE017
表示特征
Figure 103786DEST_PATH_IMAGE014
的每一维度的均值,
Figure 583308DEST_PATH_IMAGE018
表示特征
Figure 20106DEST_PATH_IMAGE016
的每一维度的均值。特征相关度
Figure 573361DEST_PATH_IMAGE019
衡量特征
Figure 488227DEST_PATH_IMAGE013
与特征
Figure 822257DEST_PATH_IMAGE020
相关程度,特征相关度
Figure 429955DEST_PATH_IMAGE019
的取值范围是[-1,1]。特征相关度
Figure 482225DEST_PATH_IMAGE019
的绝对值越大,则表明特征
Figure 200782DEST_PATH_IMAGE013
与特征
Figure 654897DEST_PATH_IMAGE021
的相关程度越高。
根据公式(2)计算非强相关特征编码与非强相关特征编码集合的平均相关度(平均相关性)为:
Figure 433498DEST_PATH_IMAGE022
(2)
其中,
Figure 973063DEST_PATH_IMAGE023
表示非强相关特征编码集合中的每一个非强相关特征编码。
根据每个非强相关特征编码的平均相关度,将非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码。
在步骤S108中,基于焦点用户集合中每个样本焦点用户的强相关特征编码和预备强相关特征编码训练分类模型。
在一些实施例中,当分类模型为神经网络模型时,训练过程具体为:将样本焦点用户的强相关特征编码、预备强相关特征编码和焦点用户标签构成训练样本;提取训练样本中样本焦点用户的特征,将提取的特征输入至神经网络模型,以获得预测结果,并计算预测结果与期望结果(即焦点用户标签)的差异,根据预测结果与期望结果的差异反方向地计算每一层的模型参数的梯度(即更新值),从而根据梯度来更新神经网络模型的参数,以获得训练完成的神经网络模型。
本发明实施例搭建基于样本焦点用户的强相关特征编码和预备强相关特征编码的神经网络模型,充分利用与焦点用户强关联的因素进行学习,使得训练后的神经网络模型识别焦点用户的准确性更高。
在另一些实施例中,当分类模型是集成学习模型、且分类模型包括多个基分类模型时,训练过程具体为:将焦点用户集合中每个样本焦点用户的强相关特征编码、预备强相关特征编码和焦点用户标签构成训练样本;基于构造的多个训练样本,训练多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得分类模型。
需要说明的是,当分类模型是集成学习模型时,训练集成学习模型的过程和步骤S104相同,只是,步骤S104是基于强相关特征编码训练分类模型,而步骤S108是基于强相关特征编码和预备强相关特征编码训练分类模型,将在此不再进行赘述。
本发明实施例搭建基于样本焦点用户的强相关特征编码和预备强相关特征编码的集成学习模型,不仅保证了特征编码的数量,而且还充分利用与焦点用户强关联的因素进行学习,使得模型泛化能力更高。并且本发明实施例采用集成学习模型,可以避免了采用神经网络导致训练复杂的问题,减少了训练的时间,从而提高了训练的效率。
在一些实施例中,在步骤S103之后,还可以包括:将强相关特征编码存储到区块链网络中,以使区块链网络响应针对强相关特征编码的获取请求。
接下来以图1中的服务器200将强相关特征编码上传至区块链网络保存为例,说明本发明实施例提供的基于人工智能的焦点用户挖掘方法的示例性应用。参见图6,图6是本发明实施例提供的基于人工智能的焦点用户挖掘方法的应用示意图,包括区块链网络600(示例性示出了共识节点610-1、共识节点610-2、和共识节点610-3)、认证中心700和业务主体800/900,下面分别进行说明。
区块链网络600的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备(例如,服务器200),都可以在不需要授权的情况下接入区块链网络600而成为客户端节点;以联盟链为例,业务主体在获得授权后其下辖的电子设备可以接入区块链网络600而成为客户端节点。
作为示例,当区块链网络600是联盟链时,业务主体800/900从认证中心700进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体800/900的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易(例如,用于上链存储强相关特征编码、或者查询强相关特征编码)中,并被发送到区块链网络600,以供区块链网络600从交易中取出数字证书和数字签名,验证交易的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络600会根据身份进行验证,例如是否具有发起交易的权限。
在一些实施例中,客户端节点可以只作为区块链网络600的观察者,即提供支持业务主体发起交易功能,对于区块链网络600的共识节点的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中,通过区块链网络600实现数据和业务处理过程的可信和可追溯。
区块链网络600中的共识节点接收来自不同业务主体(例如图6中示出的业务主体800/900)的客户端节点提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
下面以第一服务器将强相关特征编码上传至区块链网络保存为例,说明区块链网络的示例性应用,作为示例,第一服务器可以是归属于图6中业务主体800的服务器,其作为区块链网络的客户端节点810。
首先,在客户端节点810设置强相关特征编码上链的逻辑,例如当获得强相关特征编码时,客户端节点810将强相关特征编码发送至区块链网络600时,生成对应的交易,交易包括:为了上链强相关特征编码而需要调用的智能合约、以及向智能合约传递的参数;交易还包括客户端节点810的数字证书、签署的数字签名,并将交易广播到区块链网络600中的共识节点。
然后,区块链网络600中的共识节点接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点自己的数字签名(例如,使用节点610-1的私钥对交易的摘要进行加密得到),并继续在区块链网络600中广播。
最后,区块链网络600中的共识节点接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点广播的新区块时,会对新区块进行验证,例如,验证新区块中交易的数字签名是否有效,如果验证成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的存储强相关特征编码的交易,在状态数据库中添加包括强相关特征编码的键值对。
再以第二服务器在区块链网络600中查询强相关特征编码为例,说明区块链网络的示例性应用。作为示例,第二服务器可以是归属于图6中业务主体900的服务器,其作为区块链网络的客户端节点910。
这里,假设第二服务器是需要进行焦点用户挖掘的服务器,并且第一服务器和第二服务器需要检测的用户群体的类型是相同的(将在下文以一个详细的示例进行说明)。
在一些实施例中,客户端节点910在区块链网络600中能够查询的数据的类型,可以由共识节点通过约束业务主体的客户端阶段能够发起的交易的权限来实现,当客户端节点910具有发起查询强相关特征编码的权限时,可以由客户端节点910生成用于查询强相关特征编码的交易并提交到区块链网络600中,从共识节点执行交易以从状态数据库中查询相应的强相关特征编码,并返回客户端节点910。
以理财产品的运营投放场景为例,业务主体800是金融公司A,客户端节点810是金融公司A的生产环境中的服务器(例如上文所述的第一服务器),金融公司A需要在大量的用户群体中挖掘对产品具有传播力和影响力的焦点用户;业务主体900是金融公司B,客户端节点910是金融公司B的生产环境中的服务器(例如上文所述的第二服务器),金融公司B同样需要在大量的用户群体中挖掘对产品具有传播力和影响力的焦点用户。如此,第一服务器和第二服务器训练分类模型所使用的强相关特征编码是一样的。因此,第二服务器可以直接通过区块链网络600获取强相关特征编码,从而可以避免第二服务器为获取强相关特征编码进行大量的特征运算,进而减少了第二服务器的资源的消耗。
下面继续结合图2说明电子设备500的结构,在一些实施例中,如图2所示,存储在存储器540的基于人工智能的焦点用户挖掘装置543中的软件模块可以包括:编码模块5431、选取模块5432、衍生模块5433以及识别模块5434。
编码模块5431,用于针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
选取模块5432,用于针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
衍生模块5433,用于对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
识别模块5434,用于基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。
上述方案中,所述编码模块5431,还用于在所述样本焦点用户的用户数据中,提取基础属性类型和行为属性类型的数据,并基于所提取的数据构建多个用户特征;根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值;将对应每个所述用户特征的特征值所查找到的编码值进行组合,以获得所述样本焦点用户的特征编码序列。
上述方案中,所述编码模块5431,还用于对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作:确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征中缺失的特征值进行特征值填充;构造所述过滤后的特征、以及特征值填充后的特征值,以获得用于进行编码处理的用户特征。
上述方案中,所述选取模块5432,还用于在不同样本焦点用户的多个特征编码序列中,多次选取特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。
上述方案中,所述选取模块5432,还用于在所述序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项特征编码序列前缀确定为频繁一项特征编码序列;在所述频繁一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。
上述方案中,所述衍生模块5433,还用于从所述频繁特征编码序列中提取多个特征编码;将所述提取的多个特征编码进行以下至少之一的处理:将所述多个特征编码中的单一变量进行基础转换;将所述多个特征编码中的多变量进行组合;在所述多个特征编码中添加时间维度以进行衍生;根据决策树的路径,将所述多个特征编码进行组合。
上述方案中,所述分类模型包括多个基分类模型;所述识别模块5434,还用于将所述焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;基于构造的多个训练样本,训练所述多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得所述分类模型。
上述方案中,所述分类模型包括多个基分类模型;所述识别模块5434,还用于获取所述待识别用户的用户数据;从所述待识别用户的用户数据中提取所述待识别用户的特征;通过所述多个基分类模型,分别基于所述待识别用户的特征进行分类处理,以获得每个基分类模型的分类结果;将所述多个分类结果通过集合策略进行整合,以获得表征所述待识别用户是否是焦点用户的分类结果。
上述方案中,所述基于人工智能的焦点用户挖掘装置543还包括:筛选模块,用于获取多个样本用户的用户数据;根据数据转化维度,将所述多个样本用户的用户数据进行标准化处理,以获得每个样本用户的焦点评分,其中,所述焦点评分表征所述样本用户是样本焦点用户的概率;根据所述多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户。
上述方案中,所述筛选模块,还用于在所述多个样本用户中,选取焦点评分高于焦点评分阈值的部分样本用户以作为样本焦点用户;或者,根据所述多个样本用户的焦点评分,将所述多个样本用户进行降序排序,并选取排序在前的、且数量为样本数量阈值的部分样本用户以作为样本焦点用户。
上述方案中,所述基于人工智能的焦点用户挖掘装置543还包括:相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;确定所述多个非强相关特征编码的方差,并将方差低于方差阈值的非强相关特征编码进行过滤;将过滤后的非强相关特征编码进行组合,以获得非强相关特征编码集合;确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码;所述识别模块5434,还用于基于所述焦点用户集合中每个样本焦点用户的所述强相关特征编码和所述预备强相关特征编码训练所述分类模型。
本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的焦点用户挖掘方法,例如,图3、图4或图5示出的基于人工智能的焦点用户挖掘方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将以理财(金融)产品的运营投放场景为例说明本发明实施例提供的基于人工智能的焦点用户挖掘方法。
KOL用户(即上述的焦点用户)的识别和挖掘对行业领域内相关应用具有非常重要的意义,通过挖掘行业或产品高潜和传播力较强的KOL用户,能够指导产品和相关业务的运营和投放,且更有针对性的对目标用户群体进行推送,达到事半功倍的效果。因此,准确有效地识别挖掘KOL用户群体,对行业发展、产品运营和业务引流等都起着至关重要的作用。
相关技术中,挖掘KOL用户的方法主要是基于规则或神经网络方法构建用户社交关系网络扩展目标用户群体、以及基于分类模型对挖掘维度拟合或分类得到分类概率,下面分别介绍这两种方法。
(1)基于规则或神经网络等方法构建用户社交关系网络,首先通过获取目标用户群体的社交数据,如红包或转账关系,然后指定用户亲密度计算规则或者构建深层神经网络,预测及量化其他用户与KOL用户的关联度,根据关联度提取条件匹配的其他用户作为KOL用户。
(2)基于分类模型则通过多个维度特征获取所有用户的历史数据,然后训练建立用于进行用户预测的多个挖掘模型,并基于多个分类回归模型确定目标挖掘模型,通过目标挖掘模型从所有用户中确定KOL用户。
上述两种方法在应用过程中,会出现以下问题:
(1)特征构建过程没有充分挖掘出与KOL用户强相关的特征,没有对各特征的特征值进行重要性衡量,忽略了某些特征值可能是区分KOL用户的重要影响因素。
(2)基于规则等方法构建用户社交关系网络方法可解释性较高,但对于不同的目标人群挖掘需要重新指定规则,通用性不高,模型泛化性能较低。
(3)基于神经网络构建用户关系链方法需要构建庞大的网络和复杂的节点关系,随着节点数和节点连线的增加,训练神经网络模型过程非常耗时。
鉴于以上方法存在的各种问题,本发明实施例提供一种KOL用户挖掘方法,本发明实施例相比于相关技术至少存在以下优势:
(1)本发明实施例通过构建KOL用户样本库,基于前缀投影的序列模式挖掘(Prefixspan)算法挖掘用户基础属性和行为属性序列,发现KOL用户群体在序列模式上更具代表性和普遍意义的特性,更好地构建KOL用户强相关特征。
(2)本发明实施例将基于序列模式挖掘得到的特征进行衍生,并且搭建基于这部分特征的集成学习算法模型(即上述的集成学习模型),充分利用与KOL分类强关联因素进行学习,模型泛化能力更高。
(3)本发明实施例解决了相关技术中无法对用户特征值和行为特征值进行重要性量化和进一步分析处理的技术问题,极大程度地减少了噪音特征的影响,提高模型预测的准确率。
参见图7,图7是本发明实施例提供的基于人工智能的焦点用户挖掘方法的流程示意图,将结合图7示出的步骤进行说明。
在步骤S601中,构建用户特征编码,建立KOL用户样本库(即上述的焦点用户集合)。
在一些实施例中,获取用户在社交产品和理财产品等相关数据,从基础属性维度和行为属性维度构建用户特征,包括:职位、年龄、性别、教育状况(学历)、最近N天(如7天、30天、90天等)内红包发送/接收次数、最近N天(如7天、30天、90天等)内转账与被转账次数、最近N天(如7天、30天、90天等)内信息收发人数、交易笔数、交易金额,理财产品历史申购赎回笔数、金额、最近一次申购/赎回时间、最近一次互动/交流时间、社交产品评论消息发表条数、发送接收信息比、关注与被关注人数占比、互动次数、受邀回答问题次数等。接下来进行数据预处理并构建用户特征编码,过程具体为:
(1)舍弃缺失值过多的特征:设定缺失值过滤阈值=样本数据量*G,G∈[0,1],G可设置为0.4,当某特征数据(即上述的特征值或特征取值)缺失的数量超过该阈值时,过滤该特征,同时删除单值特征。
(2)进行异常值(即上述的异常特征值)处理:根据特征分布,舍弃特征取值太大或排在前0.0001(即万分之一)的异常值。
(3)缺失值处理:连续型特征的缺失值用均值填充,离散型特征的缺失值用常数填充作为单独的类别。
(4)特征构造:连续型特征进行分箱离散化(分箱方法可根据用户特征字段在各区间的分布占比进行分箱,即等频分箱操作),将分箱离散化后的连续型特征和离散型特征进行类型编码。
通过以上步骤将用户特征按照各个字段的类型进行类型编码(详细过程参见步骤S101,将在此不再进行赘述),从而得到用户的特征编码序列表示。
在一些实施例中,建立KOL用户样本库的过程为:基于产品用户实际转化建立KOL用户样本库,通过数据转化维度召回一批基准的金融KOL用户作为分类样本标签,其中,数据转化维度包括:历史申购赎回次数、申购总金额、好友中理财产品用户关系占比、历史收益、产品评分等级等。对有理财产品数据的用户,基于以上转化维度计算得到样本的KOL评分,然后根据KOL评分召回一批KOL用户样本(即上述的样本焦点用户)。
在步骤S602中,基于序列模式挖掘算法,挖掘KOL用户特征编码频繁序列模式。
在一些实施例中,基于Prefixspan算法挖掘KOL用户特征编码矩阵中满足最小支持度阈值的各个长度的频繁序列模式。同时,使用多最小支持度策略,最小支持度阈值的计算方法如公式(3)所示。
Figure 495311DEST_PATH_IMAGE024
(3)
其中,e为焦点用户样本数量,f为最小支持率,最小支持率根据训练样本集的数量进行调整。同时,本发明实施例采取一种“滚雪球”的方法和思路,即,每一轮挖掘都设置较高的支持度,保证序列模式挖掘的准确性,通过多轮迭代挖掘提高序列模式挖掘的查全率。
序列模式挖掘算法的具体过程如下(更为详细的序列模式挖掘的过程参见步骤S102,将在此不再进行赘述):
(1)找出单位长度为1的用户特征编码序列前缀和对应投影数据集;
(2)统计用户特征编码序列前缀出现频率,并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集序列模式(即上述的频繁一项特征编码序列);
(3)对所有长度为i且满足最小支持度要求的前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
2)统计对应投影数据集中各项的最小支持度,将满足最小支持度阈值的各单项与当前缀合并,得到新前缀,若不满足最小支持度阈值则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第(3)步;
(4)返回该用户特征编码序列样本集中所有的频繁特征编码序列模式(即上述的频繁特征编码序列)。
本发明实施例通过序列模式挖掘可获得KOL用户群体普遍具备的共同特征。
在步骤S603中,对满足支持度要求的特征编码(即特征值)进行特征衍生(即上述的衍生处理)。
在一些实施例中,通过步骤S602可以从KOL用户人群特征编码序列中挖掘KOL用户样本频繁特征编码序列模式,步骤S603可以对挖掘所获得的特征值进行特征衍生,其中,衍生方式可以通过对原有的特征值进行转换,计算以及组合而产生的新的特征值,特征衍生的方式具体包括:
(1)单一变量进行基础转换,例如,对单一变量进行平方、开根号、或log转换等。
(2)添加时间维度进行衍生。
(3)多变量进行衍生,例如,变量相加,相乘或变量间计算比率后得到新变量。
(4)利用Xgboost树的路径组合特征。
在另一些实施例中,对序列模式的各项频繁前缀中都不出现的特征类型字段(即上述的不属于频繁特征编码序列的多个特征编码,以下称为非强相关特征)通过方差和相关性计算进行适当删减,过滤对区分KOL用户影响不够显著的因素,例如,当最小支持度阈值设置为0.5时,若某个字段的各种类型值的频次占比都小于该最小支持度阈值,则计算字段的方差和相关性。
基于最大区分度和最大相关度的原则,对非强相关特征进行排序打分衡量特征的重要性,输出一个有序特征序列(输出有序特征序列的详细过程参见步骤S107,将在此不再进行赘述)。根据特征数量选取该有序特征序列的排序靠前的W个特征,其中,W为整数,W的数值大小基于数据量和特征量设定。
在步骤S604中,搭建集成学习模型对强特征(即上述的强相关特征)进行学习。
在一些实施例中,将步骤S601中获得的KOL用户样本作为正样本,随机抽取与正样本相同数量的非KOL用户样本作为负样本,构建训练集。基于训练集,训练多个弱分类器(即上述的基分类模型);将训练完成的多个弱分类器通过集合策略进行整合,以获得集成学习模型。其中,弱分类器通过逻辑回归模型(LR,Logistic Regression)来构建。
在步骤S605中,基于集成学习模型进行KOL用户分类与预测。
在一些实施例中,基于步骤S601中步骤(1)至(3)对待识别用户的用户特征进行处理,同时过滤特征字段的各种类型值的频次占比都小于最小支持度阈值的特征;然后对过滤后的特征中的连续型特征进行离散化处理,并将离散化处理后的连续型特征和离散型特征进行One-Hot编码;最后基于步骤S604训练得到的集成学习模型,进行分类处理,以获得表征待识别用户是否是焦点用户的分类结果。
综上所述,本发明实施例具有以下有益效果:
1)通过序列模式挖掘焦点用户人群频繁特征编码序列模式,解决了相关技术构建特征比较粗糙的问题。
2)搭建基于样本焦点用户的强相关特征编码的集成学习模型,充分利用与焦点用户强关联的特征进行学习,使得模型泛化能力更高。并且采用集成学习模型,可以避免了采用神经网络导致训练复杂的问题,减少了训练的时间,从而提高了训练的效率。
3)对于后续筛选样本焦点用户的强相关特征进行过滤和填充,能够更好的构建焦点用户的强相关特征,从而可以提高后续基于强相关特征训练获得的分类模型识别焦点用户的准确性。
4)将连续型特征对应的特征值进行离散处理后再进行编码处理,可以减小训练分类模型的时间和空间开销,并且可以提高分类模型对样本的分类聚类能力和抗噪声能力,并且离散型特征相对于连续型特征更易理解,更加接近知识层面的表述,从而克服用户数据中隐藏的缺陷,使分类模型的训练结果更加稳定。
5)通过对频繁特征编码序列中的特征编码进行衍生处理,不仅可以提高特征编码的数量,还可以提高特征编码之间的粘性,从而可以避免训练获得的分类模型出现欠拟合和过拟合的问题。
6)根据样本用户的焦点评分选取样本焦点用户,可以保证训练样本中分类标签的准确性,从而提高判断待识别用户是否是焦点用户的准确性。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (12)

1.一种基于人工智能的焦点用户挖掘方法,其特征在于,所述方法包括:
针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;
在多个所述非强相关特征编码中,根据所述非强相关特征编码之间的相关度,选取部分所述非强相关特征编码以作为预备强相关特征编码;
基于所述焦点用户集合中每个样本焦点用户的所述强相关特征编码和所述预备强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列,包括:
在所述样本焦点用户的用户数据中,提取基础属性类型和行为属性类型的数据,并基于所提取的数据构建多个用户特征;
根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值;
将对应每个所述用户特征的特征值所查找到的编码值进行组合,以获得所述样本焦点用户的特征编码序列。
3.根据权利要求2所述的方法,其特征在于,在所述根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值之前,所述方法还包括:
对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作:
确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;
将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;
舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征中缺失的特征值进行特征值填充;
构造所述过滤后的特征、以及特征值填充后的特征值,以获得用于进行编码处理的用户特征。
4.根据权利要求1所述的方法,其特征在于,所述针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列,包括:
在不同样本焦点用户的多个特征编码序列中,多次选取特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;
其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;
在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。
5.根据权利要求1所述的方法,其特征在于,所述对所述频繁特征编码序列中的特征编码进行衍生处理,包括:
从所述频繁特征编码序列中提取多个特征编码;
将提取的多个特征编码进行以下至少之一的处理:
将所述多个特征编码中的单一变量进行基础转换;
将所述多个特征编码中的多变量进行组合;
在所述多个特征编码中添加时间维度以进行衍生;
根据决策树的路径,将所述多个特征编码进行组合。
6.根据权利要求1所述的方法,其特征在于,
所述分类模型包括多个基分类模型;
所述基于所述焦点用户集合中每个样本焦点用户的所述强相关特征编码和所述预备强相关特征编码训练分类模型,包括:
将所述焦点用户集合中每个样本焦点用户的所述强相关特征编码、所述预备强相关特征编码和焦点用户标签构成训练样本;
基于构造的多个训练样本,训练所述多个基分类模型;
将训练完成的多个基分类模型通过集合策略进行整合,以获得所述分类模型。
7.根据权利要求1所述的方法,其特征在于,
所述分类模型包括多个基分类模型;
所述基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果,包括:
获取所述待识别用户的用户数据;
从所述待识别用户的用户数据中提取所述待识别用户的特征;
通过所述多个基分类模型,分别基于所述待识别用户的特征进行分类处理,以获得每个基分类模型的分类结果;
将多个分类结果通过集合策略进行整合,以获得表征所述待识别用户是否是焦点用户的分类结果。
8.根据权利要求1至7任一项所述的方法,其特征在于,在所述针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列之前,所述方法还包括:
获取多个样本用户的用户数据;
根据数据转化维度,将所述多个样本用户的用户数据进行标准化处理,以获得每个样本用户的焦点评分,其中,所述焦点评分表征所述样本用户是样本焦点用户的概率;
根据所述多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户;
其中,所述根据所述多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户,包括以下至少之一:
在所述多个样本用户中,选取焦点评分高于焦点评分阈值的部分样本用户以作为样本焦点用户;
根据所述多个样本用户的焦点评分,将所述多个样本用户进行降序排序,并选取排序在前的、且数量为样本数量阈值的部分样本用户以作为样本焦点用户。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述在多个所述非强相关特征编码中,根据所述非强相关特征编码之间的相关度,选取部分所述非强相关特征编码以作为预备强相关特征编码,包括:
确定所述多个非强相关特征编码的方差,并将方差低于方差阈值的非强相关特征编码进行过滤;
将过滤后的非强相关特征编码进行组合,以获得非强相关特征编码集合;
确定所述非强相关特征编码集合中任意两个非强相关特征编码之间的特征相关度;
根据所述任意两个非强相关特征编码之间的特征相关度,确定所述非强相关特征编码集合中的每一个非强相关特征编码与所述非强相关特征编码集合的平均相关度;
根据所述平均相关度,将所述非强相关特征编码集合中的非强相关特征编码进行降序排序,并选取排序在前的部分非强相关特征编码以作为预备强相关特征编码。
10.一种基于人工智能的焦点用户挖掘装置,其特征在于,所述装置包括:
编码模块,用于针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
选取模块,用于针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
衍生模块,用于对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;在多个所述非强相关特征编码中,根据所述非强相关特征编码之间的相关度,选取部分所述非强相关特征编码以作为预备强相关特征编码;
识别模块,用于基于所述焦点用户集合中每个样本焦点用户的所述强相关特征编码和所述预备强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。
11.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令被执行时用于实现权利要求1至9任一项所述的基于人工智能的焦点用户挖掘方法。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至9任一项所述的基于人工智能的焦点用户挖掘方法。
CN202010555168.4A 2020-06-17 2020-06-17 基于人工智能的焦点用户挖掘方法和装置 Active CN111460323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555168.4A CN111460323B (zh) 2020-06-17 2020-06-17 基于人工智能的焦点用户挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555168.4A CN111460323B (zh) 2020-06-17 2020-06-17 基于人工智能的焦点用户挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN111460323A CN111460323A (zh) 2020-07-28
CN111460323B true CN111460323B (zh) 2020-09-25

Family

ID=71682039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555168.4A Active CN111460323B (zh) 2020-06-17 2020-06-17 基于人工智能的焦点用户挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN111460323B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016961A (zh) * 2020-08-26 2020-12-01 北京字节跳动网络技术有限公司 推送方法、装置、电子设备和计算机可读存储介质
CN112035611B (zh) * 2020-08-28 2023-05-30 康键信息技术(深圳)有限公司 目标用户推荐方法、装置、计算机设备和存储介质
CN114090962B (zh) * 2022-01-24 2022-05-13 湖北长江传媒数字出版有限公司 一种基于大数据的智能出版系统及方法
CN117439146B (zh) * 2023-12-06 2024-03-19 广东车卫士信息科技有限公司 充电桩的数据分析控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886243A (zh) * 2017-11-10 2018-04-06 阿里巴巴集团控股有限公司 风险识别模型构建和风险识别方法、装置及设备
CN109597844A (zh) * 2019-01-31 2019-04-09 中科人工智能创新技术研究院(青岛)有限公司 基于深度神经网络与图网络的核心用户挖掘方法及系统
CN109977151A (zh) * 2019-03-28 2019-07-05 北京九章云极科技有限公司 一种数据分析方法及系统
CN110555172A (zh) * 2019-08-30 2019-12-10 京东数字科技控股有限公司 用户关系挖掘方法及装置、电子设备和存储介质
CN111048165A (zh) * 2019-12-09 2020-04-21 天津开心生活科技有限公司 试验样本的确定方法及装置、计算机介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019588A1 (en) * 2013-07-11 2015-01-15 Drexel University Identifying Implicit Relationships Between Social Media Users To Support Social Commerce

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886243A (zh) * 2017-11-10 2018-04-06 阿里巴巴集团控股有限公司 风险识别模型构建和风险识别方法、装置及设备
CN109597844A (zh) * 2019-01-31 2019-04-09 中科人工智能创新技术研究院(青岛)有限公司 基于深度神经网络与图网络的核心用户挖掘方法及系统
CN109977151A (zh) * 2019-03-28 2019-07-05 北京九章云极科技有限公司 一种数据分析方法及系统
CN110555172A (zh) * 2019-08-30 2019-12-10 京东数字科技控股有限公司 用户关系挖掘方法及装置、电子设备和存储介质
CN111048165A (zh) * 2019-12-09 2020-04-21 天津开心生活科技有限公司 试验样本的确定方法及装置、计算机介质和电子设备

Also Published As

Publication number Publication date
CN111460323A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460323B (zh) 基于人工智能的焦点用户挖掘方法和装置
Jia et al. Efficient task-specific data valuation for nearest neighbor algorithms
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
Shahbazi et al. Fake media detection based on natural language processing and blockchain approaches
CN111709714A (zh) 基于人工智能的流失人员预测方法和装置
CN111367965B (zh) 目标对象确定方法、装置、电子设备及存储介质
Chambers et al. Improved secondary analysis of linked data: a framework and an illustration
Feng et al. Computational social indicators: a case study of chinese university ranking
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
Strotmann et al. Author name disambiguation for collaboration network analysis and visualization
CN111581193A (zh) 数据处理方法、设备、计算机系统及存储介质
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
US20240086731A1 (en) Knowledge-graph extrapolating method and system based on multi-layer perception
CN114579584A (zh) 数据表处理方法、装置、计算机设备和存储介质
Robnik-Šikonja Dataset comparison workflows
Leal et al. Stream-based explainable recommendations via blockchain profiling
CN109408643B (zh) 基金相似度计算方法、系统、计算机设备和存储介质
Bhat et al. OCMiner: a density-based overlapping community detection method for social networks
CN112861009A (zh) 基于人工智能的媒体账号推荐方法、装置及电子设备
Liang et al. Optimization of basic clustering for ensemble clustering: an information-theoretic perspective
Sahoo Study of parametric performance evaluation of machine learning and statistical classifiers
Evans et al. Differentially private survey research
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN113656692B (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
Liu et al. A Clustering Algorithm via Density Perception and Hierarchical Aggregation Based on Urban Multimodal Big Data for Identifying and Analyzing Categories of Poverty‐Stricken Households in China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant