CN116342164A - 目标用户群体的定位方法、装置、电子设备及存储介质 - Google Patents

目标用户群体的定位方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116342164A
CN116342164A CN202310343999.9A CN202310343999A CN116342164A CN 116342164 A CN116342164 A CN 116342164A CN 202310343999 A CN202310343999 A CN 202310343999A CN 116342164 A CN116342164 A CN 116342164A
Authority
CN
China
Prior art keywords
target
group data
guest group
rule
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310343999.9A
Other languages
English (en)
Inventor
刘昊骋
许林丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310343999.9A priority Critical patent/CN116342164A/zh
Publication of CN116342164A publication Critical patent/CN116342164A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种目标用户群体的定位方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及大数据领域。具体实现方案为:从目标存储器获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;利用目标规则簇确定目标客群数据中的目标用户群体。

Description

目标用户群体的定位方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,进一步涉及大数据领域,尤其涉及一种目标用户群体的定位方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,互联网智能营销传播越来越受到企业的重视和深入应用。互联网平台在对用户进行精准营销时,首先需要将用户进行价值层级的划分,例如可以将用户划分为高价值、中价值和低价值等3种不同的客群,从而针对不同客群推荐不同产品。然而,当互联网平台既不存在用于标识用户的价值层级的标签,也不存在用于生成该标签的历史营销数据时,则会出现由于缺少目标样本而导致的冷启动问题。相关技术中一般可以基于业务专家规则,人工产出客群,但在这种方式下,由于不同专家规则的差异较大,从而导致对用户进行价值层级划分时的准确度低下。
发明内容
本公开提供了一种目标用户群体的定位方法、装置、电子设备及存储介质,以至少解决相关技术中由于利用业务专家规则人工产出客群而导致对用户进行价值层级划分时的准确度低下的技术问题。
根据本公开的一方面,提供了一种目标用户群体的定位方法,包括:从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;利用目标规则簇确定目标客群数据中的目标用户群体。
根据本公开的又一方面,提供了一种目标用户群体的定位装置,包括:获取模块,用于从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;对齐模块,用于对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;生成模块,用于调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;确定模块,用于利用目标规则簇确定目标客群数据中的目标用户群体。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的目标用户群体的定位方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的目标用户群体的定位方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的目标用户群体的定位方法。
在本公开中,通过从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,进而对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,随后调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,最后利用目标规则簇确定目标客群数据中的目标用户群体,达到了高效准确地确定冷启动样本中的目标用户群体的目的,实现了提高对用户进行价值层级划分时的准确度的效果,从而解决了相关技术中由于利用业务专家规则人工产出客群而导致对用户进行价值层级划分时的准确度低下的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的一种目标用户群体的定位方法流程图;
图2是根据本公开实施例的又一种目标用户群体的定位方法流程图;
图3是根据本公开实施例的一种目标用户群体的定位装置的结构框图;
图4是根据本公开实施例的一种用于实现目标用户群体的定位方法的计算机终端(或移动设备)的硬件结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的一种目标用户群体的定位方法流程图,如图1所示,该方法可以包括如下步骤:
步骤S11,从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;
上述目标场景可以为智能营销场景,需要说明的是,本公开实施例可以但不限于应用于健康、科学、社会、语言和艺术等领域中任何涉及智能营销的场景下。
上述目标存储器包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器、光纤、便捷式紧凑盘只读存储器、光学储存设备、磁储存设备、或上述内容的任何合适组合,本公开实施例不予限制。目标存储器可以将部署于本地或者云端的服务器中的客群数据进行存储,以作为本公开实施例的客群数据获取来源。
示例性的,本公开实施例中的目标用户群体的定位方法能够应用在营销推荐场景下,由于缺少历史营销数据导致的冷启动问题。下面以具体举例介绍上述冷启动问题,某互联网平台需要对用户做精准营销,将用户分为高价值、中价值和低价值3种不同的客群,从而针对不同客群推荐不同产品,但该互联网平台没有标签用于标识用户的价值层级,也没有历史数据用于生成标识价值层级,这就是冷启动的含义,冷启动过程中需要处理数据为冷启动样本。
上述目标客群数据为冷启动样本中的部分或者全部客群数据,其中,冷启动样本中不存在任何用于智能营销的第一标签,利用第一标签能够对目标客群数据进行价值类别划分,从而输出不同价值类别的客群,如高价值客群、中价值客群和低价值客群。以互联网平台中的智能营销场景为例,目标客群数据中包含有互联网平台的部分或者全部用户以及该用户所对应的多个特征。例如,当互联网平台为银行平台时,目标客群数据可以为使用银行A的应用程序(Application,APP)客户端的所有用户对应的客群数据,每位用户对应的目标客群数据中可以包括该用户的年龄、学历和行业等基础特征。
上述辅助客群数据是与目标客群数据具有相同应用场景的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值。例如,当目标客群数据的应用场景为金融营销场景时,辅助客群数据也同为金融营销场景下具有部分营销标签的客群数据。具体的,当第一标签用于标识目标客群数据中的高价值客群时,利用辅助客群数据可以确定高价值客群对应的年龄、学历以及行业等特征的取值情况。例如,当互联网平台为银行平台时,目标客群数据可以为使用银行A的APP客户端的所有用户对应的客群数据,每位用户对应的目标客群数据中可以包括该用户的年龄、学历和行业等基础特征,辅助客群数据可以为使用银行B的APP客户端的所有用户对应的客群数据,每位用户对应的辅助客群数据中可以包括该用户的收入、年龄、学历、行业、安装APP列表、兴趣标签等特征。
步骤S12,对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;
继续以目标客群数据为银行A的APP用户对应的客群数据、辅助客群数据为银行B的APP用户对应的客群数据为例,目标客群数据中还包含用户的年龄、学历和行业等特征,辅助客群数据中还包含用户的收入、年龄、学历、行业、安装APP列表、兴趣标签等特征,对目标客群数据和辅助客群数据进行特征对齐后,得到的目标特征列表中包含有年龄、学历和行业等特征。
步骤S13,调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;
上述目标处理器包括但不限于微处理器或可编程逻辑器件等的处理装置,目标处理器的数量可以为一个或者多个,本公开不予限制。
应当注意到的是,上述一个或多个目标处理器和/或其他数据处理电路在本公开中通常还可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制,例如与接口连接的可变电阻终端路径的选择。
步骤S14,利用目标规则簇确定目标客群数据中的目标用户群体。
具体的,上述目标客户群体可以为高价值客群。
根据本公开上述步骤S11至步骤S14,通过从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,进而对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,随后调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,最后利用目标规则簇确定目标客群数据中的目标用户群体,达到了高效准确地确定冷启动样本中的目标用户群体的目的,实现了提高对用户进行价值层级划分时的准确度的效果,从而解决了相关技术中由于利用业务专家规则人工产出客群而导致对用户进行价值层级划分时的准确度低下的技术问题。
下面对上述实施例的目标用户群体的定位方法进行进一步介绍。
作为一种可选的实施方式,在步骤S13,调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇包括:
步骤S131,确定与第一标签相关联的第二标签,其中,第二标签用于标识辅助客群数据的价值类别;
步骤S132,以第二标签为目标,利用目标特征列表对初始规则模型进行预训练,得到目标规则模型;
步骤S133,对目标规则模型进行解析,得到目标规则簇。
具体的,上述第二标签是与第一标签相关性较强的标签。继续以目标客群数据为银行A的APP用户对应的客群数据、辅助客群数据为银行B的APP用户对应的客群数据为例,当第一标签用于表示目标客群数据的价值类别为高价值客群时,高价值客群和收入水平相关,因而第二标签可以用于标识辅助客群数据中的高收入客群。通过统计辅助客群数据的样本收入分布,取收入分布的前5%作为高收入客群,对应高价值客群,剩余95%的样本则为普通客群。
进一步的,以第二标签为目标,利用目标特征列表对初始规则模型进行预训练,得到目标规则模型。其中,初始规则模型可以但不限于为随机森林模型、优化的分布式梯度增强库模型(xgboost)、基于决策树算法的分布式梯度提升框架模型(Light GradientBoosting Machine,lightgbm)。具体的,随机森林模型会在原始数据集中随机抽样,构成n个不同的样本数据集,然后根据这些数据集搭建n个不同的决策树模型,最后根据这些决策树模型的投票情况来获得最终的分类结果;xgboost是一个梯度提升树系统,能够高效、灵活和便捷实现数据处理,并且可以兼容中小型数据集,实现数据的并行处理,并在每次迭代后运行交叉验证;lightgbm是一个分布式高性能框架,它使用决策树处理排名、分类和回归任务。对预训练得到的目标规则模型进行解析,可以得到目标规则簇。
基于上述可选实施方式,通过确定与第一标签相关联的第二标签,进而以第二标签为目标,利用目标特征列表对初始规则模型进行预训练,得到目标规则模型,最后对目标规则模型进行解析,从而能够快速获取目标规则簇,以在冷启动样本中准确定位高价值客群。
作为一种可选的实施方式,在步骤S131,确定与第一标签相关联的第二标签包括:
步骤S1311,从目标关联数据中获取与第一标签相关联的多个第三标签;
步骤S1312,计算多个第三标签与第一标签之间的目标参数,其中,目标参数用于表示多个第三标签与第一标签之间的相关程度;
步骤S1313,基于目标参数从多个第三标签中选取第二标签。
上述目标关联数据可以为智能营销场景中的第三方数据,从第三方数据中可以确定与第一标签相关联的第二标签。具体的,查询第三方数据中和第一标签同时出现的多个第三标签,计算每个第三标签和第一标签之间的目标参数,其中,上述目标参数可以但不限于为皮尔逊(pearson)相关系数、余弦相似度、信息散度(Kullback-Leibler,KL),其中,上述pearson系数用于度量上述第三标签与第一标签之间的线性相关情况,其取值范围介于-1与1之间;上述余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估两者之间的相似度,余弦相似度通常用于正空间,因此其取值范围介于-1与1之间;KL散度又称为相对熵,在信息理论中,相对熵等价于两个概率分布的信息熵的差值。进一步的,基于目标参数确定与第一标签相关程度最高的第三标签,并将该第三标签确定为第二标签。
基于上述可选实施方式,通过从目标关联数据中获取与第一标签相关联的多个第三标签,进而计算多个第三标签与第一标签之间的目标参数,最后能够基于目标参数从多个第三标签中选取第二标签,从而快速确定初始规则模型的预训练目标。
作为一种可选的实施方式,目标规则模型为树结构模型,树结构模型包括至少一个根节点和至少一个叶子节点,在步骤S133,对目标规则模型进行解析,得到目标规则簇包括:
步骤S1331,遍历根节点至叶子节点之间的路径,得到多个候选规则;
步骤S1332,计算多个候选规则对应的证据权重;
步骤S1333,响应于候选规则的证据权重大于预设数值,将候选规则确定为目标规则;
步骤S1334,利用目标规则生成目标规则簇。
具体的,目标规则模型为树结构模型,对树结构模型进行解析,可以得到每棵树从根节点到叶子节点之间的路径,一条路径就对应一个候选规则。计算每个候选规则的证据权重(Weight of Evidence,WOE),其中,WOE的数值越大,表征这个候选规则越重要、越关键。进一步的,选取WOE大于0的候选规则作为目标规则,即目标规则为生成高价值客群的规则,利用所有目标规则组成最终的目标规则簇。
基于上述可选实施方式,通过遍历根节点至叶子节点之间的路径,得到多个候选规则,进而计算多个候选规则对应的证据权重,随后响应于候选规则的证据权重大于预设数值,将候选规则确定为目标规则,最后利用目标规则快速生成目标规则簇,以在冷启动样本中准确定位高价值客群。
作为一种可选的实施方式,在步骤S12,对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表包括:
步骤S121,利用预设规则对辅助客群数据进行筛选,得到筛选结果;
步骤S122,基于目标客群数据和筛选结果进行特征对齐,得到目标特征列表。
具体的,可以根据人工经验从辅助客群数据中筛选出与目标客群数据具有相同特征中的客群数据,以作为筛选结果。继续以目标客群数据为银行A的APP用户对应的客群数据、辅助客群数据为银行B的APP用户对应的客群数据为例,目标客群数据中还包含用户的年龄、学历和行业等特征,辅助客群数据中还包含用户的收入、年龄、学历、行业、安装APP列表、兴趣标签等特征,从辅助客群数据的安装APP列表中,筛选获得安装银行A的APP的筛选结果,并将其余样本抛弃。基于目标客群数据和筛选结果进行特征对齐后,得到的目标特征列表中包含有目标客群数据和辅助客群数据的相同特征:年龄、学历、行业。
基于上述可选实施方式,通过利用预设规则对辅助客群数据进行筛选,得到筛选结果,进而基于目标客群数据和筛选结果进行特征对齐,能够快速获取目标特征列表,从而高效进行树结构模型的预训练。
作为一种可选的实施方式,在步骤S14,利用目标规则簇确定目标客群数据中的目标用户群体包括:基于目标规则簇中的至少一个目标特征值与目标客群数据进行特征匹配,确定目标用户群体。
继续以目标客群数据为银行A的APP用户、辅助客群数据为银行B的APP用户为例,目标规则簇中的每条目标规则中包含有至少一个目标特征值,如目标规则1:学历:硕士及以上;年龄:30~38;行业:金融。利用目标规则1中的目标特征值与目标客群数据进行匹配,从而可以确定目标客群数据中的高价值客群。
图2是根据本公开实施例的又一种目标用户群体的定位方法流程图,如图2所示,该方法可以包括如下步骤:
步骤S201,从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;
步骤S202,利用预设规则对辅助客群数据进行筛选,得到筛选结果;
步骤S203,基于目标客群数据和筛选结果进行特征对齐,得到目标特征列表;
步骤S204,从目标关联数据中获取与第一标签相关联的多个第三标签;
步骤S205,计算多个第三标签与第一标签之间的目标参数,其中,目标参数用于表示多个第三标签与第一标签之间的相关程度;
步骤S206,基于目标参数从多个第三标签中选取第二标签;
步骤S207,以第二标签为目标,利用目标特征列表对初始规则模型进行预训练,得到目标规则模型;
步骤S208,遍历根节点至叶子节点之间的路径,得到多个候选规则;
步骤S209,计算多个候选规则对应的证据权重;
步骤S210,响应于候选规则的证据权重大于预设数值,将候选规则确定为目标规则;
步骤S211,利用目标规则生成目标规则簇;
步骤S212,基于目标规则簇中的至少一个目标特征值与目标客群数据进行特征匹配,确定目标用户群体。
具体的,下面以目标客群数据为样本A,辅助客群数据为样本B为例本公开实施的目标用户群体的定位方法。其中,样本A为冷启动样本,即没有任何标签用于营销,样本B有部分标签可用于间接生成营销客群标签。本公开实施例能够通过样本B生成营销规则,迁移至样本A,从而辅助样本A生成营销客群标签,具体实现流程如下:
首先基于规则从样本B中筛选出和样本A相似的样本,进而基于筛选出的结果与样本A特征对齐,由此可以获得样本A和样本B中共有的特征,即得到目标特征列表,目标特征列表中包括K个特征:X1,X2,…,XK。
随后进行目标变量映射,具体的,假定样本A中用于划分客群的第一标签为L,第一标签L具有有N个取值,分别为L1,L2,…,LN,样本B没有第一标签L,但有和L强相关的第二标签M,因而可以利用第二标签M替代第一标签L进行树结构模型的预训练。
进一步实现自动生成规则,具体的,在样本B上以第二标签M为目标,取特征X1,X2,…,XK,使用树结构模型做预训练,得到目标规则模型,对目标规则模型进行解析,即可生成目标规则簇。
最后进行规则平移,具体的,基于目标规则簇中的至少一个目标特征值与样本A进行特征匹配,确定高价值客群。
基于上述步骤S201至步骤S212,通过获取目标场景中的目标客群数据和辅助客群数据,进而对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,随后基于目标特征列表在辅助客群数据中生成目标规则簇,最后利用目标规则簇确定目标客群数据中的目标用户群体,达到了高效准确地确定冷启动样本中的目标用户群体的目的,实现了提高对用户进行价值层级划分时的准确度的效果,从而解决了相关技术中由于利用业务专家规则人工产出客群而导致对用户进行价值层级划分时的准确度低下的技术问题。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
在本公开中还提供了一种目标用户群体的定位装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本公开实施例的一种目标用户群体的定位装置的结构框图,如图3所示,一种目标用户群体的定位装置300包括:
获取模块301,用于从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;
对齐模块302,用于对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;
生成模块303,用于调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;
确定模块304,用于利用目标规则簇确定目标客群数据中的目标用户群体。
可选地,生成模块303还用于:确定与第一标签相关联的第二标签,其中,第二标签用于标识辅助客群数据的价值类别;以第二标签为目标,利用目标特征列表对初始规则模型进行预训练,得到目标规则模型;对目标规则模型进行解析,得到目标规则簇。
可选地,生成模块303还用于:从目标关联数据中获取与第一标签相关联的多个第三标签;计算多个第三标签与第一标签之间的目标参数,其中,目标参数用于表示多个第三标签与第一标签之间的相关程度;基于目标参数从多个第三标签中选取第二标签。
可选地,目标规则模型为树结构模型,树结构模型包括至少一个根节点和至少一个叶子节点,生成模块303还用于:遍历根节点至叶子节点之间的路径,得到多个候选规则;计算多个候选规则对应的证据权重;响应于候选规则的证据权重大于预设数值,将候选规则确定为目标规则;利用目标规则生成目标规则簇。
可选地,对齐模块302还用于:利用预设规则对辅助客群数据进行筛选,得到筛选结果;基于目标客群数据和筛选结果进行特征对齐,得到目标特征列表。
可选地,确定模块304还用于:基于目标规则簇中的至少一个目标特征值与目标客群数据进行特征匹配,确定目标用户群体。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本公开的实施例,本公开还提供了一种电子设备,包括存储器和至少一个处理器,该存储器中存储有计算机指令,该处理器被设置为运行计算机指令以执行上述方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本公开中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;
S2,对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;
S3,调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;
S4,利用目标规则簇确定目标客群数据中的目标用户群体。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
图4是根据本公开实施例的一种用于实现目标用户群体的定位方法的计算机终端(或移动设备)的硬件结构框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如目标用户群体的定位方法。例如,在一些实施例中,目标用户群体的定位方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的目标用户群体的定位方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标用户群体的定位方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质中存储有计算机指令,其中,该计算机指令被设置为运行时执行上述方法实施例中的步骤。
可选地,在本实施例中,上述非瞬时计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,目标客群数据为待划分价值类别的客群数据,辅助客群数据用于确定第一标签对应的至少一个目标特征值,第一标签用于标识目标客群数据的价值类别;
S2,对目标客群数据和辅助客群数据进行特征对齐,得到目标特征列表,其中,目标特征列表用于记录目标客群数据与辅助客群数据中相同的特征;
S3,调用目标处理器基于目标特征列表在辅助客群数据中生成目标规则簇,其中,目标规则簇包括至少一个目标特征值;
S4,利用目标规则簇确定目标客群数据中的目标用户群体。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的实施例,本公开还提供了一种计算机程序产品。用于实施本公开方法实施例的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种目标用户群体的定位方法,包括:
从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,所述目标客群数据为待划分价值类别的客群数据,所述辅助客群数据用于确定第一标签对应的至少一个目标特征值,所述第一标签用于标识所述目标客群数据的所述价值类别;
对所述目标客群数据和所述辅助客群数据进行特征对齐,得到目标特征列表,其中,所述目标特征列表用于记录所述目标客群数据与所述辅助客群数据中相同的特征;
调用目标处理器基于所述目标特征列表在所述辅助客群数据中生成目标规则簇,其中,所述目标规则簇包括所述至少一个目标特征值;
利用所述目标规则簇确定所述目标客群数据中的目标用户群体。
2.根据权利要求1所述的目标用户群体的定位方法,其中,调用目标处理器基于所述目标特征列表在所述辅助客群数据中生成目标规则簇包括:
确定与所述第一标签相关联的第二标签,其中,所述第二标签用于标识所述辅助客群数据的所述价值类别;
以所述第二标签为目标,利用所述目标特征列表对初始规则模型进行预训练,得到目标规则模型;
对所述目标规则模型进行解析,得到所述目标规则簇。
3.根据权利要求2所述的目标用户群体的定位方法,其中,确定与所述第一标签相关联的第二标签包括:
从目标关联数据中获取与所述第一标签相关联的多个第三标签;
计算所述多个第三标签与所述第一标签之间的目标参数,其中,所述目标参数用于表示所述多个第三标签与所述第一标签之间的相关程度;
基于所述目标参数从所述多个第三标签中选取所述第二标签。
4.根据权利要求2所述的目标用户群体的定位方法,其中,所述目标规则模型为树结构模型,所述树结构模型包括至少一个根节点和至少一个叶子节点,对所述目标规则模型进行解析,得到所述目标规则簇包括:
遍历所述根节点至所述叶子节点之间的路径,得到多个候选规则;
计算所述多个候选规则对应的证据权重;
响应于所述候选规则的所述证据权重大于预设数值,将所述候选规则确定为目标规则;
利用所述目标规则生成所述目标规则簇。
5.根据权利要求1所述的目标用户群体的定位方法,其中,对所述目标客群数据和所述辅助客群数据进行特征对齐,得到目标特征列表包括:
利用预设规则对所述辅助客群数据进行筛选,得到筛选结果;
基于所述目标客群数据和所述筛选结果进行特征对齐,得到所述目标特征列表。
6.根据权利要求1所述的目标用户群体的定位方法,其中,利用所述目标规则簇确定所述目标客群数据中的目标用户群体包括:
基于所述目标规则簇中的所述至少一个目标特征值与所述目标客群数据进行特征匹配,确定所述目标用户群体。
7.一种目标用户群体的定位装置,包括:
获取模块,用于从目标存储器中获取目标场景中的目标客群数据和辅助客群数据,其中,所述目标客群数据为待划分价值类别的客群数据,所述辅助客群数据用于确定第一标签对应的至少一个目标特征值,所述第一标签用于标识所述目标客群数据的所述价值类别;
对齐模块,用于对所述目标客群数据和所述辅助客群数据进行特征对齐,得到目标特征列表,其中,所述目标特征列表用于记录所述目标客群数据与所述辅助客群数据中相同的特征;
生成模块,用于调用目标处理器基于所述目标特征列表在所述辅助客群数据中生成目标规则簇,其中,所述目标规则簇包括所述至少一个目标特征值;
确定模块,用于利用所述目标规则簇确定所述目标客群数据中的目标用户群体。
8.根据权利要求7所述的目标用户群体的定位装置,其中,所述生成模块还用于:
确定与所述第一标签相关联的第二标签,其中,所述第二标签用于标识所述辅助客群数据的所述价值类别;
以所述第二标签为目标,利用所述目标特征列表对初始规则模型进行预训练,得到目标规则模型;
对所述目标规则模型进行解析,得到所述目标规则簇。
9.根据权利要求8所述的目标用户群体的定位装置,其中,所述生成模块还用于:
从目标关联数据中获取与所述第一标签相关联的多个第三标签;
计算所述多个第三标签与所述第一标签之间的目标参数,其中,所述目标参数用于表示所述多个第三标签与所述第一标签之间的相关程度;
基于所述目标参数从所述多个第三标签中选取所述第二标签。
10.根据权利要求8所述的目标用户群体的定位装置,其中,所述目标规则模型为树结构模型,所述树结构模型包括至少一个根节点和至少一个叶子节点,所述生成模块还用于:
遍历所述根节点至所述叶子节点之间的路径,得到多个候选规则;
计算所述多个候选规则对应的证据权重;
响应于所述候选规则的所述证据权重大于预设数值,将所述候选规则确定为目标规则;
利用所述目标规则生成所述目标规则簇。
11.根据权利要求7所述的目标用户群体的定位装置,其中,所述对齐模块还用于:
利用预设规则对所述辅助客群数据进行筛选,得到筛选结果;
基于所述目标客群数据和所述筛选结果进行特征对齐,得到所述目标特征列表。
12.根据权利要求7所述的目标用户群体的定位装置,其中,所述确定模块还用于:
基于所述目标规则簇中的所述至少一个目标特征值与所述目标客群数据进行特征匹配,确定所述目标用户群体。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202310343999.9A 2023-03-31 2023-03-31 目标用户群体的定位方法、装置、电子设备及存储介质 Pending CN116342164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310343999.9A CN116342164A (zh) 2023-03-31 2023-03-31 目标用户群体的定位方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310343999.9A CN116342164A (zh) 2023-03-31 2023-03-31 目标用户群体的定位方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116342164A true CN116342164A (zh) 2023-06-27

Family

ID=86894750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310343999.9A Pending CN116342164A (zh) 2023-03-31 2023-03-31 目标用户群体的定位方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116342164A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538020A (zh) * 2021-07-05 2021-10-22 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538020A (zh) * 2021-07-05 2021-10-22 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置
CN113538020B (zh) * 2021-07-05 2024-03-26 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置

Similar Documents

Publication Publication Date Title
CN113222942A (zh) 多标签分类模型的训练方法和预测标签的方法
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN107291774B (zh) 错误样本识别方法和装置
CN116342164A (zh) 目标用户群体的定位方法、装置、电子设备及存储介质
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN114896291A (zh) 多智能体模型的训练方法和排序方法
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
US20230230081A1 (en) Account identification method, apparatus, electronic device and computer readable medium
US10922324B2 (en) Identifying and scoring data values
CN113850077A (zh) 基于人工智能的话题识别方法、装置、服务器及介质
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
CN112231299A (zh) 一种特征库动态调整的方法和装置
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN115601042A (zh) 信息识别方法、装置、电子设备及存储介质
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质
CN114417822A (zh) 用于生成模型解释信息的方法、装置、设备、介质和产品
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112633381A (zh) 音频识别的方法及音频识别模型的训练方法
CN113313049A (zh) 超参数的确定方法、装置、设备、存储介质以及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination