CN116595342A

CN116595342A - 人群圈选的方法、装置和设备及存储介质

Info

Publication number: CN116595342A
Application number: CN202310834417.7A
Authority: CN
Inventors: 何昌华; 张国贤; 张磊
Original assignee: Beijing Shuding Technology Co ltd
Current assignee: Beijing Shuding Technology Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-08-15
Anticipated expiration: 2043-07-07
Also published as: CN116595342B

Abstract

本申请实施例提供了一种人群圈选的方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域。该方法包括：通过将第一信息输入提示词工程，构造第一数据，其中，所述第一信息与运营问题相关，第一数据包括：问题特征、用户特征和数据特征；将所述第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度；根据所述第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。本申请实施例实现了提高人群包圈选的准确性和效率的目的。

Description

人群圈选的方法、装置和设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种人群圈选的方法、装置、电子设备及计算机可读存储介质。

背景技术

现有的人群包圈选通常需要大量的人力和时间来进行手动筛选，不仅费时费力，还容易产生误差和遗漏，从而导致人群包圈选的不精准和低效率。

发明内容

本申请实施例提供了一种人群圈选的方法、装置、电子设备及计算机可读存储介质，用于解决人群包圈选的准确性和效率低的技术问题。

根据本申请实施例的一个方面，提供了一种人群圈选的方法，该方法包括：

通过将第一信息输入提示词工程，构造第一数据，其中，所述第一信息与运营问题相关，第一数据包括：问题特征、用户特征和数据特征；

将所述第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度；

根据所述第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。

在一个可能的实现方式中，将所述第一数据输入预训练的LLM中，得到第一指标和相应的维度，包括：

将所述第一数据输入所述LLM中，得到第二指标并进行展示；

根据第一指令，确定所述第一指标，所述第一指令用于指示调整所述第二指标以得到所述第一指标；

根据所述第一指标在提示词工程中构造第二数据并输入所述LLM，得到相应的维度。

在另一个可能的实现方式中，还包括：

显示第二信息，所述第二信息包括所述第一指标和维度所表征的物理含义，和/或，选择所述第一指标的原因。

在又一个可能的实现方式中，还包括：

根据所述人群包中用户ID关联的第三信息，建立静态物化视图，其中，所述第三信息包括用户画像和用户行为数据。

在又一个可能的实现方式中，还包括：

根据所述静态物化视图，得到用于体现所述人群包的显著性特征的图表并进行展示。

在又一个可能的实现方式中，根据第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包，包括：

若所述第一指标为一个，基于贪心算法将该第一指标的维度对应的数据的所有组合确定为子人群；

利用预计算cube对每个子人群的第一指标对应的数据进行统计分析，得到相应子人群的指标结果；

按照所有子人群的指标结果从高到低的排序，将排序在前的预设数量个子人群确定为所述人群包。

若所述第一指标为多个，针对每个第一指标，执行以下操作：

基于贪心算法将该第一指标的维度对应的数据的所有组合确定为子人群；

根据多个第一指标的权重，将所有第一指标对应的子人群的指标结果进行加权计算，得到所有子人群的指标结果；

在又一个可能的实现方式中，还包括：

根据第二指令，调整所述人群包的参数，所述第二指令用于指示对人群包的参数进行调整，所述参数包括人群规模、人群分布、人群特征中的至少一项；

根据所述第一指标和维度，以及调整后的人群数据进行贪心算法，重新确定人群包。

在又一个可能的实现方式中，还包括：

根据获取的训练样本，对原始LLM进行fine-tune训练，得到训练后的LLM和第一结果，其中，所述训练样本包括：第二信息和对应的第三指标和维度，所述第一结果包括第四指标和维度，所述第二信息与运营问题相关；

将所述第一信息输入到训练后的LLM中，得到第二结果，所述第二结果包括第五指标和维度；

根据所述第一结果和所述第二结果，以及所述训练样本，确定坏例；

针对坏例进行标注，并将标注后的坏例作为新的训练样本进行后续的训练过程。

在又一个可能的实现方式中，根据所述第一结果和所述第二结果，以及所述训练样本，确定坏例，包括：

将所述第一结果和所述第二结果中相同指标进行比较的指标分别与所述训练样本的指标进行比较，将比较结果低于第一预设阈值的指标，确定为坏例；

将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，将比较结果低于第二预设阈值的维度，确定为坏例；

将所述第一结果和所述第二结果中的指标分别与所述训练样本的指标进行比较，若比较结果高于第一预设阈值的指标的语义相似度小于第一预设值，确定为坏例；

将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，若比较结果高于第二预设阈值的维度的语义相似度小于第二预设值，确定为坏例；

将所述第一结果和所述第二结果中的指标分别与所述训练样本的维度进行比较，若比较结果低于第一预设阈值的指标不满足第一条件，确定为坏例；

将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，若比较结果低于第二预设阈值的维度不满足第二条件，确定为坏例。

根据本申请实施例的另一个方面，提供了一种人群圈选的装置，该装置包括：

数据分析模块，用于通过将第一信息输入提示词工程，构造第一数据，其中，所述第一信息与运营问题相关，第一数据包括：问题特征、用户特征和数据特征；

模型计算模块，用于将所述第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度；

所述数据分析模块，还用于根据所述第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述第一方面所述人群圈选的方法。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的人群圈选的方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

通过将与运营问题相关的第一信息输入提示词工程，构造第一数据，该第一数据包括：问题特征、用户特征和数据特征，再将第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度，并根据第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。该方法不仅可以降低运营人员的门槛，而且通过大语言模型将自然语言描述的运营问题拆解成合理的目标指标与人群维度，并结合相应的数据得到人群包，能够提高人群包圈选的准确性和效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为实现本申请实施例提供的一种人群圈选的方法的系统结构图；

图2为本申请实施例提供的一种人群圈选的方法的流程示意图；

图3为本申请实施例提供的一种人群圈选的方法的流程示意图；

图4为本申请实施例提供的一种人群圈选的方法的流程示意图；

图5为本申请实施例提供的一种人群圈选的方法的流程示意图；

图6为本申请实施例提供的一种人群圈选的方法中LLM训练的过程示意图；

图7为本申请实施例提供的一种人群圈选的装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在现有的技术中，人群包圈选通常需要大量的人力和时间来进行手动筛选，这不仅费时费力，还容易产生误差和遗漏，同时还面临以下三大主要问题：

1.运营人员门槛较高：

传统的人群包圈选需要人工重度参与，运营人员需要具备专业的技能和对业务的深刻理解，才能够准确地筛选出符合要求的人群。此外，在进行人群圈选时，运营人员需要将运营问题拆解为多个目标指标，并对每个指标相关联的人群维度进行选取。这需要运营人员具备深入的业务知识，否则会导致选取的人群与业务目标不符，从而影响营销效果。

2.数据实时性较差：

传统的人群包圈选需要运营人员手动筛选目标人群，但运营人员往往难以准确地把握不同指标之间的联系，也无法在实时性上满足运营需要，从而导致人群包圈选的不精准和低效率。此外，目前不同数据系统之间的数据还没有实现完全打通，很难把不同数据源的信息进行有机整合，综合分析和处理。

3.人群圈选时间较长，性能较差：

传统的人群包圈选需要大量的人力和时间来进行手动筛选，从而导致圈选时间较长，效率低下。此外，由于数据量庞大，一些传统的算法可能会面临性能瓶颈，无法满足大规模数据的处理需求。

除了以上三大主要问题，还有一些其他的问题，例如：人群定向不够精准、圈选出来的人群黑盒不透明等。这些问题都会影响人群包圈选的准确性和效率，需要借助新的技术手段来解决。

传统的人群圈选方式主要包括以下三种圈选逻辑：

a.基于人口统计学的人群圈选，即根据人口统计学特征来划分不同的人群，例如年龄、性别、地域、职业等。这种方式通常需要依赖于市场调研和统计数据分析，将不同的人口统计学特征组合在一起，形成不同的人群分类标准，然后利用这些分类标准来对人群进行圈选。

b.基于行为数据的人群圈选，基于用户的行为数据进行人群圈选，例如用户的搜索记录、浏览行为、购买记录等。通过对这些行为数据进行分析和挖掘，可以了解用户的兴趣爱好和需求，从而实现更精准的人群圈选。

c.基于社交网络数据的人群圈选，利用社交网络平台上的用户行为数据，例如用户的好友关系、评论记录、分享行为等，从而实现人群圈选。通过对这些社交网络数据进行分析和挖掘，可以了解用户的兴趣爱好和社交关系，从而实现更精准的人群圈选。

一个运营问题要以哪种圈选逻辑则完全取决于运营人员对这个问题的理解，根据以往的经验来操作数据库来做不同维度的人群交叉的结果来获取最终的结果。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

人群圈选的核心问题主要包括：运营问题所关联的指标是哪些，与这些指标最相关的维度是哪些；如何基于这些指标和维度，快速计算出人群包。

如图1所示的实现本申请实施例提供的一种人群圈选的方法的系统主要包括：用户交互模块，数据分析模块，模型计算模块，数据引擎模块和商业分析模块。

使用该系统前可以装载数据，具体可以包括：数据加载到数据引擎模块，做好相关优化，建立物化视图，此外，在数据加载过程中，需要解决用户的实际数据字段混乱的问题，需要建设并维护逻辑指标库。

使用上述系统获取针对某一运营问题的合适的人群包需要经过以下几个步骤：

步骤1、用户1（可以为运营人员）提出运营问题。

步骤2、数据分析模块根据用户的问题，经过提示词工程（prompt engineering），把用户1的模糊的问题构造成一个详细的数据问题（例如：添加用户2（可以为需要圈选的人群）的角色，用户2的目标，数据表项等），传输给大型语言模型（Large Language Model，简称LLM），为了使LLM能更好理解用户的数据，需要把实际的指标和维度名称映射成逻辑指标与维度。

步骤3、LLM根据详细的数据问题，输出推荐的指标。

步骤4、用户1根据自己提出的问题，评估LLM推荐的指标是否合理，不合理则可以在指标库中指定目标指标。

步骤5、数据分析模块根据目标指标和相关的维度，利用数据引擎的预聚合数据，使用贪心算法下钻计算子人群的指标数据，根据计算过的子人群的指标排序情况，取topn，其中，n为大于2的整数。

步骤6、数据分析模块根据最终计算的子人群，在数据库中关联画像，行为等数据，建立静态物化视图。

步骤7、LLM根据目标指标和维度，进行自然语言翻译，使运营人员更好的理解选择这些指标和维度的原因。

步骤8、在商业智慧（Business Intelligence，简称BI）工具中建立数据集与静态物化视图的关联，并新建chart图表展示数据分布情况，从而实现对人群包的白盒化处理，让运营人员更好的理解人群包的详细情况。

步骤9、运营人员拿到人群包之后，可以根据实际情况再做调整，调整可以包括对人群规模，人群分布，人群特征的调整。

步骤10、重复执行步骤5-9。

因此，本申请实施例提出的一种基于大语言模型的人群圈选的方案，可以降低运营人员的使用门槛，能通过将自然语言描述的运营问题拆解成合理的目标指标与人群维度，并结合实际的数据情况提供更为合理，有效的人群包给到运营人员进行决策，进而提高了人群包圈选的准确性和效率。

在本申请实施例的技术方案中，可以通过在数据引擎中构造的预计算cube来提升数据分析计算性能。通常在进行数据分析计算时，需要在多张表中进行关联（join），join的性能决定了即席查询计算的时耗。通过预先做物化视图的方式，把常用的宽表提前关联好，设置好合理的数据更新周期，在实际计算过程中，可以直接省掉了最耗时的join这部分时耗。

此外，常用的指标和上卷和下钻计算也可以通过预计算的方式提前算好，建物化视图来周期更新，进一步降低即席查询时耗。

预计算cube通过有三种构建方式第一种是在数据装载时同步构建；第二种是根据预设规则来构建，比如：分析结构化查询语言（Structured Query Language，简称sql），统计哪张宽表，哪些指标计算次数较多，达到一定的阈值则建立预计算cube；第三种是通过模型来构建，比如：将系统内的sql进行建模，评估得到价值最高的计算节点，针对高价值节点建立预计算cube，并及时取消低价值的已建设的预计算cube。

本申请实施例中提供了一种人群圈选的方法，如图2所示，该方法包括：

S11、通过将第一信息输入提示词工程，构造第一数据，其中，所述第一信息与运营问题相关，第一数据包括：问题特征、用户特征和数据特征；

S12、将所述第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度；

S13、根据所述第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。

本申请实施例的方案，通过将与运营问题相关的第一信息输入提示词工程，构造第一数据，该第一数据包括：问题特征、用户特征和数据特征，再将第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度，并根据第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包。该过程不仅可以降低运营人员的门槛，而且通过大语言模型将自然语言描述的运营问题拆解成合理的目标指标与人群维度，并结合相应的数据得到人群包，能够提高人群包圈选的准确性和效率。

在该实施例中，通过提示词工程将运营问题分解为问题特征，用户特征，数据特征三部分，其中，问题特征包含用户的原始问题，问题的目标，比如提升用户存款率，问题的相关信息，比如运营策略；用户特征则是根据原始问题补充进来的一些相关的用户特征，比如用户角色；数据特征则是问题求解所使用到的相关数据，比如特征重要性分析数据，特征分布数据等，一般来说，数据特征的详尽与否直接决定LLM是否能推理得到正确结果。

需要说明的是，在该实施例中，第一指标对应的维度可以为一个或者多个，该维度也可以称为人群维度。

在本申请实施例中，“多个”是指两个或两个以上。

在一些实施例中，“至少一者（至少一项、至少一个）”、“一个或多个”等术语可以相互替换。

在本申请实施例中，获取数据、信息等可以遵照所在地国家的法律法规。

在本申请实施例中，可以在得到用户同意后获取数据、信息等。

另外，在该实施例中，数据特征还可以包括一些预设的指标和维度，以便给LLM提供参考。这些预设的指标和维度可以是基于解决实际的运营问题的经验方案得到的。

在一些实施例中，上述步骤S12可以包括：

将所述第一数据输入LLM中，得到第二指标并进行展示；

在本申请的实施例中，通过step by step的方式可以获得更好的效果，比如在圈选人群的时候，可以先构造prompt请求（可以对应上文中的第一数据），拿到合理的数据分析指标，再构造prompt请求（可以对应上文中的第二数据），添加指标下的数据分布情况，来获得最优的维度集合，最后得到的维度会比较准确。

在该实施例中，第一指标可以与第二指标完全相同，可以有部分与第二指标相同，可以有部分与第二指标的部分相同。

示例性的，第二指标包括指标1、指标2，第一指标包括指标1、指标2；第二指标包括指标1、指标2，第一指标包括指标1、指标2、指标3；第二指标包括指标1、指标2，第一指标包括指标1，或者，第一指标包括指标1、指标3。

需要说明的是，在该实施例中，若第一指标与第二指标完全相同，则第二数据与第一数据一致，若第一指标与第二指标不完全相同（例如：第一指标的一部分与第二指标相同），则第二数据为基于在提示词工程中输入的与第一指标相关的运营问题的信息得到的数据。

在该实施例中，第一指令可以还用于指示删除第二指标中的部分指标，和/或，用于指示从指标库中获取至少一个指标。也就是说，上述示例中的指标3是从指标库中选择的一个指标。

本申请实施例中提供了一种可能的实现方式，如图3所示，上述方法还可以包括：

S14、显示第二信息，所述第二信息包括所述第一指标和维度所表征的物理含义，和/或，选择所述第一指标的原因。

在该实施例中，在确定了最终的指标和相应的维度之后，可以将其进行自然语言翻译，并给用户1展示指标和维度所表征的物理含义，和/或，选择该指标的原因，从而帮助用户1进行运行策略的选择，提升用户体验。

示例性的，指标1可以衡量用户在平台上的购买活跃度。通过分析该指标，可以了解用户在购物过程中的购买力和消费习惯。

本申请实施例中提供了一种可能的实现方式，如图4所示，上述方法还可以包括：

S15、根据所述人群包中用户ID关联的第三信息，建立静态物化视图，其中，所述第三信息包括用户画像和用户行为数据。

在该实施例中，可以根据人群包中用户2的ID关联的用户画像和行为数据建立静态物化视图，从而为后续的白盒化处理做准备。

S16、根据所述静态物化视图，得到用于体现所述人群包的显著性特征的图表并进行展示。

在该实施例中可以通过BI工具将数据集与静态物化视图，然后进行显著性特征分析，得到相应的图表并进行展示，从而可以使得用户1直观得看到人群数据的分布特定和具体的分布状况，提升了用户体验。

本申请实施例中提供了一种可能的实现方式，如图5所示，上述实施例还可以包括：

S10、判断是否调整人群包的参数，若调整，则返回执行S13，否则执行S14和/或S15及S16。

其中，参数包括人群规模、人群分布、人群特征中的至少一项。

具体的，在该实施例中，若接收到用户1输入的第二指令，则调整人群包的相应参数。示例性的，第二指令用于指示扩大人群规模，或者，缩小人群规模等。否则，可以不调整人群包的参数。

S13具体可以为：根据所述第一指标和维度，以及调整后的人群数据进行贪心算法，重新确定人群包。

在上述各个实施例的方案中，步骤S13可以包括以下两种实现方案：

第一种方案为第一指标为一个的情况，具体的：

示例性的，第一指标包括：指标1，指标1对应的维度包括：维度1、2、3，其中，维度1对应5个用户数据，维度2对应3个用户数据，维度3对应4个用户数据，则3个维度对应的数据基于贪心算法得到的所有组合为：5*3*4=60个子人群。假如利用预计算cube针对该60个子人群中每个子人群的指标1对应的数据进行统计分析，得到60个子人群的指标结果，并将这60个子人群的指标结果从高到低进行排序，将排在前5个的子人群确定为人群包。

第二种方案为第一指标为多个的情况，具体的：

针对每个第一指标，执行以下操作：

基于贪心算法将该第一指标的各个维度对应的数据的所有组合确定为子人群；

然后，根据多个第一指标的权重，将所有第一指标对应的子人群的指标结果进行加权计算，得到所有子人群的指标结果；

示例性的，第一指标包括：指标1和指标2，指标1对应的维度包括：维度1、2、3，指标2对应的维度包括维度4和5，且指标1的权重为w1，指标2的权重为w2。其中，维度1对应5个用户数据，维度2对应3个用户数据，维度3对应4个用户数据，则3个维度对应的数据基于贪心算法得到的所有组合为：5*3*4=60个子人群。其中，维度4对应10个用户数据，维度5对应8个用户数据，则2个维度对应的数据基于贪心算法得到的所有组合为：10*8=80个子人群。

假如利用预计算cube针对60个子人群中每个子人群的指标1对应的数据进行统计分析，得到60个子人群的指标结果，并将这60个子人群的指标结果乘以w1，得到加权后的60个指标结果；假如利用预计算cube针对80个子人群中每个子人群的指标2对应的数据进行统计分析，得到80个子人群的指标结果，并将这80个子人群的指标结果乘以w2，得到加权后的80个指标结果。然后，将加权后的60个指标结果和加权后的80个指标结果从高到低进行排序，将排在前15个的子人群确定为人群包。

在本申请的方案中，通过将自然语言描述的运营问题拆解成合理的目标指标与人群维度，结合实际的数据情况通过预计算的方式提升人群圈选的计算性能，提供更为合理，有效的人群包给到运营人员进行决策，进而提高了人群包圈选的准确性和效率。

需要说明的是，第一指标对应的维度为一个的情况下，则遍历该维度下的所有用户数据进行统计分析，得到子人群的指标结果，并将这些子人群的指标结果从高到低进行排序，将排在前n个的子人群确定为人群包。

在另一些实施例中，还包括LLM的训练过程，包括以下步骤：

将所述第二信息输入到训练后的LLM中，得到第二结果，所述第二结果包括第五指标和维度；

在该实施例中，针对确定出的坏例，可以将该坏例标注为预期的结果，并将其作为新的训练样本。示例性的，确定出第一结果中的某一坏例为第六指标，则将其标注为第四指标后作为新的训练样本。

在一些实施例中，可以通过以下至少一种方式确定坏例：

方式1：将所述第一结果和所述第二结果中的指标分别与所述训练样本的指标进行比较，将比较结果低于第一预设阈值的指标，确定为坏例；

方式2：将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，将比较结果低于第二预设阈值的维度，确定为坏例；

在该实施例中，第一预设阈值与第二预设阈值可以相同或者不同。

也就是说，可以将第一结果和第二结果中相对于训练样本的命中率低于预设阈值的样本确定为坏例。

方式3：将所述第一结果和所述第二结果中的指标分别与所述训练样本的指标进行比较，若比较结果高于第一预设阈值的指标的语义相似度小于第一预设值，确定为坏例；

方式4：将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，若比较结果高于第二预设阈值的维度的语义相似度小于第二预设值，确定为坏例；

在该实施例中，第一预设值与第二预设值可以相同或者不同。

也就是说，将第一结果和第二结果中相对于训练样本的命中率高于预设阈值的样本进一步进行语义比较，并将语义相似度小于预设值的样本确定为坏例。

方式5：将所述第一结果和所述第二结果中的指标分别与所述训练样本的维度进行比较，若比较结果低于第一预设阈值的指标不满足第一条件，确定为坏例；

方式6：将所述第一结果和所述第二结果中的维度分别与所述训练样本的维度进行比较，若比较结果低于第二预设阈值的维度不满足第二条件，确定为坏例。

在该实施例中，第一条件与第二条件可以为人工筛选条件。

也就是说，将第一结果和第二结果中相对于训练样本的命中率低于预设阈值的样本进一步进行人工筛选，并将不满足筛选条件的样本确定为坏例。

在一些实施例中，如图6所示，LLM的训练过程具体可以包括：

1、原始样本来自自然语言处理工具和人工，通过自然语言处理工具构造不同的运营问题（可以对应上文中的第二信息），并通过自然语言处理工具计算得到这个运营问题的推荐指标和维度，自然语言处理工具的结果与运营问题拼接成训练样本。

由于这种方式可以自动化的不断构造，利用自然语言处理工具的大语料的能力，可以补充优化LLM的基础能力，此外，还可以补充人工样本，这部分样本来自系统用户实际的问题，也来自于人工标注构造样本。

2、基于原始样本，LLM进行fine-tune训练。

3、LLM训练之后，进行推理计算，得到同样问题的模型结果（可以对应上文中的第二结果）。

4、对模型结果进行语义评估。

具体的，对所有样本，将原始样本作为参考集，LLM结果（可以对应上文中的第一结果和第二结果）作为候选集。针对参考集和候选集中的指标和维度计算语义相似度得分，若相同的指标数和/或维度的得分低于预设阈值，则认为是一个坏例（badcase），否则是好例（goodcase）。

在该实施例中，可以使用翻译领域的BLEU算法进行语义评估。

5、对于badcase，自然语言处理工具可以给出相似的问题集合，放到下一迭代中进行训练，人工对badcase也需要做人工标注，修改后作为新的样本放到下一轮迭代中。

本申请实施例中，通过半自动化的链路来进行LLM的不断训练和迭代来提升模型的计算效果。

下面结合一个示例描述本申请实施例提供的技术方案的实现过程。

步骤1、用户1提问：如何提升用户的活跃度。

步骤2、数据分析模块经过prompt engineering，对这个问题构造成一个更详细的数据问题：我是一个电商领域的运营专家，我需要提升用户的活跃度，对这个问题圈选出合理的人群，数据包含以下指标{'sum_quantity'，'sum_booking'，'sum_revenue'，}，维度{'customer_gender'， 'order_status'， 'part_brand'， 'lineitem_returnflag'， 'lineitem_linestatus'， 'order_status' ， 'order_priority'}，用户总共1000人，其中，男性用户400人，女性用户600人，男性用户sum_quantity指标2100，女性用户sum_quantity指标3400，请给出相关的指标集合，以及维度集合。

也就是说，经过提示词工程，一个简单的运营问题被丰富为一个专业的详细的运营问题，包含尽可能多的用户和数据特征，其中，

用户特征包括行业领域：电商领域，角色：运营专家，业务目标：提升活跃度，问题目标：圈选人群，时间：提问时间。

数据特征包括产品用户规模：1000人，男女分布：男性用户400人，女性用户600人，指标分布：男性用户sum_quantity指标2100，女性用户sum_quantity指标3400。数据特征都是通过对数据分析获取到的实际数据。

其中，指标{'sum_quantity'，'sum_booking'，'sum_revenue'}，维度{'customer_mktsegment'， 'order_status'， 'part_brand'}都是逻辑指标和逻辑维度，使用事先建好的逻辑指标和维度映射表进行转换。

步骤3、LLM根据上述数据问题，返回推荐的指标sum_quantity（可以对应上文中的第二指标），维度{'customer_gender'，'order_status'， 'part_brand'}。

步骤4、用户1查看到推荐的指标后，根据自己的历史经验，认为指标是合理的，维度中的part_brand不太合理，调整为lineitem_return flag。

步骤5、数据分析模块根据这个指标，以及维度集合，开始贪心下钻，在建好的物化视图中，探索三个维度组合下的所有可能得组合，每一个组合代表一个子人群，对每个子人群的sum_quantity指标进行统计分析，尽可能遍历足够多的子人群，按照指标结果排序，取top n个子人群包作为最终人群。

由于事先做好物化视图，因此数据在得到及时更新的同时，又能以远高于传统关系型数据库和离线数仓批计算的性能获得指标计算的结果。

步骤6、数据分析模块根据最终计算得到的人群包的用户ID，关联用户画像和行为数据，在数据引擎中存储为静态物化视图，用于后续的BI分析。

步骤7、LLM根据最终选择的指标和维度，进行自然语言翻译，给一段说明（可以对应上文中的第二信息），便于用户1理解指标和维度的选择原因。

例如：{'根据给出的指标和维度，可以给出以下合理的解释：

指标 "sum_quantity"（购买数量总和）：该指标可以衡量用户在平台上的购买活跃度。通过分析该指标，可以了解用户在购物过程中的购买力和消费习惯。

维度 "customer_gender"：性别是一个重要的维度，它可以帮助了解男性和女性用户在购买行为上的差异。通过比较不同性别用户的购买数量，可以得出哪个性别更倾向于在电商平台购买商品。

维度 "order_status"：订单状态是指用户订单的当前状态，比如待处理、已发货、已完成等。通过分析不同订单状态下的购买数量，可以了解用户在不同阶段的购买意愿和购买行为。

维度”lineitem_returnflag”：可评估用户满意度和再次购买意愿，发现产品质量问题，采取个性化措施提升用户活跃度。分析退货率高的用户群体可改进产品质量，提供更好售后支持，重建用户信任。针对退货用户实施个性化营销策略，如优惠券和补偿，促使再次购买。增强用户满意度，持续增长业务和用户忠诚度的重要维度选择。

综上所述，通过分析指标"sum_quantity"以及维度"customer_gender"、"order_status"和" lineitem_returnflag "，可以获得关于用户活跃度的深入洞察。这些数据可以帮助确定特定人群的购买偏好、购买阶段以及购买售后反馈的购买行为，从而优化运营策略并提高整体的用户活跃度。'}

步骤8、在步骤6中建设了用于商业分析的静态物理视图，接下来需要对圈选的人群包展示人群包的情况。根据人群包所有维度的显著性分析计算，得出人群包在地域，年龄分布上具有显著性特征，展示两张图表（chart）图标，一张展示地域分布，看圈选出来的人群主要集中在哪些省市，另一张柱状图展示人群包年龄分布情况，还可以跟大盘人群做对比展示。

步骤9、用户1查看到人群包后，可以再做调整。

比如做人群规模扩散，例如放大到10000人。具体的，数据分析模块以种子人群（可以对应步骤5得到的人群包）作为正样本，以非种子人群作为负样本，训练模型得到LR模型，再计算非种子人群，按得分高低排序，取到前10000作为新人群包。

在该实施例中，用户1从一个模糊的运营问题，通过简单的交互得到一个理想的人群包的实现过程中，LLM能基于大语料数据根据用户的问题，数据的实时情况，其他用户的历史经验（在系统中记录下来的case反哺到模型训练），以较低的门槛，快速得到一个合理的人群包来进行运营活动策划。

本申请实施例提供了一种人群圈选的装置，如图7所示，该人群圈选的装置可以包括：数据分析模块101和模型计算模块102，其中，

数据分析模块101用于通过将第一信息输入提示词工程，构造第一数据，其中，所述第一信息与运营问题相关，第一数据包括：问题特征、用户特征和数据特征；

模型计算模块102用于将所述第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度；

所述数据分析模块101还用于根据所述第一指标和维度，以及各个维度对应的数据进行贪心算法，得到人群包。

进一步地，模型计算模块102具体用于：

将所述第一数据输入LLM中，得到第二指标并进行展示；

进一步的，上述装置还包括：用户交互模块，用于显示第二信息，所述第二信息包括所述第一指标和维度所表征的物理含义，和/或，选择所述第一指标的原因。

需要说明的是，在该实施例中，用户交互模块，还用于接收用户输入的第一信息。

进一步的，上述装置还包括：数据引擎模块，用于根据所述人群包中用户ID关联的第三信息，建立静态物化视图，其中，所述第三信息包括用户画像和用户行为数据。

进一步的，上述装置还包括：商业分析模块，用于根据所述静态物化视图，得到用于体现所述人群包的显著性特征的图表并进行展示。

进一步的，数据分析模块101具体用于：

若所述第一指标为一个，基于贪心算法将该第一指标的各个维度对应的数据的所有组合确定为子人群；

进一步的，数据分析模块101具体用于：若所述第一指标为多个，针对每个第一指标，执行以下操作：

进一步的，数据分析模块101还用于：

进一步的，模型计算模块还用于：根据获取的训练样本，对原始LLM进行fine-tune训练，得到训练后的LLM和第一结果，其中，所述训练样本包括：第二信息和对应的第三指标和维度，所述第一结果包括第四指标和维度，所述第二信息与运营问题相关；

进一步的，模型计算模块具体用于通过以下至少一种方式确定坏例：

将所述第一结果和所述第二结果中的指标分别与所述训练样本的指标进行比较，将比较结果低于第一预设阈值的指标，确定为坏例；

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

需要说明的是，本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据分析模块还可以被描述为“通过将第一信息输入提示词工程，构造第一数据的模块”，或者，“根据所述第一指标和维度，以及各个维度对应的数据进行贪心算法，得到人群包的模块”。也就是说，用于实现不同功能的模块可以集成为一个模块，也可以是相互独立的不同模块。本申请实施例中的模块的名称仅用于说明性的目的，而并不是用于对这些模块的功能进行限制。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

本申请实施例中提供了一种电子设备（计算机装置/设备/系统），包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现人群圈选的方法的步骤，与相关技术相比可实现：通过将与运营问题相关的第一信息输入提示词工程，构造第一数据，该第一数据包括：问题特征、用户特征和数据特征，再将第一数据输入预训练的大语言模型LLM中，得到第一指标和相应的维度，并根据第一指标和维度，以及各个维度对应的数据进行贪心算法，得到人群包。该过程不仅可以降低运营人员的门槛，而且通过大语言模型将自然语言描述的运营问题拆解成合理的目标指标与人群维度，并结合相应的数据得到人群包，能够提高人群包圈选的准确性和效率。

在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种人群圈选的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述第一数据输入预训练的LLM中，得到第一指标和相应的维度，包括：

将所述第一数据输入所述LLM中，得到第二指标并进行展示；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，根据第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包，包括：

7.根据权利要求1-5中任一项所述的方法，其特征在于，根据第一指标和维度，以及维度对应的数据进行贪心算法，得到人群包，包括：

8.根据权利要求1-5中任一项所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.根据权利要求9所述的方法，其特征在于，根据所述第一结果和所述第二结果，以及所述训练样本，确定坏例，包括以下至少一种方式：

11.一种人群圈选的装置，其特征在于，包括：

12.一种电子设备，包括：存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-10任一项所述人群圈选的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的人群圈选的方法的步骤。