CN117635205A

CN117635205A - 一种基于需求浓度的客户匹配方法及系统

Info

Publication number: CN117635205A
Application number: CN202311482439.8A
Authority: CN
Inventors: 王清风; 郭金辉; 郑颖; 董煌斌; 郭飞锦; 蓝满春; 郑星原
Original assignee: Fujian Zhuohong Information Technology Co ltd
Current assignee: Fujian Zhuohong Information Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-03-01

Abstract

本发明公开了一种基于需求浓度的客户匹配方法及系统，所述方法包括以下步骤：获取客户的个人信息、行为数据及反馈数据；对所述个人信息、行为数据及反馈数据进行清洗，获得清洗数据；从所述清洗数据提取客户特征，根据信息增益为不同的客户特征赋予权重；对于每个产品、服务或信息，将客户特征与相应的权重相结合，使用线性模型计算需求浓度分数，对需求浓度分数进行归一化映射到0到1的范围，得到标准分数；输出每个产品、服务或信息的标准分数，根据标准分数确定客户对它们的需求程度，根据需求程度将客户与特定产品、服务或信息进行匹配。本发明可在保证匹配准确度的基础上降低系统复杂度，进而降低运营成本。

Description

一种基于需求浓度的客户匹配方法及系统

技术领域

本发明属于客户分析技术领域，特别涉及一种基于需求浓度的客户匹配方法及系统。

背景技术

目前互联网信息服务或互联网购物服务体系体积庞大，内容错综复杂，面对基数庞大的用户群体，人工等传统方式需要花费大量人力、物力、时间成本，对用户群体进行划分，逐步分析相关数据，才能勉强向潜在用户推送相关产品、服务或信息，但是由于其不稳定性和主观性，往往导致目标用户错误，推送服务不准确，让用户无法选择到满意的产品、服务或信息，同时产品、服务或信息也无法推送给合适的用户。因此，有必要在用户和产品、服务或信息之间建立匹配，以提供更好的客户体验、营销效率及信息传达。传统的客户匹配方法通常基于静态的客户属性(如年龄、性别、地理位置)来进行匹配，而这种方法可能无法很好地适应客户需求的动态性和复杂性。

公开号为“CN112232891B”的中国发明专利公开了一种基于大数据分析的客户匹配方法和装置，其中，所述方法包括：获得第一课程信息；根据所述第一课程信息，获得第一课程对象信息；根据所述第一课程对象信息，获得第一推荐客户信息；根据所述第一推荐客户信息，获得第一客户IP信息；根据所述第一客户IP信息，获得第一客户网络数据；将所述第一课程对象信息、所述第一客户网络数据输入第一训练模型；获得所述第一训练模型的输出信息；判断所述第一关联性数据是否满足第一预定阈值；当满足时，获得第一指令。

该方案采用大量数据对神经网络模型进行训练，再使用训练好的神经网络模型计算客户匹配。但是，神经网络训练通常需要大量计算资源，包括GPU和TPU资源，这可能导致运营成本的增加；而且，神经网络模型在训练时容易出现过拟合问题，尤其是在小数据集上，这可能导致模型对训练数据过于拟合，而无法泛化到新数据。

为了解决这一问题，提出了一种基于需求浓度的客户匹配方法，该方法允许更好地理解客户需求的变化，以提供更精确的匹配。需求浓度是指客户对某一特定产品、服务或信息的需求程度。在这种方法中，需求浓度将根据客户在特定时间段内的行为和反馈进行动态评估。需求浓度可以通过多种方式衡量，包括客户的搜索历史、点击行为、购买历史、评分和评论等。

发明内容

本发明提供一种基于需求浓度的客户匹配方法及系统，旨在解决现有技术计算客户匹配时存在的运营成本高、系统复杂的问题。

为解决上述技术问题，本发明提出的客户匹配方法包括以下步骤：

S1：获取客户的个人信息、行为数据及反馈数据；

S2：对所述个人信息、行为数据及反馈数据进行清洗，获得清洗数据；

S3：从所述清洗数据提取客户特征，根据信息增益为不同的客户特征赋予权重；

S4：对于每个产品、服务或信息，将客户特征与相应的权重相结合，使用线性模型计算需求浓度分数，对需求浓度分数进行归一化映射到0到1的范围，得到标准分数；

S5：输出每个产品、服务或信息的标准分数，根据标准分数确定客户对它们的需求程度，根据需求程度将客户与特定产品、服务或信息进行匹配。

优选地，还包括步骤S6：按设定的时间定期更新需求浓度及客户匹配。

优选地，所述客户特征包括搜索的关键词、关键词对应的频率、点击次数、购买历史、评分、评论内容情感分析及投诉内容。

优选地，所述信息增益的计算方法为：

IG(X)＝H(Y)-H(Y|X)

式中，IG(X)为客户特征X的信息增益，H(Y)客户特征X的信息熵，H(Y|X)为客户特征X的条件熵，计算方法如下：

式中，C为客户特征的数量，P(c_i)为每个特征的概率，n为每个特征的取值数量，P(X＝x_i)为每个取值为X＝x_i的概率，P(Y|X＝x_ic_j)为在每个取值下，分类结果的条件概率。

优选地，所述线性模型计算需求浓度方法具体为：

S41：构建线性模型，所述线性模型的形式为：

M＝b₀+b₁N₁+b₂N₂+…+b_nN_n

式中，M是需求浓度分数，N₁，N₂，…，N_n为客户特征，b₀为预设权重常数，b₁，b₂，…，b_n为对应客户特征的权重；

S42：使用历史数据来训练线性模型，通过最小二乘法拟合特征和需求浓度之间的关系；

S43：评价模型的拟合度，选择均方误差达到设定阈值的模型作为需求浓度计算模型；

S44：将待计算权重的客户特征输入需求浓度计算模型，预测客户的需求浓度分数。

优选地，所述匹配包括产品推荐、服务推荐、个性化定价及内容定制：

所述产品推荐、服务推荐基于需求浓度向客户推荐感兴趣的产品、服务；

所述个性化定价根据客户的需求浓度，向不同客户提供个性化的定价策略，以更好地满足不同客户的需求；

所述内容定制将客户的需求浓度应用于内容生成，以提供定制化的信息或媒体。

优选地，所述清洗包括缺失值处理、重复值处理、异常值处理、数据类型转换及文本数据处理；

所述异常值处理首先计算数据集的均值和标准差，将均值与两倍标准差的和作为阈值，将与均值的差值超过五倍阈值的数据确认为异常值；对于异常值，将其替换为正常值，正常值的计算方法为：

式中，s_nor为用于替换异常值的正常值，s_exc为异常值，s_min为正常范围内的最小值，s_max为正常范围内的最大值，S_{min_a}为所有数据中的最小值，s_{max_a}为所有数据中的最大值。

优选地，所述文本数据处理用于处理用户的评论及投诉，包括以下步骤：

文本清洗，用于去除特殊字符、HTML标签、非字母字符；

文本分词，用于将文本拆分为词语或短语；

停用词去除，用于去除常见的无信息词语；

词干化或词形还原，用于将词语还原为其基本形式；

情感分析，用于分析文本情感。

优选地，所述行为数据包括客户的搜索历史、浏览历史、点击行为及购买历史；所述反馈数据包括客户的评分、评论、投诉。

相应的，本发明还提出一种基于需求浓度的客户匹配系统，所述系统被配置为执行上述的客户匹配方法，包括：

数据获取模块，用于获取客户的个人信息、行为数据及反馈数据；

数据清洗模块，用于对数据获取模块获取的数据进行清洗，所述清洗包括缺失值处理、重复值处理、异常值处理、数据类型转换及文本数据处理；

线性模型，用于根据清洗后的数据计算需求浓度分数；

归一化模块，用于将线性模型输出的需求浓度分数进行归一化映射到0到1的范围，得到标准分数；

推荐模块，用于输出每个产品、服务或信息的标准分数，根据标准分数确定客户对它们的需求程度，根据需求程度将客户与特定产品、服务或信息进行匹配。

与现有技术相比，本发明具有以下技术效果：

1.本发明提出的客户匹配方法采用需求浓度进行客户匹配，相比采用大数据训练神经网络模型进行客户匹配，可有效系统的复杂度，进而降低运营成本，特别是前期运营成本。可在保证匹配准确度的基础上满足客户的实际需求，提高客户满意度；为客户提供个性化的产品、服务和信息，增强客户体验；实现精准匹配客户，提高营销效率和销售转化率。

2.本发明提出的客户匹配方法按设定的时间定期更新需求浓度及客户匹配，以确保始终反映客户的实际需求，实现动态识别客户需求的变化，提供更准确的客户匹配。

3.本发明提出的客户匹配方法对个人信息、行为数据及反馈数据进行清洗，以确保数据的一致性和可比性，可以使不同特征的值在相同的尺度范围内，使得不同特征之间的比较更为合理，不同特征之间的权重更容易比较和解释，进而提高需求浓度计算的准确性。

4.本发明提出的客户匹配方法对需求浓度分数进行归一化，以确保在相同的尺度上根据需求浓度分数对需求程度进行评估，确保不同特征对需求浓度的贡献度更一致，如果某个特征的范围远大于其他特征，那么它可能在计算需求浓度中具有较高的权重，通过归一化，可以避免这种不平衡的权重分配，提高需求浓度计算的准确性。

附图说明

图1是本发明所述客户匹配方法的流程图；

图2是本发明实施例计算需求浓度流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图，对本发明的技术方案进行清楚、完整地描述。

实施例一

一种基于需求浓度的客户匹配方法，如图1所示，包括以下步骤：

S1：获取客户的个人信息、行为数据及反馈数据。

在步骤S1中，收集与客户需求相关的数据，包括但不限于以下方面：客户的个人信息；客户的行为数据，如搜索历史、浏览历史、点击行为、购买历史等；客户的反馈数据，如评分、评论、投诉等。

S2：对所述个人信息、行为数据及反馈数据进行清洗，获得清洗数据。

具体地，本实施例所述清洗包括缺失值处理、重复值处理、异常值处理、数据类型转换及文本数据处理。

对于缺失值处理，首先，需要确定数据集中是否存在缺失值，本实施例通过检查每列或特征中的空值或NaN值来实现，一旦识别出缺失值，使用均值来填充缺失值，以保持数据集的完整性。在本发明的其他实施例中，也可使用、中位数、众数或其他方法来填充缺失值。

对于重复值处理，检查数据集中是否存在完全相同的行，这些行可能是重复的，如果有重复信息，可以将它们合并为一个单一的行。

对于异常值处理，本实施例首先计算数据的均值和标准差，将均值与两倍标准差的和作为阈值，将与均值的差值超过五倍阈值的数据点确认为异常值；对于异常值，将其替换为正常值，正常值的计算方法为：

对于数据类型转换，包括日期型数据和时间型数据，将其转换为标准格式。

对于文本数据处理，所述文本数据处理用于处理用户的评论及投诉，包括以下步骤：

文本清洗，用于去除特殊字符、HTML标签、XML标签、JSON标识、非字母字符，对于特殊字符、HTML标签、XML标签、JSON标识、非字母字符，本实施例采用正则表达式来识别和替换；

文本分词，用于将文本拆分为词语或短语，文本分词是将文本拆分成单词或词语的过程，这使得文本更容易进行进一步处理；

停用词去除，用于去除常见的无信息词语，停用词是在文本中频繁出现但通常不携带重要信息的词汇，如“的”、“是”、“在”等。去除停用词有助于减少文本数据的维度并提高情感分析的效率，可以使用停用词列表来识别和去除这些词；

词干化或词形还原，用于将词语还原为其基本形式；

情感分析，用于分析文本情感，情感分析是使用机器学习或自然语言处理技术来确定文本的情感极性，如积极、消极或中性，本实施例采用的方法为情感词典分析，使用情感词典，匹配文本中的情感词汇，并计算文本的总体情感得分。

所述行为数据包括客户的搜索历史、浏览历史、点击行为及购买历史；所述反馈数据包括客户的评分、评论、投诉。

S3：从所述清洗数据提取客户特征，根据信息增益为不同的客户特征赋予权重。所述客户特征包括搜索的关键词、关键词对应的频率、点击次数、购买历史、评分、评论内容情感分析及投诉内容。

所述信息增益的计算方法为：

IG(X)＝H(Y)-H(Y|X)

S4：对于每个产品、服务或信息，将客户特征与相应的权重相结合，使用线性模型计算需求浓度分数，对需求浓度分数进行归一化映射到0到1的范围，得到标准分数。

所述线性模型计算需求浓度方法具体为：

S41：构建线性模型，所述线性模型的形式为：

M＝b₀+b₁N₁+b₂N₂+…+b_nN_n

式中，M是需求浓度分数，N₁，N₂，…，N_n为客户特征，b₀为预设权重常数，b₁，b₂，…，b_n为对应客户特征的权重。

S42：使用历史数据来训练线性模型，通过最小二乘法拟合特征和需求浓度之间的关系。

S43：评价模型的拟合度，选择均方误差(Mean Squared Error，MSE)达到设定阈值的模型作为需求浓度计算模型。

对需求浓度分数进行归一化，首先通过遍历数据集中的所有的需求浓度分数，找到需求浓度分数的最小值(Min)和最大值(Max)，然后对每个需求浓度分数进行归一化，使用以下公式：

式中，S_normalized为归一化后的标准分数，S为原始需求浓度分数，Min为需求浓度分数的最小值，Max为需求浓度分数的最大值。最后将计算得到的标准分数S_normalized值替代原始需求浓度分数，以获得在0到1范围内的归一化分数。这个过程将确保需求浓度分数都在0到1的范围内，并且保留了它们之间的相对关系。

所述匹配包括产品推荐、服务推荐、个性化定价及内容定制：

在本发明的另一个实施例中，还包括步骤S6：按设定的时间定期更新需求浓度及客户匹配。

具体的，本实施例首先收集客户的个人信息、行为数据和反馈数据，个人信息包括：客户ID，每个客户都有一个唯一的标识符，以便跟踪其活动和信息；年龄，客户的年龄可以提供关于他们的生命周期阶段的信息；性别，了解客户的性别可以用于性别相关的市场营销策略；地理位置，客户的地理位置可以帮助确定他们所在的地区或国家，以优化定价和库存管理。本实施例中以字典形式保存的个人信息示例如下：

customer_data＝[

{'customer_id':1,'age':30,'gender':'男','location':'北京'},

{'customer_id':2,'age':25,'gender':'女','location':'上海'},

{'customer_id':3,'age':40,'gender':'男','location':'广州'},

{'customer_id':4,'age':35,'gender':'女','location':'深圳'},

{'customer_id':5,'age':28,'gender':'男','location':'重庆'}

]

行为数据包括：浏览历史，记录客户在页面上的浏览活动，包括访问的页面、停留时间、点击链接等；购买记录，跟踪客户的购买历史，包括购买的产品、购买日期和购买金额；点击次数，记录客户对特定产品或内容的点击次数，以评估他们的兴趣。本实施例中以字典形式保存的客户行为数据示例如下：customer_behavior_data＝[

{'customer_id':1,'browsing_history':['页面A','页面B','页面C'],'purchase_history':['产品X','产品Y'],'click_count':50},

{'customer_id':2,'browsing_history':['页面B','页面D','页面E'],'purchase_history':['产品Z'],'click_count':30},

{'customer_id':3,'browsing_history':['页面A','页面C'],'purchase_history':[],'click_count':20},

{'customer_id':4,'browsing_history':['页面B','页面C','页面E'],'purchase_history':['产品X','产品Z'],'click_count':45},

{'customer_id':5,'browsing_history':['页面A','页面B','页面D'],'purchase_history':['产品Y'],'click_count':60}

]

反馈数据包括：产品评价，允许客户对购买的产品或服务进行评价和评论，这可以提供关于产品质量和客户满意度的信息；投诉反馈，客户可以提供关于不满意的经历、问题或投诉的反馈，这有助于改善客户服务和解决问题；问卷调查结果，客户参与问卷调查，回答有关他们的需求、偏好和满意度的问题。问卷可以包括开放性问题和封闭性问题。本实施例中以字典形式保存的客户反馈数据如下：

customer_feedback_data＝[

{'customer_id':1,'product_review':'产品质量很好，非常满意。','complaint_feedback':None,'survey_result':'满意'},

{'customer_id':2,'product_review':'产品一般，希望有更多选择。','complaint_feedback':'发货延迟','survey_result':'中等'},

{'customer_id':3,'product_review':'产品不符合预期，不满意。','complaint_feedback':'售后服务差','survey_result':'不满意'},

{'customer_id':4,'product_review':'产品质量很好，快递速度也很快。','complaint_feedback':None,'survey_result':'满意'},

{'customer_id':5,'product_review':'产品一流，无可挑剔。','complaint_feedback':None,'survey_result':'非常满意'}

]

接下来对上述个人信息、行为数据及反馈数据进行清洗。首先过滤不完整的个人信息、行为数据及反馈数据，以过滤客户信息为例：

cleaned_customer_info＝[customer for customer in customer_data if all(key in customer for key in['customer_id','age','gender','location'])]

对客户反馈数据进行情感分析，以customer_feedback_data为例，使用TextBlob库对customer_feedback_data中的product_review进行情感分析。首先添加情感极性到反馈数据，然后使用TextBlob库的sentiment.polarity方法获取情感极性值sentiment_polarity(范围从-1到1，-1表示负面，1表示正面)，接下来根据情感极性值确定情感标签，将情感极性值大于0的product_review标记为正面，将情感极性值小于0的product_review标记为负面，将情感极性值等于0的product_review标记为中性。最后输出包括客户ID(customer_id)、产品评价(product_review)和情感标签(sentiment_label)的情感分析结果。

然后经过去除重复的客户信息、去除点击次数小于0的异常点击数据、填充缺失的反馈数据、去除无效的满意度调查结果等步骤，得到清洗后的数据。

对清洗后的数据进行处理，首先，从客户的个人信息、行为数据和反馈数据中提取需要的特征。在本实施例中，我们选择年龄、性别、点击次数、产品评价和地理位置作为特征，使用numpy库提取客户特征。

年龄特征：

age_feature＝np.array([customer['age']for customer in cleaned_customer_info])

性别特征，进行独热编码：

gender_feature＝np.array([1if customer['gender']＝＝'男'else 0forcustomer in cleaned_customer_info])

点击次数特征：

click_count_feature＝np.array([customer['click_count']for customer incleaned_behavior_data])

产品评价特征：

product_review_feature＝np.array([len(customer['product_review'])ifcustomer['product_review']else 0for customer in cleaned_feedback_data])

地理位置特征，进行独热编码：

locations＝list(set(customer['location']for customer in cleaned_customer_info))

location_feature＝np.array([locations.index(customer['location'])forcustomer in cleaned_customer_info])

将上述年龄特征、性别特征、点击次数特征、产品评价特征及地理位置特征组合成一个特征矩阵：

features＝np.vstack((age_feature,gender_feature,click_count_feature,product_review_feature,location_feature)).T

获得特征矩阵后，为矩阵中每个特征计算信息增益以确定其对需求浓度的影响。信息增益计算通常涉及到计算特征的信息熵和条件熵，然后计算它们的差异，以年龄特征为例，首先定义一个需求浓度标签['高','中','低']，然后定义需求浓度标签的分布[0.4,0.3,0.3]，然后使用本实施例中信息增益的计算公式计算信息增益；其他的特征使用同样的方法计算信息增益。信息增益越高，说明特征对需求浓度的影响越大，因此可以为这些特征赋予更高的权重。根据信息增益结果，可以为每个特征分配权重，以供后续的需求浓度分数计算。

获得权重后，对于每个产品、服务或信息，将客户特征与相应的权重相结合，使用线性模型计算需求浓度分数，对需求浓度分数进行归一化映射到0到1的范围，得到标准分数。以下是一个包括产品A、产品B、产品C、产品D对应ID为1、2、3、4、5的客户的标准分数：

product_demand_scores＝{

'产品A':{1:0.8,2:0.6,3:0.3,4:0.75,5:0.9},

'产品B':{1:0.7,2:0.4,3:0.2,4:0.6,5:0.8},

'产品C':{1:0.5,2:0.3,3:0.4,4:0.55,5:0.7},

'产品D':{1:0.9,2:0.8,3:0.6,4:0.7,5:0.95}

}

对于每个产品，根据不同客户的标准分数，标准分数越高，则反映该客户对该产品的需求程度越高，将该产品优先推荐给标准分数高的客户。类似的，服务和信息也依此推荐。

实施例二

一种基于需求浓度的客户匹配系统，所述系统被配置为执行实施例一所述的客户匹配方法，包括：

线性模型，用于根据清洗后的数据计算需求浓度分数；

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于需求浓度的客户匹配方法，其特征在于，包括以下步骤：

S1：获取客户的个人信息、行为数据及反馈数据；

2.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，还包括步骤S6：按设定的时间定期更新需求浓度及客户匹配。

3.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述客户特征包括搜索的关键词、关键词对应的频率、点击次数、购买历史、评分、评论内容情感分析及投诉内容。

4.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述信息增益的计算方法为：

IG(X)＝H(Y)-H(Y|X)

5.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述线性模型计算需求浓度方法具体为：

S41：构建线性模型，所述线性模型的形式为：

M＝b₀+b₁N₁+b₂N₂+…+b_nN_n

式中，M是需求浓度分数，N₁,N₂,…,N_n为客户特征，b₀为预设权重常数，b₁,b₂,…,b_n为对应客户特征的权重；

6.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述匹配包括产品推荐、服务推荐、个性化定价及内容定制：

7.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述清洗包括缺失值处理、重复值处理、异常值处理、数据类型转换及文本数据处理；

8.根据权利要求7所述的一种基于需求浓度的客户匹配方法，其特征在于，所述文本数据处理用于处理用户的评论及投诉，包括以下步骤：

文本清洗，用于去除特殊字符、HTML标签、非字母字符；

文本分词，用于将文本拆分为词语或短语；

停用词去除，用于去除常见的无信息词语；

词干化或词形还原，用于将词语还原为其基本形式；

情感分析，用于分析文本情感。

9.根据权利要求1所述的一种基于需求浓度的客户匹配方法，其特征在于，所述行为数据包括客户的搜索历史、浏览历史、点击行为及购买历史；所述反馈数据包括客户的评分、评论、投诉。

10.一种基于需求浓度的客户匹配系统，其特征在于，所述系统被配置为执行如权利要求1-9任一项所述的客户匹配方法，包括：

线性模型，用于根据清洗后的数据计算需求浓度分数；