CN110443290A

CN110443290A - 一种基于大数据的产品竞争关系量化生成方法及装置

Info

Publication number: CN110443290A
Application number: CN201910667306.5A
Authority: CN
Inventors: 程博
Original assignee: Guangdong Ding Ding Technology Co Ltd
Current assignee: Guangdong Ding Ding Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-12
Anticipated expiration: 2039-07-23
Also published as: CN110443290B

Abstract

本发明公开了一种基于大数据的产品竞争关系量化生成方法，包括：S1，获取用户消费各阶段数据；S2，对各阶段数据进行处理，根据规则对各阶段数据进行清洗和标准化后，对各阶段数据进行向量化；S3，通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并划分竞品圈；S4，利用分类算法训练分类模型，通过模型结果叠加未上市新产品目标形象或者物理属性，预判新产品的未来竞品圈；本发明还公开了一种基于大数据的产品竞争关系量化生成装置；本发明通过对三个不同阶段的产品数据进行处理，对产品进行向量化，再划分竞品圈和预判其未来的竞品圈，能够快速了解产品在市场上的竞争情况，实现对本品主要竞品及所属竞品圈的准确性预判。

Description

一种基于大数据的产品竞争关系量化生成方法及装置

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于大数据的产品竞争关系量化生成方法及装置。

背景技术

随着市场竞争的加剧，商用车厂商进军乘用车市场，自主乘用车厂商不断推出高端车型向上与合资竞争，合资非豪华厂商设计低成本车型以扩大消费者受众，豪华厂商降低准入门槛，不断推出小型豪华车挤压合资非豪华的高端车型。在这样的推陈出新的激烈的竞争中，快速了解市场的总体竞争情况、准确划分竞争圈、识别自己属于哪个竞争圈、主要竞争对手是谁，可以在竞争中处于知己知彼的有利地位。现有技术中，部分商家都根据消费者对比情况推出了辅助寻找竞品的方案。1)推出正反向对比排名。正向对比即所有对比过本品车型的竞品车型按照对比次数排序；反向对比是本品在所有对比过竞品的车型里面的排名。通常认为正反向对比都排名高的竞品即是的主要竞品。2)推出本品和竞品距离以及竞品被对比的总次数。通常距离越近，被对比总次数越多的竞品认为是主要竞品。

正反向对比的方案缺陷在于：1)缺乏竞争全景：提供的都是两两车型之间的关系，很难一眼看出哪几个车型构成一个竞争圈，哪个车型在竞争圈边缘等等；2)正反向对比是两个维度，合并成一个维度去衡量到底哪个竞品更近仍然是问题。例如对比本品的车型中A车型排第一，B车型排第3；但是在对比A车型的所有车型中，本品排第8；在对比B车型的所有车型中本品排第2。这种情况很难判断定A和B哪个和本品更接近；3)真正竞品可能因为销量影响被掩盖：自身销量高的车型容易被对比的多。例如哈弗H6是细分标杆车型，所以那个细分其它车型都先对比H6来看看自己的车的情况。但这不代表这个对比是竞争型的对比，很可能是参考型的对比，不会持续到购买考虑阶段。如果仅仅因为H6在对比中排第一就将其列为头号竞品是比较危险的。真正的竞品如果销量中等，很可能因为在对比排名中不是第一名而被忽略；4)未上市或者刚上市的产品因为对比量不足无法预判竞品圈归属。

对比次数的方案缺陷在于：1)缺乏竞争全景，原因同上；2)距离的定义不清晰，很多时候和经验认知或其他数据源验证不符；3)竞品被对比总量不是竞品和本品对比量，看不到和本品的具体情况；4)未上市或者刚上市的产品因为对比量不足无法预判竞品圈归属。

发明内容

本发明提供了一种基于大数据的产品竞争关系量化生成方法及装置，通过对三个不同阶段的产品数据进行处理，对产品进行向量化，再划分竞品圈和预判其未来的竞品圈，能够快速了解产品在市场上的竞争情况，实现对本品主要竞品及所属竞品圈的准确性预判。

为了解决上述技术问题，本发明实施例提供了一种基于大数据的产品竞争关系量化生成方法，包括：

获取用户消费的各阶段数据；所述各阶段数据包括关注阶段数据、意向阶段数据和考虑阶段数据；

对所述各阶段数据进行处理，根据规则对所述各阶段数据进行清洗和标准化后，对所述各阶段数据进行向量化；

通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此划分竞品圈。

作为优选方案，所述关注阶段数据包括相关产品的搜索和评论类的网络大数据；所述意向阶段数据包括相关产品之间的对比次数和反应相关产品之间关系的网络大数据；所述考虑阶段数据包括相关的两个产品同时被考虑的概率数据。

作为优选方案，在所述对所述各阶段数据进行处理中，对所述关注阶段数据的处理，包括：

识别并剔除不合格的评论；

基于行业词库和分词软件对每条评论进行切词，并提取关键信息；所述关键信息包括产品形象、产品功能、和类比的其它相关产品；

当被类比的其它产品的提及率超过预设的提及率阈值，则将所述被类比的产品形象加权迁移至本产品的形象；

将各产品形象和功能通过词向量工具，转化为向量，将每个产品的形象词向量和功能词向量综合成一个向量，再利用向量运算算法计算出两个产品之间的距离。

作为优选方案，在所述对所述各阶段数据进行处理中，对所述意向阶段数据的处理，包括：

判断用户ID对比产品的总次数，当所述用户ID对比产品总次数高于各用户ID平均对比次数的倍数阈值，则剔除所述用户ID所有发生的对比行为；

两两产品被对比的次数形成对比矩阵，利用各产品的被对比总次数将上述对比矩阵进行归一化处理；

对归一化处理后的对比矩阵数据通过向量算法运算计算出两个产品之间的距离。

作为优选方案，在所述对所述各阶段数据进行处理中，对所述考虑阶段数据的处理，包括：

通过语义挖掘技术将用户发表的评论数据中提及的产品挖掘提取出来；

识别并剔除所述用户提及相关产品过多或评论过短的数据；

将各产品的被考虑总次数和相关的两个产品被考虑的次数形成相互考虑矩阵；

将上述相互考虑矩阵进行归一化处理；

对归一化处理后的相互考虑矩阵数据通过向量运算算法计算出两个产品之间的距离。

作为优选方案，所述向量运算算法至少包括欧几里得距离算法和余弦夹角距离算法。

作为优选方案，所述通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此划分竞品圈，包括：

通过各产品向量化后的数据，以所述数据向量计算所得距离相近的两个产品聚成一类；

计算各产品对该聚类的距离以及两两产品间的距离；

对上述步骤进行迭代，直至所有产品被聚成一类。

作为优选方案，所述产品竞争关系量化生成方法，还包括：利用分类算法训练分类模型，并通过所述模型结果叠加未上市新产品的目标形象或者物理属性，预判所述新产品的未来竞品圈。

作为优选方案，所述利用分类算法训练分类模型，包括：

获取现有的每个产品的特征，包括各个产品的物理特征和形象特征；

通过分类方法利用已有的产品特征与产品所属类的关联关系训练并优化模型，得到训练好的分类模型。

本发明实施例还提供了一种基于大数据的产品竞争关系量化生成装置，包括：

输入模块：获取用户消费的各阶段数据；所述各阶段数据包括关注阶段数据、意向阶段数据和考虑阶段数据；

竞争关系量化模块：对所述各阶段数据进行处理，根据规则对所述各阶段数据进行清洗和标准化后，对所述各阶段数据进行向量化；

竞品圈划分模块：通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此划分竞品圈；

竞品圈预测模块：利用分类算法训练分类模型，并通过所述模型结果叠加未上市新产品的目标形象或者物理属性，预判所述新产品的未来竞品圈。

相比于现有技术，本发明实施例具有如下有益效果：

通过对三个不同阶段的产品数据进行处理，对产品进行向量化，再划分竞品圈和预判其未来的竞品圈，能够快速了解产品在市场上的竞争情况，实现对本品主要竞品及所属竞品圈的准确性预判。

附图说明

图1：为本发明实施例中的方法步骤流程示意图；

图2：为本发明实施例中的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，本发明优选实施例提供了一种基于大数据的产品竞争关系量化生成方法，包括：

步骤1，获取用户消费的各阶段数据；所述各阶段数据包括关注阶段数据、意向阶段数据和考虑阶段数据；

步骤2，对所述各阶段数据进行处理，根据规则对所述各阶段数据进行清洗和标准化后，对所述各阶段数据进行向量化；

步骤3，通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此划分竞品圈。

在本实施例中，所述关注阶段数据包括相关产品的搜索和评论类的网络大数据；所述意向阶段数据包括相关产品之间的对比次数和反应相关产品之间关系的网络大数据；所述考虑阶段数据包括相关的两个产品同时被考虑的概率数据。

实施例二

在本实施例中，在步骤2中，所述对所述各阶段数据进行处理中，对所述关注阶段数据的处理，包括：

识别并剔除不合格的评论；

实施例三

在本实施例中，在步骤2中，所述对所述各阶段数据进行处理中，对所述意向阶段数据的处理，包括：

实施例四

在本实施例中，在步骤2中，所述对所述各阶段数据进行处理中，对所述考虑阶段数据的处理，包括：

识别并剔除所述用户提及相关产品过多或评论过短的数据；

将上述相互考虑矩阵进行归一化处理；

在实施例二、实施例三和实施例四中，所述向量运算算法至少包括欧几里得距离算法和余弦夹角距离算法。

实施例五

在本实施例中，所述步骤3中，通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此划分竞品圈，包括：

步骤3.1，通过各产品向量化后的数据，以所述数据向量计算所得距离相近的两个产品聚成一类；

步骤3.2，计算各产品对该聚类的距离以及两两产品间的距离；

步骤3.3，对上述步骤进行迭代，直至所有产品被聚成一类。

实施例六

在本实施例中，所述产品竞争关系量化生成方法，还包括：步骤4，利用分类算法训练分类模型，并通过所述模型结果叠加未上市新产品的目标形象或者物理属性，预判所述新产品的未来竞品圈。

在本实施例中，所述步骤4中，利用分类算法训练分类模型，包括：

实施例七

输入模块：输入各消费阶段的数据。关注阶段数据可以是搜索和评论类的网络大数据；意向阶段数据可以是车型之间对比次数或者其他可以反应车型之间关系的网络大数据；考虑阶段数据为两两同时被考虑车型的概率；

竞争关系量化模块：首先根据规则对数据进行全自动清洗和标准化；其次对每个车型进行向量化，也就是用数据的向量表达车型。在向量化的过程中，因为不同阶段的数据类型不同，采取不同的方法将每个车型数据化，用向量表达出来；最后基于每个车型的向量，选择合适的距离计算方式计算距离。这个距离的远近(大小)就可以反映竞争关系的强弱了；

竞品圈划分模块：利用聚类分析等方法，基于量化的两两车型之间的距离划分竞品圈；

竞品圈预测模块：利用判别分析或者支持向量机等方法训练模型，并利用该模型结果再叠加未上市新车型的目标形象或者物理属性预判其未来竞品圈。

本装置实施例的意义：1)系统、客观的反应现有产品竞争情况：首先可以描述在车型购买的不同阶段和其它车型的竞争情况，辅助厂家有针对性的在不同购买阶段制定不同的策略。其次解决厂家凭主观和直觉判断竞品而走偏的情况。2)量化竞争情况：帮助厂家找出最核心竞争对手。3)可预测：可以预测未来新车型上市后的竞争情况。

实施例八

如下描述4个模块建立的步骤，因为在购车的三个阶段可能面临的竞品不同，可采集的数据情况也不同，因此前两个模块分三个阶段分别说明怎样量化竞争关系，后两个模块是三个阶段都共享的：

关注阶段

输入模块：输入每个车型的评论类舆情数据。具体包含了潜客对于每个车型的形象、功能、品牌、口碑等等的评论信息(车型覆盖越全越好)。

竞争关系量化模块：1)清洗：识别并剔除不合格的评论。例如评论过短、无关键词、某些特殊词的TF-IDF过高的评论等；2)基于行业词库和分词软件对每条评论进行切词，并提取关键信息包括形象、功能、和类比的其它车型等；3)被类比的其它车型提及率如果显著超过平均提及率(例如超过两倍标准差)，则这个被类比的车型的形象被加权迁移至本车型形象；4)将各车型形象和功能通过词向量工具，转化为向量，例如智能＝(0.244,0.134,…,0)。每个车型基于它的形象词向量和功能词向量综合成一个向量，再利用向量运算(例如欧几里得距离，余弦夹角距离等多种计算距离的方式)计算出两个车型之间的距离。

意向阶段

输入模块：两两车型的对比记录(车型覆盖越全越好)。

竞争关系量化模块：1)清洗：若某ID对比车型总次数远高于各ID平均对比次数，则剔除这该ID所有发生的对比行为；2)计算对比矩阵：如果有N辆车，就是一个N*N的矩阵，矩阵的元素C_ij代表第j个车型对比第i个车型的次数，C_ii等于车型i被对比的总次数；3)将对比矩阵的行归一化：也就是第i行所有的数字都除以车型i被对比的总次数；4)每一行代表一个车型，换句话说就是每个车型可以用对应的那行的向量表达，通过向量运算(例如欧几里得距离，余弦夹角距离等多种计算距离的方式)计算出两个车型之间的距离。

考虑阶段

输入模块：输入消费者发表的关于自己买车的评论(车型覆盖越全越好)。

竞争关系量化模块：1)考虑车型提取：消费者在发表自己买车评论的时候会提及最后对比过什么车型。用语义挖掘把提及车型提取出来；2)清洗：提及车型过多、评论过短、提及车型价差太大等；3)计算相互考虑矩阵：如果有N辆车，就是一个N*N的矩阵，矩阵的元素C_ij代表购买第j个车型时考虑第i个车型的次数，C_ii等于车型i被考虑的总次数；4)将相互考虑矩阵的行归一化：也就是第i行所有的数字都除以车型i被考虑的总次数；5)每一行代表一个车型，换句话说就是每个车型可以用对应的那行向量表达，通过向量运算(例如欧几里得距离，余弦夹角距离等多种计算距离的方式)计算出两个车型之间的距离。

竞品圈划分模块：本模块(第三个模块)的输入是第二个模块(竞争关系量化模块)的输出---两两车型之间的距离。基于量化的两两车型之间的距离，进行系统聚类法划分竞品圈。系统聚类的过程如下：找到最相近的两个车型，这两个车型聚成一类。再计算其它车型到该类的距离(可以用平均距离，最大或最小距离等等)。所有未组队的车型两两之间的距离和上述类到未组队的车型之间的距离中取最小的为一组。上述过程迭代，直到所有车型都被聚入某类。该过程最大的意义是利用了车型之间的相对距离展示了汽车市场的竞争全貌，有多车型间的对比而不是只看到具体两车型的竞争情况。例如微观上看尽管A车型从距离上看是B车型最近的车，但是如果A车型和C，D车型的距离要近得多，那么A会与C和D先组成一类，B则会处于竞争外围。这个模块的产出为自动聚好的类，以及每一类包含的车型。它反映了市场的现象，即某两个车型在消费者心中是否接近。但是并不能给出原因，即为什么这两个车型相近。这一步解析将在下一个模块完成。

竞品圈预测模块：本模块的输入是第三个模块的输出---竞争类和每一类包含的车型。本模块要做到的就是根据一个新车型的物理或者其他特征，预判它将会属于哪一类。主要的方法是利用判别分析或者支持向量机等方法训练模型，并利用该模型结果再叠加未上市新车型的目标形象或者物理属性预判其未来竞品圈。其训练过程如下：输入现有每个车型的特征(包括物理特征或形象特征，如车身尺寸、价位段、车身形式、形象(如越野、豪华…)、品牌等)，利用分类方法(这里的备选方法主要是判别分析，支持向量基和决策树，但不限于这几个方法，只要是分类方法都在本专利保护范围之内)训练出车型特征与车型归属于哪一类之间的关联关系。各备选方法各自训练模型，根据模型结果综合考虑样本内外误差和稳定性后确定用哪个分类方法及训练好的模型最后入选。对于一个新车型，只要输入它的特征，就可以利用模型预判它属于哪一个类别了。

如果数据量很大，数据粒度足够细，上述方法可以对不同区域不同型号进行分类。同一个型号在不同区域上可以隶属于不同的竞争类别。预判竞争圈也可以在型号区域的层面进行，预判某个型号在某个区域上与谁竞争。

实施例八

对各模块模型建立后，新上市的车型的两个操作功能进行详细说明：

1，当新车型已有实际数据：判断该车型属于哪个类；

具体步骤：

输入模块：新车型和已存在的任何一个车型的对比记录；

竞争关系量化模块：1)清洗(只针对新车型数据做)：若某ID对比新车型总次数远高于各ID平均对比次数，则剔除这该ID所有发生的对比行为；2)计算已存在车型和新车型的对比向量：N+1代表新车型，C_(N+1)j代表第j个车型对比新车型的次数，C_(N+1)(N+1)等于新车型被对比的总次数；则新车型和已有车型对比向量4)其它已有车型i本来有N*1的向量来表达需要对该向量进行扩充，补入新车型(N+1)和本车型i的对比关系，变成5)通过向量运算(例如欧几里得距离，余弦夹角距离等多种计算距离的方式)计算出两个车型之间的距离：以欧几里得距离为例，新车型和第i个车型的距离:

竞品圈划分模块：计算新车型和每个类之间的距离，认为新车型属于距离最短的类。计算新车型与类间距离的方法可以有好几种，这里选取平均距离法作为例子。假设A类里面有车型i,j,k,B类里面有车型d,e,f。则新车型与A类之间的距离为DA＝(D_(N+1)i+D_(N+1)j+D_(N+1)k)/3，与B类之间的距离为DB＝(D_(N+1)d+D_(N+1)e+D_(N+1)f)/3。如果DA<DB则新车型属于A否则新车型属于B。

2，新车型没有实际的数据：预判其属于哪一类；

将新车型特征输入到竞品圈预测模块：如车身尺寸、价位段、车身形式、形象(如越野、豪华…)、品牌等，利用训练好的模型预判它属于哪一个类别。例如应用刚才的示例，如果新车型为：非豪华自主品牌，轴距<2.5米的SUV，价位段在15万，则可以预判它将会在C组中竞争。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的产品竞争关系量化生成方法，其特征在于，包括：

2.如权利要求1所述的产品竞争关系量化生成方法，其特征在于，所述关注阶段数据包括相关产品的搜索和评论类的网络大数据；所述意向阶段数据包括相关产品之间的对比次数和反应相关产品之间关系的网络大数据；所述考虑阶段数据包括相关的两个产品同时被考虑的概率数据。

3.如权利要求2所述的产品竞争关系量化生成方法，其特征在于，在所述对所述各阶段数据进行处理中，对所述关注阶段数据的处理，包括：

识别并剔除不合格的评论；

4.如权利要求2所述的产品竞争关系量化生成方法，其特征在于，在所述对所述各阶段数据进行处理中，对所述意向阶段数据的处理，包括：

5.如权利要求2所述的产品竞争关系量化生成方法，其特征在于，在所述对所述各阶段数据进行处理中，对所述考虑阶段数据的处理，包括：

识别并剔除所述用户提及相关产品过多或评论过短的数据；

6.如权利要求3-5任一项所述的产品竞争关系量化生成方法，其特征在于，所述向量运算算法至少包括欧几里得距离算法和余弦夹角距离算法。

7.如权利要求1所述的产品竞争关系量化生成方法，其特征在于，所述通过聚类分析方法，利用向量化后的产品特征计算两两产品之间的距离并基于此计算竞品圈的距离而划分竞品圈，包括：

通过各产品向量化后的数据，以所述数据向量计算得到距离，距离相近的两个产品聚成一类；

计算各产品对该聚类的距离以及两两产品间的距离；

对上述步骤进行迭代，直至所有产品被聚成一类。

8.如权利要求1所述的产品竞争关系量化生成方法，其特征在于，所述产品竞争关系量化生成方法，还包括：利用分类算法训练分类模型，并通过所述模型结果叠加未上市新产品的目标形象或者物理属性，预判所述新产品的未来竞品圈。

9.如权利要求8所述的产品竞争关系量化生成方法，其特征在于，所述利用分类算法训练分类模型，包括：

通过分类方法利用已有的产品特征与产品所属类的关联关系训练并优化模型，得到训练好的分类模型；

根据所述关联关系对模型进行训练，得到优化后的模型。

10.一种基于权利要求8所述的产品竞争关系量化生成方法的产品竞争关系量化生成装置，其特征在于，包括：

竞品圈预测模块：通过分类方法进行模型训练，并通过所述模型结果叠加未上市新产品的目标形象或者物理属性，预判所述新产品的未来竞品圈。