CN110533316A

CN110533316A - 一种基于大数据的产品生命周期分析方法、系统及存储介质

Info

Publication number: CN110533316A
Application number: CN201910790486.6A
Authority: CN
Inventors: 赵彩辉
Original assignee: Qingdao State Building Supply Chain Ltd By Share Ltd
Current assignee: Qingdao State Building Supply Chain Ltd By Share Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-03

Abstract

本发明提出一种基于大数据的产品生命周期分析方法、系统及存储介质，包括以下步骤：S1、数据获取步骤：获取各产品的数据信息；S2、数据处理步骤：包括数据清洗，数据分类，添加标签；S3、模型分析步骤：包括建立指标体系，构建模型，模型分析；所述的模型采用扩展的Bass‑e模型。本发明将大数据思维模式引入传统的市场调研中，面向大数据视野研究产品生命周期分析，通过全面准确的采集产品数据信息，加强数据挖掘与处理，分析并预测真实的市场需求。公司可以准确把握产品周期、提前进行研发布局，从而在市场有需求时快速准确投入，保证持续稳定供货，大大降低生产成本。

Description

一种基于大数据的产品生命周期分析方法、系统及存储介质

技术领域

本发明属于互联网技术领域，尤其是涉及一种基于大数据的产品生命周期分析方法、系统和存储介质。

背景技术

汽车作为一种较大型的交通工具，涉及的零配件有成千上万个，并且品类、型号复杂。传统汽车零配件包括常见的保养件、易损件、较少更换的非易损件以及发生事故后需要更换的事故件等。在上述四类配件中，非易损件虽然更换频率低，但由于配件单价较高，因此在后市场配件中价值占比最高，流通难度最大。对于专注于非易损件市场的公司而言，目前主要的瓶颈和挑战在于非易损件种类繁多，下游与车型匹配关系较为复杂且通用度极低，同时随新车型的发布急速增长，因此，若要统计出整个国家内甚至全球内某个非易损件品类的需求量，采用传统的人力搜集方法无异于大海捞针，加之我国汽车后市场上配件信息不透明，导致挖掘需求信息的难度非常大，根本无法实现。同时，汽车配件存在生命周期，只有准确预测提前布局才能持续不断的开发新品，适应市场需求。

在互联网得到普及应用的情况下，大数据时代已经正式到来。“大数据”也被称为巨量资料，它指网上图像、文本、音频和视频等数据所涉及的资料总体量规模巨大，无法用目前的常用普通软件等处理工具在合理时间内进行处理，也无法整理成为对用户有价值的资讯。也就是说，大数据具有四个特征，体量巨大、信息密度低、数据类型多、要求的处理速度快。大数据时代，信息呈爆炸式增长，目前，互联网上的数据每年都会增长50%。在这种时代背景下，客户购买行为、需求模式以及市场趋势等都在不断发展和变化，传统的产品调研以及生命周期分析方法已经无法高效完成。

为此，本发明提出一种基于大数据的产品生命周期分析方法、系统和存储介质，面向大数据视野研究产品生命周期与市场分析，通过全面准确的采集产品数据信息，加强数据挖掘与处理，分析并预测真实的市场需求。利用本发明的系统，公司可以准确把握产品周期、提前进行研发布局，从而在市场有需求时快速准确投入，保证持续稳定供货，大大降低生产成本。

发明内容

本发明需解决的技术问题是：如何利用大数据分析市场趋势以及产品的生命周期，帮助指明产品研发方向。

为了解决上述技术问题，本发明提出一种基于大数据的产品生命周期分析方法，包括以下步骤：

S1、数据获取步骤：获取各产品的数据信息；

S2、数据处理步骤：包括数据清洗，数据分类，添加标签；

S3、模型分析步骤：包括建立指标体系，构建模型，模型分析；

所述的模型采用扩展的Bass-e模型：

n(t)=[p+ N(t-1)][M+M_r(t)-N(t-1)]E(t);

其中，t为时间变量，以月为间隔，t={1,2,3……n}；n(t)为t时刻新增的消费者数量；p为创新指数；q为下一代产品的模仿系数；r为重复购买率；0≤p、q、r＜1；M为产品潜在消费者总量；N(t-1)为t-1时刻产品累计扩散量，N(t-1)直接影响t时刻新增的产品扩散量；M_r(t)为由于重复购买而增加的潜在产品扩散量；E(t)表示修正系数；

进一步的，修正系数E(t)=1+d₁E₁(t) +d₂E₂(t) +d₃E₃(t) +……+d_xE_x(t)；

其中，E_i(t)表示第i项影响因子在t时刻的变化率；d_i表示第i项影响因子的变量系数，-1≤d_i≤1，正号表示对产品扩散的正向影响，即促进产品扩散；负号则表示对产品扩散的抑制作用。

进一步的，在数据获取步骤中，将公司的产品数据信息录入数据库；来自第三方的产品数据信息利用java程序或Sqoop工具将结构化的Excel数据表提取到数据库中；来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。

进一步的，数据处理步骤包括数据清洗预加工，数据分类聚类以及模型建立与分析步骤。

作为本发明对数据清洗预加工步骤的改进，数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。

进一步的，对于重复数据的清洗，依赖于现有的excel去重程序即可实现全自动去重。

进一步的，对于缺失数据的补充，首先通过机器自动标引的方式查找并圈定缺失数据范围，之后，根据各种数据缺失原因采用机器与人工共同补正的方式进行填充。

进一步的，在数据获取步骤中采集到的错误数据，如果是偶发的随机性错误，借助全人工的方式逐一删除或纠正即可；如果同类错误数据批量出现，则通过matlab程序对错误数据进行纠正。

进一步的，在分类聚类处理步骤中，采用切词算法将连续汉子构成的句子依据特定的原则切分成词，并利用TF-IDF算法进行关键词的提取。

进一步的，采用词聚类算法对切词步骤得到的待筛选的词语转换成向量空间中的向量，对这些向量进行聚类，从而提取出关键词。

进一步的，模型分析步骤中选取的计算指标包括地区类指标、产品品类指标、财务类指标；地区类指标包括产品的主要销售地；产品品类指标包括产品名称，品牌，型号；财务类指标包括产品单价、销售量、销售额、生产成本、毛利率、交易时间。

作为本发明的另一方面，提供一种基于大数据的产品生命周期分析系统，包括：产品数据采集模块、数据处理模块和模型分析模块。数据采集模块用于获取各产品的数据信息，执行数据获取步骤；数据处理模块用于对获取的数据进行加工处理，执行数据处理步骤；模型分析模块则用于建立算法模型并对产品数据进行智能分析并得到预测的产品生命周期。也就是说，所述基于大数据的产品生命周期分析系统用于执行本发明的基于大数据的产品生命周期分析方法。

作为本发明的另一方面，提供一种存储介质，其中所述基于大数据的产品生命周期分析系统以可执行的软件的形式存储在所述存储介质中，用于执行本发明的方法。

本发明有益效果：

本发明提出的基于大数据的产品生命周期分析方法和系统，具有如下优点。

1.用大数据的思想转变传统市场调研与产品生命周期分析的思维与方式，将从不同维度与不同途径获取的多种格式数据碎片进行整合处理。以全样本分析代替传统的抽样分析，更高的精确性有助于发现更多的细节。

2.通过模型学习逐步调整模型的适用性和准确性，实时监控市场趋势变化，挖掘不同因素之间的相关关系，获得更接近市场真实状态的研究成果。为企业带来更好的洞察力和更大的商业利益。

3.本发明的基于大数据的产品生命周期分析方法，通过对海量的产品数据进行清洗、处理和不同维度的交叉联系分析，使得各个信息之间互相验证互相比较真伪，提高了调研数据的容错性，最终得到真实可靠的产品发展趋势。有助于准确分析产品的生命周期，对产品的更新迭代作出准确预测。

4.本发明的基于大数据的产品生命周期分析系统能够帮助公司准确把握产品迭代周期、提前进行研发布局，从而在市场有需求时快速准确投入，保证持续稳定供货，大大降低生产成本。

附图说明

图1为本发明基于大数据的产品生命周期分析方法示意图；

图2为本发明的大数据获取步骤示意图；

图3为本发明的大数据处理步骤示意图；

图4为本发明的Bass-e模型分析步骤示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细、完整的说明。以下的说明本质上仅仅是示例性的而并不是为了限制本公开、应用或用途。

如图1所示，本发明基于大数据的产品生命周期分析方法，包括以下步骤：

S1、数据获取步骤：获取各产品的数据信息；

S2、数据处理步骤：包括数据清洗，数据分类，添加标签；

S3、模型分析步骤：包括建立指标体系，模型学习，模型分析。

如图2所示，在数据获取步骤中，将公司的产品数据信息录入数据库；来自第三方的产品数据信息利用java程序或Sqoop工具将结构化的Excel数据表提取到数据库中；来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。

通过数据获取步骤，已经获得了包括不同来源、不同维度的海量数据。由于大数据“大”的特性，这些数据的价值密度实际上还太低，无法直接利用，因此数据处理是数据利用前不可或缺的重要步骤。数据处理步骤主要是对数据进行净化或清理，进而做统计性的分类、聚类，据此在海量数据中定义出更丰富的有价值的变量。

如图3所示，数据处理步骤包括数据清洗预加工，数据分类聚类以及模型建立与分析步骤。

具体地，数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。从数据清洗的实现方式看，包括“全人工方式”、“全自动方式”、“实时人机交互式”以及“异步人机交互式”四种。

对于重复数据的清洗，依赖于现有的excel去重程序即可实现全自动去重。

对于缺失数据的补充，则需要采用异步人机交互的方式来实现数据补全。首先通过机器自动标引的方式查找并圈定缺失数据范围。确定缺失数据的范围后，人工辅助辨别数据缺失原因。然后，对于各种数据缺失原因采用机器与人工共同补正的方式进行填充。

在本发明的实践过程中，数据缺失的原因大致有以下几种：（1）将数据录入或存入数据库的过程中，由于机器的损坏造成数据存储失败；（2）数据抓取工具选择或设计的不恰当，造成对于某种或某些类型的数据采集不全面；（3）数据源本身的数据缺失。

在基本确定造成数据缺失的原因后，针对各种数据缺失原因分别进行处理：对于由于机器损坏造成数据存储失败的部分数据，重新录入；确定是由于抓取工具有效性造成的，对原有的数据抓取工具进行优化或改写，使其与数据源的匹配程度更完善；对于因为数据源本身造成的数据缺失，则需要分情况进行处理：如果该部分数据量在整个数据量中占的比例非常小的情况下，可以采用删除法直接将其剔除，这样将非常简单而有效。但是，删除法最明显的不足之处在于减少了原始数据，导致了信息的损耗。因此，当缺失数据所占比例较大时，特别是当缺失数据非随机分布时，删除法可能导致数据发生偏离，导致得出错误的结论，此时采用填补法则更为合适。

在数据获取步骤中采集到的错误数据，如果是偶发的随机性错误，发生率极低，且分布随机。在本发明的实践中，数据一般按照小区块存储，其中在每个小区块中，最多只可能发生随机1 bit错误。在这种情况下，借助全人工的方式逐一删除或纠正即可。排除随机性错误，如果同类错误数据批量出现，则通过各种已有的函数算法对错误数据进行纠正。例如采用matlab程序，编写ECC编码等。

经过前期对获取数据的清洗步骤，实现了去粗取精、补充完善，数据范围基本确定，数据质量以及价值密度也基本满足模型分析的要求。对于数值类数据而言，可以直接输入算法模型进行计算分析。但对于文本类的非结构化数据，还需要进行分类聚类处理。

作为本发明的实施方式之一，采用切词算法将连续汉子构成的句子依据特定的原则切分成词，切词是文本类信息处理和分析的前提。本发明采取NLPIR分词软件，单机分词可达996KB/s的高速度，分词精度可达98.45%。在切词完成的基础上，利用词频统计进行辅助加工，进一步提取出与分析目的相关的关键词。已知的提取关键词的方法可以举例如下：文档频次方法、TF-IDF算法、期望交叉熵算法、信息增益方法等，其中应用最广泛的是TF-IDF算法（可检索修正），因此，本发明选择该算法来对评论文本进行关键词的提取。

作为本发明的实施方式之一，采用词聚类算法对切词步骤得到的待筛选的词语转换成向量空间中的向量，对这些向量进行聚类，从而提取出关键词集合。已知的词聚类方法包括K-means算法、Hadoop Map Reduce、Info Sphere Streams、AP聚类算法等数据处理技术。本发明选择Info Sphere Streams技术来实现数据分析，Info Sphere Streams是对AP聚类算法的扩展，通过稀疏化各子集，然后融合各子集稀疏化后的数据再次AP聚类，从而实现通过单遍扫描对海量数据的高效聚类。

完成切词的分类聚类处理后，对所提取的关键词添加标签，并将其作为模型分析的计算指标，至此，本发明的数据获取、数据处理步骤完成，进入模型分析步骤。

如图4所示，模型分析步骤包括建立指标矩阵，进行数据分析以及机器学习校验三个步骤。

具体地，本发明选取的计算指标包括地区类指标、产品品类指标、财务类指标、产业类指标。地区类指标包括产品的主要销售地中国、美国、日本、德国等国家。产品品类指标包括产品名称，品牌，型号等。财务类指标包括产品单价、销售量、销售额、生产成本、毛利率、交易时间等。产业类指标包括竞争者数量、新进企业、新增产品品类等。

构建扩展的Bass-e模型：

n(t)=[ p+N(t-1)][M+M_r(t)-N(t-1)]E(t);

其中，t为时间变量，以月为间隔，t={1,2,3……n}；n(t)为t时刻新增的消费者数量；p为创新指数；q为下一代产品的模仿系数；r为重复购买率；0≤p、q、r＜1；M为产品潜在消费者总量；N(t-1)为t-1时刻产品累计扩散量，N(t-1)直接影响t时刻新增的产品扩散量；M_r(t)为由于重复购买而增加的潜在产品扩散量；E(t)表示修正系数。

修正系数E(t)=1+d₁E₁(t)+d₂E₂(t)+d₃E₃(t)+……+d_xE_x(t)；

模型建立完成后，对产品数据进行分析计算步骤。

作为本发明的实施方式之一，在模型建立后，利用历史数据对模型进行机器学习和验证，对模型进行进一步的优化，提高预测精度。历史数据信息包括销售增长率、产品品类、竞争者数量和新进企业。

实施例1

根据本发明，参见说明书附图1-4，以空气泵总成为例，执行基于大数据的产品生命周期分析方法，包括以下步骤：

S1、数据获取步骤：获取空气泵总成的数据信息；

S2、数据处理步骤：包括数据清洗，数据分类，添加标签；

数据来源可以选择企业官网、海关、4s店以及销售订单反馈。如图2所示，在数据获取步骤中，将公司的产品数据信息录入数据库；来自海关、4s店的产品数据信息利用java程序或Sqoop工具将结构化的Excel数据表提取到数据库中；来自企业官网上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。

如图3所示，对采集到的数据进行数据处理。具体如下：

在数据获取步骤中采集到的错误数据，如果是偶发的随机性错误，发生率极低，且分布随机。在这种情况下，借助全人工的方式逐一删除或纠正即可。排除随机性错误，如果同类错误数据批量出现，则通过各种已有的ECC编码算法对错误数据进行纠正。

采用切词算法将连续汉子构成的句子依据特定的原则切分成词，切词是文本类信息处理和分析的前提。本发明采取NLPIR分词软件，单机分词可达996KB/s的高速度，分词精度可达98.45%。在切词完成的基础上，利用词频统计进行辅助加工，进一步提取出与分析目的相关的关键词。已知的提取关键词的方法可以举例如下：文档频次方法、TF-IDF算法、期望交叉熵算法、信息增益方法等，其中应用最广泛的是TF-IDF算法（可检索修正），因此，本发明选择该算法来对评论文本进行关键词的提取。

之后，对所提取的关键词添加标签，并将其作为模型分析的计算指标，至此，本发明的数据获取、数据处理步骤完成，进入模型分析步骤。

如图4所示，模型分析步骤包括选择指标体系，建立模型以及进行数据分析三个步骤。

具体地，本发明选取的计算指标包括地区类指标、产品品类指标、财务类指标。地区类指标包括产品的主要销售地。产品品类指标包括产品名称，品牌等。财务类指标包括产品单价、生产成本、交易时间等。

构建扩展的Bass-e模型：

n(t)=[ p+N(t-1)][M+M_r(t)-N(t-1)]E(t);

修正系数E(t)=1+d₁E₁(t)+d₂E₂(t)+d₃E₃(t)+d₄E₄(t)；

其中，E₁表示地区因素；E₂表示单价因素；E₃表示成本因素；E₄表示交易时间因素；d_i表示第i项影响因子的变量系数，-1≤d_i≤1，正号表示对产品扩散的正向影响，即促进产品扩散；负号则表示对产品扩散的抑制作用。

模型建立完成后，对产品数据进行分析计算。

实施例2

与实施例1类似，不同之处在于：在模型建立后，利用历史数据对模型进行机器学习和验证，对模型进行进一步的优化，提高预测精度。历史数据信息包括销售增长率、产品品类、竞争者数量和新进企业，如下表1所示。

以转向器为例，转向器1代表第一代产品，转向器2代表第2代产品，转向器3代表第3代产品，列出产品品类与行业数据的数据矩阵。

表1

产品品类	销售增长率	竞争者数量	新进企业
				转向器1	-18%	101	0
转向器2	10%	313	68
				转向器3	8%	72	5

根据历史数据统计可以发现，转向器1已经处于衰退期，市场逐渐萎缩。转向器2目前处于成熟期，市场上竞争者数量较多，并且新进企业还在不断涌入，市场竞争大。转向器3则属于新迭代产品，目前市场上竞争者数量较少，由于新技术尚未完全掌握，因此新进企业数量也少。利用上述历史数据对模型进行机器学习和验证，逐步优化各参数变量，使得最终模型计算分析的结果精度范围在±0.1年。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于大数据的产品生命周期分析方法，包括以下步骤：

S1、数据获取步骤：获取各产品的数据信息；

S2、数据处理步骤：包括数据清洗，数据分类，添加标签；

其特征在于：

所述的模型采用扩展的Bass-e模型：

n(t)=[p+N(t-1)][M+M_r(t)-N(t-1)]E(t);

2.根据权利要求1的方法，其中，在所述数据获取步骤中，将公司的产品数据信息录入数据库；来自第三方的产品数据信息利用java程序或Sqoop工具将结构化的Excel数据表提取到数据库中；来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。

3.根据权利要求1的方法，其中，数据处理步骤包括数据清洗预加工，数据分类聚类以及模型建立与分析步骤。

4.根据权利要求3的方法，其中，数据清洗预加工包括重复数据清洗、缺失数据填充和纠正或删除错误数据。

5.根据权利要求4的方法，其中，对于重复数据的清洗，依赖于现有的excel去重程序即可实现全自动去重；

进一步的，对于缺失数据的补充，首先通过机器自动标引的方式查找并圈定缺失数据范围，之后，根据各种数据缺失原因采用机器与人工共同补正的方式进行填充；

6.根据权利要求3的方法，其中，在数据分类聚类处理步骤中，采用切词算法与TF-IDF算法进行关键词的提取。

7.根据权利要求3的方法，其中，采用词聚类算法对待筛选的词语转换成向量空间中的向量，对这些向量进行聚类，提取出关键词。

8.根据权利要求1的方法，其中，所述模型分析步骤中选取的计算指标包括地区类指标、产品品类指标、财务类指标；地区类指标包括产品的主要销售地；产品品类指标包括产品名称，品牌，型号；财务类指标包括产品单价、销售量、销售额、生产成本、毛利率、交易时间。

9.一种基于大数据的产品生命周期分析系统，包括：产品数据采集模块、数据处理模块和模型分析模块；数据采集模块用于获取各产品的数据信息，执行数据获取步骤；数据处理模块用于对获取的数据进行加工处理，执行数据处理步骤；模型分析模块则用于建立算法模型并对产品数据进行智能分析并得到预测的产品生命周期；所述基于大数据的产品生命周期分析系统用于执行权利要求1-8中任一项的方法。

10.一种存储介质，其特征在于：所述权利要求9的基于大数据的产品生命周期分析系统以可执行的软件的形式存储在所述存储介质中，用于执行权利要求1-8中任一项的方法。