CN112182165B

CN112182165B - 基于在线评论的新产品质量规划方法

Info

Publication number: CN112182165B
Application number: CN202011168567.1A
Authority: CN
Inventors: 张忠良; 陈愉予; 雒兴刚; 曾鸣; 苑嘉航
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-05-20
Anticipated expiration: 2040-10-28
Also published as: CN112182165A

Abstract

本发明属于客户需求分析及产品技术领域，具体涉及基于在线评论的新产品质量规划方法。包括如下步骤：S1，数据的获取；S2，数据的预处理；S3，客户需求分析：S4，建立QFD模型。本发明具有不仅能够挖掘出客户的准确需求，还能够将其定量转换工程特性，为设计师设计新产品提供参考，帮助企业快速响应市场，实现盈利的特点。

Description

基于在线评论的新产品质量规划方法

技术领域

本发明属于客户需求分析及产品技术领域，具体涉及基于在线评论的新产品质量规划方法。

背景技术

自进入21世纪以来，科学技术的迅猛发展为世界带来了翻天覆地的变化，其中的一个明显特征即是交通带来的便利，加上电子商务和物流技术的迅猛发展，更是让人人都可以在家里等到各类产品送上门。同时，随着教育水平和生活水平的提高，客户对于产品的要求也越来越高，企业为了让自己的产品从大量同质化产品中脱颖而出，不得不时常改进现有产品或研发下一代产品。也正因为如此，为了不被瞬息万变的市场所淘汰，现代企业必须及时响应客户需求，通过产品质量规划以回应“客户的声音”。

产品质量规划的首要前提是准确了解客户的需求，然后将客户需求以某种方式转换为设计师更熟悉的工程特性以便能够设计出满足客户需求的新产品。传统的方法无论是在收集客户需求方面，还是在将客户需求转换为工程特性的方面，大多采用问卷调研、电话回访、头脑风暴和专家经验等形式，这会导致以下问题：第一是被询问对象的数量很有限，不能完全代表市场的需求；第二是依靠经验的方法会存在认知偏差，这种偏差会随着后续步骤的增加而被逐渐放大，从而对设计师产生误导，进而影响企业的销售和利润。

由上可知，国内外关于产品质量规划的方法虽有很多，但大多基于主观性判断，其规划的新产品难以达到客户满意度。因此，针对现有技术的不足，有必要提出一种技术方案以解决市场中的产品质量规划问题。

例如，申请号为CN200810085055.1的中国发明专利所述的一种产品研发质量控制系统及方法，所述系统包括：数据总线；质量功能展开QFD模块，用于进行产品指标的分阶段转换，在第一阶段将客户需求指标转换为多级产品研发指标中的第一级产品研发指标，并在后续阶段将前一级产品研发指标转换为下一级产品研发指标；指标管理模块，用于通过所述数据总线关联所述的客户需求指标数据及各阶段的产品研发指标数据，并形成映射路径；存储器，用于存储所述产品质量需求指标数据及各级产品研发指标数据。虽然利用质量数据总线来整合产品研发质量信息(如所有技术指标)，从而可将设计质量做到精准控制，但是其缺点在于从研发角度对产品进行质量规划，并没有从市场角度去规划产品，有一定的局限性，并不能解决市场中的产品质量规划问题。

发明内容

本发明是为了克服现有技术中，现有的国内外关于产品质量规划的方法大多基于主观性判断，其规划的新产品难以达到客户满意度的问题，提供了一种不仅能够挖掘出客户的准确需求，还能够将其定量转换工程特性，为设计师设计新产品提供参考，帮助企业快速响应市场，实现盈利的基于在线评论的新产品质量规划方法。

为了达到上述发明目的，本发明采用以下技术方案：

基于在线评论的新产品质量规划方法，包括如下步骤：

S1，数据的获取：

S11，选定研究目标，通过网络爬虫技术或者企业数据库获取研究目标的评论语料库；

S2，数据的预处理：

S21，删除评论语料库中的标点符号和表情符号；

S22，删除评论语料库中的无效评论；

S23，采用Doc2vec算法和基于正例和无标签样本学习策略识别并删除评论语料库中的虚假评论；

S24，对评论语料库进行分词；

S25，删除停用词，并将评论语料库分为目标产品评论语料库和训练产品评论语料库；

S3，客户需求分析：

S31，基于目标产品评论语料库，采用k-means算法、TF-IDF算法和专家经验得到客户需求；

S32，计算每一类客户需求的重要性；

S4，建立质量功能展开QFD模型：

S41，获取研究目标的工程特性及口语化词；

S42，采用训练产品评论语料库训练LDA模型；

S43，通过训练好的LDA模型和口语化词建立主题和工程特性之间的联系；

S44，通过所述训练好的LDA模型、目标产品评论语料库、主题和工程特性之间的联系建立QFD模型。

作为优选，步骤S22包括如下步骤：

S221.删除广告评论；

广告评论是那些希望潜在客户通过添加某一账号来获取所谓的优惠券，实则充满欺骗性诱导信息的评论。这类评论大多涉及某些关键词，通过建立广告词词典，一旦评论中的词出现在广告词词典中即可删除。

S222.删除过短评论，所述过短评论定义为字数少于6个的评论；

一个有效的评论是包含了客户关于某一类或多类具体产品属性评价的评论，然而过短评论很少会涉及到对产品属性的评价，一般是对于整个产品的评价或者是与产品无关的评价(例如，对于物流或客服的评价)。因此过短评论类似于噪声数据，也需要删除。在本发明中，定义字数少于6个的为过短评论。

S223.删除默认评论。

很多客户在下单之后没有去评论，系统则会在一定时间后反馈默认评论，这一类评论对分析没有帮助，通过建立默认评论词典来删除。

步骤S23包括如下步骤：

S231，通过采用Doc2vec算法，使每一段评论结构化；

所述Doc2vec算法为非监督算法，用于从句子、段落和文档的长文本中，学习得到固定长度的特征表示；

S232，通过咨询领域专家和经常购物的人，确定部分批量虚假评论，采用基于正例和无标签样本学习策略自动识别并删除评论语料库中剩余的其他虚假评论。

评论中存在着大量的虚假评论，商家为了得到更大的销量，更高的排名和更好的口碑，会雇佣一批人通过刷单的形式，撰写虚假评论，以此来达到目的。这一类评论一方面会严重误导客户购买可能没有达到自己预期的产品；另一方面，对于产品设计师，可能会错误理解客户的需求从而设计出偏离市场需求的产品。通过咨询领域专家和一些经常购物的人，确定小批量虚假评论(数量越大越容易判断错误)，采用基于正例和无标签样本学习策略自动识别并删除评论语料库中剩余的大量虚假评论。

作为优选，步骤S25包括如下步骤：

对分词之后的在线评论进行停用词删除，停用词存在于停用词词典，最终得到一个在线评论语料库；

令R＝{r₁,r₂,...,r_Nr}表示预处理之后的在线评论语料库，其中r_n表示R中的第n条在线评论，N_r表示R中的在线评论的数量，n＝1,2,...,N_r；令W＝{w₁,w₂,...,w_Nw}表示R中出现的所有不同的词的集合，其中w_q表示W中的第q个词，N_w表示W中的词数，q＝1,2,...,N_w；将R分为两部分，研究目标的在线评论集被视为目标产品评论语料库，令TA＝{ta₁,ta₂,...,ta_Nta}代表目标产品评论语料库，其中ta_m表示TA中的第m条在线评论，N_ta表示TA中的在线评论数量，m＝1,2,...,N_ta；不是研究目标的在线评论集视为训练产品评论语料库，令TR＝{tr₁,tr₂,...,tr_Ntr}代表训练产品评论语料库，其中tr_o表示TR中的第o条在线评论，N_tr表示TR中的在线评论数量，o＝1,2,...,N_tr；其中，N_r＝N_ta+N_tr。

作为优选，步骤S31包括如下步骤：

S311，采用TF-IDF算法结构化每一条在线评论，具体表示为：

TF-IDF_m,q＝TF_m,q×IDF_q (3.3)

其中，TF_m,q表示ta_m中w_q的出现频率；n_m,q表示ta_m中w_q出现的次数；|ta_m|表示ta_m中所有词出现的总数；IDF_q反映了w_q在TA中出现的频率，用于衡量一个词的一般重要性；|m:w_q∈ta_m|表示包含w_q的ta_m的数量；公式3.2中的分母“+1”是为了避免当w_q不在W中而导致分母等于0的情况；

通过TF-IDF算法可以获得ta_m中w_q的权重，即公式3.3所得结果；通过堆叠每条在线评论中每个词的权重，可以获得TA的结构化矩阵，表示为

S312，采用k-means算法对结构化的目标产品评论语料库聚类，具体表示为：

C＝{c₁,c₂,...,c_Nc} (3.4)

其中，

表示第i簇的在线评论集合，其中包含N_ci条在线评论，c_i中的第S条在线评论由

表示；

S313，利用TF-IDF算法计算出每一簇中的关键词，具体表示为：

其中，不同于公式3.3，公式3.5中TF-IDF_i,q表示c_i中w_q的权重，n_i,q表示c_i中w_q出现的次数，

表示为c_i中所有词的总数，|i:w_q∈c_i|+1表示出现w_q的簇的数量，最终得到c_i中所有词的权重，通过对所有词权重倒序排序，得到每一簇主要的关键词及其权重；

S314，通过将每一簇的关键词及其权重咨询领域内的专家，总结出每一簇代表的客户需求，具体表示为：

CR＝{cr₁,cr₂,...,cr_Ncr} (3.6)

其中，cr_i表示第i类客户需求，对应c_i。

作为优选，步骤S32包括如下步骤：

S321，若因为同一个产品属性会有不同的表达，而出现不同的簇被判断为同一个客户需求的情况，则合并相同客户需求的簇；

因为同一个产品属性会有不同的表达，例如，对于手机摄像头，可以被称为相机或者摄像头，因此可能会出现不同的簇被判断为同一个客户需求的情况，此时，合并相同客户需求的簇。

S322，为了准确把握市场上客户对于产品的需求倾向，对cr_i计算对应的权重，令

表示对应CR的权重集合，总数为N_iv，其中iv_i表示cr_i的权重，具体计算公式为：

公式3.7表示c_i中在线评论的数量占总体在线评论数量的比重，若比重越高，则认为权重越大，其中，N_c＝N_cr＝N_iv。

在c_i中每个关键词都需要权重才能判断客户需求，同样地，为了准确把握市场上客户对于产品的需求倾向，cr_i也应该计算对应的权重也便后续分析。

作为优选，步骤S41包括如下步骤：

S411，通过查阅相关文献，获得研究目标的工程特性；

S412，所述工程特性是产品设计师的语言，通过咨询相关专家，收集每一个工程特性相关的口语化表达，建立一个工程特性口语化词典，用于建立产品设计师语言和普通客户语言之间的联系；令

表示总数为N_ec的工程特性集合，其中

表示第j个工程特性，其中包含总计为N_ecj个的口语化词，j＝1,2,...,N_ec，

表示ec_j中第z个口语化词。

作为优选，步骤S42包括如下步骤：

所述LDA模型是一种主题模型，用于挖掘文本信息中隐藏的主题分布，将训练产品评论语料库输入LDA模型，具体表示为：

其中，p(word|revi是从在线评论中统计的Word-Review分布，p(word|top为LDA模型生成的Word-Topic分布，p(topic|review)为LDA模型生成的Topic-Review分布；

使用TR训练LDA模型，以提取客户在研究目标上讨论的主要主题；设定T＝{t₁,t₂,...,t_Nt}表示生成的主题的集合，其中t_u表示第u个主题，N_t表示主题数，t＝1,2,...,N_t。

大量的短文本在线评论在一个语料库里形成了一种长文本的结构。由于TA和TR来自同一研究对象，因此它们在上述分布中应具有高度的一致性。

作为优选，步骤S43包括如下步骤：

LDA模型由批量的口语化词训练而成，通过输入每一个口语化词

LDA模型输出当前词属于每一个主题的概率；通过对应叠加

属于t_u的概率，得到ec_j属于t_u的总概率：

令

表示EC相关主题集合，其中

作为ec_j关联概率排序前三的主题索引，表示

出现在rt_j下的概率最大；其中，

作为优选，步骤S44包括如下步骤：

使用c_i作为LDA模型的输入，LDA模型输出c_i属于t_u的概率，对于ec_j，在rt_j中包含ec_j前三个关联概率最高的主题，分别赋予权重：5、3、1，并最终通过下式来表示cr_i和ec_j之间的关联值：

当所有客户需求与工程特性之间的关系值被计算出来之后，即得到了关系矩阵，并根据获得的信息建立QFD模型。

文本由段落组成，段落由句子组成，而句子又由词组成，从上述角度出发，训练完成的LDA模型不仅可以针对单个给定的词，同样也可以针对长文本(如在线评论)输出其属于每个主题的概率。

例如，如果目标是获得ec₁和cr₁之间的关联，假设rt₁＝{2，6，8}，那么只需要关注cr₁属于t₂，t₆和t₈的概率，并按照式公式4.3获得relationship_1，1，最终该值被视为两者之间的关联值。

本发明与现有技术相比，有益效果是：(1)本发明对于客户需求下产品设计提出新的质量规划方法，能有效贴近市场需求和企业目标，通过在数据驱动下，捕捉大量的客户需求并转换至工程特性，实现产品质量规划，能够最大程度的实现投入产出比，避免对于无用需求的过度考虑和设计而造成的成本提高；(2)本发明能够对任意产品进行质量规划，帮助企业做好决策，最后使企业获取更高的总体利润；(3)本发明是基于QFD模型和文本挖掘技术的产品质量规划的方法，拓展了QFD模型在产品领域的应用，打破了传统直接利用专家经验的方式来指定客户需求和关系矩阵的方式，利用大量评论作为数据源，通过一系列的数据预处理方法保证了客户需求的准确性，并通过文本挖掘技术转换至工程特性，为设计师提供参考；(4)本发明能从市场的角度出发，使通过本发明规划的产品更具有市场竞争力，具有广泛的应用前景。

附图说明

图1为本发明基于在线评论的新产品质量规划方法的一种流程图；

图2为本发明中步骤S2数据的预处理的一种流程图；

图3为本发明中过短评论的一种示意图；

图4为本发明中建立的QFD模型的一种结构示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本实施方式通过对中国三大电子商务网站(天猫，京东，苏宁)的产品评论来分析客户对于特定产品的需求，通过一系列的数据预处理方法，将客户需求作为QFD的左墙，结合文本挖掘技术后计算获得QFD的关系矩阵，实现客户需求对工程特性的转换，帮助设计师能更准确的设计出符合市场需求的下一代产品。

实施例1：

如图1所示，本发明提供了基于在线评论的新产品质量规划方法，包括如下步骤：

S1，数据的获取：

选择研究对象为智能手机，目标品牌为华为品牌的智能手机；编写网络爬虫程序，在3个目标网站上获得主流品牌的智能手机评论：Apple，Samsung，OPPO，Xiaomi，VIVO，Meizu，Lenovo，Honor，Sony，OnePlus，ZTE，Smartisan，Nubia。各平台和各品牌的评论数量如下表1所示：

表1各平台和各品牌的评论数量

S2，数据的预处理，具体流程如图2所示：

S21，删除评论语料库中的标点符号和表情符号；

建立符号词典，循环每一条评论删除标点符号和表情符号；

S22，删除评论语料库中的无效评论；

建立广告词词典、默认评论词典分别用来删除广告评论和默认评论；通过循环每一条评论，如果评论字数少于6个，则视为过短评论并删除，过短评论的示例如图3所示；

S23，采用Doc2vec算法和基于正例和无标签样本学习策略(PU-Learning)识别并删除评论语料库中的虚假评论；

使用Doc2vec算法结构化评论后，通过咨询专家和经常购物的人，确定小批量虚假评论(刷单评论)，运行PU-Learning算法识别并删除在评论语料库中剩下的大量虚假评论，PU-Learning算法的伪代码如下表2所示：

表2PU-Learning算法伪代码

表2中，P是确定小批量虚假评论(刷单评论)，U是剩余的无法确定是否为虚假评论的大量评论。最终输出的分类器f可作为识别虚假评论的分类器，用来识别U中存在的虚假评论。

S24，对评论语料库进行分词；

对所有评论进行分词

分词之后，通过通用停词表和专业领域停词表删除停用词，两个停词表都可根据不同实验目的对其中的词进行增删改查。删除停用词之后，评论语料库中的华为品牌评论被视为TA，其余品牌评论被视为TR。

S3，客户需求分析：

通过k-means算法聚类TA，得到C，对c_i通过TF-IDF算法计算关键词及其权重，然后咨询专家得到CR，具体如下表3所示，其中，由于篇幅限制，c_i只显示权重排名前3的关键词：

表3客户需求

S32，计算每一类客户需求的重要性；

c_i由一定量的评论聚成，这些评论在不同簇之间的相似度不高，但在同一簇之间的相似度很高。通过计算每一簇评论量占所有评论量的比重，得到IV；

S4，建立QFD模型：

S41，获取研究目标的工程特性及口语化词；

研究目标是智能手机，通过查阅文献，得到智能手机的工程特性集合EC。并通过与专家和经常购物的人讨论，确定了ec_j的口语化词，具体如下表4所示，其中由于篇幅限制，ec_j取5个口语化词展示：

表4智能手机工程特性对应的口语化词表

S42，采用训练产品评论语料库训练LDA模型；

TR用来训练一个LDA模型，因为同属于智能手机评论，在数据量足够的情况下，训练的LDA模型生成的主题-词分布将与目标产品评论的主题-词分布有很高的一致性；

将ec_j的口语化词输入已训练好的LDA模型，LDA模型输出口语化词属于T的概率，最终得到RT。具体如下表5所示：

表5工程特性的最相关主题表

其中，有个别工程特性最相关主题不足3个，是这些主题很少有客户会反馈所造成的，导致在很多主题下不会出现相关口语化词汇。

S44，通过所述训练好的LDA模型、目标产品评论语料库、主题和工程特性之间的联系建立QFD模型；

类似于步骤S43，对于已训练好的LDA模型，不仅对于输入特定的词，LDA模型能够输出概率分布，而且对于输入特定的文本，LDA模型也能输出概率分布。将c_i的所有评论输入LDA模型，输出为c_i属于T的概率。因为ec_j最相关主题只有3个，因此对于ec_j，要计算与c_i之间的关系，应当记录c_i属于这3个最相关主题的概率依次乘以权重5、3、1的求和值。

当所有关系均被计算出的时候，最终QFD模型的建立如图4所示。

从建立的QFD模型中得到的结论是：客户对于华为品牌手机最大的客户需求是关于外观的，其次是摄像头像素和屏幕。对于外观，关联最大的前3个工程特性依次是Displaydriver，Industry design和Mobile application software，这意味着设计师如果想满足客户关于外观的需求，那么就需要着重考虑重新设计这3个工程特性。对于摄像头，关联最大的前3个工程特性依次是Camera lens module，Brightness sensor和Display driver，设计师如果想要满足客户对于摄像头的需求，那么就需要着重考虑这3个工程特性。再比如，对于客户关于屏幕的需求，设计师就应该考虑Display driver，Industry design和Mobile application software这3个工程特性。

本发明对于客户需求下产品设计提出新的质量规划方法，能有效贴近市场需求和企业目标，通过在数据驱动下，捕捉大量的客户需求并转换至工程特性，实现产品质量规划，能够最大程度的实现投入产出比，避免对于无用需求的过度考虑和设计而造成的成本提高；本发明能够对任意产品进行质量规划，帮助企业做好决策，最后使企业获取更高的总体利润；本发明是基于QFD模型和文本挖掘技术的产品质量规划的方法，拓展了QFD模型在产品领域的应用，打破了传统直接利用专家经验的方式来指定客户需求和关系矩阵的方式，利用大量评论作为数据源，通过一系列的数据预处理方法保证了客户需求的准确性，并通过文本挖掘技术转换至工程特性，为设计师提供参考；本发明能从市场的角度出发，使通过本发明规划的产品更具有市场竞争力，具有广泛的应用前景。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。