CN112182165B - 基于在线评论的新产品质量规划方法 - Google Patents

基于在线评论的新产品质量规划方法 Download PDF

Info

Publication number
CN112182165B
CN112182165B CN202011168567.1A CN202011168567A CN112182165B CN 112182165 B CN112182165 B CN 112182165B CN 202011168567 A CN202011168567 A CN 202011168567A CN 112182165 B CN112182165 B CN 112182165B
Authority
CN
China
Prior art keywords
online
comment
comments
corpus
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011168567.1A
Other languages
English (en)
Other versions
CN112182165A (zh
Inventor
张忠良
陈愉予
雒兴刚
曾鸣
苑嘉航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011168567.1A priority Critical patent/CN112182165B/zh
Publication of CN112182165A publication Critical patent/CN112182165A/zh
Application granted granted Critical
Publication of CN112182165B publication Critical patent/CN112182165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于客户需求分析及产品技术领域,具体涉及基于在线评论的新产品质量规划方法。包括如下步骤:S1,数据的获取;S2,数据的预处理;S3,客户需求分析:S4,建立QFD模型。本发明具有不仅能够挖掘出客户的准确需求,还能够将其定量转换工程特性,为设计师设计新产品提供参考,帮助企业快速响应市场,实现盈利的特点。

Description

基于在线评论的新产品质量规划方法
技术领域
本发明属于客户需求分析及产品技术领域,具体涉及基于在线评论的新产品质量规划方法。
背景技术
自进入21世纪以来,科学技术的迅猛发展为世界带来了翻天覆地的变化,其中的一个明显特征即是交通带来的便利,加上电子商务和物流技术的迅猛发展,更是让人人都可以在家里等到各类产品送上门。同时,随着教育水平和生活水平的提高,客户对于产品的要求也越来越高,企业为了让自己的产品从大量同质化产品中脱颖而出,不得不时常改进现有产品或研发下一代产品。也正因为如此,为了不被瞬息万变的市场所淘汰,现代企业必须及时响应客户需求,通过产品质量规划以回应“客户的声音”。
产品质量规划的首要前提是准确了解客户的需求,然后将客户需求以某种方式转换为设计师更熟悉的工程特性以便能够设计出满足客户需求的新产品。传统的方法无论是在收集客户需求方面,还是在将客户需求转换为工程特性的方面,大多采用问卷调研、电话回访、头脑风暴和专家经验等形式,这会导致以下问题:第一是被询问对象的数量很有限,不能完全代表市场的需求;第二是依靠经验的方法会存在认知偏差,这种偏差会随着后续步骤的增加而被逐渐放大,从而对设计师产生误导,进而影响企业的销售和利润。
由上可知,国内外关于产品质量规划的方法虽有很多,但大多基于主观性判断,其规划的新产品难以达到客户满意度。因此,针对现有技术的不足,有必要提出一种技术方案以解决市场中的产品质量规划问题。
例如,申请号为CN200810085055.1的中国发明专利所述的一种产品研发质量控制系统及方法,所述系统包括:数据总线;质量功能展开QFD模块,用于进行产品指标的分阶段转换,在第一阶段将客户需求指标转换为多级产品研发指标中的第一级产品研发指标,并在后续阶段将前一级产品研发指标转换为下一级产品研发指标;指标管理模块,用于通过所述数据总线关联所述的客户需求指标数据及各阶段的产品研发指标数据,并形成映射路径;存储器,用于存储所述产品质量需求指标数据及各级产品研发指标数据。虽然利用质量数据总线来整合产品研发质量信息(如所有技术指标),从而可将设计质量做到精准控制,但是其缺点在于从研发角度对产品进行质量规划,并没有从市场角度去规划产品,有一定的局限性,并不能解决市场中的产品质量规划问题。
发明内容
本发明是为了克服现有技术中,现有的国内外关于产品质量规划的方法大多基于主观性判断,其规划的新产品难以达到客户满意度的问题,提供了一种不仅能够挖掘出客户的准确需求,还能够将其定量转换工程特性,为设计师设计新产品提供参考,帮助企业快速响应市场,实现盈利的基于在线评论的新产品质量规划方法。
为了达到上述发明目的,本发明采用以下技术方案:
基于在线评论的新产品质量规划方法,包括如下步骤:
S1,数据的获取:
S11,选定研究目标,通过网络爬虫技术或者企业数据库获取研究目标的评论语料库;
S2,数据的预处理:
S21,删除评论语料库中的标点符号和表情符号;
S22,删除评论语料库中的无效评论;
S23,采用Doc2vec算法和基于正例和无标签样本学习策略识别并删除评论语料库中的虚假评论;
S24,对评论语料库进行分词;
S25,删除停用词,并将评论语料库分为目标产品评论语料库和训练产品评论语料库;
S3,客户需求分析:
S31,基于目标产品评论语料库,采用k-means算法、TF-IDF算法和专家经验得到客户需求;
S32,计算每一类客户需求的重要性;
S4,建立质量功能展开QFD模型:
S41,获取研究目标的工程特性及口语化词;
S42,采用训练产品评论语料库训练LDA模型;
S43,通过训练好的LDA模型和口语化词建立主题和工程特性之间的联系;
S44,通过所述训练好的LDA模型、目标产品评论语料库、主题和工程特性之间的联系建立QFD模型。
作为优选,步骤S22包括如下步骤:
S221.删除广告评论;
广告评论是那些希望潜在客户通过添加某一账号来获取所谓的优惠券,实则充满欺骗性诱导信息的评论。这类评论大多涉及某些关键词,通过建立广告词词典,一旦评论中的词出现在广告词词典中即可删除。
S222.删除过短评论,所述过短评论定义为字数少于6个的评论;
一个有效的评论是包含了客户关于某一类或多类具体产品属性评价的评论,然而过短评论很少会涉及到对产品属性的评价,一般是对于整个产品的评价或者是与产品无关的评价(例如,对于物流或客服的评价)。因此过短评论类似于噪声数据,也需要删除。在本发明中,定义字数少于6个的为过短评论。
S223.删除默认评论。
很多客户在下单之后没有去评论,系统则会在一定时间后反馈默认评论,这一类评论对分析没有帮助,通过建立默认评论词典来删除。
步骤S23包括如下步骤:
S231,通过采用Doc2vec算法,使每一段评论结构化;
所述Doc2vec算法为非监督算法,用于从句子、段落和文档的长文本中,学习得到固定长度的特征表示;
S232,通过咨询领域专家和经常购物的人,确定部分批量虚假评论,采用基于正例和无标签样本学习策略自动识别并删除评论语料库中剩余的其他虚假评论。
评论中存在着大量的虚假评论,商家为了得到更大的销量,更高的排名和更好的口碑,会雇佣一批人通过刷单的形式,撰写虚假评论,以此来达到目的。这一类评论一方面会严重误导客户购买可能没有达到自己预期的产品;另一方面,对于产品设计师,可能会错误理解客户的需求从而设计出偏离市场需求的产品。通过咨询领域专家和一些经常购物的人,确定小批量虚假评论(数量越大越容易判断错误),采用基于正例和无标签样本学习策略自动识别并删除评论语料库中剩余的大量虚假评论。
作为优选,步骤S25包括如下步骤:
对分词之后的在线评论进行停用词删除,停用词存在于停用词词典,最终得到一个在线评论语料库;
令R={r1,r2,...,rNr}表示预处理之后的在线评论语料库,其中rn表示R中的第n条在线评论,Nr表示R中的在线评论的数量,n=1,2,...,Nr;令W={w1,w2,...,wNw}表示R中出现的所有不同的词的集合,其中wq表示W中的第q个词,Nw表示W中的词数,q=1,2,...,Nw;将R分为两部分,研究目标的在线评论集被视为目标产品评论语料库,令TA={ta1,ta2,...,taNta}代表目标产品评论语料库,其中tam表示TA中的第m条在线评论,Nta表示TA中的在线评论数量,m=1,2,...,Nta;不是研究目标的在线评论集视为训练产品评论语料库,令TR={tr1,tr2,...,trNtr}代表训练产品评论语料库,其中tro表示TR中的第o条在线评论,Ntr表示TR中的在线评论数量,o=1,2,...,Ntr;其中,Nr=Nta+Ntr
作为优选,步骤S31包括如下步骤:
S311,采用TF-IDF算法结构化每一条在线评论,具体表示为:
Figure BDA0002746535890000051
Figure BDA0002746535890000052
TF-IDFm,q=TFm,q×IDFq (3.3)
其中,TFm,q表示tam中wq的出现频率;nm,q表示tam中wq出现的次数;|tam|表示tam中所有词出现的总数;IDFq反映了wq在TA中出现的频率,用于衡量一个词的一般重要性;|m:wq∈tam|表示包含wq的tam的数量;公式3.2中的分母“+1”是为了避免当wq不在W中而导致分母等于0的情况;
通过TF-IDF算法可以获得tam中wq的权重,即公式3.3所得结果;通过堆叠每条在线评论中每个词的权重,可以获得TA的结构化矩阵,表示为
Figure BDA0002746535890000053
S312,采用k-means算法对结构化的目标产品评论语料库聚类,具体表示为:
C={c1,c2,...,cNc} (3.4)
其中,
Figure BDA0002746535890000054
表示第i簇的在线评论集合,其中包含Nci条在线评论,ci中的第S条在线评论由
Figure BDA0002746535890000055
表示;
S313,利用TF-IDF算法计算出每一簇中的关键词,具体表示为:
Figure BDA0002746535890000056
其中,不同于公式3.3,公式3.5中TF-IDFi,q表示ci中wq的权重,ni,q表示ci中wq出现的次数,
Figure BDA0002746535890000061
表示为ci中所有词的总数,|i:wq∈ci|+1表示出现wq的簇的数量,最终得到ci中所有词的权重,通过对所有词权重倒序排序,得到每一簇主要的关键词及其权重;
S314,通过将每一簇的关键词及其权重咨询领域内的专家,总结出每一簇代表的客户需求,具体表示为:
CR={cr1,cr2,...,crNcr} (3.6)
其中,cri表示第i类客户需求,对应ci
作为优选,步骤S32包括如下步骤:
S321,若因为同一个产品属性会有不同的表达,而出现不同的簇被判断为同一个客户需求的情况,则合并相同客户需求的簇;
因为同一个产品属性会有不同的表达,例如,对于手机摄像头,可以被称为相机或者摄像头,因此可能会出现不同的簇被判断为同一个客户需求的情况,此时,合并相同客户需求的簇。
S322,为了准确把握市场上客户对于产品的需求倾向,对cri计算对应的权重,令
Figure BDA0002746535890000062
表示对应CR的权重集合,总数为Niv,其中ivi表示cri的权重,具体计算公式为:
Figure BDA0002746535890000063
公式3.7表示ci中在线评论的数量占总体在线评论数量的比重,若比重越高,则认为权重越大,其中,Nc=Ncr=Niv
在ci中每个关键词都需要权重才能判断客户需求,同样地,为了准确把握市场上客户对于产品的需求倾向,cri也应该计算对应的权重也便后续分析。
作为优选,步骤S41包括如下步骤:
S411,通过查阅相关文献,获得研究目标的工程特性;
S412,所述工程特性是产品设计师的语言,通过咨询相关专家,收集每一个工程特性相关的口语化表达,建立一个工程特性口语化词典,用于建立产品设计师语言和普通客户语言之间的联系;令
Figure BDA0002746535890000071
表示总数为Nec的工程特性集合,其中
Figure BDA0002746535890000072
表示第j个工程特性,其中包含总计为Necj个的口语化词,j=1,2,...,Nec
Figure BDA0002746535890000073
表示ecj中第z个口语化词。
作为优选,步骤S42包括如下步骤:
所述LDA模型是一种主题模型,用于挖掘文本信息中隐藏的主题分布,将训练产品评论语料库输入LDA模型,具体表示为:
Figure BDA0002746535890000074
其中,p(word|revi是从在线评论中统计的Word-Review分布,p(word|top为LDA模型生成的Word-Topic分布,p(topic|review)为LDA模型生成的Topic-Review分布;
使用TR训练LDA模型,以提取客户在研究目标上讨论的主要主题;设定T={t1,t2,...,tNt}表示生成的主题的集合,其中tu表示第u个主题,Nt表示主题数,t=1,2,...,Nt
大量的短文本在线评论在一个语料库里形成了一种长文本的结构。由于TA和TR来自同一研究对象,因此它们在上述分布中应具有高度的一致性。
作为优选,步骤S43包括如下步骤:
LDA模型由批量的口语化词训练而成,通过输入每一个口语化词
Figure BDA0002746535890000075
LDA模型输出当前词属于每一个主题的概率;通过对应叠加
Figure BDA0002746535890000076
属于tu的概率,得到ecj属于tu的总概率:
Figure BDA0002746535890000077
Figure BDA0002746535890000081
表示EC相关主题集合,其中
Figure BDA0002746535890000082
作为ecj关联概率排序前三的主题索引,表示
Figure BDA0002746535890000083
出现在rtj下的概率最大;其中,
Figure BDA0002746535890000084
作为优选,步骤S44包括如下步骤:
使用ci作为LDA模型的输入,LDA模型输出ci属于tu的概率,对于ecj,在rtj中包含ecj前三个关联概率最高的主题,分别赋予权重:5、3、1,并最终通过下式来表示cri和ecj之间的关联值:
Figure BDA0002746535890000085
当所有客户需求与工程特性之间的关系值被计算出来之后,即得到了关系矩阵,并根据获得的信息建立QFD模型。
文本由段落组成,段落由句子组成,而句子又由词组成,从上述角度出发,训练完成的LDA模型不仅可以针对单个给定的词,同样也可以针对长文本(如在线评论)输出其属于每个主题的概率。
例如,如果目标是获得ec1和cr1之间的关联,假设rt1={2,6,8},那么只需要关注cr1属于t2,t6和t8的概率,并按照式公式4.3获得relationship1,1,最终该值被视为两者之间的关联值。
本发明与现有技术相比,有益效果是:(1)本发明对于客户需求下产品设计提出新的质量规划方法,能有效贴近市场需求和企业目标,通过在数据驱动下,捕捉大量的客户需求并转换至工程特性,实现产品质量规划,能够最大程度的实现投入产出比,避免对于无用需求的过度考虑和设计而造成的成本提高;(2)本发明能够对任意产品进行质量规划,帮助企业做好决策,最后使企业获取更高的总体利润;(3)本发明是基于QFD模型和文本挖掘技术的产品质量规划的方法,拓展了QFD模型在产品领域的应用,打破了传统直接利用专家经验的方式来指定客户需求和关系矩阵的方式,利用大量评论作为数据源,通过一系列的数据预处理方法保证了客户需求的准确性,并通过文本挖掘技术转换至工程特性,为设计师提供参考;(4)本发明能从市场的角度出发,使通过本发明规划的产品更具有市场竞争力,具有广泛的应用前景。
附图说明
图1为本发明基于在线评论的新产品质量规划方法的一种流程图;
图2为本发明中步骤S2数据的预处理的一种流程图;
图3为本发明中过短评论的一种示意图;
图4为本发明中建立的QFD模型的一种结构示意图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本实施方式通过对中国三大电子商务网站(天猫,京东,苏宁)的产品评论来分析客户对于特定产品的需求,通过一系列的数据预处理方法,将客户需求作为QFD的左墙,结合文本挖掘技术后计算获得QFD的关系矩阵,实现客户需求对工程特性的转换,帮助设计师能更准确的设计出符合市场需求的下一代产品。
实施例1:
如图1所示,本发明提供了基于在线评论的新产品质量规划方法,包括如下步骤:
S1,数据的获取:
S11,选定研究目标,通过网络爬虫技术或者企业数据库获取研究目标的评论语料库;
选择研究对象为智能手机,目标品牌为华为品牌的智能手机;编写网络爬虫程序,在3个目标网站上获得主流品牌的智能手机评论:Apple,Samsung,OPPO,Xiaomi,VIVO,Meizu,Lenovo,Honor,Sony,OnePlus,ZTE,Smartisan,Nubia。各平台和各品牌的评论数量如下表1所示:
表1各平台和各品牌的评论数量
Figure BDA0002746535890000101
Figure BDA0002746535890000111
S2,数据的预处理,具体流程如图2所示:
S21,删除评论语料库中的标点符号和表情符号;
建立符号词典,循环每一条评论删除标点符号和表情符号;
S22,删除评论语料库中的无效评论;
建立广告词词典、默认评论词典分别用来删除广告评论和默认评论;通过循环每一条评论,如果评论字数少于6个,则视为过短评论并删除,过短评论的示例如图3所示;
S23,采用Doc2vec算法和基于正例和无标签样本学习策略(PU-Learning)识别并删除评论语料库中的虚假评论;
使用Doc2vec算法结构化评论后,通过咨询专家和经常购物的人,确定小批量虚假评论(刷单评论),运行PU-Learning算法识别并删除在评论语料库中剩下的大量虚假评论,PU-Learning算法的伪代码如下表2所示:
表2PU-Learning算法伪代码
Figure BDA0002746535890000121
Figure BDA0002746535890000131
表2中,P是确定小批量虚假评论(刷单评论),U是剩余的无法确定是否为虚假评论的大量评论。最终输出的分类器f可作为识别虚假评论的分类器,用来识别U中存在的虚假评论。
S24,对评论语料库进行分词;
对所有评论进行分词
S25,删除停用词,并将评论语料库分为目标产品评论语料库和训练产品评论语料库;
分词之后,通过通用停词表和专业领域停词表删除停用词,两个停词表都可根据不同实验目的对其中的词进行增删改查。删除停用词之后,评论语料库中的华为品牌评论被视为TA,其余品牌评论被视为TR。
S3,客户需求分析:
S31,基于目标产品评论语料库,采用k-means算法、TF-IDF算法和专家经验得到客户需求;
通过k-means算法聚类TA,得到C,对ci通过TF-IDF算法计算关键词及其权重,然后咨询专家得到CR,具体如下表3所示,其中,由于篇幅限制,ci只显示权重排名前3的关键词:
表3客户需求
Figure BDA0002746535890000132
Figure BDA0002746535890000141
S32,计算每一类客户需求的重要性;
ci由一定量的评论聚成,这些评论在不同簇之间的相似度不高,但在同一簇之间的相似度很高。通过计算每一簇评论量占所有评论量的比重,得到IV;
S4,建立QFD模型:
S41,获取研究目标的工程特性及口语化词;
研究目标是智能手机,通过查阅文献,得到智能手机的工程特性集合EC。并通过与专家和经常购物的人讨论,确定了ecj的口语化词,具体如下表4所示,其中由于篇幅限制,ecj取5个口语化词展示:
表4智能手机工程特性对应的口语化词表
Figure BDA0002746535890000151
Figure BDA0002746535890000161
S42,采用训练产品评论语料库训练LDA模型;
TR用来训练一个LDA模型,因为同属于智能手机评论,在数据量足够的情况下,训练的LDA模型生成的主题-词分布将与目标产品评论的主题-词分布有很高的一致性;
S43,通过训练好的LDA模型和口语化词建立主题和工程特性之间的联系;
将ecj的口语化词输入已训练好的LDA模型,LDA模型输出口语化词属于T的概率,最终得到RT。具体如下表5所示:
表5工程特性的最相关主题表
Figure BDA0002746535890000162
Figure BDA0002746535890000171
其中,有个别工程特性最相关主题不足3个,是这些主题很少有客户会反馈所造成的,导致在很多主题下不会出现相关口语化词汇。
S44,通过所述训练好的LDA模型、目标产品评论语料库、主题和工程特性之间的联系建立QFD模型;
类似于步骤S43,对于已训练好的LDA模型,不仅对于输入特定的词,LDA模型能够输出概率分布,而且对于输入特定的文本,LDA模型也能输出概率分布。将ci的所有评论输入LDA模型,输出为ci属于T的概率。因为ecj最相关主题只有3个,因此对于ecj,要计算与ci之间的关系,应当记录ci属于这3个最相关主题的概率依次乘以权重5、3、1的求和值。
当所有关系均被计算出的时候,最终QFD模型的建立如图4所示。
从建立的QFD模型中得到的结论是:客户对于华为品牌手机最大的客户需求是关于外观的,其次是摄像头像素和屏幕。对于外观,关联最大的前3个工程特性依次是Displaydriver,Industry design和Mobile application software,这意味着设计师如果想满足客户关于外观的需求,那么就需要着重考虑重新设计这3个工程特性。对于摄像头,关联最大的前3个工程特性依次是Camera lens module,Brightness sensor和Display driver,设计师如果想要满足客户对于摄像头的需求,那么就需要着重考虑这3个工程特性。再比如,对于客户关于屏幕的需求,设计师就应该考虑Display driver,Industry design和Mobile application software这3个工程特性。
本发明对于客户需求下产品设计提出新的质量规划方法,能有效贴近市场需求和企业目标,通过在数据驱动下,捕捉大量的客户需求并转换至工程特性,实现产品质量规划,能够最大程度的实现投入产出比,避免对于无用需求的过度考虑和设计而造成的成本提高;本发明能够对任意产品进行质量规划,帮助企业做好决策,最后使企业获取更高的总体利润;本发明是基于QFD模型和文本挖掘技术的产品质量规划的方法,拓展了QFD模型在产品领域的应用,打破了传统直接利用专家经验的方式来指定客户需求和关系矩阵的方式,利用大量评论作为数据源,通过一系列的数据预处理方法保证了客户需求的准确性,并通过文本挖掘技术转换至工程特性,为设计师提供参考;本发明能从市场的角度出发,使通过本发明规划的产品更具有市场竞争力,具有广泛的应用前景。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.基于在线评论的新产品质量规划方法,其特征在于,包括如下步骤:
S1,数据的获取:
S11,选定研究目标,通过网络爬虫技术或者企业数据库获取研究目标的评论语料库;
S2,数据的预处理:
S21,删除评论语料库中的标点符号和表情符号;
S22,删除评论语料库中的无效评论;
S23,采用Doc2vec算法和基于正例和无标签样本学习策略识别并删除评论语料库中的虚假评论;
S24,对评论语料库进行分词;
S25,删除停用词,并将评论语料库分为目标产品评论语料库和训练产品评论语料库;
S3,客户需求分析:
S31,基于目标产品评论语料库,采用k-means算法、TF-IDF算法和专家经验得到客户需求;
S32,计算每一类客户需求的重要性;
S4,建立QFD模型:
S41,获取研究目标的工程特性及口语化词;
S42,采用训练产品评论语料库训练LDA模型;
S43,通过训练好的LDA模型和口语化词建立主题和工程特性之间的联系;
S44,通过所述训练好的LDA模型、目标产品评论语料库、主题和工程特性之间的联系建立QFD模型。
2.根据权利要求1所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S22包括如下步骤:
S221.删除广告评论;
S222.删除过短评论,所述过短评论定义为字数少于6个的评论;
S223.删除默认评论。
3.根据权利要求2所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S23包括如下步骤:
S231,通过采用Doc2vec算法,使每一段评论结构化;
所述Doc2vec算法为非监督算法,用于从句子、段落和文档的长文本中,学习得到固定长度的特征表示;
S232,通过咨询领域专家和经常购物的人,确定部分批量虚假评论,采用基于正例和无标签样本学习策略自动识别并删除评论语料库中剩余的其他虚假评论。
4.根据权利要求3所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S25包括如下步骤:
对分词之后的在线评论进行停用词删除,停用词存在于停用词词典,最终得到一个在线评论语料库;
令R={r1,r2,...,rNr}表示预处理之后的在线评论语料库,其中rn表示R中的第n条在线评论,Nr表示R中的在线评论的数量,n=1,2,...,Nr;令W={w1,w2,...,wNw}表示R中出现的所有不同的词的集合,其中wq表示W中的第q个词,Nw表示W中的词数,q=1,2,...,Nw;将R分为两部分,研究目标的在线评论集被视为目标产品评论语料库,令TA={ta1,ta2,...,taNta}代表目标产品评论语料库,其中tam表示TA中的第m条在线评论,Nta表示TA中的在线评论数量,m=1,2,...,Nta;不是研究目标的在线评论集视为训练产品评论语料库,令TR={tr1,tr2,...,trNtr}代表训练产品评论语料库,其中tro表示TR中的第o条在线评论,Ntr表示TR中的在线评论数量,o=1,2,...,Ntr;其中,Nr=Nta+Ntr
5.根据权利要求4所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S31包括如下步骤:
S311,采用TF-IDF算法结构化每一条在线评论,具体表示为:
Figure FDA0002746535880000031
Figure FDA0002746535880000032
TF-IDFm,q=TFm,q×IDFq (3.3)
其中,TFm,q表示tam中wq的出现频率;nm,q表示tam中wq出现的次数;|tam|表示tam中所有词出现的总数;IDFq反映了wq在TA中出现的频率,用于衡量一个词的一般重要性;|m:wq∈tam|表示包含wq的tam的数量;公式3.2中的分母“+1”是为了避免当wq不在W中而导致分母等于0的情况;
通过TF-IDF算法可以获得tam中wq的权重,即公式3.3所得结果;通过堆叠每条在线评论中每个词的权重,可以获得TA的结构化矩阵,表示为
Figure FDA0002746535880000033
S312,采用k-means算法对结构化的目标产品评论语料库聚类,具体表示为:
C={c1,c2,...,cNc} (3.4)
其中,
Figure FDA0002746535880000034
表示第i簇的在线评论集合,其中包含Nci条在线评论,ci中的第S条在线评论由
Figure FDA0002746535880000035
表示;
S313,利用TF-IDF算法计算出每一簇中的关键词,具体表示为:
Figure FDA0002746535880000036
其中,不同于公式3.3,公式3.5中TF-IDFi,q表示ci中wq的权重,ni,q表示ci中wq出现的次数,
Figure FDA0002746535880000037
表示为ci中所有词的总数,|i:wq∈ci|+1表示出现wq的簇的数量,最终得到ci中所有词的权重,通过对所有词权重倒序排序,得到每一簇主要的关键词及其权重;
S314,通过将每一簇的关键词及其权重咨询领域内的专家,总结出每一簇代表的客户需求,具体表示为:
CR={cr1,cr2,...,crNcr} (3.6)
其中,cri表示第i类客户需求,对应ci
6.根据权利要求5所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S32包括如下步骤:
S321,若因为同一个产品属性会有不同的表达,而出现不同的簇被判断为同一个客户需求的情况,则合并相同客户需求的簇;
S322,为了准确把握市场上客户对于产品的需求倾向,对cri计算对应的权重,令
Figure FDA0002746535880000041
表示对应CR的权重集合,总数为Niv,其中ivi表示cri的权重,具体计算公式为:
Figure FDA0002746535880000042
公式3.7表示ci中在线评论的数量占总体在线评论数量的比重,若比重越高,则认为权重越大,其中,Nc=Ncr=Niv
7.根据权利要求6所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S41包括如下步骤:
S411,通过查阅相关文献,获得研究目标的工程特性;
S412,所述工程特性是产品设计师的语言,通过咨询相关专家,收集每一个工程特性相关的口语化表达,建立一个工程特性口语化词典,用于建立产品设计师语言和普通客户语言之间的联系;令EC={ec1,ec2,...,ecNec}表示总数为Nec的工程特性集合,其中
Figure FDA0002746535880000043
表示第j个工程特性,其中包含总计为
Figure FDA0002746535880000044
个的口语化词,j=1,2,...,Nec
Figure FDA0002746535880000045
表示ecj中第z个口语化词。
8.根据权利要求7所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S42包括如下步骤:
所述LDA模型是一种主题模型,用于挖掘文本信息中隐藏的主题分布,将训练产品评论语料库输入LDA模型,具体表示为:
Figure FDA0002746535880000051
其中,p(word|review ) 是从在线评论中统计的Word-Review分布,p(word|topic) 为LDA模型生成的Word-Topic分布,p(topic|review)为LDA模型生成的Topic-Review分布;
使用TR训练LDA模型,以提取客户在研究目标上讨论的主要主题;设定T={t1,t2,...,tNt}表示生成的主题的集合,其中tu表示第u个主题,Nt表示主题数,t=1,2,...,Nt
9.根据权利要求8所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S43包括如下步骤:
LDA模型由批量的口语化词训练而成,通过输入每一个口语化词
Figure FDA0002746535880000052
LDA模型输出当前词属于每一个主题的概率;通过对应叠加
Figure FDA0002746535880000053
属于tu的概率,得到ecj属于tu的总概率:
Figure FDA0002746535880000054
Figure FDA0002746535880000055
表示EC相关主题集合,其中
Figure FDA0002746535880000056
作为ecj关联概率排序前三的主题索引,表示
Figure FDA0002746535880000057
出现在rtj下的概率最大;其中,Nrt=Nec
10.根据权利要求9所述的基于在线评论的新产品质量规划方法,其特征在于,步骤S44包括如下步骤:
使用ci作为LDA模型的输入,LDA模型输出ci属于tu的概率,对于ecj,在rtj中包含ecj前三个关联概率最高的主题,分别赋予权重:5、3、1,并最终通过下式来表示cri和ecj之间的关联值:
Figure FDA0002746535880000061
当所有客户需求与工程特性之间的关系值被计算出来之后,即得到了关系矩阵,并根据获得的信息建立QFD模型。
CN202011168567.1A 2020-10-28 2020-10-28 基于在线评论的新产品质量规划方法 Active CN112182165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011168567.1A CN112182165B (zh) 2020-10-28 2020-10-28 基于在线评论的新产品质量规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011168567.1A CN112182165B (zh) 2020-10-28 2020-10-28 基于在线评论的新产品质量规划方法

Publications (2)

Publication Number Publication Date
CN112182165A CN112182165A (zh) 2021-01-05
CN112182165B true CN112182165B (zh) 2022-05-20

Family

ID=73923492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011168567.1A Active CN112182165B (zh) 2020-10-28 2020-10-28 基于在线评论的新产品质量规划方法

Country Status (1)

Country Link
CN (1) CN112182165B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540012A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 一种产品研发质量控制系统及方法
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN109165996A (zh) * 2018-07-18 2019-01-08 浙江大学 基于在线用户评论的产品功能特征重要性分析方法
CN111311096A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于qfd和kano模型的多产品质量优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540012A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 一种产品研发质量控制系统及方法
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN109165996A (zh) * 2018-07-18 2019-01-08 浙江大学 基于在线用户评论的产品功能特征重要性分析方法
CN111311096A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于qfd和kano模型的多产品质量优化方法

Also Published As

Publication number Publication date
CN112182165A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
WO2021139164A1 (zh) 一种基于长短期兴趣的序列化推荐方法
Wang et al. Ranking product aspects through sentiment analysis of online reviews
Yang et al. Integrating rich and heterogeneous information to design a ranking system for multiple products
CN104933239A (zh) 一种基于混合模型的个性化职位信息推荐系统及实现方法
CN107357793A (zh) 信息推荐方法和装置
Li et al. Extraction of affective responses from customer reviews: an opinion mining and machine learning approach
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
Lin et al. Personalized hotel recommendation using text mining and mobile browsing tracking
Duan et al. Semi-supervised learning with generative model for sentiment classification of stock messages
Yang et al. A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
Shen et al. A voice of the customer real-time strategy: An integrated quality function deployment approach
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
Wang et al. A deep neural network of multi-form alliances for personalized recommendations
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN112507241A (zh) 车型推荐方法、获取车型推荐列表的方法、系统、介质及电子设备
Ren et al. A co-attention based multi-modal fusion network for review helpfulness prediction
CN112182165B (zh) 基于在线评论的新产品质量规划方法
Wang et al. Social media user-generated content, online search traffic and offline car sales
CN115563176A (zh) 一种电子商务数据处理系统及方法
Liu et al. User-generated content analysis for customer needs elicitation
Compiani et al. Demand estimation with text and image data
CN113254775A (zh) 一种基于客户浏览行为序列的信用卡产品推荐方法
CN111667344A (zh) 一种融合评论与评分的个性化推荐方法
Chenna et al. Emotion And Sentiment Analysis From Twitter Text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant