CN113837531A

CN113837531A - 一种基于网络评论的产品质量问题发现及风险评估方法

Info

Publication number: CN113837531A
Application number: CN202110934697.XA
Authority: CN
Inventors: 徐新胜
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2021-12-24
Also published as: CN105844424A

Abstract

本发明提供一种基于网络评论的产品质量问题发现及风险评估方法，属于产品质量管理领域，包括：抓取与指定产品相关的论坛、电商网页，得到搜索结果页；提取各搜索结果页中的评论数据；对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本；利用条件随机场模型对结构化文本进行质量特征词标注，得到结果集；从结果集中提取出标注为质量特征词的词语，得到质量特征词集；基于预先设定的质量问题描述模板，在质量特征词集中统计出与每个质量特征词相关的质量问题；利用风险评估算法计算每个质量特征词的风险评估值，能快速有效地发现用户反映的质量问题，并对产品使用过程中的质量风险进行实时监督。

Description

一种基于网络评论的产品质量问题发现及风险评估方法

本申请是名为《基于网络评论的产品质量问题发现及风险评估方法》的专利申请的分案申请，原申请的申请日为2016年05月30日，申请号为201610212917.7。

技术领域

本发明涉及产品质量管理领域，特别是涉及一种基于网络评论的产品质量问题发现及风险评估方法。

背景技术

产品质量是企业的生命，是一个企业整体素质的展示，也是一个企业综合实力的体现。传统的质量管理方法往往只注重生产过程中的质量管理，产品的出厂意味着质量管理的结束。随着全面质量管理的兴起，质量管理的范围扩展到了用户使用阶段，企业致力于发现用户使用过程中的产品质量问题，并将这些质量问题反馈给设计和生产部门，从而改善产品质量，提高用户体验。

目前，企业主要通过售后服务部门来收集用户使用过程中的产品质量问题。很多大型制造企业在全国设立售后服务点，通过售后服务点收集用户在使用过程中遇到的质量问题，并将这些质量问题反馈给设计和生产部门，为产品的质量改进提供方向。但是由于资金、人力、物力等的限制，售后服务点覆盖的范围有限，甚至有的企业根本就没有设立售后服务点，所以传统的通过售后服务部门来收集用户使用过程中的产品质量问题并不能完全满足企业的需求。

随着网络的发展，越来越多的用户在论坛、电商等网络平台上以评论的方式发表自己的对某个产品的评价，这些评论中往往隐含着用户在使用过程中发现的产品质量问题。有效利用这些评论，从中挖掘出产品在使用过程中的质量问题，弥补了售后服务部门收集信息不全的缺点。

发明内容

本发明的目的是提供一种基于网络评论的产品质量问题发现及风险评估方法，可对产品使用过程中的质量风险进行实时监督。

为实现上述目的，本发明提供了如下方案：

一种基于网络评论的产品质量问题发现及风险评估方法，所述基于网络评论的产品质量问题发现及风险评估方法包括：

利用网络爬虫，抓取与指定产品相关的论坛、电商网页，得到指定页数的搜索结果页；

提取各搜索结果页中的评论数据，并将评论数据保存到数据库中；

对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本；

采用均匀采样方法从结构化文本中取出500条评论数据的处理结果，并对质量特征词进行标注，得到训练集；

根据训练集以及预先设定的特征模板，对条件随机场进行训练，得到条件随机场模型；

利用条件随机场模型对所述结构化文本进行质量特征词标注，得到结果集；

从结果集中提取出标注为质量特征词的词语，得到质量特征词集；

基于预先设定的质量问题描述模板，在所述质量特征词集中统计出与每个质量特征词相关的质量问题；

利用基于质量特征词的风险评估算法，计算每个质量特征词的风险评估值。

可选地，每个搜索结果页包含13个搜索结果；

所述提取各搜索结果页中的评论数据，并将评论数据保存到数据库中，具体包括：

针对第i个搜索结果页中的第j个搜索结果，提取第i个搜索结果页中的第j个搜索结果的标题；

计算标题和产品名的相似度；

若相似度小于0.8，则继续提取第i个搜索结果页中的第j+1个搜索结果的标题；

若相似度大于或等于0.8，则提取第i个搜索结果页中的第j个搜索结果的统一资源定位系统URL；

根据第j个搜索结果的URL，判断第j个搜索结果是否为论坛或电商网站，若不是，则继续提取第i个搜索结果页中的第j+1个搜索结果的标题；若是，则进行网页抓取和信息抽取，得到评论数据，并将评论数据保存到数据库中。

可选地，根据以下公式计算标题和产品名的相似度：

其中，Z是归一化因子，α_k是位置系数，且0＜α_k≤1，P_k是单次相似度，P_k的取值为0或1。

可选地，所述对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本，具体包括：

对各评论数据进行分词及词性标注，得到对应的分词评论文本；

对所述分词评论文本进行句法分析，得到分词评论文本中各个词语的依存关系；

使用情感词词典对所述分词评论文本中的各个词语进行情感词标注；所述情感词词典中，词语的情感倾向包括三类：褒义、贬义、中性，分别用P、N、M表示，对于褒义情感词和贬义情感词，情感强度分为1、3、5、7、9五档，9表示强度最大，1为强度最小，对于中性情感词，情感强度均为0。

可选地，所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板；

所述第一类质量问题描述模板包括质量特征词和情感词；

所述第二类质量问题描述模板包括“不”字和质量特征词。

可选地，所述风险评估算法基于情感词词典和程度副词词典；

所述程度副词词典中，词语按照情感强度分为四类，分别为：“极其”、“很”、“较”、“稍”，对应的情感强度值为4、3、2、1。

可选地，所述风险评估算法的公式为：

V(S)＝V₁(S)+V₂(S)

其中，V₁(S)是在满足第一类质量问题描述模板的评论数据中，S的风险评估值，V₂(S)是在满足第二类质量问题描述模板的评论数据中，S的风险评估值。

可选地，根据以下公式计算在满足第一类质量问题描述模板的评论数据中，S的风险评估值V₁(S)：

其中，V_P(S)、V_N(S)、V_M(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、中性风险评估值；a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中性情感词的个数；Score(P_Sk)表示修饰特征词S的第k个褒义情感词的情感强度，Score(PA_Sk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度，Score(N_Sl)表示修饰特征词S的第l个贬义情感词的情感强度；T_i是标准化因子，Pi表示修饰特征词S的第i个中性情感词所在的那条评论中的褒义情感词的个数，N_i表示修饰特征词S的第i个中性情感词所在的那条评论中的贬义情感词的个数，Score(P_Sij)表示修饰特征词S的第i个中性情感词所在的那条评论中的第j个褒义情感词的情感强度。

可选地，根据以下公式计算在满足第二类质量问题描述模板的评论数据中，S的风险评估值V₂(S)：

其中，R_i表示第i个模板的分值，Num_i表示满足第i个模板的评论数据出现的次数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：通过抓取与指定产品相关的搜索结果页，并提取评论数据，对数据进行预处理得到结构化文本，利用条件随机场模型对结构化文本进行质量特征词标注，可以提高评论数据的处理效率，再基于质量问题描述模板，统计出与每个质量特征词相关的质量问题，利用风险评估算法计算每个质量特征词的风险评估值。能够自动抓取网络上与指定产品相关的用户评论数据，并从中发现产品的质量问题，进而对产品质量的各个方面进行风险评估，可以更快速有效地发现用户反映的产品质量问题，并对产品使用过程中的质量风险进行实时监督。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于网络评论的产品质量问题发现及风险评估方法的流程图；

图2为本发明的数据获取流程图；

图3为本发明的质量特征词提取流程图；

图4为本发明的依存关系分析示例图；

图5为本发明的质量特征词提取的训练文本示例图；

图6为本发明的质量特征词提取的特征模板。

符号说明：

结构化文本-201，训练集-202，特征模板-203，条件随机场模型-204，结果集-205，质量特征词集-206。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于网络评论的产品质量问题发现及风险评估方法，通过抓取与指定产品相关的搜索结果页，并提取评论数据，对数据进行预处理得到结构化文本，利用条件随机场模型对结构化文本进行质量特征词标注，可以提高评论数据的处理效率，再基于质量问题描述模板，统计出与每个质量特征词相关的质量问题，利用风险评估算法计算每个质量特征词的风险评估值。能够自动抓取网络上与指定产品相关的用户评论数据，并从中发现产品的质量问题，进而对产品质量的各个方面进行风险评估，可以更快速有效地发现用户反映的产品质量问题，并对产品使用过程中的质量风险进行实时监督。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明以论坛、电商等网络平台上的用户评论为研究对象，目的是从网络评论中挖掘产品的质量问题，并做出质量风险评估。

基于网络评论的产品质量问题发现及风险评估方法，包括数据获取、质量特征词提取、质量问题发现及风险评估三个步骤。

如图1所示，本发明基于网络评论的产品质量问题发现及风险评估方法包括：

步骤1，数据获取：利用网络爬虫，抓取与指定产品相关的论坛、电商网页，得到指定页数的搜索结果页。在本实施例中，调用百度搜索接口搜索指定产品，得到指定页数的搜索结果页，且每个搜索结果页包含13个搜索结果。

提取各搜索结果页中的评论数据，并将评论数据保存到数据库中。

具体地，所述提取各搜索结果页中的评论数据，并将评论数据保存到数据库中，具体包括：

步骤101：针对第i个搜索结果页中的第j个搜索结果，提取第i个搜索结果页中的第j个搜索结果的标题。

步骤102：计算标题和产品名的相似度。利用公式(1)计算标题和产品名的相似度，相似度用Sim(标题，产品名)表示，并且0≤Sim(标题，产品名)≤1。

若相似度小于0.8，则返回步骤101，继续提取第i个搜索结果页中的第j+1个搜索结果的标题。

步骤103：若相似度大于或等于0.8，则提取第i个搜索结果页中的第j个搜索结果的URL。

其中，Z是归一化因子，

α_k是位置系数，且0＜α_k≤1，

P_k是单次相似度，P_k的取值为0或1，

在公式(1)、(2)、(3)和(4)中，m是“产品名”中包含的文字个数，n是“标题”中包含的文字个数，“标题(k+l-1)”表示标题中的第k+l-1个字，“产品名(l)”表示产品名中的第l个字。

步骤104：根据第j个搜索结果的统一资源定位系统(uniform resource locator，URL)，判断第j个搜索结果是否为论坛或电商网站，若不是，则返回步骤101，继续提取第i个搜索结果页中的第j+1个搜索结果的标题；

步骤105：若第j个搜索结果是论坛或电商网站，则进行网页抓取和信息抽取，得到评论数据，并将评论数据保存到数据库中。

不同类型的网页对应的抓取与抽取策略是不同的，所以需要对不同的网站制定不同的抓取与抽取模板，图2中给出了中关村、太平洋、天极网、京东、苏宁、1号店等模板，模板的个数不限，可以进行扩展。

步骤106，结束判断：当第i搜索结果页的全部搜索结果都处理完后，如果在第i页中的13个搜索结果中，满足标题相似度的搜索结果个数大于10，则i+1，j＝1，转到步骤101，继续处理下一个搜索结果页，否则，数据获取工作结束。

步骤2，质量特征词提取：对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本。

采用均匀采样方法从结构化文本中取出500条评论数据的处理结果，并对质量特征词进行标注，得到训练集。

根据训练集以及预先设定的特征模板，对条件随机场进行训练，得到条件随机场模型。

利用条件随机场模型对所述结构化文本进行质量特征词标注，得到结果集。

从结果集中提取出标注为质量特征词的词语，得到质量特征词集。

进一步地，步骤2中，对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本，具体包括：

对各评论数据进行分词及词性标注，得到对应的分词评论文本。

对所述分词评论文本进行句法分析，得到分词评论文本中各个词语的依存关系。

本发明提供了从评论数据中提取质量特征词的方法，流程图如图3所示。首先进行分词及词性标注S201、句法分析S202、情感词标注S203等三步预处理，得到结构化文本201；然后采用均匀采样方法从结构化文本201中取出500条评论的处理结果，人工将这500条评论中的所有质量特征词标注为“S”，得到训练集202；然后以训练集202和特征模板203作为输入，利用条件随机场算法训练出一个表征了质量特征词与词语、词性、依存关系、支配词及支配的情感方向之间统计关系的条件随机场模型204；然后利用条件随机场模型204对文本201进行质量特征词的自动标注，得到结果集205；最后从结果集中提取标注为S的词语，得到质量特征词集206。

下面对S201～S204进行详细说明：

步骤S201，分词及词性标注：质量特征词提取的目的是从评论数据中提取出与产品质量相关的词语，但是由于汉语在书写时词与词之间不存在空格，计算机无法直接进行词语的识别，所以，要先进行分词处理。分词的作用是将连续的一段文本分成一个一个的词语，例如，给定一句话“手机的屏幕很模糊”，分词后的结果为“手机的屏幕很模糊”。描述质量问题的词语在词性上有一定的统计规律，例如：质量特征词大部分都是名词；副词是质量特征词的概率几乎为零等。所以，在分词之后，要进行词性标注，标注出每一个词语的词性，上述例子的标注结果为“手机/n的/u屏幕/n很/d模糊/a”。

步骤S202，依存关系分析：依存关系分析的理论基础是依存语法，该语法认为句子中的述语动词是支配其他成分的中心，而它本身却不受其他任何成分的支配，所有的受支配成分都以某种依存关系从属于其支配者，依存语法直接描述词与词之间的关系。给定例子“手机/n的/u屏幕/n很/d模糊/a”，依存关系分析的结果如图4所示。在依存关系分析的结果中，词与词之间直接发生依存关系，构成一个依存对，其中一个是支配词，另一个叫从属词，依存关系用一个有向弧表示，叫做依存弧，依存弧的方向为由支配词指向从属词，每个依存弧上有一个标记，叫做关系类型，表示该依存对中的两个词之间存在什么样的依存关系。在本例中，屏幕是质量特征词，从图4中可以看出，“屏幕”的支配词为“模糊”，“屏幕”与“模糊”之间的依存关系为“SBV”，即主谓关系。

步骤S203，情感词标注：经过步骤S201、S202，得到了词语、词性、依存关系、支配词等4项内容，对于“手机的屏幕很模糊”这个例子，得到的结果为图5中表格的前5列，其中每一行为一条记录，每条记录包括词语、词性、依存关系、支配词等四个字段。情感词标注的基础是情感词典，在情感词典中，包含常用的情感词，如“模糊”、“高”、“好”等。情感标注的对象为支配词，利用情感词典，标注出支配词是不是情感词，是情感词则标记为“Y”，不是情感词则标记为“N”。情感标注后得到了如图5所示的结果。

步骤S204，基于条件随机场模型的质量特征词提取：基于条件随机场的质量特征词提取由两部分构成：训练和处理。在训练阶段，首先采用均匀采样方法从文本201中取出500条评论的处理结果，人工将这500条评论中的所有质量特征词标注为“S”，得到训练集202；然后考虑词语、词性、依存关系、支配词及支配的情感方向等五种因素，制定出如图6所示的特征模板；然后以训练集202和特征模板203作为输入，利用条件随机场算法训练出一个表征了质量特征词与词语、词性、依存关系、支配词及支配的情感方向之间统计关系的条件随机场模型204；在处理阶段，利用已训练好的模型204对文本201进行质量特征词的自动标注，得到结果集205，然后从结果集中提取标注为S的词语，得到质量特征词集206。

步骤3，质量问题发现及风险评估：基于预先设定的质量问题描述模板，在所述质量特征词集中统计出与每个质量特征词相关的质量问题。

所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板；

所述第一类质量问题描述模板包括质量特征词和情感词；

所述第二类质量问题描述模板包括“不”字和质量特征词。

用户在描述质量问题时，由于每个人的语言习惯不同，对同一个质量问题往往多种描述形式。本发明在分析了大量评论数据的基础上，抽象出可以涵盖大部分质量问题描述的模板，质量问题描述模板主要分为两类：第一类由质量特征词和情感词组成，例如“屏幕模糊”，其中“屏幕”是质量特征词，“模糊”是情感词；第二类由“不”字和质量特征词组成，如“读不了通讯录”，其中含有“不”字，“通讯录”是质量特征词。质量问题描述模板的更详细的分类如表1所示，其中1、2、3为第一类模板，4、5、6为第二类模板。

表1：质量问题描述模板详细分类

序号	质量问题描述模板	举例
			1	质量特征词+情感词	屏幕模糊
2	质量特征词+程度副词+情感词	像素太低
			3	质量特征词+情感词+程度副词	系统糟糕得很
4	动词+不+助词+质量特征词	读不了通讯录
			5	质量特征词+动词+不+助词	拍照用不了
6	质量特征词+不+助词+动词	指南针不能用

下面介绍一下风险评估算法。

风险评估算法基于情感词词典和程度副词词典。本发明采用的情感词词典基于大连理工的情感词汇本体，选取了情感词汇本体中的部分词语，并另外加入了一些新的网络用语，还对词语的情感分类重新进行了划分。在本发明的情感词词典中，词语的情感倾向包括三类：褒义、贬义、中性，分别用P、N、M表示，对于褒义情感词和贬义情感词，情感强度分为1、3、5、7、9五档，9表示强度最大，1为强度最小，对于中性情感词，情感强度均为0。本发明采用的程度副词词典基于知网的程度级别词语集，从中选取了部分词语，并另外加入了一些常用的程度副词。本程度副词词典将词语按照情感强度分为四类，分别为：“极其”、“很”、“较”、“稍”，对应的情感强度值为4、3、2、1。

给定一个质量特征词S，它的风险评估值记为V(S)，V(S)的计算公式如下：

V(S)＝V₁(S)+V₂(S)

在满足第一类质量问题描述模板的评论数据中，S的风险评估值V₁(S)的计算方法如下：

质量特征词的风险评估分为褒义风险评估、贬义风险评估、中性风险评估三类。

褒义风险评估：在一条评论中，如果符合第一类质量描述模板，且修饰该特征词的情感词是褒义的，则要进行褒义风险评估的计算。先找出修饰该特征词的情感词，然后判断是否符合含有程度副词的模板，若符合，则风险评估为：“情感词的情感强度+程度副词的情感强度”；若不符合，风险评估为：“情感词的情感强度”。

贬义风险评估：在一条评论中，如果符合第一类质量描述模板，且修饰该特征词的情感词是贬义的，则要进行贬义风险评估的计算。先找出修饰该特征词的情感词，然后判断是否符合含有程度副词的模板，若符合，则风险评估为：“情感词的情感强度+程度副词的情感强度”；若不符合，风险评估为：“情感词的情感强度”。

中性风险评估：在一条评论中，如果符合第一类质量描述模板，修饰该特征词的最近的情感词是中性的，则要进行中性风险评估的计算。这时，该特征词的风险评估＝这条评论风险评估＝该条评论的褒义风险评估与贬义风险评估之差。

V₁(S)的计算公式如下：

其中，T_i是标准化因子：

T_i＝Pi+Ni (7)

在公式(6)、(7)中，V_P(S)、V_N(S)、V_M(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、中性风险评估值；a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中性情感词的个数；Score(P_Sk)表示修饰特征词S的第k个褒义情感词的情感强度，Score(PA_Sk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度，Score(N_Sl)表示修饰特征词S的第l个贬义情感词的情感强度；Pi表示修饰特征词S的第i个中性情感词所在的那条评论中的褒义情感词的个数，N_i表示修饰特征词S的第i个中性情感词所在的那条评论中的贬义情感词的个数，Score(P_Sij)表示修饰特征词S的第i个中性情感词所在的那条评论中的第j个褒义情感词的情感强度。

V₂(S)是在满足第二类质量问题描述模板的评论数据中，S的风险评估值，计算公式如下：

其中，R_i表示第i个模板的分值，Num_i表示满足第i个模板的评论数据出现的次数，i的取值范围为4、5、6，分别对应第4、5、6号模板。

本发明能够自动抓取网络上与指定产品相关的用户评论数据，并从中发现产品的质量问题，进而对产品质量的各个方面进行风险评估。利用本发明的方法，企业可以更快速有效地发现用户反映的产品质量问题，并对产品使用过程中的质量风险进行实时监督。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于网络评论的产品质量问题发现及风险评估方法，其特征在于，所述基于网络评论的产品质量问题发现及风险评估方法包括：

2.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，每个搜索结果页包含13个搜索结果；

计算标题和产品名的相似度；

3.根据权利要求2所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，根据以下公式计算标题和产品名的相似度：

4.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，所述对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理，得到结构化文本，具体包括：

5.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板；

所述第一类质量问题描述模板包括质量特征词和情感词；

所述第二类质量问题描述模板包括“不”字和质量特征词。

6.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，所述风险评估算法基于情感词词典和程度副词词典；

7.根据权利要求5所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，所述风险评估算法的公式为：

V(S)＝V₁(S)+V₂(S)

8.根据权利要求5所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，根据以下公式计算在满足第一类质量问题描述模板的评论数据中，S的风险评估值V₁(S)：

9.根据权利要求5所述的基于网络评论的产品质量问题发现及风险评估方法，其特征在于，根据以下公式计算在满足第二类质量问题描述模板的评论数据中，S的风险评估值V₂(S)：