CN113837531A - 一种基于网络评论的产品质量问题发现及风险评估方法 - Google Patents
一种基于网络评论的产品质量问题发现及风险评估方法 Download PDFInfo
- Publication number
- CN113837531A CN113837531A CN202110934697.XA CN202110934697A CN113837531A CN 113837531 A CN113837531 A CN 113837531A CN 202110934697 A CN202110934697 A CN 202110934697A CN 113837531 A CN113837531 A CN 113837531A
- Authority
- CN
- China
- Prior art keywords
- word
- quality
- emotion
- words
- risk assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002996 emotional effect Effects 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 94
- 230000007935 neutral effect Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 19
- 238000012552 review Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 208000034804 Product quality issues Diseases 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 description 1
- 238000010948 quality risk assessment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于网络评论的产品质量问题发现及风险评估方法,属于产品质量管理领域,包括:抓取与指定产品相关的论坛、电商网页,得到搜索结果页;提取各搜索结果页中的评论数据;对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本;利用条件随机场模型对结构化文本进行质量特征词标注,得到结果集;从结果集中提取出标注为质量特征词的词语,得到质量特征词集;基于预先设定的质量问题描述模板,在质量特征词集中统计出与每个质量特征词相关的质量问题;利用风险评估算法计算每个质量特征词的风险评估值,能快速有效地发现用户反映的质量问题,并对产品使用过程中的质量风险进行实时监督。
Description
本申请是名为《基于网络评论的产品质量问题发现及风险评估方法》的专利申请的分案申请,原申请的申请日为2016年05月30日,申请号为201610212917.7。
技术领域
本发明涉及产品质量管理领域,特别是涉及一种基于网络评论的产品质量问题发现及风险评估方法。
背景技术
产品质量是企业的生命,是一个企业整体素质的展示,也是一个企业综合实力的体现。传统的质量管理方法往往只注重生产过程中的质量管理,产品的出厂意味着质量管理的结束。随着全面质量管理的兴起,质量管理的范围扩展到了用户使用阶段,企业致力于发现用户使用过程中的产品质量问题,并将这些质量问题反馈给设计和生产部门,从而改善产品质量,提高用户体验。
目前,企业主要通过售后服务部门来收集用户使用过程中的产品质量问题。很多大型制造企业在全国设立售后服务点,通过售后服务点收集用户在使用过程中遇到的质量问题,并将这些质量问题反馈给设计和生产部门,为产品的质量改进提供方向。但是由于资金、人力、物力等的限制,售后服务点覆盖的范围有限,甚至有的企业根本就没有设立售后服务点,所以传统的通过售后服务部门来收集用户使用过程中的产品质量问题并不能完全满足企业的需求。
随着网络的发展,越来越多的用户在论坛、电商等网络平台上以评论的方式发表自己的对某个产品的评价,这些评论中往往隐含着用户在使用过程中发现的产品质量问题。有效利用这些评论,从中挖掘出产品在使用过程中的质量问题,弥补了售后服务部门收集信息不全的缺点。
发明内容
本发明的目的是提供一种基于网络评论的产品质量问题发现及风险评估方法,可对产品使用过程中的质量风险进行实时监督。
为实现上述目的,本发明提供了如下方案:
一种基于网络评论的产品质量问题发现及风险评估方法,所述基于网络评论的产品质量问题发现及风险评估方法包括:
利用网络爬虫,抓取与指定产品相关的论坛、电商网页,得到指定页数的搜索结果页;
提取各搜索结果页中的评论数据,并将评论数据保存到数据库中;
对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本;
采用均匀采样方法从结构化文本中取出500条评论数据的处理结果,并对质量特征词进行标注,得到训练集;
根据训练集以及预先设定的特征模板,对条件随机场进行训练,得到条件随机场模型;
利用条件随机场模型对所述结构化文本进行质量特征词标注,得到结果集;
从结果集中提取出标注为质量特征词的词语,得到质量特征词集;
基于预先设定的质量问题描述模板,在所述质量特征词集中统计出与每个质量特征词相关的质量问题;
利用基于质量特征词的风险评估算法,计算每个质量特征词的风险评估值。
可选地,每个搜索结果页包含13个搜索结果;
所述提取各搜索结果页中的评论数据,并将评论数据保存到数据库中,具体包括:
针对第i个搜索结果页中的第j个搜索结果,提取第i个搜索结果页中的第j个搜索结果的标题;
计算标题和产品名的相似度;
若相似度小于0.8,则继续提取第i个搜索结果页中的第j+1个搜索结果的标题;
若相似度大于或等于0.8,则提取第i个搜索结果页中的第j个搜索结果的统一资源定位系统URL;
根据第j个搜索结果的URL,判断第j个搜索结果是否为论坛或电商网站,若不是,则继续提取第i个搜索结果页中的第j+1个搜索结果的标题;若是,则进行网页抓取和信息抽取,得到评论数据,并将评论数据保存到数据库中。
可选地,根据以下公式计算标题和产品名的相似度:
其中,Z是归一化因子,αk是位置系数,且0<αk≤1,Pk是单次相似度,Pk的取值为0或1。
可选地,所述对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本,具体包括:
对各评论数据进行分词及词性标注,得到对应的分词评论文本;
对所述分词评论文本进行句法分析,得到分词评论文本中各个词语的依存关系;
使用情感词词典对所述分词评论文本中的各个词语进行情感词标注;所述情感词词典中,词语的情感倾向包括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。
可选地,所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板;
所述第一类质量问题描述模板包括质量特征词和情感词;
所述第二类质量问题描述模板包括“不”字和质量特征词。
可选地,所述风险评估算法基于情感词词典和程度副词词典;
所述程度副词词典中,词语按照情感强度分为四类,分别为:“极其”、“很”、“较”、“稍”,对应的情感强度值为4、3、2、1。
可选地,所述风险评估算法的公式为:
V(S)=V1(S)+V2(S)
其中,V1(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,V2(S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值。
可选地,根据以下公式计算在满足第一类质量问题描述模板的评论数据中,S的风险评估值V1(S):
其中,VP(S)、VN(S)、VM(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、中性风险评估值;a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中性情感词的个数;Score(PSk)表示修饰特征词S的第k个褒义情感词的情感强度,Score(PASk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Score(NSl)表示修饰特征词S的第l个贬义情感词的情感强度;Ti是标准化因子,Pi表示修饰特征词S的第i个中性情感词所在的那条评论中的褒义情感词的个数,Ni表示修饰特征词S的第i个中性情感词所在的那条评论中的贬义情感词的个数,Score(PSij)表示修饰特征词S的第i个中性情感词所在的那条评论中的第j个褒义情感词的情感强度。
可选地,根据以下公式计算在满足第二类质量问题描述模板的评论数据中,S的风险评估值V2(S):
其中,Ri表示第i个模板的分值,Numi表示满足第i个模板的评论数据出现的次数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:通过抓取与指定产品相关的搜索结果页,并提取评论数据,对数据进行预处理得到结构化文本,利用条件随机场模型对结构化文本进行质量特征词标注,可以提高评论数据的处理效率,再基于质量问题描述模板,统计出与每个质量特征词相关的质量问题,利用风险评估算法计算每个质量特征词的风险评估值。能够自动抓取网络上与指定产品相关的用户评论数据,并从中发现产品的质量问题,进而对产品质量的各个方面进行风险评估,可以更快速有效地发现用户反映的产品质量问题,并对产品使用过程中的质量风险进行实时监督。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于网络评论的产品质量问题发现及风险评估方法的流程图;
图2为本发明的数据获取流程图;
图3为本发明的质量特征词提取流程图;
图4为本发明的依存关系分析示例图;
图5为本发明的质量特征词提取的训练文本示例图;
图6为本发明的质量特征词提取的特征模板。
符号说明:
结构化文本-201,训练集-202,特征模板-203,条件随机场模型-204,结果集-205,质量特征词集-206。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于网络评论的产品质量问题发现及风险评估方法,通过抓取与指定产品相关的搜索结果页,并提取评论数据,对数据进行预处理得到结构化文本,利用条件随机场模型对结构化文本进行质量特征词标注,可以提高评论数据的处理效率,再基于质量问题描述模板,统计出与每个质量特征词相关的质量问题,利用风险评估算法计算每个质量特征词的风险评估值。能够自动抓取网络上与指定产品相关的用户评论数据,并从中发现产品的质量问题,进而对产品质量的各个方面进行风险评估,可以更快速有效地发现用户反映的产品质量问题,并对产品使用过程中的质量风险进行实时监督。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明以论坛、电商等网络平台上的用户评论为研究对象,目的是从网络评论中挖掘产品的质量问题,并做出质量风险评估。
基于网络评论的产品质量问题发现及风险评估方法,包括数据获取、质量特征词提取、质量问题发现及风险评估三个步骤。
如图1所示,本发明基于网络评论的产品质量问题发现及风险评估方法包括:
步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,得到指定页数的搜索结果页。在本实施例中,调用百度搜索接口搜索指定产品,得到指定页数的搜索结果页,且每个搜索结果页包含13个搜索结果。
提取各搜索结果页中的评论数据,并将评论数据保存到数据库中。
具体地,所述提取各搜索结果页中的评论数据,并将评论数据保存到数据库中,具体包括:
步骤101:针对第i个搜索结果页中的第j个搜索结果,提取第i个搜索结果页中的第j个搜索结果的标题。
步骤102:计算标题和产品名的相似度。利用公式(1)计算标题和产品名的相似度,相似度用Sim(标题,产品名)表示,并且0≤Sim(标题,产品名)≤1。
若相似度小于0.8,则返回步骤101,继续提取第i个搜索结果页中的第j+1个搜索结果的标题。
步骤103:若相似度大于或等于0.8,则提取第i个搜索结果页中的第j个搜索结果的URL。
其中,Z是归一化因子,
αk是位置系数,且0<αk≤1,
Pk是单次相似度,Pk的取值为0或1,
在公式(1)、(2)、(3)和(4)中,m是“产品名”中包含的文字个数,n是“标题”中包含的文字个数,“标题(k+l-1)”表示标题中的第k+l-1个字,“产品名(l)”表示产品名中的第l个字。
步骤104:根据第j个搜索结果的统一资源定位系统(uniform resource locator,URL),判断第j个搜索结果是否为论坛或电商网站,若不是,则返回步骤101,继续提取第i个搜索结果页中的第j+1个搜索结果的标题;
步骤105:若第j个搜索结果是论坛或电商网站,则进行网页抓取和信息抽取,得到评论数据,并将评论数据保存到数据库中。
不同类型的网页对应的抓取与抽取策略是不同的,所以需要对不同的网站制定不同的抓取与抽取模板,图2中给出了中关村、太平洋、天极网、京东、苏宁、1号店等模板,模板的个数不限,可以进行扩展。
步骤106,结束判断:当第i搜索结果页的全部搜索结果都处理完后,如果在第i页中的13个搜索结果中,满足标题相似度的搜索结果个数大于10,则i+1,j=1,转到步骤101,继续处理下一个搜索结果页,否则,数据获取工作结束。
步骤2,质量特征词提取:对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本。
采用均匀采样方法从结构化文本中取出500条评论数据的处理结果,并对质量特征词进行标注,得到训练集。
根据训练集以及预先设定的特征模板,对条件随机场进行训练,得到条件随机场模型。
利用条件随机场模型对所述结构化文本进行质量特征词标注,得到结果集。
从结果集中提取出标注为质量特征词的词语,得到质量特征词集。
进一步地,步骤2中,对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本,具体包括:
对各评论数据进行分词及词性标注,得到对应的分词评论文本。
对所述分词评论文本进行句法分析,得到分词评论文本中各个词语的依存关系。
使用情感词词典对所述分词评论文本中的各个词语进行情感词标注;所述情感词词典中,词语的情感倾向包括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。
本发明提供了从评论数据中提取质量特征词的方法,流程图如图3所示。首先进行分词及词性标注S201、句法分析S202、情感词标注S203等三步预处理,得到结构化文本201;然后采用均匀采样方法从结构化文本201中取出500条评论的处理结果,人工将这500条评论中的所有质量特征词标注为“S”,得到训练集202;然后以训练集202和特征模板203作为输入,利用条件随机场算法训练出一个表征了质量特征词与词语、词性、依存关系、支配词及支配的情感方向之间统计关系的条件随机场模型204;然后利用条件随机场模型204对文本201进行质量特征词的自动标注,得到结果集205;最后从结果集中提取标注为S的词语,得到质量特征词集206。
下面对S201~S204进行详细说明:
步骤S201,分词及词性标注:质量特征词提取的目的是从评论数据中提取出与产品质量相关的词语,但是由于汉语在书写时词与词之间不存在空格,计算机无法直接进行词语的识别,所以,要先进行分词处理。分词的作用是将连续的一段文本分成一个一个的词语,例如,给定一句话“手机的屏幕很模糊”,分词后的结果为“手机的屏幕很模糊”。描述质量问题的词语在词性上有一定的统计规律,例如:质量特征词大部分都是名词;副词是质量特征词的概率几乎为零等。所以,在分词之后,要进行词性标注,标注出每一个词语的词性,上述例子的标注结果为“手机/n的/u屏幕/n很/d模糊/a”。
步骤S202,依存关系分析:依存关系分析的理论基础是依存语法,该语法认为句子中的述语动词是支配其他成分的中心,而它本身却不受其他任何成分的支配,所有的受支配成分都以某种依存关系从属于其支配者,依存语法直接描述词与词之间的关系。给定例子“手机/n的/u屏幕/n很/d模糊/a”,依存关系分析的结果如图4所示。在依存关系分析的结果中,词与词之间直接发生依存关系,构成一个依存对,其中一个是支配词,另一个叫从属词,依存关系用一个有向弧表示,叫做依存弧,依存弧的方向为由支配词指向从属词,每个依存弧上有一个标记,叫做关系类型,表示该依存对中的两个词之间存在什么样的依存关系。在本例中,屏幕是质量特征词,从图4中可以看出,“屏幕”的支配词为“模糊”,“屏幕”与“模糊”之间的依存关系为“SBV”,即主谓关系。
步骤S203,情感词标注:经过步骤S201、S202,得到了词语、词性、依存关系、支配词等4项内容,对于“手机的屏幕很模糊”这个例子,得到的结果为图5中表格的前5列,其中每一行为一条记录,每条记录包括词语、词性、依存关系、支配词等四个字段。情感词标注的基础是情感词典,在情感词典中,包含常用的情感词,如“模糊”、“高”、“好”等。情感标注的对象为支配词,利用情感词典,标注出支配词是不是情感词,是情感词则标记为“Y”,不是情感词则标记为“N”。情感标注后得到了如图5所示的结果。
步骤S204,基于条件随机场模型的质量特征词提取:基于条件随机场的质量特征词提取由两部分构成:训练和处理。在训练阶段,首先采用均匀采样方法从文本201中取出500条评论的处理结果,人工将这500条评论中的所有质量特征词标注为“S”,得到训练集202;然后考虑词语、词性、依存关系、支配词及支配的情感方向等五种因素,制定出如图6所示的特征模板;然后以训练集202和特征模板203作为输入,利用条件随机场算法训练出一个表征了质量特征词与词语、词性、依存关系、支配词及支配的情感方向之间统计关系的条件随机场模型204;在处理阶段,利用已训练好的模型204对文本201进行质量特征词的自动标注,得到结果集205,然后从结果集中提取标注为S的词语,得到质量特征词集206。
步骤3,质量问题发现及风险评估:基于预先设定的质量问题描述模板,在所述质量特征词集中统计出与每个质量特征词相关的质量问题。
利用基于质量特征词的风险评估算法,计算每个质量特征词的风险评估值。
所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板;
所述第一类质量问题描述模板包括质量特征词和情感词;
所述第二类质量问题描述模板包括“不”字和质量特征词。
用户在描述质量问题时,由于每个人的语言习惯不同,对同一个质量问题往往多种描述形式。本发明在分析了大量评论数据的基础上,抽象出可以涵盖大部分质量问题描述的模板,质量问题描述模板主要分为两类:第一类由质量特征词和情感词组成,例如“屏幕模糊”,其中“屏幕”是质量特征词,“模糊”是情感词;第二类由“不”字和质量特征词组成,如“读不了通讯录”,其中含有“不”字,“通讯录”是质量特征词。质量问题描述模板的更详细的分类如表1所示,其中1、2、3为第一类模板,4、5、6为第二类模板。
表1:质量问题描述模板详细分类
序号 | 质量问题描述模板 | 举例 |
1 | 质量特征词+情感词 | 屏幕模糊 |
2 | 质量特征词+程度副词+情感词 | 像素太低 |
3 | 质量特征词+情感词+程度副词 | 系统糟糕得很 |
4 | 动词+不+助词+质量特征词 | 读不了通讯录 |
5 | 质量特征词+动词+不+助词 | 拍照用不了 |
6 | 质量特征词+不+助词+动词 | 指南针不能用 |
下面介绍一下风险评估算法。
风险评估算法基于情感词词典和程度副词词典。本发明采用的情感词词典基于大连理工的情感词汇本体,选取了情感词汇本体中的部分词语,并另外加入了一些新的网络用语,还对词语的情感分类重新进行了划分。在本发明的情感词词典中,词语的情感倾向包括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。本发明采用的程度副词词典基于知网的程度级别词语集,从中选取了部分词语,并另外加入了一些常用的程度副词。本程度副词词典将词语按照情感强度分为四类,分别为:“极其”、“很”、“较”、“稍”,对应的情感强度值为4、3、2、1。
给定一个质量特征词S,它的风险评估值记为V(S),V(S)的计算公式如下:
V(S)=V1(S)+V2(S)
其中,V1(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,V2(S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值。
在满足第一类质量问题描述模板的评论数据中,S的风险评估值V1(S)的计算方法如下:
质量特征词的风险评估分为褒义风险评估、贬义风险评估、中性风险评估三类。
褒义风险评估:在一条评论中,如果符合第一类质量描述模板,且修饰该特征词的情感词是褒义的,则要进行褒义风险评估的计算。先找出修饰该特征词的情感词,然后判断是否符合含有程度副词的模板,若符合,则风险评估为:“情感词的情感强度+程度副词的情感强度”;若不符合,风险评估为:“情感词的情感强度”。
贬义风险评估:在一条评论中,如果符合第一类质量描述模板,且修饰该特征词的情感词是贬义的,则要进行贬义风险评估的计算。先找出修饰该特征词的情感词,然后判断是否符合含有程度副词的模板,若符合,则风险评估为:“情感词的情感强度+程度副词的情感强度”;若不符合,风险评估为:“情感词的情感强度”。
中性风险评估:在一条评论中,如果符合第一类质量描述模板,修饰该特征词的最近的情感词是中性的,则要进行中性风险评估的计算。这时,该特征词的风险评估=这条评论风险评估=该条评论的褒义风险评估与贬义风险评估之差。
V1(S)的计算公式如下:
其中,Ti是标准化因子:
Ti=Pi+Ni (7)
在公式(6)、(7)中,VP(S)、VN(S)、VM(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、中性风险评估值;a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中性情感词的个数;Score(PSk)表示修饰特征词S的第k个褒义情感词的情感强度,Score(PASk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Score(NSl)表示修饰特征词S的第l个贬义情感词的情感强度;Pi表示修饰特征词S的第i个中性情感词所在的那条评论中的褒义情感词的个数,Ni表示修饰特征词S的第i个中性情感词所在的那条评论中的贬义情感词的个数,Score(PSij)表示修饰特征词S的第i个中性情感词所在的那条评论中的第j个褒义情感词的情感强度。
V2(S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值,计算公式如下:
其中,Ri表示第i个模板的分值,Numi表示满足第i个模板的评论数据出现的次数,i的取值范围为4、5、6,分别对应第4、5、6号模板。
本发明能够自动抓取网络上与指定产品相关的用户评论数据,并从中发现产品的质量问题,进而对产品质量的各个方面进行风险评估。利用本发明的方法,企业可以更快速有效地发现用户反映的产品质量问题,并对产品使用过程中的质量风险进行实时监督。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种基于网络评论的产品质量问题发现及风险评估方法,其特征在于,所述基于网络评论的产品质量问题发现及风险评估方法包括:
利用网络爬虫,抓取与指定产品相关的论坛、电商网页,得到指定页数的搜索结果页;
提取各搜索结果页中的评论数据,并将评论数据保存到数据库中;
对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本;
采用均匀采样方法从结构化文本中取出500条评论数据的处理结果,并对质量特征词进行标注,得到训练集;
根据训练集以及预先设定的特征模板,对条件随机场进行训练,得到条件随机场模型;
利用条件随机场模型对所述结构化文本进行质量特征词标注,得到结果集;
从结果集中提取出标注为质量特征词的词语,得到质量特征词集;
基于预先设定的质量问题描述模板,在所述质量特征词集中统计出与每个质量特征词相关的质量问题;
利用基于质量特征词的风险评估算法,计算每个质量特征词的风险评估值。
2.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,每个搜索结果页包含13个搜索结果;
所述提取各搜索结果页中的评论数据,并将评论数据保存到数据库中,具体包括:
针对第i个搜索结果页中的第j个搜索结果,提取第i个搜索结果页中的第j个搜索结果的标题;
计算标题和产品名的相似度;
若相似度小于0.8,则继续提取第i个搜索结果页中的第j+1个搜索结果的标题;
若相似度大于或等于0.8,则提取第i个搜索结果页中的第j个搜索结果的统一资源定位系统URL;
根据第j个搜索结果的URL,判断第j个搜索结果是否为论坛或电商网站,若不是,则继续提取第i个搜索结果页中的第j+1个搜索结果的标题;若是,则进行网页抓取和信息抽取,得到评论数据,并将评论数据保存到数据库中。
4.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,所述对各评论数据进行分词及词性标注、句法分析、情感词标注三步预处理,得到结构化文本,具体包括:
对各评论数据进行分词及词性标注,得到对应的分词评论文本;
对所述分词评论文本进行句法分析,得到分词评论文本中各个词语的依存关系;
使用情感词词典对所述分词评论文本中的各个词语进行情感词标注;所述情感词词典中,词语的情感倾向包括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。
5.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,所述质量问题描述模板第一类质量问题描述模板和第二类质量问题描述模板;
所述第一类质量问题描述模板包括质量特征词和情感词;
所述第二类质量问题描述模板包括“不”字和质量特征词。
6.根据权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,所述风险评估算法基于情感词词典和程度副词词典;
所述程度副词词典中,词语按照情感强度分为四类,分别为:“极其”、“很”、“较”、“稍”,对应的情感强度值为4、3、2、1。
7.根据权利要求5所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,所述风险评估算法的公式为:
V(S)=V1(S)+V2(S)
其中,V1(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,V2(S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值。
8.根据权利要求5所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在于,根据以下公式计算在满足第一类质量问题描述模板的评论数据中,S的风险评估值V1(S):
其中,VP(S)、VN(S)、VM(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、中性风险评估值;a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中性情感词的个数;Score(PSk)表示修饰特征词S的第k个褒义情感词的情感强度,Score(PASk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Score(NSl)表示修饰特征词S的第l个贬义情感词的情感强度;Ti是标准化因子,Pi表示修饰特征词S的第i个中性情感词所在的那条评论中的褒义情感词的个数,Ni表示修饰特征词S的第i个中性情感词所在的那条评论中的贬义情感词的个数,Score(PSij)表示修饰特征词S的第i个中性情感词所在的那条评论中的第j个褒义情感词的情感强度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934697.XA CN113837531A (zh) | 2016-05-30 | 2016-05-30 | 一种基于网络评论的产品质量问题发现及风险评估方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610212917.7A CN105844424A (zh) | 2016-05-30 | 2016-05-30 | 基于网络评论的产品质量问题发现及风险评估方法 |
CN202110934697.XA CN113837531A (zh) | 2016-05-30 | 2016-05-30 | 一种基于网络评论的产品质量问题发现及风险评估方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610212917.7A Division CN105844424A (zh) | 2016-05-30 | 2016-05-30 | 基于网络评论的产品质量问题发现及风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837531A true CN113837531A (zh) | 2021-12-24 |
Family
ID=56596842
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110934697.XA Pending CN113837531A (zh) | 2016-05-30 | 2016-05-30 | 一种基于网络评论的产品质量问题发现及风险评估方法 |
CN201610212917.7A Pending CN105844424A (zh) | 2016-05-30 | 2016-05-30 | 基于网络评论的产品质量问题发现及风险评估方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610212917.7A Pending CN105844424A (zh) | 2016-05-30 | 2016-05-30 | 基于网络评论的产品质量问题发现及风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113837531A (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767156A (zh) * | 2016-08-17 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 一种信息录入方法、装置及系统 |
CN106294885A (zh) * | 2016-10-09 | 2017-01-04 | 华东师范大学 | 一种面向异构网页的数据收集与标注方法 |
CN106649260B (zh) * | 2016-10-19 | 2022-01-25 | 中国计量大学 | 基于评论文本挖掘的产品特征结构树构建方法 |
CN106570631B (zh) * | 2016-10-28 | 2021-01-01 | 南京邮电大学 | 一种面向p2p平台运营风险评估的方法和系统 |
CN107133214A (zh) * | 2017-05-05 | 2017-09-05 | 中国计量大学 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
CN107169091A (zh) * | 2017-05-12 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种数据分析方法及装置 |
CN107977798B (zh) * | 2017-12-21 | 2023-09-12 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN108256078B (zh) * | 2018-01-18 | 2019-07-12 | 北京百度网讯科技有限公司 | 信息获取方法和装置 |
CN108733748B (zh) * | 2018-04-04 | 2022-01-14 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109857838B (zh) * | 2019-02-12 | 2021-01-26 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110008311B (zh) * | 2019-04-04 | 2020-11-24 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110135694A (zh) * | 2019-04-12 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 产品风险评估方法、装置、计算机设备和存储介质 |
CN110704581B (zh) * | 2019-09-11 | 2024-03-08 | 创新先进技术有限公司 | 计算机执行的文本情感分析方法及装置 |
CN111461876A (zh) * | 2020-05-07 | 2020-07-28 | 赵玉洁 | 一种基于大数据的电商信用体系管理系统及方法 |
CN111861507B (zh) * | 2020-06-30 | 2023-10-24 | 成都数之联科技股份有限公司 | 一种用于实时分析网络餐饮店铺风险的识别方法及系统 |
CN112182165B (zh) * | 2020-10-28 | 2022-05-20 | 杭州电子科技大学 | 基于在线评论的新产品质量规划方法 |
CN117150025B (zh) * | 2023-10-31 | 2024-01-26 | 湖南锦鳞智能科技有限公司 | 一种数据服务智能识别系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103646088A (zh) * | 2013-12-13 | 2014-03-19 | 合肥工业大学 | 基于CRFs和SVM的产品评论细粒度情感要素提取 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN104794154A (zh) * | 2015-03-11 | 2015-07-22 | 南通天呈医流互联网技术有限公司 | 基于文本挖掘的医疗器械o2o服务质量评价模型 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
US20150186790A1 (en) * | 2013-12-31 | 2015-07-02 | Soshoma Inc. | Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
-
2016
- 2016-05-30 CN CN202110934697.XA patent/CN113837531A/zh active Pending
- 2016-05-30 CN CN201610212917.7A patent/CN105844424A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN103646088A (zh) * | 2013-12-13 | 2014-03-19 | 合肥工业大学 | 基于CRFs和SVM的产品评论细粒度情感要素提取 |
CN104794154A (zh) * | 2015-03-11 | 2015-07-22 | 南通天呈医流互联网技术有限公司 | 基于文本挖掘的医疗器械o2o服务质量评价模型 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
王兰成,敖毅: "数字图书馆技术:信息集成与信息检索", vol. 1, 31 January 2002, 中国广播电视出版社, pages: 238 - 242 * |
王兰成等: "《数字图书馆技术—信息集成与信息检索》", vol. 1, 30 April 2007, 国防工业出版社, pages: 238 - 242 * |
Also Published As
Publication number | Publication date |
---|---|
CN105844424A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837531A (zh) | 一种基于网络评论的产品质量问题发现及风险评估方法 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN108364199B (zh) | 一种基于互联网用户评论的数据分析方法及系统 | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN109902179A (zh) | 基于自然语言处理的筛选电商垃圾评论的方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
Wei et al. | Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments | |
CN110990587A (zh) | 基于主题模型的企业关系发现方法及系统 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
CN107967299B (zh) | 一种面向农业舆情的热词自动提取方法及系统 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |