CN107133214A - 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 - Google Patents
一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 Download PDFInfo
- Publication number
- CN107133214A CN107133214A CN201710341154.0A CN201710341154A CN107133214A CN 107133214 A CN107133214 A CN 107133214A CN 201710341154 A CN201710341154 A CN 201710341154A CN 107133214 A CN107133214 A CN 107133214A
- Authority
- CN
- China
- Prior art keywords
- word
- emotion
- product
- mrow
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法。该方法包括以下步骤:1,数据的爬取:利用网络爬虫技术在电商平台爬取产品评论指定信息并保存到数据库中;2,数据预处理及产品特征词提取:对采集的数据进行数据清理和预处理,再对预处理后的数据利用BiLSTM‑CRF模型进行产品特征提取;3,对产品需求偏好特征的挖掘及其质量评估。利用本发明,可以利用消费者的反馈信息快速的了解产品的质量问题,并且能够发现客户的需求偏好特征,使企业做出更好的决策来满足消费者。
Description
技术领域
本发明涉及到产品质量安全领域,尤其涉及了一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法。
背景技术
产品质量安全是指产品在被正常或合理可预见使用情况下,不存在风险或该风险被认为可接受,并与人身安全和健康的高水平保护相一致。随着经济技术的快速发展,消费品市场不断扩大,我国产品质量安全事故频发,消费者人身安全与健康遭受潜在威胁,间接危害公共安全公共安全与社会稳定。由此,提高对产品的质量安全很重要。
随着互联网技术的发展与普及,网络正逐渐改变着人们的生活和表达方式。由于不同的用户有不同的质量安全需求,也可能在不同的非常规的操作下,在使用过程中产品会暴露一些质量问题。然而,网络中充斥着海量的消费者对产品的质量反馈信息,互联网成为获取质量安全信息的重要渠道。制造企业如果能够快速、有效地从中提取反映产品质量的信息,将会为改进、完善产品开发设计提供重要的依据,为消费者全面服务并增加满意度,是企业增加市场竞争力,使企业和消费者建立互利关系。
面向中小型企业的产品质量安全,运用科学的管理方法和手段,尽早发现各种潜在的产品质量和安全问题,然后进行验证,对其质量问题进行改进与完善,对可能出现的危害进行评估,并进行有效的预警和处置措施,减少产品质量安全事件对企业带来的损失,全面提高制造企业对潜在的产品质量安全危害的主动管理能力。
发明内容
为了能够有效的分析出消费者对产品需求偏好特征的挖掘及其质量安全问题,本发明提供了一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法,为企业也提供了一种思路。
一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于,包括:
步骤1,利用网络爬虫技术采集电商平台某种特定商品评论区的评论信息,把网页转化为评论文本并保存到数据库中;
步骤2,首先对原始的评论数据进行数据清理、去除重复标点及修改错别字等操作,然后再对评论文本利用NIPIR汉语分词系统进行分词及词性标、新词发现、利用哈工大语言技术平台进行句法分析、利用人工编辑的情感词典进行情感词标注四步预处理,然后把数据分为训练集和测试集,利用BiLSTM-CRF模型对训练集进行训练.最后把训练最好的模型在测试集中提取产品特征词;
步骤3,消费者对产品零部件的偏好特征挖掘及其产品整体的质量影响进行评估。
在上述的一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤1中,爬虫技术是通过HTTP协议,把制定好的正则表达式用来采集电商平台某种特定商品评论区的评论信息。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤2中,对文本数据进行清理,然后评论文本进行分词及词性标注、新词发现、句法分析、情感词标注,最后利用BiLSTM-CRF模型提取特征词。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤3中,1)情感词词典中词语的情感倾向包括正向词、负向词、中性词三类,对情感词进行打分,正向词的情感打分分为1、3、5、7、9五个档次,9表示正面性最强;负向词的情感打分分为-1、-3、-5、-7、-9五个档次,-9表示负面性最强;对于中性词的情感打分均记为0。同时对同一档次的情感词分别进行词频统计。产品需求偏好特征挖掘及质量安全评估方法的实现利用了情感词词典和程度副词词典。在程度副词词典中,人工将程度副词按照情感强度分为六类,如:“最”、“极其”、“很”、“挺”、“较”、“稍”,对应的情感强度值为2,1.7,1.5,1.2,0.7,0.5。2)否定词词典一般是情感词前面的带有否定意义的词,如“不算”。把该否定词设置一个定值为-1,并进行对否定词进行计数。3)当情感词前面有否定词时,特征词的情感得分为:(-1)×(情感得分);当情感词前面有程度副词时,特征词的情感得分:(程度副词的情感强度)×(情感得分)。否则,产品特征词的情感得分不发生改变。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤3中,偏好特征一般是消费者对产品情感评论较多的某些属性。在这里设定一个阈值β,当评论条数低于该阈值,视该特征为其他因素,暂且忽略不计。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤3巾,定义一个参数α,该参数用来表示消费者对产品某一特征的情感评论次数与产品所有特征词的情感词评论次数比例,α越大消费者对该特征越关注,该特征对产品总体满意度影响越大,同时也体现了消费者对产品的该特征的需求偏好越明显。从心理学角度考虑,消费者对该特征重视程度。该参数表示为:
其中,a表示某特征词对应的正向情感词的个数、负向情感词的个数、中性情感词的个数之和;b表示以情感词为中心程度副词所在句子中的个数:c表示句子中以情感词为中心的否定词个数,T表示该产品所有偏好特征词的情感词评论次数,包括利用所有的程度副词评论次数和否定词评论次数。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤3中,特征词情感得分计算方法如下:
在评论文本中提取的产品特征词组成的特征集合记为,每个产品特征,定义一个特征词的情感强度的定义域为[-9,9],一个产品特征的情感得分记为,范围为[0,100],情感强度与情感得分呈线性关系,通过映射关系得以下的计算公式。当分值越高,说明消费者对该产品这个特征质量评价越好。
∑str(SW)表示包括所有的情感词、程度副词、否定词在内的情感强度得分的总和;Str(i,W(k))表示特征词第k个情感词的情感强度;Score(advim)表示修饰特征词的第m个程度副词的情感强度;-1统一表示修饰特征词的第n个否定词的情感强度。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤4中,针对消费者偏好特征的产品整体满意度,对产品的质量进行打分评估,计算公式如下:
其中,l表示所有特征词的个数。
本发明利用爬虫技术在电商平台指定的产品评论区爬取评论信息文本,对原始的文本进行去重等处理后,利用分词等技术完成预处理阶段,实现特征词提取,然后对含有程度副词和否定词的处理,进而对消费者需求偏好特征的发现及其质量进行评估。利用本发明的方法,可以有效的对产品质量安全进行监督,帮助企业进行商业决策,保持市场竞争力。
附图说明
图1是本发明的整体流程图。
图2是本发明的评论信息采集流程图。
图3是本发明的数据清理、预处理阶段、特征提取三阶段流程图。
图4是本发明的BiLSTM-CRF结构示意图。
具体实施方式
下面结合附图对本发明内容进一步详细说明:
本发明是对采集电商平台的评论信息为研究对象,目的是对评论信息进行文本处理,发现消费者的偏好特征,并对该特征质量进行评估。
基于评论信息的产品需求偏好特征挖掘及其质量评估方法,包括获取评论信息、特征词的提取、产品特征的评分、消费者偏好特征的挖掘和产品质量安全的评估四个步骤,如图1所示。下面对这四个步骤分别进行详细说明。
利用网络爬虫技术通过HTTP协议把制定好的正则表达式用来采集电商平台某种特定商品评论区的评论信息,把网页转化为评论文本并保存到数据库中;
步骤1,评论信息的获取:利用网络爬虫技术采集电商平台某种特定商品评论区的评论信息,把网页转化为评论文本并保存到数据库中;
评论信息获取的流程图如图2所示。在某电商平台上搜索指定的产品,打开其中的一个产品,在该网页产品中利用HTTP协议来进行访问评论区,然后通过制作该网页评论区相对应的正则表达式模板采集评论信息。
步骤2,首先对原始的评论数据进行数据清理、去除重复标点及修改错别字等操作,然后再对评论文本利用NIPIR汉语分词系统进行分词及词性标、新词发现、利用哈工大语言技术平台进行句法分析、利用人工编辑的情感词典进行情感词标注四步预处理,然后把数据分为训练集和测试集,利用BiLSTM-CRF模型对训练集进行训练,为满足需求对生成的model进行修正,生成最好的model利用在测试集中,提取产品特征词。数据清理、预处理阶段、特征提取三阶段流程如图3所示;
BiLSTM-CRF模型利用当前输入层给出的训练序列通过提供完整的上文信息和下文信息,然后在后面加一个CRF模型来实现特征词提取功能,BiLSTM-CRF的结构如图4所示。其中,输入层为词嵌入,向前层和向后层为双向循环神经网络,输出层为CRF模型。
对于产品特征词标注:单独的特征词标注为U;跟后面字符构成词且自身是第一个字符标注为B;在词中间字符标注为M;在词尾的字符标注为E;不是特征词的标注为O。
本发明利用网络评论信息提供了一种提取产品特征的方法,获取产品特征词的方法的技术路线如图3所示。为了使数据优质首先对噪声进行处理,如数据清理、去除重复标点及无关评论等操作,然后再对评论文本利用NIPIR汉语分词系统进行分词及词性标、新词发现,利用哈工大语言技术平台进行句法分析、利用人工编辑的情感词典进行情感词标注四步预处理,然后预处理后的数据分为训练集和测试集,利用BiLSTM-CRF模型对训练集进行训练,为满足需求对生成的model进行修正,把生成最好的model利用在测试集中,提取产品特征词;
步骤3,消费者对产品零部件的偏好特征挖掘及其产品整体的质量影响进行评估。
为了能够对产品特征进行评分,需要对特征词、情感词、程度副词、否定词进行词频统计,首先我们要清楚关于评论信息中消费者对产品评论表达方式有所不同,一种形式为特征词+情感词或者情感词+特征词,例如“外观漂亮”和“不错的手机”;另一种评论结构为特征词+程度副词+情感词,如“像素太低”;还有一种结构为特征词+否定词+情感词,如“网络信号不好”。
针对以上词频统计,当句子结构表达形式为特征词+情感词或者情感词+特征词时,统计特征词、情感词的频数是根据情感词典中相同情感强度进行相对应累加;当形式为特征词+程度副词+情感词时,除了特征词、情感词统计外,程度副词也要调用程度副词词典进行频数统计;当特征词+否定词+情感词,特征词和情感词统计之外,需要对否定词进行统计。
偏好特征一般是消费者对产品情感评论较多的某些属性。在这里设定一个阈值β,当评论条数低于该阈值,视该特征为其他因素,暂且忽略不计。例如特征“传感器”,关于该特征的评论信息总共8条。
产品特征词会出现许多近义词,把这些近义词统称为通俗特征词,例如“后盖”与“后壳”。这里利用已提取的通俗特征词与规定的产品特征词通过余弦相似度计算相似性。经过多次实验设定相似度的阈值,当余弦相似度值大于等于阈值时,则确定评论信息中的通俗特征词与标准特征词是指同一零部件,此时同义特征词的情感词词频统计。余弦相似度公式为:
其中,“·”表示词向量点积,‖x‖是词向量x的长度,
定义一个参数α,该参数用来表示消费者对产品某一特征的情感评论次数与产品所有特征词的情感词评论次数比例,α越大消费者对该特征越关注,该特征对产品总体满意度影响越大,同时也体现了消费者对产品的该特征的需求偏好越明显。从心理学角度考虑,消费者对该特征重视程度。该参数表示为:
其中,a表示特征词的正向情感词的个数、负向情感词的个数、中性情感词的个数之和;b表示程度副词所在句子中的个数;c表示句子中的否定词的个数,T表示该产品所有特征词的情感词评论次数,包括利用所有的程度副词评论次数和否定词评论次数。
在评论文本中提取的产品特征词组成的特征集合记为,每个产品特征,定义一个特征词的情感强度的定义域为[-9,9],一个产品特征的情感得分记为,范围为[0,100],情感强度与情感得分呈线性关系,通过映射关系得以下的计算公式。当分值越高,说明消费者对该产品这个特征质量评价越好。
∑Str(SW)表示所有的情感词、程度副词、否定词在内的情感强度的总和;Str(i,W(k))表示特征词第k个情感词的情感强度;Score(advim)表示修饰特征词的第m个程度副词的情感强度;-1统一表示修饰特征词的第n个否定词的情感强度。
在上述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤4中,针对消费者偏好特征的产品整体满意度,对产品的质量进行打分评估,计算公式如下:
其中,l表示所有特征词的个数。
本发明利用爬虫技术在电商平台指定的产品评论区爬取评论信息文本,对原始的文本进行去重等处理后,利用分词等技术完成预处理阶段,实现特征词提取,然后对含有程度副词和否定词的处理,进而对消费者需求偏好特征的发现及其质量进行评估。利用本发明的方法,可以有效的对产品质量安全进行监督,帮助企业进行商业决策,保持市场竞争力。
Claims (8)
1.一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于,包括:
步骤1,利用网络爬虫技术采集电商网站某种特定商品评论区的评论信息,把网页转化为评论文本并保存到数据库中;
步骤2,首先对原始的评论数据进行数据清理、去除重复标点及修改错别字等操作,然后再对评论文本利用NIPIR汉语分词系统进行分词及词性标注、新词发现、利用哈工大语言技术平台进行句法分析、利用人工编辑的情感词典进行情感词标注四步预处理,然后把数据分为训练集和测试集,利用BiLSTM-CRF模型对训练集进行训练,最后把训练最好的模型在测试集中提取产品特征词;
步骤3,消费者对产品的需求偏好特征挖掘及对产品整体的质量安全进行评估。
2.如权利要求1所述的一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤1中,爬虫技术是通过网页中的HTTP协议,把制定好的正则表达式用来采集电商网站某种特定商品评论区的评论信息。
3.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤2中,对文本数据进行清理,然后评论文本进行分词及词性标注、新词发现、句法分析、情感词标注,最后提取特征词。
4.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤3中,1)编辑情感词词典,词语的情感倾向包括正向词、负向词、中性词三类,对情感词进行打分,正向词的情感打分分为1、3、5、7、9五个档次,9表示正面性最强;负向词的情感打分分为-1、-3、-5、-7、-9五个档次,-9表示负面性最强;对于中性词的情感打分均记为0。同时对同一档次的情感词分别进行词频统计。产品需求偏好特征挖掘及质量安全评估方法的实现利用了情感词词典和程度副词词典。在编辑的程度副词词典中,人工将程度副词按照情感强度分为六类,如:“最”、“极其”、“很”、“挺”、“较”、“稍”,对应的情感强度值为2,1.7,1.5,1.2,0.7,0.5。2)编辑否定词词典一般是情感词前面的带有否定意义的词,如“不算”。把该否定词设置一个定值为-1,并进行对否定词进行计数。3)当情感词前面有否定词时,特征词的情感得分为:(-1)×(情感得分);当情感词前面有程度副词时,特征词的情感得分:(程度副词的情感强度)×(情感得分)。否则,产品特征词的情感得分不发生改变。
5.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤3中,偏好特征一般是消费者对产品情感评论较多的某些属性。在这里设定一个阈值β,当评论条数低于该阈值,视该特征为其他因素,暂且忽略不计。
6.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤3中,定义一个参数α,该参数用来表示消费者对产品某一特征的情感评论次数与产品所有特征词的情感词评论次数比例,α越大消费者对该特征越关注,该特征对产品总体满意度影响越大,同时也体现了消费者对产品的该特征的需求偏好越明显。从心理学角度考虑,消费者对该特征重视程度。该参数表示为:
其中,a表示某特征词对应的正向情感词的个数、负向情感词的个数、中性情感词的个数之和;b表示以情感词为中心程度副词所在句子中的个数;c表示句子中以情感词为中心的否定词的个数,T表示该产品所有特征词的情感词评论次数,包括利用所有的程度副词评论次数和否定词评论次数。
7.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法,其特征在于:在步骤3中,特征词情感得分计算方法如下:
在评论文本中提取的产品特征词组成的特征集合记为,每个产品特征,定义一个特征词的情感强度的定义域为[-9,9],一个产品特征的情感得分记为,范围为[0,100],情感强度与情感得分呈线性关系,通过映射关系得以下的计算公式。当分值越高,说明消费者对该产品这个特征质量评价越好。
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>fw</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>50</mn>
<mo>+</mo>
<mfrac>
<mn>50</mn>
<mn>9</mn>
</mfrac>
<mo>&times;</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>a</mi>
<mo>+</mo>
<mi>b</mi>
<mo>+</mo>
<mi>c</mi>
</mrow>
</mfrac>
<mo>&Sigma;</mo>
<mi>S</mi>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mi>W</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mn>50</mn>
<mo>+</mo>
<mfrac>
<mn>50</mn>
<mn>9</mn>
</mfrac>
<mo>&times;</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>a</mi>
<mo>+</mo>
<mi>b</mi>
<mo>+</mo>
<mi>c</mi>
</mrow>
</mfrac>
<mo>{</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>a</mi>
</munderover>
<mi>S</mi>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>W</mi>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>b</mi>
</munderover>
<mi>S</mi>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>W</mi>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>adv</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<mi>S</mi>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>W</mi>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
∑Str(SW)表示包括所有的情感词、程度副词、否定词在内的情感强度得分的总和;Str(i,W(k))表示特征词第k个情感词的情感强度;Score(advim)表示修饰特征词的第m个程度副词的情感强度;-1统一表示修饰特征词的第n个否定词的情感强度。
8.如权利要求1所述的基于评论信息的产品需求偏好特征挖掘及其质量评估方法中,在所描述的步骤3中,针对消费者偏好特征的产品整体满意度,对产品的质量进行打分评估,计算公式如下:
其中,l表示所有特征词的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710341154.0A CN107133214A (zh) | 2017-05-05 | 2017-05-05 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710341154.0A CN107133214A (zh) | 2017-05-05 | 2017-05-05 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107133214A true CN107133214A (zh) | 2017-09-05 |
Family
ID=59731636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710341154.0A Pending CN107133214A (zh) | 2017-05-05 | 2017-05-05 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133214A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908753A (zh) * | 2017-11-20 | 2018-04-13 | 合肥工业大学 | 基于社交媒体评论数据的客户需求挖掘方法及装置 |
CN107977798A (zh) * | 2017-12-21 | 2018-05-01 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108182174A (zh) * | 2017-12-27 | 2018-06-19 | 掌阅科技股份有限公司 | 新词提取方法、电子设备及计算机存储介质 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108389133A (zh) * | 2018-03-19 | 2018-08-10 | 朱将中 | 一种智能化辅助投顾的决策方法 |
CN108920448A (zh) * | 2018-05-17 | 2018-11-30 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN109165996A (zh) * | 2018-07-18 | 2019-01-08 | 浙江大学 | 基于在线用户评论的产品功能特征重要性分析方法 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109902229A (zh) * | 2019-02-01 | 2019-06-18 | 中森云链(成都)科技有限责任公司 | 一种基于评论的可解释推荐方法 |
CN110134938A (zh) * | 2018-02-09 | 2019-08-16 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN110232181A (zh) * | 2018-03-06 | 2019-09-13 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN110490663A (zh) * | 2019-08-23 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN110489523A (zh) * | 2019-07-31 | 2019-11-22 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110717654A (zh) * | 2019-09-17 | 2020-01-21 | 合肥工业大学 | 基于用户评论的产品质量评价方法和系统 |
CN110796484A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 客户活跃程度预测模型的构建方法、装置及其应用方法 |
CN110825423A (zh) * | 2019-10-31 | 2020-02-21 | 天津大学 | 一种基于用户在线评论情感和偏好分析的app持续改善方法 |
CN111221975A (zh) * | 2018-11-26 | 2020-06-02 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN112015857A (zh) * | 2019-05-13 | 2020-12-01 | 中国移动通信集团湖北有限公司 | 用户感知评价方法、装置、电子设备及计算机存储介质 |
CN112435651A (zh) * | 2020-11-20 | 2021-03-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
WO2021093342A1 (en) * | 2019-11-15 | 2021-05-20 | Midea Group Co., Ltd. | System, method, and user interface for facilitating product research and development |
CN116862293A (zh) * | 2023-06-26 | 2023-10-10 | 广州淘通科技股份有限公司 | 一种运营数据的分析方法、系统、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN105844424A (zh) * | 2016-05-30 | 2016-08-10 | 中国计量学院 | 基于网络评论的产品质量问题发现及风险评估方法 |
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
US20170024753A1 (en) * | 2015-07-23 | 2017-01-26 | Quality Data Management, Inc. | System and method for performing a quality assessment by segmenting and analyzing verbatims |
-
2017
- 2017-05-05 CN CN201710341154.0A patent/CN107133214A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
US20170024753A1 (en) * | 2015-07-23 | 2017-01-26 | Quality Data Management, Inc. | System and method for performing a quality assessment by segmenting and analyzing verbatims |
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
CN105844424A (zh) * | 2016-05-30 | 2016-08-10 | 中国计量学院 | 基于网络评论的产品质量问题发现及风险评估方法 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908753A (zh) * | 2017-11-20 | 2018-04-13 | 合肥工业大学 | 基于社交媒体评论数据的客户需求挖掘方法及装置 |
CN107908753B (zh) * | 2017-11-20 | 2020-04-21 | 合肥工业大学 | 基于社交媒体评论数据的客户需求挖掘方法及装置 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN107977798A (zh) * | 2017-12-21 | 2018-05-01 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN107977798B (zh) * | 2017-12-21 | 2023-09-12 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN108182174B (zh) * | 2017-12-27 | 2019-03-26 | 掌阅科技股份有限公司 | 新词提取方法、电子设备及计算机存储介质 |
CN108182174A (zh) * | 2017-12-27 | 2018-06-19 | 掌阅科技股份有限公司 | 新词提取方法、电子设备及计算机存储介质 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN110134938A (zh) * | 2018-02-09 | 2019-08-16 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN110232181B (zh) * | 2018-03-06 | 2022-09-23 | 阿里巴巴(中国)有限公司 | 评论分析方法及装置 |
CN110232181A (zh) * | 2018-03-06 | 2019-09-13 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108388660B (zh) * | 2018-03-08 | 2021-10-01 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108389133A (zh) * | 2018-03-19 | 2018-08-10 | 朱将中 | 一种智能化辅助投顾的决策方法 |
CN108920448A (zh) * | 2018-05-17 | 2018-11-30 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN108920448B (zh) * | 2018-05-17 | 2021-09-14 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN109165996A (zh) * | 2018-07-18 | 2019-01-08 | 浙江大学 | 基于在线用户评论的产品功能特征重要性分析方法 |
CN109165996B (zh) * | 2018-07-18 | 2022-02-11 | 浙江大学 | 基于在线用户评论的产品功能特征重要性分析方法 |
CN111221975B (zh) * | 2018-11-26 | 2021-12-14 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN111221975A (zh) * | 2018-11-26 | 2020-06-02 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109902229A (zh) * | 2019-02-01 | 2019-06-18 | 中森云链(成都)科技有限责任公司 | 一种基于评论的可解释推荐方法 |
CN112015857A (zh) * | 2019-05-13 | 2020-12-01 | 中国移动通信集团湖北有限公司 | 用户感知评价方法、装置、电子设备及计算机存储介质 |
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN110489523A (zh) * | 2019-07-31 | 2019-11-22 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110489523B (zh) * | 2019-07-31 | 2021-12-17 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110490663A (zh) * | 2019-08-23 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN110717654A (zh) * | 2019-09-17 | 2020-01-21 | 合肥工业大学 | 基于用户评论的产品质量评价方法和系统 |
CN110796484B (zh) * | 2019-10-11 | 2022-02-25 | 上海上湖信息技术有限公司 | 客户活跃程度预测模型的构建方法、装置及其应用方法 |
CN110796484A (zh) * | 2019-10-11 | 2020-02-14 | 上海上湖信息技术有限公司 | 客户活跃程度预测模型的构建方法、装置及其应用方法 |
CN110825423A (zh) * | 2019-10-31 | 2020-02-21 | 天津大学 | 一种基于用户在线评论情感和偏好分析的app持续改善方法 |
CN110825423B (zh) * | 2019-10-31 | 2023-09-29 | 天津大学 | 一种基于用户在线评论情感和偏好分析的app持续改善方法 |
WO2021093342A1 (en) * | 2019-11-15 | 2021-05-20 | Midea Group Co., Ltd. | System, method, and user interface for facilitating product research and development |
CN112435651A (zh) * | 2020-11-20 | 2021-03-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN112435651B (zh) * | 2020-11-20 | 2023-05-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN116862293A (zh) * | 2023-06-26 | 2023-10-10 | 广州淘通科技股份有限公司 | 一种运营数据的分析方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133214A (zh) | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
US7873584B2 (en) | Method and system for classifying users of a computer network | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN103699626B (zh) | 一种微博用户个性化情感倾向分析方法及系统 | |
Wu et al. | Chinese micro-blog sentiment analysis based on multiple sentiment dictionaries and semantic rule sets | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN105893582B (zh) | 一种社交网络用户情绪判别方法 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN106354710A (zh) | 一种神经网络关系抽取方法 | |
CN101520802A (zh) | 一种问答对的质量评价方法和系统 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN107688576A (zh) | 一种cnn‑svm模型的构建及倾向性分类方法 | |
CN106569999A (zh) | 多粒度短文本语义相似度比较方法及系统 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN114462409A (zh) | 一种基于对抗训练的审计领域命名实体识别方法 | |
CN109446423A (zh) | 一种新闻以及文本的情感判断系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |