CN105469282A - 基于文本评论的线上品牌评估方法 - Google Patents
基于文本评论的线上品牌评估方法 Download PDFInfo
- Publication number
- CN105469282A CN105469282A CN201510866411.3A CN201510866411A CN105469282A CN 105469282 A CN105469282 A CN 105469282A CN 201510866411 A CN201510866411 A CN 201510866411A CN 105469282 A CN105469282 A CN 105469282A
- Authority
- CN
- China
- Prior art keywords
- brand
- data
- target
- evaluation
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0278—Product appraisal
Abstract
本发明公开了一种基于文本评论的线上品牌评估方法,解决了现有技术中如何收集品牌信息和利用品牌产品相关评论进行识别评估的问题。本发明包括①收集目标品牌在各大电商网站上商品的相关评论文本;②随机选择评论数据分词,并进行标注;③将标注完成的评论数据作为隐马尔可夫算法模型的训练集数据;④训练出隐马尔可夫算法模型的参数,识别商品评论数据,得到结构化的情感描述语料;⑤处理情感描述语料,保留跟商品本身和品牌文化相关的评价性描述;⑥利用机器学习算法,给予目标品牌登记分类和量化评分;⑦存储目标品牌评估结果,按时间线定期更新品牌评估。本发明解决了线上品牌的信息收集问题,也能准确评估一个品牌的价值和持续性。
Description
技术领域
本发明涉及一种基于文本评论的线上品牌评估方法。
背景技术
近年来,互联网电子商务蓬勃发展,大量网络卖家经过多年积累,很多都走上了原创品牌的道路,比如淘宝等平台已经涌现了不少著名服装品牌。线上品牌的经营时间短,经营范围仅限于线上,对于普通消费者来说,信息太少,了解困难。
一套准确高效的线上品牌评估方案,可以使用户快速了解品牌价值,节约购物时间,准确作出决定。也能迅速识别互联网上滥竽充数的品牌,提高电子商务安全性。然而,现有技术中,并没有解决线上品牌的信息收集问题,也很难准确评估一个品牌的价值和持续性。
因此,一种基于文本评论的线上品牌评估方法,是当前急需解决的问题。
发明内容
本发明的目的在于提供一种基于文本评论的线上品牌评估方法,解决如何收集品牌信息和利用品牌产品相关评论进行识别评估的问题。
为了实现上述目的,本发明采用的技术方案如下:
基于文本评论的线上品牌评估方法,包括以下步骤:
(1)通过网络爬虫程序,收集目标品牌在各大电商网站上商品的相关评论文本;
(2)随机选择部分评论数据分词,并进行标注;
(3)将标注完成的评论数据作为隐马尔可夫算法模型的训练集数据;
(4)通过训练集数据train.csv训练出隐马尔可夫算法模型的参数,并由隐马尔可夫算法来识别商品评论数据,得到结构化的情感描述语料。
(5)进一步处理情感描述语料,保留其中跟商品本身和品牌文化相关的评价性描述;
(6)基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌登记分类和量化评分;
(7)存储目标品牌评估结果,按时间线定期更新品牌评估。
进一步地,所述步骤(1)的具体方法如下:
(11)分析电商网站网页结构;
(12)按时间爬取目标品牌对应的产品的所有评论信息。
再进一步地,所述步骤(4)中识别评论数据的算法模型的具体方法如下:
(41)调用隐马尔可夫算法模型,输入评论数据的文本语料;
(42)通过隐马尔可夫算法识别出预料中的不同实体词及其对应形容词;
(43)结构化实体词对,作为下一步算法的输入。
进一步地,所述步骤(6)的具体方法如下:
(61)将每一个评价指标作为特征;
(62)每个评价指标的好中差评量化为分值;
(63)目标品牌数据以特征和分值做向量化;
(64)用机器学习算法,得到品牌等级分类;
(65)加权计算品牌每个特征对应的数值,得到量化评分。
本发明与现有技术相比,具有以下优点及有益效果:
本发明解决了线上品牌的信息收集问题,也能准确评估一个品牌的价值和持续性;应用本发明,可以使用户快速了解品牌价值,提升购物体验,准确作出决定;也能迅速识别互联网上滥竽充数的品牌,提高电子商务安全性。
附图说明
图1为本发明整体流程图。
图2为本发明中数据采集的流程示意图。
图3为本发明中建立隐马尔可夫算法模型的流程示意图。
图4为本发明中用户评论语料识别方法的流程示意图。
图5为本发明中品牌数据向量化和分类方法的流程示意图。
图6为本发明中品牌评分按时间线更新方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
实施例
如图1~6所示,基于文本评论的线上品牌评估方法,包括以下步骤:
一、根据目标品牌,进行数据采集。主要集中于淘宝、天猫、京东等大型电商网站商品评论。
如图2所示,数据采集方法如下:
根据品牌分类,确定爬取目标网站;
分析网站http连接,找到数据接口api;
定制多线程爬虫程序,通过对应的api接口获取数据。
二、随机选择部分用户评论数据分词并进行标注:
根据商品品类的标注规则,将该品类的一句商品标题的句子,通过人工识别来标记句子的不同tag的词性。需要注意的是,分词器完成的分词并不完全规范为表示一个完整意思的最小单元,即不是一个tag,若一个tag被分成了两个词,例如:
“洗发水”是一个tag,而分词器分成了“洗”、“发”和“水”。因此,为了将一个分开的tag拼在一起,规则x1,x2,x3分别为tag头、tag中、tag尾,其中x为不同词性的标注编号。
具体,句子的词性包括:实体词,差评在前,差评独立,差评在后,中评在前,中评独立,中评在后,好评在前,好评独立,好评在后,无关词。
标注后的数据样例-1如下表1:
表1
包装 | 很好 | 很好用 | 第二次买了 |
n | 9 | 8 | 0 |
以下是对标注样例-1的解释说明:
“包装”是一个实体名词,词性为被描述实体,标注编号为“n”;“很好”为描述“包装”的评价性词语,好评,而且在实体词后面,标注编号为“9”;“很好用”是描述实体词的评价性词语,而且是独立于实体词分布,标注编号为“8”;“第二次买了”是描述对这个商品的感受,不是直接描述“包装”这个实体名词,标注编号为“0”。
标注后的数据样例-2如下表2:
护发素 | 很一般 | 洗发 | 露 | 不错 | 沐浴乳 | 洗完很 | 光 | 价钱 | 贵 |
n | 6 | n1 | n3 | 9 | n | 61 | 63 | n | 3 |
以下是对标注样例-2的解释说明:
“护发素”是一个实体名词,词性为被描述实体,标注编号为“n”;“很一般”是描述“护发素”的评价性词语,为中评,而且在实体词后面,标注编号为“6”;“洗发”和“露”组合起来是一个实体名词,分别标注编号为“n1”,“n3”;“不错”是描述“洗发露”的评价性词语,为好评,而且在实体词后面,标注编号为“9”;“沐浴乳”是一个实体名词,词性为被描述实体,标注编号为“n”;“洗完很”和“光”组合起来是描述“沐浴乳”的评价性词语,为中评,而且在实体词后面,标准编号为“61”和“63”;“价钱”是一个实体名词,词性为被描述实体,标注编号为“n”;“贵”是描述“价钱”的评价性词语,为差评,而且在实体词后面,标注编号为“3”。
如图3所示,算法模型的建立(训练模型的准确):
三、将标注的用户评论数据作为隐马尔可夫算法模型的训练集数据train.csv;
四、通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并由隐马尔可夫算法识别用户评论数据,根据词性整理,得到结果数据实体词-情感词对;
五、过滤实体词-情感词对数据,从中提取直接描述商品本身和品牌映像的词对;
数据离子如下表3:
实体词-情感词对 | 包装-好评 | 护发素-中评 | 洗发露-好评 | 沐浴乳-中评 | 价钱-差评 | 价钱-好评 |
数量 | 201 | 15 | 99 | 23 | 25 | 599 |
六、基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌等级分类和量化评分。如图5所示具体方法如下:
将每一个评价指标的实体词作为特征,即向量的维度,实体词的数量即为向量的维度数量;
每个实体词-情感词对的好中差评量化为分值,分别为1,0,-1分,相同实体词不同情感评价累加计算总分;
目标品牌数据以特征和分值做向量化,每个品牌用一条整数数值向量表示;
数据举例如下表4:
品牌包 | 包装 | 洗发露 | 沐浴乳 | 价钱 | 手感 | 味道 | 品牌 | 香味 | …… |
多芬 | 187 | 80 | 20 | 574 | 230 | 12 | 111 | 40 | …… |
用机器学习算法中的逻辑回归算法,得到品牌等级分类;
加权计算品牌每个特征对应的数值,得到量化评分。
七、存储目标品牌评估结果,按时间线定期更新品牌评估。如图6所示,具体步骤如下:
按时间周期收集目标品牌数据;
调用上述步骤四、五、六,得到新的时间段品牌评估结果;
分析品牌价值变化,合理化品牌评估。
按照上述实施例,便可很好地实现本发明。值得说明的是,基于上述结构设计的前提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。
Claims (4)
1.基于文本评论的线上品牌评估方法,其特征在于,包括以下步骤:
(1)收集目标品牌在电商网站上商品的相关评论文本;
(2)选择评论数据分词,并进行标注;将标注完成的评论数据作为隐马尔可夫算法模型的训练集数据;
(3)通过训练集数据训练出隐马尔可夫算法模型的参数,并识别商品评论数据,得到结构化的情感描述语料;
(4)处理情感描述语料,保留其中跟商品本身和品牌文化相关的评价性描述;
(5)基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌等级分类和量化评分;
(6)存储目标品牌评估结果,按时间线定期更新品牌评估。
2.根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤(1)的具体方法如下:
(11)分析电商网站网页结构;
(12)按时间爬取目标品牌对应的产品的所有评论信息。
3.根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤(3)中识别商品评论数据的具体方法如下:
(31)调用隐马尔可夫算法模型,输入评论数据的文本语料;
(32)通过隐马尔可夫算法识别出语料中不同实体词及其对应形容词;
(33)结构化实体词对,作为下一步算法的输入。
4.根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤(5)的具体方法如下:
(51)将每一个评价指标作为特征;
(52)每个评价指标的好中差评量化为分值;
(53)目标品牌数据以特征和分值做向量化;
(54)用机器学习算法,得到品牌等级分类;
(55)加权计算品牌每个特征对应的数值,得到量化评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510866411.3A CN105469282A (zh) | 2015-12-01 | 2015-12-01 | 基于文本评论的线上品牌评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510866411.3A CN105469282A (zh) | 2015-12-01 | 2015-12-01 | 基于文本评论的线上品牌评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105469282A true CN105469282A (zh) | 2016-04-06 |
Family
ID=55606947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510866411.3A Pending CN105469282A (zh) | 2015-12-01 | 2015-12-01 | 基于文本评论的线上品牌评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105469282A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN107704941A (zh) * | 2016-08-08 | 2018-02-16 | 华为软件技术有限公司 | 一种显示物品评论的方法及装置 |
CN108399545A (zh) * | 2017-02-06 | 2018-08-14 | 北京京东尚科信息技术有限公司 | 电子商务平台质量检测方法和装置 |
CN109426987A (zh) * | 2017-09-05 | 2019-03-05 | 本田技研工业株式会社 | 评价装置、评价方法、噪声消除装置和程序存储介质 |
CN109684641A (zh) * | 2018-12-26 | 2019-04-26 | 广东工业大学 | 一种数据提取装置、方法、电子设备和存储介质 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110717654A (zh) * | 2019-09-17 | 2020-01-21 | 合肥工业大学 | 基于用户评论的产品质量评价方法和系统 |
CN111159342A (zh) * | 2019-12-26 | 2020-05-15 | 北京大学 | 一种基于机器学习的公园文本评论情绪打分方法 |
CN111274393A (zh) * | 2020-01-17 | 2020-06-12 | 深圳数联天下智能科技有限公司 | 关于物品的知识库的构建方法、装置及计算设备 |
CN112053080A (zh) * | 2020-09-15 | 2020-12-08 | 上海唐硕信息科技有限公司 | 一种基于用户体验感知的品牌评分方法 |
CN112101033A (zh) * | 2020-09-01 | 2020-12-18 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
WO2021121252A1 (en) * | 2019-12-17 | 2021-06-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Comment-based behavior prediction |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
WO2023045796A1 (zh) * | 2021-09-22 | 2023-03-30 | 中国第一汽车股份有限公司 | 车辆声品质评估方法、装置、评估设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104657514A (zh) * | 2015-03-24 | 2015-05-27 | 成都知数科技有限公司 | 基于电商用户行为数据的近义词识别方法 |
CN104978665A (zh) * | 2015-06-16 | 2015-10-14 | 北京畅游天下网络技术有限公司 | 一种品牌评估方法和装置 |
-
2015
- 2015-12-01 CN CN201510866411.3A patent/CN105469282A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN104657514A (zh) * | 2015-03-24 | 2015-05-27 | 成都知数科技有限公司 | 基于电商用户行为数据的近义词识别方法 |
CN104978665A (zh) * | 2015-06-16 | 2015-10-14 | 北京畅游天下网络技术有限公司 | 一种品牌评估方法和装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704941A (zh) * | 2016-08-08 | 2018-02-16 | 华为软件技术有限公司 | 一种显示物品评论的方法及装置 |
CN108399545A (zh) * | 2017-02-06 | 2018-08-14 | 北京京东尚科信息技术有限公司 | 电子商务平台质量检测方法和装置 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN109426987A (zh) * | 2017-09-05 | 2019-03-05 | 本田技研工业株式会社 | 评价装置、评价方法、噪声消除装置和程序存储介质 |
US11132699B2 (en) | 2017-09-05 | 2021-09-28 | Honda Motor Co., Ltd. | Apparatuses, method, and computer program for acquiring and evaluating information and noise removal |
CN109684641A (zh) * | 2018-12-26 | 2019-04-26 | 广东工业大学 | 一种数据提取装置、方法、电子设备和存储介质 |
CN109684641B (zh) * | 2018-12-26 | 2023-04-07 | 广东工业大学 | 一种数据提取装置、方法、电子设备和存储介质 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110059927B (zh) * | 2019-03-18 | 2024-04-16 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110717654A (zh) * | 2019-09-17 | 2020-01-21 | 合肥工业大学 | 基于用户评论的产品质量评价方法和系统 |
WO2021121252A1 (en) * | 2019-12-17 | 2021-06-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Comment-based behavior prediction |
CN111159342A (zh) * | 2019-12-26 | 2020-05-15 | 北京大学 | 一种基于机器学习的公园文本评论情绪打分方法 |
CN111274393A (zh) * | 2020-01-17 | 2020-06-12 | 深圳数联天下智能科技有限公司 | 关于物品的知识库的构建方法、装置及计算设备 |
CN111274393B (zh) * | 2020-01-17 | 2024-04-09 | 深圳数联天下智能科技有限公司 | 关于物品的知识库的构建方法、装置及计算设备 |
CN112101033B (zh) * | 2020-09-01 | 2021-06-15 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
CN112101033A (zh) * | 2020-09-01 | 2020-12-18 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
CN112053080A (zh) * | 2020-09-15 | 2020-12-08 | 上海唐硕信息科技有限公司 | 一种基于用户体验感知的品牌评分方法 |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
WO2023045796A1 (zh) * | 2021-09-22 | 2023-03-30 | 中国第一汽车股份有限公司 | 车辆声品质评估方法、装置、评估设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469282A (zh) | 基于文本评论的线上品牌评估方法 | |
CN103646088B (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
Kumar et al. | Gravity model by panel data approach: An empirical application with implications for South Asian countries | |
CN109299268A (zh) | 一种基于双通道模型的文本情感分析方法 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
RU2700191C1 (ru) | Способ и устройство выявления сходства | |
CN107168945A (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
KR102190897B1 (ko) | 빅데이터기반 패션 트렌드 분석방법 및 장치 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
CN105930503A (zh) | 基于组合特征向量和深度学习的情感分类方法及装置 | |
CN106296282A (zh) | 一种基于用户评论和历史评分的网购产品评估方法 | |
CN105868185A (zh) | 一种购物评论情感分析中基于词性标注的词典构建方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN105447206A (zh) | 基于word2vec算法的新评论对象识别方法及系统 | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN106815198A (zh) | 模型训练方法及装置和语句业务类型的识别方法及装置 | |
CN105139041A (zh) | 基于图像的语种识别方法及装置 | |
CN102682130A (zh) | 一种文本情感分类方法及系统 | |
CN110096587A (zh) | 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型 | |
CN107832781A (zh) | 一种面向多源数据的软件缺陷表示学习方法 | |
CN106649270A (zh) | 舆情监测分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160406 |