CN107633007A - 一种基于层次化ap聚类的商品评论数据标签化系统和方法 - Google Patents
一种基于层次化ap聚类的商品评论数据标签化系统和方法 Download PDFInfo
- Publication number
- CN107633007A CN107633007A CN201710678136.1A CN201710678136A CN107633007A CN 107633007 A CN107633007 A CN 107633007A CN 201710678136 A CN201710678136 A CN 201710678136A CN 107633007 A CN107633007 A CN 107633007A
- Authority
- CN
- China
- Prior art keywords
- characteristic information
- comment
- data
- speech
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013517 stratification Methods 0.000 title claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000013481 data capture Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 44
- 239000000284 extract Substances 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块;数据抓取模块对语料信息和评论数据进行存储;词向量训练模块得到训练语料集;特征信息抽取模块得到评论数据对应的特征信息集合;特征信息标签化模块得到聚类后的评论数据标签化结果。本发明的有益效果为:提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到了自动完成评论数据标签化的目的,并且可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。
Description
技术领域
本发明涉及计算机数据处理和数据挖掘领域,尤其是一种基于层次化AP聚类的商品评论数据标签化系统及方法。
背景技术
近年来,电子商务的蓬勃发展使得越来越多的人选择网上购物的消费方式,消费模式的转变也给企业和商家带来了新的机遇和挑战。在网上购物这个虚拟的环境下,大量的研究及调查结果显示,在线评论是消费者做出购买决策的最主要因素,同时在线评论作为反馈数据也能帮助企业提升产品、了解用户需求、提升竞争力和口碑。尼尔森2014年上半年调查数据显示,70%-80%的消费者会查看商品评价以作为购买的抉择重要参考信息,由此可以推知评论信息对客户购买决策的影响力,评论中体现的产品质量、外观、售后等信息都是客户在网络上购买商品的重要衡量指标。
评论数据能够给企业提供一个最直接的了解商品使用等相关数据的信息来源,也能从中了解不同用户的偏好,把握整体用户对商品特性的期望,预测用户需求,甚至可以从中了解不同企业在相近产品方面的优缺点、与自己产品特性的对比,分析产品的优势和不足。
但是大数据时代的到来使得评论数据量飞速增长,加上评论数据本身具有不规范性、冗余性等特征,使得有用的评论信息难以获取。电子商务网站的评论数量正在呈几何级增长的趋势,而且这些评论风格各异,语言结构无标准模式可循...面对庞大的评论数量,仅仅依靠人工分析与处理来挖掘用户评论,是费时又低效的。
在各大电子商务网站如京东、淘宝、一号店中已经对用户的评论做了一些归类,通过标签的分类为客户的查询提供更加直观和便捷的体验,但是不足之处在于:这些标签由商家预先设定,大部分为正面标签,不能完全地反映出客户对商品的评价;另外,标签由评论用户自行选择,但是通过统计数据可以发现,只有10%左右的评论用户愿意为评论打上标签,而有90%的评论数据是没有标签信息的,导致无法充分地利用每一个评论所隐含的评价取向。整体来说,现实应用中的评论标签化技术还处于人工化阶段,大量价值丰富的评论信息没有被充分利用。
发明内容
针对现有技术的不足,本发明提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到自动完成评论数据标签化的目的,可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块。数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
优选的,所述的数据抓取模块包括:数据抓取子模块,筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;训练语料抽取子模块,将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;数据存储子模块,存储得到的评论数据和训练语料。作为本发明的进一步改进,所述的词向量训练模块包括:分词子模块,采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过Smart Chinese analyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;去噪整合子模块,将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
优选的,所述的特征信息抽取模块包括:词性权重子模块,统计不同词性出现的频率,选取频率高且与属性值的相关性高的词性为重点分析词性,根据重点分析词性的频率值对重点分析词性重新进行权重赋值;种子词典子模块,根据商品的已有标签和商品的介绍页面的特征信息确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,确定词性权重为0.4,词与种子词典的相关性权重为0.6;特征信息属性值抽取子模块,通过综合考虑词语的词性特征和隐含语义特征确定其是否为电商评论特征信息的属性值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值;词性及依存句法模板抽取子模块,对分词后的语料进行词性标注,利用LTP平台提供的依存句法分析工具,提取出所有与属性值有一级关系的词语,统计所有特征词对的词性及依存句法关系出现频率,将频繁的词性和依存句法关系作为抽取模版;特征信息抽取算法子模块,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息。
优选的,所述的特征信息标签化模块包括:特征信息向量化模块,将通过特征信息抽取模块抽取的特征信息通过word2vec转换为向量表现形式,每个单词的向量维度为n维,一个特征信息的向量维度为2n维;k-means聚类模块,借助电子商务评论信息中商家预定的标签确定初始参照模版,将标签总数作为聚类个数,各标签的相近特征信息作为聚类中心,使用k-means聚类方法对每组特征词语向量数据的前n维进行一次聚类,第一层聚类的获得数据为所有特征信息的属性值;AP聚类模块,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果,二次聚类的对象为一次聚类后各分类中的特征词语,所用的数据为特征词语的后n维向量。
作为本发明的进一步改进,所述特征信息属性值抽取子模块还包括:词性重要度计算模块,计算词性重要度得分,不同词性被赋予不同权重,单个词语根据词性标注后的结果取得相应的权重得分;种子词典接收模块,从种子词典子模块接收人工从评论语料中抽取的有代表性的特征信息属性值的种子词典;向量化并计算相近度模块,种子词典与单个词语被向量化为维度n的向量形式,通过计算余弦相似度得到单个词语与种子词典中所有单词的相似度值,求和后作为隐含语义特征的量化;综合词性及语义特征处理模块,将从词性重要度计算模块中得到的词性权重得分和从向量化并计算相近度模块中得到的隐含语义特征的量化值,分别乘以预设的权重,最终得到每一个词语的综合评分;排序筛选模块,对最终的词集合按其得分高低排序,根据设定的阈值,筛选出最终的特征信息属性值词语集合。
优选的,所述向量化的维度n为100.
本发明还提供了一种基于层次化AP聚类的商品评论数据标签化方法,包括如下步骤:
从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;
对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;
确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;
将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
优选的,所述方法包括:筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;存储得到的评论数据和训练语料。
优选的,所述方法还包括:采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过Smart Chinese analyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
本发明的有益效果为:提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到了自动完成评论数据标签化的目的,并且可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。
附图说明
图1所示为根据本发明所公开的一个标签化系统的系统结构图;
图2所示为根据本发明所公开的一个标签化系统的特征信息抽取模块流程图;
图3所示为根据本发明所公开的一个标签化系统的特征信息属性值抽取算法流程图;
图4所示为根据本发明所公开的一个标签化系统的基于层次化AP聚类模块流程图;
图5所示为根据本发明所公开的一个标签化系统的第一次聚类流程图;
图6所示为根据本发明所公开的一个标签化系统的第二次聚类流程图;
图7所示为根据本发明所公开的一个标签化系统的去噪处理流程图;
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
图1所示为根据本发明所公开的一个标签化系统的系统结构图。根据本发明的一个实施例,一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块。数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
参照图2和图3所示根据本发明所公开的一个标签化系统的特征信息抽取模块流程图,在本发明的实施例中,其中,词性权值表根据评论特征信息属性值的词性统计规律从高到低依次对不同词性附权重;在计算词性重要度得分单元中,不同词性被赋予不同权重;种子词典为人工从评论语料中抽取的有代表性的特征信息属性值;在向量化并计算相近度单元中,种子词典与单个词语被向量化为维度100的向量形式,通过计算余弦相似度得到单个词语与种子词典中所有单词的相似度值,求和后作为隐含语义特征的量化;合词性及语义特征处理单元,将从“计算词性重要度得分单元”中得到的词性权重得分和从“向量化并计算相近度单元”中得到的隐含语义特征的量化值,分别乘以预设的权重,最终得到每一个词语的综合评分;排序单元对最终的词集合按其得分高低排序,根据设定的阈值,筛选出最终的特征信息属性值词语集合。
进一步地,在本发明的实施例中,数据抓取模块包括数据抓取子模块,筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;训练语料抽取子模块,将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;数据存储子模块,存储得到的评论数据和训练语料。
在一个优选的实施例中,参照图4、图5和图6所示的一个标签化系统的基于层次化AP聚类模块流程图,其中,第一层基于k-means聚类算法,对所有特征信息的属性值聚类;第二层基于AP聚类算法,其输入为第一层聚类后的每一类别中的特征信息。得到细化的聚类结果后,抽取每一类别的中心点作为标签,同一个类别下的特征信息总数作为标签的统计值。
在一个优选的实施例中,参照图7所示的一个标签化系统的去噪处理流程图,得到预处理数据后,需要对其中的标点及特殊符号进行处理,进一步去除重复出现的词汇,最后得到训练语料集。
在本发明的一个方法实施例中,基于层次化AP聚类的商品评论数据标签化方法包括:从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
进一步地,在本发明方法的实施例中,还包括筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;存储得到的评论数据和训练语料。
在一个优选的实施例中,该方法还包括采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过Smart Chinese analyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
Claims (10)
1.一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块,其特征在于,该系统包括:
数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;
词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;
特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;
特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
2.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的数据抓取模块包括:
数据抓取子模块,筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;
训练语料抽取子模块,将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;数据存储子模块,存储得到的评论数据和训练语料。
3.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的词向量训练模块包括:
分词子模块,采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过SmartChinese analyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;
去噪整合子模块,将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
4.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的特征信息抽取模块包括:
词性权重子模块,统计不同词性出现的频率,选取频率高且与属性值的相关性高的词性为重点分析词性,根据重点分析词性的频率值对重点分析词性重新进行权重赋值;
种子词典子模块,根据商品的已有标签和商品的介绍页面的特征信息确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,确定词性权重为0.4,词与种子词典的相关性权重为0.6;
特征信息属性值抽取子模块,通过综合考虑词语的词性特征和隐含语义特征确定其是否为电商评论特征信息的属性值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值;
词性及依存句法模板抽取子模块,对分词后的语料进行词性标注,利用LTP平台提供的依存句法分析工具,提取出所有与属性值有一级关系的词语,统计所有特征词对的词性及依存句法关系出现频率,将频繁的词性和依存句法关系作为抽取模版;
特征信息抽取算法子模块,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息。
5.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的特征信息标签化模块包括:
特征信息向量化模块,将通过特征信息抽取模块抽取的特征信息通过word2vec转换为向量表现形式,每个单词的向量维度为n维,一个特征信息的向量维度为2n维;
k-means聚类模块,借助电子商务评论信息中商家预定的标签确定初始参照模版,将标签总数作为聚类个数,各标签的相近特征信息作为聚类中心,使用k-means聚类方法对每组特征词语向量数据的前n维进行一次聚类,第一层聚类的获得数据为所有特征信息的属性值;AP聚类模块,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果,二次聚类的对象为一次聚类后各分类中的特征词语,所用的数据为特征词语的后n维向量。
6.根据权利要求4所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于:所述特征信息属性值抽取子模块还包括:
词性重要度计算模块,计算词性重要度得分,不同词性被赋予不同权重,单个词语根据词性标注后的结果取得相应的权重得分;
种子词典接收模块,从种子词典子模块接收人工从评论语料中抽取的有代表性的特征信息属性值的种子词典;
向量化并计算相近度模块,种子词典与单个词语被向量化为维度n的向量形式,通过计算余弦相似度得到单个词语与种子词典中所有单词的相似度值,求和后作为隐含语义特征的量化;
综合词性及语义特征处理模块,将从词性重要度计算模块中得到的词性权重得分和从向量化并计算相近度模块中得到的隐含语义特征的量化值,分别乘以预设的权重,最终得到每一个词语的综合评分;排序筛选模块,对最终的词集合按其得分高低排序,根据设定的阈值,筛选出最终的特征信息属性值词语集合。
7.根据权利要求5或6所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于:所述向量化的维度n为100。
8.一种基于层次化AP聚类的商品评论数据标签化方法,其特征在于,该方法包括:
从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;
对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;
确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;
将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
9.根据权利要求8所述的基于层次化AP聚类的商品评论数据标签化方法,其特征在于,该方法还包括:
筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;
将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;
存储得到的评论数据和训练语料。
10.根据权利要求8所述的基于层次化AP聚类的商品评论数据标签化方法,该方法还包括:
采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过Smart Chineseanalyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;
将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710678136.1A CN107633007B (zh) | 2017-08-09 | 2017-08-09 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710678136.1A CN107633007B (zh) | 2017-08-09 | 2017-08-09 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107633007A true CN107633007A (zh) | 2018-01-26 |
CN107633007B CN107633007B (zh) | 2021-09-28 |
Family
ID=61099513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710678136.1A Expired - Fee Related CN107633007B (zh) | 2017-08-09 | 2017-08-09 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633007B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
CN108762898A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN109241529A (zh) * | 2018-08-29 | 2019-01-18 | 中国联合网络通信集团有限公司 | 观点标签的确定方法和装置 |
CN109597990A (zh) * | 2018-11-22 | 2019-04-09 | 中国人民大学 | 一种社会热点与商品品类的匹配方法 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
CN109871447A (zh) * | 2019-03-05 | 2019-06-11 | 南京甄视智能科技有限公司 | 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统 |
CN110019563A (zh) * | 2018-08-09 | 2019-07-16 | 北京首钢自动化信息技术有限公司 | 一种基于多维数据的肖像建模方法和装置 |
CN110152302A (zh) * | 2018-02-23 | 2019-08-23 | 北京信息科技大学 | 牌类游戏的手牌生成和聚类方法、设备以及处理器 |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
CN110363206A (zh) * | 2018-03-26 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 数据对象的聚类、数据处理及数据识别方法 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
CN110633468A (zh) * | 2019-09-04 | 2019-12-31 | 山东旗帜信息有限公司 | 一种关于对象特征提取的信息处理方法及装置 |
CN110750646A (zh) * | 2019-10-16 | 2020-02-04 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
CN110765329A (zh) * | 2019-10-28 | 2020-02-07 | 北京天融信网络安全技术有限公司 | 一种数据的聚类方法和电子设备 |
CN111091000A (zh) * | 2019-12-24 | 2020-05-01 | 深圳视界信息技术有限公司 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
CN111160001A (zh) * | 2019-12-23 | 2020-05-15 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN113987168A (zh) * | 2021-10-12 | 2022-01-28 | 江苏科技大学 | 基于机器学习的商家评论分析系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
US9275125B1 (en) * | 2014-07-14 | 2016-03-01 | Zipscene LLC | System for organizing data from a plurality of users to create individual user profiles |
-
2017
- 2017-08-09 CN CN201710678136.1A patent/CN107633007B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
US9275125B1 (en) * | 2014-07-14 | 2016-03-01 | Zipscene LLC | System for organizing data from a plurality of users to create individual user profiles |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
Non-Patent Citations (1)
Title |
---|
张卫: "互联网商品评论情感分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110152302A (zh) * | 2018-02-23 | 2019-08-23 | 北京信息科技大学 | 牌类游戏的手牌生成和聚类方法、设备以及处理器 |
CN110363206A (zh) * | 2018-03-26 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 数据对象的聚类、数据处理及数据识别方法 |
CN108762898A (zh) * | 2018-04-09 | 2018-11-06 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN108762898B (zh) * | 2018-04-09 | 2023-04-25 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN110019563A (zh) * | 2018-08-09 | 2019-07-16 | 北京首钢自动化信息技术有限公司 | 一种基于多维数据的肖像建模方法和装置 |
CN109241529A (zh) * | 2018-08-29 | 2019-01-18 | 中国联合网络通信集团有限公司 | 观点标签的确定方法和装置 |
CN109241529B (zh) * | 2018-08-29 | 2023-05-02 | 中国联合网络通信集团有限公司 | 观点标签的确定方法和装置 |
CN109597990B (zh) * | 2018-11-22 | 2022-11-15 | 中国人民大学 | 一种社会热点与商品品类的匹配方法 |
CN109597990A (zh) * | 2018-11-22 | 2019-04-09 | 中国人民大学 | 一种社会热点与商品品类的匹配方法 |
CN109815333A (zh) * | 2019-01-14 | 2019-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
CN109871447A (zh) * | 2019-03-05 | 2019-06-11 | 南京甄视智能科技有限公司 | 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统 |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110633468A (zh) * | 2019-09-04 | 2019-12-31 | 山东旗帜信息有限公司 | 一种关于对象特征提取的信息处理方法及装置 |
CN110633468B (zh) * | 2019-09-04 | 2023-04-25 | 山东旗帜信息有限公司 | 一种关于对象特征提取的信息处理方法及装置 |
CN110750646A (zh) * | 2019-10-16 | 2020-02-04 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
CN110765329A (zh) * | 2019-10-28 | 2020-02-07 | 北京天融信网络安全技术有限公司 | 一种数据的聚类方法和电子设备 |
CN111160001A (zh) * | 2019-12-23 | 2020-05-15 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN111091000A (zh) * | 2019-12-24 | 2020-05-01 | 深圳视界信息技术有限公司 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
CN113987168A (zh) * | 2021-10-12 | 2022-01-28 | 江苏科技大学 | 基于机器学习的商家评论分析系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107633007B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633007A (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN105243129B (zh) | 商品属性特征词聚类方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
CN107193962B (zh) | 一种互联网推广信息的智能配图方法及装置 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN109960800A (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN103617230B (zh) | 一种基于微博的广告推荐方法及系统 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN110032639A (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
CN110287341B (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN101351811A (zh) | 手写识别的训练与合成 | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
CN109086340A (zh) | 基于语义特征的评价对象识别方法 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 | |
CN108038099A (zh) | 基于词聚类的低频关键词识别方法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN106557783B (zh) | 一种漫画主要角色的自动提取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210928 |
|
CF01 | Termination of patent right due to non-payment of annual fee |