CN103399916A - 基于产品特征的互联网评论观点挖掘方法及系统 - Google Patents
基于产品特征的互联网评论观点挖掘方法及系统 Download PDFInfo
- Publication number
- CN103399916A CN103399916A CN2013103298003A CN201310329800A CN103399916A CN 103399916 A CN103399916 A CN 103399916A CN 2013103298003 A CN2013103298003 A CN 2013103298003A CN 201310329800 A CN201310329800 A CN 201310329800A CN 103399916 A CN103399916 A CN 103399916A
- Authority
- CN
- China
- Prior art keywords
- comment
- product
- feature
- features
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提出了一种基于产品特征的互联网评论观点挖掘方法,包括:从互联网上获取产品信息及对应的评论信息;从评论信息中抽取产品特征,并从产品特征中提取出相关联的显式特征评论及隐式特征评论;利用显式特征评论和隐式特征评论在句子粒度上进行情感分类;依据产品特征及对应的情感分类结果生成情感文摘提供给用户。本发明的方法不仅可以帮助用户节省时间,处理评论中的矛盾信息和发现被评论产品的不足,而且深入挖掘用户评论中针对不同产品特征的情感信息,一方面能给用户的购买提供参考,另一方面也能给生产厂商提供产品的改进建议。本发明还提出一种基于产品特征的互联网评论观点挖掘系统。
Description
技术领域
本发明涉及计算机应用技术与互联网领域,特别涉及一种基于产品特征的互联网评论观点挖掘方法及基于产品特征的互联网评论观点挖掘系统。
背景技术
随着互联网的不断普及和web2.0的飞速发展,互联网所传达的公众对于社会事件,热点人物以及电商产品的评论信息受到了各方的特别关注。信息传播的特点上,互联网具有多模态信息的交互性,能够快速有效地传播网民观点,从而形成一定的社会舆情导向,因而它在信息的传播速度、信息的实效性、社会影响力以及舆论导向等方面与传统媒体相比有很大的优越性。用户不仅仅是一个简单的信息浏览者的角色,也是一个信息的发布者。论坛,博客,评论网站,邮件,微博等都给Web 2.0时代的用户提供了一个发布信息,表达自己观点的场所。于是,互联网上开始产生了大量的含有主观色彩的评论信息,这些信息可以是用户针对某一种产品,某一些服务的看法或者使用心得,也可以是用户针对某个社会事件所持有的观点等。随着越来越多的用户开始在互联网上发布自己的观点,互联网上的用户评论也不断增长。从这些海量的用户评论中快速提取出有参考价值的信息也变得越来越复杂。不仅收集评论信息消耗的时间越来越长,而且仅仅依靠人力已经很难收集并分析整理用户评论中的矛盾信息和评论对象的不足。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本发明的一个目的在于提出一种既能给用户的购买提供参考,又能给生产厂商提供产品的改进建议的基于产品特征的互联网评论观点挖掘方法。
本发明的另一目的在于提出一种基于产品特征的互联网评论观点挖掘系统。
为达到上述目的,本发明第一方面提出了一种基于产品特征的互联网评论观点挖掘方法,包括以下步骤:从互联网上获取产品信息及对应的评论信息;从所述评论信息中抽取产品特征,并从所述产品特征中提取出相关联的显式特征评论及隐式特征评论;利用所述显式特征评论和所述隐式特征评论在句子粒度上进行情感分类;以及依据所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,所述抽取产品特征的步骤包括:通过关联规则挖掘的方法提取出所述评论信息中出现的名词以及名词短语;通过定义规则对所述名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征;以及对提取出的所述产品特征进行聚类,合并相似概念,得到所有所述产品特征的集合。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,所述的抽取产品特征隐式特征评论的方法为:基于关联规则挖掘的方法,或通过训练分类模型进行分类的方法。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,所述基于关联规则挖掘的方法,包括以下步骤:根据描述所述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;利用词频统计和频繁项集挖掘的方法从所述显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;利用自然语言处理领域的搭配提取方法对所述词语及多维频繁项进行过滤,从而得到可靠的关联规则;以及将所述规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,所述机器学习的方法,包括以下步骤:抽取包含显式特征的相关评论信息,作为训练的样本数据;对训练的所述样本数据,进行词性过滤,再使用基于传统的特征选择方法,或基于主题模型的方法,选择合适的训练属性,将所述相关评论信息数字化,建立训练样本的空间向量模型;以及利用机器学习的方法,分别应用每一个产品的特征训练分类模型,对非显式特征评论的语句是否包含对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,所述对评论信息在句子粒度上进行情感分类,包括:在情感词典的基础上,加入用户情感表述规则,进行所述评论信息在句子粒度级别的情感分类;以及通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对所述评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
根据本发明实施例的基于产品特征的互联网评论观点挖掘方法,依据所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户的步骤,进一步包括:去除重复内容较多、过于简短以及用户评论态度不够认真的所述评论信息;以及对所述评论信息按照褒贬义进行排序,针对每个所述产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的所述评论信息生成情感文摘。
本发明的基于产品特征的互联网评论观点挖掘方法,通过发现当前其他用户所关注的该产品的各种特征信息,还可以通过发现隐式特征评论信息从而进一步提高召回率。本发明基于发现的产品的特征,进一步分析用户对该特征的评价,并对结果进行总结和可视化展示,从而帮助用户节省时间去阅读大量的评论,了解评论中所存在的矛盾信息,并且发现被评论产品的不足,同时本发明通过深入挖掘用户评论中针对不同产品特征的情感信息,一方面能给用户的购买提供参考,另一方面也能给生厂商提供产品的改进建议。
为达到上述目的,本发明另一方面提出了一种基于产品特征的互联网评论观点挖掘系统,包括:
爬虫模块,所述爬虫模块用于从互联网上获取产品信息及对应的评论信息;
产品特征抽取模块,所述产品特征抽取模块与所述爬虫模块相连,用于从所述评论信息中抽取产品特征,并且进一步从所述产品特征中提取出相关联的显式特征评论及隐式特征评论;
观点挖掘模块,所述观点挖掘模块与所述产品特征抽取模块相连,用于利用所述显式特征评论和所述隐式特征评论在句子粒度上进行情感分类;以及
情感文摘生成模块,所述情感文摘生成模块与所述观点挖掘模块相连,用于将所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述产品特征抽取模块中,所述抽取产品特征的步骤包括:通过关联规则挖掘的方法提取出所述评论信息中出现的名词以及名词短语;通过定义规则对所述名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征;以及对提取出的所述产品特征进行聚类,合并相似概念,得到所有所述产品特征的集合。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述观点挖掘模块中,所述的抽取产品特征隐式特征评论的方法为:基于关联规则挖掘的方法和基于机器学习的方法。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述基于关联规则挖掘的方法,包括以下步骤:根据描述所述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;利用词频统计和频繁项集挖掘的方法从所述显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;利用自然语言处理领域的搭配提取方法对所述词语及多维频繁项进行过滤,从而得到可靠的关联规则;以及将所述规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述基于机器学习的方法,包括以下步骤:抽取包含显式特征的相关评论信息,作为训练的样本数据;对训练的所述样本数据,进行词性过滤,再使用基于传统的特征选择方法,或基于主题模型的方法,选择合适的训练属性,将所述相关评论信息数字化,建立训练样本的空间向量模型;以及利用机器学习的方法,分别应用每一个产品的特征训练分类模型,对非显式特征评论的语句是否包含对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述对评论信息在句子粒度上进行情感分类,包括:在情感词典的基础上,加入用户情感表述规则,进行所述评论信息在句子粒度级别的情感分类;以及通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对所述评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
根据本发明实施例的基于产品特征的互联网评论观点挖掘系统,所述情感文摘生成模块中,所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户的步骤,进一步包括:去除重复内容较多、过于简短以及用户评论态度不够认真的所述评论信息;以及对所述评论信息按照褒贬义进行排序,针对每个所述产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的所述评论信息生成情感文摘。
本发明的基于产品特征的互联网评论观点挖掘方法及系统,通过发现当前其他用户所关注的该产品的各种特征信息,还可以通过发现隐式特征评论信息从而进一步提高召回率。本发明基于发现的产品的特征,进一步分析用户对该特征的评价,并对结果进行总结和可视化展示,从而帮助用户节省时间去阅读大量的评论,了解评论中所存在的矛盾信息,并且发现被评论产品的不足,同时本发明通过深入挖掘用户评论中针对不同产品特征的情感信息,一方面能给用户的购买提供参考,另一方面也能给生产厂商提供产品的改进建议。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明所述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的基于产品特征的互联网评论观点挖掘方法总体流程图;
图2是本发明实施例的基于产品特征的互联网评论观点挖掘方法原理图;
图3是基于关联规则挖掘方法抽取隐式特征示意图;
图4是基于机器学习方法抽取隐式特征示意图;
图5是根据本发明实施例的基于产品特征的互联网评论观点挖掘系统的结构框图;
图6是观点挖掘系统的总体架构示意图;和
图7是观点挖掘系统的详细实现流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解所述术语的具体含义。
以下结合附图描述根据本发明实施例的基于产品特征的互联网评论观点挖掘方法及其系统。
如图1和图2所示,基于产品特征的互联网评论观点挖掘方法,包括以下步骤:
S1.从互联网上获取产品信息及对应的评论信息。
例如,通过网络爬虫从京东等电子商务网站上爬取包括产品信息,评论信息等的数据信息,并保存到数据库。爬虫会定期抓取每个产品新增的评论信息以保证数据的完整性与实时性。通过这个步骤可以形成评论观点挖掘的数据集,便于进行下述步骤的挖掘分析。
S2.从评论信息中抽取产品特征,并从产品特征中提取出相关联的显式特征评论及隐式特征评论。
从评论信息中抽取产品特征的具体步骤如下:
1)通过关联规则挖掘的方法提取出评论信息中出现的名词以及名词短语。这些名词以及名词性短语具有规律性特征。根据这些特征,可定义所提取的名词性短语的语法形式。例如,形容词+名词,名词+名词,代词/动词/形容词/名词+“的”+名词,名词+“的”+动词等。根据这种语法形式识别和划分成名词性短语,进而提取得到原始的候选集合。
2)通过定义规则对上述步骤得到的名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征。通过分别对候选集合中的单字单词、多字单词(至少含有两个汉字的中文单词)和名词性短语进行剪枝,就能得到被频繁描述的产品特征。
3)对提取出的产品特征进行聚类,合并相似概念,得到所有产品特征的集合。
例如,对产品特征的相似概念进行聚类分析,将评论的产品特征的前后上下文信息作为训练数据,将相似概念聚合为同一概念簇,得到描述产品特征的集合。
在完成上述步骤后,进一步地从产品特征中提取出相关联的显式特征评论及隐式特征评论。
1.从产品特征中提取出相关联的显式特征评论采用自然语言处理领域的搭配提取的方法。
在自然语言处理领域,一个搭配通常是由两个或多个字/词按照习俗组合在一起用于表达特定的含义。搭配可以有多种形式,例如,“make up”,“strong tea”,“价格便宜”。常用的搭配提取方法有频率,互信息,频率*互信息,t检验,χ2(chi-square,卡方)检验等。
1)最简单的提取固定搭配的方法是计算某个搭配出现的频率。如果两个词经常同时出现,那么它们有可能就是一个常用的搭配。
2)互信息是在信息论中用来衡量有趣搭配的一个指标,也经常被用于自然语言处理的各个领域。两个词语之间的互信息用下式计算:
其中,Pxy是x与y同时在语料库中出现的联合概率,Px与Py是x,y各自出现的概率。
3)频率*互信息用来衡量用于词语搭配依赖性的指标:
4)另外一种经典的搭配提取方法是假设检验,这种方法常被用来判断某个事件是否是一个偶然事件。
一种常用的假设检验方法是t检验。它假设样本服从均值为μ的正态分布,然后计算样本的均值与方差。通过比较实际计算的均值与期望均值之间的差异来确定是否接受这个假设。t检验可以通过下式计算:
其中是样本均值,S2是样本方差,N是样本空间大小,μ为分布的均值。将这种方法用到搭配提取中,μ=PxPy,由于Pxy非常小,近似的方差S2=Pxy(1-Pxy)≈Pxy,取值为语料库中x与y实际同时出现的概率Pxy。如果t检验的值足够大,那么之前提出的虚假设就为假。t检验假设样本服从正态分布,而在实际情况中不一定总是成立,另一种不需要样本服从正太分布的假设检验是χ2(卡方)检验。基于卡方检验的评价法通过计算卡方值来评估两个词语的关联程度。两个词x和y的χ2值可以用下式计算:
其中,oij是联合事件(xi,yj)的观测频度(即实际计数),eij是(xi,yj)的期望频度,计算方法如下:
其中N是数据元组的个数,count(x=xi)是x具有值xi的元组个数,count(y=yj)是y具有值yj的元组个数。卡方值越大,说明两个词语越相关,是一个搭配的可能性也越大。
2.从产品特征中提取出相关联的隐式特征评论的方法有基于关联规则挖掘的方法和基于机器学习的方法。
进一步地,结合图3,基于关联规则挖掘的方法的具体步骤如下:
1)根据描述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;
2)利用词频统计和频繁项集挖掘的方法从显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;
3)利用自然语言处理领域的搭配提取方法对上述得到的词语及多维频繁项进行过滤,从而得到可靠的关联规则;
4)将规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
例如,从对手机的评论信息中,抽取出显式特征评论,如“这个价格很划算”,利用词频统计和频繁项集挖掘的方法,抽取出词语和频繁项,即“价格→划算”。再利用自然语言处理领域的搭配提取方法得到:划算→{价格,售价}。将这项规则应用在隐式特征评论,如“这个真的很划算”上,即可抽取出隐式特征:划算→{价格,售价}。
进一步地,结合图4,基于机器学习的方法的具体步骤如下:
1)抽取包含显式特征的相关评论信息,作为训练的样本数据;
2)对训练的样本数据分词,词性过滤,再使用基于传统的特征选择方法,或者基于主题模型的方法,选择合适的训练属性,将相关评论信息数字化,建立训练样本的空间向量模型;
3)利用机器学习的方法,例如SVM分类器,分别针对每一个产品的特征训练分类模型,即该产品特征所对应的分类器,对非显式特征评论的语句是否包含所对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
例如,从对手机的评论信息中,抽取出显式特征的评论,如“这个价格很划算”,“它的外观非常时尚”,“价格便宜,质量可靠”等,通过特征选择,利用机器学习的方法,为“价格”、“外观”等特征建立对应的分类器,应用在非显式特征评论如“这个手机真的很便宜”,“这个机子看起来很时尚”等,进行分类,从而判断出隐式特征评论“这个手机真的很便宜”,“这个机子看起来很时尚”,分别归属于{价格,售价}和{外观,外形}。
S3.利用显式特征评论和隐式特征评论在句子粒度上进行情感分类。具体实现步骤如下:
1.在情感词典的基础上,加入用户情感表述规则,进行所述评论信息在句子粒度级别的情感分类。
在本发明的一个实施例中,综合已有的情感词典、语言学情感研究成果、网络词库、输入法词库等资源构建了相对完整的情感词典,在加入用户情感表述规则的基础上,进行了评论信息在语句粒度级别的情感分类。常用的需要处理的自然语言表述的规则,包括,否定句、转折句和包含程度词的语句:
1)含有否定词的语句处理主要有:否定+褒义=>贬义;否定+贬义=>褒义;否定+中性=>贬义;
2)句子含有转折词时情感倾向一般和上一句相反;
3)句子含有程度词时多数情况下有一定的情感倾向。
通过上述规则可以得到每个评论语句的基本情感倾向。
2.通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对评论信息的上下文语境分析,迭代地推断出了评论信息针对对应的产品特征的情感分类。
由于存在少数情感随着不同领域和所描述的特征动态变化的词语,例如,“这个酒店周围噪声很大”,这些词语情感分类不明确。本发明的一个实施例通过对语料库进行统计,针对每个特征建立了一个情感极性随着上下文动态变化的词典,例如,大—小,高—低,厚—薄,再通过对评论的上下文语境分析,迭代地推断出了这些词语在该领域中针对某个对象特征的情感倾向,提高了情感分类精确度。
S4.依据产品特征及对应的情感分类结果生成情感文摘提供给用户。在完成上述步骤的基础上,具体实现步骤如下:
1)去除重复内容较多、过于简短以及用户评论态度不够认真的评论信息;
2)对评论信息按照褒贬义进行排序,针对每个产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的评论信息生成情感文摘。
另一方面,本发明还提出一种基于产品特征的互联网评论观点挖掘系统,如图5所示,包括:爬虫模块100、产品特征抽取模块200、观点挖掘模块300和情感文摘生成模块400。具体地,爬虫模块100用于从互联网上获取产品信息及对应的评论信息;产品特征抽取模块200与爬虫模块100相连,用于从评论信息中抽取产品特征,并且进一步从产品特征中提取出相关联的显式特征评论及隐式特征评论;观点挖掘模块300与产品特征抽取模块200相连,用于利用显式特征评论和隐式特征评论在句子粒度上进行情感分类;情感文摘生成模块400与观点挖掘模块300相连,用于将产品特征及对应的情感分类结果生成情感文摘提供给用户。
需要说明的是,上述四个模块实质上是底层功能模块,系统中还应当进一步包括中间数据库接口模块及顶层用户界面模块,参见图6。中间数据库接口模块及顶层用户界面模块的技术为本领域技术人员的公知,本文不赘述。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,产品特征抽取模块200中,抽取产品特征的步骤包括:
通过关联规则挖掘的方法提取出评论信息中出现的名词以及名词短语;
通过定义规则述名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征;对提取出的产品特征进行聚类,合并相似概念,得到所有产品特征的集合。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,观点挖掘模块300中,抽取产品特征隐式特征评论的方法为:基于关联规则挖掘的方法和基于机器学习的方法。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,基于关联规则挖掘的方法,包括以下步骤:
根据描述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;
利用词频统计和频繁项集挖掘的方法从显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;
利用自然语言处理领域的搭配提取方法对上述得到的词语及多维频繁项进行过滤,从而得到可靠的关联规则;
将规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,基于机器学习的方法,包括以下步骤:
抽取包含显式特征的相关评论信息,作为训练的样本数据;
对训练的样本数据,进行词性过滤,再使用基于传统的特征选择方法,或基于主题模型的方法,选择合适的训练属性,将相关评论信息数字化,建立训练样本的空间向量模型;
利用机器学习的方法,分别应用每一个产品的特征训练分类模型,对非显式特征评论的语句是否包含对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,对评论信息在句子粒度上进行情感分类,包括:
在情感词典的基础上,加入用户情感表述规则,进行评论信息在句子粒度级别的情感分类;
通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对评论信息的上下文语境分析,迭代地推断出了评论信息针对对应的产品特征的情感分类。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,情感文摘生成模块400中,产品特征及对应的情感分类结果生成情感文摘提供给用户的步骤,进一步包括:
去除重复内容较多、过于简短以及用户评论态度不够认真的评论信息;
对评论信息按照褒贬义进行排序,针对每个产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的所述评论信息生成情感文摘。
在本发明的基于产品特征的互联网评论观点挖掘系统的一个实施例中,上述系统的具体实施细节在基于产品特征的互联网评论观点挖掘方法中已详细描述,这里不再赘述。
此外,数据库接口模块用于提供整个系统的数据库读写接口,方便其它各个不同的功能模块进行数据的I/O操作。
用户界面模块用于给观点挖掘系统的用户提供一个图形化的友好的用户操作界面,以便用户浏览自己感兴趣的产品的评论分析结果。
具体地,本发明实施例中采用的网络评论数据抓取技术、产品特征抽取技术、隐式评论特征抽取技术、评论情感分类技术等核心技术和图形用户界面、数据库接口模块等功能模块均在Windows下用Python、java等语言开发实现的。
在本发明的实施例中,数据库接口模块和用户界面模块的具体功能对于相关的技术人员都是已知的,这里不再赘述。
进一步地,基于产品特征的互联网评论观点挖掘系统的实现流程,如图7所示,包括:系统的准备阶段和系统的使用阶段。
1)在系统准备阶段,主要需要完成后台的产品评论舆情分析。
首先,系统针对某些特定领域,抓取相应产品评论,然后对不同产品的评论进行产品特征抽取以及观点挖掘,形成舆情分析结果。
2)在系统的使用阶段,用户可以查询自己所关注的产品的评论分析结果,发现产品的优点与不足,并对比不同产品的优势与劣势。
例如,通过网络爬虫从京东等电子商务网站上爬取某产品的产品信息及对应的评论信息,通过观点挖掘算法分析得到关于该产品的评论舆情分析结果。当有需要该产品的其他用户浏览相应的评论信息时,便可查询到该产品的各种特征评论信息,发现产品的优点与不足,并对比不同产品的优势与劣势。该系统的分析结果给潜在的消费者的购物决策提供参考的同时,还能给产品的生产厂商提供改进建议。
具体地,本发明实施例的观点挖掘系统的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层,预测系统需要在Windows XP或其兼容的操作系统平台之上运行。同时还需要程序运行支撑环境,即java和python运行支撑环境。
本发明的基于产品特征的互联网评论观点挖掘方法及系统,不仅可以帮助用户节省时间,而且能够处理评论中的矛盾信息和发现被评论产品的不足。不仅能给用户的购买提供参考,也能给生产厂商提供产品的改进建议。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对所述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。
Claims (14)
1.一种基于产品特征的互联网评论观点挖掘方法,其特征在于,包括以下步骤:
从互联网上获取产品信息及对应的评论信息;
从所述评论信息中抽取产品特征,并从所述产品特征中提取出相关联的显式特征评论及隐式特征评论;
利用所述显式特征评论和所述隐式特征评论在句子粒度上进行情感分类;以及
依据所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户。
2.根据权利要求1所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,所述抽取产品特征的步骤包括:
通过关联规则挖掘的方法提取出所述评论信息中出现的名词以及名词短语;
通过定义规则对所述名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征;以及
对提取出的所述产品特征进行聚类,合并相似概念,得到所有所述产品特征的集合。
3.根据权利要求1所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,所述的抽取产品特征隐式特征评论的方法为:基于关联规则挖掘的方法和基于机器学习的方法。
4.根据权利要求3所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,所述基于关联规则挖掘的方法,包括以下步骤:
根据描述所述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;
利用词频统计和频繁项集挖掘的方法从所述显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;
利用自然语言处理领域的搭配提取方法对所述词语及多维频繁项进行过滤,从而得到可靠的关联规则;以及
将所述规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
5.根据权利要求3所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,所述基于机器学习的方法,包括以下步骤:
抽取包含显式特征的相关评论信息,作为训练的样本数据;
对训练的所述样本数据,进行词性过滤,再使用基于传统的特征选择方法,或基于主题模型的方法,选择合适的训练属性,将所述相关评论信息数字化,建立训练样本的空间向量模型;以及
利用机器学习的方法,分别应用每一个产品的特征训练分类模型,对非显式特征评论的语句是否包含对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
6.根据权利要求1所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,所述对评论信息在句子粒度上进行情感分类,包括:
在情感词典的基础上,加入用户情感表述规则,进行所述评论信息在句子粒度级别的情感分类;以及
通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对所述评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
7.根据权利要求1所述的基于产品特征的互联网评论观点挖掘方法,其特征在于,依据所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户的步骤,进一步包括:
去除重复内容较多、过于简短以及用户评论态度不够认真的所述评论信息;以及
对所述评论信息按照褒贬义进行排序,针对每个所述产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的所述评论信息生成情感文摘。
8.一种基于产品特征的互联网评论观点挖掘系统,其特征在于,包括:
爬虫模块,所述爬虫模块用于从互联网上获取产品信息及对应的评论信息;
产品特征抽取模块,所述产品特征抽取模块与所述爬虫模块相连,用于从所述评论信息中抽取产品特征,并且进一步从所述产品特征中提取出相关联的显式特征评论及隐式特征评论;
观点挖掘模块,所述观点挖掘模块与所述产品特征抽取模块相连,用于利用所述显式特征评论和所述隐式特征评论在句子粒度上进行情感分类;以及
情感文摘生成模块,所述情感文摘生成模块与所述观点挖掘模块相连,用于将所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户。
9.如权利要求8所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所述产品特征抽取模块中,所述抽取产品特征的步骤包括:
通过关联规则挖掘的方法提取出所述评论信息中出现的名词以及名词短语;
通过定义规则对所述名词及名词短语进行剪枝去除噪声,从而提取出被频繁描述的产品特征;以及
对提取出的所述产品特征进行聚类,合并相似概念,得到所有所述产品特征的集合。
10.如权利要求8所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所诉观点挖掘模块中,所述的抽取产品特征隐式特征评论的方法为:基于关联规则挖掘的方法和基于机器学习的方法。
11.如权利要求10所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所述基于关联规则挖掘的方法,包括以下步骤:
根据描述所述产品特征的词和短语,从原始数据集中抽取包含显式特征的评论;
利用词频统计和频繁项集挖掘的方法从所述显式特征评论中抽取出和目标特征关联密切的词语及多维频繁项;
利用自然语言处理领域的搭配提取方法对所述词语及多维频繁项进行过滤,从而得到可靠的关联规则;以及
将所述规则用于不含显式特征的评论,抽取出相关隐式特征的评论。
12.如权利要求10所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所述基于机器学习的方法,包括以下步骤:
抽取包含显式特征的相关评论信息,作为训练的样本数据;
对训练的所述样本数据,进行词性过滤,再使用基于传统的特征选择方法,或基于主题模型的方法,选择合适的训练属性,将所述相关评论信息数字化,建立训练样本的空间向量模型;以及
利用机器学习的方法,分别应用每一个产品的特征训练分类模型,对非显式特征评论的语句是否包含对应的隐式特征进行二分类,进而判断每条评论所描述的隐式特征。
13.如权利要求10所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所述对评论信息在句子粒度上进行情感分类,包括:
在情感词典的基础上,加入用户情感表述规则,进行所述评论信息在句子粒度级别的情感分类;以及
通过对语料库进行统计,针对每个产品特征建立了一个情感极性动态变化的词典,通过对所述评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
14.如权利要求8所述基于产品特征的互联网评论观点挖掘系统,其特征在于,所述情感文摘生成模块中,所述产品特征及对应的所述情感分类结果生成情感文摘提供给用户的步骤,进一步包括:
去除重复内容较多、过于简短以及用户评论态度不够认真的所述评论信息;以及
对所述评论信息按照褒贬义进行排序,针对每个所述产品特征,按照用户的总体褒贬义情感倾向的比例,挑选出有代表性的所述评论信息生成情感文摘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103298003A CN103399916A (zh) | 2013-07-31 | 2013-07-31 | 基于产品特征的互联网评论观点挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103298003A CN103399916A (zh) | 2013-07-31 | 2013-07-31 | 基于产品特征的互联网评论观点挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103399916A true CN103399916A (zh) | 2013-11-20 |
Family
ID=49563544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103298003A Pending CN103399916A (zh) | 2013-07-31 | 2013-07-31 | 基于产品特征的互联网评论观点挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103399916A (zh) |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104462480A (zh) * | 2014-12-18 | 2015-03-25 | 刘耀强 | 基于典型性的评论大数据挖掘方法 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104484329A (zh) * | 2014-10-31 | 2015-04-01 | 浙江工商大学 | 基于评论中心词时序变化分析的消费热点追踪方法及装置 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104765733A (zh) * | 2014-01-02 | 2015-07-08 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN104794209A (zh) * | 2015-04-24 | 2015-07-22 | 清华大学 | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105139211A (zh) * | 2014-12-19 | 2015-12-09 | Tcl集团股份有限公司 | 产品简介生成方法及系统 |
CN105335347A (zh) * | 2014-05-30 | 2016-02-17 | 富士通株式会社 | 确定针对特定话题的情绪及其原因的方法和设备 |
CN105469282A (zh) * | 2015-12-01 | 2016-04-06 | 成都知数科技有限公司 | 基于文本评论的线上品牌评估方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
CN105844424A (zh) * | 2016-05-30 | 2016-08-10 | 中国计量学院 | 基于网络评论的产品质量问题发现及风险评估方法 |
CN106021413A (zh) * | 2016-05-13 | 2016-10-12 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN106354754A (zh) * | 2016-08-16 | 2017-01-25 | 清华大学 | 基于离散独立成分分析的自展式隐式特征挖掘方法和系统 |
CN106528611A (zh) * | 2016-09-28 | 2017-03-22 | 西南交通大学 | 一种基于互联网点评数据的分析方法 |
CN106649519A (zh) * | 2016-10-17 | 2017-05-10 | 北京邮电大学 | 一种产品特征的挖掘与评价方法 |
CN106708868A (zh) * | 2015-11-16 | 2017-05-24 | 中国移动通信集团北京有限公司 | 一种互联网数据分析方法及系统 |
CN107273351A (zh) * | 2017-05-31 | 2017-10-20 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据观点挖掘的产品特征提取方法 |
CN107577827A (zh) * | 2017-10-30 | 2018-01-12 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN107943909A (zh) * | 2017-11-17 | 2018-04-20 | 合肥工业大学 | 基于评论数据的用户需求趋势挖掘方法及装置、存储介质 |
CN108170685A (zh) * | 2018-01-29 | 2018-06-15 | 浙江省公众信息产业有限公司 | 文本情感分析方法、装置和计算机可读存储介质 |
CN108170841A (zh) * | 2018-01-16 | 2018-06-15 | 深圳市中易科技有限责任公司 | 一种基于信息价值的手机舆情分析决策方法 |
CN108564429A (zh) * | 2018-03-09 | 2018-09-21 | 杭州鸟瞰智能科技股份有限公司 | 一种基于深度学习的美食门店推荐方法 |
CN109284373A (zh) * | 2018-09-06 | 2019-01-29 | 合肥工业大学 | 基于文本挖掘驱动的产品升级策略的获取方法及装置 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN109670184A (zh) * | 2018-12-26 | 2019-04-23 | 南京题麦壳斯信息科技有限公司 | 一种英文文章质量评估方法及系统 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
WO2019085332A1 (zh) * | 2017-11-01 | 2019-05-09 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN109919646A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人工业技术研究院 | 数据解析装置及数据解析方法 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110362670A (zh) * | 2019-07-19 | 2019-10-22 | 中国联合网络通信集团有限公司 | 商品属性抽取方法及系统 |
CN110601925A (zh) * | 2019-10-21 | 2019-12-20 | 秒针信息技术有限公司 | 一种信息筛选方法、装置、电子设备及存储介质 |
CN110717325A (zh) * | 2019-09-04 | 2020-01-21 | 北京三快在线科技有限公司 | 文本的情感分析方法、装置、电子设备及存储介质 |
CN111242679A (zh) * | 2020-01-08 | 2020-06-05 | 北京工业大学 | 一种基于产品评论观点挖掘的销量预测方法 |
CN111259159A (zh) * | 2018-11-30 | 2020-06-09 | 北京京东尚科信息技术有限公司 | 数据挖掘方法、装置和计算机可读存储介质 |
CN112053080A (zh) * | 2020-09-15 | 2020-12-08 | 上海唐硕信息科技有限公司 | 一种基于用户体验感知的品牌评分方法 |
CN112270170A (zh) * | 2020-10-19 | 2021-01-26 | 中译语通科技股份有限公司 | 一种隐式表述语句的分析方法、装置、介质和电子设备 |
CN112364170A (zh) * | 2021-01-13 | 2021-02-12 | 北京智慧星光信息技术有限公司 | 数据情感分析方法、装置、电子设备及介质 |
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN113177170A (zh) * | 2021-04-12 | 2021-07-27 | 维沃移动通信有限公司 | 评论展示方法、装置及电子设备 |
US11087218B2 (en) | 2017-12-08 | 2021-08-10 | Industrial Technology Research Institute | Electronic device, presentation method for decision-making process module and computer readable medium |
CN116127342A (zh) * | 2023-04-04 | 2023-05-16 | 广州携旅信息科技有限公司 | 一种基于酒店的信息聚类处理方法、系统及平台 |
CN116644754A (zh) * | 2023-05-31 | 2023-08-25 | 重庆邮电大学 | 一种基于大数据的互联网金融产品评论观点提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN102760264A (zh) * | 2011-04-29 | 2012-10-31 | 国际商业机器公司 | 为互联网上的评论生成摘录的计算机实现的方法和系统 |
CN102945268A (zh) * | 2012-10-25 | 2013-02-27 | 北京腾逸科技发展有限公司 | 产品特征评论挖掘方法及系统 |
-
2013
- 2013-07-31 CN CN2013103298003A patent/CN103399916A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760264A (zh) * | 2011-04-29 | 2012-10-31 | 国际商业机器公司 | 为互联网上的评论生成摘录的计算机实现的方法和系统 |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN102945268A (zh) * | 2012-10-25 | 2013-02-27 | 北京腾逸科技发展有限公司 | 产品特征评论挖掘方法及系统 |
Non-Patent Citations (1)
Title |
---|
易明: "《基于Web挖掘的个性化信息推荐》", 31 May 2010, 科学出版社 * |
Cited By (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104679769B (zh) * | 2013-11-29 | 2018-04-06 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104765733B (zh) * | 2014-01-02 | 2018-06-15 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN104765733A (zh) * | 2014-01-02 | 2015-07-08 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN103793503B (zh) * | 2014-01-24 | 2017-02-08 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN105095288B (zh) * | 2014-05-14 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105335347A (zh) * | 2014-05-30 | 2016-02-17 | 富士通株式会社 | 确定针对特定话题的情绪及其原因的方法和设备 |
CN104484329A (zh) * | 2014-10-31 | 2015-04-01 | 浙江工商大学 | 基于评论中心词时序变化分析的消费热点追踪方法及装置 |
CN104484329B (zh) * | 2014-10-31 | 2018-07-06 | 浙江工商大学 | 基于评论中心词时序变化分析的消费热点追踪方法及装置 |
CN104462363B (zh) * | 2014-12-08 | 2018-10-23 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104462480A (zh) * | 2014-12-18 | 2015-03-25 | 刘耀强 | 基于典型性的评论大数据挖掘方法 |
CN104462480B (zh) * | 2014-12-18 | 2017-11-10 | 刘耀强 | 基于典型性的评论大数据挖掘方法 |
CN105139211A (zh) * | 2014-12-19 | 2015-12-09 | Tcl集团股份有限公司 | 产品简介生成方法及系统 |
CN105139211B (zh) * | 2014-12-19 | 2021-06-22 | Tcl科技集团股份有限公司 | 产品简介生成方法及系统 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN104537080B (zh) * | 2014-12-31 | 2018-08-07 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN104794209A (zh) * | 2015-04-24 | 2015-07-22 | 清华大学 | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN104794212B (zh) * | 2015-04-27 | 2018-04-10 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN106708868B (zh) * | 2015-11-16 | 2020-02-21 | 中国移动通信集团北京有限公司 | 一种互联网数据分析方法及系统 |
CN106708868A (zh) * | 2015-11-16 | 2017-05-24 | 中国移动通信集团北京有限公司 | 一种互联网数据分析方法及系统 |
CN105469282A (zh) * | 2015-12-01 | 2016-04-06 | 成都知数科技有限公司 | 基于文本评论的线上品牌评估方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
CN106021413B (zh) * | 2016-05-13 | 2019-07-02 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN106021413A (zh) * | 2016-05-13 | 2016-10-12 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN105844424A (zh) * | 2016-05-30 | 2016-08-10 | 中国计量学院 | 基于网络评论的产品质量问题发现及风险评估方法 |
CN106354754A (zh) * | 2016-08-16 | 2017-01-25 | 清华大学 | 基于离散独立成分分析的自展式隐式特征挖掘方法和系统 |
CN106528611A (zh) * | 2016-09-28 | 2017-03-22 | 西南交通大学 | 一种基于互联网点评数据的分析方法 |
CN106649519A (zh) * | 2016-10-17 | 2017-05-10 | 北京邮电大学 | 一种产品特征的挖掘与评价方法 |
CN107273351A (zh) * | 2017-05-31 | 2017-10-20 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据观点挖掘的产品特征提取方法 |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN107679580B (zh) * | 2017-10-21 | 2020-12-01 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN107577827A (zh) * | 2017-10-30 | 2018-01-12 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
CN107577827B (zh) * | 2017-10-30 | 2019-10-22 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
WO2019085332A1 (zh) * | 2017-11-01 | 2019-05-09 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN107943909A (zh) * | 2017-11-17 | 2018-04-20 | 合肥工业大学 | 基于评论数据的用户需求趋势挖掘方法及装置、存储介质 |
US11087218B2 (en) | 2017-12-08 | 2021-08-10 | Industrial Technology Research Institute | Electronic device, presentation method for decision-making process module and computer readable medium |
CN109919646A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人工业技术研究院 | 数据解析装置及数据解析方法 |
CN108170841A (zh) * | 2018-01-16 | 2018-06-15 | 深圳市中易科技有限责任公司 | 一种基于信息价值的手机舆情分析决策方法 |
CN108170685A (zh) * | 2018-01-29 | 2018-06-15 | 浙江省公众信息产业有限公司 | 文本情感分析方法、装置和计算机可读存储介质 |
CN108564429A (zh) * | 2018-03-09 | 2018-09-21 | 杭州鸟瞰智能科技股份有限公司 | 一种基于深度学习的美食门店推荐方法 |
CN109284373A (zh) * | 2018-09-06 | 2019-01-29 | 合肥工业大学 | 基于文本挖掘驱动的产品升级策略的获取方法及装置 |
CN111259159A (zh) * | 2018-11-30 | 2020-06-09 | 北京京东尚科信息技术有限公司 | 数据挖掘方法、装置和计算机可读存储介质 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN109670184A (zh) * | 2018-12-26 | 2019-04-23 | 南京题麦壳斯信息科技有限公司 | 一种英文文章质量评估方法及系统 |
CN109977414A (zh) * | 2019-04-01 | 2019-07-05 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN109977414B (zh) * | 2019-04-01 | 2023-03-14 | 中科天玑数据科技股份有限公司 | 一种互联网金融平台用户评论主题分析系统及方法 |
CN110362670A (zh) * | 2019-07-19 | 2019-10-22 | 中国联合网络通信集团有限公司 | 商品属性抽取方法及系统 |
CN110717325A (zh) * | 2019-09-04 | 2020-01-21 | 北京三快在线科技有限公司 | 文本的情感分析方法、装置、电子设备及存储介质 |
CN110601925A (zh) * | 2019-10-21 | 2019-12-20 | 秒针信息技术有限公司 | 一种信息筛选方法、装置、电子设备及存储介质 |
CN111242679A (zh) * | 2020-01-08 | 2020-06-05 | 北京工业大学 | 一种基于产品评论观点挖掘的销量预测方法 |
CN112053080A (zh) * | 2020-09-15 | 2020-12-08 | 上海唐硕信息科技有限公司 | 一种基于用户体验感知的品牌评分方法 |
WO2022057097A1 (zh) * | 2020-09-15 | 2022-03-24 | 上海唐硕信息科技有限公司 | 一种基于用户体验感知的品牌评分方法 |
CN112270170A (zh) * | 2020-10-19 | 2021-01-26 | 中译语通科技股份有限公司 | 一种隐式表述语句的分析方法、装置、介质和电子设备 |
CN112364170A (zh) * | 2021-01-13 | 2021-02-12 | 北京智慧星光信息技术有限公司 | 数据情感分析方法、装置、电子设备及介质 |
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN113177170A (zh) * | 2021-04-12 | 2021-07-27 | 维沃移动通信有限公司 | 评论展示方法、装置及电子设备 |
CN116127342A (zh) * | 2023-04-04 | 2023-05-16 | 广州携旅信息科技有限公司 | 一种基于酒店的信息聚类处理方法、系统及平台 |
CN116644754A (zh) * | 2023-05-31 | 2023-08-25 | 重庆邮电大学 | 一种基于大数据的互联网金融产品评论观点提取方法 |
CN116644754B (zh) * | 2023-05-31 | 2024-04-16 | 金智东博(北京)教育科技股份有限公司 | 一种基于大数据的互联网金融产品评论观点提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103399916A (zh) | 基于产品特征的互联网评论观点挖掘方法及系统 | |
Gitto et al. | Improving airport services using sentiment analysis of the websites | |
Girgis et al. | Deep learning algorithms for detecting fake news in online text | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN102945268A (zh) | 产品特征评论挖掘方法及系统 | |
CN103778214B (zh) | 一种基于用户评论的商品属性聚类方法 | |
CN102236722B (zh) | 一种基于三元组的用户评论摘要的生成方法与系统 | |
CN103365867A (zh) | 一种对用户评价进行情感分析的方法和装置 | |
US20140108006A1 (en) | System and method for analyzing and mapping semiotic relationships to enhance content recommendations | |
CN104794212A (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
Rehman et al. | Lexicon-based sentiment analysis for Urdu language | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN111914086A (zh) | 一种基于lstm神经网络的手机评论分析方法及系统 | |
CN107797982A (zh) | 用于识别文本类型的方法、装置和设备 | |
CN110941953B (zh) | 一种兼顾可解释性的网络虚假评论的自动识别方法及系统 | |
CN103246687A (zh) | 基于特征信息的Blog自动摘要方法 | |
CN102200973A (zh) | 生成具有基于情感导向的影响关系的观点对的设备和方法 | |
CN107944911A (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN104731874A (zh) | 一种评价信息生成方法和装置 | |
Chenlo et al. | Rhetorical structure theory for polarity estimation: An experimental study | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
Nithya et al. | Sentiment analysis on unstructured review | |
Peterlin et al. | Automated content analysis: The review of the big data systemic discourse in tourism and hospitality | |
CN112948575A (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
Bölücü et al. | Hate Speech and Offensive Content Identification with Graph Convolutional Networks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131120 |