CN103678564B - 一种基于数据挖掘的互联网产品调研系统 - Google Patents

一种基于数据挖掘的互联网产品调研系统 Download PDF

Info

Publication number
CN103678564B
CN103678564B CN201310659651.7A CN201310659651A CN103678564B CN 103678564 B CN103678564 B CN 103678564B CN 201310659651 A CN201310659651 A CN 201310659651A CN 103678564 B CN103678564 B CN 103678564B
Authority
CN
China
Prior art keywords
product
sentence
user
word
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310659651.7A
Other languages
English (en)
Other versions
CN103678564A (zh
Inventor
刘春阳
程工
庞琳
张旭
巢文涵
周庆
李舟军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201310659651.7A priority Critical patent/CN103678564B/zh
Publication of CN103678564A publication Critical patent/CN103678564A/zh
Application granted granted Critical
Publication of CN103678564B publication Critical patent/CN103678564B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。

Description

一种基于数据挖掘的互联网产品调研系统
技术领域
本发明涉及一种基于数据挖掘的互联网产品调研系统及方法,属于数据挖掘、文本信息处理和互联网领域。
背景技术
随着电子商务市场的不断发展,网络上针对产品的评论信息和权威门户网站的测评越来越多。这些信息对于企业提升产品质量、制定营销策略和企业市场产略都有极大的参考意义。
然而,传统的产品调研往往采用的诸如专家访谈,调查问卷等手段往往局限于企业人力和财力的限制,受制于调研样本的大小,常常不能完整全面准确的反映市场全貌,因而对企业和商家的决策造成错误引导。更为严重的是,无论多么准确的产品调研,都需长时间的收集数据和整理数据的过程,严重滞后于市场变化,使企业不能及时地根据市场变化做出正确的调整决策。
针对以上问题,基于互联网资源,自动获取网络上和待调研产品的相关信息和评论信息,采用数据挖掘和自然语言处理技术,对这些产品相关信息资源进行分析和挖掘,快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果。从而为产品分析、市场决策提供快速、坚实的支撑,实现对市场快速响应和降低调研成本的目标。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于数据挖掘的互联网产品调研系统,能够充分利用互联网资源,为用户提供关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果,从而能够实现市场快速响应和降低调研成本的目标。
本发明技术解决方案:一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:
信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;
信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息主要是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,主要采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息,主要采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;
产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中主要分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到产品属性参数,列出产品的各特征参数,同时对产品中较为重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述;
情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间的稳固程度,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的观点句,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各主要属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;
用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间等信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值。基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体主要关注的内容,及其对产品各不同属性的情感倾向;
数据展示模块:对概貌分析模块、情感分析模块以及用户分析模块的内容进行可视化展示,使用户能够方便地查看产品分析的结果,及分析结果对应的支持数据。
所述产品概貌分析模块中,针对采集到的产品相关新闻集合及属性参数,计算属性词的词权,其计算公式如下:
其中,TF(i)为词i出现的频数,N为数据集合中句子的个数,ni为出现了词i的句子,Wi是词权。
所述产品概貌分析模块中,基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述中的特征包括:句子权重、句子长度、是否陈述句、句子位置、与标题相似度、与中心句相似性,是否包含指示性短语,其中,句子权重是基于词权将句子中包含的各属性词的权重加和,其计算公式如下:
其中,Wi是词权,c是句子中包含的属性词的个数,weights是句子的权重。
通过提取句子权重以及其他各种特征,即可训练相应文摘句分类器,用于判断每个句子是否文摘句,将文摘句综合起来形成产品的文摘描述。
所述自动收集和产品属性词相关的情感词是计算情感词与产品属性词之间的PMI值,从而确定情感词与属性词之间的连接强度;所述PMI值的计算公式如下:
其中,word1和word2分别表示属性词和情感词,p(word1&word2)是word1和word2共同出现的概率,p(word1)是word1出现的概率,p(word2)是word2出现的概率,两者的比值是word1和word2统计独立性的度量,值为零时两者统计独立,值越大两者的统计相关性也越大。
在情感分析模块中,所述采用情感分析技术识别出用户评论中的观点句过程为:首先抽取和观点句相关的4种特征,包括观点主张词、观点指示词、观点持有者和目标,训练处观点句识别分类器,能够对新的句子进行分类,判断其是否观点句。
在用户行为分析模块中,所述相似用户簇的获取过程是:(1)基于情感分析结果,对已经收集的每条用户评论信息构建相应的四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;(2)形成对每个用户的描述,即收集每个用户相关的四元组,形成每个用户对应的四元组集合,它们可看作是用户的描述;(3)基于用户的描述集合,对用户进行聚类分析,形成相似用户簇;(4)最后,对相似用户簇进行描述:基于每个相似用户簇中的四元组集合,从中挑选出最能描述用户簇的N个属性词及情感词对。
本发明与现有技术相比的优点在于:
(1)本发明能够自动从互联网上采集和产品相关的属性信息、新闻信息和用户评论信息,并采用数据挖掘和文本处理技术实现对产品的多角度分析,从而快速形成对产品的调研结果,大大降低传统产品调研的成本,提高产品调研的效率;
(2)本发明在产品概貌分析过程中,充分考虑了属性词的词权,并融合其它特征提高了产品摘要描述的质量;
(3)本发明在情感分析过程中,通过计算属性词与情感词之间的紧密程度,提高了用户评论情感词和评价对象的识别;
(4)本发明在用户行为分析中,采用四元组的方式对用户行为进行描述,并在此基础上对用户进行聚类和描述,提高了产品用户的细分质量,为后续产品决策提供了坚实的基础。
附图说明
图1是系统总体框架图;
图2为图1中的信息采集模块实现流程图;
图3是信息预处理模块实现流程图;
图4是产品概貌分析模块实现流程图;
图5是句子文本特征提取流程图;
图6是情感分析模块实现流程图;
图7是用户行为分析模块实现流程图。
具体实施方式
如图1所示,本发明包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块和数据展示模块。下面将结合附图分别本发明实施方案作进一步地详细描述。
1.信息采集模块实现步骤如下(如图2所示):
(1)产品初始资料输入:采集数据之前,为提高调研精准度以及更好的反应调研需求,预先输入待调研的产品名称以及产品属性等初始信息,以及相应的种子数据源;
(2)录入初始信息后,系统启动以下三个采集器:
(2-1)产品属性信息采集集,基于产品名称、产品属性列表以及种子数据源,自动搜集产品相关的属性信息,存入产品属性原始库;
(2-2)产品新闻信息采集器,将产品名称、产品属性作为关键词,自动采集和产品相关的新闻信息,存入产品新闻原始库;
(2-3)用户评论采集器采集论坛、博客等用户评论较多的数据源,将其存入产品用户评论原始库。
2.信息预处理的具体实现过程如下(如图3所示):
分别对原始数据库中的三类信息进行处理:(1)对于产品属性信息,根据模板自动提取网页中包含的产品属性值,存入产品属性信息库;(2)对于新闻信息,根据模板自动提取新闻正文,包括标题、内容、时间等,对新闻进行中文分词、词性标注、依存句法分析等处理,存入新闻信息库;(3)对于用户评论数据,分别收集评论的评论对象、用户、评论内容、评论时间等内容,对评论内容进行分词、词性标注、依存句法分析等预处理,存入用户评论库。
3.产品概貌分析
产品概貌分析模块一方面利用产品属性信息,形成产品的基本描述,另一方面使用自动摘要方法对搜集到的新闻进行处理,自动摘录其中包含的文摘句,把最能够代表文章观点的句子抽取出来作为摘要,从而形成产品新闻的摘要说明。本发明中所属概貌分析是首先需要对文本进行分析,将文本表示为特征向量,然后采用机器学习技术将文本分为文摘句和非文摘句,摘要抽取过程如图4所示。
本发明中自动摘要包含的特征如下,其文本特征提取流程如图5所示:
(1)句子权重
为计算新闻集合中每个句子的权重,首先计算每个属性词的权重。
词权是指句子中包含的特征词的权重。特征词是指构建在产品属性词之上的与领域相关的词语集。其计算公式如下:
其中,TF(i)为词i出现的频数,N为文章中句子个数,ni为出现了词i的句子,Wi是词i的权重。
对于每篇文档,计算出每个特征词的权重后,计算每个句子的权重,句子的权重定义为句子中出现过的特征词词权加和,计算公式如下:
其中,Wi是词权,c是句子中包含的属性词的个数,weights是句子的权重,我们把权重最高的句子称为中心句。
(2)句子长度
(3)是否陈述句
一般而言,非陈述句不是文摘句。
(4)句子位置
句子位置可分为文章第一句、段落第一句、文章最后一句、段落最后一句等。
(5)与标题相似性
计算句子相似性的方法为:将每个句子看成独立的特征词条(t1,t2,t3……)集合,每个词条在句子中都被赋予了一定权值wi,,因此可以据此将句子表示为向量空间模型(VSM),可以使用向量之间的夹角余弦来计算句子之间的相似度:
其中d1和d2分别表示两个句子,w1i和w2i分别表示句子1和2第i个特征的权重。Sim(d1,d2)表示两个句子的相似度。
(6)与中心句相似性
定义中心句为权重最高的句子。相似度计算方式与上相同。
(7)是否包含指示性短语
指示性短语包括:总之、综上所述、目前、如今、伊始、参考、指导、希望等。
将文本表示为特征向量后,本发明中采用支持向量机学习算法对文摘句模型进行训练,得出文摘句识别模型,可识别句子集合中的文摘句,形成产品摘要。
1.情感分析
如图6所示,情感分析模块包含预备过程和分析过程:
1)预备过程
预备过程主要是包括情感词集的收集以及计算情感词与产品属性之间的关系。
(a)情感词收集:本发明对各种形容词、副词、动词等进行收集,并人工标注其中部分情感词的情感倾向(即积极或者消极)作为种子集合,然后通过情感词之间的共现关系,利用图传播算法计算每个情感词的情感倾向;
(b)计算情感词与产品属性之间的关系:对于产品属性词而言,其修饰的情感词往往比较固定或者有较强限定性。和产品属性词相关情感词的提取将有利于实现针对不同产品情感分析的自适应性,同时提高情感分析的性能。本发明主要是计算情感词与产品属性之间的PMI值,其计算公式如下:
其中,p(word1&word2)是word1和word2共同出现的概率,p(word1)是word1出现的概率,p(word2)是word2出现的概率,两者的比值是word1和word2统计独立性的度量,值为零时两者统计独立,值越大两者的统计相关性也越大。
2)分析过程
分析过程包括观点句识别、情感词和评价对象识别两个步骤,具体过程如图6所示。其中,观点句识别主要从大量的用户评论中识别出有价值的、真正表达用户观点的句子,以用于进一步的情感分析。情感词和评价对象识别进一步确定观点句中,用户观点极性和观点评价对象。本发明充分利用产品调研的领域特征,预先确定情感词集和产品属性集,将评价对象限定于预先确定的产品属性。
2-1)观点句识别
在本发明中,观点句识别采用了一个观点句分类器。考虑到一个观点句通常包含:(1)观点持有者;(2)观点目标;(3)观点词;(4)观点主张词;(5)观点指示词等五个组件或者其中的部分组件。为了有效区分观点句和非观点句,本文从句子中抽取组件对应的词语特征作为识别线索,抽取的特征主要有如下四类:
(1)观点主张词,能够指示观点表达或者言语事件的动词。典型的如“斥责”,“称赞”和“指出”等。
(2)观点指示词,主要指的是相关的连词、副词和副词短语。包括:①转折连词,如“但是”、“尽管”等,其后句子/子句的情感倾向与前面相反。②表承接的连词,如“并且”、“而且”等,其后句子/子句的情感倾向与前面一致。③能够直接指示观点句情感倾向的副词或副词短语,如“不幸的是”。
(3)观点词,具有明显的语义倾向的词语,表达正面、负面或中性的语义,并在观点表达中其决定作用,主要指情感词。
(4)观点持有者和目标,句子中包含的名实体和代词,他们都是观点持有者和目标的候选词。
通过以上特征,可以训练一个观点句识别分类器,对新的评论句进行分类,判断其是否属于观点句。将删除非观点句,只对观点句进行后续的情感分析。
2-2)情感词和评价对象识别
情感词和评价对象识别针对观点句进行。同样需要训练和使用分类器,其主要过程如下:
(1)定位句子中包含的产品属性词
(2)找出句子中的情感词,计算特征向量。所使用的特征包含:(a)预先计算的产品属性词与情感词直接的PMI值;(b)属性词与情感词之间的距离;(c)属性词与情感词之间是否含有标点符号、连接词等;(d)属性词与情感词之间的依存关系。
(3)抽取特征向量之后,利用训练所得的分类器对属性词和情感词的关系进行分类,判断产品属性词与情感词之间是否存在修饰关系。
(4)若存在关系,则判断是否存在修饰情感词的否定词和程度副词,对最终的情感倾向进行计算,将结果存入情感分析结果库。
2.用户行为分析
用户行为分析主要是对互联网中评论用户的进行正确地细分,,准确地描述用户的兴趣,从而能够将用户感兴趣产品推荐给用户,并完善产品以更好地满足用户需求。
本发明中用户行为分析的过程如下,如图7所示:
(1)根据情感分析的结果,生成四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;
(2)形成对每个用户的描述:收集每个用户相关的四元组,形成每个用户对应的四元组集合,把它们作为每个用户的描述;
(3)基于每个用户的描述集合,采用K-均值聚类算法对用户进行聚类分析,形成相似用户簇;
(4)最后,对相似用户簇进行描述:基于每个相似用户簇中的四元组集合,将它们叠加在一起,形成一个针对属性的簇向量<A1:{C11,C12},A2:{C21,C22},…,An:{Cn1,Cn2}>,其中Ai表示某一个属性,Ci1表示用户簇中属性Ai对应的积极情感倾向的数量,Ci2表示用户簇中属性Ai对应的消极情感倾向的数量。然后对簇向量中每个属性值进行打分,其计算公式如下:
其中,Ai表示属性i,j表示情感倾向,=1表示积极,-1表示消极。TF(Ai,j)表示属性Ai在簇向量中出现的次数,N是总的用户数量,n(Ai,j)表示Ai出现j类情感倾向在整个用户中出现的数量。w(Ai,j)表述属性Ai的j类情感倾向在簇向量中的权重。
根据属性值的打分,挑选出N个分值最大的属性对应的情感词作为相似用户簇的描述。一般选N=3。
应用举例:本发明的系统及方法已经成功应用于互联网智能手机调研分析,在用户指定智能手机的属性集合及信息种子网站后,系统能够自动收集智能手机相关的信息,包括各种智能手机的属性及其参数值,智能手机的相关新闻以及智能手机的用户。在此基础上,能够对用户输入的各种智能手机型号快速完成概貌分析、情感分析和用户行为分析,形成智能产品的调研分析报告。证明了本发明系统及方法具有调研成本低、周期短、分析全面的优点。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:
信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;
信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;
产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到的产品属性参数,列出产品的各特征参数,同时对产品中重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合句子长度、是否陈述句、句子位置、与标题相似性、与中心句相似性以及是否包含指示性短语,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述,其中,中心句为权重最高的句子,指示性短语为具有概括意义的短语;
情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间是否存在稳定的修饰关系,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的包含观点的句子,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;
用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体关注的内容,及其对产品各不同属性的情感倾向;
数据展示模块:对产品概貌分析模块、情感分析模块以及用户行为分析模块的内容进行可视化展示,使用户能够方便地查看产品分析的结果,及分析结果对应的支持数据。
2.根据权利要求1所述的一种基于数据挖掘的互联网产品调研系统,其特征在于:所述产品概貌分析模块中,针对采集到的产品相关新闻集合及属性参数,计算属性词的词权,其计算公式如下:
w i = log ( 1 + T F ( i ) ) * log ( N n i )
其中,TF(i)为词i出现的频数,N为数据集合中句子的个数,ni为出现了词i的句子,wi是词权,log运算底数取2。
3.根据权利要求1所述的一种基于数据挖掘的互联网产品调研系统,其特征在于:所述产品概貌分析模块中,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述中的特征包括:句子权重、句子长度、是否陈述句、句子位置、与标题相似性、与中心句相似性、是否包含指示性短语,其中,句子权重是基于词权将句子中包含的各属性词的权重加和,其计算公式如下:
weight s = &Sigma; i = 1 c w i
其中,wi是词权,c是句子中包含的属性词的个数,weights是句子的权重;
通过提取上述特征,即可训练相应文摘句识别分类器,用于判断每个句子是否文摘句,将文摘句综合起来形成产品的文摘描述。
4.根据权利要求1所述的一种基于数据挖掘的互联网产品调研系统,其特征在于:在情感分析模块中,所述自动收集和属性词相关的情感词是计算情感词与产品属性词之间的PMI值,从而确定情感词与属性词之间的连接强度;所述PMI值的计算公式如下:
其中,word1和word2分别表示属性词和情感词,p(word1&word2)是word1和word2共同出现的概率,p(word1)是word1出现的概率,p(word2)是word2出现的概率,p(word1&word2)与p(word1)p(word2)两者的比值是word1和word2统计独立性的度量,值为零时两者统计独立,值越大两者的统计相关性也越大。
5.根据权利要求1所述的一种基于数据挖掘的互联网产品调研系统,其特征在于:在情感分析模块中,观点句指包含观点的句子,观点主张词指能够指示观点表达或者言语事件的动词,观点指示词指与观点表达有关的连词、副词和副词短语;所述采用情感分析技术识别出用户评论中的观点句过程为:首先抽取和观点句相关的3种特征,包括观点主张词、观点指示词、观点持有者,训练出观点句识别分类器,能够对新的句子进行分类,判断其是否观点句。
6.根据权利要求1所述的一种基于数据挖掘的互联网产品调研系统,其特征在于:在用户行为分析模块中,所述相似用户簇的获取过程是:(1)基于情感分析结果,对已经收集的每条用户评论信息构建相应的四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;(2)形成对每个用户的描述,即收集每个用户相关的四元组,形成每个用户对应的四元组集合,它们可看作是用户的描述;(3)基于用户的描述集合,对用户进行聚类分析,形成相似用户簇;(4)最后,对相似用户簇进行描述:基于每个相似用户簇中的四元组集合,从中挑选出分值最大的N个属性词及情感词对作为用户簇的描述。
CN201310659651.7A 2013-12-09 2013-12-09 一种基于数据挖掘的互联网产品调研系统 Expired - Fee Related CN103678564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310659651.7A CN103678564B (zh) 2013-12-09 2013-12-09 一种基于数据挖掘的互联网产品调研系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310659651.7A CN103678564B (zh) 2013-12-09 2013-12-09 一种基于数据挖掘的互联网产品调研系统

Publications (2)

Publication Number Publication Date
CN103678564A CN103678564A (zh) 2014-03-26
CN103678564B true CN103678564B (zh) 2017-02-15

Family

ID=50316109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310659651.7A Expired - Fee Related CN103678564B (zh) 2013-12-09 2013-12-09 一种基于数据挖掘的互联网产品调研系统

Country Status (1)

Country Link
CN (1) CN103678564B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279191B (zh) * 2014-07-22 2019-11-19 吴晨 基于网络数据分析的潜在用户挖掘方法
CN104378660A (zh) * 2014-11-06 2015-02-25 康佳集团股份有限公司 一种基于云计算的社区用户帖子分析统计方法及系统
CN105740302A (zh) * 2014-12-12 2016-07-06 北京海尔广科数字技术有限公司 一种需求信息的筛选方法及系统
CN104731923A (zh) * 2015-03-26 2015-06-24 无锡中科泛在信息技术研发中心有限公司 互联网商品评论挖掘本体词库的构建方法
CN104809635A (zh) * 2015-05-13 2015-07-29 苏州市千尺浪信息技术服务有限公司 一种互联网动态点评分析方法
CN106021391B (zh) * 2016-05-11 2019-06-21 广东工业大学 基于Storm的产品评论信息实时采集方法
CN106469145A (zh) * 2016-09-30 2017-03-01 中科鼎富(北京)科技发展有限公司 文本情感分析方法及装置
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
CN107220300B (zh) * 2017-05-05 2018-07-20 平安科技(深圳)有限公司 信息挖掘方法、电子装置及可读存储介质
CN107895027A (zh) * 2017-11-17 2018-04-10 合肥工业大学 个性情感知识图谱建立方法及装置
CN109829033B (zh) * 2017-11-23 2023-04-18 阿里巴巴集团控股有限公司 数据展示方法和终端设备
CN108628828B (zh) * 2018-04-18 2022-04-01 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN110019814B (zh) * 2018-07-09 2021-07-27 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN109299969A (zh) * 2018-08-17 2019-02-01 中国平安人寿保险股份有限公司 线索处理方法、装置、计算机设备和存储介质
CN110162750B (zh) * 2019-01-24 2023-07-07 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110347828B (zh) * 2019-06-26 2022-03-15 西南交通大学 一种地铁乘客需求动态获取方法及其获取系统
CN112446202A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 文本的分析方法和装置
CN110490667B (zh) * 2019-08-26 2023-07-21 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110502637B (zh) * 2019-08-27 2022-03-01 秒针信息技术有限公司 一种基于异构信息网络的信息处理方法和信息处理装置
CN110706028A (zh) * 2019-09-26 2020-01-17 四川长虹电器股份有限公司 基于属性特征的商品评价情感分析系统
US20210150546A1 (en) * 2019-11-15 2021-05-20 Midea Group Co., Ltd. System, Method, and User Interface for Facilitating Product Research and Development
CN111523300B (zh) * 2020-04-14 2021-03-05 北京精准沟通传媒科技股份有限公司 一种车辆综合评价方法、装置及电子设备
CN113536778A (zh) * 2020-04-14 2021-10-22 北京沃东天骏信息技术有限公司 标题的生成方法、装置和计算机可读存储介质
CN113094498A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品外观设计调研报告的生成方法和系统
CN113420122B (zh) * 2021-06-24 2024-06-04 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质
CN114510555A (zh) * 2022-02-24 2022-05-17 平安普惠企业管理有限公司 业务策略的制定方法、装置及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN101968788A (zh) * 2009-07-27 2011-02-09 富士通株式会社 提取商品属性信息的方法和设备
CN102682074A (zh) * 2012-03-09 2012-09-19 浙江大学 一种基于流形学习的产品隐式属性识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169317A1 (en) * 2008-12-31 2010-07-01 Microsoft Corporation Product or Service Review Summarization Using Attributes
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968788A (zh) * 2009-07-27 2011-02-09 富士通株式会社 提取商品属性信息的方法和设备
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN102682074A (zh) * 2012-03-09 2012-09-19 浙江大学 一种基于流形学习的产品隐式属性识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Electronic Word of Mouth:A Genre Analysis of Product Reviews on Consumer Opinion Web Sites;I. Pollach;《Proceedings of the 39th Annual Hawaii International Conference on System Sciences (HICSS"06) (Volume:3 )》;20060107;全文 *
Extracting Aspect-Evaluation and Aspect-of Relations in Opinion Mining;Nozomi Kobayashi等;《Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL)》;20070630;全文 *
中文网络客户评论的产品特征挖掘方法研究;李实等;《管理科学学报》;20090430;全文 *
面向产品领域的细粒度情感分析技术;王山雨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515;全文 *

Also Published As

Publication number Publication date
CN103678564A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
Oya et al. A template-based abstractive meeting summarization: Leveraging summary and source text relationships
Karamibekr et al. Sentiment analysis of social issues
US9116985B2 (en) Computer-implemented systems and methods for taxonomy development
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
Wang et al. Product weakness finder: an opinion-aware system through sentiment analysis
Basiri et al. A framework for sentiment analysis in persian
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN109960756B (zh) 新闻事件信息归纳方法
CN104881458B (zh) 一种网页主题的标注方法和装置
US10366117B2 (en) Computer-implemented systems and methods for taxonomy development
CN103365867A (zh) 一种对用户评价进行情感分析的方法和装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN110232149A (zh) 一种热点事件检测方法和系统
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US20120030206A1 (en) Employing Topic Models for Semantic Class Mining
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN101639857A (zh) 构建知识问答分享平台的方法、装置及系统
KR20120108095A (ko) 소셜 데이터 분석 시스템
CN109918627A (zh) 文本生成方法、装置、电子设备及存储介质
Verberne et al. Automatic thematic classification of election manifestos
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20171209

CF01 Termination of patent right due to non-payment of annual fee