CN102214201A - 从产品或服务评论中得出陈述 - Google Patents
从产品或服务评论中得出陈述 Download PDFInfo
- Publication number
- CN102214201A CN102214201A CN2011100943933A CN201110094393A CN102214201A CN 102214201 A CN102214201 A CN 102214201A CN 2011100943933 A CN2011100943933 A CN 2011100943933A CN 201110094393 A CN201110094393 A CN 201110094393A CN 102214201 A CN102214201 A CN 102214201A
- Authority
- CN
- China
- Prior art keywords
- product
- comment
- statement
- variable
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012552 review Methods 0.000 title abstract 8
- 238000000034 method Methods 0.000 claims description 21
- 230000001052 transient effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 12
- 230000000052 comparative effect Effects 0.000 abstract 1
- 239000000047 product Substances 0.000 description 80
- 238000000605 extraction Methods 0.000 description 20
- 230000014509 gene expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 229910001369 Brass Inorganic materials 0.000 description 6
- 239000010951 brass Substances 0.000 description 6
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了从产品或服务评论中得出陈述。可以分析对产品的评述,以及可以基于该分析作出关于产品的陈述。非专业评论(例如,由那些产品的普通消费者撰写的对产品的评论)常常难以解释,因为不同评论者可以应用不同标准。当大量评论可用时,可以在统计上分析这些评论以作出关于所评论的产品或服务的比较性陈述。可以向评论中所表达的意见分配数值。可以在统计上分析特定产品或产品类别的这些数值,以确定关于特定产品的意见与关于较大产品类别的意见相比是怎样的。使用这一分析,可以作出诸如“与相同价格的其他电视机相比,这个电视机具有非常好的图像质量”的陈述。
Description
技术领域
本发明涉及网络技术,尤其涉及网络技术中基于评论的陈述提供。
背景技术
人们通常在因特网上寻找的一种类型的信息是对产品或服务的评论。存在某些网站,它们主要的功能是允许消费者评论产品。在其他情况下,网站提供评论作为某些其他服务的一部分。例如,大型商业零售网站常常允许消费者对站点上销售的产品撰写评论。便于小卖家销售产品的站点(例如,eBay、Amazon市场等)常常允许用户评论他们与特定卖家的体验。
尽管某些站点雇佣专业专家来进行对产品和服务正式的、技术的评论,许多评论由普通消费者来提供。尽管消费者反馈可以是有价值的,但常常难以解释。不同人们具有不同期望。由此,当阅读评论时,常常难以知道评论中的单词的意味什么。例如,评论电视机的两个人都将电视机的图像质量描述为“好”,但“好”可能对这两个人意味着不同的内容。此外,评论者常常被要求在一个或多个维度上对产品或服务进行数字地评级(例如,“在一至五的比例上对这个电视机的图像质量评级”),但人们对如何分配数字常常意见不一致。两个人可能对电视机的图像质量有同样印象,但一个人可能给图像评级三,而另一人给图像评级四。
如果一人阅读相同或相似产品的许多评级,这个人可能获得产品空间以及各种产品如何彼此不同的全面画面。但阅读数量足够大的评论以取得这一全面画面是耗时的。
发明内容
可以分析评论以确定产品的评论与关于产品的已知事实之间的关系。使用这一分析,可以对关于给定产品如何与共享相同事实特征的其他产品比较作出陈述。
例如,假定电视机的叙述评论的喜爱性可以被数字地测量(例如,“良好(okay)”的评论获得一至十比例中的五,而“很差”获得一)。一旦将这些数值分配给评论,则找出特定产品或产品类别的平均喜爱性评级是可能的。因此,假定存在三个品牌的电视机——A、B、和C——价格范围在$1400-1500,并且这些品牌中的任一个的评论的平均喜爱性是一至十比例中的四。进一步假定对品牌A的评论的平均喜爱性是六。则作出品牌A在相同价格范围中比其他品牌的电视机更受喜爱的陈述是可能的。消费者在作出购买决定时对于这一陈述是很感兴趣的,因为它概括了关于品牌A的电视机的评论说了什么,并且这些评论与相同价格范围中的其他电视机的评论作比较。可以使用此处描述的技术来生成这种陈述。
为提供这一分析,分析文本评论以确定它们对产品表达的意见。可以按数字评级的形式来提取信息。例如,可以分析评级以确定它们对电视机的图像、声音、以及构造质量这三个不同方面说了什么。通过寻找某些关键单词和短语(例如,“图像好/很好/极好/差/很差/勉强可看”),在数字比例上评估评论者对电视机的各种方面说了什么是可能的。例如,如果评论将图像描述为“好”,则评论可以被解释为给图像质量评级六,而将图像描述为“很好”的评论可能被解释为给图像质量评级八。此外,可以对制造商的电视机规范执行文本分析,这包含诸如推荐零售价、屏幕尺寸、屏幕分辨率等基本事实信息,并且事实的每一类型可以被分配一数字。这一分析的结果是变量集。就可以在统计上分析这些变量以确定变量之间的关系。例如,一个人可以分析46-英寸电视机的平均图像质量,或在$1400-1500价格范围中的电视机的平均声音质量。
一旦两个变量之间的关系已知,则作出关于特定产品如何比相同类别中其他产品成功的陈述。例如,一个人可以说,“品牌-A的46-英寸电视机比其他46-英寸电视机图像质量更高,但声音质量更低”,或“与相同价格的电视机相比,品牌-B的电视机具有高的声音质量”。在这种意义上,将产品或服务的特定类别(例如,电视机的特定型号)的评论与产品或服务的某个更一般类别或服务(例如,特定屏幕尺寸的所有电视机)作比较的陈述可以用作现有评论集的一种自动生成的概述。
在此处的描述中,产品被用作可被评论的东西的示例,尽管此处描述的技术可以应用于可被评论的任何东西——例如,产品、服务等等。
提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
附图说明
图1是其中对产品或服务的评论可以基于其他信息来创建的组件集的示例的框图。
图2是两个变量之间的关系的示例以及可对那些变量执行的示例统计分析的框图。
图3是包含关于产品或服务的陈述的示例用户界面的框图。
图4是其中可分析评论以及其中可作出关于产品或服务的陈述的示例过程的流程图。
图5是可结合实现此处所述的主题来使用的示例组件的框图。
具体实施方式
当人们想要调查产品或服务时,他们常常查看消费者评论。因特网使撰写和阅读评论变得非常容易。由此,可以在各种在线地方找到评论。例如,商业零售网站常常允许用户对他们已经购买的产品撰写评论。这些网站常常与产品一起显示消费者评论,使得考虑购买相同产品的消费者可以找出其他人怎么认为该产品。在线市场(eBay、Amazon市场等)常常给予买家撰写对卖家的评论的机会。
尽管对各种各样的产品和服务的消费者评论是容易获得的,但常常难以解释这些评论。传统上,产品和服务评论由专业专家来创建。消费者杂志可以雇佣工程师团队来使产品通过严格的技术测试。汽车俱乐部可以雇佣有经验的旅行者住在酒店并且对它们接收的服务评级。这些类型的评级是可靠的并且传递许多信息,因此它们使正被评论的产品或服务服从可以是明确公布的统一标准。作为对比,典型的消费者仅对一些产品进行评级,并且不同的消费者在他们评论产品时可以具有非常不同的个人标准。例如,两个不同消费者对电视机的图像质量可以具有相同的主观印象,但一个消费者比另一个具有更高的期望。由此,一个消费者可能将图像质量描述为“一般”,而另一个可能将图像质量描述为“很好”。此外,消费者往往比专业专家遇到的产品少,因此一个特定消费者认为他所购买的电视机具有“极美妙的”声音质量的事实可能并不是特别有教益性的或可靠的,因为该消费者可能对于一个人对电视机的期望的一般质量等级并不知道很多。
尽管个体消费者评论可以提供难以解释的信息,但检查大量消费者评论往往提供消费者怎样认为一产品或服务的可靠画面。一个消费者认为品牌-A的46-英寸电视机具有很好图像的事实其本身并不提供很多信息。然而生,一千个消费者给予品牌-A的46-英寸电视机从好到极好的评论暗示该电视机可以是高质量的电视机。并且,如果存在另外一千个将品牌-B和品牌-C的46-英寸电视机评级为“差”的评论,则相比之下,对品牌-A的高质量评级看上去更加令人印象深刻。换言之,当评论是由应用各种各样的标准并且对他们正评级的这些类型的产品具有相对较少经验的消费者来提供时,这些评论的可靠性来自两个源:大数量、以及消费者的陈述可与其相比较的参考点。考虑大量的评论减小了一个人的印象将受失常的评论影响的机会。并且,将大量对品牌-A的产品的评论与大量相似产品的评论作比较使得相似产品能作为可相对于其来解释对品牌-A的产品的评论的参考点。
然而,大部分消费者没有时间细查大量的评论。由此,解释消费者评论的问题等于对大量信息的编组以及建模,这些信息中的很多被包含在自由形式、叙述性的文本评论中。此处描述的主题提供了对评论进行编组和解释的方式。
为了分析评论,挖掘了两种类型的信息:第一,关于被评论的产品或服务的基本事实,以及第二,评论者对产品或服务的印象,如评论的叙述部分中表达的。首先,关于产品或服务的基本事实是从产品的制造商或服务的提供者所提供的信息中挖掘的。例如,如果公司A制造电视机,它可能会提供关于电视机的每一模型的基础信息——例如,推荐零售价、屏幕尺寸、屏幕分辨率、显示器技术(例如,等离子或液晶)、输入端口的数量等等。作为另一示例,酒店公司可能将提供关于其酒店房间的基本信息——例如,酒店位置、不同类型的房间的价格范围、房间大小、酒店中的餐厅数量等等。这一类型的信息可以使用诸如实体提取等文本分析技术来从在线或打印材料中挖掘。
其次,挖掘评论本身以标识评论者对他们在评论的产品或服务说了些什么。即,可以分析评论的叙述部分,以确定它在表达关于正评论的产品或服务的特点方面表现出什么意见。说“图像质量差”的电视机评论表达了评论者对产品或服务的意见,并且这一意见可以从评论的叙述部分来提取。
这两种类型的信息——关于产品的基本事实、对该产品的评论——按以下方式来使用。使用关于产品和服务的基本事实来创建可被有意义地比较的分类。例如,将两个具有1080p显示器的46-英寸电视机作比较是有意义的。但将20-英寸标清阴极射线电视机与65-英寸的高清等离子电视机作比较的意义较小。在某些情况下,将相同尺寸和屏幕分辨率的任何两个电视机作比较是有意义的,在其他情况下,将具有相似价格的电视机作比较是有意义的。类似地,将市中心区曼哈顿的两个奢华酒店作比较是有意义的,但将西雅图的小酒店与内华达州温尼马卡(Winnemucca)中的路边汽车旅馆作比较的意义较小。供应什么类型的产品或服务可以从制造商或服务提供者所提供的基本信息中确定。可以使用这一信息来创建产品或服务的分类,使得可以对这些分类中的产品或服务进行有意义的比较。即,如果一个人想要比较相似价格的电视机,则这个人可以使用制造商提供的推荐零售价信息来确定哪些电视机在相同价格分类中。
挖掘评论本身以将关于产品的自由形式的叙述陈述转换成度量集。例如,假定电视机的评级可归结为对三个属性的评级:图像质量、声音质量、以及构造质量一个人可以检查特定电视机的叙述评论以查看评论者对这三个属性说了什么,并且可以将数字评级分配给每一属性。由此,如果评论者说,“Minisonic 46-英寸1080p电视机具有惊人的图像”,一个人可能将这一陈述解释为说给图像质量评级为一至十比例中的九。如果评论稍后说该电视机“具有非常单调的声音”,则一个人可能将这一陈述解释为说给声音质量评级为一至十比例中的三。存在用于执行这种类型的文本分析的各种技术。在一个实施例中,分析器可以维护具有被分配的点值的描述性单词和短语列表,并且查找与其他单词邻近的指示电视机的什么特征正被描述的这些单词和短语。例如,如果单词“单调”出现在“声音”附近,则可能这个人正在说声音是单调的。如果单词列表指示了“单调”与差声音质量相关联,则该评论对于声音质量表达的意见可以被分配低数值——例如,一至十比例中的三——(指示不喜爱评论)。
一旦已经从评论中挖掘了信息,则计算关于评论的统计是可能的。例如,一个人可以计算所有46-英寸电视机的平均图像质量,或所有$1400-1500价格范围中的46-英寸电视机的平均声音质量。或者,一个人可以绘出图像质量与价格之间的关系。另外地,一旦已经对有意义的电视机类别计算了这种类型的信息,则将特定电视机与该类别中的所有计算机作比较是可能的。由此,如果$1400-1500价格范围中46-英寸电视机的平均图像评级是四,但Minisonic 46-英寸等离子屏幕电视机的平均评级是七,则作出诸如“与具有其尺寸和价格的其他电视机相比,Minisonic 46-英寸等离子屏幕电视机具有高图像质量”的陈述是可能的。这一陈述将来自评论的大量信息集合在一起。这量化了人们大致对特定尺寸和价格的电视机说了什么,同时将人们对$1400-1500价格范围中的一个特定46-英寸电视机说了什么与人们大致对该尺寸/大小的电视机的其他版本说了什么进行区分。这种类型的陈述可以被消费者看作比一个评论者的孤立观点更有权威性。另外地,可以用比对产品的专业专家评论更少的钱来产生这种类型的陈述,由此使得用于提供这种类型的陈述的在线信息聚集服务在经济上可行。
现在转向附图,图1示出了其中可创建对产品或服务的评论的示例组件集。如上所述,评论可以包括诸如“品牌-A电视机对于其价格而言具有非常好的图像”等陈述,并且由此这些陈述的基础是对电视机的评论集以及关于特定电视机的价格的基本数据。由此,图1示出了文本评论102、以及提供者数据104。可以存在若干评论以及若干条提供者数据,然而,出于示例的简单性,图1仅示出了单个评论以及单条提供者数据。文本信息包含作出关于电视机的特定品牌(例如,Minisonic 46英寸1080p高清电视机(HDTV))的各种陈述的叙述106。例如,叙述106陈述了“图像看上去很好”以及“声音是惊人的”。可以对这一叙述执行文本分析,以便尝试对其中包含的信息进行量化。诸如提取器108等组件可以查找叙述106中的某些项,并且可以尝试解释这些项。例如,提取器108可以检测单词“图像”(框110)出现在靠近单词“很好”(框112),并且可以确定这些单词在叙述106中彼此紧邻的出现指示了叙述106的撰写者作出关于图像质量的肯定陈述。类似地,提取器108可以检测单词“声音”(框114)出现在靠近单词“惊人的”(框116),并且可以因此检测叙述106的撰写者作出关于声音质量的肯定陈述。
提取器108可以维持与肯定或否定陈述相关联的单词列表。该列表还可以量化特定单词是如何地肯定或否定的幅度。例如,“很好”以及“惊人的”可以被认为是指示非常高级别的满意度的单词,而“好”可能指示肯定的意见,但不像单词“很好”以及“惊人的”那样强烈地肯定。单词“差”可能被解释为适度否定意见,并且单词“可怕”可能被解释为强烈地否定意见。可以根据——例如,给“可怕”分配一而给“很好”分配九,来将数值分配给这些陈述。
文本分析的深度可以取决于关于评论中的单词和短语意味什么的底层数据。例如,提取器108可能维持一数据库,该数据库包含像“很好”以及“差”之类的一般形容词性表征,但还可以包括非常具体的短语。例如,叙述106的撰写者已经指示了电视机“散架”(框120),并且提取器108可能具有指示短语“散架”当出现在电视机评论中时与非常差的构造质量相关联的数据。
提取器可以包括或以其他方式使用数字转换器122。数字转换器122通过将数字分配给在叙述106中已检测到的意见来量化该意见。在图1的示例中,数字转换器122将数字分配给三个不同意见。就统计概念而言,每一意见可以被看作采取被分配给特定意见的数值的变量。在示出的示例中,存在三个意见变量124、126、以及128,它们表示图像意见、声音意见、以及构造质量意见(被分别标记为P、S、以及C)。这些变量可以表示在任何种类的数字比例上的意见,在图1的示例中,使用了一至十的比例。由此,基于有关Minisonic电视机的图像和声音的意见,如叙述106中描述的,数字转换器122可能将值分配给变量,诸如P=9(突出的图像质量),S=8(非常好的声音质量),以及C=1(特别差的构造质量)。
可被分析的另一类型的信息是提供者数据104,可以分析它以便挖掘关于作为评论主题的产品和/或服务的基本事实。提供者数据104可以由产品或服务的提供者(例如,产品的制造商)来供应。在图1的示例中,提供者数据104包含特定Minisonic-品牌电视机的制造商推荐零售价(“MSRP”)(即,$1499),并且还包含该电视机的屏幕尺寸(即,46英寸)。提供者数据104可以包含各种其他类型的信息(例如,屏幕分辨率、输入数量、功耗等等)。然而,出于示出的目的,在图1中仅示出价格和屏幕尺寸。
提供者数据104可以由提取器130来分析。提取器130可以与提取器108类似地工作,但可以被配置成提取将包含在产品数据表中的那类信息,而不是将包含在叙述评论中的那类信息。在此示例中,提取器130确定两个变量132和124的值,这些值表示电视机的价格和对角屏幕尺寸,并且被分别标记为R和D。由此,提取器130可能将变量设置为值R=1499和D=46。在图1的示例中,提取器130提取的值是数值,并且由此数字转换器未示为与提取器130连接。然而,注意,提取器130可以提取非数值,并且可以使用数字转换器来将这些值转换成数字。例如,如果被评估的产品是汽车,则提供者数据104可以指示汽车的变速器是“自动”或“手动”。为了简化对这一数据的统计分析,一个人可以定义变速器变量T,它采取值一(对于自动)或二(对于手动)。
注意,图1中的示例示出了有关特定产品的评论和数据。然而,图1中示出的以及以上描述的相同技术可以与任何类型的产品或与服务一起使用。例如,旅行网站可以提供对航空公司以及汽车租赁服务的评论。在航空公司的情况下,提取器108可以检查叙述评论以找出人们关于该航空公司准点表现、飞行班组的亲和度、飞行中的餐食质量等的意见。在该示例中,提供者数据104可以包含关于机票价格、不同机舱等级中的座位尺寸、频飞者项目的条款等的信息,并且提取器130可以提取有关航空公司的这些特征的数据。一般而言,评论和提供者信息可以与任何类型的产品和/或服务相关。
图1中的场景的一个结果是将各值分配给变量集。统计分析设法找出不同变量之间的关系,并且鉴于这些关系来分析实际数据。图2示出了两个示例变量之间的关系的示例,以及可对那些变量执行的示例统计分析。
图202绘出价格变量(P)相对于声音意见变量(S)的值。图202的示例示出了七个数据点,它们可以是已经跨各种不同类型的计算机所收集的。通常,可以存在成百上千个数据点,但出于示出的简便性,仅示出了七个数据点。每一数据点(用实心圆示出)表示特定电视机的特定评论。例如,数据点204指示了用户评论了具有推荐零售价为$1000的电视机。这个人使用了某些单词来表达他或他关于该电视机的声音质量的意见,并且已经将一至十比例上的数值四(即,在平均声音质量以下)给予该意见。图202上的数据点204的位置表示在提取器和/或数字转换器已经从底层数据中挖掘了这一信息之后的一对值(声音意见、价格)。类似地,数据点206指示一个人评论了$1200的电视机,并且在该评论中所表达的关于声音质量的意见被分配一至十比例上的值一(即,非常差的声音质量)。由实心圈指示的其他数据点表示具有各种价格的各种电视机的声音质量意见。
给定诸如图202中示出的数据点等数据集,对这些数据执行各种类型的统计分析是可能的。图2中示出了一个这样的示例,其中回归线208被绘制成穿过数据。回归线表示S与P变量之间可能的线性关系,指示评论者关于电视机的声音质量的意见往往与电视机的价格成线性比例地增加。找出两个变量之间的线性关系仅仅是可以执行的一种类型的分析。作为另一示例,一个人可以创建将给定价格范围(例如,$1000-1100)内的所有电视机放在一个柱(bin)中的柱状图,并且指示该价格范围中所有电视机的平均声音意见。或者,一个人可以计算每一品牌的计算机的平均声音意见。实际上,回归线208表示每一价格等级的平均声音意见,如果数据示出了价格与声音意见之间的线性关系则可以绘制这样的线。然而,一般而言,可以对任何分类的产品或服务计算任何统计数据。当然,找出变量之间的关系的思想并不限于电视机评论。例如,在航空公司评论的情况下,一个人可以计算关于所有横渡太平洋航线上、在由特定航空公司操作的所有航线上、在机票价格在$1000-1500价格范围中的所有航线上等的飞行班组的亲和度的平均意见。
返回到图2的示例,如上所述,示出了电视机价格与评论者对于该电视机的声音质量所表达的意见之间的线性关系。在图202上,点210(用带圈的X标记)表示评论者已经表达了对于特定品牌和电视机模型:Minisonic 46-英寸1080p HDTV的平均声音意见。如图1中的示例,这个电视机具有推荐零售价$1499(图202上的数据的210的水平位置所指示的)。此外,数据的210指示评论者对于电视机的声音质量所表达的平均意见与一至十比例上的九对应(如由数据点210的垂直位置指示的)。由此,基于回归线208,$1499电视机的平均声音意见略小于七,但Minisonic的平均分数是九。$1499电视机的平均声音意见与Minisonic的平均评论之间的这一差别暗示了可作出的陈述:Minisonic电视机对于其价格而言具有尤其好的声音质量。(各种不同品牌的46-英寸1080p HDTV电视机在某种意义上是相同产品的不同版本,因此,它们可以与彼此进行有意义的比较。)
基于诸如图2中示出的一个分析等分析,可以作出关于产品或服务的陈述,并且可以将这些陈述提供给用户。由此,图3示出了包含关于产品或服务的陈述的示例用户界面300。
用户界面300可以是评论网站的网页。在此示例中,被评论的产品是Minisonic 46-英寸1080p HDTV电视机。在该示例中,示出了用户界面300、电视机的图形302。另外地,有关电视机的各种陈述304、306、以及308被示为用户界面300的一部分。例如,网站可以收集对电视机的评论并且提供用户界面300,以便概括这些评论。
有关Minisonic 46-英寸1080p HDTV电视机,陈述304陈述了“这个电视机对于其价格而言具有非常好的声音”。该陈述可以基于图2中示出的统计分析来作出,因为该分析示出了相对于相同价格的电视机的平均或期望的意见用户平均来说表达了非常肯定的意见。
陈述306陈述了“这个电视机对于其价格而言具有某种程度上差的构造质量”。如图1中描述的,至少一个评论者发现电视机非常快地散架,并且评论者的这一陈述通过信息提取器来确定,以指示该电视机具有低构造质量。如果若干用户表达了Minisonic电视机具有低构造质量,并且如果他们对Minisonic的平均评级比相同价格的电视机的平均评级低,则陈述306是对从评论中挖掘的信息的合理描述。
陈述308陈述了“这个电视机对于其屏幕尺寸而言具有平均的图像质量”。如上所述,可以定义任何类型的分类的产品或服务。在陈述304和306中,电视机的价格定义了特定电视机与其作比较的分类。即,在陈述304和306中,Minisonic电视机正与相同价格的其他电视机作比较。然而,在陈述308中,Minisonic电视机正与共享特定物理特征(例如,相同屏幕尺寸)的其他电视机作比较。例如,对于具有46-英寸屏幕尺寸的电视机,平均图像意见(在以上示例中的变量P)可以是六,并且Minisonic也可以具有平均图像评级六。在该情况下,陈述308正确地描述了相对于对46-英寸电视机的评论的对Minisonic的评论:对于Minisonic的图像质量的平均意见与对于46-英寸电视机的平均意见总体上相同。
图4示出了其中可分析评论以及其中可作出关于产品或服务的陈述的示例过程。在转向图4的描述之前,注意,参考图1-3中所示的组件作为示例地描述了包含在图4中的流程图,尽管图4的过程可以在任何系统中实现,并且不限于图1-3中示出的场景。另外地,图4中的流程图示出了其中按特定顺序来实现过程的各阶段的一示例,如连接各框的线所示,但图4中示出的各种阶段可以按任何顺序、或以任何组合或子组合来执行。
在图4的过程中,存在要评估的一个或多个评论,以及存在提供者数据的一个或多个产品和/或服务。可以对每一评论执行框402和404,并且可以对每一提供者数据片执行框406和408。
在402,可以对评论执行文本分析。例如,可以评估评论的叙述部分以确定对于产品的属性评论使用了哪些短语。分析寻找的特定类型的单词和短语可以取决于产品。例如,如果被评论的产品是电视机,则一个人可以查找诸如“图像”、“声音”、“屏幕”、“机柜”等单词,并且可以查找靠近这些单词的特定形容词或短语(例如,“极其清楚”、“朦胧”、“差”等等)。
在404,基于文本分析来将数字分数分配给一个或多个变量。例如,如果被评级的产品是电视机,并且一个变量表示评论者对于图像质量的意见,则可以分配数字分数以表示该意见。因此,如果用户说,“这个电视机具有非常好的图像”,则这一口头表达的意见可以通过向图像质量变量分配一至十比例上的值七(其中,“非常好”可以是七,而“突出的”可以是九或十)来表示。
可以对要分析的每一评论执行在402和404处执行的动作。
在406,对与要评估的每一产品或服务相关联的提供者数据执行文本分析。如以上结合图1描述的,产品或服务的提供者可以提供表示各种基本数据项(例如,在电视机的案例中的价格和屏幕尺寸)的数据表,并且这些基本项可以从提供者的数据中挖掘。这一挖掘可以发生在406。某些所挖掘的数据可以是数字(例如,电视机的价格),但另一些数据可以是非数字的并且可以在408处被转换成数字。例如,关于电视机的数据可以包括显示器技术(例如,阴极射线、液晶、或等离子),并且这些不同的技术可以被分配诸如1、2和3等数字以简化对该数据的统计分析。
在410,从评论中得出的一个(或多个)变量与从提供者数据得出的一个(或多个)变量之间的统计关系被标识。图2及其描述提供了可以在两个变量之间确定的统计关系的示例。基于所发现的该统计关系,可以生成关于特定产品的陈述(在412)。如在先前示例中,如果对于$1499电视机的声音质量的平均意见是一至十比例上的七,但Minisonic电视机的评级是九,则可以生成一陈述,说Minisonic电视机对于其价格而言具有非常好的声音。在414,可以将这一陈述传递给用户。例如,可以将该陈述并入用户界面(诸如图3中所示的),并且可以将用户界面传递给用户的计算机以供在该计算机上显示。
图5示出其中可部署此处所述的主题的各方面的示例环境。
计算机500包括一个或多个处理器502和一个或多个数据备忘录组件504。处理器502通常是微处理器,如那些在个人台式机或膝上型计算机、服务器、手持式计算机或另一种计算设备中所找到的。数据备忘录组件504是能够短期或长期存储数据的组件。数据备忘录组件504的示例包括硬盘、可移动盘(包括光盘和磁盘)、易失性和非易失性随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁带等。数据备忘录组件是计算机可读存储介质的示例。计算机500可包括显示器512或与其相关联,显示器512可以是阴极射线管(CRT)监视器、液晶显示(LCD)监视器、或任何其他类型的监视器。
软件可被存储在数据备忘录设备504中,且可在一个或多个处理器502上执行。这种软件的示例是评论分析软件506,它可以实现上文中结合图1-4所描述的部分或全部功能,但可以使用任何类型的软件。软件506可例如通过一个或多个组件来实现,这些组件可以是分布式系统、单独文件、单独功能、单独对象、单独代码行等中的组件。其中程序被存储在硬盘上,加载到RAM中,并在计算机(例如个人计算机、服务器计算机、手持式计算机等)的处理器上执行的计算机代表了图5所示的场景,但此处所述的主题不限于此示例。
此处所述的主题可被实现为存储在数据备忘录组件504中的一个或多个中并在处理器502中的一个或多个上执行的软件。作为另一示例,本主题可以被实现为存储在一个或多个计算机可读存储介质上的指令。存储介质的示例是诸如光盘或磁盘之类的有形介质。指令可以存在于非瞬态介质。这些指令当由计算机或其他机器执行时,可使得计算机或其他机器执行方法的一个或多个动作。执行动作的指令可被存储在一个介质上,或者可分散在多个介质上,从而使得指令可共同出现在一个或多个计算机可读存储介质上,而不管所有指令是否都在同一介质上。
另外,此处所描述的任何动作(无论在图中是否示出)可通过处理器(例如一个或多个处理器502)执行来作为方法的一部分。因此,如果此处描述的是动作A、B和C,则可以执行包括动作A、B和C的方法。此外,如果此处描述的是动作A、B和C,则可以执行包括使用处理器来执行动作A、B和C的方法。
在一个示例环境中,计算机500可通过网络508通信连接到一个或多个其他设备。可在结构上与计算机500类似的计算机510是可连接到计算机500的设备的示例,但也可以连接其他类型的设备。
尽管用专门描述结构特征和/或方法动作的语言描述了主题,但是应当理解,在后附权利要求书中限定的主题并不一定局限于上述特定的特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
Claims (15)
1.一种基于评论来提供陈述的方法,所述方法包括:
对产品(302)或服务的多个评论(102)执行(402)第一文本分析;
基于所述第一文本分析,将值分配(404)给一个或多个第一变量(124、126、128);
对由所述产品(302)或服务的提供者供应的数据(104)执行(406)第二文本分析;
基于所述第二文本分析,将值分配(408)给一个或多个第二变量(132、134);
标识(410)第三变量与第四变量之间的关系(202),其中所述第三变量是所述第一变量中的一个,以及所述第四变量是所述第二变量中的一个;以及
生成(412)有关所述产品(302)或服务的一版本的陈述(304),其中所述陈述(304)将所述产品(302)或服务的所述版本与所述产品(302)或服务的其他版本作比较。
2.如权利要求1所述的方法,其特征在于,所述评论是对产品的评论。
3.如权利要求1所述的方法,其特征在于,所述评论是对服务的评论。
4.如权利要求1所述的方法,其特征在于,所述评论是对产品的评论,以及所述陈述将所述产品的第一版本与具有与所述产品的所述第一版本相同价格的所述产品的其他版本作比较。
5.如权利要求1所述的方法,其特征在于,所述评论是对产品的评论,以及所述陈述将所述产品的第一版本与同所述产品的所述第一版本共享物理特征的所述产品的其他版本作比较。
6.如权利要求1所述的方法,其特征在于,对所述关系的所述标识包括:
找出所述第三变量与所述第四变量之间的线性关系。
7.如权利要求1所述的一个或多个非瞬态计算机可读介质,其特征在于,所述第一变量的每一个与所述产品或服务的属性相对应,以及将值分配给所述一个或多个第一变量包括基于对所述评论的所述第一文本分析来将数字值分配给所述第一变量的每一个。
8.一种具有用于执行权利要求1-7中任意一项的方法的计算机可执行指令的计算机可读介质。
9.一种用于创建有关产品的陈述的系统,所述系统包括:
处理器(502);
存储器(504);以及
分析组件(506),所述分析组件存储在所述存储器(504)中并且在所述处理器(502)上执行,所述分析组件(506)对产品(302)的多个评论(102)执行第一文本分析(402)并且对由所述产品(302)的提供者供应的数据(104)执行第二文本分析(406),基于所述第一文本分析(402)来将值分配(404)给一个或多个第一变量(124、126、128),基于所述第二文本分析(406)来将值分配(408)给一个或多个第二变量(132、134),标识(410)作为所述第一变量(124、126、128)中的一个的第三变量与作为所述第二变量(132、134)中的一个的第四变量之间的关系(202),并且生成(412)有关所述产品(302)的一版本的陈述(304),其中所述陈述(304)是基于所述产品(302)的所述版本的所述第三变量的值与从有关所述产品(302)的一组版本的信息中得出的所述第三变量的值的比较,其中所述产品(302)的该组版本包括所述产品(302)的所述版本以及所述产品(302)的其他版本。
10.如权利要求9所述的系统,其特征在于,所述陈述将所述产品的第一版本与具有与所述产品的所述第一版本相同价格的所述产品的其他版本作比较。
11.如权利要求9所述的系统,其特征在于,所述陈述将所述产品的第一版本与同所述产品的所述第一版本共享物理特征的所述产品的其他版本作比较。
12.如权利要求9所述的系统,其特征在于,所述陈述包括将所述产品的所述版本与所述产品的其他版本作比较。
13.如权利要求9所述的系统,其特征在于,所述分析组件通过找出所述第三变量与所述第四变量之间的线性关系来标识所述关系。
14.如权利要求9所述的系统,其特征在于,所述第一变量的每一个与所述产品或服务的属性相对应,以及所述分析组件通过基于对所述评论的所述第一文本分析将数字值分配给所述第一变量的每一个来将值分配给所述一个或多个第一变量。
15.如权利要求9所述的系统,其特征在于,所述分析组件将所述陈述传递给用户。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/756,994 | 2010-04-08 | ||
US12/756,994 US20110251973A1 (en) | 2010-04-08 | 2010-04-08 | Deriving statement from product or service reviews |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102214201A true CN102214201A (zh) | 2011-10-12 |
Family
ID=44745510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100943933A Pending CN102214201A (zh) | 2010-04-08 | 2011-04-07 | 从产品或服务评论中得出陈述 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110251973A1 (zh) |
CN (1) | CN102214201A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN106126499A (zh) * | 2016-06-22 | 2016-11-16 | 青岛海信传媒网络技术有限公司 | 用户满意度和忠诚度分析方法及装置 |
CN107577827A (zh) * | 2017-10-30 | 2018-01-12 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5910316B2 (ja) * | 2012-05-28 | 2016-04-27 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
US20140095463A1 (en) * | 2012-06-06 | 2014-04-03 | Derek Edwin Pappas | Product Search Engine |
JP5727970B2 (ja) * | 2012-06-18 | 2015-06-03 | 日本電信電話株式会社 | 感覚推定装置、感覚推定方法及び感覚推定プログラム |
US9105036B2 (en) | 2012-09-11 | 2015-08-11 | International Business Machines Corporation | Visualization of user sentiment for product features |
US9483730B2 (en) | 2012-12-07 | 2016-11-01 | At&T Intellectual Property I, L.P. | Hybrid review synthesis |
US20140188838A1 (en) * | 2012-12-28 | 2014-07-03 | Eduard Mikhailovich Strugov | Information search engine, processing and rating system |
US9311363B1 (en) * | 2013-05-15 | 2016-04-12 | Google Inc. | Personalized entity rankings |
US10380656B2 (en) | 2015-02-27 | 2019-08-13 | Ebay Inc. | Dynamic predefined product reviews |
US20190318407A1 (en) * | 2015-07-17 | 2019-10-17 | Devanathan GIRIDHARI | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof |
CN107807914A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 情感倾向的识别方法、对象分类方法及数据处理系统 |
CN107369066B (zh) * | 2017-06-28 | 2021-05-28 | 东软集团股份有限公司 | 一种评论对象之间的特征比较方法及装置 |
US11321724B1 (en) * | 2020-10-15 | 2022-05-03 | Pattern Inc. | Product evaluation system and method of use |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040162752A1 (en) * | 2003-02-14 | 2004-08-19 | Dean Kenneth E. | Retail quality function deployment |
CN101515269A (zh) * | 2008-02-20 | 2009-08-26 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101546338A (zh) * | 2008-03-26 | 2009-09-30 | 财团法人工业技术研究院 | 技术文献撷取及专利分析系统与方法 |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8788390B2 (en) * | 2007-02-01 | 2014-07-22 | Insight Guru Inc. | Estimating values of assets |
JP5206296B2 (ja) * | 2008-10-03 | 2013-06-12 | 富士通株式会社 | 類似文章抽出プログラム、方法、装置 |
US7974983B2 (en) * | 2008-11-13 | 2011-07-05 | Buzzient, Inc. | Website network and advertisement analysis using analytic measurement of online social media content |
US9235646B2 (en) * | 2009-05-28 | 2016-01-12 | Tip Top Technologies, Inc. | Method and system for a search engine for user generated content (UGC) |
-
2010
- 2010-04-08 US US12/756,994 patent/US20110251973A1/en not_active Abandoned
-
2011
- 2011-04-07 CN CN2011100943933A patent/CN102214201A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040162752A1 (en) * | 2003-02-14 | 2004-08-19 | Dean Kenneth E. | Retail quality function deployment |
CN101515269A (zh) * | 2008-02-20 | 2009-08-26 | 中国科学院自动化研究所 | 实现观点搜索引擎排序的方法 |
CN101546338A (zh) * | 2008-03-26 | 2009-09-30 | 财团法人工业技术研究院 | 技术文献撷取及专利分析系统与方法 |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN102637165B (zh) * | 2012-02-17 | 2014-08-20 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN103679462B (zh) * | 2012-08-31 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN104679769A (zh) * | 2013-11-29 | 2015-06-03 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN104679769B (zh) * | 2013-11-29 | 2018-04-06 | 国际商业机器公司 | 对产品的使用场景进行分类的方法及装置 |
CN106126499A (zh) * | 2016-06-22 | 2016-11-16 | 青岛海信传媒网络技术有限公司 | 用户满意度和忠诚度分析方法及装置 |
CN107577827A (zh) * | 2017-10-30 | 2018-01-12 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
CN107577827B (zh) * | 2017-10-30 | 2019-10-22 | 北京国舜科技股份有限公司 | 一种互联网信息评级的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20110251973A1 (en) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102214201A (zh) | 从产品或服务评论中得出陈述 | |
US20210042684A1 (en) | Automated Recommendations for Task Automation | |
Mangena et al. | Disentangling the effects of corporate disclosure on the cost of equity capital: A study of the role of intellectual capital disclosure | |
US8818788B1 (en) | System, method and computer program product for identifying words within collection of text applicable to specific sentiment | |
US8600796B1 (en) | System, method and computer program product for identifying products associated with polarized sentiments | |
US7813965B1 (en) | Method, system, and computer readable medium for ranking and displaying a pool of links identified and aggregated from multiple customer reviews pertaining to an item in an electronic catalog | |
AU2013202484A1 (en) | Determining local tax structures in an accounting application through user contribution | |
US9336212B2 (en) | Systems and methods for collection and automatic analysis of opinions on various types of media | |
Gan et al. | Restaurant Rating: Industrial Standard and Word-of-Mouth--A Text Mining and Multi-dimensional Sentiment Analysis | |
US20190244282A1 (en) | Computerized exchange network | |
KR101441164B1 (ko) | 오브젝트 커스터마이제이션 및 관리 시스템 | |
Korfiatis et al. | The impact of readability on the usefulness of online product reviews: a case study on an online bookstore | |
Lopes et al. | Website content and design in SME: insights from Portugal | |
Fernando et al. | Leveraging business competitiveness by adopting cloud computing in Indonesian creative industries | |
Cuizon et al. | Text mining customer reviews for aspect-based restaurant rating | |
Zhong et al. | [Retracted] Impact of Factors of Online Deceptive Reviews on Customer Purchase Decision Based on Machine Learning | |
Baizal et al. | Ontology-based recommendation involving consumer product reviews | |
Deviani et al. | Service Quality For Digital Wallet In Indonesia Using Sentiment Analysis And Topic Modelling | |
Anggrainy et al. | Implementation of extract, transform, load on data warehouse and business intelligence using pentaho and tableau to analyse sales performance of offlist store | |
CN116630071A (zh) | 跨境电商多平台利润自动核算方法、装置、设备及介质 | |
Augustin et al. | Exploring the relationship between perceived big data advantages and online consumers’ behavior: An extended hierarchy of effects model | |
US20210287301A1 (en) | Accelerated intelligent enterprise including timely vendor spend analytics | |
CN112801384A (zh) | 一种商品质量评估与预测方法、系统、介质、设备 | |
CN112419008A (zh) | 一种自动分级预警方法、装置、电子设备和存储介质 | |
Shin et al. | Developing the Customer Quality Satisfaction Index Using Online Reviews: Case Study of TV |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150728 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150728 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111012 |
|
WD01 | Invention patent application deemed withdrawn after publication |