CN102760264A - 为互联网上的评论生成摘录的计算机实现的方法和系统 - Google Patents

为互联网上的评论生成摘录的计算机实现的方法和系统 Download PDF

Info

Publication number
CN102760264A
CN102760264A CN2011101104095A CN201110110409A CN102760264A CN 102760264 A CN102760264 A CN 102760264A CN 2011101104095 A CN2011101104095 A CN 2011101104095A CN 201110110409 A CN201110110409 A CN 201110110409A CN 102760264 A CN102760264 A CN 102760264A
Authority
CN
China
Prior art keywords
feedback
statement
comment
evaluation
utmost point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101104095A
Other languages
English (en)
Inventor
蔡柯柯
郭宏蕾
祝慧佳
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2011101104095A priority Critical patent/CN102760264A/zh
Priority to US13/456,962 priority patent/US8630843B2/en
Priority to US13/599,309 priority patent/US8630845B2/en
Publication of CN102760264A publication Critical patent/CN102760264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的各实施方式涉及数据分析技术,尤其涉及为互联网上的评论生成摘录的计算机实现的方法和系统,该方法包含:接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征;计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度;根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录。

Description

为互联网上的评论生成摘录的计算机实现的方法和系统
技术领域
本发明涉及数据分析技术,尤其涉及为互联网上的评论生成摘录的方法和系统。
背景技术
计算机网络技术的发展,尤其是因特网上的电子商务的普及,为人们的生活提供了诸多便利。在因特网上,人们可以对商品提供商提供的产品和服务作出评论,这些评论为提供商改善服务,为消费者选择商品,提供了宝贵的信息。
因特网上对产品和服务的评论,涉及产品或服务的各个方面,而且,即使针对同一个方面,不同的评论也常常含有不同的甚至截然相反的意见。因此,就单个评论而言,即使该评论是严肃的、全面的,该评论中对所有方面的评点,也未必全部具有代表性。
因特网上对产品和服务的评论数量众多,人们希望能从大量的评论中,看到对产品和服务的各个方面的具有一定可信度的评点内容。
发明内容
发明人发现,根据其它用户对一个产品评论的反馈意见来生成产品评论的摘录,使生成的摘录能反映其它用户的总体意见,有助于提高所生成的摘录的可信度。为此,本发明的各实施方式提供了一种用于为互联网上的评论生成摘录的计算机实现的方法、装置和计算机程序产品。
一方面,提供一种用于为互联网上的评论生成摘录的计算机实现的方法,包含:接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征;计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度;根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录。
另一方面,提供一种用于为互联网上的评论生成摘录的系统,包含:接收装置,被配置为接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征;支持度计算装置,被配置为计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度;摘录生成装置,被配置为根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录。
附图说明
结合附图并参考以下详细说明,本发明各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中:
图1示意性示出了按照本发明一个实施例的系统的体系结构的框图;
图2示意性示出了按照本发明一个实施例的方法的流程图;
图3示意性示出了按照本发明方法的另一个实施例的流程图;
图4示意性示出了按照本发明方法的另一个实施例的流程图。
具体实施方式
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
下面参考附图详细描述本发明的各实施方式。
本说明书中总体涉及基于对评论的反馈,为评论生成关于产品的特征的摘录。这里的产品,泛指一切可以由消费者购买的有形产品和无形产品,例如汽车、手机、旅游服务、订票服务等等。产品的特征,指的是在评论中出现的与产品有关的概念,例如,对于手机这种特定产品而言,其特征有屏幕大小、电池容量等等,对于旅游服务这种特定产品而言,其特征有行程时间、安全性、舒适性等等。
首先参看图1,该图示意性示出了按照本发明一个实施例的系统的体系结构的框图。
如图1所示的实施例的用于为互联网上的评论生成摘录的系统100包含接收装置102、支持度计算装置104和摘录生成装置106。
接收装置102被配置为接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征。
对产品的评论和对评论的反馈,广泛存在于因特网上,例如频繁出现在当前流行的博客和微博中。常规的产品评论,通常篇幅较长,内容比较全面。每个产品评论,往往能得到其它用户的大量反馈,这种反馈针对产品评论中的观点,提出意见,通常直截了当,短小精悍。
接收装置102所接收的评论,例如可以由一个搜索引擎(图中未予示出)响应一个用户搜索关于某产品的评论而提供。一般来说,搜索引擎可以搜索出多个关于相同产品的评论120_1...120_m。接收装置102所接收的评论是其中的一个评论120。
为了便于说明,作为示例,本文用下面的表1,给出一个表示因特网上一个对某手机的评论120。
表1-评论120
Figure BDA0000058489230000041
因特网上的评论,一般都有其它用户对其作出的反馈125_1...125_n,这些反馈也可以由搜索引擎提供。下面表2,示例性地表示对表1所示的评论120的一组反馈,该组反馈有28个反馈(125_1...125_28)。为了叙述方便,以下将这些反馈统称为反馈125。
表2-反馈125
Figure BDA0000058489230000042
Figure BDA0000058489230000051
返回图1,支持度计算装置104被配置为计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度。
按照本发明的实施例,支持度计算装置104在操作过程中,可以利用预定义的特征词词库112和/或情感词典114。这将在下文的说明作更详细的介绍。
摘录生成装置106,被配置为根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录129。
以上概括性地介绍了按照本发明实施例的系统100的体系结构和运行环境。系统100及其包含的装置的功能的更详细的内容,将在后文的说明中得到进一步的阐述。
下面结合图2,说明按照本发明一个实施例的为互联网上的评论生成摘录的计算机实现的方法。
如图2所示,首先在步骤202,接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征。
可以将上文的表1所示的内容,当作步骤202接收的评论的一个例子。表1所示的评论120中,包含多个评价语句,例如,评价语句“样子很好看”、“屏幕显示效果不错”和“电池才1000毫安,太小了”分别用来点评该手机的特征“外观”、“屏幕”和“电池”。
步骤202接收的一组反馈的例子,如上文的表2所示,该组反馈125中每个反馈,对评论120涉及的产品特征作了进一步的评论。
在步骤204,计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度。
例如,表1所示的评论120中有评价语句“样子很不错”。表2所示的一组反馈125中,反馈125_1“这款机子的质感很好啊,握起来手感不错”、反馈125_2“我觉得这款机子的外观有明显的改进了,手感很好”、125_3“外观挺精美小巧的,手感不错”、以及反馈125_4“很喜欢它的外形”,明显支持评论120中的评价语句“样子很不错”。就是说,在总共28个反馈中,有4个反馈是支持评价语句“样子很不错”的。
同样,可以计算所述一组反馈对其它评价语句的支持度。
可以有很多方式来衡量支持度。一种简单的方式,是用支持某个评价语句的反馈的个数,来表示支持度。需要指出的是,在具体实践中,还可以用其它标准来衡量对评价语句的支持度。这将在后文中进一步讨论。
在步骤206,根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录129。
例如,根据步骤204的计算,得出表1所示的评论120中的下列评价语句具有较高的支持度:“电池才1000毫安,太小了”、“样子很好看”、“屏幕显示效果不错”、“性价比还行”。于是,可以抽取上述评价语句,作为该评论的摘录,即:
  电池才1000毫安,太小了,样子很好看,屏幕显示效果不错,性价比还行。
显然,图2所示的方法流程中的步骤202、204和206,可以由如图1所示的系统100中接收装置102、支持度计算装置104和摘录生成装置106实现。并且,所生成的摘录129,还可以由搜索引擎使用,搜索引擎可以在响应用户对特定产品的产品评论而显示搜索出的产品评论120时一并显示摘录129。
下面结合附图3和4,进一步说明图2所示的方法的各种实施方式,由此也有助于理解图1所示的各装置的各种可能的实现的细节。
按照本发明的一个实施例,图2所示的计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度的步骤204,可以通过图3所示的步骤342-348实现。
如图3所示,在步骤342,识别所述每个评价语句涉及的产品特征。
以表1所示的评论120为例,步骤342的结果如下面的表3的第2栏和第3栏所示。例如,评价语句1“样子很好看”涉及的产品特征是“外形”,评价语句2“桌面快捷方式和隐藏快捷方式很棒”涉及的产品特征是“快捷方式”。
评论120是对手机这种特定产品的评论。表3的第3栏所列的特征词表明,可以识别出该评论的评价语句涉及的产品特征包括:外形,快捷方式,灵敏度,分辨率,声音,音质,耳机,屏幕,画面,上网,性能,程序,照相,电池,重力感应,性价比,应用软件。
表3-评论120:评价语句涉及的产品特征和相应的褒贬极向
Figure BDA0000058489230000071
下面介绍如何识别评论中的评价语句涉及的产品特征。
现有技术中,存在各种识别产品评论中的评价语句涉及的产品特征的方法。
一种常用的方法是,在识别产品评论中的产品特征词之前,首先进行预处理,从产品评论所涉及的产品的说明书中,提取特征词,从而生成一个特征词库。例如,在手机的产品说明书中,可以找到诸如“屏幕”、“电池待机时间”、“软件”等特征词,可以将这些特征词存储在特征词库112中。
特征词库中的特征词,不但可以从产品说明书中提取特征词,还根据网络已经存在的产品评论中进行扩充。
例如,可以根据评论中的半结构化语句,抽取评论中包含的特征词。例如,如果评论中有下列半结构化语句:
优点:
屏幕清晰。
缺点:
待机时间短;
音质较差。
则可以从中抽取特征词“屏幕”、“待机时间”、“音质”。
此外,还可以利用语法关系提取特征词。
例如,如果已知连词“和”“与”和顿号“、”一边是一个特征词,则可以考虑将该连词或顿号另一边的名词识别为特征词。例如,对于语句“音质和画面都属上乘”来说,“音质”一词与“画面”一词由连词“和”连接,如果已经知道“音质”是个特征词,则可以推断“画面”和可能也是个特征词。
再例如,如短语“没有闪光灯”中的“没有”和“闪光灯”属于主谓关系,据此可以从中抽取特征词“闪光灯”,而短语“性价比高”中的“性价比”和形容词“高”属于修饰关系,据此可以从中提取特征词“性价比”。
运用上述各种方式,可以生成所需的特征词库。例如,关于手机的特征词库中的特征词,可以包括屏幕、外观、像素、电池、性价比、拍照、重量、等等。
需要指出的是,在特征词库中,可以用特征类别词来代表某一类产品特征。特征类别词也是一种特征词。例如:“外形”、“样子”、“外观”、“形状”、“外壳”、“色彩”、“外观”这些产品特征,都是表征产品的外形的,可以将它们归于同一个集合,并用“外形”来代表。可以利用K-Means聚类算法,对从各种数据源(例如产品说明书,评论等)获得的产品特征进行聚类,将表示同类特征的特征词归于同一集合,并用一个能代表这个集合的特征类别词来代表这个集合。
因此,按照本发明一个实施例,所述识别所述每个评价语句涉及的产品特征,可以包含利用预定义的特征词库来识别所述每个评价语句涉及的产品特征。
在步骤344,识别所述一组反馈中的每个反馈涉及的产品特征。
按照本发明一个实施例,所述识别所述一组反馈中的每个反馈涉及的产品特征,可以包含利用预定义的特征词库来识别所述每个反馈涉及的产品特征。
以表2所示的一组反馈125为例,步骤344对反馈125中的每个反馈涉及的产品特征的识别结果,如下面的表4的第3栏所列的特征词所示。
例如,反馈1251“这款机子的质感很好啊,握起来手感不错”涉及的是手机的“外形”特征,反馈1255“我的拍照很清楚,和相机差不多”涉及是手机的“照相”特征。
表4-反馈125:产品特征、褒贬极向和支持性
Figure BDA0000058489230000101
Figure BDA0000058489230000111
表4的第3栏的内容,也可以用下面的一个数据对的列表来表示:(125_2,外形),(125_3,外形),(125_4:外形),(125_5,照相),(125_6,照相),(125_7,照相),(125_8,照相),(125_9,电池),(125_10,电池),(125_11,电池),(125_12,电池),(125_13,电池),(125_14,声音),(125_15,音质),(125_16,性价比),(125_17,性价比),(125_18,性价比),(125_19,屏幕),(125_20,屏幕),(125_21,屏幕),(125_22,性能),(125_23,性能),(125_24,性能),(125_25,性能),(125_26,性能),(125_27,软件),(125_28,软件)。
在步骤346,根据各自涉及的产品特征,在所述评论中的评论语句与反馈之间建立关联关系。
例如,反馈125_28涉及产品特征“软件”,评价语句15“还有应用软件还太少”也涉及产品特征“软件”,因此,将评价语句15“还有应用软件还太少”与反馈125_28“好多软件都不支持”关联起来。显然,一个评价语句可以与多个反馈关联。
在步骤348,确定评价语句是否得到相关联的反馈的支持。
例如,评价语句1有4个相关联的反馈,即反馈125_1、125_2、125_3和125_4。并且这4个反馈都支持评价语句1。
按照本发明的一个实施例,步骤348可以进一步通过图4所示的过程来实现。下面说明步骤348的具体实施方式。
如图4所示的过程,包含步骤482-486。
在步骤482,确定每个评价语句对所涉及的产品特征的褒贬极向。
对所涉及的产品特征的褒贬极向,指的是对所涉及的产品特征的意见是褒还是贬的取向。如果意见是褒扬的,则称褒贬取向是“正向”的,如果意见是贬抑的,则称褒贬取向是“负向”的。
以下以评论120为例,说明用计算机实现步骤482的各种方式。
按照本发明一个实施例,可以利用情感分析技术来确定每个评价语句对所涉及的产品特征的褒贬极向。
首先,对评论中的评价语句进行语义分析,按照就近关联的原则,在一定窗口长度范围内,将个评价语句中的特征词和评价词关联起来,构造相应的评论对。例如,从“样子很好看”中的特征词“样子”和评价词“很好看”,可以构造评论对(外形,好看);从“桌面快捷方式和隐藏快捷方式很棒”中的特征词“桌面快捷方式”和“隐藏快捷方式”以及评价词“很棒”,可以构造评论对(快捷方式,很棒)。
需要指出的是,“样子很好看”中“好看”这一评价词对应的特征词“样子”,并非标准的特征词,但是,在已经知道评论120是关于手机的评论的情况下,“好看”一词在描述手机时通常针对手机的“外形”。由于在手机的特征词库包含了“外形”这个特征词,因此,可以用“外形”代替“样子”,作为评论对中的特征词。
就评论120来说,可以构造以下的评论对列表:(外形,好看),(快捷方式,很棒),(灵敏度,很好)、(分辨率,还可以)、(声音,大),(音质,好),(耳机,非常好),(屏幕,不错),(画面,亮丽),(性价比,还行),(上网,方便),(上网,快),(系统,不稳定),(程序,死机),(照相,不给力),(电池,太小了),(重力感应,无),(应用软件,太少)。
然后,利用情感分析(sentiment analysis)技术,获得评论对中的评价词的褒贬极向。
按照本发明一个实施例,所述情感分析技术利用预定义的情感词典114确定每个评价语句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个评价语句对所涉及的产品特征的褒贬极向。情感词典中的每个词,都与一定的情感极向性相关联,将评论中的评价词语与词典中的词进行匹配,就能获得评价词语的情感极向性,进而可以标注评论中涉及的特征或特征类别的褒贬极向。关于情感分析技术,可进一步参看下列文献:“Fully automatic lexicon expansion fordomain-oriented sentimentanalysis”(http://portal.acm.org/citation.cfm?id=1610125);“HowNetSentiment Dictionary”(http://www.keenage.com/)。
例如,评论对(外形,好看)中的评价词“好看”的褒贬极向为正向,因此,产品特征“外形”的褒贬极向为正向,记为(外形,正向)。再例如,评论对(照相,不给力)中的评价词“不给力”的褒贬极向为负向,因此,产品特征“照相”的褒贬极向为负向,记为(照相,负向)。
以评论120为例,步骤482的执行结果如表3第4栏所示。
表3的第4栏表明,评论120对下述产品特征具有“正向”的评价:外形、快捷方式、灵敏度、屏幕、声音、音质、耳机、性价比、上网。
此外,评论120对下述产品特征具有“负向”的评价:性能、照相、电池、重力感应、应用软件。例如,评论120对所涉及的产品特征“照相”的褒贬极向是“负向”。
在步骤484,确定每个反馈对所涉及的产品特征的褒贬极向。
按照本发明一个实施例,可以利用情感分析技术来确定每个反馈对所涉及的产品特征的褒贬极向。
按照本发明一个实施例,所述情感分析技术利用预定义的情感词典确定每个反馈句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个反馈对所涉及的产品特征的褒贬极向。
确定每个反馈对所涉及的产品特征的褒贬极向的方法,与步骤482确定每个评价语句对所涉及的产品特征的褒贬极向的方法类似,在此不予赘述。
以反馈125为例,步骤482的执行结果如表4第4栏所示。
在步骤486,根据评价语句的褒贬极向与反馈的褒贬极向是否一致,确定评价语句是否得到相关联的反馈的支持。
步骤486的结果如表4第5栏所示。
对表4第5栏的数据进行简单地计数可以得知,关于产品特征“外形”,有4个反馈支持评论120对“外形”的评价,有4个反馈不支持评论120对“照相”的评价,有5个反馈支持评论120对“电池”的评价,有1个反馈不支持评论120对“声音”的评价,有1个反馈支持评论120对“音质”的评价,有3个反馈支持评论120对“性价比”的评价,有3个反馈支持评论120对“屏幕”的评价,有2个反馈支持评论120对“性能”的评价,有3个反馈不支持评论120对“性能”的评价,有2个反馈支持评论120对“软件”的评价。
表4的第4栏可以进一步用下面的表5表示。
表5
Figure BDA0000058489230000141
Figure BDA0000058489230000151
表5的第1栏的“评论中的特征f”,表示评论120中涉及的产品特征的特征词,第2栏的“有关反馈总数T”,表示第1栏所示的产品特征在反馈125中被提及的次数,例如,评论120中涉及的产品特征“性能”,在反馈125中被提及5次,记为T(f)=T(性能)=5。第3栏的“支持的反馈数S”,表示支持评论120中对相应产品特征的评价的反馈的个数,例如,反馈125中有2个反馈支持评论120中对“性能”的评价,记为S(f)=S(性能)=2。第4栏的“不支持的反馈数NS”,即不支持评论120中对相应产品特征的评价的反馈的个数,例如,反馈125中有3个反馈不支持评论120中对“性能”的评价,记为NS(f)=NS(性能)=3。
需要指出的,表5中省略了反馈125中没有提及的产品特征。
在实施本发明各种实施方案时,可以灵活运用根据表5所示的数据。
现在返回到图2所示的步骤204,该步骤计算一组反馈对评论语句中的每个评价语句的支持度。
可以用表5所示的数据灵活定义上述的支持度。
方案一,将表5第3栏所示的支持的反馈数S(f)的大小,定义为所述支持度。
以表5所示的数据为例,评论中的特征f按照支持的反馈数S(f)的大小顺序的排列是:
电池,外形,屏幕,性价比,性能,应用软件,音质,声音,照相。
方案二,将第3栏所示的支持的反馈数S与第4栏所示的不支持的反馈数NS之差,即S(f)-NS(f),定义支持度。
以表5所示的数据为例,评论中的特征f按照支持的反馈数S与不支持的反馈数NS之差S(f)-NS(f)的大小顺序的排列是:
电池,外形,屏幕,性价比,应用软件,音质,性能,声音,照相。
与方案一相比,“性能”排列的位置被推后。
方案三,将S(f)*T(f)定义为支持度,该方案考虑了反馈中对评论中涉及的产品特征的关注程度。T(f)越大,对产品特征f的关注程度越高,从这个意义上说,评论中关于相应的产品特征的评价也更有代表性。
评论中的特征f按照S(f)*T(f)大小顺序的排列是:
电池,外形,屏幕,性能,性价比,应用软件,音质,声音,照相。
与方案一和方案二相比,产品特征“性能”的排序提前了。这是因为在方案三中,对支持度的定义S(f)*T(f),考虑了与产品特征有关的反馈的个数T(f)。例如,在反馈125中,有5个反馈涉及产品特征“性能”,表明其它在反馈125中对产品特征“性能”的关注度相对较高。
方案四,将(S(f)-NS(f))*T(f)定义为支持度。相应地,评论中的特征f按照(S(f)-NS(f))*T(f)大小顺序的排列是:
电池,外形,屏幕,性价比,应用软件,音质,声音,照相,性能。
按照不同的方案,图2所示的步骤206为评论120生成的摘录可能略微不同。例如,如果按照方案一或方案二或方案四,生成的摘录为:
“电池才1000毫安,太小了,样子很好看,屏幕显示效果不错,性价比还行。”
而按照方案三,生成的摘录为:
“电池才1000毫安,太小了,样子很好看,屏幕显示效果不错,系统不稳定,有时程序会自动终止,偶尔死机。”
而按照现有技术抽取摘录的方法,为表1所示的评论生成的摘录可能是:“最近换了一只X公司新上市的Y型手机,用了半个月了,总算摸清了它的脾气,说出来给大家听听。”
相比之下,按照本发明实施例的方法为评论120所生成的摘录,显然能更简要、客观地反映(其它用户)对评论120中对各种产品特征的点评的意见。
以上结合附图,说明了本发明为互联网上的评论生成摘录的计算机实现的方法的各种实施方式。按照相同的发明构思,可以对图1所示的为互联网上的评论生成摘录的系统100,扩展各种实施方式。
按照本发明一个实施例,支持度计算装置104可以包含:特征识别器,被配置为识别所述每个评价语句涉及的产品特征和所述一组反馈中的每个反馈涉及的产品特征;关联装置,被配置为根据各自涉及的产品特征,在所述评论中的评论语句与反馈之间建立关联关系;支持性确定装置,被配置为确定评价语句是否得到相关联的反馈的支持。
按照本发明一个实施例,所述支持性确定装置可以包含:极向分类器,被配置为确定每个评价语句对所涉及的产品特征的褒贬极向和每个反馈对所涉及的产品特征的褒贬极向,其中,所述支持性确定装置根据评价语句的褒贬极向与反馈的褒贬极向是否一致,确定评价语句是否得到相关联的反馈的支持。
按照本发明一个实施例,所述特征识别器可以利用预定义的特征词库来识别所述每个评价语句涉及的产品特征。
按照本发明一个实施例,所述特征识别器可以利用预定义的特征词库来识别所述一组反馈中的每个反馈涉及的产品特征。
按照本发明一个实施例,所述极向分类器可以利用情感分析技术来确定每个评价语句对所涉及的产品特征的褒贬极向。
按照本发明一个实施例,所述极向分类器可以利用情感分析技术来确定每个评价语句对所涉及的产品特征的褒贬极向。
按照本发明一个实施例,所述情感分析技术利用预定义的情感词典确定每个评价语句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个评价语句对所涉及的产品特征的褒贬极向。
类似地,所述极向分类器可以利用情感分析技术来确定每个反馈对所涉及的产品特征的褒贬极向。并且,所述情感分析技术利用预定义的情感词典确定每个反馈句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个反馈对所涉及的产品特征的褒贬极向。
以上描述了按照本发明实施例的用于为互联网上的评论生成摘录的系统,由于上文已经详细地描述了按照本发明各种实施例的为互联网上的评论生成摘录的计算机实现的方法,在上述对系统的描述中,省略了明显与对方法的描述重复、或者很容易从对方法的描述中引申得出的内容。
应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,对步骤的编号,是为了使说明更加简明,而不是对各步骤之间的顺序关系的严格限定,各步骤与步骤之间的顺序可以与所描述的不同。例如,图3所示实施例中的步骤342和344的执行,可以不分先后,并且可以合并在一个步骤中执行;再例如,图4所示的步骤482可以与图3所示的步骤342合并在一个步骤中执行,图4所示的步骤484可以与图3所示的步骤344合并在一个步骤中执行。
因此,在本发明的一些实施例中,可以没有上述一个或多个可选步骤。每个步骤的具体执行方式可以与所描述的不同。所有这些变化都处于本发明的精神和范围之内。
本发明可以采取硬件实施方式、软件实施方式或既包含硬件组件又包含软件组件的实施方式的形式。在优选实施方式中,本发明实现为软件,其包括但不限于固件、驻留软件、微代码等。
而且,本发明还可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,这些介质提供程序代码以供计算机或任何指令执行系统使用或与其结合使用。出于描述目的,计算机可用或计算机可读机制可以是任何有形的装置,其可以包含、存储、通信、传播或传输程序以由指令执行系统、装置或设备使用或与其结合使用。
介质可以是电的、磁的、光的、电磁的、红外线的、或半导体的系统(或装置或器件)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。目前光盘的例子包括紧凑盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。
适合于存储/或执行程序代码的数据处理系统将包括至少一个处理器,其直接地或通过系统总线间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间所利用的本地存储器、大容量存储器、以及提供至少一部分程序代码的临时存储以便减少执行期间从大容量存储器必须取回代码的次数的高速缓存存储器。
输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等等)可以直接地或通过中间I/O控制器耦合到系统。
网络适配器也可以耦合到系统,以使得数据处理系统能够通过中间的私有或公共网络而耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、线缆调制解调器以及以太网卡仅仅是当前可用的网络适配器类型的几个例子。
从上述描述应当理解,在不脱离本发明真实精神的情况下,可以对本发明各实施方式进行修改和变更。本说明书中的描述仅仅是用于说明性的,而不应被认为是限制性的。本发明的范围仅受所附权利要求书的限制。

Claims (18)

1.一种用于为互联网上的评论生成摘录的计算机实现的方法,包含:
接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征;
计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度;
根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录。
2.权利要求1的方法,其中,所述计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度包含:
识别所述每个评价语句涉及的产品特征;
识别所述一组反馈中的每个反馈涉及的产品特征;
根据各自涉及的产品特征,在所述评论中的评论语句与反馈之间建立关联关系;
确定评价语句是否得到相关联的反馈的支持。
3.权利要求2的方法,其中,所述确定评价语句是否得到相关联的反馈的支持包含:
确定每个评价语句对所涉及的产品特征的褒贬极向;
确定每个反馈对所涉及的产品特征的褒贬极向;
根据该评价语句的褒贬极向与反馈的褒贬极向是否一致,确定评价语句是否得到相关联的反馈的支持。
4.权利要求2的方法,其中,所述识别所述每个评价语句涉及的产品特征,包含利用预定义的特征词库来识别所述每个评价语句涉及的产品特征。
5.权利要求2的方法,其中,所述识别所述一组反馈中的每个反馈涉及的产品特征,包含利用预定义的特征词库来识别所述一组反馈中的每个反馈涉及的产品特征。
6.权利要求3的方法,其中,利用情感分析技术来确定每个评价语句对所涉及的产品特征的褒贬极向。
7.权利要求6的方法,其中,所述情感分析技术利用预定义的情感词典确定每个评价语句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个评价语句对所涉及的产品特征的褒贬极向。
8.权利要求3的方法,其中,利用情感分析技术来确定每个反馈对所涉及的产品特征的褒贬极向。
9.权利要求8的方法,其中,所述情感分析技术利用预定义的情感词典确定每个反馈句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个反馈对所涉及的产品特征的褒贬极向。
10.一种用于为互联网上的评论生成摘录的系统,包含:
接收装置,被配置为接收一个评论和对该评论的一组反馈,其中,所述评论包含多个评价语句,用于评价一个产品的产品特征;
支持度计算装置,被配置为计算所述一组反馈对所述多个评价语句中的每个评价语句的支持度;
摘录生成装置,被配置为根据所计算的对每个评价语句的支持度,从所述多个评价语句中抽取一个或多个评价语句,作为所述评论的摘录。
11.权利要求10的系统,其中,所述支持度计算装置包含:
特征识别器,被配置为识别所述每个评价语句涉及的产品特征和所述一组反馈中的每个反馈涉及的产品特征;
关联装置,被配置为根据各自涉及的产品特征,在该评论中的评论语句与反馈之间建立关联关系;
支持性确定装置,被配置为确定评价语句是否得到相关联的反馈的支持。
12.权利要求11的系统,其中,所述支持性确定装置包含:
极向分类器,被配置为确定每个评价语句对所涉及的产品特征的褒贬极向和每个反馈对所涉及的产品特征的褒贬极向;
其中,所述支持性确定装置根据评价语句的褒贬极向与反馈的褒贬极向是否一致,确定评价语句是否得到相关联的反馈的支持。
13.权利要求11的系统,其中,所述特征识别器利用预定义的特征词库来识别所述每个评价语句涉及的产品特征。
14.权利要求11的方法,其中,所述特征识别器利用预定义的特征词库来识别所述一组反馈中的每个反馈涉及的产品特征。
15.权利要求12的方法,其中,所述极向分类器利用情感分析技术来确定每个评价语句对所涉及的产品特征的褒贬极向。
16.权利要求15的方法,其中,所述情感分析技术利用预定义的情感词典确定每个评价语句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个评价语句对所涉及的产品特征的褒贬极向。
17.权利要求12的方法,其中,所述极向分类器利用情感分析技术来确定每个反馈对所涉及的产品特征的褒贬极向。
18.权利要求17的方法,其中,所述情感分析技术利用预定义的情感词典确定每个反馈句中对所涉及的产品特征的评价词的褒贬极向,由此确定每个反馈对所涉及的产品特征的褒贬极向。
CN2011101104095A 2011-04-29 2011-04-29 为互联网上的评论生成摘录的计算机实现的方法和系统 Pending CN102760264A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011101104095A CN102760264A (zh) 2011-04-29 2011-04-29 为互联网上的评论生成摘录的计算机实现的方法和系统
US13/456,962 US8630843B2 (en) 2011-04-29 2012-04-26 Generating snippet for review on the internet
US13/599,309 US8630845B2 (en) 2011-04-29 2012-08-30 Generating snippet for review on the Internet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101104095A CN102760264A (zh) 2011-04-29 2011-04-29 为互联网上的评论生成摘录的计算机实现的方法和系统

Publications (1)

Publication Number Publication Date
CN102760264A true CN102760264A (zh) 2012-10-31

Family

ID=47054717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101104095A Pending CN102760264A (zh) 2011-04-29 2011-04-29 为互联网上的评论生成摘录的计算机实现的方法和系统

Country Status (2)

Country Link
US (2) US8630843B2 (zh)
CN (1) CN102760264A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN103927321A (zh) * 2013-01-15 2014-07-16 国际商业机器公司 使用众包改进情感分析的方法和系统
CN104239331A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN104462067A (zh) * 2014-12-25 2015-03-25 南京财经大学 一种基于博弈论的在线交互式评论支持度倾向的预测方法
CN106407181A (zh) * 2016-09-07 2017-02-15 大地风景(武汉)信息技术有限公司 旅游目的地中的数据语义关联分析方法及系统
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996425B1 (en) 2012-02-09 2015-03-31 Audible, Inc. Dynamically guided user reviews
US9607325B1 (en) * 2012-07-16 2017-03-28 Amazon Technologies, Inc. Behavior-based item review system
WO2014127535A1 (en) * 2013-02-22 2014-08-28 Google Inc. Systems and methods for automated content generation
US20150188977A1 (en) * 2013-11-04 2015-07-02 Google Inc. Verifying Content Rendering on a Client Device
US20150262264A1 (en) * 2014-03-12 2015-09-17 International Business Machines Corporation Confidence in online reviews
US10410224B1 (en) * 2014-03-27 2019-09-10 Amazon Technologies, Inc. Determining item feature information from user content
JP6289989B2 (ja) * 2014-04-28 2018-03-07 Kddi株式会社 商品に対するユーザの感情分析装置及びプログラム
US20160162582A1 (en) * 2014-12-09 2016-06-09 Moodwire, Inc. Method and system for conducting an opinion search engine and a display thereof
US11164223B2 (en) 2015-09-04 2021-11-02 Walmart Apollo, Llc System and method for annotating reviews
US10140646B2 (en) 2015-09-04 2018-11-27 Walmart Apollo, Llc System and method for analyzing features in product reviews and displaying the results
US10579625B2 (en) 2016-09-15 2020-03-03 Walmart Apollo, Llc Personalized review snippet generation and display
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN108153856B (zh) * 2017-12-22 2022-09-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
US10990759B1 (en) * 2018-07-31 2021-04-27 Amazon Technologies, Inc. Deviation-based framework
US10942979B2 (en) * 2018-08-29 2021-03-09 International Business Machines Corporation Collaborative creation of content snippets
CN110119454B (zh) * 2019-05-05 2021-10-08 西安科芮智盈信息技术有限公司 证据管理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963848B1 (en) * 2000-03-02 2005-11-08 Amazon.Com, Inc. Methods and system of obtaining consumer reviews
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
EP1276061A1 (en) * 2001-07-09 2003-01-15 Accenture Computer based system and method of determining a satisfaction index of a text
US20050125240A9 (en) * 2002-10-21 2005-06-09 Speiser Leonard R. Product recommendation in a network-based commerce system
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7865354B2 (en) * 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US7788086B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation Method and apparatus for processing sentiment-bearing text
US20060212897A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation System and method for utilizing the content of audio/video files to select advertising content for display
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7558769B2 (en) 2005-09-30 2009-07-07 Google Inc. Identifying clusters of similar reviews and displaying representative reviews from multiple clusters
US8010480B2 (en) 2005-09-30 2011-08-30 Google Inc. Selecting high quality text within identified reviews for display in review snippets
US20070143122A1 (en) * 2005-12-06 2007-06-21 Holloway Lane T Business method for correlating product reviews published on the world wide Web to provide an overall value assessment of the product being reviewed
US7996252B2 (en) * 2006-03-02 2011-08-09 Global Customer Satisfaction System, Llc Global customer satisfaction system
US20080109232A1 (en) 2006-06-07 2008-05-08 Cnet Networks, Inc. Evaluative information system and method
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US7761287B2 (en) * 2006-10-23 2010-07-20 Microsoft Corporation Inferring opinions based on learned probabilities
US7509230B2 (en) * 2006-11-17 2009-03-24 Irma Becerra Fernandez Method for rating an entity
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20080215571A1 (en) 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US20080249762A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Categorization of documents using part-of-speech smoothing
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US8010539B2 (en) 2008-01-25 2011-08-30 Google Inc. Phrase based snippet generation
US20090319342A1 (en) 2008-06-19 2009-12-24 Wize, Inc. System and method for aggregating and summarizing product/topic sentiment
US20100169317A1 (en) 2008-12-31 2010-07-01 Microsoft Corporation Product or Service Review Summarization Using Attributes
US8156119B2 (en) * 2009-01-19 2012-04-10 Microsoft Corporation Smart attribute classification (SAC) for online reviews

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927321A (zh) * 2013-01-15 2014-07-16 国际商业机器公司 使用众包改进情感分析的方法和系统
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN103279460B (zh) * 2013-05-24 2017-02-08 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN104239331A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN104239331B (zh) * 2013-06-19 2018-10-09 阿里巴巴集团控股有限公司 一种用于实现评论搜索引擎排序的方法和装置
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN104462067A (zh) * 2014-12-25 2015-03-25 南京财经大学 一种基于博弈论的在线交互式评论支持度倾向的预测方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN106407181A (zh) * 2016-09-07 2017-02-15 大地风景(武汉)信息技术有限公司 旅游目的地中的数据语义关联分析方法及系统
CN106407181B (zh) * 2016-09-07 2019-05-14 武汉众犇慧通科技有限公司 旅游目的地中的数据语义关联分析方法及系统
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110188356B (zh) * 2019-05-30 2023-05-19 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置

Also Published As

Publication number Publication date
US20120278065A1 (en) 2012-11-01
US20120323563A1 (en) 2012-12-20
US8630845B2 (en) 2014-01-14
US8630843B2 (en) 2014-01-14

Similar Documents

Publication Publication Date Title
CN102760264A (zh) 为互联网上的评论生成摘录的计算机实现的方法和系统
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US10546005B2 (en) Perspective data analysis and management
US10360307B2 (en) Automated ontology building
US10572589B2 (en) Cognitive matching of narrative data
US9483462B2 (en) Generating training data for disambiguation
US9697196B2 (en) System and methods for determining sentiment based on context
WO2016045465A1 (zh) 一种基于输入的信息展示方法和输入法系统
US10565520B2 (en) Feature extraction for machine learning
US20160048768A1 (en) Topic Model For Comments Analysis And Use Thereof
US11615241B2 (en) Method and system for determining sentiment of natural language text content
US20160110316A1 (en) Generating a document preview
US10303720B2 (en) Content subject suggestions
US9064009B2 (en) Attribute cloud
US10943073B2 (en) Dynamic candidate expectation prediction
US8244724B2 (en) Classifying documents according to readership
CN106663123B (zh) 以评论为中心的新闻阅读器
US10055478B2 (en) Perspective data analysis and management
US10614100B2 (en) Semantic merge of arguments
CN110008807A (zh) 一种合同内容识别模型的训练方法、装置及设备
Cheng et al. A system for multilingual sentiment learning on large data sets
US10942928B2 (en) System and method for automatically providing alternative points of view for multimedia content
Kavitha et al. An Intelligent Metaheuristic Optimization with Deep Convolutional Recurrent Neural Network Enabled Sarcasm Detection and Classification Model
US20170185907A1 (en) Method of probabilistic inference using open statistics
Hilal et al. Aspect based opinion mining of online reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121031