CN104239331A - 一种用于实现评论搜索引擎排序的方法和装置 - Google Patents

一种用于实现评论搜索引擎排序的方法和装置 Download PDF

Info

Publication number
CN104239331A
CN104239331A CN201310242522.8A CN201310242522A CN104239331A CN 104239331 A CN104239331 A CN 104239331A CN 201310242522 A CN201310242522 A CN 201310242522A CN 104239331 A CN104239331 A CN 104239331A
Authority
CN
China
Prior art keywords
comment
attribute
index
mark
useful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310242522.8A
Other languages
English (en)
Other versions
CN104239331B (zh
Inventor
杜冉冉
李永彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310242522.8A priority Critical patent/CN104239331B/zh
Priority to TW102133552A priority patent/TWI689880B/zh
Priority to JP2016521555A priority patent/JP6431056B2/ja
Priority to US14/308,580 priority patent/US10242105B2/en
Priority to EP14742007.9A priority patent/EP3011467A4/en
Priority to PCT/US2014/043032 priority patent/WO2014205133A2/en
Publication of CN104239331A publication Critical patent/CN104239331A/zh
Priority to HK15103350.1A priority patent/HK1202939A1/zh
Application granted granted Critical
Publication of CN104239331B publication Critical patent/CN104239331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种用于实现评论搜索引擎排序的方法和装置。该方法的特征在于,包括步骤:从针对特定对象的评论中提取用于描述该特定对象的词;根据用于描述该特定对象的词获得评论中所包含的有用属性;根据有用属性的数量,确定用于对评论进行打分的指标;根据指标对评论进行打分;以及按照分数对评论进行排序。根据本申请,用户能够快速有效地看到对其真正有帮助的评论信息,从而帮助其更好地进行购物决策。

Description

一种用于实现评论搜索引擎排序的方法和装置
技术领域
本申请涉及互联网领域,尤其涉及一种用于实现评论搜索引擎排序的方法和装置。 
背景技术
随着互联网在全球范围内的扩展,它正在被越来越多的人所接受,人们的工作和生活越来越依赖于网络。从前在现实中面对面进行的很多活动在今天已经逐渐被互联网所取代。 
互联网发展到今天,已经派生出各种各样的应用,其中一个重要应用就是电子商务。 
电子商务是利用计算机技术、网络技术和远程通信技术,实现整个商务(买卖)过程中的电子化、数字化和网络化。电子商务通常是指是在全球各地广泛的商业贸易活动中,在互联网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。 
电子商务的发展使得越来越多的消费者(又称为“用户”)选择从网上购买各种产品和服务,例如服装、数码产品、家电、书籍、彩票,等等。但是,用户要从网上林林总总的产品和服务中挑选出自己最满意的那一款,并不是一件很容易的事,特别是在无法亲眼见到实物或者是对商家并不了解的情况下。 
目前可以帮助用户进行这种决策的产品资讯类网站非常多,其中最为方便也最为有效的就是,提供其他用户对某一产品或服务的评论,以供当前用户参考。当前用户基于大量其他用户产生的大量的针对产品或服务的评论,来做出自己的决策。 
基于用户评论的评论搜索引擎就是解决这一问题的关键。当用户在网页上点击一个产品或产品属性时,评论搜索引擎就按照关键字到索引文件中查找,并返回最相关的评论信息。 
但是,首先,由于针对同一产品或服务的评论的数量可能非常大,当前用户并不一定有足够的时间和精力去全部阅读。因此,当前用户如何快速有效地从海量评论中找到能够帮助自己进行决策的评论,就成为了一个问题。 
其次,这种评论平台是开放式的,也就是说,不限制用户评论内容。因此,在日益增多的海量的产品评论中,就有可能包含大量的垃圾内容,例如广告内容、与产品不相关的内容、所包含的有用信息非常少的内容,等等。因此,如何有效地帮助当前用户排除或者忽视这些包含垃圾内容的评论,同样是一个问题。 
现有技术中是通过按照时间对评论进行排序来解决这一问题的。具体而言,可以将更晚发表的评论显示在前面,将更早发表的评论显示在后面。这样,当前用户就会先看到最新的评论,随着向下浏览或者翻页,逐渐看到更早的评论。 
但是,在浏览的过程中,用户在列表页面的翻页操作中通常会产生惰性。经验表明,用户往往从第三页开始就开始跳出。并且,随着页数的增加,跳出率将会越来越高。 
因此,在现有技术中,发表时间较早的优质内容,即,可以帮助用户决策的评论,并不会被用户看到。 
所以,这种仅仅考虑时间先后顺序的排序方法,并不能帮助用户快速阅读到优质内容,减少用户决策时间。 
更进一步说,有时用户并不想逐条浏览每条评论,而是想有针对性地了解针对产品或服务的某一属性或方面的评论。对评论的情感分析即能够满足用户的这一需求。 
此处的评论情感分析是指,对评论内容进行结构化分析,获取用户通过评论表达的对产品整体以及各个属性维度的描述。 
因此,本申请的目的是解决如下问题,即如何更高效地将优质有效的评 论内容提供给用户,从而减少用户的翻页数。 
发明内容
本申请的主要目的在于提供一种用于实现评论搜索引擎排序的方法和装置,以解决现有技术存在的上述问题。 
根据本申请的一个方面,提供了一种用于实现评论搜索引擎排序的方法,特征在于,包括步骤:从针对特定对象的评论中提取用于描述该特定对象的词;根据用于描述该特定对象的词获得评论中所包含的有用属性;根据有用属性的数量,确定用于对评论进行打分的指标;根据指标对评论进行打分;以及按照分数对评论进行排序。 
根据本申请的另一方面,提供了一种用于实现评论搜索引擎排序的装置,其特征在于,包括:提取模块,用于从针对特定对象的评论中提取用于描述该特定对象的词;获得模块,用于根据用于描述该特定对象的词获得评论中所包含的有用属性;确定模块,用于根据有用属性的数量,确定用于对评论进行打分的指标;打分模块,用于根据指标对评论进行打分;以及排序模块,用于按照分数对评论进行排序。 
与现有技术相比,根据本申请的技术方案,用户能够快速有效地看到对其真正有帮助的评论信息,从而帮助其了解产品、服务和商家,更好地进行购物决策。这不但使得减少了用户在浏览评论时的翻页数,使得用户在网购时的效率更高,也使得网站能够更有效地管理产品和服务评论并对其加以利用。 
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中: 
图1示意性地示出了根据本申请一个实施例的用于实现评论搜索引擎排序的方法的流程图; 
图2示意性地示出了图1中的步骤的更详细的流程图; 
图3示出了根据本申请一个实施例得到的网页显示的示例;并且 
图4示意性地示出了根据本申请一个实施例的用于实现评论搜索引擎排序的装置的结构框图。 
在这些附图中,使用相同的参考标号来表示相同或相似的部分。 
具体实施方式
在现有技术中,对评论(也称为观点)进行排序时,没有考虑以下因素: 
评论中有用的产品属性的数量,即评论可用信息量; 
句子的可读性,过长或者冗长的句子是不便于用户获得可用信息的; 
评论中无用的属性的数量,例如物流属性、广告属性等;以及 
产品属性的领域性,不同的产品的有用属性是不同的,例如,待机时间对手机这类产品是一个非常重要的产品属性,但对于化妆水这类产品则是没有意义的。 
本申请的主要思想在于,在对评论进行排序时,考虑基于情感分析的评论可用信息量。基于情感分析的评论可用信息量是指,通过情感分析将评论细化到属性粒度,从而获得评论中对有用属性的评价,并计算得到的该评论中对该有用属性进行评价的信息量,即该评论中有用信息的量。 
例如,针对某款化妆水的评论中说到,“帮同学买的”,这句话没有对产品的任何评价,对用户来说是无用的。而“这款化妆水的保湿效果很好”,这句话对产品的保湿效果这个有用属性给出了评价,对用户来说就是有用信息。 
这样,在对评论进行排序时,就能更多地考虑会真正影响用户对特定对象的认识的那些信息,即,评论中的有用信息。在将这些有用信息纳入考虑的情况下,对评论进行排序,把真正优质的内容靠前显示,减少用户查看评论需要的翻页数。这不但能够节省用户的时间和精力,也使得网站能够更有效地管理和利用这些评论。 
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。 
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。 
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。 
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。 
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“在一个实施例中”虽然有可能是指代相同实施例,但并非必然指代相同实施例。 
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。 
图1示意性地示出了根据本申请一个实施例的用于实现评论搜索引擎排序的方法100的流程图。 
方法100包括步骤110~150。 
步骤110,从针对特定对象的评论中提取用于描述该特定对象的词。 
在本申请中,对象就是指评论所针对的对象。 
例如,在电子商务应用中,用户可以针对特定产品或服务进行评论,那么特定对象就是特定的产品或服务。有时用户也会对不同商家进行评论,以供其他用户参考,在这种情况下,对象就是商家本身。例如,在某点评网站中,用户可以对不同的餐馆进行评论,在这种情况下,评论的对象就是不同的餐馆。 
例如,在某些新闻网站上,用户可以对某条新闻进行评论。在这种情况下,对象就是新闻。 
例如,在某些社交网络上,用户可以对其好友(或者其他用户)的状态或者其好友发表的内容进行评论。在这种情况下,对象就是其好友(或者其他用户)的状态或者其好友发表的内容。 
应当注意,上面列举的对象的例子仅仅是示例性而非限制性的。根据本申请的描述,本领域技术人员可以容易地想到本申请中的术语“对象”的其他实施例。 
在本申请中,用户在评论中用于描述特定对象(例如,产品、服务、商家等)的词,可以称为情感词。 
具体而言,可以先对用户评论执行分词(word segment)操作。分词即把句子分割成词。在本领域中存在多种分词的方法,例如最大前项匹配、最大后项匹配、双向匹配等。 
然后,可以根据分割得到的词,在服务器端所维护的情感词表(又称“情感词词典”)中进行查找,从而确定该条评论中所包含的情感词。 
在步骤120中,根据用于描述特定对象的词获得评论中所包含的有用属性。 
此处的有用属性是指,对于特定对象(例如,产品),大多数用户所关注的属性。对于不同类型的对象,有用属性是不同的。例如,针对不同领域的产品,有用属性不同。例如对于手机这类产品,有用属性可以包括待机时间、屏幕、性能等;对于化妆水这类产品,有用属性可以包括保湿效果、美白效果、滋润效果等。 
根据本申请的一个实施例,特定对象的有用属性可以是从针对该特定对 象的已有的海量的评论中,通过数据挖掘技术得到的。 
根据本申请的另一实施例,特定对象的有用属性可以是预先设定的。 
有用属性是特定对象(例如,产品、服务、商家等)的一个方面(或一个方面的特质)。 
情感词是用户在评论中所表达的对特定对象的有用属性的看法(或观点)。例如,对于有用属性“滋润效果”,用户评论中的情感词可以是“滋润”、“干燥”、“很好”或者其他措辞。 
例如,化妆水这个类目下的有用属性包括产品整体、滋润效果、刺激性等。相应地,归一化后的有用属性、有用属性、归一化后的情感词以及情感词之间的对应关系可以如表1中的示例所示: 
表1 
对于归一化后的有用属性与有用属性的关系、归一化后的情感词与情感词的关系,可以参见后面的图3以及对图3的描述。 
举例而言,对于针对某款化妆水的一条用户评论“总的来说蛮喜欢这款水的,很滋润,闻起来挺淡雅的、很温和”,其中,“蛮喜欢的”是情感词, “总的来说”是有用属性,其对应的归一化后的有用属性是“产品整体”;“很滋润”是情感词,其对应的有用属性名称在该条评论中未出现,该情感词对应的归一化后的有用属性是“滋润效果”;……。所以,有时,评论里只出现情感词,而不直接出现对应的有用属性名称。 
一般情况下,可以从情感词直接得到对应的有用属性。 
在某些情况下,从情感词本身不能直接得到对应的有用属性。例如,一条用户评论包括内容“价钱和份量都很合理”,其中情感词为“合理”,从“合理”这个词不能直接判断出对应的有用属性是什么。此时,可以在评论中搜索该情感词对应的有用属性。一个有用属性为“价钱”,得到其对应的归一化后的有用属性例如为“价格”。另一个有用属性为“份量”,得到其对应的归一化后的有用属性例如为“份量”。 
在另外的情况下,从情感词无法得到有用属性,也不能在评论中搜索到对应的有用属性,即,客观上并不存在与这一情感词对应的有用属性。例如,针对化妆水的一条用户评论中存在一个情感词“锋利”。这一情感词就并不存在对应的有用属性。此时,可以将该情感词丢弃,不作进一步分析。 
根据本申请的一个实施例,可以在服务器端的数据库中维护用于记录归一化后的有用属性、有用属性、归一化后的情感词以及情感词中至少两项之间的对应关系的表,以供排序时查找。 
在步骤130中,根据有用属性的数量,确定用于对评论进行打分的指标。 
图2示意性地示出了图1中的步骤130的更详细的流程图。 
方法200开始于步骤210,在该步骤中,判断评论中包含的有用属性数量是否大于或者等于1。 
如果评论中包含的有用属性数量大于或者等于1,则方法200前进到步骤220。在步骤220中,确定打分指标包括有用属性数量。 
用于计算评论包含的有用属性数量的公式如下: 
SD=γ    (1) 
其中,γ为步骤110中得到的有用属性的数量。 
根据本申请的一个实施例,在打分指标包括有用属性数量的情况下,用于对评论进行打分的指标还可以包括评论的可读性、评论的无用属性、评论时间中的至少一项。 
评论的可读性是表明评论是否便于用户阅读的指标。通常认为,句子过于冗长,子句过短,或者子句过多都是不易于用户阅读的,因此可读性低。根据本申请的一个实施例,用于计算评论的可读性的公式如下: 
NL = Σ 0 num e | length - α | β - - - ( 2 )
其中,NL是一条用户评论中所有子句的归一化长度,num是该条用户评论中子句的数量,length是该条用户评论中特定子句的字数。子句为用标点符号分割后的句子。根据本申请的一个实施例,一个中文字的字数为1,一个英文字母也为1(my的长度是2)。其中,α是对于普通人而言认为句子可读的合理均值,β是对于普通人而言认为句子可读的合理方差。α和β都是常量。公式(2)使用用户评论的归一化长度来描述句子的可读性。 
评论的无用属性是使得该评论降低排序分数的属性。 
根据本申请的一个实施例,无用属性是预先设定的,全类目通用的,可以根据经验或者实际的应用需要设定。 
有用属性可以用来分析以及展示给用户,无用属性只用来排序。用户可以在网页上点击有用属性,从而按照该有用属性对用户评论进行排序。 
根据本申请的一个实施例,如果评论中含有有用属性,则用于计算评论的无用属性的排序因子的公式如下: 
FS = δ 1 + e ϵ * ∈ - - - ( 3 )
其中,FS是无用属性的排序因子,∈为评论中含有的无用属性的数量,δ和ε是常量。常量δ和ε是固定的数值,经过多次试验确定,使得∈值越大,公式(5)中的score的值越小。可以根据不同的排序需求,人为界定无用属性。例如某些即时通信工具上呈现的属性多数是广告属性,可以认为是无用属 性。如果应用不希望过多呈现物流等信息,则物流速度、物流服务态度就是无用属性。无用属性是产品通用的,只用于计算排序分,不用于向用户呈现属性标签。 
如果评论中包含的有用属性数量为零,则方法200前进到步骤230。在步骤230中,确定打分指标为有用属性以外的指标。根据本申请的一个实施例,有用属性以外的指标包括评论的可读性、评论的无用属性的排序因子、评论时间中的至少一项。 
评论的无用属性是使得该评论降低排序分数的属性。根据本申请的一个实施例,如果评论中不含有有用属性,则用于计算评论的无用属性的排序因子的公式如下: 
FSN = δ 1 + e - ϵ * ∈ - - - ( 4 )
其中,FSN是无用属性的排序因子,∈为评论中含有的无用属性的数量,δ和ε是常量。常量δ和ε是固定的数值,经过多次试验确定,使得∈的值越大,公式(6)中的score的值越小。 
然后,方法200结束。 
在步骤140中,根据指标对评论进行打分。在排序打分中,可以考虑有用属性的数量,句子的可读性、句子的无用属性,等等。 
根据本申请的一个实施例,评论中包含有用属性,打分指标包括有用属性数量、评论的可读性以及评论的无用属性的排序因子。在此情况下,用于计算最终排序分的公式如下: 
score=SD/NL*FS    (5) 
其中,SD是有用属性数量,NL是一条用户评论中所有子句的归一化长度,FS是根据公式(3)计算出的无用属性的排序因子。 
根据本申请的另一实施例,评论中不包含有用属性,打分指标为有用属性以外的指标。有用属性以外的指标可以包括评论的可读性以及评论的无用 
属性的排序因子。在此情况下,用于计算最终排序分的公式如下: 
score = - NL * FSN * 1 num θ - - - ( 6 )
其中,num是子句的数量,θ是常量。θ是通过多次试验确定的、能够使排序结果最符合预期的一个常数。score为排序分,NL为根据公式(1)计算出的一条用户评论中所有子句的归一化长度,FSN是根据公式(4)计算出的无用属性的排序因子。从公式(4)中可以看到,无用属性的数量越多,其影响越负面,即,其对应的评论的分数就会越低。 
根据本申请的一个实施例,在计算最终排序分时可以将评论时间作为一个因子考虑在内。具体而言,可以对评论时间进行归一化计算后,再参与最终排序分的计算。 
某条评论的分数越高,该评论包含的能够帮助用户进行购物决策的有用信息越多。 
在步骤150中,按照分数对评论进行排序。根据本申请的一个实施例,可以按照分数从高到低的顺序降序显示评论。 
然后,方法100结束。 
图3示出了根据本申请一个实施例得到的网页显示的示例。 
网页显示300的最上端包括多个显示标签330,显示标签330的下方可以是用户评论列表。如果用户点击显示标签330左边的“全部”,则显示根据本申请方法排序后的全部用户评论。如果用户点击任何一个显示标签330,则显示根据本申请方法排序后的、对应于该显示标签330的用户评论。 
在图3中,用户点击了显示标签“质量好”,所以显示的是根据本申请方法排序后的、对应于该显示标签“质量好”的用户评论。用户评论中通常包含有用属性310和情感词320的组合。 
可以看到,用户评论中所包含的有用属性330的具体措辞不一定是相同的。例如,对于产品质量这一有用属性,有的用户称为“产品”,有的用户称为“东西”,有的用户甚至没有直接提到,等等。 
此外,即便是要表达相同或类似的情感倾向,用户所使用的情感词(或 描述词)也不尽相同。例如,有的用户说“很好”,有的用户说“很棒”,有的用户说“和预期效果一样”,等等。 
因此,用户评论中所包含的有用属性310和情感词320的组合,即便是意思相同或相近,其表现形式也并不一定相同。如图中所示,对于产品质量这一属性,用户的具体评论可能为“产品很好”、“东西很好”、“很棒的东西”、“和预期效果一样”,等等。根据本申请的一个实施例,可以对这种具体形式不同、含义实质上相同或相近的有用属性+情感词组合进行归一化,以用于如图3所示地那样显示给用户作为参考。 
这一目的可以通过显示标签330来实现。显示标签330可以包括两部分,一部分是归一化后的有用属性,一部分是归一化后的情感词。例如,图中所示的显示标签“质量好”,包括两部分,即,“质量”和“好”。“质量”就是归一化后的有用属性,“好”就是归一化后的情感词。因此,显示标签就是将“有用属性+情感词”进行归一化以后得到的、用于显示给用户的结果。 
根据本申请的一个实施例,用户可以在网页上点击显示标签330,以查看对应于该显示标签330的用户评论,这些用户评论已经根据本申请的方法进行了排序。 
根据本申请的一个实施例,还可以将用户评论列表中对应于显示标签330的部分高亮显示。 
这样,本申请不但可以实现在考虑特定对象有用属性的情况下对全部用户评论进行排序,还可以根据不同的显示标签来显示排序结果,进一步帮助用户快速进行购物决策。 
应当注意,图3中所示的显示标签仅仅是示例性而非限制性的。本领域技术人员可以基于本申请的描述,根据具体应用,设计不同的显示标签。 
应当注意,图3中所示的网页显示仅仅是示例性而非限制性的。本领域技术人员可以基于本申请的描述,根据具体应用,设计不同的网页显示。 
图4示意性地示出了根据本申请一个实施例的用于实现评论搜索引擎排序的装置400的结构框图。 
装置400可以包括:提取模块410,用于从针对特定对象的评论中提取用于描述该特定对象的词;获得模块420,用于根据用于描述该特定对象的词获得评论中所包含的有用属性;确定模块430,用于根据有用属性的数量,确定用于对评论进行打分的指标;打分模块440,用于根据指标对评论进行打分;以及排序模块450,用于按照分数对评论进行排序。 
根据本申请的一个实施例,确定模块430可以进一步包括第一确定子模块,用于当有用属性的数量大于或者等于1时,确定用于对评论进行打分的指标包括评论的有用属性数量。 
根据本申请的一个实施例,用于对评论进行打分的指标还可以包括评论的可读性、评论的无用属性的排序因子、评论时间中的至少一项。 
根据本申请的一个实施例,确定模块430可以进一步包括第二确定子模块,用于当有用属性的数量为零时,确定用于对评论进行打分的指标为有用属性以外的指标。 
根据本申请的一个实施例,有用属性以外的指标包括评论的可读性、评论的无用属性的排序因子、评论时间中的至少一项。 
根据本申请的一个实施例,装置400可以进一步包括呈现模块,用于向用户呈现显示标签,显示标签包括归一化后的有用属性和归一化后的用于描述特定对象的词,显示标签用于由用户点击,从而显示与显示标签对应的、排序后的用户评论列表。 
根据本申请的一个实施例,特定对象可以是产品、服务或商家。 
本申请典型地可以应用于电子商务应用。但本申请并不限于这一应用,而是可以应用于其他互联网应用,例如,新闻网站、社交网络,等等,只要这些应用包含了用户对某一事物或现象(即,特定对象)的评论即可。根据本申请的描述,本领域技术人员可以容易地想到本申请可以应用于的其他互联网应用。 
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。 
以上所述仅为本申请的实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。 

Claims (14)

1.一种用于实现评论搜索引擎排序的方法,其特征在于,包括步骤:
从针对特定对象的评论中提取用于描述所述特定对象的词;
根据所述用于描述所述特定对象的词得到所述评论中所包含的有用属性;
根据所述有用属性的数量,确定用于对所述评论进行打分的指标;
根据所述指标对所述评论进行打分;以及
按照分数对所述评论进行排序。
2.根据权利要求1所述的方法,其特征在于,所述根据所述有用属性的数量,确定用于对评论进行打分的指标的步骤进一步包括:
当所述有用属性的数量大于或者等于1时,确定用于对评论进行打分的指标包括所述评论的有用属性数量。
3.根据权利要求2所述的方法,其特征在于,所述用于对评论进行打分的指标还包括所述评论的可读性、所述评论的无用属性的排序因子、评论时间中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述根据所述有用属性的数量,确定用于对评论进行打分的指标的步骤进一步包括:
当所述有用属性的数量为零时,确定用于对评论进行打分的指标为有用属性以外的指标。
5.根据权利要求4所述的方法,其特征在于,所述有用属性以外的指标包括所述评论的可读性、所述评论的无用属性的排序因子、评论时间中的至少一项。
6.根据权利要求1所述的方法,其特征在于,进一步包括:
向用户呈现显示标签,所述显示标签包括归一化后的有用属性和归一化后的用于描述所述特定对象的词,所述显示标签用于由用户点击,从而显示与所述显示标签对应的、排序后的用户评论列表。
7.根据前述权利要求中任一项所述的方法,其特征在于,所述特定对象是产品、服务或商家。
8.一种用于实现评论搜索引擎排序的装置,其特征在于,包括:
提取模块,用于从针对特定对象的评论中提取用于描述所述特定对象的词;
获得模块,用于根据所述用于描述所述特定对象的词获得所述评论中所包含的有用属性;
确定模块,用于根据所述有用属性的数量,确定用于对所述评论进行打分的指标;
打分模块,用于根据所述指标对所述评论进行打分;以及
排序模块,用于按照分数对所述评论进行排序。
9.根据权利要求8所述的装置,其特征在于,所述确定模块进一步包括:
第一确定子模块,用于当所述有用属性的数量大于或者等于1时,确定用于对评论进行打分的指标包括所述评论的有用属性数量。
10.根据权利要求9所述的装置,其特征在于,所述用于对评论进行打分的指标还包括所述评论的可读性、所述评论的无用属性的排序因子、评论时间中的至少一项。
11.根据权利要求8所述的装置,其特征在于,所述确定模块进一步包括:
第二确定子模块,用于当所述有用属性的数量为零时,确定用于对评论进行打分的指标为有用属性以外的指标。
12.根据权利要求11所述的装置,其特征在于,所述有用属性以外的指标包括所述评论的可读性、所述评论的无用属性的排序因子、评论时间中的至少一项。
13.根据权利要求8所述的装置,其特征在于,进一步包括:
呈现模块,用于向用户呈现显示标签,所述显示标签包括归一化后的有用属性和归一化后的用于描述所述特定对象的词,所述显示标签用于由用户点击,从而显示与所述显示标签对应的、排序后的用户评论列表。
14.根据前述权利要求中任一项所述的装置,其特征在于,所述特定对象是产品、服务或商家。
CN201310242522.8A 2013-06-19 2013-06-19 一种用于实现评论搜索引擎排序的方法和装置 Active CN104239331B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201310242522.8A CN104239331B (zh) 2013-06-19 2013-06-19 一种用于实现评论搜索引擎排序的方法和装置
TW102133552A TWI689880B (zh) 2013-06-19 2013-09-16 用於實現評論搜尋引擎排序的方法和裝置
US14/308,580 US10242105B2 (en) 2013-06-19 2014-06-18 Comment ranking by search engine
EP14742007.9A EP3011467A4 (en) 2013-06-19 2014-06-18 Comment ranking by search engine
JP2016521555A JP6431056B2 (ja) 2013-06-19 2014-06-18 検索エンジンによるコメントの順位付け
PCT/US2014/043032 WO2014205133A2 (en) 2013-06-19 2014-06-18 Comment ranking by search engine
HK15103350.1A HK1202939A1 (zh) 2013-06-19 2015-04-02 種用於實現評論搜索引擎排序的方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310242522.8A CN104239331B (zh) 2013-06-19 2013-06-19 一种用于实现评论搜索引擎排序的方法和装置

Publications (2)

Publication Number Publication Date
CN104239331A true CN104239331A (zh) 2014-12-24
CN104239331B CN104239331B (zh) 2018-10-09

Family

ID=51212947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310242522.8A Active CN104239331B (zh) 2013-06-19 2013-06-19 一种用于实现评论搜索引擎排序的方法和装置

Country Status (7)

Country Link
US (1) US10242105B2 (zh)
EP (1) EP3011467A4 (zh)
JP (1) JP6431056B2 (zh)
CN (1) CN104239331B (zh)
HK (1) HK1202939A1 (zh)
TW (1) TWI689880B (zh)
WO (1) WO2014205133A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809379A (zh) * 2014-12-30 2016-07-27 阿里巴巴集团控股有限公司 一种对物流网点的评价方法、装置以及电子设备
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
CN107092616A (zh) * 2016-11-02 2017-08-25 北京小度信息科技有限公司 一种对象排序方法及装置
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN110019720A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论的内容分获取方法及系统
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346881B2 (en) * 2014-09-19 2019-07-09 International Business Machines Corporation Advertising within social networks
US11599841B2 (en) * 2015-01-05 2023-03-07 Saama Technologies Inc. Data analysis using natural language processing to obtain insights relevant to an organization
US10360622B2 (en) 2016-05-31 2019-07-23 Target Brands, Inc. Method and system for attribution rule controls with page content preview
US11269972B2 (en) 2016-05-31 2022-03-08 Target Brands, Inc. Date-specific webpage versions
TW201839136A (zh) 2017-02-06 2018-11-01 瑞士商諾華公司 治療血色素異常症之組合物及方法
CN107038224B (zh) * 2017-03-29 2022-09-30 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN108874832B (zh) * 2017-05-15 2022-06-10 腾讯科技(深圳)有限公司 目标评论确定方法及装置
US11651016B2 (en) * 2018-08-09 2023-05-16 Walmart Apollo, Llc System and method for electronic text classification
US11100556B2 (en) 2018-11-30 2021-08-24 International Business Machines Corporation Scenario enhanced search with product features
CN111666280B (zh) * 2020-04-27 2023-11-21 百度在线网络技术(北京)有限公司 评论的排序方法、装置、设备和计算机存储介质
JP6821076B1 (ja) * 2020-04-28 2021-01-27 株式会社キャピタルメディカ 情報共有化システム及びプログラム
CN111709226B (zh) * 2020-06-18 2023-10-13 中国银行股份有限公司 一种文本处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
US20120278767A1 (en) * 2011-04-27 2012-11-01 Stibel Aaron B Indices for Credibility Trending, Monitoring, and Lead Generation

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050193335A1 (en) * 2001-06-22 2005-09-01 International Business Machines Corporation Method and system for personalized content conditioning
US8200687B2 (en) * 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US7421429B2 (en) 2005-08-04 2008-09-02 Microsoft Corporation Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US20070067294A1 (en) * 2005-09-21 2007-03-22 Ward David W Readability and context identification and exploitation
US7389289B2 (en) * 2005-10-20 2008-06-17 Microsoft Corporation Filtering search results by grade level readability
US8015194B2 (en) * 2005-12-29 2011-09-06 Ricoh Co., Ltd. Refining based on log content
JP2008040720A (ja) 2006-08-04 2008-02-21 Nikon Corp 電子機器およびランク付けプログラム
JP2008097286A (ja) 2006-10-11 2008-04-24 Nippon Telegr & Teleph Corp <Ntt> 意見文検索装置、意見文検索方法および意見文検索プログラム並びにそのプログラムを記録した記録媒体
JP5168961B2 (ja) 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
US7962851B2 (en) * 2007-10-16 2011-06-14 Yahoo! Inc. Method and system for creating superior informational guides
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
KR100917784B1 (ko) * 2007-12-24 2009-09-21 한성주 콘텐트에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템
US8799773B2 (en) * 2008-01-25 2014-08-05 Google Inc. Aspect-based sentiment summarization
JP2011516938A (ja) * 2008-02-22 2011-05-26 ソーシャルレップ・エルエルシー 分散型オンライン会話の測定および管理のためのシステムと方式
WO2009155347A1 (en) 2008-06-17 2009-12-23 Laureate Education, Inc. System and method for collaborative development of online courses and progams of study
US9129008B1 (en) * 2008-11-10 2015-09-08 Google Inc. Sentiment-based classification of media content
WO2011019295A1 (en) 2009-08-12 2011-02-17 Google Inc. Objective and subjective ranking of comments
US20110082848A1 (en) * 2009-10-05 2011-04-07 Lev Goldentouch Systems, methods and computer program products for search results management
US10692093B2 (en) 2010-04-16 2020-06-23 Microsoft Technology Licensing, Llc Social home page
US8655938B1 (en) * 2010-05-19 2014-02-18 Adobe Systems Incorporated Social media contributor weight
US8744855B1 (en) * 2010-08-09 2014-06-03 Amazon Technologies, Inc. Determining reading levels of electronic books
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
US20120259866A1 (en) 2011-04-05 2012-10-11 Austin L Suzie System and method for automatically evaluating contributor performance
US8725495B2 (en) * 2011-04-08 2014-05-13 Xerox Corporation Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis
US20120290432A1 (en) * 2011-05-13 2012-11-15 Steven Tedjamulia Social Marketplace Affiliate Front End
US8700480B1 (en) * 2011-06-20 2014-04-15 Amazon Technologies, Inc. Extracting quotes from customer reviews regarding collections of items
US8671098B2 (en) * 2011-09-14 2014-03-11 Microsoft Corporation Automatic generation of digital composite product reviews
US20130073545A1 (en) 2011-09-15 2013-03-21 Yahoo! Inc. Method and system for providing recommended content for user generated content on an article
US9621404B2 (en) * 2011-09-24 2017-04-11 Elwha Llc Behavioral fingerprinting with social networking
US8880389B2 (en) * 2011-12-09 2014-11-04 Igor Iofinov Computer implemented semantic search methodology, system and computer program product for determining information density in text
US20150052098A1 (en) * 2012-04-05 2015-02-19 Thomson Licensing Contextually propagating semantic knowledge over large datasets
US11093984B1 (en) * 2012-06-29 2021-08-17 Reputation.Com, Inc. Determining themes
US9342846B2 (en) * 2013-04-12 2016-05-17 Ebay Inc. Reconciling detailed transaction feedback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
US20120278767A1 (en) * 2011-04-27 2012-11-01 Stibel Aaron B Indices for Credibility Trending, Monitoring, and Lead Generation
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809379A (zh) * 2014-12-30 2016-07-27 阿里巴巴集团控股有限公司 一种对物流网点的评价方法、装置以及电子设备
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
CN107092616A (zh) * 2016-11-02 2017-08-25 北京小度信息科技有限公司 一种对象排序方法及装置
CN107092616B (zh) * 2016-11-02 2020-08-28 北京星选科技有限公司 一种对象排序方法及装置
CN110019720A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论的内容分获取方法及系统
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109189922B (zh) * 2018-08-07 2021-06-29 创新先进技术有限公司 评论评估模型的训练方法和装置
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质

Also Published As

Publication number Publication date
US20140379682A1 (en) 2014-12-25
TW201501058A (zh) 2015-01-01
EP3011467A2 (en) 2016-04-27
CN104239331B (zh) 2018-10-09
HK1202939A1 (zh) 2015-10-09
TWI689880B (zh) 2020-04-01
US10242105B2 (en) 2019-03-26
JP2016527612A (ja) 2016-09-08
WO2014205133A3 (en) 2016-03-24
EP3011467A4 (en) 2017-03-15
WO2014205133A2 (en) 2014-12-24
JP6431056B2 (ja) 2018-11-28

Similar Documents

Publication Publication Date Title
CN104239331A (zh) 一种用于实现评论搜索引擎排序的方法和装置
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
US11176142B2 (en) Method of data query based on evaluation and device
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
Ding et al. Learning topical translation model for microblog hashtag suggestion
Kang et al. Modeling user interest in social media using news media and wikipedia
Wang et al. Product weakness finder: an opinion-aware system through sentiment analysis
CN101639857B (zh) 构建知识问答分享平台的方法、装置及系统
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
US20150287047A1 (en) Extracting Information from Chain-Store Websites
Claster et al. Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis
CN104462336A (zh) 信息推送方法和装置
Dubey et al. Item-based collaborative filtering using sentiment analysis of user reviews
US20070233563A1 (en) Web-page sorting apparatus, web-page sorting method, and computer product
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
Bhattacharjee et al. Sentiment analysis using cosine similarity measure
CN103377249A (zh) 关键词投放方法及系统
CN104424302A (zh) 一种同类数据对象的匹配方法和装置
AU2016346740B2 (en) Server for providing internet content and computer-readable recording medium including implemented internet content providing method
Kiran et al. User specific product recommendation and rating system by performing sentiment analysis on product reviews
Ramadhan et al. Implementation of textrank algorithm in product review summarization
CN103365961A (zh) 一种面向精准搜索的网站结构化标注方法和系统
de Moura et al. Using structural information to improve search in Web collections
Chung et al. Group-buying e-commerce in China

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1202939

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant