CN105468790B - 一种评论信息检索方法和装置 - Google Patents

一种评论信息检索方法和装置 Download PDF

Info

Publication number
CN105468790B
CN105468790B CN201511021241.5A CN201511021241A CN105468790B CN 105468790 B CN105468790 B CN 105468790B CN 201511021241 A CN201511021241 A CN 201511021241A CN 105468790 B CN105468790 B CN 105468790B
Authority
CN
China
Prior art keywords
correlation
degree
comment
query statement
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511021241.5A
Other languages
English (en)
Other versions
CN105468790A (zh
Inventor
都金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201511021241.5A priority Critical patent/CN105468790B/zh
Publication of CN105468790A publication Critical patent/CN105468790A/zh
Application granted granted Critical
Publication of CN105468790B publication Critical patent/CN105468790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种评论信息检索方法和装置,所述评论信息包括至少一条评论文档,所述方法包括:接收用户的查询指令,所述查询指令包括查询语句;针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;根据所述第一相关度,获得第一检索结果;对所述第一检索结果重排序,输出第二检索结果,从而实现了对评论信息的检索功能,使得检索结果较好地匹配了用户的查询需求,方便了用户有针对性地查找满足其需要的信息。

Description

一种评论信息检索方法和装置
技术领域
本申请涉及互联网技术领域,特别是涉及一种评论信息检索方法和一种评论信息检索装置。
背景技术
随着信息技术的不断发展,网络被越来越多的用户使用,互联网已经成为人们日常生活中不可或缺的一部分。通过互联网,人们可以获取信息,购买商品,观看影视娱乐节目等。但是,面对纷繁复杂的网络信息,如何分辨出有用的部分,确是耗时乏味的。以电子商务为例,电子商务的蓬勃发展使消费者的购物过程更便捷。通常,商品的评论信息作为其他消费者在购买或使用该商品后的评价,可以帮助人们制定购物决策。然而,从海量的评论信息中获取需要的有价值的部分,却并不容易。
在工业界,各种类型的电子商务网站通过将与商品属性相关且包含不同观点的评论信息展示给用户,作为用户购物的决策参考之一。比如,淘宝网通过提取评论频率最高的产品属性作为评论标签,通过点击标签可以查看评论内容;亚马逊则通过评论打分对评论进行简单的索引;京东则采用“好评”,“差评”和“有图评论”的方式对海量评论进行管理;爱奇艺商城也采用了类似的管理办法。但是,它们共同的缺陷是:仍然需要用户阅读大量的评论文档,不支持用户的自定义查询,例如对于长尾属性的查询,在上述网站中均无法实现。
由于互联网的开放性,在电子商务网站上发表评论内容是自由的开放的,因此,随着评论信息的大量增长,虚假评论(Fake Review)也越来越多。此外,因为评论内容为自由文本(free text),是用户在短时间内写出来的,没有经过后期的编辑和修改,经常包含语法错误、标点错误或者拼写错误等,难以完全满足用户对评论信息的检索要求。因此,如何从海量的评论信息中获得满足用户需要的评论信息越来越成为本领域技术人员亟需解决的一个问题。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种评论信息检索方法和相应的一种评论信息检索装置。
为了解决上述问题,本申请实施例公开了一种评论信息检索方法,所述评论信息包括至少一条评论文档,所述方法包括:
接收用户的查询指令,所述查询指令包括查询语句;
针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
根据所述第一相关度,获得第一检索结果;
对所述第一检索结果重排序,输出第二检索结果。
优选地,在所述接收用户的查询指令的步骤后,还包括:
扩展所述查询语句。
优选地,所述第一相关度包括属性相关度和观点相关度。
优选地,所述针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度的步骤包括:
针对所述查询指令,计算所述查询语句生成评论文档的概率;
根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
优选地,所述根据所述第一相关度,获得第一检索结果的步骤包括:
根据所述属性相关度与观点相关度,获得所述评论文档的排序值;
按照所述排序值,获得第一检索结果。
优选地,所述对所述第一检索结果重排序,输出第二检索结果的步骤包括:
针对所述第一检索结果,计算所述评论文档之间的第二相关度;
根据所述第二相关度,输出第二检索结果。
优选地,所述第二相关度包括文本内容相似度和属性级有用度相关度。
为了解决上述问题,本申请实施例公开了一种评论信息检索装置,所述评论信息包括至少一条评论文档,所述装置包括:
接收模块,用于接收用户的查询指令,所述查询指令包括查询语句;
计算模块,用于针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
获取模块,用于根据所述第一相关度,获得第一检索结果;
输出模块,用于对所述第一检索结果重排序,输出第二检索结果。
优选地,所述装置还包括:
扩展模块,用于扩展所述查询语句。
优选地,所述第一相关度包括属性相关度和观点相关度。
优选地,所述计算模块包括:
概率计算子模块,用于针对所述查询指令,计算所述查询语句生成评论文档的概率;
第一相关度计算子模块,用于根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
优选地,所述获取模块包括:
排序值获取子模块,用于根据所述属性相关度与观点相关度,获得所述评论文档的排序值;
第一检索结果获取子模块,用于按照所述排序值,获得第一检索结果。
优选地,所述输出模块包括:
第二相关度计算子模块,用于针对所述第一检索结果,计算所述评论文档之间的第二相关度;
第二检索结果输出子模块,用于根据所述第二相关度,输出第二检索结果。
优选地,所述第二相关度包括文本内容相似度和属性级有用度相关度。
与背景技术相比,本申请实施例包括以下优点:
在本申请实施例中,通过接收用户的查询指令,并针对所述查询指令计算出查询语句与评论文档之间的第一相关度,进而获得第一输出结果,然后对所述第一检索结果进行重排序,输出第二检索结果,实现了对评论信息的检索功能,使得检索结果较好地匹配了用户的查询需求,方便了用户有针对性地查找满足其需要的信息。
其次,本申请实施例通过计算查询语句与评论文档之间的属性相关度和观点相关度,得到第一检索结果,然后进一步地通过计算评论文档之间的文本内容相似度和属性级有用度相关度,将第一检索结果进行重排序,获得第二检索结果,进一步优化了评论文档的检索过程,使对用户更有用的评论信息排序更靠前,更有助于获得最优的检索结果。
附图说明
图1是本申请的一种评论信息检索方法实施例一的步骤流程图;
图2是本申请的一种评论信息检索方法实施例二的步骤流程图;
图3是本申请的一种评论信息检索装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种评论信息检索方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,接收用户的查询指令;
在本申请实施例中,首先可以接收到用户的查询指令,所述查询指令可以包括查询语句。
通常,查询语句可以是一个关键词,也可以是一整句话。比如,查询语句可以是“电池”这类的关键词,也可以是“电池怎么样?”这类的句子。当然,如何查询语句是以一整句话,那么,可以根据所述查询语句确定出其中的属性词,查询语句中的属性词是当前查询语句的主题,也就是用户希望查询的东西,如查询语句“电池怎么样?”,可以确定其属性词为“电池”。
当用户以“电池”或者“电池怎么样?”作为一个查询语句进行输入后,可以认为用户是希望在当前的评论信息中了解与“电池”相关的评论,从而触发相应的查询指令。
步骤102,针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
在本申请实施例中,当接收到包含查询语句的查询指令后,可以进一步针对所述查询指令,计算查询语句与评论文档之间的第一相关度。
评论信息可以是由无数条的评论文档构成。对于商品而言,用户针对所述商品的一次评价即可看作是一条评论文档,比如,当用户对“电池”的评价是“电池容量大”时,该评价即被看作是一条评论文档。通常,对于需要查询的商品来说,评论信息中至少应该包括一条评论文档。
在本申请实施例中,所述第一相关度可以包括属性相关度和观点相关度。
观点相关度表示评论文档是在评价所述查询语句中的属性词的概率,而属性相关度则表示所述评论文档中包含有所述查询语句中的属性词的概率。
需要注意的是,即使评论文档中包含有所述查询语句中的属性词也并不一定表示所述评论文档当前是在评价所述属性词,因此,在本申请实施例中,通过将所述属性相关度与观点相关度结合,可以保证当前评论文档是在评价查询语句中的属性词。
步骤103,根据所述第一相关度,获得第一检索结果;
在本申请实施例中,当根据用户的查询指令,分别计算出查询语句与各条评论文档的第一相关度后,可以根据所述第一相关度,获得第一检索结果。
在具体实现中,可以根据观点相关度与属性相关度相乘,得到一个排序值,根据所述排序值的大小,得到所述第一检索结果。
步骤104,对所述第一检索结果重排序,输出第二检索结果。
在本申请实施例中,所述第一检索结果可以看作是评论文档与查询语句之间的匹配度,即如果某条评论文档的内容与当前查询语句所希望检索的内容更接近,则二者间的属性相关度和观点相关度更高,相应的第一相关度也更高,体现在第一检索结果中则是所述评论文档的排序更靠前。
但是,第一检索结果作为一个初始的检索结果,并不能完全匹配用户的查询需求,因此,在本申请实施例中,还可以对所述第一检索结果进行重排序,从而输出第二检索结果。
对第一检索重排序可以剔除掉一些重复的评论文档,以及,一些内容虽然与查询语句相关度较高,但并不能提供有效信息甚至可能是虚假信息的评论文档,使得输出的第二检索结果更能满足用户的查询需求。
在本申请实施例中,通过接收用户的查询指令,并针对所述查询指令计算出查询语句与评论文档之间的第一相关度,进而获得第一输出结果,然后对所述第一检索结果进行重排序,输出第二检索结果,实现了对评论信息的检索功能,使得检索结果较好地匹配了用户的查询需求,方便了用户有针对性地查找满足其需要的信息。
参照图2,示出了本申请的一种评论信息检索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,接收用户的查询指令;
在本申请实施例中,查询指令可以包括查询语句,查询语句可以是一个关键词,也可以是一整句话。
步骤202,扩展所述查询语句;
在本申请实施例中,在接收到用户的查询指令后,还可以进一步对查询语句进行扩展。
在具体实现中,对于某个查询语句,可以进行查询语句分析(Query Analysis),使用产品属性层次结构对查询语句进行扩展。在属性层次树中的所有父属性(parent-aspects)和子属性(sub-aspects)都可以被作为查询语句的扩展部分。例如,如果当前查询语句为“电池”,在进行查询语句扩展时,可以从属性层次树上获得属性“电池”的所有子属性“电量”、“续航”、“电源适配器”,以及父属性“硬件”,并采用这些属性词扩展查询语句为“iphone6手机电池如何?”
步骤203,针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
评论信息可以是由无数条的评论文档构成,因此,为了获得与查询语句相匹配的查询结果,可以分别计算所述查询语句与每一条评论文档之间的第一相关度。
在本申请实施例中,所述第一相关度可以包括属性相关度和观点相关度。
在本申请的一种优选实施例中,所述针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度可以包括如下子步骤:
子步骤2031,针对所述查询指令,计算所述查询语句生成评论文档的概率;
在具体实现中,可以使用信息检索领域中的生成模型计算从查询语句q生成评论文档d的概率,计算公式如下所示:
在公式(1)中,第一项p(oi|d,q)表示观点相关值(opinion relevance score),观点相关表示评论文档中包含与查询属性相关的观点信息,而第二项p(q|d)p(d)则表示属性相关值(aspect relevance score),|O|是观点词词典的大小。观点词词典可以由预先从评论信息中提取出的观点词构成。
为了便于理解,在此对观点词的提取作一简单介绍。
在提取观点词前,可以对评论信息的质量进行评估(Review Quality),然后根据评估结果,对评论信息进行观点挖掘(Opinin Mining)。
在具体实现中,可以分别利用支持向量机回归模型(Support VectorRegression)评估评论质量,利用基于“有用度”的单语种词对齐模型和基于翻译的语言模型抽取评论信息中的属性词和观点词。
由于绝大多数的评论文档都由非专业的用户在较短的时间内撰写的,并未经过后期的编辑修正,而且评论服务网站是自由开放的,因此评论信息中经常包含大量的噪声,文档质量参差不齐。甚至大量的评论文档可能并不包含评价信息。因此,在对评论信息的质量进行评估时,可以基于抽取的评论文档的三组文本特征“文档长度”、“Unigram(单个字)”和“评论打分”使用支持向量机回归模型对评论文档的“有用度”进行预测。
然后,采用抽取评论信息中最基本的“属性词-观点词”词对信息,将评论文档的“有用度”引入单语种词对齐模型,挖掘修饰关系,并使用基于翻译的语言模型将词频信息和修饰信息整合在一起,筛选出属性候选词和观点候选词。
通常,可以按照libsvm工具包的输入格式生成每个评论文档的特征向量,libsvm工具包可以自动训练有用度预测模型。有用度作为名词与形容词之间共现次数的权值可以被引入到词对齐模型中,然后通过优化词对齐模型得到修饰关系,所述修饰关系可以被用到基于翻译的语言模型中,从而可以将名词的词频,名词与形容词的修饰概率,形容词的词频三个特征进行整合,输出一个名词属于属性词的概率。同理,判断一个形容词是否属于观点词的概率也可以按照上述方式进行。
子步骤2032,根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
由于公式(1)中第一项p(oi|d,q),第二项p(q|d)p(d)分别表示观点相关值和属性相关值(aspect relevance score),因此,可以进一步将公式(1)改写成如下计算式:
Srel(q,d)=Sopinion(d,q)Saspect(d,q)……(2)
然后,可以采用Okapi BM25模型进行属性相关度的计算,观点相关度则可以通过从查询语句生成评论文档的概率得到。
具体地,属性相关度的计算公式如下所示:
观点相关度的计算公式如下所示:
其中,ξ是平滑参数,在统计学中,平滑参数用于将局部概率与全局概率线性整合,因此,得到的新概率更能反应查询语句生成评论文档的概率,从而更能反应数据的客观分布。
而p(oi|d,q)则表示与查询语句q相关的观点词oi在文档d中出现的概率,其定义为:
Pr(oi,ai)是存在于“属性词-观点词”词对中的修饰概率,可以通过基于有用度的词对齐模型计算得来。
步骤204,根据所述第一相关度,获得第一检索结果;
在具体实现中,可以根据观点相关度与属性相关度相乘,得到一个排序值,根据所述排序值的大小,得到所述第一检索结果。
所述第一检索结果可以看作是评论文档与查询语句之间的匹配度,即如果某条评论文档的内容与当前查询语句所希望检索的内容更接近,则二者间的属性相关度和观点相关度更高,相应的第一相关度也更高,体现在第一检索结果中则是所述评论文档的排序更靠前。
步骤205,针对所述第一检索结果,计算所述评论文档之间的第二相关度;
在本申请实施例中,第一相关度体现的是评论文档与查询语句之间的相关度,因此,为了获得与用户查询需求更匹配的结果,可以在获得第一检索结果后,进一步计算所述评论文档之间的第二相关度。
所述第二相关度可以包括文本内容相似度和属性级有用度相关度。
在本申请实施例中,可以结合文本内容相似度和属性级有用度相似度,度量评论文档之间的关联性。在分值平滑技术中,该关联性可以被视作是评论文档之间的一致性。重排序模型可以使“有用度”更高的评论文档排序更靠前。
向量y∈Rn可以表示检索模型返回的前n个评论文档的初始检索分值向量,且向量是重排序(分值平滑)之后的向量。具体来说,对于分值平滑方法,可以最小化如下的目标函数:
其中,损失函数y∈Rn表示评论文档间的检索分值一致性,如果高度相关的文档的检索分值差别很大,那么这个损失函数的值会比较大。而损失函数ε(f)用来衡量重排序后的分值向量(新分值)与原始的检索分值向量间的一致性。如果新分值向量与原始分值向量间的差距加大,那么该损失函数的值也较大。
在具体实现中,可以采文本内容相似度和属性级有用度相关度HelpfulSim(i,j)来计算返回的评论文档di和评论文档dj之间的关联性。文本内容相似度即是基于评论文档TF-IDF(词频-逆文档频率)特征的余弦相似度VecSim(i,j)。
属性级有用度相关度HelpfulSim(i,j)的定义如下式所示:
其中,属性级有用度(面向查询属性词的有用度)可以通过如下公式计算得到:
具体地,可以使用查询语句中的属性词在评论文档中的概率分布作为对产品整体级有用度h(d)的权值。即,将面向产品整体的有用度折扣为面向查询属性词的有用度。
然后,可以通过将上述文本内容相似度和属性级有用度相关度线性组合得到评论文档间的关联性,通过调整参数γ的值以获得最优的第二检索结果:
Wij=γVecSim(i,j)+(1-γ)HelpfulSim(i,j)……(9)
步骤206,根据所述第二相关度,输出第二检索结果。
在通过计算第二相关度获得最优的第二检索结果后,可以将所述第二检索结果输出。
在本申请实施例中,通过计算查询语句与评论文档之间的属性相关度和观点相关度,得到第一检索结果,然后进一步地通过计算评论文档之间的文本内容相似度和属性级有用度相关度,将第一检索结果进行重排序,获得第二检索结果,进一步优化了评论文档的检索过程,使对用户更有用的评论信息排序更靠前,更有助于获得最优的检索结果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图3,示出了本申请的一种评论信息检索装置实施例的结构框图,所述评论信息包括至少一条评论文档,所述装置具体可以包括如下模块:
接收模块301,用于接收用户的查询指令,所述查询指令包括查询语句;
计算模块302,用于针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
获取模块303,用于根据所述第一相关度,获得第一检索结果;
输出模块304,用于对所述第一检索结果重排序,输出第二检索结果。
在本申请的实施例中,所述装置还可以包括如下模块:
扩展模块305,用于扩展所述查询语句。
在本申请的实施例中,所述第一相关度可以包括属性相关度和观点相关度。
在本申请的实施例中,所述计算模块302具体可以包括如下子模块:
概率计算子模块3021,用于针对所述查询指令,计算所述查询语句生成评论文档的概率;
第一相关度计算子模块3022,用于根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
在本申请的实施例中,所述获取模块303具体可以包括如下子模块:
排序值获取子模块3031,用于根据所述属性相关度与观点相关度,获得所述评论文档的排序值;
第一检索结果获取子模块3032,用于按照所述排序值,获得第一检索结果。
在本申请的实施例中,所述输出模块304具体可以包括如下子模块:
第二相关度计算子模块3041,用于针对所述第一检索结果,计算所述评论文档之间的第二相关度;
第二检索结果输出子模块3042,用于根据所述第二相关度,输出第二检索结果。
在本申请的实施例中,所述第二相关度可以包括文本内容相似度和属性级有用度相关度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种评论信息检索方法和一种评论信息检索装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种评论信息检索方法,其特征在于,所述评论信息包括至少一条评论文档,所述方法包括:
接收用户的查询指令,所述查询指令包括查询语句;
将属性层次树中所述查询语句的父属性和子属性作为所述查询语句的扩展部分,对所述查询语句进行扩展;
针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
根据所述第一相关度,获得第一检索结果;
针对所述第一检索结果,计算所述评论文档之间的文本内容相似度和属性级有用度相关度;将所述文本内容相似度和所述属性级有用度相关度进行线性组合,得到所述评论文档之间的第二相关度;
所述属性级有用度相关度通过下述公式计算:
其中,所述HelpfulSim(i,j)表示所述属性级有用度相关度,所述Shelpful(q,di)表示评论文档di的属性级有用度,所述Shelpful(q,dj)表示评论文档dj的属性级有用度,所述q表示所述查询语句;
所述其中,所述h(di)表示所述查询语句中的属性词在所述di中的概率分布,所述ai表示所述查询语句中的属性词,所述Shelpful(q,di)的计算公式中的aj表示所述di中的属性词,所述di表示所述ai在所述di中的词频,所述di表示所述aj在所述di中的词频;
所述其中,所述h(dj)表示所述查询语句中的属性词在所述dj中的概率分布,所述Shelpful(q,dj)计算公式中的aj表示所述dj中的属性词,所述表示所述ai在所述dj中的词频,所述表示所述aj在所述dj中的词频;
根据所述第二相关度,输出第二检索结果。
2.根据权利要求1所述的方法,其特征在于,所述第一相关度包括属性相关度和观点相关度。
3.根据权利要求2所述的方法,其特征在于,所述针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度的步骤包括:
针对所述查询指令,计算所述查询语句生成评论文档的概率;
根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一相关度,获得第一检索结果的步骤包括:
根据所述属性相关度与观点相关度,获得所述评论文档的排序值;
按照所述排序值,获得第一检索结果。
5.一种评论信息检索装置,其特征在于,所述评论信息包括至少一条评论文档,所述装置包括:
接收模块,用于接收用户的查询指令,所述查询指令包括查询语句;
扩展模块,用于将属性层次树中所述查询语句的父属性和子属性作为所述查询语句的扩展部分,对所述查询语句进行扩展;
计算模块,用于针对所述查询指令,计算所述查询语句与评论文档之间的第一相关度;
获取模块,用于根据所述第一相关度,获得第一检索结果;第二相关度计算模块,用于针对所述第一检索结果,计算所述评论文档之间的文本内容相似度和属性级有用度相关度;将所述文本内容相似度和所述属性级有用度相关度进行线性组合,得到所述评论文档之间的第二相关度;
所述属性级有用度相关度通过下述公式计算:
其中,所述HelpfulSim(i,j)表示所述属性级有用度相关度,所述Shelpful(q,di)表示评论文档di的属性级有用度,所述Shelpful(q,dj)表示评论文档dj的属性级有用度,所述q表示所述查询语句;
所述其中,所述h(di)表示所述查询语句中的属性词在所述di中的概率分布,所述ai表示所述查询语句中的属性词,所述Shelpful(q,di)的计算公式中的aj表示所述di中的属性词,所述表示所述ai在所述di中的词频,所述表示所述aj在所述di中的词频;
所述其中,所述h(dj)表示所述查询语句中的属性词在所述dj中的概率分布,所述Shelpful(q,dj)计算公式中的aj表示所述dj中的属性词,所述表示所述ai在所述dj中的词频,所述表示所述aj在所述dj中的词频;
第二检索结果输出模块,用于根据所述第二相关度,输出第二检索结果。
6.根据权利要求5所述的装置,其特征在于,所述第一相关度包括属性相关度和观点相关度。
7.根据权利要求6所述的装置,其特征在于,所述计算模块包括:
概率计算子模块,用于针对所述查询指令,计算所述查询语句生成评论文档的概率;
第一相关度计算子模块,用于根据所述概率,计算所述查询语句与所述评论文档之间的属性相关度和观点相关度。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
排序值获取子模块,用于根据所述属性相关度与观点相关度,获得所述评论文档的排序值;
第一检索结果获取子模块,用于按照所述排序值,获得第一检索结果。
CN201511021241.5A 2015-12-30 2015-12-30 一种评论信息检索方法和装置 Active CN105468790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021241.5A CN105468790B (zh) 2015-12-30 2015-12-30 一种评论信息检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021241.5A CN105468790B (zh) 2015-12-30 2015-12-30 一种评论信息检索方法和装置

Publications (2)

Publication Number Publication Date
CN105468790A CN105468790A (zh) 2016-04-06
CN105468790B true CN105468790B (zh) 2019-10-29

Family

ID=55606490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021241.5A Active CN105468790B (zh) 2015-12-30 2015-12-30 一种评论信息检索方法和装置

Country Status (1)

Country Link
CN (1) CN105468790B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704941B (zh) * 2016-08-08 2021-06-29 华为技术有限公司 一种显示物品评论的方法及装置
CN107871254A (zh) * 2016-09-23 2018-04-03 阿里巴巴集团控股有限公司 提供数据对象信息的方法及装置
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备
CN108228794B (zh) * 2017-12-29 2020-03-31 三角兽(北京)科技有限公司 信息管理装置、信息处理装置及自动回复/附言方法
CN109857856B (zh) * 2019-01-28 2020-05-22 北京合享智慧科技有限公司 一种文本的检索排序确定方法及系统
CN111580720B (zh) * 2020-05-07 2021-08-24 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990193B1 (en) * 2005-03-31 2015-03-24 Google Inc. Method, system, and graphical user interface for improved search result displays via user-specified annotations
CN104536980A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种确定候评项的质量信息的方法与装置
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990193B1 (en) * 2005-03-31 2015-03-24 Google Inc. Method, system, and graphical user interface for improved search result displays via user-specified annotations
CN104536980A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种确定候评项的质量信息的方法与装置
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向主题的中文文本观点检索研究;刘全升;《中国优秀硕士学位论文全文数据库 信息科技辑》;20101215;I138-385第第4-6、14-52页 *

Also Published As

Publication number Publication date
CN105468790A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN105468790B (zh) 一种评论信息检索方法和装置
US9275062B2 (en) Computer-implemented system and method for augmenting search queries using glossaries
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN104239340B (zh) 搜索结果筛选方法与装置
US10713261B2 (en) Generating insightful connections between graph entities
US8352455B2 (en) Processing a content item with regard to an event and a location
CN104111941B (zh) 信息展示的方法及设备
CN104239373B (zh) 为文档添加标签的方法及装置
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN103678576A (zh) 基于动态语义分析的全文检索系统
TW201319842A (zh) 搜尋方法、搜尋裝置及搜尋引擎系統
WO2014107801A1 (en) Methods and apparatus for identifying concepts corresponding to input information
CN111639255B (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
JP2015500525A (ja) 情報検索のための方法および装置
Cordobés et al. Graph-based techniques for topic classification of tweets in Spanish
WO2018058118A1 (en) Method, apparatus and client of processing information recommendation
Pablos et al. V3: Unsupervised generation of domain aspect terms for aspect based sentiment analysis
Torunoğlu et al. Wikipedia based semantic smoothing for twitter sentiment classification
US20140280084A1 (en) Using structured data for search result deduplication
Ullah et al. A framework for extractive text summarization using semantic graph based approach
US9336311B1 (en) Determining the relevancy of entities
CN105824915A (zh) 一种网购产品评论文摘生成方法及系统
Jannach et al. Automated ontology instantiation from tabular web sources—the AllRight system
Rao et al. Product recommendation system from users reviews using sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant