CN111639172A - 在线评论筛选装置 - Google Patents

在线评论筛选装置 Download PDF

Info

Publication number
CN111639172A
CN111639172A CN202010485097.5A CN202010485097A CN111639172A CN 111639172 A CN111639172 A CN 111639172A CN 202010485097 A CN202010485097 A CN 202010485097A CN 111639172 A CN111639172 A CN 111639172A
Authority
CN
China
Prior art keywords
comment
online
text
representative
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010485097.5A
Other languages
English (en)
Inventor
张成洪
陈刚
肖帅勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010485097.5A priority Critical patent/CN111639172A/zh
Publication of CN111639172A publication Critical patent/CN111639172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种在线评论筛选装置,用于从用户针对评论对象进行评论形成的大量在线评论文本中筛选出能够代表所有在线评论文本的整体评论内容的代表性评论,其特征在于,包括:在线评论获取部,获取评论对象的多个在线评论文本并向量化形成相应的多个文本向量;评论文本聚类部,对文本向量进行聚类从而得到由相同类型的文本向量以及在线评论文本构成的多个评论簇;文本向量合成部,在每个评论簇中依次将评论对象对应的所有文本向量合成为新的文本向量;权重训练部,对评论簇进行权重训练从而对各个评论簇进行加权形成加权评论簇;以及代表性评论抽取部,对加权评论簇进行概率抽样并将抽取得到的在线评论文本作为代表性评论文本。

Description

在线评论筛选装置
技术领域
本发明属于语义识别领域,具体涉及一种在线评论筛选装置。
背景技术
大数据时代,线上交易平台的大量评论数据为顾客的线上购买决策提供了有力支撑,这些评论方便了用户更客观地了解到各个线上店铺或是商品的描述与实际情况是否一致,从而有助于用户在线上交易这类无法确认实物的情况下购买到与期望相符的商品或是服务。
然而,随着店铺的消费者以及店铺运营时间的增加,会不断地产生新的线上评论并导致评论被大量的积累,此时,后续的用户在判断商品的好坏时就需要翻阅大量的评论或是仅仅翻阅部分的评论,这样就使得用户难以在短时间内完整地了解所有评论的整体内容,容易导致忽略了一些关键的评论而进行了不符合期望的交易。
现在的线上交易平台通常会在让用户进行评论的同时进行打分,并统计各个线上店铺或是商品总体的评分,从而在一定程度上客观地反应线上店铺或是商品的好坏。但是,由于每个用户对评分的判断标准不统一,因此评分实际并不能为用户提供准确的判断,同时也可能存在刷单等行为造成误判,远远不如用户根据各个线上评论所做出判断更具有准确性。
发明内容
为解决上述问题,提供一种从所有在线评论中筛选出具有代表性和多样性的最能反映商品历史情况的有用评论的在线评论筛选装置,本发明采用了如下技术方案:
本发明提供了一种在线评论筛选装置,用于从用户针对评论对象进行评论形成的大量在线评论文本中筛选出能够代表所有在线评论文本的整体评论内容的代表性评论,其特征在于,包括:在线评论获取部,获取评论对象的多个在线评论文本并向量化形成相应的多个文本向量;评论文本聚类部,通过稀疏聚类方法对文本向量进行聚类从而得到由相同类型的文本向量以及在线评论文本构成的多个评论簇,每个评论簇对应一种评论类型;文本向量合成部,获取评论簇中评论对象对应的文本向量,并在每个评论簇中依次将评论对象对应的所有文本向量按到聚类中心的距离进行加权平均从而合成为新的文本向量,使得评论对象在每个评论簇中对应且只对应一个文本向量;权重训练部,通过预定的权重训练方法对评论簇进行权重训练从而对各个评论簇进行加权形成加权评论簇;以及代表性评论抽取部,根据预设的样本抽取比例对加权评论簇进行概率抽样并将抽取得到的在线评论文本作为代表性评论文本。
本发明提供的在线评论筛选装置,还可以具有这样的技术特征,还包括:画面存储部;以及输入显示部,其中,画面存储部存储有评论显示画面,评论显示画面包含有用于显示在线评论文本的一般评论显示部分以及用于显示代表性评论的代表性评论显示部分,输入显示部在显示评论显示画面并在一般评论显示部分中显示店铺的在线评论文本时,还同时在代表性评论显示部分中显示代表性评论从而让用户根据该代表性评论了解所有在线评论文本的内容。
本发明提供的在线评论筛选装置,还可以具有这样的技术特征,还包括:画面存储部,存储有评论查询画面;以及输入显示部,其中,评论查询画面包括评论对象选定部分、筛选参数输入部分以及查询评论显示部分,输入显示部显示评论查询画面并显示评论对象选定部分让用户选定至少一个需要查看的评论对象作为待查询对象,同时显示筛选参数输入部分让用户输入用于调整代表性评论的抽取数量的筛选参数,一旦用户确认了待查询对象的选定以及筛选参数的输入,代表性评论抽取部就将筛选参数作为样本抽取比例并对加权评论簇进行概率抽样,进一步将抽取得到的待查询对象的在线评论文本作为查询用代表性评论,一旦代表性评论抽取部抽取到查询用代表性评论,输入显示部就在评论查询画面中显示查询评论显示部分并显示与查询用代表性评论从而让用户根据该查询用代表性评论了解待查询对象的所有在线评论文本的内容。
本发明提供的在线评论筛选装置,还可以具有这样的技术特征,其中,稀疏聚类方法为:
Figure BDA0002518757820000031
式中,p为特征个数,d为欧氏距离,n为聚类个数,i,i’是不同样本的标号,j是文本向量的标号,Ck为第k个评论簇,w、wj为特征权重。
本发明提供的在线评论筛选装置,还可以具有这样的技术特征,其中,权重训练方法为组正则化稀疏模型:
Figure BDA0002518757820000041
式中,n为在线评论文本的个数,m为评论簇的个数,λ为特征稀疏的惩罚参数,α为用于调节组间稀疏和组内稀疏的力度,X(l)为第l个评论簇的文本向量,β为特征系数,训练出组正则化稀疏模型后,将特征系数的绝对值进行归一化即得到每个评论簇的权重。
本发明提供的在线评论筛选装置,还可以具有这样的技术特征,其中,评论对象为店铺,权重训练指标为店铺的历史销售情况,评论类型为卫生、周边环境、设施、交通、早餐、价格、服务态度中的任意多种。
发明作用与效果
根据本发明的在线评论筛选装置,由于具有在线评论获取部,获取在线评论文本并向量化为相应的文本向量,并通过评论文本聚类部将文本向量以及在线评论文本聚类为多个类型的评论簇,因此保证了最终抽取到的代表性文本更具有多样性。还由于具有文本相邻合成部以及权重训练部,将每个评论簇中对应各个评论对象的文本向量进行合成,使得一个评论对象在每个评论簇中仅对应一个文本向量,因此合成后的文本向量可以作为评论对象在该评论簇下的代表,参与后续权重训练部对各个评论簇的权重的训练,这些文本向量是代表性元素与多样性元素的来源之一。进一步由于具有代表性评论抽取部,可以根据权重对各个评论簇进行概率抽样,最终抽取得到了能够反应评论对象所有在线评论文本的代表性评论。因此,通过本发明的在线评论筛选装置,可以从大量的在线评论文本中抽取出代表性评论让用户查看,从而有效地减少客户搜索和阅读评论的时间,同时,被筛选出的代表性评论在内容上还保持了多样性和丰富性,不仅可以保证抽取出的代表性评论能够正确地反应大量在线评论文本所反映的内容,从而使得用户仅根据代表性评论就能了解评论对象的状态,还满足了不同用户的个性化信息获取需求,从而避免过于单一的评论影响用户的判断。
附图说明
图1是本发明实施例中在线评论筛选装置的结构框图。
图2是本发明实施例中用户访问店铺时的评论筛选过程的流程图;以及
图3是本发明实施例中用户查询店铺评论时的评论筛选过程的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的在线评论筛选装置作具体阐述。
<实施例>
在线评论筛选装置用于对评论对象的大量(通常为几百至上千、上万条评论)在线评论文本进行筛选,从而抽取出具有代表性和多样性的代表性评论。本实施例中,以网购平台上用户对各个店铺的在线评论为例,在线评论筛选装置可以作为网购平台服务系统的一个子模块中,能够在用户访问商铺的在线评论时获取该商铺的所有在线评论文本并进行代表性评论的抽取,从而便于用户根据代表性评论了解店铺的好坏。
图1是本发明实施例中在线评论筛选装置的结构框图。
如图1所示,在线评论筛选装置100包括在线评论获取部101、评论文本聚类部102、文本向量合成部103、权重训练部104、代表性评论抽取部105、画面存储部106、输入显示部107以及控制上述各部的装置控制部108。
其中,装置控制部108存储有用于对在线评论筛选装置100的各个构成部件的工作进行控制的计算机程序。
在线评论获取部101用于获取店铺的多个在线评论文本并向量化形成相应的多个文本向量。
本实施例中,在线评论获取部101可以在用户相网购平台服务器发送访问评论页面的请求时获取该店铺的相应在线评论文本,也可以根据用户的请求直接获取复数个店铺的相应在线评论文本(此时,在线评论筛选装置100的各部会依次对各个店铺的在线评论文本进行处理从而抽取出每个店铺的代表性评论)。
另外,在线评论获取部101在获取到在线评论文本时,会通过常规手段对每个在线评论文本进行预处理,如分词、去除噪声、文本向量化等,从而将每个在线评论文本向量化为相应的文本向量。本实施例中,在线评论获取部101采用BERT模型完成在线评论文本的向量化操作。另外,在其他方案中,在线评论获取部101进行向量化的方法也可以是TF-IDF加权法、Word2vector等常用的文本向量化方法。
评论文本聚类部102用于通过稀疏聚类方法对在线评论获取部101获取的所有文本向量进行聚类从而得到由相同类型的文本向量以及在线评论文本构成的多个评论簇。
其中,每个评论簇都对应一个文本类型。本实施例中,文本类型为针对店铺的常见评论类型,例如卫生、周边环境、设施、交通、早餐、价格以及服务态度等,这些文本类型可以根据实际的评论对象进行对应设定。另外,评论簇中的文本向量以及在线评论文本与各自的店铺相对应。
在对所有文本向量进行聚类时,评论文本聚类部102采用的稀疏聚类方法为:
Figure BDA0002518757820000071
式中,p为文本向量的集合中特征向量的个数,d为欧氏距离,n为聚类个数,i,i’是不同文本向量的标号,j是特征向量的标号,Ck为第k个聚类的簇(即评论簇)。w、wj为特征权重,可以为0(根据特征向量对聚类的重要性确定),如果为0,这个特征在聚类时就被模型忽略。
文本向量合成部103用于将各个评论簇中对应每个评论对象的多个文本向量合成为一个新的文本向量。
本实施例中,文本向量合成部103首先获取评论簇中一个店铺对应的所有文本向量,并在每个评论簇中依次将店铺(即评论对象)对应的所有文本向量按到聚类中心的距离进行加权平均,从而合成新的文本向量。
通过上述评论文本聚类部102对文本向量的聚类,就将所有店铺的所有评论聚成了m类(即m个评论类型),这样,每家店铺在每个评论类型中都对应一部分评论(也可能某家店铺在某个评论类型下没有对应的评论,此时,其在该评论类型下的文本特征为0向量)。文本向量合成部103将某家店铺同属于同一评论类型的所有评论对应的文本向量做合并,就得到了针对这家店铺的m组文本向量,也就是说,一个店铺在每个评论簇中对应且只对应有一个文本向量。
权重训练部104用于通过预定的权重训练方法对评论簇进行权重训练从而对各个评论簇进行加权。
每个评论簇通过聚类得到,实质为一种评论模式,在评论抽取时,为保证多样性和代表性,应当从多个评论模式中进行抽取,以满足用户多样化(个性化)的信息参考需求以及用户阅读信息的全面性和公平性(避免只向用户展示局部评论模式的信息,造成偏差或欺骗)。
那么,抽取评论时,每个评论模式在满足用户信息需求方面扮演的角色(重要性)不同,所以应当以一种客观消费指标对评论模式加权,从而明确当给定总体抽取比例时,每个评论模式应当分担多少。用户看评论因为其有(潜在)消费意愿,想在线上通过以往买家分享的经验了解商品的真实情况(并不完全信任商家的宣传)。那么,用于权重训练的客观消费指标的选取需要能够反映商品的历史消费、受欢迎程度。淘宝商品的月销量、预订酒店时的历史入住率等都均可作为该指标,它们能反映目标商品的质量优劣。
因此,本实施例中,权重训练部104以店铺真实的历史销售情况作为指标,对不同类型的评论簇进行权重训练。由于在不同购买场景下,指标的含义不同,例如,淘宝的历史月销量(月销售300笔),携程的入住率(历史月入住率等)。这些指标共同的特点在于它们能够反映店铺的历史销售(受欢迎)情况。因此,筛选得到的评论子集也是最能反映商品真实历史销售情况的,从而为后续的潜在购买者提供更加针对性、直接、准确的购买决策支持。
本实施例中,权重训练部104所采用的权重训练方法为组正则化稀疏方法(SGL),即:
Figure BDA0002518757820000091
式中,n为在线评论文本的个数,m为评论簇的个数,λ为特征稀疏的惩罚参数,α为用于调节组间稀疏和组内稀疏的力度,X(l)为第l个评论簇的文本向量的集合,β为特征系数。其中,λ越大,会有更多的特征被稀疏为0(特征系数变为0)。
训练SGL模型后,将特征系数的绝对值进行归一化后得到每个评论类型的权重(即每一个评论簇都具有了一个权重),使得评论簇完成加权形成加权评论簇。
代表性评论抽取部105根据预设的样本抽取比例以及待抽取的店铺,从加权后的评论簇中进行概率抽样,并将抽取得到的在线评论文本作为待抽取的店铺的代表性评论。
例如,有30个评论簇,评论簇的权重分别为w1,w2,……,w30。某家店铺有1000条评论,现在给定样本抽取比例为10%,即需要从这1000条中抽取100条评论作为代表性评论,那么就从第一个评论簇里抽取100*w1条评论,以此类推。
本实施例中,样本抽取比例具有一个默认值,该默认值为管理人员预先设定并存储在评论抽取部105中。
画面存储部106存储有评论显示画面以及评论查询画面。
评论显示画面用于在用户访问店铺(例如店铺的对应网页)并查看该店铺的评论时显示,该评论显示画面具有一般评论显示部分以及代表性评论显示部分。
其中,一般评论显示部分为常规的评论显示界面,例如好评、差评、带图评论等现有的评论版块,用于显示店铺所有的在线评论文本让用户进行浏览;代表性评论显示部分用于显示评论抽取部105根据该店铺抽取得到的所有代表性评论,从而让用户根据这些代表性评论即可了解到所有在线评论文本所表达的内容。
评论查询画面用于在用户对店铺的评论进行查询时显示,该评论查询画面包括评论对象选定部分、筛选参数输入部分以及查询评论显示部分。
本实施例中,评论对象选定部分以及筛选参数输入部分同时在评论查询画面显示时进行显示。其中,评论对象选定部分用于让用户选定至少一个需要查看的店铺,被选定的店铺被作为待查询对象;筛选参数输入部分用于让用户输入筛选参数,该筛选参数用于调整被抽取出的代表性评论的抽取数量。
一旦用户确认了待查询对象的选定以及筛选参数的输入,代表性评论抽取部105就将筛选参数作为样本抽取比例并对加权评论簇进行概率抽样,进一步将抽取得到的待查询对象的在线评论文本作为查询用代表性评论。
此时,在代表性评论抽取部105抽取出查询用代表性评论后,查询评论显示部分就会在评论查询画面中显示并显示待查询对象的代表性评论,从而让用户根据这些查询用代表性评论了解待查询对象的所有在线评论文本的内容。
输入显示部107用于显示上述画面,从而让用户通过这些画面进行相应的人机交互。本实施例中,画面存储部106以及输入显示部107为用户持有的显示输入模块,如用户个人计算机的显示屏以及相应的输入设备等。
图2是本发明实施例中用户访问店铺时的评论筛选过程的流程图。
如图2所示,当用户访问某个店铺并发送一个查看该店铺评论的请求时,开始如下步骤:
步骤S1-1,在线评论获取部101获取被访问的店铺的多个在线评论文本,并向量化为相应的文本向量,然后进入步骤S1-2;
步骤S1-2,评论文本聚类部102通过稀疏聚类方法对步骤S1-1获取的所有文本向量进行聚类从而得到由相同类型的文本向量以及在线评论文本构成的多个评论簇,然后进入步骤S1-3;
步骤S1-3,文本向量合成部103获取步骤S1-2聚类得到的评论簇中与店铺相对应的文本向量,并在每个评论簇中依次将店铺对应的所有文本向量按到聚类中心的距离进行加权平均从而合成为新的文本向量,然后进入步骤S1-4;
步骤S1-4,权重训练部104通过预定的权重训练方法对评论簇进行权重训练从而对各个评论簇进行加权形成加权评论簇,然后进入步骤S1-5;
步骤S1-5,代表性评论抽取部105根据预设的样本抽取比例对步骤S1-4加权形成的加权评论簇进行概率抽样并将抽取得到的在线评论文本作为代表性评论,然后进入步骤S1-6;
步骤S1-6,输入显示部107显示评论显示画面并在一般评论显示部分显示步骤S1-1获取到的所有在线评论文本以及在代表性评论显示部分显示步骤S1-5抽取得到的所有代表性评论文本,然后进入结束状态。
本实施例中,代表性和多样性评论抽取本质上就是对于一家店铺而言的,但在代表性评论筛选装置最初建模的时候,需要将同行业的其他商家一并考虑,例如,当评论对象为一个商品时,需要构建该商品在行业的评论模式,即通过在线评论获取部101获取该商品在对多个(同类相关)商家的所有的在线评论文本,进一步进行聚类加权从而形成加权评论簇。在具体使用时,在线评论获取部101就针对某一家店铺获取该商品的所有在线评论文本,进一步通过上述步骤S1-1至步骤S1-6完成代表性评论的抽取。
图3是本发明实施例中用户查询店铺评论时的评论筛选过程的流程图。
如图3所示,当用户发送一个对店铺的评论进行查询的请求时,开始如下步骤:
步骤S2-1,输入显示部107显示评论查询画面并显示评论对象选定部分以及筛选参数输入部分分别让用户选定待查询对象(即待查询的店铺)以及输入筛选参数,一旦用户确认则进入步骤S2-2;
步骤S2-2,在线评论获取部101获取待查询对象的多个在线评论文本,并向量化为相应的文本向量,然后进入步骤S2-3;
步骤S2-3,评论文本聚类部102通过稀疏聚类方法对步骤S2-2获取的所有文本向量进行聚类从而得到由相同类型的文本向量以及在线评论文本构成的多个评论簇,然后进入步骤S2-4;
步骤S2-4,文本向量合成部103获取步骤S2-3聚类得到的评论簇中与各个待查询对象相对应的文本向量,并在每个评论簇中依次将与各个待查询对象对应的所有文本向量按到聚类中心的距离进行加权平均从而合成为新的文本向量,然后进入步骤S2-5;
步骤S2-5,权重训练部104通过预定的权重训练方法对评论簇进行权重训练从而对各个评论簇进行加权形成加权评论簇,然后进入步骤S2-6;
步骤S2-6,代表性评论抽取部105根据预设的样本抽取比例对步骤S2-5加权形成的加权评论簇中对应各个待查询对象的在线评论文本进行概率抽样,并将抽取得到的在线评论文本作为相应待查询对象的代表性评论,然后进入步骤S2-7;
步骤S2-7,输入显示部107显示评论查询画面并在查询评论显示部分显示步骤S2-6抽取到的对应各个待查询对象的代表性评论,然后进入结束状态。
实施例作用与效果
根据本实施例提供的在线评论筛选装置,由于具有在线评论获取部,获取在线评论文本并向量化为相应的文本向量,并通过评论文本聚类部将文本向量以及在线评论文本聚类为多个类型的评论簇,因此保证了最终抽取到的代表性文本更具有多样性。还由于具有文本相邻合成部以及权重训练部,将每个评论簇中对应各个评论对象的文本向量进行合成,使得一个评论对象在每个评论簇中仅对应一个文本向量,因此合成后的文本向量可以作为评论对象在该评论簇下的代表,参与后续权重训练部对各个评论簇的权重的训练,这些文本向量是代表性元素与多样性元素的来源之一。进一步由于具有代表性评论抽取部,可以对各个评论簇进行加权并根据权重对各个评论簇进行概率抽样,最终抽取得到了能够反应评论对象所有在线评论文本的代表性评论。因此,通过本发明的在线评论筛选装置,可以从大量的在线评论文本中抽取出代表性评论让用户查看,从而有效地减少客户搜索和阅读评论的时间,同时,被筛选出的代表性评论在内容上还保持了多样性和丰富性,不仅可以保证抽取出的代表性评论能够正确地反应大量在线评论文本所反映的内容,从而使得用户仅根据代表性评论就能了解评论对象的状态,还满足了不同用户的个性化信息获取需求,从而避免过于单一的评论影响用户的判断。
实施例中,由于还具有评论查询画面,能够让用户输入需要查询的评论对象以及筛选参数,使得代表性评论抽取部根据该筛选参数筛选出相应评论对象的代表性评论,使得用户可以自主查询各个评论对象的代表性评论以及调整代表性评论的筛选范围,能够更好地提升各类具有用户评论功能的平台的用户体验。
实施例中,由于权重训练方法为组正则化稀疏方法,通过一个组正则化稀疏模型对评论簇进行权重训练,并在训练的同时通过惩罚参数λ将一些文本向量稀疏为0,因此可以去除一些无关和冗余的文本特征,使得最终抽取的评论子集更加有用和多样,进一步使得代表性评论抽取部抽取出更合适的代表性评论。
实施例中,由于评论对象为店铺,并在应用组结构稀疏模型进行权重训练时,以店铺的历史真实销售情况作为指标,因此可以确保筛选出的评论的有用性和有效性。
实施例中,由于通过文本向量合成部将每个评论对象在每个评论簇中的文本向量合成为一个新的文本向量,即确保一个评论对象对应一行(合成后的)文本向量而非多行(个)评论文本向量,其本质上是构建了其对这个评论模式的总体隶属度映射。例如,按到聚类中心的距离进行加权平均合成向量,便可得到服从于该评论模式的总体隶属度强弱。排除评论数量对评论模式(即评论簇)构建的干扰。对于某个评论模式(簇),其包含各店铺的评论数量可能不同,合成后(按到聚类中心的距离进行加权平均)确保一一映射关系。最终,多个评论对象在多个评论簇中的文本向量后构成的一个特征矩阵(单行对应每个文本向量,列对应文本特征,这些评论特征以聚类簇进行分组),便于后续输入模型,进行评论簇权重的训练(学习)。
实施例中,将各个评论对象的在线评论文本聚类为多个评论簇,其好处在于:每个店铺的客户数量、偏好、质量不一样,且随时间变化而变化。如果只针对一家店铺进行建模,得出的多样性、代表性结论会不稳定。考虑同类行业多个店铺(比如酒店行业可以选取几千家酒店进行建模)的评论,这样涉及的客户更加广泛,得出的结论更加稳定。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,在上述实施例中,在线评论筛选装置设置在网购平台的服务器中,并用于对该网购平台中各个店铺的在线评论进行抽取。在本发明其他方案中,还可以针对其他类型的在线评论进行代表性评论的抽取,例如,对酒店预定网站或是旅游平台中各个酒店的评论进行采集以及筛选;或者,对在线购物平台的各个商品的评论进行采集以及筛选;再或者,对评论网站(例如论坛、问答平台、音乐平台等)中的回复性评论进行采集以及筛选等等。因此,本发明的在线评论筛选装置可以适用于各种类型的评论,并从大量的评论中筛选出具有代表性和多样性的评论从而使得用户可以方便、快速地了解到所有评论的大致情况,从而快速、准确地了解评论对象的具体状态。
进一步,在不同的场景下,进行权重训练时所采用的指标也有所不同,例如,在评论对象为酒店时采用入住率(如历史月入住率等)作为指标对酒店评论进行筛选;在评论对象为在线购物平台的各个商品时采用销量(如月销售等)为指标对各个商品的评论进行筛选;在评论对象为评论网站中的回复对象时采用浏览量为指标进行筛选等等。这些指标共同的特点在于它们能够反映评论对象的受欢迎情况。从而,筛选得到的评论子集也是最能反映商品真实情况的,从而为后续的用户提供更加针对性、直接、准确的决策支持。

Claims (6)

1.一种在线评论筛选装置,用于从用户针对评论对象进行评论形成的大量在线评论文本中筛选出能够代表所有所述在线评论文本的整体评论内容的代表性评论,其特征在于,包括:
在线评论获取部,获取所述评论对象的多个在线评论文本并向量化形成相应的多个文本向量;
评论文本聚类部,通过稀疏聚类方法对所述文本向量进行聚类从而得到由相同类型的所述文本向量以及所述在线评论文本构成的多个评论簇,每个所述评论簇对应一种评论类型;
文本向量合成部,获取所述评论簇中所述评论对象对应的文本向量,并在每个所述评论簇中依次将所述评论对象对应的所有所述文本向量按到聚类中心的距离进行加权平均从而合成为新的文本向量,使得所述评论对象在每个评论簇中对应且只对应一个文本向量;
权重训练部,通过预定的权重训练方法对所述评论簇进行权重训练从而对各个所述评论簇进行加权形成加权评论簇;以及
代表性评论抽取部,根据预设的样本抽取比例对所述加权评论簇进行概率抽样并将抽取得到的所述在线评论文本作为所述代表性评论文本。
2.根据权利要求1所述的在线评论筛选装置,其特征在于,还包括:
画面存储部;以及
输入显示部,
其中,所述画面存储部存储有评论显示画面,
所述评论显示画面包含有用于显示所述在线评论文本的一般评论显示部分以及用于显示所述代表性评论的代表性评论显示部分,
所述输入显示部在显示所述评论显示画面并在所述一般评论显示部分中显示所述店铺的所述在线评论文本时,还同时在所述代表性评论显示部分中显示所述代表性评论从而让所述用户根据该代表性评论了解所有所述在线评论文本的内容。
3.根据权利要求1所述的在线评论筛选装置,其特征在于,还包括:
画面存储部,存储有评论查询画面;以及
输入显示部,
其中,所述评论查询画面包括评论对象选定部分、筛选参数输入部分以及查询评论显示部分,
所述输入显示部显示所述评论查询画面并显示所述评论对象选定部分让所述用户选定至少一个需要查看的评论对象作为待查询对象,同时显示所述筛选参数输入部分让用户输入用于调整所述代表性评论的抽取数量的筛选参数,
一旦所述用户确认了所述待查询对象的选定以及所述筛选参数的输入,所述代表性评论抽取部就将所述筛选参数作为所述样本抽取比例并对所述加权评论簇进行概率抽样,进一步将抽取得到的所述待查询对象的所述在线评论文本作为查询用代表性评论,
一旦所述代表性评论抽取部抽取到所述查询用代表性评论,所述输入显示部就在所述评论查询画面中显示所述查询评论显示部分并显示与所述查询用代表性评论从而让所述用户根据该查询用代表性评论了解所述待查询对象的所有所述在线评论文本的内容。
4.根据权利要求1所述的在线评论筛选装置,其特征在于:
其中,所述稀疏聚类方法为:
Figure FDA0002518757810000031
subject to||w||2≤1,||w||1≤s,
Figure FDA0002518757810000032
式中,p为所述文本向量的集合中特征向量的个数,d为欧氏距离,n为聚类个数,i,i’是不同所述文本向量的标号,j是所述特征向量的标号,Ck为第k个所述评论簇,w、wj为特征权重。
5.根据权利要求1所述的在线评论筛选装置,其特征在于:
其中,所述权重训练方法为组正则化稀疏模型:
Figure FDA0002518757810000033
式中,n为所述在线评论文本的个数,m为所述评论簇的个数,λ为特征稀疏的惩罚参数,α为用于调节组间稀疏和组内稀疏的力度,X(l)为第l个所述评论簇的所述文本向量,β为特征系数,
训练出所述组正则化稀疏模型后,将所述特征系数的绝对值进行归一化即得到每个所述评论簇的权重。
6.根据权利要求1所述的在线评论筛选装置,其特征在于:
其中,所述评论对象为店铺,
所述权重训练指标为所述店铺的历史销售情况,
所述评论类型为卫生、周边环境、设施、交通、早餐、价格、服务态度中的任意多种。
CN202010485097.5A 2020-06-01 2020-06-01 在线评论筛选装置 Pending CN111639172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485097.5A CN111639172A (zh) 2020-06-01 2020-06-01 在线评论筛选装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485097.5A CN111639172A (zh) 2020-06-01 2020-06-01 在线评论筛选装置

Publications (1)

Publication Number Publication Date
CN111639172A true CN111639172A (zh) 2020-09-08

Family

ID=72332122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485097.5A Pending CN111639172A (zh) 2020-06-01 2020-06-01 在线评论筛选装置

Country Status (1)

Country Link
CN (1) CN111639172A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902674A (zh) * 2014-03-19 2014-07-02 百度在线网络技术(北京)有限公司 特定主题的评论数据的采集方法和装置
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN110750646A (zh) * 2019-10-16 2020-02-04 乐山师范学院 一种旅店评论文本的属性描述提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902674A (zh) * 2014-03-19 2014-07-02 百度在线网络技术(北京)有限公司 特定主题的评论数据的采集方法和装置
CN104778209A (zh) * 2015-03-13 2015-07-15 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN110750646A (zh) * 2019-10-16 2020-02-04 乐山师范学院 一种旅店评论文本的属性描述提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王娜: "密度敏感的稀疏聚类算法研究" *
郭金良: "基于稀疏组lasso-granger因果关系特征的脑电信号情感识别" *

Similar Documents

Publication Publication Date Title
US11188831B2 (en) Artificial intelligence system for real-time visual feedback-based refinement of query results
Ghose et al. Modeling consumer footprints on search engines: An interplay with social media
CN111784455B (zh) 一种物品推荐方法及推荐设备
Kim et al. Mapping online consumer search
US7774227B2 (en) Method and system utilizing online analytical processing (OLAP) for making predictions about business locations
CA2595160C (en) Method and system for automated comparison of items
US8650141B2 (en) System and method of segmenting and tagging entities based on profile matching using a multi-media survey
CN110162700A (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
EP4198864A1 (en) User feature-based page display method and apparatus, medium, and electronic device
CN108492290B (zh) 图像评价方法及系统
JP6370434B1 (ja) 企業情報提供システムおよびプログラム
WO2005024689A1 (ja) 消費者の購買行動分析方法及び装置
CN112100512A (zh) 一种基于用户聚类和项目关联分析的协同过滤推荐方法
CN111754300A (zh) 一种商品推荐方法、装置、设备和存储介质
CN111445280A (zh) 模型生成方法、餐馆排序方法、系统、设备和介质
CN111639172A (zh) 在线评论筛选装置
CN109902231A (zh) 基于cbow模型的学习资源推荐方法
JP6696270B2 (ja) 情報提供サーバ装置、プログラム及び情報提供方法
Yin et al. Forecast customer flow using long short-term memory networks
CN114429384A (zh) 基于电商平台的产品智能推荐方法及系统
CN113254775A (zh) 一种基于客户浏览行为序列的信用卡产品推荐方法
EP3298510A1 (de) Verfahren und system zum durchsuchen einer datenbasis mit datensätzen
Hou et al. A New Method of Smartphone Appearance Evaluation Based on Kansei Engineering
Mustafa Non-word attributes’ efficiency in text mining authorship prediction
TWI831113B (zh) 展店選址方法及系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200908