CN102789449A - 对评论文本进行评价的方法和装置 - Google Patents
对评论文本进行评价的方法和装置 Download PDFInfo
- Publication number
- CN102789449A CN102789449A CN2011101315185A CN201110131518A CN102789449A CN 102789449 A CN102789449 A CN 102789449A CN 2011101315185 A CN2011101315185 A CN 2011101315185A CN 201110131518 A CN201110131518 A CN 201110131518A CN 102789449 A CN102789449 A CN 102789449A
- Authority
- CN
- China
- Prior art keywords
- comment
- text
- reviewer
- historical review
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种对评论文本进行评价的方法和装置。该方法,包括:使用回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。本发明实施例将评论者和/或评论对象的因素考虑进回归模型,以使评价更贴近于实际,能够更加真实、完全地反映评论的极性和强度。
Description
技术领域
本发明涉及语义分析领域,特别是涉及一种对评论文本进行评价的方法和装置。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多评论者对产品、事件、政策等的评论。由于网上的评论通常数量庞大而且评论的对象(例如产品、时间、政策等)繁杂,因此需要通过评价来分析评论者的评论。其中,评论可以是评论者输入的一段文字,评价可以是评论者进行的分类或打分等操作。评论者在评论的同时可以进行评价。分类一般是把评论分为正面、负面(有的时候加上中性)等几个极性。打分是给评论一个分数,用来评价这个评论的极性和强度。这样,第三方可以快速地通过评价来了解评论者的评论。
然而,现在有些网站并不提供评论的评价机制,也有些网站早期并没有提供评价机制,这些情况下需要系统自动对评论进行评价。
以评价机制中的打分为例,一个典型的打分方式是星级。例如很多购物网站允许评论者用1~5颗星衡量商品,5颗星代表最好,1颗星代表最差;这里1~5就是分数。相对于星级,更细致的方式是给出一个连续值,例如4.3。这种方式的好处是商品能更细致地排序:例如当评论者搜索相机的时候,两个满足评论者需求但都是4颗星的相机是无法区分相对优劣的。而如果相机A打分为4.1,B打分为4.4,就可以容易地区分开了;排序的时候可以把B排在A的前面,使评论者可以先看到更好的商品。当然,一般购物等网站都不要求评论者直接给出连续值评分。
文献1,Bo Pang和 Lillian Lee.等人的论文Seeing stars:Exploiting class relationships for sentiment categorization withrespect to rating scales,Proceedings of the 43rd Annual Meetingof the ACL, pages 115-124,Ann Arbor,2005年6月,介绍了一种根据评论的本文自动对评论打分的方法。该方法主要分三步:
首先从预先收集的包含评论者打分的评论中提取文本和对应的分数,形成训练样本集;
然后根据文本中的词形成向量,并建立回归模型;
最后用训练样本集对回归模型进行求解,最后得到回归模型的参数。
这样就可以根据这些参数和回归模型一起对新的、没有分数的评论进行自动打分。在此,通过引用的方式将文献1并入本文。
文献1中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。
发明内容
考虑到现有技术的上述缺陷,本发明提出了一种对评论文本进行评价的方法和装置。其中,将评论者和/或评论对象的因素考虑进回归模型。
根据本发明的第一方面,提出了一种对评论文本进行评价的方法,包括:使用评价回归模型对待评价的评论文本进行评价;其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
根据本发明的第二方面,提出了一种对评论文本进行评价的装置,其中,该装置包括:第一获取模块,用于获取待评价的评论文本;评价模块,用于通过评价回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
根据本发明的第三方面,提出了一种用于获取评价评论文本的回归模型的方法,包括:获取历史评论文本集合和各个历史评论文本对应的评价;根据评论者和/或评论对象进行区分对所述历史评论文本集合进行区分;以及使用由所述区分的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合来求解所述评价回归模型。
根据本发明的实施例对评论文本进行的自动评价,由于考虑了评论者和/或评论对象,能够更加真实、完全地反映评价的极性和强度,并且有助于第三方通过该分数来了解评论者的评论所传达的评价。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1是示出了根据本发明的一个实施例的对评论文本进行评价的方法的流程图;
图2是示出了根据本发明的一个实施例的确定评价回归模型的流程图;
图3示出了根据本发明的一个实施例的使用回归模型对待评价的评论文本进行评价的过程;
图4示出了用于实现根据本发明的一个实施例的用于对评论文本进行评价的装置;
图5示出了用于实现根据本发明的一个实施例的用于获取评论回归模型的装置;
图6示出了用于实现根据本发明的另一个实施例的用于对评论文本进行评价的装置。
在本发明的所有附图中,相同或相似的附图标记标识表示相同或相似的结构和步骤。
具体实施方式
下面将结合附图参考若干示例性实施例来描述本发明的原理和精神。应当理解,给出这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
正如现有技术中指出的,文献1中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。这是由于:
不同评论者即使使用相同的词,其真正表达的评价的极性和强度可能是不同的。例如一个比较宽容的人可能对很多商品都说“好”,真实的含义可能是“还行”、“凑合”,而一个比较严格的人如果说某个商品“好”,那么可能是“非常好”、“很棒”。所以,如果脱离了评论者,仅仅考虑“好”这个词,并不能真正地、完全地反映评价的极性和强度。
同样的,同一个词在评价不同的评论对象(即商品)时也可能有不同的含义。例如“大”这个词,如果是手机声音大,那么是个好的特性,而如果是吸尘器声音大,那么类似噪音大,是个不好的特性。所以脱离了评论对象(例如手机或吸尘器)而单独考虑词本身,也不能真正地、完全地反映评价的极性和强度。而如果可以将不同的评论者区分开,和/或将对不同的评论对象区分开,则可以提高评价的极性和强度。
为此,本发明提出了能够克服上述问题的用于对评论文本进行评价的方法和装置。同时,提出了一种考虑了评论者和/或评论对象的回归模型。下面参考附图进行详细描述。
图1是示出了根据本发明的一个实施例的对评论文本进行评价的方法的流程图100。
图1所示的方法100从步骤S110开始。在步骤S110中,获取待评价的评论文本。如上所述,该待评价的评论文本可以是未提供评价机制的网站上的评论对应于的文本,或者其他没有包含评价的评论对应的文本。
在步骤S120中,使用回归模型对待评价的评论文本进行评价。在步骤S120中使用的评价机制可以是分类、打分(例如星级评价机制)、或者任何其他的可以统计的评价机制。应该理解,回归模型是一种对统计关系进行定量描述的数学模型,可以表征一组自变量对于应变量的影响。在本发明的实施例中,将评论者和评论对象的因素考虑进打分模型,建立了基于评论文本、评论者和评论对象三个因素的回归模型。由于该回归模型与多个因素相关联,所以也称为多元回归模型。本发明的用于评价的回归模型可以使用训练样本集合进行训练来获得。训练样本集合可以由历史评论文本集合结合其对应的评价来形成。作为训练样本,每条历史评论文本已经对应一个评价,例如分数。这种历史评论文本例如可以从众多提供评价机制的网站上收集获得。与现有技术不同的是,该训练样本集合是在考虑了各个历史评论文本对应的评论者和/或针对的评论对象的因素下形成的。
在本发明的一个实施例中,在历史评论文本集合中通常包含两个以上评论者撰写的评论文本和/或针对两个以上评论对象的评论文本。于是,可以相应地对收集到的历史评论文本根据评论者和/或评论对象来进行区分。这是由于收集的历史评论文本有可能是一个评论者对多个评论对象发布的评论文本,也可能是多个评论者对同一个评论对象发表的评论文本,还可以是多个评论者对多个评论对象发表的评论文本。对于第一种情况,可以根据评论者进行区分;对于第二种情况,可以根据评论对象进行区分;对于第三种情况,可以根据评论者进行区分,也可以根据评论对象进行区分,也可以优选地同时针对评论者和评论对象进行区分。
在本发明的实施方式中,用于对待评价的评论文本进行评价的回归模型可以一般地的表示如下:
r=f(Xij,i,j)=WT·Xij 公式(1)
在公示(1),中r表示分数(rate),i代表评论者(例如评论者的编号),j代表评论对象(例如评论对象的编号),Xij是第i个评论者对第j个评论对象的评论文本的向量表示,WT是表示文本Xij对分数的影响的权重向量,其与评论者和/或评论对象相关。于是,公式(1)表示某个评论的分数将是构成这个评论的文字串和每个评价串对应的与评论者和/或评论对象相关的权重的乘积的求和。
建立了公式(1)的回归模型后,可以通过训练样本集合来求解其中的参数WT。下面将通过参考图2来示例性地说明回归模型的获取,特别是其中的参数WT的确定。
图2是示出了根据本发明的一个实施例的确定评价回归模型的流程图200。
方法200开始于步骤210。在步骤S210中,获取历史评论文本的集合。在根据本发明的实施例中,可以从各个网站,例如博客、购物网站、“口碑”网站、社交网络等等,收集包含评论者打分的评论来形成历史评论文本的集合。这样所收集的历史评论文本集合中所包含的评论者和/或评价对象的数量较大,可以形成充足的训练样本来求解该回归模型。
下面的表1示出了一个示例历史评论文本集合。
表1
在步骤S220中,将历史评论文本集合中的所有评论文本根据评论者和/或评论对象进行区分,然后结合各个历史评论文本对应的评价,形成训练样本集合。
关于评论者、评论对象的信息可以以各种方式确定。例如可以根据获取评论文本的来源来确定评论者、根据评论文本中提取的文字串来确定评论对象。
在一个实施例中,在获取评论文本时,可以同时获取该评论文本对应的评论者标识,该标识可以是评论者昵称、评论者名称等等。在统计时,可以将不同的评论者标识看成是不同的评论者。也可以对评论者进行归类,将同一类评论者看成是一个评论者,从而减少统计的评论者的数目。在本发明的一个实现方式中,可以根据获取评论文本的来源,确定对应的评论对象。
在又一个实施例中,如果评论获取自某个手机论坛,可以确定评论对象是手机。如果评论获取自购物网站,则可以根据评论是在哪个商品的网页下,确定评论针对的商品。
可选地,还可以根据从评论文本中提取的文字串(下面将详细描述)来确定评论对象。例如,如果从评论文本中提取了文字串“手机”或“iphone 4”,则可以确定评论对象是手机。如果从评论文本中提取了文字串“电饭煲”或者“自行车”等商品名,则可以相应地确定评论对象。
本发明实施例中并不对评论者、评论对象的获取方式进行限制。
由表1的例子可以看出,根据本发明的实施例,在形成训练样本集合时,将所有的历史评论文本分别根据评论者和/或评论对象进行区分。可以看出,评论者1对于评论对象1、2分别进行了评论;评论者2对于评论对象2进行了评论……(这里例如评论对象1是手机,2是吸尘器)。可以理解的,当只考虑评论者i或评论对象j时,只需隐去相应的另一参数即可。
在训练样本集合中,每个历史评论文本优选地表示为向量。评论文本的向量表示Xij可以根据评论文本中使用的文字串来形成。
根据本发明的一个实施例,可以通过任何拆分方式来对历史评价文本进行拆分,并提取其中的文字串(例如词)。该拆分操作可以采用现有技术中的方法进行,本发明实施例并不对此做出限定。这种情况下,可以收集训练样本集合中的所有历史评论文本中出现的所有文字串(例如词),形成文字串集合。例如:可以根据常用词词典或者其他确定的词库,并从训练样本集合中的评论文本中选出与词典或词库对应的文字串形成文字串集合。再例如,可以选择预定长度窗口的方式进行拆分。例如:这个手机很好。采用2个字的窗口,将会拆分为:这个、个手、手机、机很、很好。
考虑训练文本集合对应的文字串集合中包含K个文字串,于是可以将该文字串集合表示成一个K维向量,其中每个文字串在向量中只占一个位置(即,向量元素)。例如,针对以表1为例的训练样本集合,文字串集合可以形成一个向量XT={x1,x2,…,xk}={声音,很,大,待机,时间,还行,袋子,有点,小,总体,…}。
针对训练样本集合中的特定的历史评论文本,通过该评论文本中是否包括文字串集合中的各个文字串来确定对应的向量元素的值,从而形成评论文本的向量表示。
在本发明的一个实现方式中,若一条评论文本中出现了与文字串集合中的文字串相同的文字串,则将该文字串对应的向量元素的值设为1,否则设为0。例如:如果评论文本中出现了文字串“声音”、“大”、“时间”和“还行”,则该文本可以表示为向量Xij T={1,0,1,0,1,1,0,0,0,0,…}。
可选地,在另一个实现方式中,一个文字串对应的向量元素的值设为其在一条评论文本中出现的次数。如果该评论文本中的文字串“声音”、“大”、“时间”和“还行”的出现次数分别为1次,2次、3次和1次,则该文本可以表示为向量Xij T={1,0,2,0,3,1,0,0,0,0,…}。
应该理解,评论文本的向量表示不局限于上述公开的方式。例如评论文本中出现的文字串对应的向量元素的值可以设为任何非零值,如1/K。
于是,针对训练样本集合中的每条历史评论文本,可以基于该文字串集合的向量表示和每条历史评论文本中所使用的文字串,形成每条评论文本对应的向量。例如,根据文字串是否在评论文本中出现,将文字串对应的向量元素的值设为1或0。于是,表1中的评论可以分别表示如下:
X11 T={x1,x2,…,xk}={1,1,1,1,1,1,0,0,0,0,0,…}
X12 T={x1,x2,…,xk}={1,1,1,0,0,1,1,1,1,0,0,…}
X22 T={x1,x2,…,xk}={1,0,0,0,0,1,0,0,0,1,1,…}
……
评论文本对应的评价机制可能是统一的,也可能是不统一(例如,存在5星制,5分制,优良中差制,好与不好制,或者10分制等等)。在后一情况下,可以将不同机制下的评价转换成统一机制下的等价分数。
于是,每条历史评论文本向量及其对应的评价构成了训练样本集合中的一个训练样本,历史评论文本集合对应的文字串集合形成了训练样本集合对应的文字串集合。从而形成根据评论者和/或评论对象进行区分的训练样本集合。
在步骤S230中,基于训练样本集合来求解多元回归模型。
首先建立回归模型。
例如,回归模型可以建立为如公式(1)所示。
考虑到在评论文本中,某些词汇对最终评论的情感极性和强度的影响是和评论者以及评论对象无关的,例如表1中的“总体”等词,还有“不”、“但是”等词,可以用W0来代表。而有些词是和评论者以及评论对象有关的,例如“声音”“不错”等词,可以用Wij来代表。于是,公式(1)中WT可以分成W0和WT两部分,从而得到下面的公式(2)。
其中r表示分数,i代表评论者(的编号),j代表评论对象(的编号),Xij代表第i个评论者对第j个评论对象的评论文本,W0代表评论文本中的一些词对最终评论的情感极性和强度的、与评论者以及评论对象无关的影响,Wij代表评论文本中的另一些对最终评论的情感极性和强度的、与评论者以及评论对象有关的影响,wijk表示了第i个评论者评论第j个评论对象时用第k个词对评价的影响。于是,公式(3)是考虑了文本、评论者、评论对象三种因素的打分模型,具体考虑的方式是分为两部分,一部分是和评论者以及评论对象无关的,另一部分是有关的。无关的部分沿用文献1中的方式即可,关键是有关的那部分如何建立模型。
假设训练样本集合中有N个评论者,M个评论对象,K个词,因为任何一个组合(第i代表评论者对第j个评论对象用了第k个词)都可能对评价产生不同的影响,所以wijk(当i,j,k取不同的值的时候)可能都不同,因此考虑全部取值的时候wijk实际对应一个三维张量,记为其中张量的第一维对应于评论者、第二维对应于评论对象,而第三维对应于文字串(即,评论文本)。张量中存在N×M×K个项,每个项对应于特定的参数wijk。容易看出,wijk可以反映第i个评论者评价第j个评论对象时使用的第k个文字串度对分数的影响。通常来说N×M×K是一个很大的数,真的要求解这么多变量需要大量的训练样本(例如每个评论者对每个对象的评论,及其对应的评价),但是这在实际中是很难获得的(例如每个评论者只对少量的对象评论过)。所以如果考虑这么多参数的话,可能在训练样本的数据较少时导致稀疏,难以很好地求解这个模型。
W≈I×1U×2V×3P 公式(3),
其中U、V和P分别针对评论者、评论对象和评论文本,它们被称为因子矩阵(latent factor matrices)。这些因子矩阵的每个行ui、vj和pk对应于与每个特定评论者、评论对象、文字串相关联的因子。I表示D×D×D的单位张量,D可以是大于或者等于1的整数,并且×k表示张量在第k维上与矩阵相乘。
在本发明的一个实施方式中,D≥3。例如,当D=3时,U、V、P可以表示为如下。
于是,在公式(3)的模型下,W中的参数数目将变为(M+N+K)×D个。因为D可以设为一个较小的数,例如3,所以(M+N+K)×D远远小于N×M×K,这样可以较好地解决数据稀疏问题。因此将公式(2)转换为下面的公式(4)。
其中,
xijk表示第i个评论者评价第j个评论对象时使用的第k个文字串,且
以下阐述如何求解公式(4)。
在现有技术中,通常需要设定一个优化目标,并通过训练样本集合对公式(4)的回归模型进行训练。这样可以将求解公式(4)转换成求解一个优化问题:求解出一组W0和U、V、P,使得上述训练集合中的每一个样本数据都能尽量满足公式(4)。于是,可以建立如下的优化目标:
其中rij是评论文本Xij根据当前得到的模型参数值、根据公式(4)算出的打分,是该评论文本Xij在训练样本集合中的评价。Ω(W0,U,V,P)中的α·|W0|2+β·(|U|2+|V|2+|P|2)的目的是避免过拟合,α,β是事先设定的系数。应该理解,优化目标Ω(W0,U,V,P)可以采取其他替代形式,例如其后面部分不是必须的,可以省略或采样其他形式。在此不再赘述。
于是求解公式(4)转换为求出一组W0和U、V、P,使得Ω(W0,U,V,P)达到最小。
根据本发明的一个实施例,具体求解时,可以用梯度下降法对公式(5)进行求解,以求出W0和U、V、P的每一维的值。
例如,梯度下降法会对公式(5)先求偏导数(梯度)如下,然后随机设置W0和U、V、P的初始值,再根据梯度不断调整W0和U、V、P,以便尽快找到最理想的W0和U、V、P,使得Ω(W0,U,V,P)最小。
最终求得的结果例如为:
W0T={0,-0.1,…,-0.1},
可以将上述求解结果和公式(4)一起存储起来,以作为预先确定的回归模型在方法100中使用。针对新的、没有评价的评论(即,待评价的评论文本),可以使用公式(4)和求解出的W0和U、V、P构成的回归模型计算出一个评价(该评价例如可以为一个分数)。
应该理解,图2所示的实施例仅是示意性的,本发明的回归模型并不局限于方法200中所示的回归模型。
例如,方法200中同时考虑了历史评论文本、评论者和评论对象三个因素。然而,根据本发明的实施例,可以仅考虑历史评论文本以及评论者,或者历史评论文本以及评论对象。这种情况下,权重张量W可以分解为两个低维矩阵的张量乘积。另外,根据本发明的实施例,还可以附加考虑上述三个因素之外的其他因素。如此权重张量W可以相应地分解为其他数目的低维矩阵的张量乘积。
此外,方法200中通过梯度下降法对求解回归模型进行了示例说明。然而,本发明的实施例并不局限于此,本领域技术人员应该理解还可以通过其他优化算法,例如坐标轮换法、Powell法、变尺度法等等,来求解回归模型。
下面参考图3,说明步骤120中如何利用所确定的回归模型对待评价的评论文本进行评价。
图3示出了根据本发明的一个优选实施例的使用回归模型对待评价的评论文本进行评价的过程300。
在步骤S310中,将待评价的评论文本与训练样本集合对应的文字串集合进行匹配,以提取待评价的评论文本中使用的与文字串集合中的文字串相匹配的文字串。如上所述,该文字串可以是字、词,或者根据任意切词技术所得的。然后,与针对图2所讨论的形成历史评价文本的向量类似,可以通过评论文本中是否包括文字串集合中的各个文字串来确定对应的向量元素的值,从而形成待评价的评论文本的向量表示Xij。
在步骤S320中,确定该待评价的评论文本的评论者和/或评论对象。例如可以根据获取评论文本的来源来确定评论者和/或评价对象,以及根据评论文本中提取的文字串来确定评论对象,等等。
在步骤S330中,基于待评价的评论文本的向量,以及所确定的评论者和/或评论对象,通过评价回归模型来评价该待评价的评论文本。例如,可以根据上述公式(2)或(4)的回归模型及其参数来确定待评价的评价文本的分数。
根据本发明的对评论文本进行评价的方法可以有多种应用。例如,可以用于帮助对评论对象进行评价,或者比较多个同类评价对象。
例如,当用户、商家等第三方希望了解大众对于特定产品的评价时,其可以从网络上(例如博客、购物网站、“口碑”网站、社交网络等等)收集针对该产品的评论。所收集的评论文本有些是已经打分的,而有些可能是没有打分的。在这种情况下,可以应用本发明的评价方法对这些没有打分的评论文本进行打分。然后,针对该特定的评论对象,计算其对应的所有评论文本的平均分数,作为该评论对象的分数。于是,第三方可以通过该分数直观地了解大众对该评论对象(例如,某个产品)的真实评价。
此外,如果第三方希望比较多个类似的评论对象,则可以如上所述对这多个评论对象进行打分,然后根据各个评论对象的分数,对这多个评论对象进行排序。从而,方便第三方比较和选择产品。
应该理解,本发明的评价机制不限于上述应用。
图4示出了用于实现根据本发明的一个实施例的对评论文本进行评价的装置400。如图所示,装置400包括获取单元410和评价模块420。获取模块400用于获取评论文本。评价模块420用于通过回归模型对待评价的评论文本进行评价。评价模块420中使用的回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
优选地,评价模块420还包括匹配单元422,评论者确定单元424、评论对象确定单元426以及输入单元428。
匹配单元422用于将具体的评论文本与训练样本集合对应的文字串集合进行匹配,以提取该评论文本中使用的与文字串集合中的文字串相匹配的文字串。
评论者确定单元424用于确定评论文本对应的评论者。
评论对象确定单元426用于确定评论文本对应的评论对象。
输入单元428用于根据评论文本中提取的匹配文字串生成的评论文本的向量,以及所确定的评论者和/或评论对象,通过回归模型评价待评价的评论文本。
优选地,装置400还包括存储单元430,用于存储文字串集合,回归模型及其参数。
装置400用于执行方法100。装置400的具体操作可以参考上述方法100和300,在此不再赘述。
应该理解,装置400仅是示例性的。根据本发明的用于给对评论文本进行评价的装置并不局限于所示出的具体形式。装置400可以包括更多或者更少的部件。例如,评论者确定单元424和评论对象确定单元426是可选的,取决于所使用的归模型与评论者和/或评论对象的相关性,装置400可以包括单元424和426中的任意一个或二者。
可选地,装置400还可以包括平均值计算单元,用于针对特定的评论对象,计算其对应的所有评论文本的平均分数,以作为该评论对象的分数。
可选地,装置400还可以包括排序单元,用于根据各个评论对象的分数,对多个评论对象进行排序。
图5示出了用于实现根据本发明的一个实施例的获取评论回归模型的装置500。装置500包括获取单元510、训练样本集合形成单元520,以及训练单元530。
获取单元510用于获取评论文本。例如,其可以具有与外部通信的接口,例如具有与互联网或者外部文件服务器的接口,可从各个网站(例如博客、购物网站、“口碑”网站、社交网络等等)获取已打分的评论文本的集合,形成历史评论文本集合。
训练样本集合形成单元520用于将历史评论文本集合中的所有评论文本根据评论者和/或评论对象进行区分,然后结合各个历史评论文本对应的评价,形成训练样本集合。
优选地,训练样本集合形成单元520包括切词单元521,用于对历史评价文本进行拆分,并提取其中的文字串(例如词)。该拆分操作可以采用现有技术中的方法进行,本发明实施例并不对此做出限定。可以收集所有历史评论文本中出现的所有文字串(例如词),形成训练样本集合对应的文字串集合。
优选地,训练样本集合形成单元520包括匹配单元522,用于将具体的评论文本与训练样本集合对应的文字串集合进行匹配,以提取该评论文本中使用的与文字串集合中的文字串相匹配的文字串。根据评论文本中提取的匹配文字串,可以生成评论文本对应的向量。每条评论文本向量及该评论文本对应的评价形成一个训练样本。
优选地,训练样本集合形成单元520包括评论者确定单元524,用于确定评论文本对应的评论者。
优选地,训练样本集合形成单元520包括评论对象确定单元526,用于确定评论文本对应的评论对象。
训练单元530用于使用训练样本集合对回归模型进行训练,以确定回归模型的参数。
训练单元530包括输入单元538,用于根据评论文本中提取的匹配文字串生成的评论文本的向量,以及所确定的评论者和/或评论对象,通过回归模型评价评论文本。输入单元538可以在训练过程中,计算每个样本根据当前回归模型的参数计算中的评价。
在一个实施例中,训练单元530利用训练样本集合对公式(2)的回归模型进行训练,以确定其中的参数W0和Wij。
优选地,训练单元530可以利用训练样本集合对公式(4)的回归模型进行训练。例如,训练单元530利用训练样本集合对公式(5)的优化目标进行优化,采用梯度下降法来确定回归模型的参数W0和U、V、P。
优选地,装置500还包括存储单元540,用于存储文字串集合,训练样本、以及回归模型。
装置500可以用于执行方法200。装置500的具体操作可以参考上述方法200,在此不再赘述。
装置400和/或装置500可以实现在各种设备上,例如实现在网站服务器、台式计算机、膝上型计算机、智能手机、个人数字助理等等上。
装置500和装置400可以实现在不同的物理设备上。可选地,装置500可以实现为装置400的一部分。在这种情况下,二者中的具有类似功能的部件可以合并在一起。例如,装置400中的单元410、424、426和428分别与装置500中的单元510、524、526以及532的功能类似。在装置500可以实现为装置600的一部分的情况下,这些具有类似功能的单元可以合并。下面参考图6进行说明。
图6示出了用于实现根据本发明的另一个实施例的对评论文本进行评价的装置600。如图所示,装置600包括获取单元610、训练样本集合形成单元620以及训练单元630。装置600还包括匹配单元622、评论者确定单元624、评论对象确定单元626以及输入单元628。训练样本集合形成单元620包括切词单元621。匹配单元622、评论者确定单元624、评论对象确定单元626以及输入单元628,可以分别执行装置400与装置500中的各种类似单元的功能,可以操作于任何评论文本,无论其是待评价的评论文本,还是训练集合中的已评价的历史评论文本。
优选地,装置600还包括存储单640,用于存储文字串集合,训练样本、回归模型及其参数。
单元610、620、630以及621、622、624、626、628与图5中的单元510、520、530以及521、522、524、526、532类似。在此不再详述。
上面已经参考附图对本发明的实施例进行了具体描述。这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述针对评论文本自动进行评价的方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的系统。根据本发明的系统也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。
应该理解,严格地讲,本发明的实施例可以实现为数据处理设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。
至此已经结合优选实施例对本发明进行了具体描述。与现有技术相比,根据本发明的实施例对评论文本自动进行的评价,由于考虑了评论者和/或评论对象,能够更加真实、完全地反映评价的极性和强度。
发明人通过下述实验也验证了本发明的有益效果。
在实验中,建立的评价机制如下:
其中,假设训练样本集合中有n篇评论,pi是第i篇评论的分数,ri是根据现有技术的模型或本发明的考虑了评论者和评论对象的模型自动计算的分数。MAE和RMSE都是越小越好。
在Epinions和Movie两个样本集合(前者由20万篇评论,1.3万评论者,5千商品组成,后者由1.5万篇评论,5千评论者,500商品组成)上进行了试验。其中,将每个样本集合的4/5的样本作为训练样本集合求解回归模型,而将剩余的1/5作为验证样本,求出MAE和RMSE。
下面的表2示出了实验结果,其中Reg对应于文献[1]中的方法,最后一列对应于本发明的方法,其他几列分别对应于现有技术中的已知的自动打分方法。
表2
从结果看,根据本发明的方法得到的MAE和RMSE都分别小于使用其他方法得到的MAE和RMSE。也即,本发明的方法的自动打分更接近真实的评论者打分。所以,本发明的方法优于文献[1]和其他现有技术的打分方法。
应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
Claims (17)
1.一种对评论文本进行评价的方法,包括:
使用回归模型对待评价的评论文本进行评价;
其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
2.根据权利要求1所述的方法,其中,所述历史评论文本集合包含两个以上评论者的评论文本和/或针对两个以上评论对象的评论文本,并且所述历史评论文本集合相应地根据评论者和/或评论对象进行区分,然后结合所述各个历史评论文本对应的评价作为训练样本集合。
3.根据权利要求1所述的方法,其中,所述通过评价回归模型对待评价的评论文本进行评价包括:
将待评价的评论文本与所述历史评论文本集合对应的文字串集合进行匹配,以获取相匹配的文字串;
确定待评价的评论文本的评论者和/或评论对象,
根据所述相匹配的文字串生成待评价的评论文本的向量,以及所确定的评论者和/或评论对象,通过所述评价回归模型评价所述待评价的评论文本。
4.根据权利要求3所述的方法,其中,所述历史评论文本集合对应的文字串集合通过以下方法获得;
获取所述历史评论文本集合,对其中的所有历史评论文本进行拆分以获取所述历史评论文本集合对应的文字串集合。
5.根据权利要求2所述的方法,其中,所述评价回归模型通过以下方式获得:
使用由所述区分后的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合,对以下回归模型进行训练;
r=f(Xij,i,j)=(W0+Wij)T·Xij
其中r为评价,i为评论者的编号,j为评论对象的编号,Xij为第i个评论者对第j个评论对象的评论文本的向量表示,W0为与评论者和/或评论对象无关的权重项,Wij代表与评论者和/或评论对象相关的权重项。
6.根据权利要求5所述的方法,其中wij对应的张量W分解为一个低维单位张量与多个矩阵的乘积,
W≈I×1U×2V×3P
其中,I是D×D×D的单位张量,D是大于等于1的正整数,U、V和P是分别针对评论者、评论对象和评论文本的因子矩阵,×k表示张量在第k维上与矩阵相乘。
9.一种对评论文本进行评价的装置,其中,该装置包括:
第一获取模块,用于获取待评价的评论文本,
评价模块,用于通过回归模型对待评价的评论文本进行评价;
其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
10.根据权利要求9所述的装置,其中,所述历史评论文本集合包含两个以上评论者的评论文本和/或针对两个以上评论对象的评论文本,并且所述历史评论文本集合相应地根据评论者和/或评论对象进行区分,然后结合所述各个历史评论文本对应的评价作为训练样本集合。
11.根据权利要求9所述的装置,其中,所述评价模块包括:
匹配单元,用于将待评价的评论文本与所述历史评论文本对应的文字串集合进行匹配,以获取相匹配的文字串;
确定单元,用于确定待评价的评论文本的评论者和/或评论对象,
输入单元,用于根据所述相匹配的文字串生成的待评价的评论文本的向量,以及所确定的评论者和/或评论对象,通过所述评价回归模型评价所述待评价的评论文本。
12.根据权利要求11所述的装置,还包括:
第二获取单元,用于获取所述历史评论文本集合,对其中的所有历史评论文本进行拆分以获取所述历史评论文本集合对应的文字串集合。
13.根据权利要求10所述的装置,还包括:
第一训练单元,用于使用由所述区分后的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合,对以下回归模型进行训练;
r=f(Xij,i,j)=(W0+Wij)T·Xij
其中r为评价,i为评论者的编号,j为评论对象的编号,Xij为第i个评论者对第j个评论对象的评论文本的向量表示,W0为与评论者和/或评论对象无关的权重项,Wij代表与评论者和/或评论对象相关的权重项。
14.根据权利要求13所述的装置,其中wij对应的张量W分解为一个低维单位张量与多个矩阵的乘积,
W≈I×1U×2V×3P
其中,I是D×D×D的单位张量,D是大于等于1的正整数,U、V和P是分别针对评论者、评论对象和评论文本的因子矩阵,×k表示张量在第k维上与矩阵相乘。
17.一种用于获取评价评论文本的回归模型的方法,包括:
获取历史评论文本集合和各个历史评论文本对应的评价,
根据评论者和/或评论对象进行区分对所述历史评论文本集合进行区分,
使用由所述区分的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合来求解所述评价回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110131518.5A CN102789449B (zh) | 2011-05-20 | 2011-05-20 | 对评论文本进行评价的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110131518.5A CN102789449B (zh) | 2011-05-20 | 2011-05-20 | 对评论文本进行评价的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102789449A true CN102789449A (zh) | 2012-11-21 |
CN102789449B CN102789449B (zh) | 2016-08-03 |
Family
ID=47154853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110131518.5A Expired - Fee Related CN102789449B (zh) | 2011-05-20 | 2011-05-20 | 对评论文本进行评价的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102789449B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574003A (zh) * | 2014-10-10 | 2016-05-11 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
CN105630793A (zh) * | 2014-10-28 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息权重的确定方法和装置 |
CN106952122A (zh) * | 2017-04-11 | 2017-07-14 | 张晓亮 | 一种车辆评价方法及系统 |
CN108595564A (zh) * | 2018-04-13 | 2018-09-28 | 众安信息技术服务有限公司 | 媒体友好度评估方法、装置及计算机可读存储介质 |
CN109471981A (zh) * | 2018-11-06 | 2019-03-15 | 北京达佳互联信息技术有限公司 | 评论信息排序方法、装置、服务器及存储介质 |
WO2019153737A1 (zh) * | 2018-02-12 | 2019-08-15 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110766461A (zh) * | 2019-10-22 | 2020-02-07 | 杭州蓝诗网络科技有限公司 | 购物平台自动回评系统 |
WO2020114324A1 (zh) * | 2018-12-04 | 2020-06-11 | 阿里巴巴集团控股有限公司 | 回评文本的生成方法、装置及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
-
2011
- 2011-05-20 CN CN201110131518.5A patent/CN102789449B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
Non-Patent Citations (4)
Title |
---|
BERNARD J. JANSEN ET AL: "Twitter Power:Tweets as ElectronicWord of Mouth", 《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY》 * |
吕韶华: "面向中文评论文本的情感倾向性研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
郝媛媛 等: "基于影评数据的在线评论有用性影响因素研究", 《管理科学学报》 * |
陈明亮,章晶晶: "网络口碑再传播意愿影响因素的实证研究", 《浙江大学学报(人文社会科学版)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574003A (zh) * | 2014-10-10 | 2016-05-11 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
CN105574003B (zh) * | 2014-10-10 | 2019-03-01 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
CN105630793A (zh) * | 2014-10-28 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息权重的确定方法和装置 |
CN106952122A (zh) * | 2017-04-11 | 2017-07-14 | 张晓亮 | 一种车辆评价方法及系统 |
WO2019153737A1 (zh) * | 2018-02-12 | 2019-08-15 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108595564A (zh) * | 2018-04-13 | 2018-09-28 | 众安信息技术服务有限公司 | 媒体友好度评估方法、装置及计算机可读存储介质 |
CN109471981A (zh) * | 2018-11-06 | 2019-03-15 | 北京达佳互联信息技术有限公司 | 评论信息排序方法、装置、服务器及存储介质 |
CN109471981B (zh) * | 2018-11-06 | 2021-05-25 | 北京达佳互联信息技术有限公司 | 评论信息排序方法、装置、服务器及存储介质 |
WO2020114324A1 (zh) * | 2018-12-04 | 2020-06-11 | 阿里巴巴集团控股有限公司 | 回评文本的生成方法、装置及系统 |
CN111353024A (zh) * | 2018-12-04 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 回评文本的生成方法、装置及系统 |
CN111353024B (zh) * | 2018-12-04 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 回评文本的生成方法、装置及系统 |
CN110598203A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110598203B (zh) * | 2019-07-19 | 2023-08-01 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
CN110766461A (zh) * | 2019-10-22 | 2020-02-07 | 杭州蓝诗网络科技有限公司 | 购物平台自动回评系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102789449B (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102789449A (zh) | 对评论文本进行评价的方法和装置 | |
US11157926B2 (en) | Digital content prioritization to accelerate hyper-targeting | |
CN106446228B (zh) | 一种web页面数据的采集分析方法及装置 | |
TWI491217B (zh) | 使用自使用者活動更新所得觀點增加內容關聯性之方法 | |
CN105279146A (zh) | 针对短不相关文本的检测的上下文感知方法 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105608200A (zh) | 一种网络舆论趋势预测分析方法 | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
CN103324665A (zh) | 一种基于微博的热点信息提取的方法和装置 | |
JP2019519019A (ja) | テキストタイプを識別する方法、装置及びデバイス | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN103514191A (zh) | 用于确定目标推广信息的关键词匹配模式的方法和设备 | |
CN112771564A (zh) | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 | |
CN105573995A (zh) | 一种兴趣识别方法、设备以及数据分析方法 | |
CN104077415A (zh) | 搜索方法及装置 | |
CN106294676B (zh) | 一种电子商务政务系统的数据检索方法 | |
CN105447193A (zh) | 一种基于机器学习和协同过滤的音乐推荐系统 | |
CN111859071A (zh) | 一种基于互联网信息的商业信息挖掘系统 | |
Husnain et al. | Estimating market trends by clustering social media reviews | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
Alshammari et al. | Aspect-based sentiment analysis for Arabic content in social media | |
Soliman et al. | Utilizing support vector machines in mining online customer reviews | |
Kim et al. | Comparing machine learning classifiers for movie WOM opinion mining | |
CN116188120B (zh) | 一种有声书的推荐方法、装置、系统及存储介质 | |
CN104516873A (zh) | 建立情感模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160803 Termination date: 20170520 |
|
CF01 | Termination of patent right due to non-payment of annual fee |