CN107369066B - 一种评论对象之间的特征比较方法及装置 - Google Patents
一种评论对象之间的特征比较方法及装置 Download PDFInfo
- Publication number
- CN107369066B CN107369066B CN201710508795.0A CN201710508795A CN107369066B CN 107369066 B CN107369066 B CN 107369066B CN 201710508795 A CN201710508795 A CN 201710508795A CN 107369066 B CN107369066 B CN 107369066B
- Authority
- CN
- China
- Prior art keywords
- comment
- historical
- word
- words
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012216 screening Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000012552 review Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 241001275954 Cortinarius caperatus Species 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种评论对象之间的特征比较方法和装置,所述方法包括:若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;在评论词集合中,确定是否存在代表M个评论对象的共同特征的P个历史评论词;若存在,则将P个历史评论词作为M个评论对象的共同特征;和/或,在评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词,目标对象是M个评论对象中的任一评论对象;若存在,则将所述Q个历史评论词作为目标对象的固有特征。本申请通过在多个评论对象之间进行特征比较,可以有效了解不同评论对象。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种评论对象之间的特征比较方法及装置。
背景技术
在互联网时代,存在不同的评论对象,比如商品、国家政策等等,对于不同用户来讲,这些评论对象对应的评论内容具有不同意义。
对于一些用户,希望找到某评论对象的独有特征。例如,对于一名新买家,通常会在购买当前商品之前,浏览之前购买者对当前商品的评论,并基于之前购买者的评论来对当前商品与其他商品进行特征区分,从而做出适合自己的购买选择,然而,由于当前商品的之前购买者众多,单个商品的评论有可能达到上万或者十万条,阅读量之大使得新买家通常不会一一阅读,这使得新买家无法基于这些评论,在短时间内对相同类型的商品进行特征辨别,使得新买家在同类商品中进行挑选时尤其困难。
对于一些用户,希望找到不同评论对象的相同特征。例如,假设某吸尘器厂商旗下的吸尘器销量均不理想,对于该吸尘器厂商的产品设计者,希望找到市面上畅销吸尘器的公共特征,并考虑将这些公共特征融入到自己期下的产品中,从而提升自己期下产品的畅销度,然而,由于不同吸尘器产品在网络中的评论数目众多,同样无法在短时间内从众多产品中找到它们的共同特征。
对于一些用户,既希望找到某评论对象的独有特征、又希望找到不同评论对象的相同特征。例如,对于一名政策分析员,希望找到不同时期,某国家对自己国家或对其他国家的独有政策和相同政策,基于此,对接下来的政策趋势进行分析,然而,当相关政策评论较多时,也无法在短时间内从众多政策评论中找到不同时期的独有政策和相同政策。
发明内容
有鉴于此,本申请的主要目的在于提供一种评论对象之间的特征比较方法及装置,通过在多个评论对象之间进行特征比较,实现有效了解不同评论对象的目的。
本申请实施例提供了一种评论对象之间的特征比较方法,包括:
若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;
在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征;和/或,
在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征;所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象;
其中,M≥2,N≥0,P≥1,Q≥1,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
本申请实施例还提供了一种评论对象之间的特征比较装置,包括:
评论词获取单元,用于若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;
共同特征确定单元,用于在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征;和/或,
固有特征确定单元,用于在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征;所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象;
其中,M≥2,N≥0,P≥1,Q≥1,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
本申请提供了一种评论对象之间的特征比较方法及装置,通过获取每一评论对象的历史评论词,并将当前评论对象的历史评论词与除当前评论对象以外的所有评论对象的历史评论词进行比较,得到代表当前评论对象的固有特征和/或所有评论对象的共同特征的历史评论词,这样,用户不需要一一阅读各个评论对象的所有评论,就可以方便、快速、准确、直观地对各个评论对象行进特征辨别,从而在短时间内可以轻松地从众多类似的评论对象中找到满足自己需求的评论对象,提高了用户挑选评论对象的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种评论对象之间的特征比较的方法的流程示意图;
图2为本申请提供的一种评论对象共同特征的获取方法的流程示意图;
图3为本申请提供的二维坐标示意图之一;
图4为本申请提供的一种评论对象固有特征的获取方法的流程示意图;
图5为本申请提供的二维坐标示意图之二;
图6为本申请提供的一种评论对象之间的特征比较装置的组成示意图;
图7为本申请提供的一种评论对象之间的特征比较装置的硬件构成示意图。
具体实施方式
本申请实施例提供了一种评论对象之间的特征比较方法及装置,可以基于评论对象的已有评论对评论对象进行特征辨别,即确定当前评论对象相对于其它评论对象的固有特征和/或多个评论对象的共同特征,从而解决现有技术中由于评论数量较多导致的特性比较困难的问题。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例提供的一种评论对象之间的特征比较方法的流程示意图,所述方法包括:
S101:若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合。
为了在M个评论对象之间进行特征比较,可以预先制作一个应用程序(Application,简称APP),启动该APP后可以显示一个输入区域,用户可以利用该输入区域输入这M个评论对象的唯一标识,比如,可以输入所述评论对象的名字、还可以进一步输入所述评论对象的产品型号等。
在本实施例中,进行特征比较的评论对象的数量至少为2个,即M≥2。
本实施例不对所述评论对象的类型进行限制,例如,所述评论对象可以是商品也可以是非商品,具体可以为一本书、或一部电影、或一部电子商品等。
此外,对于进行特征比较的M个评论对象,本实施例不对评论对象之间的类别进行限制。例如,这M个评论对象的类型可以相同,比如类型“书”;这M个评论对象的类型也可以全部或部分不同,比如“书”、“电影”等不同类型;这M个评论对象也可以是相同类型下的相近一类的评论对象,比如“手机”、“ipad“等属于相同类型(电子商品)的相近一类的评论对象。
本实施例不对所述历史评论词的获取方式进行限制。
例如,所述历史评论词可以是评论用户为评论对象直接给出的评论词,具体地,当所述评论对象为一本书时,这本书的历史评论词可以从图书购物网站或图书阅读网站中关于该本书的评论区中获取;当所述评论对象为一部电影时,这部电影的历史评论词可以从电影观看网站关于该电影的评论区中获取;当所述评论对象为一部电子商品时,这部电子商品的历史评论词可以从商品购物网站中关于该电子商品的评论区中获取。需要说明的是,除上述举例中获取历史评论词的几种方式以外,还可以通过其它渠道获取所述评论对象的历史评论词,这里不再一一赘述。由于同一评论对象可能对应有多个评论区,评论区中可能包括大量条目的历史评论,因此,在从所述评论对象的评论区中获取历史评论词时,可以选择一个或多个评论区,并将所选评论区中的全部或部分历史评论作为一个评论文档。由于每一条历史评论通常由词和/或句子组成,因此,需要从该评论文档中提取历史评论词,比如,在提取历史评论词时,可以采用分词技术等方式进行提取。
又例如,所述历史评论词可以是评论用户为评论对象间接给出的评论词,比如评论主题,举例来讲,假设评论对象对应的评论文档中包括“足球、篮球、排球、奥运会、银行、货币、贷款”等评论词,其中,基于“足球、篮球、排球、奥运会”可以得到“体育”这一评论主题,基于“银行、货币、贷款”可以得到“经济”这一评论主题,每一评论主题可以作为评论对象的历史评论词。
本实施例不对所述历史评论词的词性进行限制,例如,所述历史评论词可以是“有趣”、“漂亮”等形容词,也可以是“迪士尼”、“音乐”等名词,但是,为了有效反映所述评论对象的特征属性,所述历史评论词可以是具有独立意义的词。举例来说,假设某评论对象是一部电影,且该电影的一条历史评论是一个句子,例如,“这个漂亮的女主角是谁”,从该句历史评论中可以提取“漂亮”、“女主角”这类具有独立意义的词作为该评论对象的历史评论词。
可以理解的是,由于所述评论对象可能具有历史评论也可能不具有历史评论,所以,在获取所述评论对象的历史评论词时,可能获取到一个或多个历史评论词,也可能没有获取到任何历史评论词,即N≥0。
需要说明的是,各个评论对象的历史评论词中可能包括大量相同的历史评论词,因此,可以将合并相同历史评论词后的词汇集合作为所述评论词集合。进一步地,还可以在合并相同词汇的基础上,将含义相同的历史评论词合并成一个相同词汇,和/或,将含义相近似的历史评论词合并成一个相同词汇,因此,还可以将合并含义相同和/或含义相近的词汇集合作为所述评论词集合。
S102:在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征。
其中,P≥1,所述共同特征是M个评论对象都同时具备的相同特征。
S103:在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征。
其中,Q≥1,所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象。
为便于理解,下面举例说明本实施例:
在S101中,假设所述M个评论对象包括对象A、对象B和对象C,对象A具有N1个历史评论词,对象B具有N2个历史评论词,对象C具有N3个历史评论词,将这些历史评论词进行合并处理后形成了N(N≤N1+N2+N3)个不同历史评论词,将这N个不同历史评论词作为所述评论词集合。
在S102中,从所述评论词集合中提取代表对象A、对象B和对象C的共同特征的P个历史评论词,若能提取到,则对象A的N1个历史评论词、对象B的N2个历史评论词、以及对象C的N3个历史评论词中均包含该P个历史评论词。
在S103中,当对象A、对象B、对象C分别作为所述目标对象时,Q分别等于Q1、Q2和Q3。具体地,从所述评论词集合中提取代表对象A的固有特征的Q1个历史评论词,其中,Q1个历史评论词包含在对象A的N1个历史评论词中;同样的,从所述评论词集合中提取代表对象B的固有特征的Q2个历史评论词中,其中,Q2个历史评论词包含在对象B的N2个历史评论词;同样的,从所述评论词集合中提取代表对象C的固有特征的Q3个历史评论词,其中,Q3个历史评论词包含在对象C的N3个历史评论词中。
在本实施例中,用户可以根据需求通过APP对特征比较结果进行设置。具体地,当设置结果表明用户希望获取多个评论对象的共同特征时,触发执行S101和S102;当设置结果表明用户希望获取某评论对象相对于其它评论对象的独有特征时,触发执行S101和S103;当设置结果表明用户希望获取多个评论对象的共同特征、以及其中每一评论对象相对于其它评论对象的独有特征时,触发执行S101-S103。
需要说明的是,当步骤102和步骤103均需要执行时,本实施例不对步骤102和步骤103的执行顺序进行限定,比如,可以同时执行步骤102和步骤103、也可以先执行步骤102再执行步骤103、亦可以先执行步骤103再执行步骤102。
可以理解的是,由于所述P个历史评论词代表了所述M个评论对象都同时具备的相同特征,所述Q个历史评论词代表了某评论对象与其它评论对象相比时的固有特征,而同一个历史评论词不能同时是所述相同特征和所述固有特征,所以,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
可见,本申请提供的一种评论对象之间的特征比较方法,通过获取每一评论对象的历史评论词,并将当前评论对象的历史评论词与除当前评论对象以外的所有评论对象的历史评论词进行比较,得到代表当前评论对象的固有特征和/或所有评论对象的共同特征的历史评论词,这样,用户不需要一一阅读各个评论对象的所有评论,就可以方便、快速、准确、直观地对各个评论对象进行特征辨别,从而在短时间内可以轻松地从众多类似的评论对象中找到满足自己需求的评论对象,提高了用户挑选评论对象的效率。
下面对步骤S102的具体实现方式进行介绍。
参见图2所示的一种评论对象共同特征的获取方法的流程示意图,S102中的“确定是否存在代表所述M个评论对象的共同特征的P个历史评论词”,具体可以包括:
S201:将M个评论对象进行分组,得到至少一个第一对象分组。
具体地,当M=2时,将所述M个评论对象作为一个第一对象分组;当M>2且为偶数时,将所述M个评论对象进行两两分组,形成M/2个第一对象分组;当M>2且为奇数时,将所述M个评论对象中的一个评论对象作为一个第一对象分组,并将剩余的评论对象进行两两分组,形成(M+1)/2个第一对象分组。
需要说明的是,对于M>2的情况,可以先随机选择一个评论对象作为一个第一对象分组,然后将剩下的M-1个评论对象两两随机组合;当然,也可以先使M-1个评论对象进行两两随机组合,再将剩下的一个评论对象作为一个第一对象分组。
S202:从所述评论词集合中确定属于所述第一对象分组的历史评论词,形成第一评论子集。
例如,假设所述第一对象分组包括对象A和对象B,且所述评论词集合中包括对象A的5个历史评论词、包括对象B的7个历史评论词,则这12个历史评论词形成了所述第一评论子集;假设所述第一对象分组只包括对象C,且所述评论词集合中包括对象C的8个历史评论词,则这8个历史评论词形成了所述第一评论子集。
S203:从所述第一评论子集中获取代表所述第一对象分组的共同特征的历史评论词,形成共同评论词集合。
在本实施例中,所述第一对象分组包括两个评论对象或一个评论对象。对于所述第一对象分组包括两个评论对象的情形,在所述第一评论子集中确定可以代表所述第一对象分组的共同特征的历史评论词,这些历史评论词形成一个共同评论词集合;对于所述第一对象分组只包括一个评论对象的情形,可以将所述第一评论子集中的全部或部分历史评论词形成共同评论词集合。
这样,每一第一对象分组便具有一个共同评论词集合。
需要说明的是,所述共同评论词集合中可能包含一个或多个历史评论词、也可能不包含任何历史评论词。
S204:判断是否存在P个历史评论词,其中,所述P个历史评论词全部包含在每一所述第一对象分组对应的共同评论词集合中。
在本实施例中,当第一对象分组的个数为两个或者两个以上时,即当M>2时,将各个第一对象分组对应的共同评论词集合进行历史评论词的对比,找出所有共同评论词集合中均具有的每一历史评论词,并将这些历史评论词中的全部或部分,用来代表所述M个评论对象的共同特征;当所述第一对象分组的个数仅为一个时,即当M=2时,使该第一对象分组对应的共同评论词集合中的全部或部分历史评论词,代表所述M个评论对象的共同特征。
具体地,步骤S203中的“在所述第一评论子集中确定可以代表所述第一对象分组的共同特征的历史评论词”,有至少如下两种可能的实施方式:
在第一种实施方式中,S203具体可以包括以下步骤A1至A4:
步骤A1:创建所述第一对象分组对应的二维坐标系。
当所述第一对象分组包括两个评论对象时,为便于描述,将其中一个评论对象称为第一评论对象、将另一个评论对象称为第二评论对象,并将第一评论对象对应于所述二维坐标系的X轴,将第二评论对象对应于所述二维坐标系的Y轴。
步骤A2:在所述二维坐标系的第一象限内绘制所述第一评论子集中每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第一评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第二评论对象的特征时的特征值。
对于所述第一评论子集中每一历史评论词LP1,需要计算该历史评论词LP1作为所述第一评论对象的特征时的特征值,该特征值即为历史评论词LP1在X轴上的坐标值,其中,该特征值的大小与历史评论词LP1作为第一评论对象的重要特征的程度成正比,即,该特征值越大,历史评论词LP1越是第一评论对象的重要特征;以及,计算该历史评论词LP1作为所述第二评论对象的特征时的特征值,该特征值即为历史评论词LP1在Y轴上的坐标值,其中,该特征值的大小与历史评论词LP1作为第二评论对象的重要特征的程度成正比,即,该特征值越大,历史评论词LP1越是第二评论对象的重要特征。之后,根据X轴上的坐标值和Y轴上的坐标值,在所述二维坐标系的第一象限内绘制历史评论词LP1的坐标点。
在步骤A2中,可以按照以下方式分别确定第一评论对象、第二评论对象的特征值:
方式1,上述特征值可以是TF-IDF值。
其中,TF表示的是词频(term frequency),IDF表示的是逆向文件频率(inversedocument frequency)。
TF-IDF值=TF×IDF,TF值是某历史评论词LP1在某一指定文件中出现的频率,IDF值是对历史评论词LP1的普遍重要性的度量。TF-IDF值与历史评论词LP1在一指定文件中的出现次数成正比,与该历史评论词LP1在整个语言环境(用一个语料库来模拟语言的使用环境)中的出现次数成反比,也就是说,若历史评论词LP1比较少见且它在一指定文件中出现的次数越多,那么历史评论词LP1的TF-IDF值就越大,说明了该历史评论词LP1对该指定文件的重要性越高,并且能够反映该指定文件的特性,正是该指定文件的关键词。具体地,当计算历史评论词LP1作为所述第一评论对象的特征时的TF-IDF值时,所述指定文件可以是用于评论所述第一评论对象的评论文档;当计算历史评论词LP1作为所述第二评论对象的特征时的TF-IDF值时,所述指定文件可以是用于评论所述第二评论对象的评论文档,比如,所述评论文档可以是S101中提及的评论文档。
现举例说明,参见图3所示的二维坐标示意图。
假设第一评论对象为电影《千与千寻》、第二评论对象为电影《冰雪奇缘》,对于所述第一评论子集中关于《千与千寻》和《冰雪奇缘》的任一历史评论词LP1,该历史评论词LP1的坐标点在X轴上的值为该历史评论词LP1作为《千与千寻》的特征时的TF-IDF值,该历史评论词LP1的坐标点在Y轴上的值为该历史评论词LP1作为《冰雪奇缘》的特征时的TF-IDF值。
假设所述第一评论子集中关于《冰雪奇缘》和《千与千寻》的历史评论词有“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”。通过计算可以得到每一历史评论词分别作为《冰雪奇缘》和《千与千寻》的特征时的TF-IDF值,从而得到每一历史评论词的坐标点的横、纵坐标值。具体地:“音乐”的坐标点a的坐标为(Xa,Ya),Xa为“音乐”作为《千与千寻》的特征时的TF-IDF值,Ya为“音乐”作为《冰雪奇缘》的特征时的TF-IDF值;“迪士尼”的坐标点b的坐标为(Xb,Yb),Xb为“迪士尼”作为《千与千寻》的特征时的TF-IDF值,Yb为“迪士尼”作为《冰雪奇缘》的特征时的TF-IDF值;“有趣”的坐标点c的坐标为(Xc,Yc),Xc为“有趣”作为《千与千寻》的特征时的TF-IDF值,Yc为“有趣”作为《冰雪奇缘》的特征时的TF-IDF值;“动画”对应的坐标点d的坐标为(Xd,Yd),Xd为“动画”作为《千与千寻》的特征时的TF-IDF值,Yd为“动画”作为《冰雪奇缘》的特征时的TF-IDF值;“吉卜力”对应的坐标点e的坐标为(Xe,Ye),Xe为“吉卜力”作为《千与千寻》的特征时的TF-IDF值,Ye为“吉卜力”作为《冰雪奇缘》的特征时的TF-IDF值;“日本风”对应的坐标点f的坐标为(Xf,Yf),Xf为“日本风”作为《千与千寻》的特征时的TF-IDF值,Yf为“日本风”作为《冰雪奇缘》的特征时的TF-IDF值。在得到这些历史评论词对应的坐标点的具体横、纵坐标值以后,根据这些坐标点的具体坐标值在图3的二维坐标系中的第一象限内绘制这些坐标点。
方式2,上述特征值可以是评论主题的出现概率。
具体地,预先建立一个LDA(Latent Dirichlet Allocation)主题模型,LDA主题模型中存在着主题的概念,这里的主题实际上是一个词袋,也就是与该评论主题相关的多个评论词的集合。然后,将评论对象的评论文档作为输入,其中的评论文档可以是S101中提及的评论文档,基于评论文档中的评论词得出不同评论主题及其出现概率。此时,每一评论主题可以作为历史评论词LP1,历史评论词LP1作为评论对象的特征时的特征值即为该评论主题的出现概率。
现举例说明,假设第一评论对象为电影《千与千寻》,将《千与千寻》的评论文档作为LDA主题模型的输入,得到以下评论主题及其出现概率:冰雪奇缘={Topic(动画):0.3,Topic(迪士尼):0.4,Topic(音乐):0.4}
假设第二评论对象为电影《冰雪奇缘》,将《冰雪奇缘》的评论文档作为LDA主题模型的输入,得到以下评论主题及其出现概率:千与千寻={Topic(动画):0.4,Topic(日本):0.2,Topic(吉卜力):0.4}。
此外,主题模型除了可以是LDA以外,还可以是附加类别标签的LDA模型(Labeled-LDA),奇异值分解(Singular value decomposition,简称SVD)模型,隐性语义分析(LatentSemantic Analysis,简称LSA)模型等等,这些主题模型均可适于本实施例,在此不再一一赘述。
步骤A3:在所述第一象限内,绘制具有第一斜率且过坐标原点的第一直线301、以及具有第二斜率且过坐标原点的第二直线302,其中,所述第一斜率大于所述第二斜率。
其中,在执行本申请提供的方法之前,可以根据经验预先设定第一直线301的第一斜率、以及第二直线302的第二斜率,比如,第一直线301与Y轴的夹角为30度、第二直线302与X轴的夹角为30度。
需要说明的是,上述步骤A2和步骤A3的前后顺序在本实施例中不做限定,可以先执行步骤A2,再执行步骤A3,也可以先执行步骤A3,再执行步骤A2。
步骤A4:从所述第一直线301与所述第二直线302形成的第一区域A内选取全部或部分历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
在本实施例中,可以选取第一区域A内的全部历史评论词作为所述第一对象分组的共同特征。例如,参见图3,选取第一区域A内的坐标点c对应的历史评论词“有趣”和坐标点d对应的历史评论词“动画”,作为代表包括《千与千寻》和《冰雪奇缘》的共同特征的历史评论词。
在本实施例中,还可以选取第一区域A内的部分历史评论词作为所述第一对象分组的共同特征。具体来讲,针对单个历史评论词来说,其坐标值离原点越远,对应的特征值越大,该历史评论词就越为对应评论对象的重要特征,因此,可以选取第一区域A内远离原点的坐标点对应的历史评论词作为所述第一对象分组的共同特征。
具体地,可以采用以下两种实施方式中的任意一种在第一区域A内选取部分历史评论词:
在第一种实施方式中,步骤A4中的“从所述第一直线301与所述第二直线302形成的第一区域A内选取部分历史评论词”,具体可以包括:选取落入第一目标区域内的历史评论词;其中,所述第一目标区域为所述第一直线301、所述第二直线302以及第三直线303形成的开放区域,所述第三直线303为所述第一象限内不过坐标原点且与所述第一直线301和所述第二直线302相交的直线。
其中,在执行本申请提供的方法之前,可以根据经验预先设定第三直线303的斜率以及第三直线303与原点之间的距离。
在本实施方式中,将所述第一直线301与所述第二直线302形成的第一区域A划分为第一子区域A1和第二子区域A2;其中,所述第一子区域A1为所述第一直线301、所述第二直线302以及所述第三直线303形成的开放区域,所述第二子区域A2为所述第一直线301、所述第二直线302以及所述第三直线303形成的封闭区域,其中,所述第一子区域A1即所述第一目标区域。
例如,从图3可见,只有“有趣”对应的坐标点c和“动画”对应的坐标点d落在第一区域A中,其中,坐标点d落在第一子区域A1中,坐标点c落在第二子区域A2中。越是远离坐标原点的历史评论词越是《千与千寻》和《冰雪奇缘》的重要特征,因此,可以选取坐标点d对应的历史评论词“动画”,作为代表《千与千寻》和《冰雪奇缘》的共同特征的历史评论词。
在第二种实施方式中,步骤A4中的“从所述第一直线301与所述第二直线302形成的第一区域A内选取部分历史评论词”,具体可以包括:
从所述第一直线301与所述第二直线302形成的第一区域A内,选取满足第一预设条件的历史评论词,所述第一预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第一特征阈值和/或在Y轴上的特征值大于第二特征阈值。
例如,假设预先设定的第一特征阈值为X且满足Xc<X<Xd、第二特征阈值为Y且满足Yc<Y<Yd,其中,Xc和Yc为“有趣”的坐标值,Xd和Yd为“动画”的坐标值;如图3可见,只有“有趣”对应的坐标点c和“动画”对应的坐标点d落在第一区域A中,通过比较,只有坐标点d的横坐标值Xd大于第一特征阈值X和/或纵坐标值Yd大于第二特征阈值Y;因此,选取坐标点d对应的历史评论词“动画”,作为代表《千与千寻》和《冰雪奇缘》的共同特征的历史评论词。
在第二种实施方式中,步骤S203具体可以包括以下步骤B1和步骤B2:
步骤B1:确定所述第一评论子集中每一历史评论词作为所述第一对象分组的共同特征时的共同特征值。
在本实施例中,可以为所述第一评论子集中的每一历史评论词LP1分别赋予一个共同特征值,该共同特征值可以反映历史评论词LP1作为所述第一对象分组的共同特征程度。
当所述第一对象分组包括两个评论对象时,为便于描述,将其中一个评论对象称为第一评论对象、将另一个评论对象称为第二评论对象。
在本申请的一个实施方式中,步骤B1具体可以包括:根据第一特征值与第二特征值,计算分组评论词作为所述第一对象分组的共同特征时的共同特征值,所述分组评论词为所述第一评论子集中的任一历史评论词;其中,所述第一特征值为所述分组评论词作为所述第一评论对象的特征时的特征值,所述第二特征值为所述分组评论词作为所述第二评论对象的特征时的特征值。
在本实施方式中,为便于描述,将所述第一评论子集中的每一历史评论词称为分组评论词,按照下述方式计算所述分组评论词的共同特征值:
首先,计算所述分组评论词作为所述第一评论对象的特征时的特征值,称其为第一特征值,并计算所述分组评论词作为所述第二评论对象的特征时的特征值,称其为第二特征值。
然后,按照以下公式计算所述分组评论词作为所述第一评论对象和第二评论对象的共同特征时的共同特征值:
其中,P(ti|ij)表示分组评论词ti作为第一评论对象ij的特征时的第一特征值,P(ti|ik)表示分组评论词ti作为第二评论对象ik的特征时的第二特征值,CommonFeature(ti|ij,ik)表示分组评论词ti作为第一评论对象ij和第二评论对象ik的共同特征时的特征值。
需要说明的是,分组评论词ti对应的CommonFeature(ti|ij,ik)值越大,则分组评论词ti越可能是所述第一对象分组的共同特征。
步骤B2:分析所述共同特征值,从所述第一评论子集中筛选出代表所述第一对象分组的共同特征的历史评论词。
当采用步骤B1中的计算方式时,所述第一评论子集中的每一历史评论词将分别对应一个共同特征值CommonFeature(ti|ij,ik),且每一历史评论词作为所述第一评论子集的共同特征的倾向程度与该历史评论词的共同特征值CommonFeature(ti|ij,ik)的大小呈正比,即,历史评论词作为所述第一评论子集的共同特征的倾向程度越高,该历史评论词的共同特征值CommonFeature(ti|ij,ik)越大。
因此,基于步骤B1的共同特征值计算方式,在本申请的一个实施方式中,步骤B2具体可以包括:提取满足第一阈值要求的共同特征值;将提取的共同特征值对应的历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。在本实施方式中,当所述第一阈值要求是大于第一预设阈值时,判断所述第一评论子集中每一历史评论词分别对应的共同特征值CommonFeature(ti|ij,ik)是否大于第一预设阈值,并将满足该阈值要求的所有历史评论词作为所述第一对象分组的共同特征。
为便于理解,同样以上述电影《千与千寻》和《冰雪奇缘》为例,具体地,当所述第一评论子集中属于《冰雪奇缘》和《千与千寻》的历史评论词有“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”时,基于上述计算方式,若“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”的共同特征值分别为X11、X12、X13、X14、X15、X16,如果1X3、X14大于第一预设阈值,则将X13、X14对应的“有趣”、“动画”,作为代表《千与千寻》和《冰雪奇缘》的共同特征的历史评论词。
下面对步骤S103的具体实现方式进行介绍。
参见图4所示的一种评论对象固有特征的获取方法的流程示意图,S103中的“确定是否存在代表所述目标对象的固有特征的Q个历史评论词”,具体可以包括:
S401:将所述目标对象与每一对比对象,分别形成一个第二对象分组。
为便于描述,关于S103中所述对比集合,其中的每一个评论对象都被称为对比对象。
所述对比集合中包括M-1个对比对象,因此,所述目标对象与每一个对比对象,可以形成M-1个第二对象分组。
例如,假设M=3,即所述M个评论对象为3个评论对象,分别为对象A、对象B和对象C;当对象A为所述目标对象、对象B和对象C分别为对象A的对比对象时,则对象A与对象B形成一个第二对象分组,对象A与对象C形成一个第二对象分组;当对象B和对象C分别作为所述目标对象时,分组方式与对象A相同,在此不再赘述。
S402:从所述评论词集合中确定属于所述目标对象的历史评论词,形成第二评论子集。
例如,假设所述第二对象分组中的目标对象为对象A,所述评论词集合中包括对象A的5个历史评论词,则这5个历史评论词形成了所述第二评论子集。
S403:从所述第二评论子集中获取代表所述目标对象的对比特征的历史评论词,形成对比评论词集合。
其中,所述对比特征是与所述第二对象分组中的对比对象相比时所述目标对象所独有的特征。
S404:判断是否存在Q个历史评论词,所述Q个历史评论词全部包含在每一所述第二对象分组对应的对比评论词集合中。
当第二对象分组的个数为两个或者两个以上时,即当M>2时,将各个第二对象分组对应的对比评论词集合进行历史评论词的对比,找出所有对比评论词集合中均具有的Q个历史评论词,使这Q个历史评论词代表所述目标对象的固有特征;当所述第二对象分组的个数仅为一个时,即当M=2时,使该第二对象分组对应的对比评论词集合中的Q个历史评论词代表所述目标对象的固有特征,其中,这Q个历史评论词可以是该对比评论词集合中的全部或部分评论词。
需要说明的是,本实施例不对步骤401和步骤402的执行顺序进行限定,比如,可以同时执行步骤401和步骤402、也可以先执行步骤401再执行步骤402、亦可以先执行步骤402再执行步骤401。之后顺序执行步骤S403和S404。
具体地,S403中“从所述第二评论子集中获取代表所述目标对象的对比特征的历史评论词”,有至少如下两种可能的实施方式:
在第一种实施方式中,结合图5所示的二维坐标系的示意图,对该实施方式进行清楚、完整地描述。该实施方式具体可以包括以下步骤C1至C4:
步骤C1:创建所述第二对象分组对应的二维坐标系。
由于所述第二对象分组包括两个评论对象(一个所述目标对象、一个与所述目标对象进行特征对比的对比对象),为便于描述,将其中一个评论对象称为第三评论对象、将另一个评论对象称为第四评论对象。
步骤C2:在所述二维坐标系的第一象限内绘制所述第二评论子集中的每一历史评论词对应的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第三评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第四评论对象的特征时的特征值。
其中,特征值的计算方法请参见上述步骤A2中的相关介绍,在此不再赘述。
为便于理解本步骤,现举例说明。
参见图5所示的二维坐标系示意图。
与上述步骤A2中所描述的例子相类似,假设第三评论对象为电影《千与千寻》、第四评论对象为电影《冰雪奇缘》,对于所述第二评论子集中关于《千与千寻》和/或《冰雪奇缘》的任一历史评论词LP2,该历史评论词LP2的坐标点在X轴上的值为该历史评论词作为《千与千寻》的特征时的特征值,该坐标点在Y轴上的值为该历史评论词作为《冰雪奇缘》的特征时的特征值。
假设所述第二评论子集中关于《冰雪奇缘》和《千与千寻》的历史评论词有“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”,这些历史评论词对应的坐标点的横、纵坐标值的计算方法与具体的坐标值可以参考上述步骤A2中所描述的例子,在此不再赘述。在得到这些历史评论词对应的坐标点的具体横、纵坐标值以后,根据这些坐标点的具体坐标值在图5所示二维坐标系中的第一象限内绘制这些坐标点。
步骤C3:在所述第一象限内,绘制具有第三斜率且过坐标原点的第四直线501、以及具有第四斜率且过坐标原点的第五直线502,其中,所述第三斜率大于所述第四斜率。
其中,在执行本申请提供的方法之前,可以根据经验预先设定第四直线501的第三斜率、以及第五直线502的第四斜率,比如,第四直线501与Y轴的夹角为30度、第五直线502与X轴的夹角为30度。
需要说明的是,当需要既执行上述步骤102也执行上述步骤103时,第四直线501的第三斜率应与上述第一直线301的第一斜率相同,第五直线502的第四斜率应与上述第二直线302的第二斜率相同。
需要说明的是,若S201中所述第一对象分组中的两个评论对象与S401中所述第二对象分组中的两个评论对象是完全一样的,则上述步骤A3中所述第一斜率与该步骤C3中所述第三斜率是相同的,以及上述步骤A3中所述第二斜率与该步骤C3中所述第四斜率也是相同的,对于其他情况,本申请实施例不做任何限定。
还需要说明的是,上述步骤C2和步骤C3的前后顺序在本实施例中不做限定,可以先执行步骤C2,再执行步骤C3,也可以先执行步骤C3,再执行步骤C2。
步骤C4:当所述第三评论对象为所述目标对象时,从X轴与所述第五直线502形成的第二区域B内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词;当所述第四评论对象为所述目标对象时,从Y轴与所述第四直线501形成的第三区域C内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词。
在本实施例中,当所述第三评论对象为所述目标对象时,可以选取第二区域B内的全部历史评论词作为所述目标对象的对比特征。例如,参见图5,当《千与千寻》为所述目标对象时,选取第二区域B内的坐标点e对应的历史评论词“吉卜力”和坐标点f对应的历史评论词“日本风”,作为代表《千与千寻》的对比特征的历史评论词;当所述第四评论对象为所述目标对象时,可以选取第三区域C内的全部历史评论词作为所述目标对象的对比特征。例如,参见图5,当《冰雪奇缘》为所述目标对象时,选取第三区域C内的坐标点a对应的历史评论词“音乐”和坐标点b对应的历史评论词“迪士尼”,作为代表《冰雪奇缘》的对比特征的历史评论词。
在本实施例中,当所述第三评论对象为所述目标对象时,还可以选取第二区域B内的部分历史评论词作为所述目标对象的对比特征。具体来讲,针对单个历史评论词来说,其坐标值离原点越远,对应的特征值越大,该历史评论词就越为对应评论对象的重要特征,因此,可以选取第二区域B内远离原点的坐标点对应的历史评论词作为所述目标对象的对比特征。
具体地,可以采用以下两种实施方式中的任意一种在第二区域B内选取部分历史评论词:
在第一种实施方式中,步骤C4中的“从X轴与所述第五直线502形成的第二区域B内选取部分历史评论词”,具体可以包括:选取落入第二目标区域内的历史评论词;其中,所述第二目标区域为所述X轴、所述第五直线502以及第六直线503形成的开放区域,所述第六直线503为所述第一象限内不过坐标原点且与所述X轴和所述第五直线502相交的直线。
其中,在执行本申请提供的方法之前,可以根据经验预先设定第六直线503的斜率以及第六直线503与原点之间的距离。
在本实施方式中,将所述X轴与所述第五直线502形成的第二区域B划分为第三子区域B1和第四子区域B2;其中,所述第三子区域B1为所述X轴、所述第五直线502以及所述第六直线503形成的开放区域,所述第四子区域B2为所述X轴、所述第五直线502以及所述第六直线503形成的封闭区域,其中,所述第三子区域B1即所述第二目标区域。例如,从图3可见,只有“吉卜力”对应的坐标点e和“日本风”对应的坐标点f落在第二区域B中,其中,坐标点e落在第四子区域B2中,坐标点f落在第三子区域B1中。越是远离坐标原点的历史评论词越是《千与千寻》的重要特征,因此,可以选取坐标点f对应的历史评论词“日本风”作为代表《千与千寻》的对比特征的历史评论词。
在第二种实施方式中,步骤C4中的“从X轴与所述第五直线502形成的第二区域B内选取部分历史评论词”,具体可以包括:从所述从X轴与所述第五直线502形成的第二区域B内,选取满足第二预设条件的历史评论词,所述第二预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第三特征阈值和/或在Y轴上的特征值大于第四特征阈值。
例如,假设预先设定的第三特征阈值为X1且满足Xe<X1<Xf、第四特征阈值为Y1且满足Ye<Y1<Yf,其中,Xe和Ye为“吉卜力”的坐标值,Xf和Yf为“日本风”的坐标值;如图3可见,只有“吉卜力”对应的坐标点e和“日本风”对应的坐标点f落在第二区域B中,通过比较,只有坐标点f的横坐标值Xf大于第三特征阈值X1和/或纵坐标值Yf大于第四特征阈值Y1;因此,选取坐标点f对应的历史评论词“日本风”,作为代表《千与千寻》的对比特征的历史评论词。
在本实施例中,当所述第四评论对象为所述目标对象时,还可以选取第三区域C内的部分历史评论词作为所述目标对象的对比特征。具体来讲,针对单个历史评论词来说,其坐标值离原点越远,对应的特征值越大,该历史评论词就越为对应评论对象的重要特征,因此,可以选取第三区域C内远离原点的坐标点对应的历史评论词作为所述目标对象的对比特征。
具体地,可以采用以下两种实施方式中的任意一种在第三区域C内选取部分历史评论词:
在第一种实施方式中,步骤C4中的“从Y轴与所述第四直线501形成的第三区域C内选取部分历史评论词”,具体可以包括:选取落入第三目标区域内的历史评论词;其中,所述第三目标区域为所述Y轴、所述第四直线501以及第七直线504形成的开放区域,所述第七直线504为所述第一象限内不过坐标原点且与所述Y轴和所述第四直线501相交的直线。
其中,在执行本申请提供的方法之前,可以根据经验预先设定第七直线504的斜率以及第七直线504与原点之间的距离。
在本实施方式中,将所述Y轴与所述第四直线501形成的第三区域C划分为第五子区域C1和第六子区域C2;其中,所述第五子区域C1为所述Y轴、所述第四直线501以及所述第七直线504形成的开放区域,所述第六子区域C2为所述Y轴、所述第四直线501以及所述第七直线504形成的封闭区域,其中,所述第五子区域C1即所述第三目标区域。
例如,从图3可见,只有“音乐”对应的坐标点a和“迪士尼”对应的坐标点b落在第三区域C中,其中,坐标点a落在第六子区域C2中,坐标点b落在第五子区域C1中。越是远离坐标原点的历史评论词越是《冰雪奇缘》的重要特征,因此,可以选取坐标点b对应的历史评论词“迪士尼”作为代表《冰雪奇缘》的对比特征的历史评论词。
在第二种实施方式中,步骤C4中的“从Y轴与所述第四直线501形成的第三区域C内选取部分历史评论词”,具体可以包括:从所述从Y轴与所述第四直线501形成的第三区域C内,选取满足第三预设条件的历史评论词,所述第三预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第五特征阈值和/或在Y轴上的特征值大于第六特征阈值。
例如,假设预先设定的第五特征阈值为X2且满足Xa<X2<Xb、第六特征阈值为Y2且满足Ya<Y2<Yb,其中,Xa和Ya为“音乐”的坐标值,Xb和Yb为“迪士尼”的坐标值;如图3可见,只有“迪士尼”对应的坐标点b和“音乐”对应的坐标点a落在第三区域B中,通过比较,只有坐标点b的横坐标值Xb大于第五特征阈值X2和/或纵坐标值Yb大于第六特征阈值Y2;因此,选取坐标点b对应的历史评论词“迪士尼”,作为代表《冰雪奇缘》的对比特征的历史评论词。
在第二种实施方式中,S403具体可以包括以下步骤D1和步骤D2:
步骤D1:确定所述第二评论子集中每一历史评论词作为所述目标对象的对比特征时的对比特征值。
在本实施例中,可以为所述第二评论子集中的每一历史评论词LP2分别赋予一个对比特征值,该对比特征值可以反映历史评论词LP2作为所述目标对象的对比特征程度。
在本申请的一个实施例中,步骤D1具体可以包括:
根据第三特征值与第四特征值,计算分组评论词作为所述第二对象分组中的所述目标对象的特征时的特征值;其中,所述第三特征值为所述分组评论词作为所述第二对象分组中的所述目标对象的特征时的特征值,所述第四特征值为所述分组评论词作为所述第二对象分组中的所述对比对象的特征时的特征值。
在本实施例中,为便于描述,将所述第二评论子集中的每一历史评论词称为分组评论词,按照下述方式计算所述分组评论词的对比特征值:
首先,计算所述分组评论词作为所述第二对象分组中目标对象的特征时的特征值,称其为第三特征值,并计算所述分组评论词作为所述第二对象分组中对比对象的特征时的特征值,称其为第四特征值。
需要说明的是,若S201中所述第一对象分组中的两个评论对象与S401中所述第二对象分组中的两个评论对象是完全一样的,则上述所述第一特征值与所述第三特征值是相同的,以及上述所述第二特征值与所述第四特征值也是相同的,对于其他情况,本实施例不做任何限定。
然后,按照以下公式计算所述分组评论词作为所述目标对象的对比特征时的对比特征值:
其中,P(ti|ij)表示分组评论词ti作为所述第二对象分组中目标对象ij的特征时的第三特征值,P(ti|ik)表示分组评论词ti作为所述第二对象分组中对比对象ik的特征时的第四特征值,SpecificFeature(ti|ij)表示与对比对象ik相比时分组评论词ti作为目标对象ij的对比特征时的对比特征值。
需要说明的是,分组评论词ti的SpecificFeature(ti|ij)越大,则分组评论词ti越可能是所述目标对象的对比特征。
步骤D2:分析所述对比特征值,从所述第二评论子集中筛选出代表所述目标对象的对比特征的历史评论词。
当采用步骤D1中的计算方式时,所述第二评论子集中的每一历史评论词将分别对应一个对比特征值SpecificFeature(ti|ij),且每一历史评论词作为所述目标对象的对比特征的倾向程度与该历史评论词的对比特征值SpecificFeature(ti|ij)的大小呈正比,即,历史评论词作为所述目标对象的对比特征的倾向程度越高,该历史评论词的对比特征值SpecificFeature(ti|ij)越大。
因此,基于步骤D1的对比特征值计算方式,在本申请的一个实施例中,步骤D2具体可以包括:提取满足第二阈值要求的对比特征值;将提取的对比特征值对应的历史评论词,作为代表所述目标对象的对比特征的历史评论词。在本实施例中,当所述第二阈值要求是大于第二预设阈值时,判断所述第二评论子集中每一历史评论词分别对应的对比特征值SpecificFeature(ti|ij)是否大于第二预设阈值,并将满足该阈值要求的所有历史评论词作为所述目标对象的对比特征。
为便于理解,同样以上述电影《千与千寻》和《冰雪奇缘》为例,具体地,当所述第二评论子集中属于《冰雪奇缘》和《千与千寻》的历史评论词有“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”时,基于上述计算方式,若“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”作为《千与千寻》的对比特征值分别为X21、X22、X23、X24、X25、X26,如果X25、X26大于第二预设阈值,则将X25、X26对应的“吉卜力”、“日本风”,作为代表《千与千寻》的对比特征的历史评论词;若“迪士尼”、“音乐”、“有趣”、“动画”、“吉卜力”、“日本风”作为《冰雪奇缘》的对比特征值分别为X31、X32、X33、X34、X35、X36,如果X31、X32大于第二预设阈值,则将X31、X32对应的“迪士尼”、“音乐”,作为代表《冰雪奇缘》的对比特征的历史评论词。
为验证本申请实施例提出的一种评论对象之间的特征比较的方法的有效性及准确性,进行了一次实验。首先,由5名实验者挑选5组电影,共10部电影;然后,对于每组电影,获取代表每部电影的对比特征的10个历史评论词,共20个历史评论词、以及代表每组电影的共同特征的10个历史评论词,并将这30个历史评论词打乱,其中,所述对比特征是:在每组电影中,其中一电影与另一电影相比时所独有的特征;对于每组电影,再由实验者自己将这30个历史评论词指定为该组电影中某个电影的对比特征,或指定为该组电影的相同特征;最后,用本申请实施例提供的方法也对这些特征也进行指定,将5位实验者的指定结果与采用本申请实施例得出的指定结果进行比较,二者的吻合度为89.3%。
实施例二
参见图6,为本申请实施例提供的一种评论对象之间的特征比较装置的组成示意图,该装置600包括:
评论词获取单元601,用于若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;
共同特征确定单元602,用于在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征;和/或,
固有特征确定单元603,用于在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征;所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象;
其中,M≥2,N≥0,P≥1,Q≥1,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
在本申请的一种实施方式中,所述共同特征确定单元602包括:
第一对象分组子单元,用于当M=2时,将所述M个评论对象作为一个第一对象分组;当M>2且为偶数时,将所述M个评论对象进行两两分组,形成M/2个第一对象分组;当M>2且为奇数时,将所述M个评论对象中的一个评论对象作为一个第一对象分组,并将剩余的评论对象进行两两分组,形成(M+1)/2个第一对象分组;
第一子集形成子单元,用于从所述评论词集合中确定属于所述第一对象分组的历史评论词,形成第一评论子集;
共同集合形成子单元,用于当所述第一对象分组包括两个评论对象时,在所述第一评论子集中确定代表所述第一对象分组的共同特征的历史评论词,形成共同评论词集合;当所述第一对象分组包括一个评论对象时,将所述第一评论子集中的全部或部分历史评论词形成共同评论词集合;
共同特征确定子单元,用于判断是否存在P个历史评论词,所述P个历史评论词全部包含在每一所述第一对象分组对应的共同评论词集合中。
在本申请的一种实施方式中,所述第一对象分组包括第一评论对象和第二评论对象;所述共同集合形成子单元包括:
第一坐标系创建模块,用于当所述第一对象分组包括两个评论对象时,创建所述第一对象分组对应的二维坐标系;
第一坐标点绘制模块,用于在所述二维坐标系的第一象限内绘制所述第一评论子集中每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第一评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第二评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
第一直线绘制模块,用于在所述第一象限内,绘制具有第一斜率且过坐标原点的第一直线、以及具有第二斜率且过坐标原点的第二直线,所述第一斜率大于所述第二斜率;
共同词集合形成模块,用于从所述第一直线与所述第二直线形成的第一区域内选取全部或部分历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
在本申请的一种实施方式中,所述共同词集合形成模块具体用于:
选取落入第一目标区域内的历史评论词作为代表所述第一对象分组的共同特征的历史评论词;其中,所述第一目标区域为所述第一直线、所述第二直线以及第三直线形成的开放区域,所述第三直线为所述第一象限内不过坐标原点且与所述第一直线和所述第二直线相交的直线;
或者,从所述第一直线与所述第二直线形成的第一区域内,选取满足第一预设条件的历史评论词作为代表所述第一对象分组的共同特征的历史评论词,所述第一预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第一特征阈值和/或在Y轴上的特征值大于第二特征阈值。
在本申请的一种实施方式中,所述共同集合形成子单元包括:
第一特征值确定模块,用于当所述第一对象分组包括两个评论对象时,确定所述第一评论子集中每一历史评论词作为所述第一对象分组的共同特征时的共同特征值;
共同词集合形成模块,用于分析所述共同特征值,从所述第一评论子集中筛选出代表所述第一对象分组的共同特征的历史评论词。
在本申请的一种实施方式中,所述第一对象分组包括第一评论对象和第二评论对象;所述第一特征值确定模块具体用于:
根据第一特征值与第二特征值,计算分组评论词作为所述第一对象分组的共同特征时的共同特征值,所述分组评论词为所述第一评论子集中的任一历史评论词;其中,所述第一特征值为所述分组评论词作为所述第一评论对象的特征时的特征值,所述第二特征值为所述分组评论词作为所述第二评论对象的特征时的特征值。
在本申请的一种实施方式中,所述共同词集合形成模块具体用于:
提取满足第一阈值要求的共同特征值;将提取的共同特征值对应的历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
在本申请的一种实施方式中,所述对比集合中的每一评论对象被称为对比对象,所述固有特征确定单元603包括:
第二对象分组子单元,用于将所述目标对象与每一所述对比对象,分别形成一个第二对象分组;
第二子集形成子单元,用于从所述评论词集合中确定属于所述目标对象的历史评论词,形成第二评论子集;
对比集合形成子单元,用于在所述第二评论子集中确定代表所述目标对象的对比特征的历史评论词,形成对比评论词集合,所述对比特征是与所述第二对象分组中的对比对象相比时所述目标对象所独有的特征;
固有特征确定子单元,用于判断是否存在Q个历史评论词,所述Q个历史评论词全部包含在每一所述第二对象分组对应的对比评论词集合中。
在本申请的一种实施方式中,所述第二对象分组包括第三评论对象和第四评论对象;所述对比集合形成子单元包括:
第二坐标系创建模块,用于创建所述第二对象分组对应的二维坐标系;
第二坐标点绘制模块,用于在所述二维坐标系的第一象限内绘制所述第二评论子集中的每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第三评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第四评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
第二直线绘制模块,用于在所述第一象限内,绘制具有第三斜率且过坐标原点的第四直线、以及具有第四斜率且过坐标原点的第五直线,所述第三斜率大于所述第四斜率;
对比词集合形成模块,用于当所述第三评论对象为所述目标对象时,从X轴与所述第五直线形成的第二区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词;当所述第四评论对象为所述目标对象时,从Y轴与所述第四直线形成的第三区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词。
在本申请的一种实施方式中,所述对比词集合形成模块具体用于:
选取落入第二目标区域内的历史评论词;其中,所述第二目标区域为所述X轴、所述第五直线以及第六直线形成的开放区域,所述第六直线为所述第一象限内不过坐标原点且与所述X轴和所述第五直线相交的直线;或者,从所述第二区域内选取满足第二预设条件的历史评论词,所述第二预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第三特征阈值和/或在Y轴上的特征值大于第四特征阈值;
以及,
选取落入第三目标区域内的历史评论词;所述第三目标区域为所述Y轴、所述第四直线以及第七直线形成的开放区域,所述第七直线为所述第一象限内不过坐标原点且与所述Y轴和所述第四直线相交的直线;或者,从所述第三区域内选取满足第三预设条件的历史评论词,所述第三预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第五特征阈值和/或在Y轴上的特征值大于第六特征阈值。
在本申请的一种实施方式中,所述对比集合形成子单元包括:
第二特征值确定模块,用于确定所述第二评论子集中每一历史评论词作为所述目标对象的对比特征时的对比特征值;
对比词集合形成模块,用于分析所述对比特征值,从所述第二评论子集中筛选出代表所述目标对象的对比特征的历史评论词。
在本申请的一种实施方式中,所述第二特征值确定模块具体用于:
根据第三特征值与第四特征值,计算分组评论词作为所述第二对象分组中的所述目标对象的对比特征时的对比特征值,所述分组评论词为所述第二评论子集中的任一历史评论词;其中,所述第三特征值为所述分组评论词作为所述第二对象分组中的所述目标对象的特征时的特征值,所述第四特征值为所述分组评论词作为所述第二对象分组中的对比对象的特征时的特征值。
在本申请的一种实施方式中,所述对比词集合形成模块具体用于:
提取满足第二阈值要求的对比特征值;将提取的对比特征值对应的历史评论词,作为代表所述目标对象的对比特征的历史评论词。
需要说明的是,本装置600是与上述实施例一介绍的方法对应的装置,相关之处请参见实施例一。
实施例三
本发明实施例还提供了一种评论对象之间的特征比较装置的硬件构成。可包括至少一个处理器(例如CPU),至少一个网络接口或者其他通信接口,存储器,和至少一个通信总线,用于实现这些装置之间的连接通信。处理器用于执行存储器中存储的可执行模块,例如计算机程序。存储器可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个网络接口(可以是有线或者无线)实现该系统网关与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
参见图7,在一些实施方式中,存储器中存储了程序指令,程序指令可以被处理器执行,其中,程序指令可包括评论词获取单元601、共同特征确定单元602,固有特征确定单元603。各单元的具体实现可参见实施例二所揭示的相应单元,这里不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (20)
1.一种评论对象之间的特征比较方法,其特征在于,包括:
若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;
在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征;和/或,
在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征;所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象;
其中,M≥2,N≥0,P≥1,Q≥1,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
2.根据权利要求1所述的方法,其特征在于,所述确定是否存在代表所述M个评论对象的共同特征的P个历史评论词,包括:
当M=2时,将所述M个评论对象作为一个第一对象分组;当M>2且为偶数时,将所述M个评论对象进行两两分组,形成M/2个第一对象分组;当M>2且为奇数时,将所述M个评论对象中的一个评论对象作为一个第一对象分组,并将剩余的评论对象进行两两分组,形成(M+1)/2个第一对象分组;
从所述评论词集合中确定属于所述第一对象分组的历史评论词,形成第一评论子集;
当所述第一对象分组包括两个评论对象时,在所述第一评论子集中确定代表所述第一对象分组的共同特征的历史评论词,形成共同评论词集合;当所述第一对象分组包括一个评论对象时,将所述第一评论子集中的全部或部分历史评论词形成共同评论词集合;
判断是否存在P个历史评论词,所述P个历史评论词全部包含在每一所述第一对象分组对应的共同评论词集合中。
3.根据权利要求2所述的方法,其特征在于,所述第一对象分组包括第一评论对象和第二评论对象;所述在所述第一评论子集中确定代表所述第一对象分组的共同特征的历史评论词,包括:
创建所述第一对象分组对应的二维坐标系;
在所述二维坐标系的第一象限内绘制所述第一评论子集中每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第一评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第二评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
在所述第一象限内,绘制具有第一斜率且过坐标原点的第一直线、以及具有第二斜率且过坐标原点的第二直线,所述第一斜率大于所述第二斜率;
从所述第一直线与所述第二直线形成的第一区域内选取全部或部分历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
4.根据权利要求3所述的方法,其特征在于,所述从所述第一直线与所述第二直线形成的第一区域内选取部分历史评论词,包括:
选取落入第一目标区域内的历史评论词;其中,所述第一目标区域为所述第一直线、所述第二直线以及第三直线形成的开放区域,所述第三直线为所述第一象限内不过坐标原点且与所述第一直线和所述第二直线相交的直线;
或者,从所述第一直线与所述第二直线形成的第一区域内,选取满足第一预设条件的历史评论词,所述第一预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第一特征阈值和/或在Y轴上的特征值大于第二特征阈值。
5.根据权利要求2所述的方法,其特征在于,所述在第一评论子集中确定代表所述第一对象分组的共同特征的历史评论词,包括:
确定所述第一评论子集中每一历史评论词作为所述第一对象分组的共同特征时的共同特征值;
分析所述共同特征值,从所述第一评论子集中筛选出代表所述第一对象分组的共同特征的历史评论词。
6.根据权利要求5所述的方法,其特征在于,所述第一对象分组包括第一评论对象和第二评论对象;所述确定所述第一评论子集中每一历史评论词作为所述第一对象分组的共同特征时的共同特征值,包括:
根据第一特征值与第二特征值,计算分组评论词作为所述第一对象分组的共同特征时的共同特征值,所述分组评论词为所述第一评论子集中的任一历史评论词;
其中,所述第一特征值为所述分组评论词作为所述第一评论对象的特征时的特征值,所述第二特征值为所述分组评论词作为所述第二评论对象的特征时的特征值。
7.根据权利要求6所述的方法,其特征在于,所述分析所述共同特征值,从所述第一评论子集中筛选出代表所述第一对象分组的共同特征的历史评论词,包括:
提取满足第一阈值要求的共同特征值;
将提取的共同特征值对应的历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述对比集合中的每一评论对象被称为对比对象,所述确定是否存在代表所述目标对象的固有特征的Q个历史评论词,包括:
将所述目标对象与每一所述对比对象,分别形成一个第二对象分组;
从所述评论词集合中确定属于所述目标对象的历史评论词,形成第二评论子集;
在所述第二评论子集中确定代表所述目标对象的对比特征的历史评论词,形成对比评论词集合,所述对比特征是与所述第二对象分组中的对比对象相比时所述目标对象所独有的特征;
判断是否存在Q个历史评论词,所述Q个历史评论词全部包含在每一所述第二对象分组对应的对比评论词集合中。
9.根据权利要求8所述的方法,其特征在于,所述第二对象分组包括第三评论对象和第四评论对象;所述在所述第二评论子集中确定代表所述目标对象的对比特征的历史评论词,包括:
创建所述第二对象分组对应的二维坐标系;
在所述二维坐标系的第一象限内绘制所述第二评论子集中的每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第三评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第四评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
在所述第一象限内,绘制具有第三斜率且过坐标原点的第四直线、以及具有第四斜率且过坐标原点的第五直线,所述第三斜率大于所述第四斜率;
当所述第三评论对象为所述目标对象时,从X轴与所述第五直线形成的第二区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词;当所述第四评论对象为所述目标对象时,从Y轴与所述第四直线形成的第三区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词。
10.根据权利要求9所述的方法,其特征在于,所述从X轴与所述第五直线形成的第二区域内选取部分历史评论词,包括:
选取落入第二目标区域内的历史评论词;其中,所述第二目标区域为所述X轴、所述第五直线以及第六直线形成的开放区域,所述第六直线为所述第一象限内不过坐标原点且与所述X轴和所述第五直线相交的直线;或者,从所述第二区域内选取满足第二预设条件的历史评论词,所述第二预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第三特征阈值和/或在Y轴上的特征值大于第四特征阈值;
相应地,所述从Y轴与所述第四直线形成的第三区域内选取部分历史评论词,包括:
选取落入第三目标区域内的历史评论词;所述第三目标区域为所述Y轴、所述第四直线以及第七直线形成的开放区域,所述第七直线为所述第一象限内不过坐标原点且与所述Y轴和所述第四直线相交的直线;或者,从所述第三区域内选取满足第三预设条件的历史评论词,所述第三预设条件为所述历史评论词对应的坐标点在X轴上的特征值大于第五特征阈值和/或在Y轴上的特征值大于第六特征阈值。
11.根据权利要求8所述的方法,其特征在于,所述在所述第二评论子集中确定代表所述目标对象的对比特征的历史评论词,包括:
确定所述第二评论子集中每一历史评论词作为所述目标对象的对比特征时的对比特征值;
分析所述对比特征值,从所述第二评论子集中筛选出代表所述目标对象的对比特征的历史评论词。
12.根据权利要求11所述的方法,其特征在于,所述确定所述第二评论子集中每一历史评论词作为所述目标对象的对比特征时的对比特征值,包括:
根据第三特征值与第四特征值,计算分组评论词作为所述第二对象分组中的所述目标对象的对比特征时的对比特征值,所述分组评论词为所述第二评论子集中的任一历史评论词;
其中,所述第三特征值为所述分组评论词作为所述第二对象分组中的所述目标对象的特征时的特征值,所述第四特征值为所述分组评论词作为所述第二对象分组中的对比对象的特征时的特征值。
13.根据权利要求12所述的方法,其特征在于,所述分析所述对比特征值,从所述第二评论子集中筛选出代表所述目标对象的对比特征的历史评论词,包括:
提取满足第二阈值要求的对比特征值;
将提取的对比特征值对应的历史评论词,作为代表所述目标对象的对比特征的历史评论词。
14.一种评论对象之间的特征比较装置,其特征在于,包括:
评论词获取单元,用于若在M个评论对象之间进行特征比较,则获取每一评论对象的历史评论词,形成由N个不同历史评论词组成的评论词集合;
共同特征确定单元,用于在所述评论词集合中,确定是否存在代表所述M个评论对象的共同特征的P个历史评论词;若存在,则将所述P个历史评论词作为所述M个评论对象的共同特征;和/或,
固有特征确定单元,用于在所述评论词集合中,确定是否存在代表目标对象的固有特征的Q个历史评论词;若存在,则将所述Q个历史评论词作为所述目标对象的固有特征;所述目标对象是所述M个评论对象中的任一评论对象,所述固有特征是与对比集合相比时所述目标对象所独有的特征,所述对比集合包括所述M个评论对象中除所述目标对象以外的所有评论对象;
其中,M≥2,N≥0,P≥1,Q≥1,所述P个历史评论词中的任一评论词不包含在所述Q个历史评论词中。
15.根据权利要求14所述的装置,其特征在于,所述共同特征确定单元包括:
第一对象分组子单元,用于当M=2时,将所述M个评论对象作为一个第一对象分组;当M>2且为偶数时,将所述M个评论对象进行两两分组,形成M/2个第一对象分组;当M>2且为奇数时,将所述M个评论对象中的一个评论对象作为一个第一对象分组,并将剩余的评论对象进行两两分组,形成(M+1)/2个第一对象分组;
第一子集形成子单元,用于从所述评论词集合中确定属于所述第一对象分组的历史评论词,形成第一评论子集;
共同集合形成子单元,用于当所述第一对象分组包括两个评论对象时,在所述第一评论子集中确定代表所述第一对象分组的共同特征的历史评论词,形成共同评论词集合;当所述第一对象分组包括一个评论对象时,将所述第一评论子集中的全部或部分历史评论词形成共同评论词集合;
共同特征确定子单元,用于判断是否存在P个历史评论词,所述P个历史评论词全部包含在每一所述第一对象分组对应的共同评论词集合中。
16.根据权利要求15所述的装置,其特征在于,所述第一对象分组包括第一评论对象和第二评论对象;所述共同集合形成子单元包括:
第一坐标系创建模块,用于当所述第一对象分组包括两个评论对象时,创建所述第一对象分组对应的二维坐标系;
第一坐标点绘制模块,用于在所述二维坐标系的第一象限内绘制所述第一评论子集中每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第一评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第二评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
第一直线绘制模块,用于在所述第一象限内,绘制具有第一斜率且过坐标原点的第一直线、以及具有第二斜率且过坐标原点的第二直线,所述第一斜率大于所述第二斜率;
共同词集合形成模块,用于从所述第一直线与所述第二直线形成的第一区域内选取全部或部分历史评论词,作为代表所述第一对象分组的共同特征的历史评论词。
17.根据权利要求15所述的装置,其特征在于,所述共同集合形成子单元包括:
第一特征值确定模块,用于当所述第一对象分组包括两个评论对象时,确定所述第一评论子集中每一历史评论词作为所述第一对象分组的共同特征时的共同特征值;
共同词集合形成模块,用于分析所述共同特征值,从所述第一评论子集中筛选出代表所述第一对象分组的共同特征的历史评论词。
18.根据权利要求14至17任一项所述的装置,其特征在于,所述对比集合中的每一评论对象被称为对比对象,所述固有特征确定单元包括:
第二对象分组子单元,用于将所述目标对象与每一所述对比对象,分别形成一个第二对象分组;
第二子集形成子单元,用于从所述评论词集合中确定属于所述目标对象的历史评论词,形成第二评论子集;
对比集合形成子单元,用于在所述第二评论子集中确定代表所述目标对象的对比特征的历史评论词,形成对比评论词集合,所述对比特征是与所述第二对象分组中的对比对象相比时所述目标对象所独有的特征;
固有特征确定子单元,用于判断是否存在Q个历史评论词,所述Q个历史评论词全部包含在每一所述第二对象分组对应的对比评论词集合中。
19.根据权利要求18所述的装置,其特征在于,所述第二对象分组包括第三评论对象和第四评论对象;所述对比集合形成子单元包括:
第二坐标系创建模块,用于创建所述第二对象分组对应的二维坐标系;
第二坐标点绘制模块,用于在所述二维坐标系的第一象限内绘制所述第二评论子集中的每一历史评论词的坐标点,其中,所述坐标点的横坐标值为所述历史评论词作为所述第三评论对象的特征时的特征值,所述坐标点的纵坐标值为所述历史评论词作为所述第四评论对象的特征时的特征值,所述特征值的大小与所述历史评论词作为对应评论对象的重要特征的程度成正比;
第二直线绘制模块,用于在所述第一象限内,绘制具有第三斜率且过坐标原点的第四直线、以及具有第四斜率且过坐标原点的第五直线,所述第三斜率大于所述第四斜率;
对比词集合形成模块,用于当所述第三评论对象为所述目标对象时,从X轴与所述第五直线形成的第二区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词;当所述第四评论对象为所述目标对象时,从Y轴与所述第四直线形成的第三区域内选取全部或部分历史评论词,作为代表所述目标对象的对比特征的历史评论词。
20.根据权利要求18所述的装置,其特征在于,所述对比集合形成子单元包括:
第二特征值确定模块,用于确定所述第二评论子集中每一历史评论词作为所述目标对象的对比特征时的对比特征值;
对比词集合形成模块,用于分析所述对比特征值,从所述第二评论子集中筛选出代表所述目标对象的对比特征的历史评论词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508795.0A CN107369066B (zh) | 2017-06-28 | 2017-06-28 | 一种评论对象之间的特征比较方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508795.0A CN107369066B (zh) | 2017-06-28 | 2017-06-28 | 一种评论对象之间的特征比较方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107369066A CN107369066A (zh) | 2017-11-21 |
CN107369066B true CN107369066B (zh) | 2021-05-28 |
Family
ID=60305654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710508795.0A Active CN107369066B (zh) | 2017-06-28 | 2017-06-28 | 一种评论对象之间的特征比较方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107369066B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019804A (zh) * | 2017-12-15 | 2019-07-16 | 西安比卓电子科技有限公司 | 一种评论推荐的方法及装置 |
CN108255808B (zh) * | 2017-12-29 | 2021-10-22 | 东软集团股份有限公司 | 文本划分的方法、装置和存储介质以及电子设备 |
CN108763214B (zh) * | 2018-05-30 | 2021-09-24 | 河海大学 | 一种针对商品评论的情感词典自动构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序系统 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN105469274A (zh) * | 2015-11-13 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种对多网站商品信息进行对比的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110251973A1 (en) * | 2010-04-08 | 2011-10-13 | Microsoft Corporation | Deriving statement from product or service reviews |
-
2017
- 2017-06-28 CN CN201710508795.0A patent/CN107369066B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序系统 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN105469274A (zh) * | 2015-11-13 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种对多网站商品信息进行对比的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107369066A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182564B2 (en) | Text recommendation method and apparatus, and electronic device | |
CN109885770B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN108829808B (zh) | 一种页面个性化排序方法、装置及电子设备 | |
US9310879B2 (en) | Methods and systems for displaying web pages based on a user-specific browser history analysis | |
US10002371B1 (en) | System, method, and computer program product for searching summaries of online reviews of products | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
CN109753601B (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
WO2018121700A1 (zh) | 基于已安装应用来推荐应用信息的方法、装置、终端设备及存储介质 | |
CN104573054A (zh) | 一种信息推送方法和设备 | |
CN103729359A (zh) | 一种推荐搜索词的方法及系统 | |
US20140074851A1 (en) | Dynamic data acquisition method and system | |
CN108512883B (zh) | 一种信息推送方法、装置及可读介质 | |
CN112100513A (zh) | 基于知识图谱的推荐方法、装置、设备及计算机可读介质 | |
CN103246681A (zh) | 一种搜索方法及装置 | |
CN111522886B (zh) | 一种信息推荐方法、终端及存储介质 | |
CN107369066B (zh) | 一种评论对象之间的特征比较方法及装置 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN103927309A (zh) | 一种对业务对象标注信息标签的方法及装置 | |
CN111932308A (zh) | 数据推荐方法、装置和设备 | |
WO2014110950A1 (en) | Method and device for pushing information | |
US9792377B2 (en) | Sentiment trent visualization relating to an event occuring in a particular geographic region | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN106933878B (zh) | 一种信息处理方法及装置 | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |