CN104281665B - 一种用于确定评论的有效性的方法与装置 - Google Patents
一种用于确定评论的有效性的方法与装置 Download PDFInfo
- Publication number
- CN104281665B CN104281665B CN201410499733.4A CN201410499733A CN104281665B CN 104281665 B CN104281665 B CN 104281665B CN 201410499733 A CN201410499733 A CN 201410499733A CN 104281665 B CN104281665 B CN 104281665B
- Authority
- CN
- China
- Prior art keywords
- comment
- commentator
- feature
- clustering relationships
- validity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种在网络设备中用于确定评论的有效性的方法和装置。其中,该方法包括:获取对于被评论对象的一个或多个评论;对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征;根据所述评论特征,确定所述评论的有效性。与现有技术相比,本发明基于评论特征来确定评论的有效性,从而有效地鉴别了评论是否为有效评论,有助于用户获取到更为有效的评论信息,从而提升用户体验。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种确定评论的有效性的方法与装置。
背景技术
当前,互联网时代的用户越来越倾向于从网络上获取评论信息以做参考,例如当用户需要更多地了解产品质量或商家信誉时,用户可以从网络上获取来自其他用户的评论信息。然而,网络上存在的评论信息质量良莠不齐,其中甚至存在部分虚假或无效的评论信息。如何自动鉴别评论信息的有效性是一个亟待解决的问题。
发明内容
本发明的目的是提供一种用于确定评论信息的有效性的方法与装置。
根据本发明的一个方面,提供一种用于确定评论的有效性的方法,其中,该方法包括:
-获取对于被评论对象的一个或多个评论;
-对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征;
-根据所述评论特征,确定所述评论的有效性。
根据本发明的另一个方面,提供一种用于确定评论的有效性的装置,其中,该装置包括:
-用于获取对于被评论对象的一个或多个评论的装置;
-用于对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征的装置;
-用于根据所述评论特征,确定所述评论的有效性的装置。
根据本发明的再一个方面,提供一种搜索信息的方法,其中包括:
-基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论;
-根据所述评论的有效性,将所述至少一个评论提供给用户设备;
其中,还包括,根据前述第一方面的方法来确定各个评论的有效性。
根据本发明的又一个方面,提供一种搜索信息的装置,其中包括:
-用于基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论的装置;
-用于根据所述评论的有效性,将所述至少一个评论提供给用户设备的装置;
其中,还包括,根据前述第二方面的用于确定各个评论的有效性的装置。
与现有技术相比,本发明基于评论特征来确定评论的有效性,从而有效地鉴别了评论是否为有效评论,有助于用户获取到更为有效的评论信息,从而提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的实施例的用于确定评论的有效性的方法流程图;
图2示出根据本发明另一个方面的实施例的用于确定评论的有效性的装置的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的实施例的用于确定评论的有效性的方法流程图。
该用于确定评论的有效性的方法可以在网络设备上被实现。此处,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
首先,在步骤S11中,网络设备获取对于被评论对象的一个或多个评论。此处,被评论对象可以为任何实体或非实体,例如产品、商家、风景点、展览会等。网络设备可以通过查询存储评论的数据库,或通过一定的接口与例如网站等交互来获取被评论对象的一个或多个评论。
接着,在步骤S12中,网络设备对所述一个或多个评论中的各个评论,确定所述评论对应的评论特征。评论特征可以包括任何与评论有关的特征,例如其是否为好评、其是否由经过实名认证的评论者所发布等各种特征。在一个实施例中,可以预先设定需要确定的评论特征的类型。并且,在一个实施例中,还可以根据实际需要来调整需要确定的评论特征的类型。
在一个实施例中,评论特征包括评论者特征以及内容特征中的任一项。其中,评论者特征可以包括例如评论者所使用的IP地址信息,评论者的注册信息,评论者进行评论的时间相关信息,评论者所发出的评论的内容相关信息等中的任一项或任多项。内容特征可以包括评论的内容中所包含的各个字符和/或词的分别的重复次数等信息。
在一个实例中,网络设备可以通过查询数据库或通过一定的接口与其他设备进行交互来来获取评论的评论者信息。然后网络设备可以从评论者信息中提取相应的信息作为评论者特征。
以针对产品“桔子手机”的评论为例来进行说明。其中,评论者“桔子粉”发出“桔子手机值得拥有,好好好!!!”的评论。网络设备可以通过查询数据库或通过一定的接口与其他设备进行交互获取到该评论者“桔子粉”的相关信息。例如,网络设备获取到“桔子粉”发出评论时所使用的IP地址为“58.22.222.2”,“桔子粉”的注册信息为实名注册,其绑定手机号码为“18622222222”,“桔子粉”发出评论的时间为“2012/2/2”,“桔子粉”针对“桔子手机”所发出的其他评论为“桔子手机就是好”,从而网络设备确定该“桔子粉”评论者对桔子手机所发出的评论均为好评。
在另一个实例中,网络设备可以通过分析评论来获取内容特征,例如评论的内容中所包含的各个字符和/或词的分别的重复次数等信息。例如,网络设备可以对评论进行分词处理,并对于其中包含的每个字符和/词,统计其在评论中分别出现的次数。接上例,网络设备针对“桔子手机值得拥有,好好好!!!”的评论进行分析,并得出其中包括词“桔子”、“手机”、“值得”、“拥有”、“好”,及符号“,”和“!”,以及其在评论中分别出现的次数为1、1、1、1、3、1和3。
接着在步骤S23中,网络设备根据评论特征,确定评论的有效性。具体地,在一个实施例中,网络设备可以通过将评论特征与预定规则进行匹配来确定评论的有效性。例如,预定规则可以为当评论者发出评论时所使用的IP地址为黑名单中的地址时,该评论为无效评论。此处,地址黑名单可以是网络设备根据历史统计数据所预先设置的,并且地址黑名单可以被动态更新。又例如,预定规则可以为当评论者未经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为无效评论;而当评论者经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为有效性较弱的评论。再例如,预定规则可以为当评论者未经过实名认证,并且其针对待评论对象发出多条评论,其均为同一评价度,例如好评或差评时,则该评论者所发出的这些评论的有效性较弱。或例如,预定规则可以为当评论者在单位时间内,针对待评论对象发出的评论数量超过预定阈值,并且评论中某个字符或词出现的次数大于等于3次时,该评论为无效评论。此处,预定阈值为 例如根据经验值来进行设置,并可以根据实际需要被动态调整。接上例,网络设备基于上述预定规则,得出该“桔子粉”所发出的该“桔子手机值得拥有,好好好!!!”的评论符合“当评论者经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为有效性较弱的评论”的规则,从而确定该评论的有效性较弱。
在一个实例中,网络设备还可以获取某个评论者针对其他相关被评论对象所发出的评论并分析相关特征。例如网络设备可以分析该评论者对其他被评论对象所发出的评论的评价度,例如好评或差评,的相关特征。并结合预定规则,例如当评论者对其他相关评论对象所发出的评论的评价度相同,例如均为好评或差评,并且该评论者对其他相关被评论对象所发出的评论的总数超过预定阈值时,则该评论者针对本被评论对象所发出的评论的有效性较弱。例如,网络设备可以获取“桔子粉”针对其他手机所发出的评论,并得出其对其他手机发出的评论的评价度均为差评,并且对其他手机发出的评论数量为22条超过预定阈值,从而根据这一特征及预定规则得出该“桔子粉”对桔子手机所发出的评论的有效性较弱。
本领域技术人员应理解,此处,对于评论特征及预定规则的相关描述仅为示例性而非限定性描述,存在各种其他各种评论特征及预定规则而不背离本发明的精神或范畴,并以引用的方式包含于此。
在一个优选实施例中,网络设备可以根据针对待评论对象的一个或多个评论中的各个评论的各自的评论特征,确定该各个评论之间的第一聚类关系和/或该各个评论的各个评论者之间的第二聚类关系,然后根据各个评论的各自的评论特征,以及第一聚类关系和/或第二聚类关系,来确定所述评论的有效性。
此处,各个评论之间的第一聚类关系指根据各个评论的特征确定各个评论之间的相似度,并根据相似度来确定的聚类关系。各个评论者之间的第二聚类关系指根据各个评论者特征确定各个评论者之间的相似度,并根据所确定的相似度来确定的各个评论者之间的聚类关系。
在一个实施例中,网络设备可以预先规定对于各个评论或评论者之 间需要进行相似性对比的特征,并将各个评论或评论者之间基于各个特征的对比结果进行加权求和,并根据加权求和的值是否高于预定阈值来确定第一聚类关系和第二聚类关系。此处,预定的需要对比的特征,以及对不同特征所赋予的权重以及预定阈值均可以根据实际需要进行调节。
例如对于评论,可以预先规定需要对比的评论者特征以及内容特征。对于评论的评论者特征,可以对比各个评论的评论者账号是否相同或是否来自同一IP地址。对于各个评论的内容特征,可以对比其是否具有相同的评价度,如好评或差评,还可以对比其评论内容是否相似。
又例如对于评论者,可以预先规定需要对比各个评论者的评论者账号特征以及评论者发出评论的特征。对于评论者账号特征,可对比是否具有相同的结构特征,例如均为4个字母加4个数字的结构,是否注册时使用相同的IP地址等特征。对于评论者发出评论的特征可以对比各个评论者最后一次发出评论的IP地址,各个评论者发出评论所针对的待评论对象,各个评论者发出评论的评价度,例如好评或差评等特征。
以下以一评论者“桔子粉”对桔子手机所发出的“桔子手机值得拥有,好好好!!!”的评论,以及另一评论者“水果粉”对桔子手机所发出的“这么好的桔子手机你拥有吗?”为例来说明确定第一聚类关系以及第二聚类关系的方法。
对于各个评论之间的第一聚类关系的确定,网络设备首先按照上文所述的方法得出各个评论的特征。接着网络设备对需要对比的特征进行对比。在本例中,网络设备对比该两条评论的评论者特征和内容特征。网络设备得出评论者“桔子粉”和“水果粉”所分别作出的上述评论来自同一IP地址,并且其评论内容相似度较高。网络设备将这两个对比特征的对比结果按各自权重进行加权求和,当加权求和的结果超过预定阈值,确定该上述两条评论满足第一聚类关系。
对于各个评论者之间的第二聚类关系的确定,网络设备根据上文所述的方法得出该两个评论者的特征。接着,网络设备对需要对比的特征进行对比。在本例中,网络设备对比该两个评论者的评论者账号特征以 及评论者发出评论的特征。网络设备得出评论者“桔子粉”和“水果粉”的账号名称具有相同的结构(均由3个汉字组成),并且其注册时使用的IP地址相同。此外,网络设备得出评论者“桔子粉”和“水果粉”所发出的评论均主要针对桔子手机或相关其他手机,并且对于桔子手机的评价度均为好评,而对于其他相关手机的评价度均为差评。网络设备将上述对比结果进行加权求和,当加权求和的结果超过预定阈值,确定该“桔子粉”和“水果粉”两个评论者之间满足第二聚类关系。
本领域技术人员应理解,此处,对于确定第一聚类关系以及第二聚类关系的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
应注意的是,在实施例中,可以仅确定第一聚类关系,或仅确定第二聚类关系,来用于评论有效性的确定。
在一个优选实施例中,网络设备可以根据所述各个评论的各自的评论特征,将所述各个评论进行分组,然后根据所述各个评论的各自的评论特征,计算同一分组中的各个评论之间的余弦距离,并根据所述各个余弦距离,确定所述同一分组中的各个评论之间的第一聚类关系。
在另一个优选实施例中,网络设备可以根据所述各个评论的各自的评论特征,将所述各个评论的各个评论者进行分组,然后根据所述各个评论的各自的评论特征,计算同一分组中的各个评论者之间的各个余弦距离,再根据所述各个余弦距离,确定所述同一分组中的各个评论者之间的第二聚类关系。
在以下的说明中,我们将使用表1中的例子来说明确定第一聚类关系和第二聚类关系的上述方法。
表1
在本例中,网络设备确定对于桔子手机的各个评价之间的第一聚类关系,以及评价桔子手机的各个评论者之间的第二聚类关系。
具体地,网络设备可以利用例如SimHash算法或其他去重算法来根据对评论以及评论者分别进行分组,从而将评论特征的相似度较高的评论分到同一组,并将评论者特征的相似度较高的评论者分到同一组。在本例中分组结果如下表所示:
表2
表3
接着,网络设备根据评论的分组结果,来对同一组中的评论确定第一聚类关系。网络设备并且根据评论者的分组结果,来对同一组中的评论者确定第二聚类关系。
如上文所述,网络设备在进行聚类关系确定时,可以预先规定需要对比的特征。例如,对于评论,规定对评论内容的相似度、评价度、评论所发出的时间进行对比。对于评论者,规定对评论者的命名方式、评论者注册时所使用的IP地址、评论者对于同一待评论对象的评价度来进行对比。然后,网络设备将根据评论特征或评论者特征的对比结果,来计算评论或者评论者之间的余弦距离,并根据余弦距离来确定各个评论或评论者之间的聚类关系。
例如,对于评论组1,网络设备可以以组内的某条评论为基准,来将其他评论与该条评论的特征进行对比。例如网络设备以“桔子手机值得拥有,好好好!!!”为基准,将“这么好的桔子手机你拥有吗?”和“试用了最新款桔子手机,很好”与“桔子手机值得拥有,好好好!!!”进行特征对比,得到如下特征对比结果,其中得分为1至5之间的值,分值越高意味着相似度越高:
表4
接着,网络设备计算各个评论之间的余弦距离,得出结果如下表所示:
表5
C1 | C2 | C3 | |
C1 | 1 | 0.995 | 0.977 |
C2 | 0.995 | 1 | 0.976 |
C3 | 0.977 | 0.976 | 1 |
接着网络设备将上述余弦距离结果与预定阈值进行比较,假定预定阈值为0.99,则网络设备将C1“桔子手机值得拥有,好好好!!!”和C2“这么好的桔子手机你拥有吗?”之间确定为满足第一聚类关系,而对于C3“试用了最新款桔子手机,很好”则确定其与C1或C2不满足第一聚类关系。
又如,对于评论者组1,网络设备可以用组内的某个评论者为基础,来将其他评论者与该评论者的特征进行对比。例如网络设备以一个评论者“桔子粉”为基础,将其他评论者“水果粉”、“桔子手机忠实用户”与该评论者“桔子粉”进行评论者特征的对比,得到如下特征对比结果,其中得分为1至5之间的值,分值越高意味着相似度越高:
表6
接着,网络设备计算各个评论者之间的余弦距离,得出结果如下表所示:
表7
U1 | U2 | U3 | |
U1 | 1 | 0.995 | 0.683 |
U2 | 0.995 | 1 | 0.874 |
U3 | 0.683 | 0.874 | 1 |
接着网络设备将上述余弦距离结果与预定阈值进行比较,假定预定阈值为0.9,则网络设备将U1“桔子粉”和U2“水果粉”之间确定为满足第二聚类关系,而对于U3“桔子手机忠实用户”则确定其与U1和U2之间不满足第二聚类关系。
在一个优选实施例中,网络设备在计算余弦距离时,可以对各个评论或评论者之间基于不同特征的对比结果赋予不同的权值,从而计算加权的余弦距离。
在另一优选实施例中,网络设备还可以对同一个特征细化为多个子特征,来分别对各个子特征进行对比,并将子特征对比结果按照公式 sqrt(子特征对比结果/子特征数量)来进行归一化处理。例如,对于评论所发出的时间这一特征,网络设备可以设定时间段[2014/9/112:00:00–2014/9/112:04:59],以及时间段[2014/9/1/11:55:00–2014/9/111:59:59],以及时间段[2014/9/112:05:00–2014/9/112:09:59],并分别在这三个时间段内对评论所发出的时间这一特征进行比较,从按照sqrt(子特征对比结果/3)来对比较结果进行归一化处理。
应注意的是,根据实际需要,网络设备可以确定第一聚类关系或者第二聚类关系,或确定其两者。
当网络设备按照如上文所述的方法确定了第一聚类关系和/或第二聚类关系后,网络设备根据所述各个评论的各自的评论特征,以及所述第一聚类关系和/或所述第二聚类关系,来确定评论的有效性。例如,网络设备可以将与其他评论之间满足第一聚类关系,或者其评论者与其它评论者之间满足第二聚类关系的评论确定为无效或有效性较弱。或者网络设备可以将与其他评论之间满足第一聚类关系,同时其评论者与其它评论者之间满足第二聚类关系的评论确定为无效或有效性较弱。或例如,网络设备可以预先规定当满足同一个第一聚类关系的评价数超过预定阈值时,将满足该该第一聚类关系的评价均确定为无效或有效性较低。网络设备也可以预先规定当满足同一个第二聚类关系的评价者的数量超过预定阈值时,将满足该第二聚类关系的所有评价者所发出的评价均确定为无效或有效性较低。又例如,网络设备可以将与其他评论之间满足第一聚类关系,并且当其评论者与超过预定阈值的其它评论者之间满足的第二聚类关系的评论确定为无效或有效性较弱。
本领域技术人员应理解,此处,对于确定第一及第二聚类关系,以及根据聚类关系来确定评论的有效性的方式的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
在一个实施例中,网络设备还可以根据各个评论的各自的评论特征,并基于第二聚类关系,对各个评论的各自的评论者的相关信息进行第一处理,其中,所述第一处理包括以下任一项或任多项:
-加标签处理;
-过滤处理;
-降低权重处理。
例如,接上例,网络设备按照如上文所述的方法得出“桔子粉”和“水果粉”这两个评论者满足第二聚类关系,则网络设备可以对“桔子粉”和“水果粉”所发出的评论进行降低其权重处理,从而在最终计算待评价对象的评价度时,该“桔子粉”和“水果粉”的评论的权重较低。又或者,网络设备可以将“桔子粉”和“水果粉”加上“马甲评论者”标签,从而在今后的处理中,可以根据“马甲评论者”标签来将来自该两个评论者的评论直接过滤。
本领域技术人员应理解,此处,对于第一处理的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
在一个实施例中,网络设备还可以根据所确定的各个评论的有效性信息,对评论进行第二处理,其中所述第二处理包括以下任一项或任多项:
-合并处理;
-过滤处理;
-降低权重处理。
例如,接上例,当网络设备按照上文所述的方法确定评论C1“桔子手机值得拥有,好好好!!!”的无效时,可以将该评论进行过滤处理。或者当网络设备确定该评论有效性较弱时,可以将其降低权重,从而在最终计算待评价对象的评价度时,该评论的权重较低。或者,网络设备可以将满足第一聚类关系的评论中的各条评论进行合并处理。
本领域技术人员应理解,此处,对于第二处理的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
图2示出根据本发明一个方面的实施例的用于确定评论的有效性的装置的示意图。
该用于确定评论的有效性的装置可以在网络设备上被实现。此处,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
首先,用于获取对于被评论对象的一个或多个评论的装置21,以下简称评论获取装置21,获取对于被评论对象的一个或多个评论。此处,被评论对象可以为任何实体或非实体,例如产品、商家、风景点、展览会等。评论获取装置21可以通过查询存储评论的数据库,或通过一定的接口与例如网站等交互来获取被评论对象的一个或多个评论。
接着,用于对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征的装置22,以下简称特征确定装置22,对所述一个或多个评论中的各个评论,确定所述评论对应的评论特征。评论特征可以包括任何与评论有关的特征,例如其是否为好评、其是否由经过实名认证的评论者所发布等各种特征。在一个实施例中,特征确定装置22可以预先设定需要确定的评论特征的类型。并且,在一个实施例中,特征确定装置22还可以根据实际需要来调整需要确定的评论特征的类型。
在一个实施例中,评论特征包括评论者特征以及内容特征中的任一项。其中,评论者特征可以包括例如评论者所使用的IP地址信息,评论者的注册信息,评论者进行评论的时间相关信息,评论者所发出的评论的内容相关信息等中的任一项或任多项。内容特征可以包括评论的内容中所包含的各个字符和/或词的分别的重复次数等信息。
在一个实例中,特征确定装置22可以通过查询数据库或通过一定的接口与其他设备进行交互来来获取评论的评论者信息。然后特征确定装置22可以从评论者信息中提取相应的信息作为评论者特征。
以针对产品“桔子手机”的评论为例来进行说明。其中,评论者“桔子 粉”发出“桔子手机值得拥有,好好好!!!”的评论。特征确定装置22可以通过查询数据库或通过一定的接口与其他设备进行交互获取到该评论者“桔子粉”的相关信息。例如,特征确定装置22获取到“桔子粉”发出评论时所使用的IP地址为“58.22.222.2”,“桔子粉”的注册信息为实名注册,其绑定手机号码为“18622222222”,“桔子粉”发出评论的时间为“2012/2/2”,“桔子粉”针对“桔子手机”所发出的其他评论为“桔子手机就是好”,从而特征确定装置22确定该“桔子粉”评论者对桔子手机所发出的评论均为好评。
在另一个实例中,特征确定装置22可以通过分析评论来获取内容特征,例如评论的内容中所包含的各个字符和/或词的分别的重复次数等信息。例如,特征确定装置22可以对评论进行分词处理,并对于其中包含的每个字符和/词,统计其在评论中分别出现的次数。接上例,特征确定装置22针对“桔子手机值得拥有,好好好!!!”的评论进行分析,并得出其中包括词“桔子”、“手机”、“值得”、“拥有”、“好”,及符号“,”和“!”,以及其在评论中分别出现的次数为1、1、1、1、3、1和3。
接着用于根据所述评论特征,确定所述评论的有效性的装置23,以下简称第一有效性确定装置23,根据评论特征,确定评论的有效性。具体地,在一个实施例中,第一有效性确定装置23可以通过将评论特征与预定规则进行匹配来确定评论的有效性。例如,预定规则可以为当评论者发出评论时所使用的IP地址为黑名单中的地址时,该评论为无效评论。此处,地址黑名单可以是网络设备根据历史统计数据所预先设置的,并且地址黑名单可以被动态更新。又例如,预定规则可以为当评论者未经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为无效评论;而当评论者经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为有效性较弱的评论。再例如,预定规则可以为当评论者未经过实名认证,并且其针对待评论对象发出多条评论,其均为同一评价度,例如好评或差评时,则该评论者所发出的这些评论的有效性较弱。或例如,预定规则可以为当评论者在单位时间内,针对待评论对象发出的评论数量超过预定阈值,并且评论中某个 字符或词出现的次数大于等于3次时,该评论为无效评论。此处,预定阈值为例如根据经验值来进行设置,并可以根据实际需要被动态调整。接上例,第一有效性确定装置23基于上述预定规则,得出该“桔子粉”所发出的该“桔子手机值得拥有,好好好!!!”的评论符合“当评论者经过实名认证,并且其评论中某个字符或词出现的次数大于等于3次时,该评论为有效性较弱的评论”的规则,从而确定该评论的有效性较弱。
在一个实例中,第一有效性确定装置23还可以获取某个评论者针对其他相关被评论对象所发出的评论并分析相关特征。例如第一有效性确定装置23可以分析该评论者对其他被评论对象所发出的评论的评价度,例如好评或差评,的相关特征。并结合预定规则,例如当评论者对其他相关评论对象所发出的评论的评价度相同,例如均为好评或差评,并且该评论者对其他相关被评论对象所发出的评论的总数超过预定阈值时,则第一有效性确定装置23确定该评论者针对本被评论对象所发出的评论的有效性较弱。例如,第一有效性确定装置23可以获取“桔子粉”针对其他手机所发出的评论,并得出其对其他手机发出的评论的评价度均为差评,并且对其他手机发出的评论数量为22条超过预定阈值,从而根据这一特征及预定规则得出该“桔子粉”对桔子手机所发出的评论的有效性较弱。
本领域技术人员应理解,此处,对于评论特征及预定规则的相关描述仅为示例性而非限定性描述,存在各种其他各种评论特征及预定规则而不背离本发明的精神或范畴,并以引用的方式包含于此。
在一个优选实施例中,第一有效性确定装置23中的用于根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论之间的第一聚类关系和/或所述各个评论的各个评论者之间的第二聚类关系的装置,以下简称聚类关系确定装置231(未示出),可以根据针对待评论对象的一个或多个评论中的各个评论的各自的评论特征,确定该各个评论之间的第一聚类关系和/或该各个评论的各个评论者之间的第二聚类关系,然后第一有效性确定装置23中的用于根据所述一个或多个评论中的各个评论的各自的评论特征,以及所述第一聚类关系和/或所述 第二聚类关系,确定所述评论的有效性的装置,以下简称第二有效性确定装置232(未示出),根据各个评论的各自的评论特征,以及第一聚类关系和/或第二聚类关系,来确定所述评论的有效性。
此处,各个评论之间的第一聚类关系指根据各个评论的特征确定各个评论之间的相似度,并根据相似度来确定的聚类关系。各个评论者之间的第二聚类关系指根据各个评论者特征确定各个评论者之间的相似度,并根据所确定的相似度来确定的聚类关系。
在一个实施例中,聚类关系确定装置231可以预先规定对于各个评论或评论者之间需要进行相似性对比的特征,并将各个评论或评论者之间基于各个特征的对比结果进行加权求和,并根据加权求和的值是否高于预定阈值来确定第一聚类关系和第二聚类关系。此处,预定的需要对比的特征,以及对不同特征所赋予的权重以及预定阈值均可以根据实际需要进行调节。
例如对于评论,聚类关系确定装置231可以预先规定需要对比的评论者特征以及内容特征。对于评论的评论者特征,聚类关系确定装置231可以对比各个评论的评论者账号是否相同或是否来自同一IP地址。对于各个评论的内容特征,聚类关系确定装置231可以对比其是否具有相同的评价度,如好评或差评,还可以对比其评论内容是否相似。
又例如对于评论者,聚类关系确定装置231可以预先规定需要对比各个评论者的评论者账号特征以及评论者发出评论的特征。对于评论者账号特征,聚类关系确定装置231可对比是否具有相同的结构特征,例如均为4个字母加4个数字的结构,是否注册时使用相同的IP地址等特征。对于评论者发出评论的特征聚类关系确定装置231可以对比各个评论者最后一次发出评论的IP地址,各个评论者发出评论所针对的待评论对象,各个评论者发出评论的评价度,例如好评或差评等特征。
以下以一评论者“桔子粉”对桔子手机所发出的“桔子手机值得拥有,好好好!!!”的评论,以及另一评论者“水果粉”对桔子手机所发出的“这么好的桔子手机你拥有吗?”为例来说明聚类关系确定装置231确定第一聚类关系以及第二聚类关系的方法。
对于各个评论之间的第一聚类关系的确定,聚类关系确定装置231首先按照上文所述的方法得出各个评论的特征。接着聚类关系确定装置231对需要对比的特征进行对比。在本例中,聚类关系确定装置231对比该两条评论的评论者特征和内容特征。聚类关系确定装置231得出评论者“桔子粉”和“水果粉”所分别作出的上述评论来自同一IP地址,并且其评论内容相似度较高。聚类关系确定装置231将这两个对比特征的对比结果按各自权重进行加权求和,当加权求和的结果超过预定阈值,确定该上述两条评论满足第一聚类关系。
对于各个评论者之间的第二聚类关系的确定,聚类关系确定装置231根据上文所述的方法得出该两个评论者的特征。接着,聚类关系确定装置231对需要对比的特征进行对比。在本例中,聚类关系确定装置231对比该两个评论者的评论者账号特征以及评论者发出评论的特征。网络设备得出评论者“桔子粉”和“水果粉”的账号名称具有相同的结构(均由3个汉字组成),并且其注册时使用的IP地址相同。此外,聚类关系确定装置231得出评论者“桔子粉”和“水果粉”所发出的评论均主要针对桔子手机或相关其他手机,并且对于桔子手机的评价度均为好评,而对于其他相关手机的评价度均为差评。聚类关系确定装置231将上述对比结果按各自权重进行加权求和,当加权求和的结果超过预定阈值,从而确定该“桔子粉”和“水果粉”两个评论者之间满足第二聚类关系。
本领域技术人员应理解,此处,对于确定第一聚类关系以及第二聚类关系的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
应注意的是,在实施例中,聚类关系确定装置231可以仅确定第一聚类关系,或仅确定第二聚类关系,来用于评论有效性。
在一个优选实施例中,聚类关系确定装置231的用于根据所述各个评论的各自的评论特征,将所述各个评论进行分组的装置,以下简称第一分组装置2311(未示出)可以根据所述各个评论的各自的评论特征,将所述各个评论进行分组,然后聚类关系确定装置231的用于根据所述各个评论的各自的评论特征,计算同一分组中的各个评论之间的余弦距离的装置,以下简称第一余弦距离计算装置2312(未示出),根据所述各个评论的各自的评论特征,计算同一分组中的各个评论之间的各个余弦距离,并且,聚类关系确定装置231的用于根据所述各个余弦距离,确定所述同一分组中的各个评论之间的第一聚类关系的装置,以下简称第一聚类关系确定装置2313(未示出),根据所述各个余弦距离,确定所述同一分组中的各个评论之间的第一聚类关系。
在另一个优选实施例中,聚类关系确定装置231的用于根据所述各个评论的各自的评论特征,将所述各个评论的各个评论者进行分组的装置,以下简称第二分组装置2314(未示出),可以根据所述各个评论的各自的评论特征,将所述各个评论的各个评论者进行分组,然后聚类关系确定装置231的用于根据所述各个评论的各自的评论特征,计算同一分组中的各个评论者之间的各个余弦距离的装置,以下简称第二余弦距离计算装置2315(未示出),根据所述各个评论的各自的评论特征,计算同一分组中的各个评论者之间的各个余弦距离,然后,聚类关系确定装置231的用于根据所述各个余弦距离,确定所述同一分组中的各个评论者之间的第二聚类关系的装置,以下简称第二聚类关系确定装置2316(未示出),根据所述各个余弦距离,确定所述同一分组中的各个评论者之间的第二聚类关系。
在以下的说明中,我们将使用表1中的例子来说明聚类关系确定装置231确定第一聚类关系和第二聚类关系的上述方法。
表1
在本例中,第一聚类关系确定装置2313需要确定对于桔子手机的各个评价之间的第一聚类关系,以及第二聚类关系确定装置2316需要确定桔子手机的各个评论者之间的第二聚类关系。
具体地,第一分组装置2311和第二分组装置2314可以利用例如SimHash算法或其他去重算法来根据对评论以及评论者分别进行分组,从而将评论特征的相似度较高的评论分到同一组,并将评论者特征的相似较高的评论者分到同一组。在本例中分组结果如下表所示:
表2
表3
接着,第一聚类关系确定装置2313根据评论的分组结果,来对同一组中的评论确定第一聚类关系。第二聚类关系确定装置2316根据评论者的分组结果,来对同一组中的评论者确定第二聚类关系。
如上文所述,在进行聚类关系确定时,可以预先规定需要对比的特征。例如,对于评论,规定对评论内容的相似度、评价度、评论所发出的时间进行对比。对于评论者,规定对评论者的命名方式、评论者注册时所使用的IP地址、评论者对于同一待评论对象的评价度来进行对比。然后,第一余弦距离计算装置2312以及第二余弦距离计算装置2315将根据评论特征或评论者特征的对比结果,来计算评论或者评论者之间的余弦距离,并且第一聚类关系确定装置2313以及第二聚类关系确定装置2316根据余弦距离来确定各个评论或评论者之间的聚类关系。
例如,对于评论组1,第一余弦距离计算装置2312可以以组内的某条评论为基准,来将其他评论与该条评论的特征进行对比。例如第一余弦距离计算装置2312以“桔子手机值得拥有,好好好!!!”为基准,将“这么好的桔子手机你拥有吗?”和“试用了最新款桔子手机,很好”与“桔子手机值得拥有,好好好!!!”进行特征对比,得到如下特征对比结果,其中得分为1至5之间的值,分值越高意味着相似度越高:
表4
接着,第一余弦距离计算装置2312各个评论之间的余弦距离,得出结果如下表所示:
表5
C1 | C2 | C3 | |
C1 | 1 | 0.995 | 0.977 |
C2 | 0.995 | 1 | 0.976 |
C3 | 0.977 | 0.976 | 1 |
接着第一余弦距离计算装置2312将上述余弦距离结果与预定阈值进行比较,假定预定阈值为0.99,则第一余弦距离计算装置2312将C1“桔子手机值得拥有,好好好!!!”和C2“这么好的桔子手机你拥有吗?”之间确定为满足第一聚类关系,而对于C3“试用了最新款桔子手机,很好”则确定其与C1或C2不满足第一聚类关系。
又如,对于评论者组1,第二余弦距离计算装置2315可以用组内的某个评论者为基础,来将其他评论者与该评论者的特征进行对比。例如第二余弦距离计算装置2315以一个评论者“桔子粉”为基础,将其他评论者“水果粉”、“桔子手机忠实用户”与该评论者“桔子粉”进行特征对比,得到如下特征对比结果,其中得分为1至5之间的值,分值越高意味着相似度越高:
表6
接着,第二余弦距离计算装置2315计算各个评论者之间的余弦距离,得出结果如下表所示:
表7
U1 | U2 | U3 | |
U1 | 1 | 0.995 | 0.683 |
U2 | 0.995 | 1 | 0.874 |
U3 | 0.683 | 0.874 | 1 |
接着第二聚类关系确定装置2316将上述余弦距离结果与预定阈值进行比较,假定预定阈值为0.9,则第二聚类关系确定装置2316将U1“桔子粉”和U2“水果粉”之间确定为满足第二聚类关系,而对于U3“桔子手机忠实用户”则确定其与U1和U2之间不满足第二聚类关系。
在一个优选实施例中,第一余弦距离计算装置2312以及第二余弦距离计算装置2315在计算余弦距离时,可以对各个评论或评论者之间基于不同特征的对比结果赋予不同的权值,从而计算加权的余弦距离。
在另一优选实施例中,第一余弦距离计算装置2312以及第二余弦距 离计算装置2315还可以对同一个特征细化为多个子特征,来分别对各个子特征进行对比,并将子特征对比结果按照公式sqrt(子特征对比结果/子特征数量)来进行归一化处理。例如,对于评论所发出的时间这一特征,第一余弦距离计算装置2312以及第二余弦距离计算装置2315可以设定时间段[2014/9/112:00:00–2014/9/112:04:59],以及时间段[2014/9/1/11:55:00–2014/9/111:59:59],以及时间段[2014/9/112:05:00–2014/9/112:09:59],并分别在这三个时间段内对评论所发出的时间这一特征进行比较,从按照sqrt(子特征对比结果/3)来对比较结果进行归一化处理。
应注意的是,根据实际需要,可以仅确定第一聚类关系或者第二聚类关系,或确定其两者。
当按照如上文所述的方法确定了第一聚类关系和/或第二聚类关系后,第二有效性确定装置232根据所述各个评论的各自的评论特征,以及所述第一聚类关系和/或所述第二聚类关系,来确定评论的有效性。例如,第二有效性确定装置232可以将与其他评论之间满足第一聚类关系,或者其评论者与其它评论者之间满足第二聚类关系的评论确定为无效或有效性较弱。或者第二有效性确定装置232可以将与其他评论之间满足第一聚类关系,同时其评论者与其它评论者之间满足第二聚类关系的评论确定为无效或有效性较弱。或例如,第二有效性确定装置232可以预先规定当满足同一个第一聚类关系的评价数超过预定阈值时,将满足该该第一聚类关系的评价均确定为无效或有效性较低。第二有效性确定装置232也可以预先规定当满足同一个第二聚类关系的评价者的数量超过预定阈值时,将满足该第二聚类关系的所有评价者所发出的评价均确定为无效或有效性较低。又例如,第二有效性确定装置232可以将与其他评论之间满足第一聚类关系,并且当其评论者与超过预定阈值的其它评论者之间满足的第二聚类关系的评论确定为无效或有效性较弱。
本领域技术人员应理解,此处,对于确定第一及第二聚类关系,以及根据聚类关系来确定评论的有效性的方式的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范 畴,并以引用的方式包含于此。
在一个实施例中,用于根据所述各个评论的各自的评论特征,并基于所述第二聚类关系,对所述各个评论的各自的评论者的相关信息进行第一处理的装置,以下简称第一处理装置24(未示出),还可以根据各个评论的各自的评论特征,并基于第二聚类关系,对各个评论的各自的评论者的相关信息进行第一处理,其中,所述第一处理包括以下任一项或任多项:
-加标签处理;
-过滤处理;
-降低权重处理。
例如,接上例,按照如上文所述的方法得出“桔子粉”和“水果粉”这两个评论者满足第二聚类关系,则第一处理装置24可以对“桔子粉”和“水果粉”所发出的评论进行降低其权重处理,从而在最终计算待评价对象的评价度时,该“桔子粉”和“水果粉”的评论的权重较低。又或者,第一处理装置24可以将“桔子粉”和“水果粉”加上“马甲评论者”标签,从而在今后的处理中,可以根据“马甲评论者”标签来将来自该两个评论者的评论直接过滤。
本领域技术人员应理解,此处,对于第一处理的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
在一个实施例中,用于根据所确定的所述一个或多个评论中的各个评论的有效性信息,对所述一个或多个评论进行第二处理的装置,以下简称第二处理装置25(未示出),还可以根据所确定的各个评论的有效性信息,对评论进行第二处理,其中所述第二处理包括以下任一项或任多项:
-合并处理;
-过滤处理;
-降低权重处理。
例如,接上例,当按照上文所述的方法确定评论C1“桔子手机值得 拥有,好好好!!!”的无效时,第二处理装置25可以将该评论进行过滤处理。或者当网络设备确定该评论有效性较弱时,第二处理装置25可以将其降低权重,从而在最终计算待评价对象的评价度时,该评论的权重较低。或者,第二处理装置25可以将满足第一聚类关系的评论中的各条评论进行合并处理。
本领域技术人员应理解,此处,对于第二处理的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
根据本发明的另一实施例,还提供了一种搜索信息的方法。该方法可以在网络设备上被实现。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
首先,网络设备基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论。例如来自用户设备的查询序列为“桔子手机”,网络设备根据“桔子手机”进行匹配查询获得了多条搜索结果,其中包含对于“桔子手机”的至少一个评论。在本例中,网络设备通过匹配查询所获得的评论包括例如“桔子手机值得拥有,好好好!!!”,“桔子手机质量稳定”。
接着,网络设备根据评论的有效性,将至少一个评论提供给用户设备,其中,网络设备根据上文参照图1所述的方法来确定各个评论的有效性。例如,在本例中,网络设备根据上文所述的方法确定评论“桔子手机值得拥有,好好好!!!”无效,而评论“桔子手机质量稳定”有效,从而网络设备将有效评论“桔子手机质量稳定”提供至用户设备。或例如,当网络设备利用上文参照图1所述的确定评论的有效性的方法确定评论“桔子手机值得拥有,好好好!!!”的有效性较弱,而评论“桔子手机质 量稳定”有效时,则网络设备将有效评论“桔子手机质量稳定”以较为显著或排序靠前等方式优先提供至用户设备,而将“桔子手机值得拥有,好好好!!!”这一评论以次要方式,例如排序靠后等方式,来提供至用户设备。
本领域技术人员应理解,此处,对于网络设备根据评论的有效性来向用户设备提供评论的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
根据本发明的另一个实施例,还提供了一种搜索信息的装置。此处,该装置可以在网络设备上被实现。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
首先,用于基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论的装置31,以下简称查询装置31(未示出),基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论。例如来自用户设备的查询序列为“桔子手机”,查询装置31根据“桔子手机”进行匹配查询获得了多条搜索结果,其中包含对于“桔子手机”的至少一个评论。在本例中,查询装置31通过匹配查询所获得的评论包括例如“桔子手机值得拥有,好好好!!!”,“桔子手机质量稳定”。
接着,用于根据所述评论的有效性,将所述至少一个评论提供给用户设备的装置32,以下简称提供装置32,根据评论的有效性,将至少一个评论中的有效评论提供给用户设备。其中,还包括上文参照图2所述的用于确定评论的有效性的装置,来确定各个评论的有效性。例如,在本例中,提供装置32利用上文所述的用于确定评论的有效性的装置 确定评论“桔子手机值得拥有,好好好!!!”无效,而评论“桔子手机质量稳定”有效,从而提供装置32将有效评论“桔子手机质量稳定”提供至用户设备。或例如,当提供装置32利用上文所述参照图2所述的用于确定评论的有效性的装置确定评论“桔子手机值得拥有,好好好!!!”的有效性较弱,而评论“桔子手机质量稳定”有效时,则提供装置32将有效评论“桔子手机质量稳定”以较为显著或排序靠前等方式优先提供至用户设备,而将“桔子手机值得拥有,好好好!!!”这一评论以次要方式,例如排序靠后等,来提供至用户设备。
本领域技术人员应理解,此处,对于根据评论的有效性来向用户设备提供评论的相关描述仅为示例性而非限定性描述,存在各种其他的实现方式而不背离本发明的精神或范畴,并以引用的方式包含于此。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (16)
1.一种用于确定评论的有效性的方法,其中,该方法包括:
-获取对于被评论对象的一个或多个评论;
-对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征;
-根据所述评论特征,确定所述评论的有效性,其中,包括:
-根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论之间的第一聚类关系和/或所述各个评论的各个评论者之间的第二聚类关系;
-根据所述一个或多个评论中的各个评论的各自的评论特征,以及所述第一聚类关系和/或所述第二聚类关系,确定所述评论的有效性。
2.根据权利要求1所述的方法,其中,所述评论特征包括以下至少任一项:
-所述评论的评论者特征;
-所述评论的内容特征。
3.根据权利要求2所述的方法,其中,所述评论者特征包括以下任一项或任多项:
-所述评论者所使用的IP地址信息;
-所述评论者的注册相关信息;
-所述评论者进行评论的时间相关信息;
-所述评论者所发出的评论的内容相关信息;
其中,所述内容特征包括:
-所述评论的内容中所包含的各个字符和/或词的分别的重复次数。
4.根据权利要求1所述的方法,其中,所述根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论之间的第一聚类关系的步骤包括:
-根据所述各个评论的各自的评论特征,将所述各个评论进行分组;
-根据所述各个评论的各自的评论特征,计算同一分组中的各个评论之间的各个余弦距离;
-根据所述各个余弦距离,确定所述同一分组中的各个评论之间的第一聚类关系。
5.根据权利要求1所述的方法,其中,所述根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论的各个评论者之间的第二聚类关系的步骤包括:
-根据所述各个评论的各自的评论特征,将所述各个评论的各个评论者进行分组;
-根据所述各个评论的各自的评论特征,计算同一分组中的各个评论者之间的各个余弦距离;
-根据所述各个余弦距离,确定所述同一分组中的各个评论者之间的第二聚类关系。
6.根据权利要求1或5所述的方法,其中,还包括:
-根据所述各个评论的各自的评论特征,并基于所述第二聚类关系,对所述各个评论的各自的评论者的相关信息进行第一处理,其中,所述第一处理包括以下任一项或任多项:
-加标签处理;
-过滤处理;
-降低权重处理。
7.根据权利要求1至5中任一项所述的方法,其中,还包括:
-根据所确定的所述一个或多个评论中的各个评论的有效性信息,对所述一个或多个评论进行第二处理,其中所述第二处理包括以下任一项或任多项:
-合并处理;
-过滤处理;
-降低权重处理。
8.一种用于确定评论的有效性的装置,其中,该装置包括:
-用于获取对于被评论对象的一个或多个评论的装置;
-用于对所述一个或多个评论中的各个评论,确定所述评论所对应的评论特征的装置;
-用于根据所述评论特征,确定所述评论的有效性的装置,其中,包括:
-用于根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论之间的第一聚类关系和/或所述各个评论的各个评论者之间的第二聚类关系的装置;
-用于根据所述一个或多个评论中的各个评论的各自的评论特征,以及所述第一聚类关系和/或所述第二聚类关系,确定所述评论的有效性的装置。
9.根据权利要求8所述的装置,其中,所述评论特征包括以下至少任一项:
-所述评论的评论者特征;
-所述评论的内容特征。
10.根据权利要求9所述的装置,其中,所述评论者特征包括以下任一项或任多项:
-所述评论者所使用的IP地址信息;
-所述评论者的注册相关信息;
-所述评论者进行评论的时间相关信息;
-所述评论者所发出的评论的内容相关信息;
其中,所述内容特征包括:
-所述评论的内容中所包含的各个字符和/或词的分别的重复次数。
11.根据权利要求8所述的装置,其中,所述用于根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论之间的第一聚类关系的装置包括:
-用于根据所述各个评论的各自的评论特征,将所述各个评论进行分组的装置;
-用于根据所述各个评论的各自的评论特征,计算同一分组中的各个评论之间的各个余弦距离的装置;
-用于根据所述各个余弦距离,确定所述同一分组中的各个评论之间的第一聚类关系的装置。
12.根据权利要求8所述的装置,其中,所述用于根据所述一个或多个评论中的各个评论的各自的评论特征,确定所述各个评论的各个评论者之间的第二聚类关系的装置包括:
-用于根据所述各个评论的各自的评论特征,将所述各个评论的各个评论者进行分组的装置;
-用于根据所述各个评论的各自的评论特征,计算同一分组中的各个评论者之间的各个余弦距离的装置;
-用于根据所述各个余弦距离,确定所述同一分组中的各个评论者之间的第二聚类关系的装置。
13.根据权利要求8或12所述的装置,其中,还包括:
-用于根据所述各个评论的各自的评论特征,并基于所述第二聚类关系,对所述各个评论的各自的评论者的相关信息进行第一处理的装置,其中,所述第一处理包括以下任一项或任多项:
-加标签处理;
-过滤处理;
-降低权重处理。
14.根据权利要求8至11中任一项所述的装置,其中,还包括:
-用于根据所确定的所述一个或多个评论中的各个评论的有效性信息,对所述一个或多个评论进行第二处理的装置,其中所述第二处理包括以下任一项或任多项:
-合并处理;
-过滤处理;
-降低权重处理。
15.一种搜索信息的方法,其中包括:
-基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论;
-根据所述评论的有效性,将所述至少一个评论提供给用户设备;
其中,还包括,根据权利要求1至7中任一项所述的方法来确定各个评论的有效性。
16.一种搜索信息的装置,其中包括:
-用于基于来自用户设备的查询序列进行匹配查询,获取一条或多条搜索结果,其中包括至少一个评论的装置;
-用于根据所述评论的有效性,将所述至少一个评论提供给用户设备的装置;
其中,还包括,根据权利要求8至14中任一项所述的用于确定各个评论的有效性的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410499733.4A CN104281665B (zh) | 2014-09-25 | 2014-09-25 | 一种用于确定评论的有效性的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410499733.4A CN104281665B (zh) | 2014-09-25 | 2014-09-25 | 一种用于确定评论的有效性的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281665A CN104281665A (zh) | 2015-01-14 |
CN104281665B true CN104281665B (zh) | 2018-05-25 |
Family
ID=52256538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410499733.4A Active CN104281665B (zh) | 2014-09-25 | 2014-09-25 | 一种用于确定评论的有效性的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281665B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834685A (zh) * | 2015-04-17 | 2015-08-12 | 百度国际科技(深圳)有限公司 | 一种对评论类网页中的评论信息块进行处理的方法与装置 |
CN105488144A (zh) * | 2015-11-25 | 2016-04-13 | 四川诚品电子商务有限公司 | 商品评论信息中重复信息处理方法 |
CN105955990A (zh) * | 2016-04-15 | 2016-09-21 | 北京理工大学 | 一种兼顾多样性和有效性的评论排序和筛选方法 |
CN106055664B (zh) * | 2016-06-03 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 一种基于用户评论的ugc垃圾内容过滤方法及系统 |
CN108280560A (zh) * | 2017-01-06 | 2018-07-13 | 广州市动景计算机科技有限公司 | 一种对象评价防刷方法及装置 |
CN108335109A (zh) * | 2017-01-17 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 点评系统的管理方法及装置 |
CN108804682A (zh) * | 2018-06-12 | 2018-11-13 | 北京顶象技术有限公司 | 分析视频评论真实性的方法、装置、电子设备及存储介质 |
US11120218B2 (en) | 2019-06-13 | 2021-09-14 | International Business Machines Corporation | Matching bias and relevancy in reviews with artificial intelligence |
CN111556055B (zh) * | 2020-04-28 | 2022-05-13 | 中国联合网络通信集团有限公司 | 一种基于区块链的点评方法和装置 |
CN114245163B (zh) * | 2021-12-15 | 2023-06-09 | 四川启睿克科技有限公司 | 一种过滤机器人弹幕的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN103020140A (zh) * | 2012-11-21 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种对互联网用户评论内容自动过滤的方法和装置 |
CN103488635A (zh) * | 2012-06-11 | 2014-01-01 | 腾讯科技(深圳)有限公司 | 一种获取产品信息的方法及装置 |
CN103577988A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种识别特定用户的方法和装置 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN103996130A (zh) * | 2014-04-29 | 2014-08-20 | 北京京东尚科信息技术有限公司 | 一种商品评价信息过滤方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140081994A1 (en) * | 2012-08-10 | 2014-03-20 | The Trustees Of Columbia University In The City Of New York | Identifying Content for Planned Events Across Social Media Sites |
-
2014
- 2014-09-25 CN CN201410499733.4A patent/CN104281665B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488635A (zh) * | 2012-06-11 | 2014-01-01 | 腾讯科技(深圳)有限公司 | 一种获取产品信息的方法及装置 |
CN103577988A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种识别特定用户的方法和装置 |
CN103020140A (zh) * | 2012-11-21 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种对互联网用户评论内容自动过滤的方法和装置 |
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN103996130A (zh) * | 2014-04-29 | 2014-08-20 | 北京京东尚科信息技术有限公司 | 一种商品评价信息过滤方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104281665A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281665B (zh) | 一种用于确定评论的有效性的方法与装置 | |
TWI584137B (zh) | Search, determine the active area of the method with the server | |
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
CN102968413B (zh) | 一种用于提供搜索结果的方法与设备 | |
CN103885987B (zh) | 一种音乐推荐方法和系统 | |
CN104239327B (zh) | 一种基于位置信息的移动互联网用户行为分析方法及装置 | |
CN105447147B (zh) | 一种数据处理方法及装置 | |
WO2016192309A1 (zh) | 推送信息的处理方法、装置、设备及非易失性计算机存储介质 | |
CN106570008A (zh) | 推荐方法及装置 | |
CN106933821A (zh) | 一种基于相似度计算的个性化职位推荐方法和系统 | |
CN103440259A (zh) | 一种网络广告推送方法和装置 | |
CN103295145A (zh) | 一种基于用户消费特征向量的手机广告投放方法 | |
CN103745384A (zh) | 一种用于向用户设备提供信息的方法及装置 | |
CN102855333A (zh) | 一种基于组推荐的服务选取系统及其选取方法 | |
CN103353920A (zh) | 基于社交网络推荐游戏的方法和装置 | |
CN105095625B (zh) | 点击率预估模型建立方法、装置及信息提供方法、系统 | |
CN107896153B (zh) | 一种基于移动用户上网行为的流量套餐推荐方法及装置 | |
CN102135983A (zh) | 基于网络用户行为的群体划分方法和装置 | |
CN109242537A (zh) | 广告投放方法、装置、计算机设备及存储介质 | |
CN103136213B (zh) | 一种提供相关词的方法及装置 | |
CN101963979A (zh) | 一种用于基于云计算提供搜索建议的方法与设备 | |
CN103744904B (zh) | 一种提供信息的方法及装置 | |
CN102930052B (zh) | 一种基于多维度属性关注度的兴趣资源推荐方法 | |
CN105408894B (zh) | 一种用户身份类别确定方法以及装置 | |
CN109150817A (zh) | 一种网页请求识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |