CN108874832B - 目标评论确定方法及装置 - Google Patents
目标评论确定方法及装置 Download PDFInfo
- Publication number
- CN108874832B CN108874832B CN201710340348.9A CN201710340348A CN108874832B CN 108874832 B CN108874832 B CN 108874832B CN 201710340348 A CN201710340348 A CN 201710340348A CN 108874832 B CN108874832 B CN 108874832B
- Authority
- CN
- China
- Prior art keywords
- comments
- comment
- candidate
- screened
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是关于一种目标评论确定方法及装置。该方法包括:获取针对网络对象的至少两条备选评论;对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,所述特征信息用于指示对应的备选评论的文本内容的特征;将所述至少两条备选评论各自的特征信息输入预设的训练模型,计算获得所述至少两条备选评论各自对应的评分数值;根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论。该方法实现按照评论的文本内容选择目标评论,达到提高目标评论确定的准确性的效果。
Description
技术领域
本发明涉及网络应用技术领域,特别涉及一种目标评论确定方法及装置。
背景技术
随着网络应用技术的不断发展,越来越多的信息通过网络进行传播。为了增进接收网络信息的用户之间的交互,网络信息的提供商通常还会提供评论区域,以便用户对网络信息发布评论。面对日益增长的用户评论,如何快速筛选出优质的精彩评论,已经成为网络信息的提供商所需要解决的一个通用难题。
在互联网络中,每个可评论的网络信息可以称为一个网络对象,比如,一个视频、一篇文章或者一部连载小说等等。在相关技术中,对于一个网络对象,该网络对象的提供商通常根据用户对评论的操作行为(比如点赞)来确定其中的精彩评论。比如,以确定某一部连载小说的精彩评论为例,服务器可以统计该连载小说的各个评论被点赞的次数,并将其中被点赞次数最多的几条(比如5条)评论确定为精彩评论。后续在展示目标对象的评论时,这些被点赞次数最多的几条评论将被优先展示。
然而在实际应用中,用户对某条评论点赞可能并不是因为该条评论很精彩,比如,评论中的某个笑话段子可能得到很多人的点赞,或者,连载小说中一条催作者更新的评论也会引起很多读者的共鸣导致很多人点赞。上面这类评论并不适合优先展示,因此,相关技术中根据用户对评论的操作行为来确定其中的精彩评论的方式,确定出的精彩评论的准确性较低。
发明内容
为了解决现有技术中根据用户对评论的操作行为来确定其中的精彩评论的方式的准确性较低的问题,本发明实施例提供了一种目标评论确定方法及装置,技术方案如下:
第一方面,提供了一种目标评论确定方法,所述方法包括:
获取针对网络对象的至少两条备选评论;
对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,所述特征信息用于指示对应的备选评论的文本内容的特征;
将所述至少两条备选评论各自的特征信息输入预设的训练模型,计算获得所述至少两条备选评论各自对应的评分数值;
根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论。
第二方面,提供了一种模型训练方法,所述方法包括:
获取评论样本,所述评论样本是针对网络对象的评论中,被确定为满足目标评论的标准的样本;
对所述评论样本进行特征提取,获得所述评论样本的特征信息,所述特征信息用于指示所述评论样本的文本内容的特征;
按照预设的机器训练算法对所述评论样本的特征信息进行机器训练,获得训练模型,所述训练模型用于在从针对网络对象的至少两条备选评论中确定目标评论时,根据所述至少两条备选评论各自的特征信息计算获得所述至少两条备选评论各自对应的评分数值。
第三方面,提供了一种存储设备,所述存储设备中存储有多条指令,所述指令适于由处理器加载并执行:
如上述第一方面所述的目标评论确定方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在确定目标评论时,提取评论的文本内容对应的特征,并根据提取到的特征,结合预设的训练模型计算该评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而实现按照评论的文本内容选择目标评论,达到提高目标评论确定的准确性的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种网络评论管理系统的结构示意图;
图2是根据一示例性实施例示出的一种目标评论确定方法的流程图;
图3是根据一示例性实施例示出的一种精彩评论确定流程示意图;
图4和图5是图3所示实施例涉及的精彩评论展示示意图;
图6是根据一示例性实施例示出的一种模型训练方法的流程图;
图7是图6所示的实施例涉及的一种获取评论样本的流程示意图;
图8是根据一示例性实施例示出的一种目标评论确定装置的结构方框图;
图9是根据一示例性实施例示出的一种模型训练装置的结构方框图;
图10是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本发明一示例性实施例示出的一种网络评论管理系统的结构示意图。该系统包括:若干个用户终端120和服务器集群140。
用户终端120可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
用户终端120与服务器集群140之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
服务器集群140是一台服务器,或者由若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心。可选的,服务器集群140可以包括用于实现目标评论确定平台142的服务器,可选的,服务器集群140还包括用于实现网络评论管理平台144的服务器。可选的,服务器集群140还包括用于实现网络对象管理平台146的服务器。
可选的,网络评论管理平台144包括:用于存储各个用户针对网络对象发布的评论的服务器、用于存储网络对象的各条评论对应的用户行为的服务器以及用于推送及维护目标评论的服务器。
其中,评论对应的用户行为可以是用户对评论的点赞以及引用的用户行为。目标评论是目标评论确定平台142从各个用户针对网络对象发布的评论中确定出的至少一条评论。
可选的,网络对象管理平台146用于维护以及向用户终端120推送网络对象,该网络对象包括但不限于电子书籍、网络文章、新闻、资讯、视频以及论坛帖子等允许读者或观众发表评论的网络内容。本发明实施例对于网络对象的具体形式不做限定。
需要说明的是,上述用于实现目标评论确定平台142、网络评论管理平台144以及网络对象管理平台146的服务器可以是相互之间独立的服务器;或者,上述目标评论确定平台142、网络评论管理平台144以及网络对象管理平台146中的两个平台可以实现在同一个服务器中,而另外一个平台可以实现在另一个服务器中;或者,用户实现上述三个平台的服务器也可以是同一个服务器。当上述三个平台实现在两个或者三个服务器中时,这两个或者三个服务器之间通过通信网络相连。
可选的,该系统还可以包括管理设备160(图1未示出),该管理设备160与服务器集群140之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Trassport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
在实际应用中,从用户角度来说,对网络对象发布的一条评论是否可以作为该网络对象的精彩评论,绝大部分取决于该评论的文本内容,比如,该评论的文本内容与网络对象的内容之间的相关性越高,该条评论越适合作为该网络对象的精彩评论;反之,若该评论的文本内容与网络对象的内容之间的相关性越低,则该条评论越不适合作为该网络对象的精彩评论。因此,在本发明各个实施例所示的方案中,在确定网络对象的目标评论时,可以获取针对网络对象的至少两条备选评论,对至少两条备选评论进行特征提取,获得至少两条备选评论各自的特征信息,该特征信息用于指示对应的备选评论的文本内容的特征,将至少两条备选评论各自的特征信息输入预设的训练模型,计算获得至少两条备选评论各自对应的评分数值,再根据至少两条备选评论各自对应的评分数值,确定至少两条备选评论中的目标评论。
即在本发明各个实施例所示的方案中,在确定目标评论时,提取评论的文本内容对应的特征,并根据提取到的特征,结合预设的训练模型计算该评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而提高目标评论确定的准确性。
图2是根据一示例性实施例示出的一种目标评论确定方法的流程图,以应用于如图1所示的系统中的服务器集群为例,该目标评论确定方法可以包括如下几个步骤:
步骤201,从对网络对象的各条评论中筛选出至少两条备选评论。
一个网络对象的评论条数可能会有很多,比如,以网络对象是网络连载小说为例,随着连载时间的推移,以及读者数量的不断增加,一篇网络连载小说的评论的数量也在不断增长,即便是比较冷门的小说,通常也会有几千条评论,而某些比较热门的小说的评论数量甚至会达到几十万甚至更多。当目标对象的评论条数过多时,如果服务器集群对每条评论都进行后续特征提取和评分数值计算,则服务器集群需要处理的计算量过大,处理时间过长,导致确定目标评论的效率过低。因此,在本发明实施例所示的方案中,服务器集群在从网络对象的各条评论中确定出目标评论时,首先从各条评论中确定出部分(至少两条)备选评论,再基于作为备选评论的部分评论进行后续的目标评论确定的步骤。
在本发明实施例所示的方案中,从一个网络对象的各条评论中确定出至少两条备选评论的方式主要有以下两种:
一、服务器集群可以将网络对象的各条评论中,满足预设的第一筛选条件的评论获取为至少两条备选评论。其中,该第一筛选条件包括评论中不包含预设的敏感词、评论中不包含指定内容文本以及评论字数大于预设的字数阈值中的至少一种。
上述第一种确定至少两条备选评论的方式主要用于过滤以下三种评论中的至少一种:
1)过滤涉黄或敏感类评论。
以待确定的目标评论是准备推荐展示给读者的精彩评论为例,涉黄评论或者敏感类评论(比如涉嫌违反法律法规、违反道德准则或者涉及敏感政治话题等评论)明显不适合推荐展示给读者,因此,本发明实施例所示的方案可以对这些涉黄或敏感类评论进行过滤。具体的,服务器集群可以维护一个黑名单词库,其中包含了预先收集的涉黄词汇和敏感词汇(比如涉嫌违反法律法规的词汇、违反道德准则的词汇以及涉及敏感政治话题的词汇等),在确定至少两条备选评论时,服务器集群可以使用字符串查找的方式,查找评论中是否包含有黑名单词库中收集的涉黄词汇或者敏感词汇,一旦发现评论中包含涉黄词汇或者敏感词汇,则该条评论将被过滤。
2)过滤包含指定内容文本(比如搞笑段子之类)的评论。
还是以待确定的目标评论是准备推荐展示给读者的精彩评论为例,在实际应用中,很多用户喜欢在评论中发表搞笑段子等与网络对象无关,又能够吸引其它用户关注的评论,一方面,这些评论并不适合作为推荐给读者的精彩评论,后续服务器集群对此类评论进行特征提取和评分数值计算时,会影响目标评论的效率;另一方面,有一些搞笑段子可能包含少量能够作为精彩评论的词语,如果不对这些搞笑段子评论进行过滤,则后续计算中可能会将搞笑段子之类的评论误识别为精彩评论,导致目标评论确定的准确性受到影响,因此,本发明实施例所示的方案可以对包含指定内容文本(比如搞笑段子)的评论进行过滤。
具体的,在本发明实施例中,服务器集群中可以维护一个指定内容文本库(比如段子库),其中包含了事先收集的各种指定内容文本,在确定至少两条备选评论时,服务器集群可以采用文本相似计算的方法来进行判断评论中的文本内容与该指定内容文本库中的指定内容文本之间的相似度,一旦发现某个评论的文本内容和段子库中的指定内容文本过于相似(比如相似度超过某一相似度阈值),则过滤掉该条评论。
3)过滤低字数的评论。
以待确定的目标评论是准备推荐展示给读者的精彩评论为例,在实际应用中,评论的字数或多或少能够反应评论的精彩程度,比如,字数过少的评论通常不会是精彩评论,因此,本发明实施例所示的方案可以对字数过少的评论进行过滤。具体的,服务器集群中可以设置一个字数阈值,在确定至少两条备选评论时,服务器集群可以比较某条评论的字数与该字数阈值之间的大小关系,如果该评论的字数不大于该字数阈值,则过滤掉该条评论。
二、服务器集群可以获取对网络对象的各条评论的行为数据,行为数据用于指示用户对至少两条评论的操作行为,根据各条评论的行为数据计算各条评论各自对应的行为分值,并根据各条评论各自对应的行为分值获取至少两条备选评论。
比如,服务器集群可以将对应的行为分值高于预设的分值阈值的评论获取为至少两条备选评论。
本发明实施例所示的方案,也可以结合用户对评论的操作行为来筛选出备选评论,以保证后续算法有较高的覆盖率,即该步骤可以识别出受到用户欢迎,或者能够引起用户注意的评论。
具体的,服务器集群可以首先统计网络对象的每条评论的行为数据,比如点赞数和被引用数,之后,服务器集群根据每条评论的行为数据计算每条评论的行为分值,其中,计算公式可以如下:
S=L+n*Q;
其中,S为行为分值,L为点赞数,n为预设的常数,Q为被引用数。比如,如果默认被引用的评论更具有话题性,推荐效果更好,则服务器集群可以将n设置(可以主动设置,也可以由管理人员人工设置)为一个大于1的正数(比如,n可以设置为5),以对相应的被引用数进行了加权。然后,服务器集群过滤分值小于预设的分值阈值(比如,分值阈值可以设置为10)的评论,即点赞数和被引用数达不到一定要求的评论通常无法成为精彩评论,可以通过该步骤过滤掉。
可选的,为了便于后续计算,服务器集群可以将过滤剩下的评论按行为分值进行归一化,比如,将过滤剩下的各个评论的行为分值统一调整到(0,60]之间。
可选的,上述两种确定至少两条备选评论的方法也可以结合使用,比如,服务器集群可以将网络对象的各条评论中,满足预设的第一筛选条件的评论获取为筛选后的至少两条评论;之后,服务器集群再获取筛选后的至少两条评论的行为数据,根据筛选后的至少两条评论的行为数据计算筛选后的至少两条评论各自对应的行为分值,并根据筛选后的至少两条评论各自对应的行为分值获取至少两条备选评论。比如,服务器集群可以将筛选后的至少两条评论中,对应的行为分值高于预设的分值阈值的评论获取为至少两条备选评论。
或者,服务器集群也可以先获取对网络对象的各条评论的行为数据,根据各条评论的行为数据计算各条评论各自对应的行为分值,并将对应的行为分值不高于预设的分值阈值的评论过滤掉,再将行为分值高于预设的分值阈值的评论中,满足预设的第一筛选条件的评论获取为至少两条备选评论。
步骤202,对该至少两条备选评论进行特征提取,获得该至少两条备选评论各自的特征信息,特征信息用于指示对应的备选评论的文本内容的特征。
在本发明实施例中,为了便于后续通过训练模型计算备选评论的评分数值,服务器集群可以对至少两条备选评论的文本内容的特征进行数值化。
比如,对于至少两条备选评论中的每一条备选评论,服务器集群可以分析该备选评论的文本内容,获得备选评论的特征向量,其中,该特征向量中的元素包括预设的特征词在备选评论中出现的次数、备选评论的字数以及备选评论中的标点符号数中的至少一种;服务器集群可以获取包含特征向量的备选评论的特征信息,比如,服务器集群可以直接将该特征向量获取为该备选评论的特征信息。
具体比如,以将文本按特征词出现的次数和一些统计特征进行向量化为例,假设特征词有“文笔、结构、剧情”之类的实体词,而统计特征有中文汉字数、标点符号数;假设某条评论为“我觉得这本书更多的是文笔的成熟,感受,描写,叙事的手法都有在不断明显成熟,只是剧情不是太起伏。斗一之后大部分细节都一样,毕竟是同一系列,同一大陆,同一世界。”,服务器集群对特征词“文笔、结构、剧情”出现的次数、中文汉字数以及标点符号数进行向量化,获得该条评论的特征向量(也就是特征信息)为<1,0,1,69,9>。
在一种可能的实现方式中,上述特征词可以由服务器集群对网络对象的各条评论进行统计获得,具体的,在执行上述提取特征信息的步骤之前,服务器集群可以获取网络对象的各条评论,该各条评论预先各自被标注为目标评论或者非目标评论,服务器集群对各条评论的文本内容进行统计,获得各条评论中的各个实体词(即名词和代词),之后,服务器集群再对各个实体词进行卡方检验,获得各个实体词各自对应的卡方值,卡方值用于指示包含对应的实体词的评论是目标评论的概率,再根据各个实体词各自对应的卡方值,从各个实体词中确定出预设的特征词。
卡方检验是一种计数资料的假设检验方法,其属于非参数检验的范畴,主要用于比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。卡方检验可以认为是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,卡方值越大,表示实际观测值与理论推断值之间的偏离程度越小,反之,卡方值越小,表示实际观测值与理论推断值之间的偏离程度越大。
在本发明实施例所示的方案中,管理人员预先收集网络对象的若干条评论,并对该若干条评论进行标注,将该若干条评论分为目标评论和非目标评论,服务器集群可以对该若干条评论进行分词,获得各个实体词,并对各个实体词进行卡方检验,获得各个实体词对应的卡方值,并将各个实体词按照各自对应的卡方值的绝对值从大到小的顺序进行排列,并将排列后的各个实体词中的前m个实体词确定为上述特征词,其中,m为预先设置的正整数,比如,m可以设置为1000,或者,也可以设置为其它数值。
其中,上述m的数值可以由管理人员在服务器集群中人工设置,或者,m的数值也可以由服务器集群自动设置,比如,服务器集群可以根据上述各个实体词的数量确定m的数值。具体的,服务器集群可以将上述各个实体词的数量乘以预定的比例,将乘积取整的结果确定为m的数值。
步骤203,将该至少两条备选评论各自的特征信息输入预设的训练模型,计算获得至少两条备选评论各自对应的评分数值。
其中,上述预设的训练模型可以有很多种,比如决策树模型、贝叶斯模型、线性模型(如线性回归模型)以及最近邻等模型等等。
在本发明实施例中,服务器集群中包含预先设置好模型参数的训练模型,在计算评分数值时,对于某一个备选评论,服务器集群只需要将该备选评论的特征信息(比如上述特征向量)输入该训练模型,即可以获得该备选评论的评分数值。其中,该评分数值可以为该备选评论是目标评论的概率。
步骤204,根据该至少两条备选评论各自对应的评分数值,确定至少两条备选评论中的目标评论。
在本发明实施例中,服务器集群可以首先按照评分数值对该至少两条备选评论进行过滤,获得筛选后的备选评论,再根据筛选后的备选评论以及筛选后的备选评论的评分数值确定目标评论。比如,服务器集群可以将对应的评分数值大于预设的评分阈值的备选评论确定为筛选后的备选评论,当筛选后的备选评论的数量不大于N时,服务器集群将筛选后的备选评论确定为目标评论;当筛选后的备选评论的数量大于N时,服务器集群按照对应的评分数值从高到低的顺序对筛选后的备选评论进行排序,并将排在前N位的评论获取为目标评论。其中,N为预设的正整数。
上述步骤201至步骤204中对备选评论进行筛选的过程过滤了质量较低的评论和部分非目标评论,这两个步骤主要作用是对评论进行打分完成权重计算,真正的筛选过程是最后通过排序步骤实现的。
以目标评论为精彩评论为例,在通常情况下,精彩评论只需要选出3~5条进行展示,在上述确定目标评论的策略(可以称之为权重优先策略)中,服务器集群直接按要求的条数(比如选择4条精彩评论)选出权重最大的4条评论,即完成精彩评论的筛选,这时只要按之前计算好的筛选后的每条备选评论的评分数值倒叙排列取top4即可。如果筛选后的备选评论的条数不足4条,比如只有2条,则可以不需要对筛选后的备选评论进行排序,直接将筛选后的2条备选评论获取为精彩评论。
在另一种可能的实现方式中,本发明实施例所示的方案还可以引入时间因素,以对备选评论的评分数值进行调整,比如,服务器集群将至少两条备选评论中,满足预设的第二筛选条件的评论获取为筛选后的备选评论,第二筛选条件包括对应的评分数值不小于预设的评分阈值;当筛选后的备选评论的数量不大于N时,服务器集群将筛选后的备选评论确定为目标评论;当筛选后的备选评论的数量大于N时,服务器集群获取至少两条备选评论各自的发布时间,根据至少两条备选评论各自的发布时间对至少两条备选评论各自对应的评分数值进行调整,获得至少两条备选评论调整后的评分数值,按照对应的调整后的评分数值从高到低的顺序对筛选后的备选评论进行排序,并将排在前N位的评论获取为目标评论。
在本发明实施例中,服务器集群可以通过时间衰减策略对筛选后的备选评论的评分数值进行调整,具体的,当筛选后的备选评论的数量大于N时,服务器集群可以使用牛顿冷却定律,将时间因素考虑进来,通过预设的调整公式对每条备选评论计算好的评分数值进行衰减调整。其公式可以如下:
其中,S1为调整后的评分数值,S0为调整前的评分数值,a为冷却系数,Δt是备选评论的发布时间到当前时刻之间的时间间隔。其中,冷却系数是个固定的值,用于控制衰减速度,其具体数值可以由管理人员在服务器集群中人工设置,比如,可以将a的数值设置为0.1。上述时间间隔Δt可以按天计算,即从该备选评论发表到当前时刻之间的间隔天数。或者,上述时间间隔也可以按照其它粒度进行计算,比如,可以按照小时或者分钟进行计算。
在另一种可能的实现方式中,服务器集群在对该至少两条备选评论进行过滤,以获得筛选后的备选评论时,可能会出现该至少两条备选评论都被过滤掉的情况,比如,服务器集群在确定筛选后的备选评论时,若发现至少两个备选评论的评分数值都不大于预设的评分阈值,则筛选后的备选评论的数量为0,此时,服务器集群可以根据上述步骤201中获得的,该至少两个备选评论的行为分值,从该至少两个备选评论中确定目标评论。具体比如,当该至少两个备选评论的数量不大于N时,服务器集群将该至少两个备选评论确定为目标评论;当该至少两个备选评论的数量大于N时,服务器集群获取至少两条备选评论各自的发布时间,根据至少两条备选评论各自的发布时间对至少两条备选评论各自对应的行为分值进行调整,获得至少两条备选评论调整后的行为分值,按照对应的调整后的行为分值从高到低的顺序对该至少两个备选评论进行排序,并将排在前N位的评论获取为目标评论。
若只根据行为数据进行目标评论的筛选,则由于尺度较松,虽然漏判较少,但是误判较多;而若只使用文本内容的特征信息进行筛选,则往往因为过于严格会导致漏判较多,甚至筛选不出精彩评论。而本方案所示的方法上述两种方式,能够兼顾准确率和漏判率,能够覆盖更多的应用场景,健壮性更强。
本方案完全基于文本处理,在筛选备选评论时,只需要统计行为数据和文本内容、字数以及标点数等简单特征,而后续的评分数值计算过程中直接使用预设的训练模型对备选评论的特征信息进行计算即可,不需要人工介入,目标评论的确定过程效率较高。
综上所述,本发明实施例提供的目标评论确定方法,在确定目标评论时,提取评论的文本内容对应的特征,并根据提取到的特征,结合预设的训练模型计算该评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而实现按照评论的文本内容选择目标评论,达到提高目标评论确定的准确性的效果。
另外,本发明实施例提供的方法,在提取评论的文本内容对应的特征之前,首先通过字数、敏感词以及指定内容文本对网络对象的评论进行过滤,并对过滤获得的备选评论进行特征信息的提取,降低服务器集群需要处理的计算量,减少处理时间,提高确定目标评论的效率。
此外,本发明实施例提供的方法,在根据备选评论的评分数值确定目标评论之前,根据备选评论的发布时间对备选评论的评分数值进行调整,综合考虑时间因素对目标评论的影响,提高目标评论确定的准确性。
图3是本发明一示例性实施例示出的一种精彩评论确定流程示意图。以确定某个网络连载小说(即上述网络对象)的评论中的精彩评论(即目标评论)为例,假设服务器集群是某个推送上述网络连载小说的阅读类APP(Application,第三方应用程序)的服务器,以服务器集群是上述图1所示系统中的服务器集群140为例,服务器集群140中的网络对象管理平台146向订阅该网络连载小说的各个用户终端140推送该网络连载小说,用户通过用户终端140对该网络连载小说发表评论,或者,对他人发表的评论进行点赞或者引用等操作,用户终端140将用户发表的评论或者对他人发表的评论的操作反馈至服务器集群140,服务器集群140中的网络评论管理平台144存储用户发表的评论的文本内容、发布时间以及用户对各个评论所执行的操作行为所对应的行为数据,包括每个评论被点赞数以及被引用数等等。服务器集群140确定该网络连载小说的精彩评论并进行推送的流程如下:
1)目标评论确定平台142首先从网络评论管理平台144中提取该网络连载小说的各条评论,设为集合A。
2)目标评论确定平台142根据提取到的各条评论的文本内容对各条评论进行筛选,过滤掉字数少于5字以及包含敏感词或者段子的评论,获得筛选后的评论,设为集合A’。
3)目标评论确定平台142从网络评论管理平台144中提取集合A’中的各条评论的行为数据,按照集合A’中的各条评论的点赞数和被引用数计算集合A’中的各条评论各自对应的行为分值,计算公式为:行为分值=点赞数+5*被引用数。
4)目标评论确定平台142按照各自的行为分值对集合A’中的各条评论进行过滤,以过滤掉行为分值低于分值阈值(比如,该分值阈值可以设置为10),获得备选评论;目标评论确定平台142将备选评论以及备选评论对应的行为分值获取为集合B,该集合B可以是一个二元组集合,即该集合B中的每个元素是一个<备选评论,行为分值>的二元组。
5)目标评论确定平台142提取集合B中的各个备选评论的文本内容的特征向量(提取步骤可以参考步骤202),使用预先训练好的精彩评论训练模型进行计算,得到每条备选评论是否属于精彩评论的概率(相当于上述图2所示实施例中的评分数值)。
6)目标评论确定平台142提取出集合B中属于精彩评论的概率超过一定概率阈值(比如0.6)的备选评论,将提取出的备选评论及其概率值获取为二元组集合C,即该集合C中的每个元素是一个<备选评论,概率值>的二元组。
7)目标评论确定平台142判断集合C中的元素的数量M与0和N之间的大小关系;如果M=0,进入步骤8);如果0<M≤N,进入步骤9);如果M>N,进入步骤10)。
8)如果没有一条备选评论计算的概率值能超过概率阈值,则认为该网络连载小说的的评论的质量普遍一般,此时,目标评论确定平台142按照行为分值的高低顺序以及评论的发布时间,从集合B中确定精选评论。具体的,目标评论确定平台142可以按照预定的衰减公式,根据集合B中的各条备选评论的发布时间与当前时刻之间的时间间隔,对集合B中的各条备选评论的行为分值进行调整,并按照集合B中各条的备选评论的调整后的行为分值从高到低的顺序,对集合B中的各条备选评论进行排序,选取排序后的前N条备选评论作为精选评论;可选的,如果集合B中的备选评论的条数小于或者等于N,则不需要进行上述分值调整和排序,直接将集合B中的备选评论获取为精选评论。
9)如果对应的概率值超过概率阈值的备选评论的条数不大于N,此时,目标评论确定平台142可以直接将这些概率值超过概率阈值的备选评论(即集合C中的备选评论)获取为精彩评论。
10)如果对应的概率值超过概率阈值的备选评论的条数大于N,则目标评论确定平台142按照对应的概率值的高低顺序以及发布时间,从集合C中确定精选评论。具体的,目标评论确定平台142可以按照预定的衰减公式,根据集合C中的各条备选评论的发布时间与当前时刻之间的时间间隔,对集合C中的各条备选评论的概率值进行调整,并按照集合C中各条的备选评论的调整后的概率值从高到低的顺序,对集合C中的各条备选评论进行排序,选取排序后的前N条备选评论作为精选评论;可选的,如果集合C中的备选评论的条数小于或者等于N,则不需要进行上述概率值调整和排序,直接将集合C中的备选评论获取为精选评论。
11)目标评论确定平台142将获取到的精彩评论发送给网络评论管理平台144。其中,目标评论确定平台142可以按照各条精彩评论的调整后的行为分值(若精彩评论是从集合B中确定的评论)或者概率值(若精彩评论是从集合C中确定的评论)从高到低的顺序对各条精彩评论进行排序,在将获取到的精彩评论发送给网络评论管理平台144时,也将各条精彩评论的排列顺序也一并通知给网络评论管理平台144。
12)用户终端中展示该网络连载小说的评论页面时,网络评论管理平台144按照各条精彩评论的排列顺序,向用户终端推送目标评论确定平台142获取到的精彩评论。
其中,通过上述步骤8)、步骤9)以及步骤10)中的不同步骤确定出来的精彩评论,其显示结果各不相同。假设上述N的数值为4,请参考图4和图5,其示出了本发明实施例涉及的精彩评论展示示意图。
其中,图4示出的是按照步骤8)确定出的4条精彩评论,每条精彩评论中对应有一个点赞标识41和一个被引用标识42,点赞标识41后面的数字表示对应的评论被点赞的次数,被引用标识42后面的数字则表示对应的评论被引用的次数,这4条精彩评论按照根据各自的点赞数和被引用数计算出的行为分值从高到底的顺序排列。
图5中的(a)部分示出的是按照步骤9)确定出的精彩评论,其中,在步骤6)中获得的集合C中只包含两条备选评论,数量小于4条,则只有这两条备选评论被确定为精彩评论并被推送展示。图5中的(b)部分示出的是按照步骤10)确定出的精彩评论,其中,在步骤6)中获得的集合C中包含超过4条备选评论,则其中经过调整后的概率值最高的4条评论被确定为精彩评论并被推送展示。在图5中,(a)部分和(b)部分展示的精彩评论都是按照调整后的概率值从高到低的顺序进行排列,与各自的点赞数或者被引用数之间没有直接关系。
在上述图2所示的实施例中,训练模型是服务器集群中预先设置的机器学习模型,在实际应用中,该训练模型可以是在服务器集群中进行机器学习训练所获得的训练模型,或者,该训练模型也可以是在其它服务器或者终端中进行机器学习训练所获得后,再上传至服务器集群的训练模型。上述训练模型的获得方法可以参考图6。
图6是根据一示例性实施例示出的一种模型训练方法的流程图,以应用于如图1所示的系统中的服务器集群为例,该模型训练方法可以包括如下几个步骤:
步骤601,获取评论样本,评论样本是针对网络对象的评论中,被确定为满足目标评论的标准的样本。
具体的,以获得上述图2所示实施例中的网络对象的评论的样本为例,服务器集群可以接收至少两个评论样本集,该至少两个评论样本集分别由不同的用户从该网络对象的评论中选择出的评论所组成;服务器集群将至少两个评论样本集的交集中包含的评论获取为评论样本。其中,评论样本的数量可以按照需求设置,比如,可以选择1000条以上的评论作为样本评论。
其中,上述选择出评论的用户可以是服务器集群的管理用户,即管理人员。
在训练过程中,由于样本标注因人而异所以会导致标注的样本尺度不统一,最终导致训练的模型不稳定。针对样本获取不准确的问题,本发明实施例提出了一种“双盲标注”的方法进行解决。所谓双盲标注方法,即使用两个人(比如两个管理人员)分别对训练样本进行独立标注(即判断样本中的评论是否满足精彩评论的标准),然后将两个人标注的评论样本进行对比,将两人标注一致的评论作为评论样本,而不一致的标注评论则认为是灰色数据,两人协商后进行重新标注,或直接舍弃这些样本。通过上述双盲标注的方法,本发明实施例的方案可以提高评论样本获取的准确性,保证训练模型的训练效果,提高后续通过训练模型计算评分数值的准确性,进一步提高目标评论确定的准确性。
具体比如,请参考图7,其示出了本发明实施例涉及的一种获取评论样本的流程示意图。以网络对象为某个网络连载小说为例,在图7中,管理人员小王在管理设备71中对网络连载小说的评论72进行标注(这里的评论可以是对同一部网络连载小说的评论,或者,也可以是多部相同或不同类型的网络连载小说的评论),标注出若干条精彩评论,管理设备71根据小王的标注操作,获得包含小王标注出的若干条精彩评论的评论样本集合a,并将该评论样本集合a发送给服务器集群73;管理人员小刘在管理设备74中对相同的评论进行标注,标注出若干条精彩评论,管理设备74根据小刘的标注操作,获得包含小刘标注出的若干条精彩评论的评论样本集合b,同样将评论样本集合b发送给服务器集群73。服务器集群73对评论样本集合a和评论样本集合b做交集运算,将评论样本集合a和评论样本集合b的交集中包含的评论获取为评论样本。
步骤602,对评论样本进行特征提取,获得评论样本的特征信息,特征信息用于指示评论样本的文本内容的特征。
该步骤与上述图2所示的实施例中的步骤202中提取备选评论的特征信息的方式类似,此处不再赘述。
步骤603,按照预设的机器训练算法对评论样本的特征信息进行机器训练,获得训练模型。
服务器集群可以按照预设的机器学习模型算法,结合步骤602中提取到的特征信息进行机器学习,获得训练模型。
其中,训练模型用于在从针对网络对象的至少两条备选评论中确定目标评论时,根据至少两条备选评论各自的特征信息计算获得至少两条备选评论各自对应的评分数值。训练模型的用法可以参考图2所示的实施例中的相关描述,此处不再赘述。
综上所述,本发明实施例所示的模型训练方法,使用评论样本的文本内容的特征进行机器学习训练,获得用于确定目标评论的训练模型,使得服务器集群后续在确定目标评论时,能够根据评论的文本内容对应的特征计算评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而提高目标评论确定的准确性。
此外,本发明实施例所示的模型训练方法,在获取评论样本时,通过将至少两个不同的管理人员选择出的评论的交集获取为评论样本,从而提高评论样本获取的准确性,保证训练模型的训练效果,提高后续通过训练模型计算评分数值的准确性,进一步提高目标评论确定的准确性。
图8是根据一示例性实施例示出的一种目标评论确定装置的结构方框图。该目标评论确定装置可以通过硬件或者软硬结合的方式实现为服务器集群中的部分或全部,以执行图2所示实施例中的全部或者部分步骤。该目标评论确定装置可以包括:
第一评论获取模块801,用于获取针对网络对象的至少两条备选评论;
特征提取模块802,用于对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,所述特征信息用于指示对应的备选评论的文本内容的特征;
模型计算模块803,用于将所述至少两条备选评论各自的特征信息输入预设的训练模型,计算获得所述至少两条备选评论各自对应的评分数值;
确定模块804,用于根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论。
可选的,所述特征提取模块802,包括:
分析单元,用于对于所述至少两条备选评论中的每一条备选评论,分析所述备选评论的文本内容,获得所述备选评论的特征向量,所述特征向量中的元素包括预设的特征词在所述备选评论中出现的次数、所述备选评论的字数以及所述备选评论中的标点符号数中的至少一种;
特征获取单元,用于获取包含所述特征向量的所述备选评论的特征信息。
可选的,所述装置还包括:
第二评论获取模块,用于在所述分析单元分析所述备选评论的文本内容,获得所述备选评论的特征向量之前,获取所述网络对象的各条评论,所述各条评论预先各自被标注为目标评论或者非目标评论;
分词模块,用于对所述各条评论的文本内容进行分词,获得所述各条评论中的各个实体词;
卡方检验模块,用于对所述各个实体词进行卡方检验,获得所述各个实体词各自对应的卡方值,所述卡方值用于指示包含对应的实体词的评论是目标评论的概率;
特征词确定模块,用于根据所述各个实体词各自对应的卡方值,从所述各个实体词中确定出所述预设的特征词。
可选的,所述第一评论获取模块801,包括:
第一筛选单元,用于将所述网络对象的各条评论中,满足预设的第一筛选条件的评论获取为筛选后的至少两条评论;所述第一筛选条件包括评论中不包含预设的敏感词、评论中不包含指定内容文本以及评论字数大于预设的字数阈值中的至少一种;
行为数据获取单元,用于获取所述筛选后的至少两条评论的行为数据,所述行为数据用于指示用户对所述至少两条评论的操作行为;
分值计算单元,用于根据所述筛选后的至少两条评论的行为数据计算所述筛选后的至少两条评论各自对应的行为分值;
获取单元,用于根据所述筛选后的至少两条评论各自对应的行为分值获取所述至少两条备选评论。
可选的,所述确定模块804,包括:
第二筛选单元,用于将所述至少两条备选评论中,满足预设的第二筛选条件的评论获取为筛选后的备选评论,所述第二筛选条件包括对应的评分数值不小于预设的评分阈值;
第一确定单元,用于当所述筛选后的备选评论的数量不大于N时,将所述筛选后的备选评论确定为所述目标评论;
第二确定单元,用于当所述筛选后的备选评论的数量大于N时,获取所述筛选后的备选评论各自的发布时间,根据所述筛选后的备选评论各自的发布时间对所述筛选后的备选评论各自对应的评分数值进行调整,获得所述筛选后的备选评论调整后的评分数值,按照对应的调整后的评分数值从高到低的顺序对所述筛选后的备选评论进行排序,并将排在前N位的评论确定为所述目标评论;
其中,N为预设的正整数。
可选的,该装置还包括:
样本获取模块,用于获取评论样本,所述评论样本是针对所述网络对象的评论中,被确定为满足目标评论的标准的样本;
特征提取模块,用于对所述评论样本进行特征提取,获得所述评论样本的特征信息;
训练模块,用于按照预设的机器训练算法对所述评论样本的特征信息进行机器训练,获得所述训练模型。
可选的,所述样本获取模块,包括:
接收单元,用于接收至少两个评论样本集,所述至少两个评论样本集分别由不同的用户选择出的评论所组成;
获取单元,用于将所述至少两个评论样本集的交集中包含的评论获取为所述评论样本。
综上所述,本发明实施例提供的目标评论确定装置,在确定目标评论时,提取评论的文本内容对应的特征,并根据提取到的特征,结合预设的训练模型计算该评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而提高目标评论确定的准确性。
另外,本发明实施例提供的装置,在提取评论的文本内容对应的特征之前,首先通过字数、敏感词以及指定内容文本对网络对象的评论进行过滤,并对过滤获得的备选评论进行特征信息的提取,降低服务器集群需要处理的计算量,减少处理时间,提高确定目标评论的效率。
此外,本发明实施例提供的装置,在根据备选评论的评分数值确定目标评论之前,根据备选评论的发布时间对备选评论的评分数值进行调整,综合考虑时间因素对目标评论的影响,提高目标评论确定的准确性。
图9是根据一示例性实施例示出的一种模型训练装置的结构方框图。该模型训练装置可以通过硬件或者软硬结合的方式实现为服务器集群中的部分或全部,以执行图6所示实施例中的全部或者部分步骤。该模型训练装置可以包括:
样本获取模块901,用于获取评论样本,所述评论样本是针对网络对象的评论中,被确定为满足目标评论的标准的样本;
特征提取模块902,用于对所述评论样本进行特征提取,获得所述评论样本的特征信息,所述特征信息用于指示所述评论样本的文本内容的特征;
训练模块903,用于按照预设的机器训练算法对所述评论样本的特征信息进行机器训练,获得训练模型,所述训练模型用于在从针对网络对象的至少两条备选评论中确定目标评论时,根据所述至少两条备选评论各自的特征信息计算获得所述至少两条备选评论各自对应的评分数值。
可选的,所述样本获取模块901,包括:
接收单元,用于接收至少两个评论样本集,所述至少两个评论样本集分别由不同的用户选择出的评论所组成;
获取单元,用于将所述至少两个评论样本集的交集中包含的评论获取为所述评论样本。
综上所述,本发明实施例所示的模型训练装置,使用评论样本的文本内容的特征进行机器学习训练,获得用于确定目标评论的训练模型,使得服务器集群后续在确定目标评论时,能够根据评论的文本内容对应的特征计算评论的评分数值,并基于计算出的评分数值来确定该目标评论,从而提高目标评论确定的准确性。
此外,本发明实施例所示的模型训练装置,在获取评论样本时,通过将至少两个不同的管理人员选择出的评论的交集获取为评论样本,从而提高评论样本获取的准确性,保证训练模型的训练效果,提高后续通过训练模型计算评分数值的准确性,进一步提高目标评论确定的准确性。
图10是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本发明的各种实施例,所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1001通过执行该一个或一个以上程序来实现图2所示的目标评论确定方法;或者,中央处理器1001通过执行该一个或一个以上程序来实现图6所示的模型训练方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储设备,上述指令可由服务器的处理器执行以完成本发明图2所示的目标评论确定方法,和/或,上述指令可由服务器的处理器执行以完成本发明图6所示的模型训练方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的行为数据都是在充分授权的情况下获取的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (13)
1.一种目标评论确定方法,其特征在于,所述方法包括:
将网络对象的各条评论中,满足预设的第一筛选条件的评论获取为筛选后的至少两条评论;所述第一筛选条件包括评论中不包含预设的敏感词、评论中不包含指定内容文本以及评论字数大于预设的字数阈值中的至少一种;
获取所述筛选后的至少两条评论的行为数据,所述行为数据用于指示用户对评论的操作行为;所述行为数据包括点赞数以及被引用数;
根据所述筛选后的至少两条评论的行为数据计算所述筛选后的至少两条评论各自对应的行为分值;所述行为分值的计算公式为,
S=L+n*Q,
S为所述行为分值,L为所述点赞数,n为预设的常数,Q为所述被引用数;
根据所述筛选后的至少两条评论各自对应的行为分值获取至少两条备选评论;
对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,所述特征信息用于指示对应的备选评论的文本内容的特征;
将所述至少两条备选评论各自的特征信息输入预设的训练模型,计算获得所述至少两条备选评论各自对应的评分数值;
根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,包括:
对于所述至少两条备选评论中的每一条备选评论,分析所述备选评论的文本内容,获得所述备选评论的特征向量,所述特征向量中的元素包括预设的特征词在所述备选评论中出现的次数、所述备选评论的字数以及所述备选评论中的标点符号数中的至少一种;
获取包含所述特征向量的所述备选评论的特征信息。
3.根据权利要求2所述的方法,其特征在于,在分析所述备选评论的文本内容,获得所述备选评论的特征向量之前,所述方法还包括:
获取所述网络对象的各条评论,所述各条评论预先各自被标注为目标评论或者非目标评论;
对所述各条评论的文本内容进行分词,获得所述各条评论中的各个实体词;
对所述各个实体词进行卡方检验,获得所述各个实体词各自对应的卡方值,所述卡方值用于指示包含对应的实体词的评论是目标评论的概率;
根据所述各个实体词各自对应的卡方值,从所述各个实体词中确定出所述预设的特征词。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论,包括:
将所述至少两条备选评论中,满足预设的第二筛选条件的评论获取为筛选后的备选评论,所述第二筛选条件包括对应的评分数值不小于预设的评分阈值;
当所述筛选后的备选评论的数量不大于N时,将所述筛选后的备选评论确定为所述目标评论;
当所述筛选后的备选评论的数量大于N时,获取所述筛选后的备选评论各自的发布时间,根据所述筛选后的备选评论各自的发布时间对所述筛选后的备选评论各自对应的评分数值进行调整,获得所述筛选后的备选评论调整后的评分数值,按照对应的调整后的评分数值从高到低的顺序对所述筛选后的备选评论进行排序,并将排在前N位的评论获取为所述目标评论;
其中,N为预设的正整数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取评论样本,所述评论样本是针对所述网络对象的评论中,被确定为满足目标评论的标准的样本;
对所述评论样本进行特征提取,获得所述评论样本的特征信息;
按照预设的机器训练算法对所述评论样本的特征信息进行机器训练,获得所述训练模型。
6.根据权利要求5所述的方法,其特征在于,所述获取评论样本,包括:
接收至少两个评论样本集,所述至少两个评论样本集分别由不同的用户选择出的评论所组成;
将所述至少两个评论样本集的交集中包含的评论获取为所述评论样本。
7.一种目标评论确定装置,其特征在于,所述装置包括:第一评论获取模块、特征提取模块、模型计算模块以及确定模块;
所述第一评论获取模块,包括:
第一筛选单元,用于将网络对象的各条评论中,满足预设的第一筛选条件的评论获取为筛选后的至少两条评论;所述第一筛选条件包括评论中不包含预设的敏感词、评论中不包含指定内容文本以及评论字数大于预设的字数阈值中的至少一种;
行为数据获取单元,用于获取所述筛选后的至少两条评论的行为数据,所述行为数据用于指示用户对评论的操作行为;所述行为数据包括点赞数以及被引用数;
分值计算单元,用于根据所述筛选后的至少两条评论的行为数据计算所述筛选后的至少两条评论各自对应的行为分值;所述行为分值的计算公式为,
S=L+n*Q,
S为所述行为分值,L为所述点赞数,n为预设的常数,Q为所述被引用数;
获取单元,用于根据所述筛选后的至少两条评论各自对应的行为分值获取至少两条备选评论;
所述特征提取模块,用于对所述至少两条备选评论进行特征提取,获得所述至少两条备选评论各自的特征信息,所述特征信息用于指示对应的备选评论的文本内容的特征;
所述模型计算模块,用于将所述至少两条备选评论各自的特征信息输入预设的训练模型,计算获得所述至少两条备选评论各自对应的评分数值;
所述确定模块,用于根据所述至少两条备选评论各自对应的评分数值,确定所述至少两条备选评论中的目标评论。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块,包括:
分析单元,用于对于所述至少两条备选评论中的每一条备选评论,分析所述备选评论的文本内容,获得所述备选评论的特征向量,所述特征向量中的元素包括预设的特征词在所述备选评论中出现的次数、所述备选评论的字数以及所述备选评论中的标点符号数中的至少一种;
特征获取单元,用于获取包含所述特征向量的所述备选评论的特征信息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二评论获取模块,用于在所述分析单元分析所述备选评论的文本内容,获得所述备选评论的特征向量之前,获取所述网络对象的各条评论,所述各条评论预先各自被标注为目标评论或者非目标评论;
分词模块,用于对所述各条评论的文本内容进行分词,获得所述各条评论中的各个实体词;
卡方检验模块,用于对所述各个实体词进行卡方检验,获得所述各个实体词各自对应的卡方值,所述卡方值用于指示包含对应的实体词的评论是目标评论的概率;
特征词确定模块,用于根据所述各个实体词各自对应的卡方值,从所述各个实体词中确定出所述预设的特征词。
10.根据权利要求7至9任一所述的装置,其特征在于,所述确定模块,包括:
第二筛选单元,用于将所述至少两条备选评论中,满足预设的第二筛选条件的评论获取为筛选后的备选评论,所述第二筛选条件包括对应的评分数值不小于预设的评分阈值;
第一确定单元,用于当所述筛选后的备选评论的数量不大于N时,将所述筛选后的备选评论确定为所述目标评论;
第二确定单元,用于当所述筛选后的备选评论的数量大于N时,获取所述筛选后的备选评论各自的发布时间,根据所述筛选后的备选评论各自的发布时间对所述筛选后的备选评论各自对应的评分数值进行调整,获得所述筛选后的备选评论调整后的评分数值,按照对应的调整后的评分数值从高到低的顺序对所述筛选后的备选评论进行排序,并将排在前N位的评论确定为所述目标评论;
其中,N为预设的正整数。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取评论样本,所述评论样本是针对所述网络对象的评论中,被确定为满足目标评论的标准的样本;
特征提取模块,用于对所述评论样本进行特征提取,获得所述评论样本的特征信息;
训练模块,用于按照预设的机器训练算法对所述评论样本的特征信息进行机器训练,获得所述训练模型。
12.根据权利要求11所述的装置,其特征在于,所述样本获取模块,包括:
接收单元,用于接收至少两个评论样本集,所述至少两个评论样本集分别由不同的用户选择出的评论所组成;
获取单元,用于将所述至少两个评论样本集的交集中包含的评论获取为所述评论样本。
13.一种存储设备,其特征在于,所述存储设备中存储有多条指令,所述指令适于由处理器加载并执行:
如权利要求1至6任一所述的目标评论确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340348.9A CN108874832B (zh) | 2017-05-15 | 2017-05-15 | 目标评论确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340348.9A CN108874832B (zh) | 2017-05-15 | 2017-05-15 | 目标评论确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108874832A CN108874832A (zh) | 2018-11-23 |
CN108874832B true CN108874832B (zh) | 2022-06-10 |
Family
ID=64320474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710340348.9A Active CN108874832B (zh) | 2017-05-15 | 2017-05-15 | 目标评论确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874832B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166802B (zh) * | 2019-05-06 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 弹幕处理方法、装置及存储介质 |
CN112287171A (zh) * | 2019-07-24 | 2021-01-29 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN110633370B (zh) * | 2019-09-19 | 2023-07-04 | 携程计算机技术(上海)有限公司 | Ota酒店标签的生成方法、系统、电子设备和介质 |
CN110599052B (zh) * | 2019-09-19 | 2023-07-21 | 携程计算机技术(上海)有限公司 | Ota酒店评价方法、系统、电子设备和介质 |
CN111046941B (zh) * | 2019-12-09 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 一种目标评论检测方法、装置、电子设备和存储介质 |
CN113094492B (zh) * | 2019-12-23 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 评论信息显示方法、处理系统、装置、设备和存储介质 |
CN111414122B (zh) * | 2019-12-26 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种智能文本处理方法、装置、电子设备及存储介质 |
CN111866578A (zh) * | 2019-12-31 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法和装置、电子设备及计算机可读存储介质 |
CN111479168B (zh) * | 2020-04-14 | 2021-12-28 | 腾讯科技(深圳)有限公司 | 用于标记多媒体内容热点的方法、装置、服务器以及介质 |
CN112364154A (zh) * | 2020-11-10 | 2021-02-12 | 北京乐学帮网络技术有限公司 | 一种评论内容显示方法及装置 |
CN113971214A (zh) * | 2021-11-24 | 2022-01-25 | 掌阅科技股份有限公司 | 书评投稿处理方法、计算设备及存储介质 |
CN114387009B (zh) * | 2021-12-10 | 2023-08-04 | 北京卓思天成数据咨询股份有限公司 | 客户需求确定方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103917968A (zh) * | 2011-08-15 | 2014-07-09 | 平等传媒有限公司 | 用于管理具有交互式评论流的评论网络的系统和方法 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
CN106557948A (zh) * | 2016-10-18 | 2017-04-05 | 李超 | 一种评论信息的展示方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096680A (zh) * | 2009-12-15 | 2011-06-15 | 北京大学 | 信息有效性分析的方法和装置 |
US8990124B2 (en) * | 2010-01-14 | 2015-03-24 | Microsoft Technology Licensing, Llc | Assessing quality of user reviews |
CN104239331B (zh) * | 2013-06-19 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种用于实现评论搜索引擎排序的方法和装置 |
CN103389971B (zh) * | 2013-07-04 | 2017-03-29 | 北京卓易讯畅科技有限公司 | 一种确定应用对应的评论内容的优质等级的方法与设备 |
US10049380B2 (en) * | 2014-09-16 | 2018-08-14 | Hewlett Packard Enterprise Development Lp | Controversy detector |
CN104866468B (zh) * | 2015-04-08 | 2017-09-29 | 清华大学深圳研究生院 | 一种中文虚假顾客评论识别方法 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN106570525A (zh) * | 2016-10-26 | 2017-04-19 | 昆明理工大学 | 一种基于贝叶斯网络的在线商品评价质量评估方法 |
-
2017
- 2017-05-15 CN CN201710340348.9A patent/CN108874832B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103917968A (zh) * | 2011-08-15 | 2014-07-09 | 平等传媒有限公司 | 用于管理具有交互式评论流的评论网络的系统和方法 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
CN106557948A (zh) * | 2016-10-18 | 2017-04-05 | 李超 | 一种评论信息的展示方法及装置 |
Non-Patent Citations (2)
Title |
---|
Song,Min等.Identifying the topology of the K-pop video community on YouTube: A combined Co-comment analysis approach.《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》.2015,第2580-2595页. * |
熊士强.基于可信度传递的商品垃圾评论检测研究.《中国优秀硕士学位论文全文数据库(电子期刊)》.2017,第I138-6358页. * |
Also Published As
Publication number | Publication date |
---|---|
CN108874832A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874832B (zh) | 目标评论确定方法及装置 | |
CN109783632B (zh) | 客服信息推送方法、装置、计算机设备及存储介质 | |
CN109145216B (zh) | 网络舆情监控方法、装置及存储介质 | |
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
US10380249B2 (en) | Predicting future trending topics | |
US10497013B2 (en) | Purchasing behavior analysis apparatus and non-transitory computer readable medium | |
US11019017B2 (en) | Social media influence of geographic locations | |
CN110909205B (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
CN108108743B (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
WO2019061989A1 (zh) | 贷款风险控制方法、电子装置及可读存储介质 | |
US20170206470A1 (en) | Pattern Identification in Time-Series Social Media Data, and Output-Dynamics Engineering for a Dynamic System Having One or More Multi-Scale Time-Series Data Sets | |
AU2015310494A1 (en) | Sentiment rating system and method | |
EP3259685A1 (en) | Methods, systems, and media for presenting search results | |
CN109933782B (zh) | 用户情绪预测方法和装置 | |
CN111522724B (zh) | 异常账号的确定方法、装置、服务器及存储介质 | |
CN107894998A (zh) | 视频推荐方法及装置 | |
CN113761253A (zh) | 视频标签确定方法、装置、设备及存储介质 | |
CN113688310A (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN114357204B (zh) | 媒体信息的处理方法及相关设备 | |
CN106815224A (zh) | 服务获取方法和装置 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
JP2013092911A (ja) | 情報処理装置、情報処理方法、および、プログラム | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
US11232325B2 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
CN106446696A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |