CN103778245B

CN103778245B - 一种识别用户评论的方法及装置

Info

Publication number: CN103778245B
Application number: CN201410050334.XA
Authority: CN
Inventors: 郑伟华; 周寻; 傅峰; 傅一峰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2014-02-13
Filing date: 2014-02-13
Publication date: 2017-04-05
Anticipated expiration: 2034-02-13
Also published as: CN103778245A

Abstract

本发明实施例公开了一种识别用户评论的方法及装置，该方法包括：获取N条目标用户评论，提取发表目标用户评论的用户ID，目标用户评论包含的字符个数，以及目标用户评论的前M个字符，用户ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；根据key=A/10^K+B+C，计算对应N条目标用户评论的N个key值，并记录N个key值中各key值出现的次数，A为发表目标用户评论的用户ID，B为目标用户评论包含的字符个数，C为目标用户评论的前M个字符的、数值格式的编码值，K为预设数值，0≤K＜用户ID的位数；判断各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种重复评论，操作步骤简单、计算量小，对用户评论的识别效率较高。

Description

一种识别用户评论的方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种识别用户评论的方法及装置。

背景技术

随着互联网技术的发展，网络为人们的学习、工作提供了极大便捷，用户可以通过网络对音/视频、社区上的内容或论坛上的内容，发表自己的见解，实现与其他用户的交流互动，例如，在论坛上用户回复其他用户提出的问题，或推荐给其他用户一些有价值的资料；用户也可以通过网络浏览其他用户的发表的内容，获取自身需要的内容。

然而，一些恶意用户会通过网络对音/视频、微博、社区或论坛等的内容，发表内容重复的评论，例如“不错啊”、“不错啊”、“不错啊”、“不错啊”；通常情况下，恶意用户会利用机器在网络上发表一些变种重复评论，这些变种重复评论的形式一般为：用户ID（Identification，标识码）递增、评论的长度一致、但内容在结尾变化，例如，“好看！wert”、“好看！gyui”、“好看！gyji”、“好看！jwer”、“好看！zmop”，等等。这些变种的重复评论会妨碍其他用户对其他正常评论的阅读。

目前已存在一种通过模式匹配来识别用户评论的方法，该方法通过最长公共子序列算法，将每一条用户评论与预先存储的变种重复评论进行匹配，若用户评论与预先存储的变种重复评论中的任意一条变种重复评论的公共子序列包含的字符的数量达到预设值时，（用户可以根据实际情况，自行设定预设值），则判断该用户评论为变种重复评论。

然而，由于上述方法需用户评论与预先存储的变种重复评论进行逐条匹配，匹配过程计算量较大，对用户评论的识别效率较低。

发明内容

为达到上述目的，本发明实施例公开了一种识别用户评论的方法及装置，以达到相对高效识别用户评论类型的目的。具体技术方案如下：

一种识别用户评论的方法，该方法包括：

获取N条目标用户评论，提取发表所述目标用户评论的用户的ID，所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；

根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为所述目标用户评论的前M个字符的、数值格式的编码值，K为预设数值，且0≤K＜用户的ID的位数；

判断所述各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。

一种识别用户评论的装置，该装置包括：

提取模块，用于获取N条目标用户评论，并提取发表所述目标用户评论的用户的ID，所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；

计算模块，用于根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为所述目标用户评论的前M个字符的、数值格式的编码值，K为预设数值，且0≤K＜用户的ID的位数；

判断模块，用于判断所述各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。

应用上述技术方案，本发明通过提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，根据key值计算公式得到对应所述N条目标评论的N个key值，根据所述N个key值中各个key值出现的次数，确定所述目标用户评论的类别。与现有技术相比，操作方便、步骤简单、计算量很小，对用户评论的识别效率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别用户评论的方法的流程图；

图2为本发明实施例提供的另一种识别用户评论的方法的流程图；

图3为本发明实施例提供的一种识别用户评论的装置的结构示意图；

图4为本发明实施例提供的另一种识别用户评论的装置的结构示意图。

具体实施方式

首先对本发明实施例所提供的一种识别用户评论方法进行说明，该方法可以包括以下步骤：

获取N条目标用户评论，提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；

根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为所述目标用户评论的前M个字符的、数值格式的编码值，K为预设数值，0≤K＜用户的ID的位数；

与现有技术相比，提取发表目标用户评论的用户的ID、目标用户评论包含的字符个数和目标用户评论的前M个字符的操作十分简单、key值的计算量很小，本发明方法对用户评论的识别效率较高。

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面通过具体实施例，对本发明进行详细说明。

图1所示，为本发明实施例所提供的一种识别用户评论的方法的流程图，该方法可以包括以下步骤：

S101，获取N条目标用户评论，提取发表所述目标用户评论的用户的ID，所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1。

在本发明实施例中，“目标用户评论”是指来自用户或机器的、对论坛上、社区上及视频等内容的回复和评价，例如，考研论坛上一个推荐政治书的帖子“XXX参考书帮你在30天内突破考研政治”，一位网友的回复是“这本书重点很突出，内容设计很具有针对性，非常适合考研的童鞋们，值得推荐！”；恶意程序对“疯狂原始人”这一视频发表类似“非常不错！fyun”、“非常不错！ytjm”、“非常不错！iuop”、“非常不错！wrop”、“非常不错！gymo”的多条评价。

可以理解的是，用户评论可以是对论坛上、社区上及视频等内容的有价值回复和评价，或与主题内容毫无关联的回复和评价，本发明实施例对此不进行具体限制。

在本发明实施例中，用户的ID是一连串数值格式的数字，它是用户上网时区别于其他用户的一个虚拟ID。例如，用户评论“不错！hujn”，用户的ID：1032101082；用户评论“不错！lopn”，用户的ID：1032101086；用户评论“不错！ihno”，用户的ID：1032101087；发表上述三条用户评论的用户的ID分别为1032101082、1032101086和1032101087。

用户评论的评论长度是指这条用户评论内容包含的字符个数，例如，用户评论“不错！hujn”有7个字符，该用户评论的评论长度即为7；用户评论“爸爸去哪儿这个节目真不错，啊啊啊啊！”有18个字符，该用户评论的评论长度即为18。

用户评论的前M个字符是指这条用户评论内容的前M个字符，例如，用户评论“不错！yhbj”的前3个字符是“不错！”；用户评论“爸爸去哪儿这个节目真不错，啊啊啊啊！”的前5个字符是“爸爸去哪儿”。

S102，根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为用户评论的前M个字符的、数值格式的编码值，Ｋ为预设数值，0≤K＜用户的ID的位数。

在本发明实施例中，用户评论的前M个字符的编码值是指用户评论内容的前M个字符的ASCII码的十进制表示值，例如，用户评论“不错！hujn”，用户的ID：1032101082；用户评论“不错！lopn”，用户的ID：1032101086；用户评论“不错！ihno”，用户的ID：1032101087；上述三条用户评论的前3个字符均是“不错！”，其中，“不”的编码值是19981，“错”的编码值是38169，“！”的编码值是65281。

由于变种的重复评论通常是由机器发送的，而机器发送评论的规律在于：用户评论的用户ID是连续的，只有后几位是不同的，为了忽略变化的后几位，可以将用户评论的用户ID除以10^K。

例如：用户评论“不错！uhno”，用户的ID：1032101088；

用户评论“不错！hujn”，用户的ID：1032101082；

用户评论“不错！lopn”，用户的ID：1032101086；

用户评论“不错！ihno”，用户的ID：1032101087；

用户评论“不错！ulno”，用户的ID：1032101081；

用户评论“不错！uyno”，用户的ID：1032101079；

用户评论“不错！dfno”，用户的ID：1032101080；

用户评论“不错！nmno”，用户的ID：1032101078；

用户评论“不错！wdil”，用户的ID：1032101077；

用户评论“不错！cykn”，用户的ID：1032101069；

用户评论“不错！qscv”，用户的ID：1032101056；

用户评论“不错！buip”，用户的ID：1032101066；

用户评论“不错！cetn”，用户的ID：1032101068；

用户评论“不错！vtil”，用户的ID：1032101158；

上述14条用户评论的用户ID只有后3位发生变化，为了忽略用户评论变化的后3位，可以将用户的ID除以10³，即用户ID/1000=1032101。

通过观察可以发现，上述14条用户评论的评论长度均是7、评论内容的前3个字符均是“不错！”，用户的ID/1000均是1032101，其中，“不”的编码值是19981，“错”的编码值是38169，“！”的编码值是65281，将以上数据带入key值计算公式：

key=1032101+7+19981+38169+65281=1155539，得到的key值均是1155539。

需要说明的是，K为预设数值，当K=0时，即：多条用户评论来源于同一个用户的ID；当0<K<用户的ID的位数时，通常情况下，机器发送的评论的用户ID不超过1000个，一般取K=3；当然，也可以根据实际需要来设定K的取值，本发明实施例对此不进行具体限制。

在本发明的一个具体实施方式中，记录所述N个key值中各key值出现的次数，具体包括：

逐个统计每种key值出现的次数，每遇到一种key值，则对该key值的出现次数进行加1处理，记录最终处理结果，其中，所述最终处理结果为各key值出现的次数。

仍以上述14条用户评论为例进行说明，利用hashmap存储格式，将每个key值出现次数用value记录，经计算得到第一条用户评论的key=1155539，此时value=1；

在第二条用户评论的key值计算结束后，key=1155539，此时，value=1+1=2；

在第三条用户评论的key值计算结束后，key=1155539，此时，value=2+1=3；

以此类推，在第十四条用户评论的key值计算结束后，key=1155539，此时，value=13+1=14。

S103，判断所述各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。

在本发明实施例中，变种的重复评论可以包括：用户的ID递增、评论的长度一致、但内容在结尾变化的评论，例如，用户评论“不错！wdil”，用户的ID：1032101077；用户评论“不错！nmno”，用户的ID：1032101078；用户评论“不错！uyno”，用户的ID：1032101079；用户评论“不错！dfno”，用户的ID：1032101080；发表上述用户评论的用户的ID分别为1032101077、1032101078、1032101079、1032101080，用户的ID呈递增趋势；评论长度均是7个字符；评论内容都是结尾4个字符发生变化。

可以理解的是，出现次数符合预设值的key值的数量可以包括：1个或者多个。

例如，将预设值设置为7，100条用户评论对应的100个key值中，key值为6的用户评论有20条，其他80条用户评论对应的key值各不相同，即：值为6的key值在100个key值中出现了20次，故确定key值为6的所有用户评论均为变种的重复评论；

仍将预设值设置为7，100条用户评论对应的100个key值中，key值为8的用户评论有20条，key值为10的用户评论有10条，其他70条用户评论对应的key值各不相同，即：值为8的key值在100个key值中出现了20次，值为10的key值在100个key值中出现了10次，故确定key值为8和10的所有用户评论均为变种的重复评论。

需要说明的是，根据经验值，通常将预设值设置为7；也可以根据实际需要自行设定该预设值，本发明实施例对此不进行具体限制。

考虑到实际应用中的存储空间和处理速度问题，本发明实施例提供了另一种识别用户评论的方法，如图2所示，该方法可以包括以下步骤：

S201，获取N条目标用户评论，提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；

S202，根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为所述目标用户评论的前M个字符的、数值格式的编码值，K为预设数值，0≤K＜用户的ID的位数；

S203，判断所述各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论；

S204，当所述各key值出现次数之和达到阈值时，清空所述各key值出现的次数。

本实施例的S201、S202以及S203分别与前一实施例中的S101、S102以及S203相同，对此不再赘述。

随着目标用户评论数量的增加，key值的出现次数也在增加，越来越多的数据存放在服务器中，严重影响了处理的效率。

新增的S204中，通过定期清空服务器中的数据，减少了各key值出现的次数等数据对服务器存储空间的占用，从而提高了处理效率。

需要说明的是，这里提到的“定期清空”不一定是指按照时间周期的清空，可以是指目标用户评论数量达到阈值，就清空服务器中的数据。

例如，将阈值设定为1000，对目标用户评论进行识别的过程中会产生多个key值以及各key值出现的次数等数据，当各key值出现次数之和达到阈值1000时，将各key值出现的次数等数据清空，从新累加统计。

需要说明的是，选取1000作为阈值的原因是：一方面没必要记录所有的数据，另一方面用户的发送行为和机器攻击行为都是间歇性的，以经验来设定的一个阈值。当然，用户也可以根据实际需要自行设定阈值，本发明实施例对此不进行具体限制。

相应于上面的方法实施例，本发明还提供了一种识别用户评论的装置，参见图3所示，该装置可以包括：

提取模块301，用于获取N条目标用户评论，并提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数，以及所述目标用户评论的前M个字符，其中，所述用户的ID为固定位数的、数值格式的用户标识码，N＞1，M＞1；

计算模块302，用于根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，并记录所述N个key值中各key值出现的次数，其中，A为发表所述目标用户评论的用户的ID，B为所述目标用户评论包含的字符个数，C为评论的前M个字符的、数值格式的编码值，K为预设数值，0≤K＜用户的ID的位数；

需要说明的是，，K为预设数值，当K=0时，即：多条用户评论来源于同一个用户的ID；当0<K<用户的ID的位数时，通常情况下，机器发送的评论的用户ID不超过1000个，一般取K=3；但也可以根据实际需要来设定K的取值，本发明实施例对此不进行具体限制。

在本发明的一个具体实施方式中，计算模块302，具体用于：

根据key=A/10^K+B+C，计算对应所述N条目标用户评论的N个key值，逐个统计每种key值出现的次数，每遇到一种key值，则对该key值的出现次数进行加1处理，记录最终处理结果，其中，所述最终处理结果为各key值出现的次数。

判断模块303，用于判断所述各key值出现的次数是否达到预设值，将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。

在本发明实施例中，变种的重复评论可以是：发表用户评论的用户的ID递增、用户评论包含的字符个数一致、但内容在结尾变化的用户评论，例如，用户评论“不错！wdil”，用户的ID：1032101077；用户评论“不错！nmno”，用户ID：1032101078；用户评论“不错！uyno”，用户ID：1032101079；用户评论“不错！dfno”，用户的ID：1032101080；发表上述用户评论的用户的ID分别为1032101077、1032101078、1032101079、1032101080，用户的ID呈递增趋势；评论长度均是7个字符；评论内容都是结尾4个字符发生变化。

考虑到实际应用中的存储空间和处理速度问题，本发明实施例提供了另一种识别用户评论的装置，如图4所示，该装置还可以包括：

数据清空模块304，用于当所述各key值出现次数之和达到阈值时，清空所述各key值出现的次数。

需要说明的是，通常将阈值设定为1000，原因主要是：一方面没必要记录所有的数据，另一方面用户的发送行为和机器攻击行为都是间歇性的，以经验来设定的一个阈值。当然，用户也可以根据实际需要自行设定阈值的大小，本发明实施例对此不进行具体限制。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种识别用户评论的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述记录所述N个key值中各key值出现的次数，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述出现次数符合预设值的key值的数量包括：一个，或多个。

4.根据权利要求1所述的方法，其特征在于，该方法还包括：

当所述各key值出现次数之和达到阈值时，清空所述各key值出现的次数。

5.根据权利要求1所述的方法，其特征在于，所述变种的重复评论包括：发表用户评论的用户的ID递增、用户评论包含的字符个数一致、但内容在结尾变化的用户评论。

6.一种识别用户评论的装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述出现次数符合预设值的key值的数量包括：一个，或多个。

9.根据权利要求6所述的装置，其特征在于，该装置还包括：

数据清空模块，用于当所述各key值出现次数之和达到阈值时，清空所述各key值出现的次数。

10.根据权利要求6所述的装置，其特征在于，所述变种的重复评论包括：发表用户评论的用户的ID递增、用户评论包含的字符个数一致、但内容在结尾变化的用户评论。