CN105824805B - 一种识别方法及装置 - Google Patents

一种识别方法及装置 Download PDF

Info

Publication number
CN105824805B
CN105824805B CN201610302495.2A CN201610302495A CN105824805B CN 105824805 B CN105824805 B CN 105824805B CN 201610302495 A CN201610302495 A CN 201610302495A CN 105824805 B CN105824805 B CN 105824805B
Authority
CN
China
Prior art keywords
information
comment information
user
user comment
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610302495.2A
Other languages
English (en)
Other versions
CN105824805A (zh
Inventor
黄当武
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610302495.2A priority Critical patent/CN105824805B/zh
Publication of CN105824805A publication Critical patent/CN105824805A/zh
Application granted granted Critical
Publication of CN105824805B publication Critical patent/CN105824805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种识别方法,所述方法包括:确定待识别的符合预设条件的用户评论信息;将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端;获取所述第一类用户终端返回的反馈信息;基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。同时,本发明实施例还提供了一种识别装置。

Description

一种识别方法及装置
技术领域
本发明涉及信息识别技术,具体涉及一种识别方法及装置。
背景技术
随着网络的日益普及,越来越多的用户选择通过在线教育平台进行学习与交流。目前,随着在线教育平台提供的课程数量以及学习论坛使用人数不断增多,用户在在线教育平台上产生的评论也呈爆炸式增长,由于在线教育平台的影响力比较大,出现了很多无效评论,这些无效评论包括涉黄、政治敏感、广告等评论信息,给在线教育平台带来了不好的影响。
并且,无效评论的评论特征是日益丰富、变化多样的,图1示出了一种有效评论与无效评论混杂的截图示意图,在图1中所示出的三条评论中,只有第二条是有效评论,第一条与第三条均为无效评论,在第一条与第三条中,用实线框标出的内容均为广告内容,即在评论中隐藏了广告内容。因此,通常判断一条评论是否无效需要做很多判断逻辑才能保证一定精确度的打击,这意味着耗时比较长。但是,在线教育平台上无效评论产生的量和频率都是非常惊人的,因此如何在不影响正常业务的吞吐量和性能的前提下,精确地打击无效评论成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例为解决现有技术中存在的问题而提供一种识别方法及装置。
本发明的技术方案是这样实现的:
本发明实施例提供一种识别方法,所述方法包括:
确定待识别的符合预设条件的用户评论信息;
将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端;
获取所述第一类用户终端返回的反馈信息;
基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。
上述方案中,所述确定待识别的符合预设条件的用户评论信息,包括:
获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不符合所述预设条件的用户评价信息;
将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理;通过第二级检测处理过滤掉部分不符合所述预设条件的用户评价信息,
确定经过所述第一级检测处理和第二检测处理过滤之后,剩余的所述用户评价信息并确定待识别的符合预设条件的用户评论信息。
上述方案中,所述确定待识别的符合预设条件的用户评论信息,还包括:
接收第二类用户终端主动反馈的第二类用户认为符合预设条件的用户评论信息;
将第二类用户终端主动反馈的符合预设条件的用户评论信息归入到待识别的符合预设条件的用户评论信息中。
上述方案中,所述对所述待处理的用户评论信息进行第一级检测处理,包括下述中的至少一种:
对发布用户评论信息的账号进行账号信息检测,若所述账号为符合第二预设条件的账号,则拦截与所述符合第二预设条件的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤。
上述方案中,将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,包括:
对于经所述第一级检测处理之后剩余的用户评论信息中的每一条用户评论信息,
利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为符合预设条件的用户评论信息。
上述方案中,所述将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端,包括:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定可分发的第一类用户终端的个数;
将所述待识别的符合预设条件的用户评论信息均衡分发至所述可分发的第一类用户终端。
上述方案中,所述基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别,包括:
对于每一条待识别的符合预设条件的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,其中,所述第一数值为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,其中,所述第二数值为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别。
上述方案中,所述基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别之后,所述方法还包括:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
上述方案中,计算做出所述反馈信息的第一类用户的置信度参数,包括:
获取与所述第一类用户相关的参数数据;其中,所述参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
本发明实施例还提供一种识别装置,所述装置包括:
确定模块,用于确定待识别的符合预设条件的用户评论信息;
分发模块,用于将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端;
获取模块,用于获取所述第一类用户终端返回的反馈信息;
处理模块,用于基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。
上述方案中,所述确定模块,还用于:
获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不符合所述预设条件的用户评价信息;
将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理;通过第二级检测处理过滤掉部分不符合所述预设条件的用户评价信息,
确定经过所述第一级检测处理和第二检测处理过滤之后,剩余的所述用户评价信息并确定待识别的符合预设条件的用户评论信息。
上述方案中,所述确定模块,还用于:
接收第二类用户终端主动反馈的第二类用户认为符合预设条件的用户评论信息;
将第二类用户终端主动反馈的符合预设条件的用户评论信息归入到待识别的符合预设条件的用户评论信息中。
上述方案中,所述确定模块对所述待处理的用户评论信息进行第一级检测处理,包括下述中的至少一种:
对发布用户评论信息的账号进行账号信息检测,若所述账号为符合第二预设条件的账号,则拦截与所述符合第二预设条件的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤。
上述方案中,所述确定模块将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,包括:
对于经所述第一级检测处理之后剩余的用户评论信息中的每一条用户评论信息,
利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为符合预设条件的用户评论信息。
上述方案中,所述分发模块,还用于:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定可分发的第一类用户终端的个数;
将所述待识别的符合预设条件的用户评论信息均衡分发至所述可分发的第一类用户终端。
上述方案中,所述处理模块,还用于:
对于每一条待识别的符合预设条件的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,其中,所述第一数值为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,其中,所述第二数值为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别。
上述方案中,所述装置还包括:
评估模块,用于:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
上述方案中,所述评估模块,还用于:
获取与所述第一类用户相关的参数数据;其中,所述参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
本发明实施例中,服务器先确定出不能明确用户评论信息所属类别的用户评论信息,然后将这类用户评论信息均衡分发至第一类用户终端;再通过第一类用户终端返回的反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定这类用户评论信息所属的类别。如此,能在不影响正常业务的吞吐量和性能的前提下,结合在线平台沉淀的用户数据对这类用户评论信息进行分类,精确打击无效的用户评论信息,从而构建一个有良好环境的在线平台。
附图说明
图1为有效评论与无效评论的截图示意图;
图2为本发明实施例提供的识别方法的实现流程示意图;
图3为本发明实施例提供的待处理用户评论信息经第一级处理以及第二级处理的示意图;
图4为本发明实施例提供的在第一类用户终端呈现的待识别的符合预设条件的用户评论信息的一种示意图;
图5为本发明实施例提供的服务器与第一类用户终端交互的示意图;
图6为本发明实施例提供的一种识别系统的工作流程示意图;
图7为本发明实施例提供的一种识别可疑评论的各方硬件实体的示意图;
图8为本发明实施例提供的识别装置的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
本申请实施例中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理。
在本发明提供的识别方法及信息处理装置的以下各实施例中,所涉及的符合预设条件的用户评论信息是指可疑的用户评论信息;所述预设条件是指尚不能明确用户评论信息所属类别。服务器需要对所述符合预设条件的用户评论信息做进一步判断,以便于判断出所述符合预设条件的用户评论信息是属于有效的评论信息还是无效的评论信息,进而根据判断结论决定是否将所述符合预设条件的用户评论信息向各类用户展示。其中,所述无效的评论信息是指含有与评论对象无关的内容的评论信息,如,涉黄、政治敏感、广告等评论信息;其中,所述评论对象可包括授课视频等内容;所述有效的评论信息是指与评论对象有关的评论信息。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
实施例一
本发明实施例提供一种识别方法,所述方法应用于服务器侧,如图2所述,所述方法包括:
步骤201、确定待识别的符合预设条件的用户评论信息。
这里,所述用户评论信息主要是指用户在在线平台如在线教育平台、在线商务平台、在线游戏平台等上所写的评论信息。
其中,所述符合预设条件的用户评论信息是指可疑的用户评论信息;所述预设条件是指尚不能明确用户评论信息所属类别。服务器需要对所述符合预设条件的用户评论信息做进一步判断,以便于判断出所述符合预设条件的用户评论信息是属于有效的评论信息还是无效的评论信息。
其中,所述无效的评论信息是指与评论对象无关的评论信息,如,涉黄、政治敏感、广告等评论信息;其中,所述评论对象可包括授课视频等内容;所述有效的评论信息是指与评论对象有关的评论信息。
本实施例中,并不对用户评论信息的格式类型进行限定,所述用户评论信息可以是文字、或图片、或音频、或视频等。
如此,通过步骤201先确定出尚不能明确判定所属类别的用户评论信息,以待进一步对这类用户评论信息进行判断,相对于现有技术中粗略地给出判断结论来说,提高了打击无效评论信息的精确度。
在一实施方式中,所述确定待识别的符合预设条件的用户评论信息,包括:
获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不符合所述预设条件的用户评价信息;
将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理;通过第二级检测处理过滤掉部分不符合所述预设条件的用户评价信息,
确定经过所述第一级检测处理和第二检测处理过滤之后,剩余的所述用户评价信息并确定待识别的符合预设条件的用户评论信息。
这里,通过第一级检测处理,能够过滤掉少量的无效评论信息的同时,同时还能保证请求的快速响应以及吞吐量。例如,通过第一级检测处理,能够识别出一些简单的关键词,误判的几率几乎可以忽略。
这里,通过第二级检测处理,是为了识别出更多的无效评论,可将所述第二级检测处理设置为离线任务,在离线状态下进行。如此,更能节省识别无效评论所需的时间。
下面,将对第一级处理以及第二级处理做详细描述。
其中,所述对所述待处理的用户评论信息进行第一级检测处理,包括下述中的至少一种:
对发布用户评论信息的账号进行账号信息检测,若所述账号为符合第二预设条件的账号,则拦截与所述符合第二预设条件的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤。
这里,所述符合第二预设条件的账号是指账号出现异常情况的账号,所述异常情况,包括:账号等级异常、最近被盗、活跃天数异常。
这里,所述预设特征可以是关键字、关键词等。
这里,通过第一级检测处理,能够过滤掉少量的无效评论信息的同时,同时还能保证请求的快速响应以及吞吐量。例如,通过第一级检测处理,能够识别出一些简单的关键词,误判的几率几乎可以忽略。
其中,将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,包括:
对于经所述第一级检测处理之后剩余的用户评论信息中的每一条用户评论信息,
利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为符合预设条件的用户评论信息。
举例来说,总共有5个判断策略,对某条用户评论信息进行判断时,有4个判断策略给出的判断结果均为该条用户评论为无效,超出了预设比例,则确定该条用户评论为无效评论,直接对该条用户评论进行拦截;对另一条用户评论信息进行判断时,有3个判断策略给出的判断结果为该条用户评论为有效,有2个判断策略给出的判断结果为该条用户评论为无效,则将该条用户评论确定为可疑评论,需要通过步骤203进一步对该条评论进行核实。
这里,通过第二级检测处理,能够尽最大力度的识别出无效评论。由于在第二级检测处理中采用M个不同的判断策略对用户评论信息进行分析,能够识别出更多的无效评论。
图3示出了待处理用户评论信息经第一级处理以及第二级处理的示意图,如图3所示,第一级处理能过确认一部分无效评论以及有效评论,第二级处理能过确认大部分无效评论以及有效评论,但是,若经过第二级处理之后,对所有的待处理的用户评论信息直接给出判定定论,很可能发生不少的误判或漏判,因此,需要较为合理的找出第二级检测处理不能肯定的可疑用户评论信息,然后再通过步骤203对存疑用户评论信息做进一步判断,如此,能够增加识别无效评论的精确度。
在另一实施方式中,所述确定待识别的符合预设条件的用户评论信息,还包括:
接收第二类用户终端主动反馈的第二类用户认为符合预设条件的用户评论信息;
将第二类用户终端主动反馈的符合预设条件的用户评论信息归入到待识别的符合预设条件的用户评论信息中。
这里,所述第二类用户可以是任何能够登录在线平台且发表评论的用户。
有上述两个实施方式可知,待识别的符合预设条件的用户评论信息主要有两个来源,来源一:服务器通过第一级处理以及第二级处理而获得的这类用户评论信息;来源二:直接来自用户举报其自认为是符合预设条件的用户评论信息。
如此,接收用户的举报,并负责的对用户所举报的内容进行分析,使得进入步骤202的待识别的符合预设条件的用户评论信息更加全面,更有利于为用户营造一个良好的在线平台的氛围。
步骤202、将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端。
优选地,所述第一类用户终端是指第一类用户账号所在的终端。第一类用户可以是在线平台所涉及的内部人员,如在在线平台上授课的老师、通过在线平台听课的学员、在线平台的网站管理员等。
在一实施例中,所述将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端,包括:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定可分发的第一类用户终端的个数;
将所述待识别的符合预设条件的用户评论信息均衡分发至所述可分发的第一类用户终端。
其中,所述状态信息包括第一类用户是否在线。
也就是说,尽量将所述待识别的符合预设条件的用户评论信息分发给当前在线的第一类用户账号所在终端,如此,第一类用户及时对所述待识别的符合预设条件的用户评论信息做出判断的可能性比较大。
其中,所述配置信息,包括是否同意接收所述待识别的符合预设条件的用户评论信息。也就是说,服务器允许第一类用户修改自己的账号配置,第一类用户可以同意接收所述待识别的符合预设条件的用户评论信息,对所述待识别的符合预设条件的用户评论信息做出判断并反馈给服务器。如此,利用大众用户参与评论信息的反馈,构建一个有良好环境的在线平台。当然,服务器允许第一类用户拒绝接收所述待识别的符合预设条件的用户评论信息,如此,能够让自己免受这类用户评论信息的打扰。
其中,所述均衡分发,是指尽量让所述待识别的符合预设条件的用户评论信息平均分发到可分发的第一类用户终端中。
如此,能够避免一些第一类用户接收到过多的可疑评论信息,而另一些第一类用户接收到过少甚至未接收到可疑评论信息;让当前可分发的第一类用户终端尽量的均接收到几个可疑评论信息,这样,每一个第一类用户既对分到的可疑评论不生反感,又能较快地对分到的可疑评论做出判断,并向服务器反馈。
举例来说,某在线教育平台总共有第一类用户100个,当前在线人员为50个;在一个小时内产生8000条评论信息,服务器确定200条可疑评论信息,服务器将这200条可疑评论信息分成50组,每组包含4条可疑评论信息,并向在线的这50个人员中一人随机派发两组可疑评论信息,每个在线人员的终端均能收到8条可疑评论信息,且对于每一条可疑评论,至少有一个终端能对该条可疑评论做出判断。如此,50个在线人员能较快地对分到的8条可疑评论信息做出判断,对每个在线人员带来的干扰较小。
步骤203、获取所述第一类用户终端返回的反馈信息。
在一实施方式中,服务器在向第一类用户终端分发所述待识别的符合预设条件的用户评论信息时,包括:
为每一条待识别的符合预设条件的用户评论信息预留判断区域;
在所述判断区域中设置有可供用户选择的标签;
其中,所述标签至少包括:广告、涉黄、正常、赞赏、暴力。
在一实施方式中,第一类用户终端接收到携带有标签的待识别的符合预设条件的用户评论信息之后,第一类用户终端显示所述携带有标签的待识别的符合预设条件的用户评论信息;接收第一类用户的输入操作;将所述输入操作对应的信息发送至服务器。如此,用户仅需勾选其认为所述待识别的符合预设条件的用户评论信息所属的标签即可。
图4示出了一种在第一类用户终端呈现的待识别的符合预设条件的用户评论信息的示意图,如图4所示,对于每一条待识别的符合预设条件的用户评论信息,分为信息展示区域以及判断区域,在所述判断区域中有各类标签,如广告、涉黄、正常、赞赏、暴力等标签,可供用户选择;如此,既不影响第一类用户阅读所述用户评论信息,又方便第一类用户对各类标签进行勾选。
需要说明的是,获取的所述第一类用户终端返回的反馈信息的数量与发出的待识别的符合预设条件的用户评论信息的条数可能不相等。例如,有些第一类用户可能没有注意到所述待识别的符合预设条件的用户评论信息,或是没有时间给出反馈,或是拒绝对所述待识别的符合预设条件的用户评论信息给出反馈等,这些原因均会导致获取的所述第一类用户终端返回的反馈信息的数量与发出的待识别的符合预设条件的用户评论信息的条数不相等。但是,这并不会对服务器后续对所述待识别的符合预设条件的用户评论信息的类别的判断造成很大影响。
步骤204、基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。
在一实施例中,所述基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别,包括:
对于每一条待识别的符合预设条件的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,可用数值A表示,其中,A为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,可用数值B表示,其中,B为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别。
这里,所述第一类反馈信息是指判定所述待识别的符合预设条件的用户评论信息所属类别为第一类别的反馈信息;所述第二类反馈信息是指判定所述待识别的符合预设条件的用户评论信息所属类别为第二类别的反馈信息。
例如,所述第一类别是指无效评论,即与在线平台所涉及内容无关的评论信息,如,涉黄、政治敏感、广告等评论信息;所述第二类别是指有效评论,如,与在线平台所涉及内容有关的评论信息。
这里,所述第一预设阈值与所述第二预设阈值不相等。
具体地,对每一条用户评论信息评分的计算公式可以为:其中,An表示为第一种反馈信息的计算参数赋的值,N表示第一类反馈信息的个数,Yn表示做出第一类反馈信息的用户的置信度参数;Bm表示为第二种反馈信息的计算参数赋的值,M表示第二类反馈信息的个数,Qm表示做出第二类反馈信息的用户的置信度参数。
举例来说,服务器将同一条可疑评论信息发送给10个人,经对这10个人对该条评论信息做出的反馈信息进行统计可知,这10个人对该条评论信息做出的判断结果为:无效、无效、无效、无效、有效、无效、有效、无效、有效、无效;那么,将这10个人的反馈信息的计算参数值分别赋值为A、A、A、A、B、A、B、A、B、A;A=1,B=﹣1这10个人的置信度参数的计算参数值分别赋值为60%、70%、50%、30%、30%、40%、40%、20%、10%、30%;设A为1,B为-1,求累加值为:60%×1+70%×1+50%×1+30%×1﹣30%×1+40%×1﹣40%×1+20%×1﹣10%×1+30%×1=2.2>第一预设阈值=0.5,那么,则判断该条可疑评论信息为无效评论。
参照图2所示技术方案,图5示出了一种服务器与第一类用户终端交互的示意图,如图5所示,具体的,
步骤501:服务器确定可接收可疑评论的用户终端;
步骤502:服务器将所述待识别的可疑用户评论信息均衡分发至所确定的接收可疑评论的用户终端;
例如,如图6所示,服务器向终端1发送可疑评论A、B,服务器向终端2发送可疑评论B、C,服务器向终端3发送可疑评论C、A,服务器向终端N发送可疑评论n、n+1,相应的,终端1向服务器返回对可疑评论A、B的判断结果,终端2向服务器返回对可疑评论B、C的判断结果,终端3向服务器返回对可疑评论A、C的判断结果;终端N向服务器返回对可疑评论n、n+1的判断结果.
步骤503:服务器根据各个终端的反馈信息以及终端所对应的第一类用户的置信度参数计算每个可疑评论的评分。
如此,服务器根据每一个用户的每一次评判,都会根据各项数据结合权重算出得分并加入可疑评论的总分中,当总分超过一定值,那么该评论则被标记为“待进一步处理评论”,这些评论最终到管理后台让管理员进行最终处理。
可选地,在执行步骤204之后,所述方法还包括:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
如此,能够及时对第一类用户的置信度参数进行更新,更能有助于结合第一类用户的置信度参数对第一类用户所做出的反馈信息做出较为客观的评价,使得对可疑的用户评论信息所属的类别的判断更为准确。
在一实施方式中,计算做出所述反馈信息的第一类用户的置信度参数,包括:
获取与所述第一类用户相关的参数数据;其中,所述参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
其中,所述上课时间段是指第一类用户所报名的课程的上课时间,如,甲用户报名课程:英语;英语教学时间为8:00~9:00,则上课时间段为8:00~9:00。
其中,所述成功证实他人的非法评论数,是指该用户对他人的评论信息的判断正确的数量;
其中,所述自身评论被判定为非法评论数,是指自己发表过的评论信息被判定是非法评论的数量。
在一具体实施例方式中,置信度参数的计算公式为:
其中,Total_score表示置信度参数,Xk表示影响置信度因子,αk表示影响置信度因子的权重系数,其中,K表示影响置信度因子的总数。
举例来说,Total_score=applied_num*α1+comment_num*α2+online_time*α3+success_judge_rate*α4-illegal_comment_rate*α5。其中,Total_score表示置信度参数,applied_num表示报名课程数,comment_num表示评论数,online_time表示上课时间段,success_judge_rate表示成功证实他人的非法评论数,illegal_comment_rate表示自身评论被判定为非法评论数;其中,α1表示报名课程数的权重,α2表示评论数的权重,α3表示上课时间段的权重,α4表示成功证实他人的非法评论数的权重,α5表示自身评论被判定为非法评论数的权重;优选地,α1+α2+α3+α4+α5=预设值;,所述α1、α2、α3、α4、α5、以及预设值均可以根据大量试验统计数据进行设定。例如,α1=0.04,α2=0.12,α3=0.32,α4=0.42,α5=0.1,α1+α2+α3+α4+α5=1。
本实施例所述技术方案中,服务器确定待识别的符合预设条件的用户评论信息;将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端;获取所述第一类用户终端返回的反馈信息;基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。如此,可以结合在线平台沉淀的用户数据对符合预设条件的用户评论信息进行分类,能在不影响正常业务的吞吐量和性能的前提下,精确打击无效的用户评论信息。
实施例二
基于实施例一所述技术方案,给出了一种识别系统的工作流程示意图,如图6所示,所述识别系统,主要包括:串联监测系统、旁路监测系统、可疑评论分发系统、置信度评估系统、评分系统;
其中,所述串联监测系统负责频率控制、账号信息检测、内容检测。
所述串联监测系统包括:频率控制模块,账号信息检测模块、内容检测模块;具体地,
所述频率控制模块,负责读取所述串联监测系统的频率配置信息,如频率配置信息为一个用户账号1分钟内允许评论2次,根据IP地址,对用户进行评论频率进行控制,如果超过一定频率,则进行拦截。
所述账号信息检测模块,负责利用账号管理系统,如腾讯内部的账号系统,来查询账号的异常情况,如果账号是异常的,如等级异常、最近被盗事件、活跃天数异常等,则可以直接拦截此账号的评论操作。
所述内容检测模块,主要负责根据一些关键词、重复性内容进行打击,如果命中敏感关键词,则实时拦截。
这里,所述串联监测系统具有基本的拦截打击能力,而且耗时很小,满足了程序性能、吞吐量、以及基本打击的要求。虽然在打击无效评论的精确度上比较粗略简单,但是,所述串联监测系统未发现的无效评论可以由后续的旁路监测系统进行进一步打击。
所述旁路监测系统,负责接收经所述串联监测系统过滤之后剩余的用户评论信息;通过第二级检测处理过滤掉部分不符合所述预设条件的用户评价信息,并将经过所述第一级检测处理和第二检测处理过滤之后剩余的所述用户评价信息确定为待识别的符合预设条件的用户评论信息。
为了保证打击的精确度,又不影响正常业务的吞吐量和性能,将比较耗时的打击分析做成了离线任务的形式,即将旁路监测系统的工作设置为离线任务的工作。
具体地,所述旁路监测系统,负责分析评论中带有的外部连接(拉回连接内容进行分析),以及图片(鉴别图片是否为黄图)和QQ(查询qq号码是否为黑名单或者被举报)号码。
由于所述旁路监测系统在进行处理时采用大量的策略分析处理,采用了以时间换精确度的策略,力求最大力度的识别无效评论。若采用所述旁路监测系统之后,对所有的待处理的用户评论信息直接给出判定定论,很可能发生不少的误判或漏判,因此,所述旁路监测系统将其非常肯定的有效评论过滤掉,并将其非常肯定的无效评论打击掉,确定出其不能肯定是有效评论还是无效评论的可疑用户评论信息,转入可疑评论分发系统进行分发。
所述可疑评论分发系统进行分发,负责接收所述旁路监测系统发送的可疑用户评论信息,还负责接收用户主动反馈的认为可疑用户评论信息;还负责将所述可疑用户评论信息均衡分发至第一类用户终端,以由第一类用户对所述可疑评论进行判断。
具体地,在第一类用户终端上,显示的可疑评论携带有可供用户选择的标签。
所述可疑评论分发系统,在分发可疑评论时,考虑第一类用户终端的状态信息以及第一类用户账号的配置信息等情况,优先向当前在线的用户以及选择同意接收对可疑评论进行判断的用户分发可疑评论。
所述置信度评估系统,负责计算做出所述反馈信息的第一类用户的置信度参数;
所述评分系统,用于根据每一个第一类用户的评分以及做出所述反馈信息的第一类用户的置信度参数对可疑评论进行评分,根据评分结果确定所述待识别的可疑评论所属类别,即判断所述可疑评论是为有效评论还是无效评论。
这里,每一个用户的每一次评判,都会根据各项数据结合权重算出得分并加入可疑评论的总分中,当总分超过一定值,那么该评论则被标记为“待进一步处理评论”,这些评论最终到管理后台让管理员进行最终处理,管理员处理后,处理结果产生的数据又会作用于我们的置信度评估系统。
上述识别系统是一种高效、吞吐量大、打击精准、且可以结合利用在线本身平台沉淀的用户数据的非法评论打击系统。
实施例三
图7示出了一种识别可疑评论的各方硬件实体的示意图,图7中包括:服务器1~4、终端设备1-N,终端设备1-N通过有线网络或者无线网络与服务器进行信息交互,终端设备包括手机、台式机、PC机、一体机等类型。其中,终端设备中安装了在线平台应用,采用本发明实施例,基于图7所示的系统,服务器1接收海量的用户评论,对所述海量的用户评论进行第一级处理,然后将经所述第一级检测处理之后剩余的用户评论发送至服务器2,由服务器2对经所述第一级检测处理之后剩余的用户评论进行第二级检测处理,将经所述第二级检测处理之后剩余的用户评论发送至服务器3,由服务器3确定待识别的可疑评论,并向当前可接收可疑评论的终端均衡分发待识别的可疑评论,服务器3还接收终端返回的反馈信息,从服务器4获取做出反馈信息的终端用户的置信度参数,根据各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数计算每条待识别的可疑评论的评分,根据评分结果确定可疑评论是有效评论还是无效评论,将需要由管理员进一步确认的可疑评论,发送至管理后台,由后台管理员进行处理;服务器4还用于对做出所述反馈信息的终端用户做置信度评估。
需要说明的是,上述图7的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图7所述的系统结构。
实施例四
基于实施例一所述技术方案,本发明实施例还提供一种识别装置,如图8所示,所述识别装置包括:
确定模块81,用于确定待识别的符合预设条件的用户评论信息;
分发模块82,用于将所述待识别的符合预设条件的用户评论信息按照预设策略分发至第一类用户终端;
获取模块83,用于获取所述第一类用户终端返回的反馈信息;
处理模块84,用于基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的符合预设条件的用户评论信息所属的类别;其中,所述置信度参数用于表示第一类用户对用户评论信息评价的可信度。
具体地,所述确定模块81,还用于:
获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不符合所述预设条件的用户评价信息;
将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理;通过第二级检测处理过滤掉部分不符合所述预设条件的用户评价信息,
确定经过所述第一级检测处理和第二检测处理过滤之后,剩余的所述用户评价信息并确定待识别的符合预设条件的用户评论信息。
具体地,所述确定模块81,还用于:
接收第二类用户终端主动反馈的第二类用户认为符合预设条件的用户评论信息;
将第二类用户终端主动反馈的符合预设条件的用户评论信息归入到待识别的符合预设条件的用户评论信息中。
具体地,所述确定模块81对所述待处理的用户评论信息进行第一级检测处理,包括下述中的至少一种:
对发布用户评论信息的账号进行账号信息检测,若所述账号为符合第二预设条件的账号,则拦截与所述符合第二预设条件的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤。
具体地,所述确定模块81将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,包括:
对于经所述第一级检测处理之后剩余的用户评论信息中的每一条用户评论信息,
利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为符合预设条件的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为符合预设条件的用户评论信息。
具体地,所述分发模块82,还用于:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定可分发的第一类用户终端的个数;
将所述待识别的符合预设条件的用户评论信息均衡分发至所述可分发的第一类用户终端。
具体地,所述处理模块84,还用于:
对于每一条待识别的符合预设条件的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,其中,所述第一数值为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,其中,所述第二数值为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的符合预设条件的用户评论信息所属类别为第一类别;否则,确定所述待识别的符合预设条件的用户评论信息所属类别为第二类别。
上述方案中,优选地,所述装置还包括:
评估模块85,用于:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
具体地,所述评估模块85,还用于:
获取与所述第一类用户相关的参数数据;其中,所述参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
本实施例所述识别装置可设置于服务器上。
本领域技术人员应当理解,本实施例的识别装置中各单元的功能,可参照前述识别方法的相关描述而理解,本实施例的识别装置中各单元,可通过实现本实施例所述的功能的模拟电路而实现,也可以通过执行本实施例所述的功能的软件在智能终端上的运行而实现。
实际应用中,上述确定模块81、分发模块82、获取模块83、处理模块84、评估模块85的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU,CentralProcessing Unit)、微处理器(MCU,Micro Controller Unit)、数字信号处理器(DSP,Digital Signal Processing)或可编程逻辑器件(PLC,Programmable Logic Controller)等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各模块的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。
所述确定模块81、分发模块82、获取模块83、处理模块84、评估模块85可以集成对应于同一处理器,或分别对应不同的处理器;当集成对应于同一处理器时,所述处理器采用时分处理所述确定模块81、分发模块82、获取模块83、处理模块84、评估模块85对应的功能。
本实施例的识别装置,可以结合在线平台沉淀的用户数据对符合预设条件的用户评论信息进行分类,能在不影响正常业务的吞吐量和性能的前提下,打击无效的用户评论信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种识别方法,其特征在于,所述方法包括:
获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不可疑的用户评论信息;
所述第一级检测处理包括:对发布用户评论信息的账号进行账号信息检测,若所述账号为账号出现异常情况的账号,则拦截与所述账号出现异常情况的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤;
通过离线任务的方式,对将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,通过第二级检测处理过滤掉部分不可疑的用户评论信息;
所述第二级检测处理包括:利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;所述类别包括有效的用户评论信息和无效的用户评论信息;
在所述M个判断结果中,表征用户评论信息为无效的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为无效的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为可疑的用户评论信息;
将剩余的所述用户评论信息,确定为待识别的可疑的用户评论信息;
将所述待识别的可疑的用户评论信息均衡分发至状态信息为在线、且配置信息为同意接收对可疑评论进行判断的第一类用户终端;
获取所述第一类用户终端返回的反馈信息;
基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的可疑的用户评论信息所属的类别;
其中,所述置信度参数为基于与第一类用户相关的参数的数据以及相应参数对应的权重信息计算得到的,用于表示第一类用户对用户评论信息评价的可信度;所述与第一类用户相关的参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
接收第二类用户终端主动反馈的第二类用户认为可疑的用户评论信息;
将第二类用户终端主动反馈的可疑的用户评论信息归入到待识别的可疑的用户评论信息中。
3.根据权利要求1所述的方法,其特征在于,所述将所述待识别的可疑的用户评论信息均衡分发至状态信息为在线、且配置信息为同意接收对可疑评论进行判断的第一类用户终端之前,所述方法还包括:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定状态信息为在线、且配置信息为同意接收对可疑评论进行判断的第一类用户终端的个数。
4.根据权利要求1所述的方法,其特征在于,所述基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的可疑的用户评论信息所属的类别,包括:
对于每一条待识别的可疑的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,其中,所述第一数值为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,其中,第二数值为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的可疑的用户评论信息所属类别为第一类别;否则,确定所述待识别的可疑的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的可疑的用户评论信息所属类别为第一类别;否则,确定所述待识别的可疑的用户评论信息所属类别为第二类别。
5.根据权利要求1所述的方法,其特征在于,所述基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的可疑的用户评论信息所属的类别之后,所述方法还包括:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
6.根据权利要求5所述的方法,其特征在于,计算做出所述反馈信息的第一类用户的置信度参数,包括:
获取与所述第一类用户相关的参数数据;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
7.一种识别装置,其特征在于,所述装置包括:
确定模块,用于获取待处理的用户评论信息;
对所述待处理的用户评论信息进行第一级检测处理,通过第一级检测处理过滤掉部分不可疑的用户评论信息;
所述第一级检测处理包括:对发布用户评论信息的账号进行账号信息检测,若所述账号为账号出现异常情况的账号,则拦截与所述账号出现异常情况的账号相关的评论操作;
对同一账号发布用户评论信息的频率进行记录,当超出一定频率时,直接对所述同一账号在预设时间段内发布的用户评论信息进行拦截;
对用户评论信息进行内容检测,对含有预设特征的用户评论信息进行过滤;
通过离线任务的方式,对将经所述第一级检测处理之后剩余的用户评论信息进行第二级检测处理,通过第二级检测处理过滤掉部分不可疑的用户评论信息;
所述第二级检测处理包括:利用M个不同的判断策略对每一条用户评论信息进行分析,生成M个判断结果;其中,所述M为正整数,所述M个判断策略均能独立识别用户评论信息所属的类别;所述类别包括有效的用户评论信息和无效的用户评论信息;
在所述M个判断结果中,表征用户评论信息为无效的用户评论信息的判断结果超出预设比例时,过滤掉所述用户评论信息;
在所述M个判断结果中,表征用户评论信息为无效的用户评论信息的判断结果在预设比例范围内时,确定所述用户评论信息为可疑的用户评论信息;
将剩余的所述用户评论信息,确定为待识别的可疑的用户评论信息;
分发模块,用于将所述待识别的符合预设条件的用户评论信息均衡分发至状态信息为在线、且配置信息为同意接收对可疑评论进行判断的第一类用户终端;
获取模块,用于获取所述第一类用户终端返回的反馈信息;
处理模块,用于基于反馈信息、以及做出所述反馈信息的第一类用户的置信度参数确定所述待识别的可疑的用户评论信息所属的类别;其中,所述置信度参数为基于与第一类用户相关的参数的数据以及相应参数对应的权重信息计算得到的,用于表示第一类用户对用户评论信息评价的可信度;所述参数至少包括:报名课程数、评论数、上课时间段、成功证实他人的非法评论数、自身评论被判定为非法评论数。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,还用于:
接收第二类用户终端主动反馈的第二类用户认为可疑的用户评论信息;
将第二类用户终端主动反馈的可疑的用户评论信息归入到待识别的可疑的用户评论信息中。
9.根据权利要求7所述的装置,其特征在于,所述分发模块,还用于:
获取第一类用户终端的状态信息以及第一类用户账号的配置信息;
基于所述第一类用户终端的状态信息以及所述第一类用户账号的配置信息确定状态信息为在线、且配置信息为同意接收对可疑评论进行判断的第一类用户终端的个数。
10.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于:
对于每一条待识别的符合可疑的用户评论信息,
将第一种反馈信息的计算参数值赋值为第一数值,其中,所述第一数值为正数,所述第一种反馈信息是用于表征用户评论信息所属类别为第一类别的反馈信息;
将第二种反馈信息的计算参数值赋值为第二数值,其中,所述第二数值为负数,所述第二种反馈信息是用于表征用户评论信息所属类别为第二类别的反馈信息;
计算各条所述反馈信息的所述计算参数值及所述反馈信息对应的第一类用户的置信度参数的乘积进行累加;
将各种反馈信息对应的数值与做出所述相应反馈信息的第一类用户的置信度参数的乘积进行累加;
当累加值超出第一预设阈值,确定所述待识别的可疑的用户评论信息所属类别为第一类别;否则,确定所述待识别的可疑的用户评论信息所属类别为第二类别;和/或,
当累加值的均值超出第二预设阈值时,确定所述待识别的可疑的用户评论信息所属类别为第一类别;否则,确定所述待识别的可疑的用户评论信息所属类别为第二类别。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
评估模块,用于:
重新计算做出所述反馈信息的第一类用户的置信度参数;
基于重新计算得到的第一类用户的置信度参数对应更新所存储的第一类用户的置信度参数。
12.根据权利要求11所述的装置,其特征在于,评估模块,还用于:
获取与所述第一类用户相关的参数数据;
获取所述参数对应的权重信息;
基于与所述第一类用户相关的参数的数据以及相应参数对应的权重信息计算第一类用户的置信度参数。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述可执行指令时,实现如权利要求1至6任一项所述的识别方法。
14.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至6任一项所述的识别方法。
CN201610302495.2A 2016-05-09 2016-05-09 一种识别方法及装置 Active CN105824805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610302495.2A CN105824805B (zh) 2016-05-09 2016-05-09 一种识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610302495.2A CN105824805B (zh) 2016-05-09 2016-05-09 一种识别方法及装置

Publications (2)

Publication Number Publication Date
CN105824805A CN105824805A (zh) 2016-08-03
CN105824805B true CN105824805B (zh) 2024-04-23

Family

ID=56528446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610302495.2A Active CN105824805B (zh) 2016-05-09 2016-05-09 一种识别方法及装置

Country Status (1)

Country Link
CN (1) CN105824805B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832360A (zh) * 2017-10-24 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及相关设备
CN108810587A (zh) * 2018-06-12 2018-11-13 北京智明星通科技股份有限公司 一种移动终端显示手机游戏评论的方法、装置和服务器
CN109241302B (zh) * 2018-08-31 2020-08-14 深圳市轱辘汽车维修技术有限公司 一种在线课程的评论授权方法、装置及终端设备
CN110070385A (zh) * 2019-03-12 2019-07-30 平安银行股份有限公司 广告评论方法、装置、电子设备及存储介质
CN111836077B (zh) * 2020-06-24 2023-01-10 深圳市思考乐文化教育科技发展有限公司 一种交互式网络教学直播系统及方法
CN112435045A (zh) * 2020-12-08 2021-03-02 中国建设银行股份有限公司 处理用户反馈信息的方法、装置、存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103607659A (zh) * 2013-11-25 2014-02-26 小米科技有限责任公司 在智能显示设备上显示节目评论的方法、装置及服务器
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN104573017A (zh) * 2015-01-09 2015-04-29 北京网智天元科技股份有限公司 识别网络水军团体的方法及系统
CN105447036A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 一种基于观点挖掘的社交媒体信息可信度评估方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
US10089660B2 (en) * 2014-09-09 2018-10-02 Stc.Unm Online review assessment using multiple sources

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103607659A (zh) * 2013-11-25 2014-02-26 小米科技有限责任公司 在智能显示设备上显示节目评论的方法、装置及服务器
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN105447036A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 一种基于观点挖掘的社交媒体信息可信度评估方法及装置
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN104573017A (zh) * 2015-01-09 2015-04-29 北京网智天元科技股份有限公司 识别网络水军团体的方法及系统

Also Published As

Publication number Publication date
CN105824805A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105824805B (zh) 一种识别方法及装置
CN108881194B (zh) 企业内部用户异常行为检测方法和装置
CN108200054B (zh) 一种基于dns解析的恶意域名检测方法及装置
CN108366045B (zh) 一种风控评分卡的设置方法和装置
CN103198123B (zh) 用于基于用户信誉过滤垃圾邮件消息的系统和方法
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
CN108667854A (zh) 网络漏洞检测方法及装置、网络漏洞自动发布系统
CN108833186A (zh) 一种网络攻击预测方法及装置
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN108090359B (zh) 一种应用程序监测方法及应用服务器
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
CN106571933B (zh) 业务处理方法及装置
CN108833185A (zh) 一种网络攻击路线还原方法及系统
CN110532485B (zh) 基于多源数据融合的用户行为检测方法及装置
CN102315952A (zh) 一种用于社区网络中检测垃圾帖子的方法与设备
CN107392022A (zh) 爬虫识别、处理方法及相关装置
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CN113704772B (zh) 基于用户行为大数据挖掘的安全防护处理方法及系统
CN111786974A (zh) 一种网络安全评估方法、装置、计算机设备和存储介质
CN111611519A (zh) 一种个人异常行为检测方法及装置
CN112749973A (zh) 一种权限管理方法、装置和计算机可读存储介质
CN113765850B (zh) 物联网异常检测方法、装置、计算设备及计算机存储介质
CN115659351B (zh) 一种基于大数据办公的信息安全分析方法、系统及设备
CN111915441A (zh) 一种投资管理风险评估与预警系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant