CN110162621A - 分类模型训练方法、异常评论检测方法、装置及设备 - Google Patents

分类模型训练方法、异常评论检测方法、装置及设备 Download PDF

Info

Publication number
CN110162621A
CN110162621A CN201910133882.1A CN201910133882A CN110162621A CN 110162621 A CN110162621 A CN 110162621A CN 201910133882 A CN201910133882 A CN 201910133882A CN 110162621 A CN110162621 A CN 110162621A
Authority
CN
China
Prior art keywords
comment data
comment
training
black
disaggregated model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910133882.1A
Other languages
English (en)
Other versions
CN110162621B (zh
Inventor
温蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910133882.1A priority Critical patent/CN110162621B/zh
Publication of CN110162621A publication Critical patent/CN110162621A/zh
Application granted granted Critical
Publication of CN110162621B publication Critical patent/CN110162621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种分类模型训练方法,包括:获取语料集,根据语料集构建黑词库,获取目标评论系统中的评论数据集,根据评论数据集扩充所述黑词库,对评论数据集中各评论数据进行行为特征提取并根据黑词库进行内容特征提取,根据行为特征和内容特征生成携带有类型标签的训练特征向量;以评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。本申请还公开了相应的异常评论检测方法、装置、设备及介质。

Description

分类模型训练方法、异常评论检测方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及分类模型训练方法、异常评论检测方法、装置、设备及存储介质。
背景技术
如今很多网络平台都给用户提供评论系统,以供用户在平台上发布评论,并且可以通过发布评论的方式与其他用户互动。然而由于评论系统具有开放性、交互性和廉价性,作弊者就会利用评论系统的这些属性,试图通过评论系统发布广告信息、从事非法活动,而作弊者在评论系统中发布的评论被称为异常评论,也被称为作弊评论。
因此,网络平台为了保证平台安全、健康发展,就需要进行反作弊操作,具体利用异常评论检测技术检测并过滤掉评论系统中出现的异常评论,从而净化平台环境。
然而,随着网络平台数据的爆发式增长和网络环境的日益复杂,异常评论逐渐呈现出对抗性;而现有的异常评论检测技术已经无法适应于当前的网络环境,无法有效抵御对抗性攻击。
发明内容
本申请提供了一种分类模型训练方法,其以包括评论数据的行为特征和内容特征的训练特征向量作为训练样本,对黑词库和分类模型进行迭代更新,从而训练得到能够有效抵御对抗性攻击的分类模型。基于该模型,本申请还提供了一种异常评论检测方法、与上述方法对应的装置、设备、存储介质以及计算机程序产品。
本申请第一方面提供了一种分类模型训练方法,所述方法包括:
获取语料集,根据所述语料集构建黑词库;
获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
本申请第二方面提供一种异常评论检测方法,所述方法包括:
接收目标评论系统中待检测的评论数据;
通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送所述评论数据对应的第一检测结果和/或第二检测结果。
本申请第三方面提供一种异常评论检测方法,所述方法包括:
调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;
其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
本申请第四方面提供一种分类模型训练装置,所述装置包括:
语料获取模块,用于获取语料集,根据所述语料集构建黑词库;
评论获取模块,用于获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
训练样本生成模块,用于对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
模型训练模块,用于以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
本申请第五方面提供一种异常评论检测装置,所述装置包括:
接收模块,用于接收目标评论系统中待检测的评论数据;
检测模块,用于通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送模块,用于发送所述评论数据对应的第一检测结果和/或第二检测结果。
本申请第六方面提供一种异常评论检测装置,所述装置包括:
第一调用模块,用于调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
第二调用模块,用于调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
本申请第七方面提供一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行本申请第一方面所述的所述分类模型训练方法,或者,执行本申请第二方面或第三方面所述的异常评论检测方法。
本申请第八方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的分类模型训练方法,或者执行上述第二方面或第三方面所述的异常评论检测方法。
本申请第九方面提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的分类模型训练方法,或者执行上述第二方面或第三方面所述的异常评论检测方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种分类模型训练方法,其是通过包含评论数据行为特征和内容特征的训练特征向量实现的,具体地,获取语料集,根据所述语料集构建黑词库,获取目标评论系统中的评论数据集,评论数据集扩充所述黑词库,然后基于评论数据集对各评论数据进行行为特征提取,基于黑词库对各评论数据进行内容特征提取,基于评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量,通过将该训练特征向量作为训练样本,对分类模型进行多次迭代训练,一方面通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,使得模型能够发现最新的攻击方式,另一方面基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态,如此使得训练得到的分类模型有效抵御对抗性攻击,实时匹配评论系统。
附图说明
图1为本申请实施例中分类模型训练方法的场景架构图;
图2为本申请实施例中分类模型训练方法的流程图;
图3为本申请实施例中构建黑词库的流程示意图;
图4为本申请实施例中对分类模型进行更新与调优的过程示意图;
图5A和图5B为本申请实施例中异常评论检测方法的场景架构图;
图6为本申请实施例中异常评论检测方法的流程图;
图7为本申请实施例中异常评论检测方法的流程图;
图8为本申请实施例中分类模型训练方法及异常评论检测方法的应用场景示意图;
图9为本申请实施例中分类模型训练装置的一个结构示意图;
图10为本申请实施例中分类模型训练装置的一个结构示意图;
图11为本申请实施例中分类模型训练装置的一个结构示意图;
图12为本申请实施例中分类模型训练装置的一个结构示意图;
图13为本申请实施例中异常评论检测装置的一个结构示意图;
图14为本申请实施例中异常评论检测装置的一个结构示意图;
图15为本申请实施例中一个设备的结构示意图;
图16为本申请实施例中一个设备的结构示意图;。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
针对现有的异常评论检测技术已经无法适应于当前的网络环境,无法有效抵御对抗性攻击的问题,本申请从模型架构以及黑词库的角度,提出了一种模型训练方法以训练分类模型,从而实现对评论系统中的异常评论的识别。
一方面,该分类模型是基于内容和用户行为进行预测的模型,与传统的单一模型相比,该模型充分考虑了内容和用户行为等多项复杂因子,因而具有较好的鲁棒性、迁移性,能够有效检测对抗性评论,抵御对抗性攻击;另一方面,该方法能够实现黑词库的自动更新,因而能够及时发现最新的攻击方式,基于更新的黑词库训练得到的分类模型能够快速适应攻击方式的变化,解决了传统模型存在的强滞后性问题。
应理解,本申请提供的分类模型训练方法可以应用于任意具有数据处理能力的处理设备,该处理设备可以是终端,也可以是服务器。在实际应用时,该处理设备可以是独立的,也可以是多个设备构成的集群。其中,分类模型训练方法可以以应用程序的形式存储于上述处理设备中,处理设备通过执行该应用程序实现本申请的分类模型训练方法。
为了使得本申请的技术方案更加易于理解,下面将结合具体场景对本申请的分类模型训练方法进行介绍。
参见图1所示的分类模型训练方法的场景架构图,该场景中包括训练服务器10,训练服务器10从网络中获取语料集,根据该语料集构建黑词库,然后获取目标评论系统中的评论数据集,根据评论数据集扩充所述黑词库,对所述评论数据集中各评论数据进行行为特征提取,并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;然后以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
接下来,将从训练服务器的角度对本申请实施例提供的分类模型训练方法进行介绍。
参见图2所示的分类模型训练方法的流程图,该方法包括:
S201:获取语料集,根据所述语料集构建黑词库。
分类模型用于对评论系统中的评论进行分类,以筛选出异常评论,避免攻击者通过该评论系统发布广告信息、从事非法活动。其中,评论系统是网络平台提供的用于对待评价对象进行评价的系统,基于此,该评论系统可以是应用商店的评论系统,也可以是电商平台的评论系统,也可以是流媒体播放平台的评论系统、或者是社交平台的评论系统等等。
在实际应用时,为了提高分类准确度,训练服务器可以获取与评论系统相对应的语料集,根据所述语料集构建黑词库。其中,黑词库可以理解为存储有黑词的数据库,所谓黑词是指位于黑名单中词,实际应用时,一般可以将黑词分类,并写入对应类别的黑词表中,将黑词表保存在所述黑词库中。
下面以评论系统为应用商店的评论系统为例,对构建黑词库的过程进行详细说明。在具体实现时,训练服务器首先获取多种来源的语料集,然后,训练服务器针对获取的语料集进行关键词抽取、去重和分类得到包含多个类别的黑词表的黑词库。
多种来源的语料集中至少包括来源于应用市场的应用实体名称语料集和来源于互联网网站的作弊舆情语料集,其中,应用实体名称语料集存储有应用市场中发布的各个应用对应的应用实体名称,例如可以包括借贷类、博彩类、游戏类等应用实体名称,作弊舆情语料集可以是论坛、交流区、聊天群等发布的作弊模式等作弊舆情信息。
在一些可能的实现方式中,训练服务器还可以获取来自开源语料库的黑词语料集,如搜狗语料、人民日报、腾讯新闻、中国知网等网站提供的敏感词库、特殊语料词库、涉黄涉政涉恐、吐槽谩骂、特殊火星文、专有名词、新词热词等开源语料集,以扩展语料覆盖度和丰富度等。
训练服务器通过对应用实体名称语料集中关键词进行过滤,过滤掉目标应用实体名称,得到应用名称实体类黑词;对作弊舆情语料集中各作弊信息,通过关键词抽取和/或通过主题模型获取作弊舆情类黑词;接着,训练服务器对名称实体类黑词、所述作弊舆情类黑词以及所述黑词语料集中的黑词,进行去重和分类得到包含多类黑词表的黑词库。
具体请参见图3,训练服务器通过爬取工具从应用宝市场、豌豆荚等应用商店爬取应用实体名称,从而获取应用实体名称语料集,从贴吧、论坛、众包平台以及聊天群等网站爬取作弊模式等信息,得到作弊舆情语料集,从搜狗语料、人民日报等开源语料库中获取相应的黑词语料集,然后,对上述语料集分别进行关键词抽取,得到相应的关键词列表,接着对关键词列表进行去重过滤,然后按照广告、金融、游戏、敏感词、吐槽谩骂……新词热词等类别进行分类,得到多个类别的黑词表,如此实现黑词库构建。
S202:获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库。
考虑到攻击者可能会通过黑词的同音词、形近词或者特殊符号代替黑词,训练服务器可以基于评论系统中的评论数据扩充黑词库。具体地,训练服务器可以获取目标评论系统中的评论数据集,对所述评论数据集中各评论数据进行分词、命名实体识别以及摘要抽取,得到所述评论数据集对应的关键词,确定所述评论数据集对应的关键词与所述黑词库中黑词的词向量距离,选择词向量距离小于距离阈值的关键词,将其扩充至所述黑词库中。
在实际应用时,训练服务器可以通过jieba或hanlp等分词工具实现对评论数据的分词,进一步地,为了提高准确度,训练服务器还可以对分词结果进行正则匹配,例如训练服务器可以对联系方式、简繁体、同音异形词等负责形式的内容进行正则匹配,接着,训练服务器可以进行命名实体识别以及摘要抽取等方式进行关键词抽取,例如,可以基于词粒度和句粒度进行关键词抽取,从而得到评论数据集对应的关键词,然后计算关键词与黑词库中黑词的词向量距离,该词向量距离能够表征关键词与黑词的相似程度,当词向量距离小于距离阈值时,即表征该关键词与黑词相似,可以将其扩充至黑词库中。
需要说明的是,词向量距离可以是余弦距离,也可以是欧氏距离,或者是汉明距离(Hamming distance)。其距离阈值可以根据实际需求而设置,本实施例对此不作限定。在将词向量距离小于距离阈值的关键词扩充至黑词库时,可以对关键词进行去重和过滤,并按照所在领域进行细粒度分类,然后保存在相应的黑词表中。对于分类后的黑词表还可以进行规范化处理,提供统一的应用程序接口(Application Program Interface,API),以便不同业务接入或调用。
S203:对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量。
在本实施例中,分类模型是基于行为特征和内容特征对评论是否异常进行预测,基于此,训练服务器对评论数据集中各评论数据进行行为特征提取,以及根据黑词库进行内容特征提取,并根据评论数据对应的行为特征和内容特征生成该评论数据对应的类型标签,基于行为特征、内容特征以及对应的标签可以生成训练特征向量。
其中,行为特征是表征评论行为属性的特征,针对评论这一行为,其行为属性可以包括评论设备、评论用户相关属性,基于此,行为特征可以包括发表评论设备数量、用户在时间周期内发表评论次数和用户平均使用设备数中的任意一种或多种。当然,在一些可能的实现方式中,行为特征可以包括评论内容长度、特殊符号占比、重复评论出现次数和内容相似的评论数中的任意一种或多种。
在实际应用时,训练服务器可以针对评论数据集中各评论数据分别提取多维行为特征,例如,评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数和内容相似的评论数中的至少两种,如此,可以通过较多的信息对评论是否异常进行预测,从而提高评论分类的准确度。其中,用户在时间周期内发表评论次数中的时间周期可以根据实际需求而设置,例如,可以设置为30天。
内容特征是表征评论内容属性的特征,其是基于评论数据的内容而确定的。具体地,训练服务器可以针对评论数据集中各评论数据,判断该评论数据中是否包括黑词库中的黑词,若是,则确定该评论数据的内容特征表征该评论数据的内容为异常,否则,确定该评论数据的内容特征表征该评论数据的内容为正常。
类型标签是表征评论数据为正常或异常的标签,本申请实施例提供了一种确定类型标签的实现方式。具体地,训练服务器根据统计策略中各行为特征阈值,判断评论数据对应的行为特征是否为异常,当评论数据的行为特征和内容特征中存在有一种特征为异常,则确定该评论数据的类型标签为异常标签,否则确定该评论数据的类型标签为正常标签。
在实际应用时,可以根据不同行为特征分别设定相对应的行为特征阈值,各行为特征阈值的取值可以根据实际需求而设置,在此不作限定。
S204:以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
在本实施例中,训练服务器以评论数据集中各评论数据对应的训练特征向量作为训练样本,进行模型训练。其中,类型标签为正常标签的训练特征向量为正样本,类型标签为异常标签的训练特征向量为负样本。训练服务器利用包括上述正样本和负样本在内的训练样本对分类模型进行多次迭代训练。
具体地,训练服务器通过当前迭代训练的分类模型对评论数据集中各评论数据进行预测,获取分类模型针对各评论数据的预测类型,若预测类型为异常,则表明该评论为异常评论,训练服务器可以根据预测类型为异常的评论数据更新黑词库。
在更新黑词库后,训练服务器可以基于更新后的黑词库更新训练样本,例如一些类型标签为正常类型的评论在黑词库更新后,其类型标签变更为异常类型,然后训练服务器可以利用该更新后的训练样本进行下一词迭代训练,直至所述分类模型和所述黑词库处于稳定态。
其中,所述分类模型处于稳定态可以通过分类模型的损失函数进行表征,当损失函数处于收敛状态,即可认为分类模型处于稳定态,黑词库处于稳定态可以通过黑词库的变化幅度小于幅度阈值而确定,幅度阈值可以根据实际业务需求而设置,例如可以设置为5%,例如当前迭代的黑词库与上一次迭代的黑词库相比,其变化幅度小于5%时,则可以确定当前迭代的黑词库处于稳定态。
具体请参见图4,图4为对分类模型进行更新与调优的过程示意图,首先,训练服务器基于原始评论数据和分类模型对黑词库进行版本迭代及更新,具体地,基于训练得到的分类模型对原始评论数据的类型标签进行预测,若预测类型为异常类型,则基于该训练样本的内容进行特征抽取和模型判别,通过黑词库和聚类算法对语料中的黑词进行聚类,以实现黑词库的版本迭代及更新;然后,训练服务器基于更新后的黑词库重新标记原始评论数据的类型标签,以更新训练样本,然后基于更新后的训练样本对模型进行调优,当黑词表和分类模型均达到稳定态时,则停止训练,输出最终训练结果,具体为提供对外业务的黑词库API和分类模型API。
由上可知,本申请实施例提供了一种分类模型训练方法,首先获取语料集,根据所述语料集构建黑词库,获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库,对所述评论数据集中各评论数据进行行为特征提取,以及根据所述黑词库进行内容特征提取,然后根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量,以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
一方面,该分类模型是基于内容和用户行为进行预测的模型,与传统的单一模型相比,该模型充分考虑了内容和用户行为等多项复杂因子,因而具有较好的鲁棒性、迁移性,能够有效检测对抗性评论,抵御对抗性攻击;另一方面,该方法能够实现黑词库的自动更新,因而能够及时发现最新的攻击方式,基于更新的黑词库训练得到的分类模型能够快速适应攻击方式的变化,解决了传统模型存在的强滞后性问题。
基于本申请实施例提供的分类模型训练方法训练得到的分类模型,本申请实施例还提供了一种异常评论检测方法。应理解,本申请提供的异常评论检测可以应用于任意具有数据处理能力的处理设备,该处理设备可以是终端,也可以是服务器。在实际应用时,该处理设备可以是独立的,也可以是多个设备构成的集群。其中,异常评论检测方法可以以应用程序的形式存储于上述处理设备中,处理设备通过执行该应用程序实现本申请的异常评论检测方法。
为了使得本申请的技术方案更加易于理解,下面将结合具体场景对本申请的异常评论检测方法进行介绍。
参见图5A所示的异常评论检测方法的场景架构图,该场景中包括检测服务器510和业务服务器520,其中,检测服务器510作为服务方,业务服务器520作为业务方,业务方提供有评论系统,以供用户基于该评论系统对业务方的业务进行评论,服务方通过分类模型为业务方提供异常评论检测服务。
具体地,检测服务器510接收业务服务器520发送的目标评论系统中待检测的评论数据,检测服务器510通过分类模型检测所述评论数据的类型得到第一检测结果,和/或,通过黑词库检测所述评论数据的类型得到第二检测结果,然后,检测服务器510向业务服务器520发送所述评论数据对应的第一检测结果和/或第二检测结果,实现异常评论检测,如此,业务服务器520可以根据第一检测结果和/或第二检测结果对评论数据进行相应的处理。
考虑到业务方数据安全性,在实际应用时,参见图5B,业务服务器520也可以不发送待检测的评论数据,而是调用检测服务器510提供的分类模型的API,对目标评论系统中待检测的评论数据的类型进行检测得到第一检测结果;和/或,调用检测服务器510提供的黑词库的API,对所述待检测的评论数据的类型进行检测得到第二检测结果。
接下来,将分别从服务方和业务方的角度对本申请实施例提供的异常评论检测方法进行介绍。
首先,从服务方的角度进行介绍,参见图6所示的异常评论检测方法的流程图,该方法包括:
S601:接收目标评论系统中待检测的评论数据。
目标评论系统是指业务方提供的评论系统。具体地,若业务方为应用市场,提供应用下载服务,则目标评论系统为应用市场中针对各应用的评论系统,若业务方为电商平台,则目标评论系统为电商平台中针对各商品的评论系统。
服务方接收目标检测系统中待检测的评论数据,其中,待检测的评论数据可以是针对某一应用程序的评论数据,也可以是针对每一商品的评论数据,服务方基于接收的评论数据对评论是否异常进行检测。
S602:通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果。
其中,所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态。
在本实施例中,服务方可以通过分类模型,提取评论数据的行为特征和内容特征,基于该行为特征和内容特征对评论数据的类型进行预测,从而实现异常评论检测。为了方便表述,将基于分类模型确定的评论数据的类型记作第一检测结果。
其中,通过分类模型检测所述评论数据的类型具体可以通过如下方式实现:对所述评论数据进行多维行为特征提取,所述多维行为特征包括以下至少两种行为特征:评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数、内容相似的评论数,根据所述黑词库对所述评论数据进行内容特征提取,根据提取到的行为特征和提取到的内容特征,生成所述评论数据对应的特征向量,将所述评论数据对应的特征向量输入至所述分类模型,获得所述分类模型输出的所述评论数据类型,作为第一检测结果。
此外,黑词库能够实现自动更新,服务方还可以基于该黑词库,对评论数据的内容进行检测,从而得到评论数据的类型,为了方便表述,将基于黑词库确定的评论数据的类型记作第二检测结果。
通过黑词库检测所述评论数据的类型可以通过如下方式实现:判断该评论数据中是否包括所述黑词库中的黑词,根据判断结果确定第二检测结果,所述第二检测结果用于表征该评数据是否为异常评论。
在实际应用时,服务方可以通过以上两种实现方式中的任意一种或多种确定评论数据的类型。当服务方采用分类模型检测所述评论数据的类型得到第一检测结果,并且通过黑词库检测所述评论数据的类型得到第二检测结果,还可以基于第一检测结果和第二检测结果确定最终检测结果。具体地,若第一检测结果和第二检测结果中至少有一个表征评论为异常评论,则确定最终检测结果为异常,否则确定最终检测结果为正常。
S603:发送所述评论数据对应的第一检测结果和/或第二检测结果。
在一些可能的实现方式中,当服务方采用分类模型和黑词库分别对评论数据的类型进行检测时,可以向业务方发送评论数据对应的第一检测结果和第二检测结果,由业务方基于第一检测结果和第二检测结果确定最终检测结果,当然,服务方也可以直接向业务方发送最终检测结果。
由上可知,本申请实施例提供了一种异常评论检测方法,该方法是基于分类模型和/ 黑词库实现的,其中,分类模型是基于历史评论数据和迭代更新的黑词库训练优化得到,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态,分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征,所述类型用于表征该评论数据是否为异常评论,接收目标评论系统中待检测的评论数据后,通过分类模型黑词库中的至少一种检测所述评论数据的类型,并将相应的检测结果返回,以实现异常评论检测。与传统的检测方法相比,该方法通过动态更新的黑词库或者通过基于该动态更新的黑词库优化的分类模型能够及时发现新的攻击方式,有效抵御对抗性攻击,具有较好的鲁棒性、可迁移性,而且能够在不同的时间周期进行自动更新和版本迭代,适用于对时效性较高或领域特征较为明显的场景。
接着,从业务方的角度进行介绍,参见图7所示的异常评论检测方法的流程图,该方法包括:
S701:调用分类模型的应用程序接口和/或黑词库的应用程序接口。
所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征,所述类型用于表征该评论数据是否为异常评论。
所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态。
在具体实现时,服务方提供有分类模型的API和黑词库的API,业务方可以调用上述分类模型的API或黑词库的API中的至少一种,用于对异常评论进行检测。
S702:利用分类模型的应用程序接口对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果,和/或,利用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果。
具体地,业务方可以利用分类模型的API,执行基于分类模型检测评论数据的类型的方法,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;当然,业务方也可以利用黑词库的应用程序接口,执行基于黑词库检测评论数据的类型的方法,对目标评论系统中的待检测的评论数据的类型进行检测得到第二检测结果。业务方通过以上两种实现方式中的至少一种,实现异常评论检测。
由上可知,本申请实施例提供了一种异常评论检测方法,该方法是基于分类模型的API 和/黑词库的API实现的,其中,分类模型是基于历史评论数据和迭代更新的黑词库训练优化得到,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态,分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征,所述类型用于表征该评论数据是否为异常评论,在进行检测时,可以直接调用分类模型的API和/或黑词库的API 对目标评论系统中待检测的评论数据进行检测,从而得到相应的检测结果。
与传统的检测方法相比,该方法通过动态更新的黑词库对应的API或者通过基于该动态更新的黑词库优化的分类模型对应的API能够及时发现新的攻击方式,有效抵御对抗性攻击,具有较好的鲁棒性、可迁移性,而且能够在不同的时间周期进行自动更新和版本迭代,适用于对时效性较高或领域特征较为明显的场景。
此外,该方法无需业务方上报用户评论数据,一方面保证了数据安全性,另一面减少了数据传输,提高了数据处理效率。
为了使得本申请的技术方案更加清楚、易于理解,下面将结合具体应用场景对本申请实施例提供的分类模型训练方法以及异常评论检测方法进行介绍。
参见图8所示的分类模型训练方法以及异常评论检测方法的应用场景示意图,该场景中包括训练服务器810、检测服务器820以及应用市场对应的业务服务器830,业务服务器830提供应用程序下载业务,并且业务服务器830还提供有评论系统,当用户终端通过业务服务器830下载应用程序后,可以基于业务服务器830提供的评论系统对下载的应用程序进行评论,训练服务器810即用于训练分类模型,并提供可更新的黑词库,检测服务器820利用训练服务器810训练的分类模型和黑词库对业务服务器830的评论系统中评论数据是否异常进行检测,使得业务服务器830过滤异常评论,净化应用市场平台环境。
具体地,训练服务器810首先通过爬取工具从业务服务器830爬取应用实体名称,主要包括借贷类、博彩类、游戏类等应用实体名称,获得应用实体名称语料集,然后训练服务器810从贴吧、论坛、交流区、聊天群中爬取作弊舆情信息,作为一个示例,训练服务器从众包论坛已发布的帖子中爬取到对某应用程序进行好评的语料,即可将其作为作弊舆情信息,保存在作弊舆情语料集中,此外,训练服务器810还从搜狗语料、人民日报、腾讯新闻、中国知网等开源语料库中获取黑词语料集,然后训练服务器810对应用实体名称语料集中关键词进行过滤,过滤掉目标应用实体名称,如当前应用实体名称,得到应用名称实体类黑词,例如xx彩票、xx贷等等,并对作弊舆情语料集中各作弊信息通过关键词抽取和通过主题模型的方式获取作弊舆情类黑词,对于应用名称实体类黑词、作弊舆情类黑词以及开源语料集中的黑词进行去重和分类,并写入到相应类别的黑词表中,各类别的黑词表保存在黑词库中。
接着,训练服务器810从业务服务器830中获取评论数据集,通过jieba对评论数据集中个评论数据分词,并对分词结果进行正则匹配,并通过命名实体识别以及摘要抽取等方式抽取关键词,计算关键词与黑词库中黑词的词向量距离,当词向量距离小于距离阈值时,即将该关键词扩充至黑词库中。
然后,训练服务器810针对评论数据集中各评论数据分别提取多维行为特征,具体包括评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数和内容相似的评论数,并且基于黑词库提取内容特征,根据统计策略中各行为特征阈值,判断评论数据对应的行为特征是否为异常,当评论数据的行为特征和内容特征中存在有一种特征为异常,确定该评论数据的类型标签为异常标签,否则确定该评论数据的类型标签为正常标签,如此,根据行为特征和内容特征生成携带有类型标签的训练特征向量。
再接着,训练服务器810以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
然后,检测服务器820利用训练服务器810训练得到的处于稳定态的分类模型和处于稳定态的黑词库,对业务服务器830的评论系统中待检测的评论数据进行检测。具体地,检测服务器820接收业务服务器830发送的待检测的评论数据,通过分类模型检测评论数据的类型得到第一检测结果,通过黑词库检测所述评论数据的类型得到第二检测结果,然后向业务服务器830发送第一检测结果和第二检测结果,业务服务830根据第一检测结果和第二结果确定评论数据是否异常,当评论数据异常时,可以将该评论数据过滤,当评论数据正常时,则发送给用户终端,以便在用户终端上显示。
以上为本申请实施例提供的分类模型训练方法、异常评论检测方法的一些具体实现方式,基于此,本申请实施例还提供了对应的装置,下面将从功能模块化的角度对其进行介绍。
参见图9所示的分类模型训练装置的结构示意图,该装置900包括:
语料获取模块910,用于获取语料集,根据所述语料集构建黑词库;
评论获取模块920,用于获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
训练样本生成模块930,用于对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
模型训练模块940,用于以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
可选的,参见图10,图10为本申请实施例提供的分类模型训练装置的一个结构示意图,在图9所示结构的基础上,所述目标评论系统为应用商店的评论系统;所述语料获取模块910包括:
语料获取子模块911,用于获取多种来源的语料集,所述多种来源的语料集中至少包括来源于应用市场的应用实体名称语料集和来源于互联网网站的作弊舆情语料集;
黑词库构建子模块912,用于针对获取的语料集进行关键词抽取、去重和分类得到包含多个类别的黑词表的黑词库。
可选的,参见图11,图11为本申请实施例提供的分类模型训练装置的一个结构示意图,在图9所示结构的基础上,所述评论获取模块920包括:
关键词抽取子模块921,用于对所述评论数据集中各评论数据进行分词、命名实体识别以及摘要抽取,得到所述评论数据集对应的关键词;
距离确定子模块922,用于确定所述评论数据集对应的关键词与所述黑词库中黑词的词向量距离;
扩充子模块923,用于选择词向量距离小于距离阈值的关键词,将其扩充至所述黑词库中。
可选的,所述训练样本生成模块930,在对所述评论数据集中各评论数据进行行为特征提取时,具体用于:
针对所述评论数据集中各评论数据分别提取多维行为特征,所述多维行为特征包括以下至少两种行为特征:
评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数和内容相似的评论数。
可选的,所述训练样本生成模块930,在根据所述黑词库进行内容特征提取时,具体用于:
针对所述评论数据集中各评论数据,判断该评论数据中是否包括所述黑词库中的黑词;
若是,确定该评论数据的内容特征表征该评论数据的内容为异常;
否则,确定该评论数据的内容特征表征该评论数据的内容为正常。
可选的,参见图12,图12为本申请实施例提供的分类模型训练装置的一个结构示意图,在图9所示结构的基础上,所述装置900还包括类型标签确定模块950,用于通过以下方式确定所述类型标签:
根据统计策略中各行为特征阈值,判断评论数据对应的行为特征是否为异常;
当评论数据的行为特征和内容特征中存在有一种特征为异常,则确定该评论数据的类型标签为异常标签,否则确定该评论数据的类型标签为正常标签。
本申请实施例还提供了一种异常评论检测装置,接下来,参见图13所示的异常评论检测装置的结构示意图,该装置1300包括:
接收模块1310,用于接收目标评论系统中待检测的评论数据;
检测模块1320,用于通过分类模型检测所述评论数据的类型得到第一检测结果;和/ 或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送模块1330,用于发送所述评论数据对应的第一检测结果和/或第二检测结果。
可选的,所述检测模块1320,在通过分类模型检测所述评论数据的类型得到第一检测结果时,具体用于:
对所述评论数据进行多维行为特征提取,所述多维行为特征包括以下至少两种行为特征:评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数、内容相似的评论数;
根据所述黑词库对所述评论数据进行内容特征提取;
根据提取到的行为特征和提取到的内容特征,生成所述评论数据对应的特征向量;
将所述评论数据对应的特征向量输入至所述分类模型,获得所述分类模型输出的所述评论数据类型,作为第一检测结果。
可选的,所述检测模块1320,在通过黑词库检测所述评论数据的类型得到第二检测结果时,具体用于:
判断该评论数据中是否包括所述黑词库中的黑词,根据判断结果确定第二检测结果,所述第二检测结果用于表征该评数据是否为异常评论。
本申请实施例还提供了另一种异常评论检测装置,接下来,参见图14所示的异常评论检测装置的结构示意图,该装置1400包括:
第一调用模块1410,用于调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
第二调用模块1420,用于调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
图9至图14所示实施例从功能模块化的角度对本申请提供的装置进行了介绍,本申请实施例还提供了相应的设备,下面从硬件实体化的角度对本申请实施例提供的设备进行介绍。
图15是本申请实施例提供的一种设备的结构示意图,该设备可以是服务器,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530 通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。
其中,CPU 1522用于执行如下步骤:
获取语料集,根据所述语料集构建黑词库;
获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
可选的,CPU 1522还可以用于执行本申请实施例中分类模型训练方法的任意一种实现方式的步骤。
本申请实施例还提供了一种用于异常评论检测的设备,该设备应用于服务方,其具有与图15所示设备相同的结构,其中,CPU 1522用于执行如下步骤:
接收目标评论系统中待检测的评论数据;
通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送所述评论数据对应的第一检测结果和/或第二检测结果。
可选的,CPU 1522还可以用于执行本申请实施例中异常评论检测方法的任意一种实现方式的步骤。
本申请实施例还提供了一种异常评论检测的设备,该设备应用于业务方,其具有与图 15所示设备相同的结构,其中,CPU 1522用于执行如下步骤:
调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;
其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
本申请实施例还提供了另一种设备,如图16所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文缩写: PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为手机为例:
图16示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图16,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1610、存储器1620、输入单元1630、显示单元1640、传感器1650、音频电路1660、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1670、处理器1680、以及电源1690等部件。本领域技术人员可以理解,图16中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1620可用于存储软件程序以及模块,处理器1680通过运行存储在存储器1620 的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1620内的软件程序和/或模块,以及调用存储在存储器1620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1680 可包括一个或多个处理单元;优选的,处理器1680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1680中。
在本申请实施例中,该终端所包括的处理器1680还具有以下功能:
获取语料集,根据所述语料集构建黑词库;
获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
可选的,所述处理器1680还用于执行本申请实施例提供的分类模型训练方法的任意一种实现方式的步骤。
本申请实施例还提供了一种用于异常评论检测的设备,该设备应用于服务方,其具有与图16所示设备相同的结构,其中,处理器1680用于执行如下步骤:
接收目标评论系统中待检测的评论数据;
通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送所述评论数据对应的第一检测结果和/或第二检测结果。
可选的,处理器1680还可以用于执行本申请实施例中异常评论检测方法的任意一种实现方式的步骤。
本申请实施例还提供了一种异常评论检测的设备,该设备应用于业务方,其具有与图 16所示设备相同的结构,其中,处理器1680用于执行如下步骤:
调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;
其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种分类模型训练方法或异常评论检测方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种分类模型训练方法或异常评论检测方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种分类模型训练方法,其特征在于,包括:
获取语料集,根据所述语料集构建黑词库;
获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
2.根据权利要求1所述的方法,其特征在于,所述目标评论系统为应用商店的评论系统;
则所述获取语料集,根据所述语料集构建黑词库,包括:
获取多种来源的语料集,所述多种来源的语料集中至少包括来源于应用市场的应用实体名称语料集和来源于互联网网站的作弊舆情语料集;
针对获取的语料集进行关键词抽取、去重和分类得到包含多个类别的黑词表的黑词库。
3.根据权利要求1所述的方法,其特征在于,所述根据所述评论数据集扩充所述黑词库,包括:
对所述评论数据集中各评论数据进行分词、命名实体识别以及摘要抽取,得到所述评论数据集对应的关键词;
确定所述评论数据集对应的关键词与所述黑词库中黑词的词向量距离;
选择词向量距离小于距离阈值的关键词,将其扩充至所述黑词库中。
4.根据权利要求1所述的方法,其特征在于,所述对所述评论数据集中各评论数据进行行为特征提取,包括:
针对所述评论数据集中各评论数据分别提取多维行为特征,所述多维行为特征包括以下至少两种行为特征:
评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数和内容相似的评论数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述黑词库进行内容特征提取,包括:
针对所述评论数据集中各评论数据,判断该评论数据中是否包括所述黑词库中的黑词;
若是,确定该评论数据的内容特征表征该评论数据的内容为异常;
否则,确定该评论数据的内容特征表征该评论数据的内容为正常。
6.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述类型标签:
根据统计策略中各行为特征阈值,判断评论数据对应的行为特征是否为异常;
当评论数据的行为特征和内容特征中存在有一种特征为异常,则确定该评论数据的类型标签为异常标签,否则确定该评论数据的类型标签为正常标签。
7.一种异常评论检测方法,其特征在于,包括:
接收目标评论系统中待检测的评论数据;
通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送所述评论数据对应的第一检测结果和/或第二检测结果。
8.根据权利要求7所述的方法,其特征在于,所述通过分类模型检测所述评论数据的类型得到第一检测结果,包括:
对所述评论数据进行多维行为特征提取,所述多维行为特征包括以下至少两种行为特征:评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数、内容相似的评论数;
根据所述黑词库对所述评论数据进行内容特征提取;
根据提取到的行为特征和提取到的内容特征,生成所述评论数据对应的特征向量;
将所述评论数据对应的特征向量输入至所述分类模型,获得所述分类模型输出的所述评论数据类型,作为第一检测结果。
9.根据权利要求7所述的方法,其特征在于,所述通过黑词库检测所述评论数据的类型得到第二检测结果,包括:
判断该评论数据中是否包括所述黑词库中的黑词,根据判断结果确定第二检测结果,所述第二检测结果用于表征该评数据是否为异常评论。
10.一种异常评论检测方法,其特征在于,包括:
调用分类模型的应用程序接口,对目标评论系统中的待检测的评论数据的类型进行检测得到第一检测结果;和/或,
调用黑词库的应用程序接口,对所述待检测的评论数据的类型进行检测得到第二检测结果;
其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征。
11.一种分类模型训练装置,其特征在于,包括:
语料获取模块,用于获取语料集,根据所述语料集构建黑词库;
评论获取模块,用于获取目标评论系统中的评论数据集,根据所述评论数据集扩充所述黑词库;
训练样本生成模块,用于对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取,根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量;
模型训练模块,用于以所述评论数据集中各评论数据对应的训练特征向量作为训练样本,对分类模型进行多次迭代训练,通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测,根据预测类型为异常的评论数据更新所述黑词库,基于更新后的黑词库更新所述训练样本,以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。
12.一种异常评论检测装置,其特征在于,包括:
接收模块,用于接收目标评论系统中待检测的评论数据;
检测模块,用于通过分类模型检测所述评论数据的类型得到第一检测结果;和/或,通过黑词库检测所述评论数据的类型得到第二检测结果;其中,所述黑词库在所述分类模型的训练过程中迭代更新直至其处于稳定态;所述分类模型是基于所述历史评论数据和迭代更新的黑词库训练优化直至其处于稳定态;所述分类模型用于以评论数据对应的特征向量作为输入,以该评论数据对应的类型为输出,该类型用于表征该评论数据是否为异常评论,所述特征向量包括评论数据的行为特征和基于所述黑词库确定的内容特征;
发送模块,用于发送所述评论数据对应的第一检测结果和/或第二检测结果。
13.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述分类模型训练方法,或者,执行权利要求7至10任一项所述的异常评论检测方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6任一项所述分类模型训练方法,或者,执行权利要求7至10任一项所述的异常评论检测方法。
CN201910133882.1A 2019-02-22 2019-02-22 分类模型训练方法、异常评论检测方法、装置及设备 Active CN110162621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910133882.1A CN110162621B (zh) 2019-02-22 2019-02-22 分类模型训练方法、异常评论检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910133882.1A CN110162621B (zh) 2019-02-22 2019-02-22 分类模型训练方法、异常评论检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110162621A true CN110162621A (zh) 2019-08-23
CN110162621B CN110162621B (zh) 2023-05-23

Family

ID=67645389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910133882.1A Active CN110162621B (zh) 2019-02-22 2019-02-22 分类模型训练方法、异常评论检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110162621B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259985A (zh) * 2020-02-19 2020-06-09 腾讯科技(深圳)有限公司 基于业务安全的分类模型训练方法、装置和存储介质
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN112437051A (zh) * 2020-11-10 2021-03-02 平安普惠企业管理有限公司 网络风险检测模型负反馈训练方法、装置及计算机设备
CN112464103A (zh) * 2019-09-06 2021-03-09 北京达佳互联信息技术有限公司 业务处理方法、装置、服务器及存储介质
CN112784016A (zh) * 2021-01-27 2021-05-11 上海连尚网络科技有限公司 一种检测言论信息的方法与设备
CN112861002A (zh) * 2021-02-20 2021-05-28 昆山宝创新能源科技有限公司 充电站检测方法、装置、电子设备及存储介质
CN112905739A (zh) * 2021-02-05 2021-06-04 北京邮电大学 虚假评论检测模型训练方法、检测方法及电子设备
CN112905755A (zh) * 2020-09-11 2021-06-04 腾讯科技(深圳)有限公司 一种回复文本预测方法、装置、设备及存储介质
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113326702A (zh) * 2021-06-11 2021-08-31 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN113449170A (zh) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 异常账号识别方法及装置、存储介质、电子设备
CN113468332A (zh) * 2021-07-14 2021-10-01 广州华多网络科技有限公司 分类模型更新方法及其相应的装置、设备、介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171481A1 (en) * 2007-12-31 2009-07-02 Tai-Chuan Chiang Automated abnormal machine tracking and notifying system and method
US8073915B1 (en) * 2008-05-16 2011-12-06 Google Inc. Detection of chain-letters in user-generated comments for websites
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US20130204833A1 (en) * 2012-02-02 2013-08-08 Bo PANG Personalized recommendation of user comments
WO2014018630A1 (en) * 2012-07-24 2014-01-30 Webroot Inc. System and method to provide automatic classification of phishing sites
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
US20170140051A1 (en) * 2015-11-16 2017-05-18 Facebook, Inc. Ranking and Filtering Comments Based on Labelling
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN107832276A (zh) * 2017-10-19 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及设备
CN108009249A (zh) * 2017-12-01 2018-05-08 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法
CN108647225A (zh) * 2018-03-23 2018-10-12 浙江大学 一种电商黑灰产舆情自动挖掘方法和系统
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171481A1 (en) * 2007-12-31 2009-07-02 Tai-Chuan Chiang Automated abnormal machine tracking and notifying system and method
US8073915B1 (en) * 2008-05-16 2011-12-06 Google Inc. Detection of chain-letters in user-generated comments for websites
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US20130204833A1 (en) * 2012-02-02 2013-08-08 Bo PANG Personalized recommendation of user comments
WO2014018630A1 (en) * 2012-07-24 2014-01-30 Webroot Inc. System and method to provide automatic classification of phishing sites
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
US20170140051A1 (en) * 2015-11-16 2017-05-18 Facebook, Inc. Ranking and Filtering Comments Based on Labelling
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法
CN107832276A (zh) * 2017-10-19 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及设备
CN108009249A (zh) * 2017-12-01 2018-05-08 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法
CN108647225A (zh) * 2018-03-23 2018-10-12 浙江大学 一种电商黑灰产舆情自动挖掘方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTEN, P.等: "Automatic discovery of abnormal values in large textual databases", 《ACM JOURNAL OF DATA AND INFORMATION QUALITY》 *
任卓琳: "评论信息的无意义检测与异常检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
段旭磊: "微博文本处理及话题分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郭一方: "LBSN中虚假评论群体检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464103A (zh) * 2019-09-06 2021-03-09 北京达佳互联信息技术有限公司 业务处理方法、装置、服务器及存储介质
CN111259985A (zh) * 2020-02-19 2020-06-09 腾讯科技(深圳)有限公司 基于业务安全的分类模型训练方法、装置和存储介质
CN113449170A (zh) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 异常账号识别方法及装置、存储介质、电子设备
CN112905755A (zh) * 2020-09-11 2021-06-04 腾讯科技(深圳)有限公司 一种回复文本预测方法、装置、设备及存储介质
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN112437051A (zh) * 2020-11-10 2021-03-02 平安普惠企业管理有限公司 网络风险检测模型负反馈训练方法、装置及计算机设备
CN112437051B (zh) * 2020-11-10 2022-11-15 平安普惠企业管理有限公司 网络风险检测模型负反馈训练方法、装置及计算机设备
CN112784016A (zh) * 2021-01-27 2021-05-11 上海连尚网络科技有限公司 一种检测言论信息的方法与设备
CN112905739A (zh) * 2021-02-05 2021-06-04 北京邮电大学 虚假评论检测模型训练方法、检测方法及电子设备
CN112861002A (zh) * 2021-02-20 2021-05-28 昆山宝创新能源科技有限公司 充电站检测方法、装置、电子设备及存储介质
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113326702A (zh) * 2021-06-11 2021-08-31 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN113326702B (zh) * 2021-06-11 2024-02-20 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN113468332A (zh) * 2021-07-14 2021-10-01 广州华多网络科技有限公司 分类模型更新方法及其相应的装置、设备、介质

Also Published As

Publication number Publication date
CN110162621B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110162621A (zh) 分类模型训练方法、异常评论检测方法、装置及设备
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN110221965B (zh) 测试用例生成、测试方法、装置、设备及系统
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN108399180B (zh) 一种知识图谱构建方法、装置及服务器
CN108197285A (zh) 一种数据推荐方法以及装置
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN104751354B (zh) 一种广告人群筛选方法
CN103473036B (zh) 一种输入法皮肤推送方法及系统
CN110287788A (zh) 一种视频分类方法及装置
Alshehri et al. Think before your click: Data and models for adult content in arabic twitter
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN112258254A (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN109101505A (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN112100509B (zh) 信息推荐方法、装置、服务器和存储介质
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
Krokos et al. A look into twitter hashtag discovery and generation
CN112597309A (zh) 实时识别突发事件微博数据流的检测系统
CN116823410A (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN114048294B (zh) 相似人群扩展模型训练方法、相似人群扩展方法和装置
CN107577667B (zh) 一种实体词处理方法和装置
CN111553487B (zh) 一种业务对象识别方法及装置
CN108460475A (zh) 基于学生上网行为的贫困生预测方法和装置
CN114706899A (zh) 快递数据的敏感度计算方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant