CN110162620B - 黑产广告的检测方法、装置、服务器及存储介质 - Google Patents

黑产广告的检测方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110162620B
CN110162620B CN201910023513.7A CN201910023513A CN110162620B CN 110162620 B CN110162620 B CN 110162620B CN 201910023513 A CN201910023513 A CN 201910023513A CN 110162620 B CN110162620 B CN 110162620B
Authority
CN
China
Prior art keywords
word
text
detected
black
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910023513.7A
Other languages
English (en)
Other versions
CN110162620A (zh
Inventor
张琦
金欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910023513.7A priority Critical patent/CN110162620B/zh
Publication of CN110162620A publication Critical patent/CN110162620A/zh
Application granted granted Critical
Publication of CN110162620B publication Critical patent/CN110162620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种黑产广告的检测方法、装置、服务器及存储介质,属于信息安全领域。该方法包括:获取待检测文本;获取待检测文本的词特征,词特征用于表征文本在词语维度的特征,获取待检测文本的句特征,句特征用于表征文本在语句维度的特征;将词特征和句特征输入黑产广告分类模型,得到黑产广告分类模型输出的分类结果;根据分类结果确定待检测文本是否为黑产广告。由于词特征能够反映文本在词语维度的特征,而句特征能够反映文本在语句维度的特征,因此本申请实施例中综合词语维度和语句维度进行分类得到的分类结果更加准确,进而提高了黑产广告的检测准确率。

Description

黑产广告的检测方法、装置、服务器及存储介质
技术领域
本申请实施例涉及信息安全领域,尤其涉及一种黑产广告的检测方法、装置、服务器及存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的与互联网相关的黑色产业(简称“黑产”)业务应用而生,常见的黑产业务包括游戏代练和虚拟货币代充。
通常情况下,不法分子通过在社交平台或游戏应用内发布黑产广告来吸引用户。为了识别出不法分子发布的黑产广告,以便后续对黑产广告进行屏蔽等处理,服务器会对用户发布的文本进行黑产广告检测。相关技术中,服务器中预先设置有黑产关键词表,当检测到用户发布的文本中包括黑产关键词表中的黑产关键词时,服务器即将该信息确定为黑产广告。
黑产广告检测的全面性与黑产关键词表直接相关,为了躲避黑产广告检测,不法分子不断更新黑产词汇,而黑产关键词表的更新存在滞后性,导致黑产广告的检测效果不佳。
发明内容
本申请实施例提供了一种黑产广告的检测方法、装置、服务器及存储介质,可以解决相关技术基于黑产关键词表进行黑产广告检测时,黑产广告的检测效果不佳的问题。所述技术方案如下:
一方面,提供了一种黑产广告的检测方法,所述方法包括:
获取待检测文本;
获取所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
根据所述分类结果确定所述待检测文本是否为黑产广告。
另一方面,提供了一种黑产广告分类模型的训练方法,其特征在于,所述方法包括:
获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型,所述标注信息用于指示是否为黑产广告。
另一方面,提供了一种黑产广告的检测装置,所述装置包括:
文本获取模块,用于获取待检测文本;
第一特征获取模块,用于获取所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
第二特征获取模块,用于获取预所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
模型分类模块,用于将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
确定模块,用于根据所述分类结果确定所述待检测文本是否为黑产广告。
另一方面,提供了一种黑产广告分类模型的训练装置,所述装置包括:
样本获取模块,用于获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
第一训练模块,用于根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
第二训练模块,用于根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的黑产广告的检测方法,或者,实现上述方面所述的黑产广告分类模型的训练方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的黑产广告的检测方法,或者,实现上述方面所述的黑产广告分类模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
获取到待检测文本后,分别获取待检测文本的词特征和句特征,从而将词特征和句特征输入黑产广告分类模型中,进而根据黑产广告分类模型输出的分类结果确定待检测文本是否为黑产文本;由于词特征能够反映文本在词语维度的特征,而句特征能够反映文本在语句维度的特征,因此本申请实施例中综合词语维度和语句维度进行分类得到的分类结果更加准确,进而提高了黑产广告的检测准确率;并且黑产广告检测过程不依赖黑产关键词表,从而避免因黑产关键词表更新滞后造成的检测效果不佳的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个实施例提供的实施环境的示意图;
图2示出了本申请一个实施例提供的黑产广告的检测方法的方法流程图;
图3是黑产广告检测方法实施过程的界面示意图;
图4是本申请一个实施例提供的黑产广告的检测方法的原理示意图;
图5示出了本申请另一个实施例提供的黑产广告的检测方法的方法流程图;
图6是对游戏文本进行预处理后得到的黑产广告样例;
图7是图5所示黑产广告的检测方法的实施示意图;
图8示出了本申请一个实施例提供的黑产广告分类模型的训练方法的方法流程图;
图9是图8所示黑产广告分类模型的训练方法的实施示意图;
图10示出了本申请一个实施例提供的黑产广告的检测装置的框图;
图11示出了本申请一个实施例提供的黑产广告分类模型的训练装置的框图;
图12示出了本申请一个实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括至少一个终端120和服务器140。
终端120是具有信息发布功能的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端120是智能手机为例进行说明。
在一种可能的实施方式中,当终端120中安装有社交客户端时,终端120发布的信息可以是用户通过社交客户端发表在社交平台上的文章、评论、贴子、状态、个人说明等等,或者,也可以是用户通过社交客户端向其他用户发送的聊天消息;当终端120中安装有游戏客户端时,终端120发布的信息可以是用户通过游戏客户端在游戏公共会话系统中发表的公共会话信息,或者,也可以是向指定用户发送的私人会话信息;当终端120中安装有购物类客户端时,终端120发布的信息可以是用户通过购物客户端发布的商品信息。凡是经由服务器发送至其他客户端的信息都可以被视作终端发布的信息,本申请实施例并不对信息的具体类型进行限定。
服务器140与终端120之间通过有线或无线网络相连。
服务器140是一台服务器、若干台服务器构成的服务器集群或云计算中心。本申请实施例中,服务器140可以是终端120中应用程序的后台服务器,用于对将端120通过应用程序发布的信息推送给其他安装有该应用程序的终端,以便其他终端进行信息显示。
本申请实施例中的服务器140具有黑产广告检测功能。在一种可能的实施方式中,当接收到终端120发布的信息时,服务器140首先对该信息进行黑产广告检测,若检测结果为黑产广告,服务器140将拦截该信息,并禁止向其他终端推送该信息;若检测结果为正常信息,服务器140则将该信息推送至其他终端。
在其他可能的实施方式中,服务器140先将终端120发布的信息推送给其他终端,然后对信息进行黑产广告进行检测,并在检测结果为黑产广告时,对发布的信息进行撤回或屏蔽处理。
在一种可能的应用场景下,如图1所示,终端120中安装有游戏客户端,且用户可以通过游戏客户端的公共聊天系统向其他终端发送公共信息。服务器140接收到终端120发布的信息后,即对该信息进行黑产广告检测,并在检测到该信息为正常信息时,将该信息推送给其他终端进行显示。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本申请各个实施例提供的黑产广告的检测方法即由图1中的服务器140执行。
相关技术中,图1中的服务器基于预先构建的黑产关键词表进行黑产广告检测,其中,该黑产关键词表中包含预先设置的基础黑产关键词,以及基于基础黑产关键词从语料库中挖掘出的黑产近义词。
进行黑产广告检测时,服务器即检测文本中是否包含黑产关键词表中的黑产关键词,若包含,则确定该文本为黑产广告。举个简单的例子,终端发布的信息为“诚信代练,加:xxxxx”,服务器检测到该信息中包含黑产关键词表中的黑产关键词“代练”,进而将该信息确定为黑产广告。
然而,不法分子为了规避黑产广告检测,通过会将对黑产广告中的黑产词汇进行包装,比如,将黑产词汇替换为同音的其他词汇(例如将“代练”替换为“黛恋”),或者,在黑产词汇中添加干扰字符(例如在“代练”之间添加$字符)。对于这种情况,需要人工维护更新黑产关键词表。但是,由于黑产关键词表的更新存在滞后性(人工发现出现新的变种时,才会进行更新),且黑产关键词表无法覆盖所有的黑产关键词,导致黑产广告的检测结果不佳。
此外,由于单个词语无法表达出文本的完整含义,因此基于黑产关键词表进行黑产广告检测的误判概率较高。比如,对于文本“各种代练,上分真难!”,虽然其中包含黑产关键词“代练”,但是该文本实际上并不是黑产广告。
而本申请实施例中,服务器获取待检测文本后,从词语维度和语句维度出发,分别获取待检测文本在词语维度上的词特征,以及待检测文本在语句维度上的句特征,从而基于词特征和句特征进行黑产广告检测,整个检测过程并不依赖黑产关键词表,且综合不同维度的特征进行检测,能够避免从单一维度进行检测造成的片面性和局限性,进而提高黑产广告检测的准确性以及全面性。下面采用示意性的实施例进行说明。
请参考图2,其示出了本申请一个实施例提供的黑产广告的检测方法的方法流程图。本实施例以该方法应用于图1所示的服务器140为例进行说明,该方法可以包括以下几个步骤:
步骤201,获取待检测文本。
可选的,该待检测文本为终端向服务器发送的信息,且该信息由服务器发布到公共平台(任何其他终端都能够查看)或发送至指定终端(比如登陆有指定账号的客户端)。
可选的,该待检测文本为候选终端向服务器发送的信息,其中,该候选终端是预先筛选出的存在黑产广告发布风险的终端。比如,该候选终端是发布过黑产广告的终端。
不同的应用场景下,待检测文本的具体表现形式不同,其表现形式可以包括文章、博客、评论、个人状态、个人说明、聊天消息等等,本申请对此不做限定。
在一种可能的实施方式中,获取到待检测文本后,服务器通过下述步骤202至206确定待检测文本是否为黑产广告,并在待检测文本不是黑产广告时,将该待检测文本发布到公共平台或指定终端。
在另一种可能的实施方式中,由于进行黑产广告检测需要花费一定时间,且黑产广告所占的比例较少,因为为了保证信息发布的实时性,服务器进行黑产广告检测的同时,对待检测文本进行发布,并在得到黑产广告检测结果后,根据检测结果确定是否需要对已发布的待检测文本进行进一步处理。
服务器获取到待检测文本后,进一步通过下述步骤202和203提取待检测文本的在词语维度和语句维度上的特征。需要说明的是,步骤202和203之间不存在严格的先后时序,本实施例以步骤202与步骤203同步执行为例进行说明
步骤202,获取待检测文本的词特征,词特征用于表征文本在词语维度的特征。
在一种可能的实时方式中,服务器首先获取待检测文本中各个词语的词向量,进而基于各个词语的词向量得到待检测文本的词特征,相应的,该词特征即采用向量表示。
可选的,本申请实施例中的词特征包括词频、词重要度和词上下文环境。
步骤203,获取待检测文本的句特征,句特征用于表征文本在语句维度的特征。
单纯基于词特征进行黑产广告检测存在片面性,容易造成黑产广告误检测,因此,为了进一步提高检测准确性,服务器还需要从语句维度对待检测文本进行特征提取,得到待检测文本的句特征。在一种可能的实施方式中,为了便于后续模型分类,该句特征采用向量表示。
可选的,本申请实施例中的句特征包括句法结构特征和文本主题特征中的至少一种。
步骤204,将词特征和句特征输入黑产广告分类模型,得到黑产广告分类模型输出的分类结果。
可选的,黑产广告分类模型是预先根据样本语料训练得到的分类模型,用于根据输入的词特征和句特征输出正常文本以及黑产广告各自对应的概率。本申请实施例并不对分类模型的结构和类型进行限定。
示意性的,服务器获取到黑产广告分类模型输出的分类结果为:2%(正常文本),98%(黑产广告)。
步骤205,根据分类结果确定待检测文本是否为黑产广告。
在一种可能的实施方式中,服务器根据分类结果中正常文本以及黑产广告各自对应的概率,确定待检测文本是否为黑产广告。比如,结合步骤205中的示例,服务器确定待检测文本为黑产广告。
可选的,当确定待检测文本为黑产广告,且黑产广告已发布时,服务器对该黑产广告进行屏蔽、撤回等处理;当确定待检测文本为黑产广告,且黑产广告未发布时,服务器将不会发布该黑产广告。
可选的,确定待检测文本为黑产广告后,服务器进一步对发布该黑产广告的终端进行标记,以便后续对该终端对应的账号进行禁言、封号等处理。
综上所述,本申请实施例中,获取到待检测文本后,分别获取待检测文本的词特征和句特征,从而将词特征和句特征输入黑产广告分类模型中,进而根据黑产广告分类模型输出的分类结果确定待检测文本是否为黑产文本;由于词特征能够反映文本在词语维度的特征,而句特征能够反映文本在语句维度的特征,因此本申请实施例中综合词语维度和语句维度进行分类得到的分类结果更加准确,进而提高了黑产广告的检测准确率;并且黑产广告检测过程不依赖黑产关键词表,从而避免因黑产关键词表更新滞后造成的检测效果不佳的问题。
示意性的,如图3所示,不法分子使用第一终端31发布的信息首先被上传至服务器32,由服务器32对待检测文本(即发布的信息)进行黑产广告进行检测。当检测结果指示第一终端31发布黑产广告时,服务器32将停止向第二终端33发送该黑产广告,而是将检测结果发送个第二终端33,以便第二终端33显示相应的禁言信息331。
在一种可能的实施方式中,服务器中包含预先训练的用于提取词特征的词向量模型、用于提取句特征的文本向量模型和文本主题模型,以及黑产广告分类模型。示意性的,如图4所示,服务器接收到待检测文本41后,首先通过预处理组件42对待检测文本41进行预处理,然后分别将预处理后的待检测文本41输入词向量模型43、文本向量模型44以及文本主题模型45。词向量模型43对待检测文本41进行特征提取,得到待检测文本41对应的词特征46,文本向量模型44和文本主题模型45分别从句法结构特征和文本主题特征两个维度出发,提取待检测文本41对应的句特征47。进一步的,服务器将模型输出的词特征46和句特征47同时作为黑产广告分类模型48的输入,由黑产广告分类模型48输入待检测文本41的分类结果48,最终根据分类结果48确定待检测文本41是正常文本或黑产广告。
请参考图5,其示出了本申请另一个实施例提供的黑产广告的检测方法的方法流程图。本实施例以该方法应用于图1所示的服务器140为例进行说明,该方法可以包括以下几个步骤:
步骤501,获取待检测文本。
本步骤的实施方式可以参考上述步骤201,本实施例在此不再赘述。
步骤502,对待检测文本进行预处理,得到预处理后的待检测文本。
由于待检测文本中可能存在干扰黑产广告检测的元素,因此为了提高后续的检测质量,对于接收到的各条待检测文本,服务器首先对其进行预处理,得到预处理后的待检测文本。
在一种可能的实施方式中,预处理后的待检测文本是以空格分隔且顺序排列的字词组合。比如,服务器获取到的待检测文本为:十年老店,诚信代&练,加微%信xxxxx”,而经过预处理后的待检测文本为:[十年,老店,诚信,代练,加,微信]。
经过预处理后,服务器进一步通过下述步骤提取预处理后的待检测文本的在词语维度和语句维度上的特征。
由于文本质量直接影响到最终的检测效果,且不法分子会采用技术手段对黑产广告进行包装,因此服务器获取到待检测文本后,首先需要对待检测文本进行预处理,以得到高质量的待检测文本。
在一种可能的实施方式中,服务器对待检测文本的预处理方式包括繁体转简体、全角转半角、提醒字段替换、表情符替换、链接替换、去停用词、去指定语言字符、去自定义特殊字符、大小写转换、分词和去空格中的至少一种。示意性的,各种预处理方式及其示例如表一所示。
表一
其中,“null”表示删除字符或字段;指定语言为预设语种,比如日语、韩语等等,且服务器基于unicode编码识别指定语言的字符;进行去停用词时基于停用词表;分词时采用现有的分词工具(比如结巴分词工具)。
为了得到高质量的文本语料(即待检测文本),在一种可能的实施方式中,服务器通过表一所示的11种预处理方式,依次对待检测文本进行处理,最终得到预处理后的待检测文本。如图6所示,其是对多条游戏文本进行预处理后得到的黑产广告样例,可作为更容易识别和处理的待检测文本。
经过预处理后,服务器进一步通过下述步骤503至505提取待检测文本的词特征,通过下述步骤506至508提取待检测文本的句特征。
步骤503,将待检测文本输入词语-向量(word to vector,word2vec)模型,得到待检测文本中各个词语的词向量。
word2vec模型为图4中词向量模型43的一种表现形式。word2vec模型是一种浅层神经网络,用于将文本中的每个词映射成一个低维稠密向量,从而实现词语向量化。其中,不同长度的词语输入word2vec模型后,word2vec模型均输出指定长度的词向量,且不同词语对应词向量的向量距离(比如余弦距离)越接近,表明词语之间的语义越相近。
word2vec模型包括两种不同的网络结构模型:词袋模型(Continuous Bag-Of-Words,CBOW)和跳跃模型(Continuous Skip-gram)。可选的,本申请实施例中的word2vec模型采用Skip-gram模型,使得word2vec模型输出的词向量能够反映出词语在文本中的上下文环境。
在一个示意性的例子中,服务器将预处理后的待检测文本[十年,老店,诚信,代练,加,微信]输入word2vec模型,得到的词向量分别为:Va,Vb,Vc,Vd,Ve,Vf
步骤504,计算待检测文本中各个词语的词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)。
由于word2vec模型输出的词向量定长,而不同的待检测文本中包含的词语数量不同,因此如何根据各个词语对应的词向量得到待检测文本的词向量(定长)成为一个必须解决的问题。
传统的方法中,服务器对待检测文本中各个词语的词向量进行求和平均,从而得到待检测文本的词向量(与词向量的长度一致)。但是这种方法中并未考虑各个词语在文本中的重要程度。
本申请实施例中,服务器在各个词向量的基础上,结合词语在待检测文本中的词频以及词语重要程度,确定待检测文本的词向量。其中,词语在待检测文本中的词频以及词语重要程度采用TF-IDF表示。
词频(Term Frequency,TF)是指词语在文本中出现的频次,TF=(词语在文本中出现的次数/文本的总词数)。
逆文档频率(Inverse Document Frequency,IDF)是一种对词语重要程度的度量,如果包含某一词语的文本越少,则该词语对于文本的重要程度越高。比如,词语的IDF=log(文本集合中文本总数/(包含词语的文本+1))。
在一种可能的实施方式中,计算各词语的TF-IDF时可以包括如下步骤:
一、获取文本集合,文本集合中包含在待检测文本之前预定时长内接收到的文本。
由于在计算词语的IDF时需要获取当前文本中的词语在其他文本中的出现次数,因此服务器需要获取包含若干文本的文本集合。在一种可能的实施方式中,该文本集合即为服务器在接收到待检测文本之前预定时长内接收到的文本,其中,该文本集合中的文本经过预处理。比如,服务器在15:05:00接收到待检测文本,从而获取15:00:00至15:05:00这一时间区间内接收到的10000条文本。
二、根据文本集合中的文本,计算待检测文本中各个词语的TF-IDF。
进一步的,服务器根据待检测文本以及文本集合中的文本,计算待检测文本中各个词语的TF-IDF,其中,各个词语的TF-IDF计算公式如下:
w表示文本中的词语,Di表示文本集合中第i个文本,|Di|表示文本Di中词语的数量,N表示文本集合中的文本数量,count(w)表示词语w在文本Di中的数量,I(w,Di)表示文本Di中是否包含词语w,若包含则为1,不包含则为0。
步骤505,根据各个词语的词向量和TF-IDF,计算待检测文本对应的加权词向量,并将加权词向量确定为词特征。
可选的,服务器根据各个词语对应TF-IDF,确定各个词语在待检测文本中的词语权重,从而根据词向量及其对应的词语权重,计算待检测文本对应的加权词向量。其中,词语权重与TF-IDF呈正相关关系,即词语在文本中的重要程度越高,其词语权重越大。
在一种可能的实施方式中,本步骤可以包括如下步骤:
一、对待检测文本中各个词语的TF-IDF进行回归处理,得到各个词语的词语权重,0<词语权重<1,且待检测文本中各个词语的词语权重之和为1。
为了将待检测文本中各个词语对应的词语权重进行归一化,服务器首先对各个词语的TF-IDF进行回归处理,得到各个词语的词语权重。
可选的,服务器通过softmax回归函数对各个词语的TF-IDF进行处理,从而得到相应的词语权重。其中,该softmax回归函数可以如下:
其中,N为词语个数,softmax(i)为文本中第i个词语的词语权重。
当然,服务器还可以采用其他的归一化方式得到词语的词语权重,本实施例并不对此构成限定。
二、根据各个词语的词向量和词语权重,加权计算待检测文本对应的加权词向量。
进一步的,服务器根据各个词语的词向量及其词语权重,加权计算得到加权词向量,加权词向量的计算公式如下:
Vweight=∑softmax(tf-idfw,Di)×Vw
其中,softmax(tf-idfw,Di)表示文本Di中词语w的词语权重,Vw表示词语w的词向量。
在一个示意性的例子中,待检测文本[十年,老店,诚信,代练,加,微信]中各个词语的词向量分别为:Va,Vb,Vc,Vd,Ve,Vf,且各个词语的词语权重分别为Weighta,Weightb,Weightc,Weightd,Weighte,Weightf,则待检测文本对应的加权词向量为Va×Weighta+Vb×Weightb+Vc×Weightc+Vd×Weightd+Ve×Weighte+Vf×Weightf
采用上述方式计算得到的加权词向量,同时关注了待检测文本中词语的词频、词语重要程度以及词上下文环境,且向量维度低且稠密,有利于提高后分类的效果。
步骤506,将待检测文本输入文本-向量(document to vector,doc2vec)模型,得到doc2vec模型输出的文本向量。
无论如何将词语的词向量升级为文本的词向量,其始终属于词层面,无法反映出文本在语句层面的特征,因此,本申请实施例中通过doc2vec模型和LDA文本主题模型提取待检测文本在语句层面的句特征。
doc2vec模型为图4中文本向量模型44的一种表现形式。doc2vec模型是一种将语句、段落或文档转化为低维稠密向量的模型,而将检测文本输入doc2vec模型后得到的文本向量(或称为句向量或段落向量)用于表征待检测文本的句法结构特征。其中,不同长度的文本输入word2vec模型后,word2vec模型均输出指定长度的文本向量。
在一种可能的实施方式中,该doc2vec模型基于句向量的分布记忆模型(Distributed Memory Model of Paragraph Vectors,PV-DM)以及句向量的分布词袋(Continuous Bag-Of-Words of Paragraph Vectors,PV-DBOW)。
步骤507,将待检测文本输入隐狄利克雷分配(Latent Dirichlet Allocation,LDA)文本主题模型,得到LDA文本主题模型输出主题向量。
LDA文本主题模型为图4中文本主题模型45的一种表现形式。LDA模拟了文章写作时的思维逻辑:以一定的概率在给定的主题中确定若干个主题,然后在确定出的若干个主题下,以一定的概率在给定的词语集中选取若干个词语,并通过不断重复形成一片文章。相应的,LDA文本主题模型是一种预测文本(文章)主题概率分布的模型
可选的,在本申请实施例中,主题向量用于表征待检测文本在各个预设文本主题上的概率分布情况,用于反映待检测文本的文本主题。其中,预设文本主题在模型训练过程中由设计人员预先设置。
需要说明的是,上述步骤506和507不存在严格的先后时序,本实施例以步骤506和507同步执行为例进行说明,并不对此构成限定。
步骤508,将文本向量和主题向量确定为句特征。
通过上述步骤506和507,服务器得到待检测文本在语句维度的文本向量和主题向量,进而将文本向量和主题向量确定为待检测文本的句特征。
需要说明的是,本实施例仅以句特征中同时包含文本向量和主题向量为例进行示意性说明,在其他可能的实施方式中句特征可以仅包含文本向量和主题向量中的一种,或者包含还包含除文本向量和主题向量以外其他反应语句维度特征的向量,本申请实施例并不对此构成限定。
步骤509,将词特征对应的向量以及句特征对应的向量连接,生成待检测文本对应的目标特征向量。
在一种可能的实施方式中,服务器将加权词向量、文本向量以及主题向量进行连接(concat),从而生成待检测文本的目标特征向量。
由于目标特征向量融合了加权词向量、文本向量以及主题向量,因此其能够从词频、词语重要程度、词上下文环境、文本句法结构、文本主题这些方面反映待检测文本的特征。
步骤510,将目标特征向量输入黑产广告分类模型,得到分类结果,分类结果中包含正常文本以及黑产广告各自对应的概率。
在一种可能的实施方式中,黑产广告分类模型基于极端梯度增强(eXtremeGradient Boosting,XGBoost)模型和逻辑回归(Logistic Regression,LR)模型构建,其分类效果相较于单纯的XGBoost模型和LR模型更优。
当然,该黑产广告分类模型也可以基于softmax分类模型构建,本实施例对此不做限定。
由于目标特征向量的特征丰富,因此黑产广告分类模型输出的分类结果的准确性更高。
步骤511,若分类结果中黑产广告对应的概率高于第一概率阈值,则确定待检测文本为黑产广告。
在一种可能的实施方式中,为了减少误判,服务器检测分类结果中黑产广告对应的概率是否高于第一概率阈值,若高于第一概率阈值,则确定待检测文本为黑产广告;若小于第一概率阈值,则确定待检测文本为疑似黑产广告,并进一步通过人工检测的方式对疑似黑产广告进行处理。
比如,当第一概率阈值为80%,且分类结果中黑产广告对应的概率为90%时,服务器确定待检测文本为黑产广告。
在其他可能的实施方式中,当分类结果中正常文本对应的概率高于第一概率阈值,则确定待检测文本为正常文本。
步骤512,若分类结果中黑产广告对应的概率高于第二概率阈值,且低于第一概率阈值,则将待检测文本发送至人工检测平台,人工检测平台用于对待检测文本进行人工黑产广告检测。
可选的,服务器通过网络与人工检测平台相连,用于将疑似黑产广告发送至人工检测平台进行人工检测。
在一种可能的实施方式中,当分类结果中黑产广告对应的概率高于第二概率阈值(比如50%),且低于第一概率阈值(比如80%)时,服务器将该待检测文本发送至人工检测平台。
步骤513,接收人工检测平台发送的检测结果。
待检测文本在人工检测平台经过人工检测后,人工检测平台将检测结果反馈给服务器,以便服务器根据该检测结果对待检测文本进行相应处理,从而避免将正常文本误判为黑产广告。
本实施例中,在计算待检测文本的词向量时,首先根据待检测文本中各个词语的TF-IDF计算各个词语的词语权重,从而基于各个词语的词向量以及词语权重,加权计算得到待检测文本的词向量,使得计算得到的词向量融入了词频、词语重要程度以及词上下文环境特征,以此提高后续分类的准确性。
另外,本实施例中,服务器获取表征句法结构的文本向量以及表征文本主题结果的主题向量,从而融合词向量、文本向量和主题向量进行分类,进一步提高了分类结果的准确性。
在一个示意性的实施例中,如图7所示,服务器获取到待检测文本71后,首先对待检测文本71进行预处理,得到预处理后的待检测文本71中包含词语a、b、c、d、e、f。终端将各个词语输入word2vec模型72,得到各个词语对应的词向量,分别为Va,Vb,Vc,Vd,Ve和Vf,并通过TF-IDF计算得到各个词语对应的权重,分别为Weighta,Weightb,Weightc,Weightd,Weighte和Weightf。进一步的,服务器根据各个词语对应的词向量以及权重,加权计算得到待检测文本71对应的加权词向量721。
在计算加权词向量的同时,服务器将预处理后的待检测文本71分别输入doc2vec模型73和LDA文本主题模型74,得到待检测文本71的文本向量731以及主题向量741。
进一步的,服务器对加权词向量721、文本向量731以及主题向量741进行连接(concat),得到待检测文本71对应的目标特征向量75,并将该目标特征向量75输入训练好的黑产广告分类模型76中,由黑产广告分类模型76输出分类结果。当分类结果指示待检测文本71为黑产广告时,服务器撤回待检测文本71,并向终端发送相应的禁言信息77。
通过上述实施例提供的检测方法进行黑产广告检测之前,服务器首先需要通过大量样本语料训练词特征提取模型(如图4中的词向量模型43)、句特征提取模型(如图4中的文本向量模型44、文本主题模型45)以及黑产广告分类模型48。
请参考图8,其示出了本申请一个实施例提供的黑产广告分类模型的训练方法的方法流程图。本实施例以该方法应用于图1所示的服务器140为例进行说明,该方法可以包括以下几个步骤:
步骤801,获取样本语料,样本语料中包括未经过标注的第一样本语料以及经过标注的第二样本语料。
可选的,第二样本语料包含标注信息(人工标注正常文本或黑产广告)以及文本主题信息(用于后续训练文本主题模型)。
可选的,第一样本语料是覆盖各领域的语料,第二样本语料是与黑产广告所属领域的语料。
示意性的,如图9所示,针对游戏领域中的黑产广告检测,服务器通过网络爬虫从网络中爬取各领域的语料作为第一样本语料901;获取游戏领域中的语料,并通过人工标注的方式,得到第二样本语料902。
需要说明的是,获取到的样本语料需要经过预处理,预处理方式可以参考上述实施例,本实施例在此不再赘述。示意性的,如图9所示,第一样本语料901和第二样本语料902均经过预处理组件903的预处理。
步骤802,根据样本语料训练词特征提取模型和句特征提取模型,词特征提取模型用于提取语料在词语维度的词特征,句特征提取模型用于提取语料在语句维度的句特征。
由于进行黑产广告检测时,需要分别提取文本的词特征以及句特征,因此,在模型训练阶段,服务器根据获取到的样本语料,分别训练词特征提取模型和句特征提取模型。在一种可能的实施方式中,本步骤可以包括如下步骤。
一、根据第一样本语料和第二样本语料训练词特征提取模型,词特征提取模型包括word2vec模型。
由于计算文本的词向量时,需要使用到词向量模型将词语转化为词向量,而不同文本中词语的词向量共享,因此,为了提高词向量模型的模型质量,服务器根据第一样本语料和第二样本语料训练词特征提取模型(比如word2vec模型)。
由于后续计算文本的词向量时,需要使用到词语的词语权重,而该词语权重是根据词语的TF-IDF归一化得到,因此,在训练词向量模型时,还需要计算第二样本语料中,各条样本语料中各个词语的TF-IDF,并对TF-IDF进行回归处理。
示意性的,如图9所示,服务器根据预处理后的第一样本语料901以及第二样本语料902训练word2vec模型904;同时,服务器根据预处理后的第二样本语料902计算样本语料中各个词语的TF-IDF 905,并通过softmax回归函数906对同一样本语料中的对TF-IDF 905进行归一化处理,得到样本语料中各个词语的词语权重。
二、根据第二样本语料训练句特征提取模型,句特征提取模型包括doc2vec模型和/或LDA文本主题模型。
可选的,在训练词向量模型的同时,服务器根据第二样本语料训练文本向量模型(比如doc2vec模型)以及文本主题模型(比如LDA文本主题模型)。
其中,在训练文本主题模型时,服务器可以根据文本主题模型输出的主题分布概率以及第二样本语料中的文本主题信息,采用反向传播算法训练文本主题模型,本实施例对训练文本主题模型的具体方式不做限定。
示意性的,如图9所示,服务器利用预处理后的第二样本语料902训练doc2vec模型908以及LDA文本主题模型909。
步骤803,根据词特征提取模型输出的样本词特征、句特征提取模型输出的样本句特征以及第二样本语料对应的标注信息,训练黑产广告分类模型,标注信息用于指示是否为黑产广告。
对于各条第二样本语料,由于其包含对应的标注信息,因此服务器可以基于上述步骤训练到的词特征提取模型以及句特征提取模型对第二样本语料进行特征提取,并基于提取到的特征进行预测,从而根据预测结果和标注信息训练黑产广告分类模型。
在一种可能的实施方式中,本步骤可以包括如下步骤。
一,对于第二样本语料中的目标样本语料,将目标样本语料输入词特征提取模型,得到目标样本语料的样本词特征。
其中,目标样本语料可以是第二样本语料中任意一条语料。
在一种可能的实施方式中,服务器将目标样本语料输入词特征提取模型,得到各个词的词特征,并获取目标样本语料中各个词的词语权重,从而根据各个词的词特征以及词语权重计算得到目标样本语料的样本词特征。
示意性的,如图9所示,服务器根据word2vec模型904输出的词向量(目标样本语料中各个词语的词向量)以及词语权重计算得到目标样本语料的加权词向量907(即样本词特征)。
二,将目标样本语料输入句特征提取模型,得到目标样本语料的样本句特征。
在一种可能的实施方式中,当句特征提取模型中包含至少两种模型时,服务器分别将目标样本语料输入至少两种模型,并对至少两种模型输出的特征作为样本句特征。
示意性的,如图9所示,服务器将目标样本语料输入doc2vec模型908,得到样本语料的文本向量910,将目标样本语料输入LDA文本主题模型909,得到样本语料的主题向量911。
需要说明的是,上述步骤一和二之间不存在严格先后关系,本实施例以两者同时执行为例进行示意性说明,但并不对此构成限定。
三,将拼接后的样本词特征和样本句特征输入黑产广告分类模型,得到样本分类结果。
进一步的,服务器对样本词特征和样本句特征进行拼接,从而将拼接后的特征输入原始的黑产广告分类模型,得到黑产广告分类模型输出的样本分类结果。
在一种可能的实施方式中,黑产广告分类模型基于极端梯度增强XGBoost模型和LR模型构建,其分类效果相较于单纯的XGBoost模型和LR模型更优。当然,该黑产广告分类模型也可以基于softmax分类模型构建,本实施例对此不做限定。
示意性的,如图9所示,服务器将加权词向量907、文本向量910以及主题向量911连接,从而根据连接后的向量输入XGBoost+LR模型912(即黑产广告分类模型)
四,根据样本分类结果以及目标样本语料对应的标注信息,通过梯度下降算法训练黑产广告分类模型。
进一步的,服务器通过梯度下降算法对黑产广告分类模型中的模型参数进行调整,使得样本分类结果趋近于目标样本语料对应的标注信息,从而达到训练黑产广告分类模型的效果。其中,梯度下降算法包括批量梯度下降算法、随机梯度下降算法和小批量梯度下降算法中的至少一种。
在其他可能的实施方式中,服务器还可以采用其他算法训练黑产广告分类模型,比如最小二乘法、牛顿法、拟牛顿法、反向传播算法等等,本实施例在此不再赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的黑产广告的检测装置的框图。该装置具有执行上述方法示例的功能,功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:
文本获取模块1001,用于获取待检测文本;
第一特征获取模块1002,用于获取所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
第二特征获取模块1003,用于获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
模型分类模块1004,用于将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
确定模块1005,用于根据所述分类结果确定所述待检测文本是否为黑产广告。
可选的,所述第一特征获取模块1002,包括:
词向量获取单元,用于将所述待检测文本输入词语-向量word2vec模型,得到所述待检测文本中各个词语的词向量;
第一计算单元,用于计算所述待检测文本中各个词语的词频-逆文档频率TF-IDF;
第二计算单元,用于根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,并将所述加权词向量确定为所述词特征。
可选的,所述第二计算单元,用于:
对所述待检测文本中各个词语的所述TF-IDF进行回归处理,得到各个词语的词语权重,所述词语权重的取值介于0到1之间,且所述待检测文本中各个词语的词语权重之和为1;
根据各个词语的所述词向量和所述词语权重,加权计算所述待检测文本对应的所述加权词向量。
可选的,所述第一计算单元,用于:
获取文本集合,所述文本集合中包含在所述待检测文本之前预定时长内接收到的文本;
根据所述文本集合中的文本,计算所述待检测文本中各个词语的所述TF-IDF。
可选的,所述第二特征获取模块1003,包括:
文本向量获取单元,用于将所述待检测文本输入文本-向量doc2vec模型,得到所述doc2vec模型输出的文本向量,所述文本向量用于表征所述待检测文本的句法结构特征;和/或,
主题向量获取单元,用于将所述待检测文本输入隐狄利克雷分配LDA文本主题模型,得到所述LDA文本主题模型输出主题向量,所述主题向量用于表征所述待检测文本在各个预设文本主题上的概率分布情况;
句特征确定单元,用于将所述文本向量和/或所述主题向量确定为所述句特征。
可选的,所述词特征和所述句特征采用向量表示;
所述模型分类模块1004,包括:
向量连接单元,用于将所述词特征对应的向量以及所述句特征对应的向量连接,生成所述待检测文本对应的目标特征向量;
分类单元,用于将所述目标特征向量输入所述黑产广告分类模型,得到所述分类结果,所述分类结果中包含正常文本以及黑产广告各自对应的概率,所述黑产广告分类模型基于极端梯度增强XGBoost模型和逻辑回归LR模型构建;
所述确定模块1005,用于:
若所述分类结果中黑产广告对应的概率高于第一概率阈值,则确定所述待检测文本为黑产广告。
可选的,所述确定模块1005,还用于:
若所述分类结果中黑产广告对应的概率高于第二概率阈值,且低于所述第一概率阈值,则将所述待检测文本发送至人工检测平台,所述人工检测平台用于对所述待检测文本进行人工黑产广告检测;
接收所述人工检测平台发送的检测结果。
可选的,所述装置还包括:
预处理模块,用于对所述待检测文本进行预处理,得到预处理后的所述待检测文本,预处理方式包括繁体转简体、全角转半角、提醒字段替换、表情符替换、链接替换、去停用词、去指定语言字符、去自定义特殊字符、大小写转换、分词和去空格中的至少一种。
综上所述,本申请实施例中,获取到待检测文本后,分别获取待检测文本的词特征和句特征,从而将词特征和句特征输入黑产广告分类模型中,进而根据黑产广告分类模型输出的分类结果确定待检测文本是否为黑产文本;由于词特征能够反映文本在词语维度的特征,而句特征能够反映文本在语句维度的特征,因此本申请实施例中综合词语维度和语句维度进行分类得到的分类结果更加准确,进而提高了黑产广告的检测准确率;并且黑产广告检测过程不依赖黑产关键词表,从而避免因黑产关键词表更新滞后造成的检测效果不佳的问题。
请参考图11,其示出了本申请一个实施例提供的黑产广告分类模型的训练装置的框图。该装置具有执行上述方法示例的功能,功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:
样本获取模块1101,用于获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
第一训练模块1102,用于根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
第二训练模块1103,用于根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型。
可选的,所述第一训练模块1102,包括:
第一训练单元,用于根据所述第一样本语料和所述第二样本语料训练所述词特征提取模型;
第二训练单元,用于根据所述第二样本语料训练所述句特征提取模型;
其中,所述词特征提取模型包括词语-向量word2vec模型,所述句特征提取模型包括文本-向量doc2vec模型和/或隐狄利克雷分配LDA文本主题模型。
可选的,所述第二训练模块1103,包括:
第一输入单元,用于对于所述第二样本语料中的目标样本语料,将所述目标样本语料输入所述词特征提取模型,得到目标样本语料的所述样本词特征;
第二输入单元,用于将所述目标样本语料输入所述句特征提取模型,得到所述目标样本语料的所述样本句特征;
预测单元,用于将拼接后的所述样本词特征和所述样本句特征输入所述黑产广告分类模型,得到样本分类结果;
第三训练单元,用于根据所述样本分类结果以及所述目标样本语料对应的所述标注信息,通过梯度下降算法训练所述黑产广告分类模型。
请参考图12,其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例提供的黑产广告的检测方法,或者,实施上述实施例提供的黑产广告分类模型的训练方法。具体来讲:
所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请的各种实施例,所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统。
所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述黑产广告的检测方法中各个步骤的功能,或者,实现上述黑产广告分类模型的训练方法中各个步骤的功能。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的黑产广告的检测方法,或者,实现上述黑产广告分类模型的训练方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

Claims (14)

1.一种黑产广告的检测方法,其特征在于,所述方法包括:
获取待检测文本;
将所述待检测文本输入词语-向量word2vec模型,得到所述待检测文本中各个词语的词向量;
计算所述待检测文本中各个词语的词频-逆文档频率TF-IDF;
根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,并将所述加权词向量确定为所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
根据所述分类结果确定所述待检测文本是否为黑产广告。
2.根据权利要求1所述的方法,其特征在于,所述根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,包括:
对所述待检测文本中各个词语的所述TF-IDF进行回归处理,得到各个词语的词语权重,所述词语权重的取值介于0到1之间,且所述待检测文本中各个词语的词语权重之和为1;
根据各个词语的所述词向量和所述词语权重,加权计算所述待检测文本对应的所述加权词向量。
3.根据权利要求1所述的方法,其特征在于,所述计算所述待检测文本中各个词语的TF-IDF,包括:
获取文本集合,所述文本集合中包含在所述待检测文本之前预定时长内接收到的文本;
根据所述文本集合中的文本,计算所述待检测文本中各个词语的所述TF-IDF。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取所述待检测文本的句特征,包括:
将所述待检测文本输入文本-向量doc2vec模型,得到所述doc2vec模型输出的文本向量,所述文本向量用于表征所述待检测文本的句法结构特征;和/或,
将所述待检测文本输入隐狄利克雷分配LDA文本主题模型,得到所述LDA文本主题模型输出主题向量,所述主题向量用于表征所述待检测文本在各个预设文本主题上的概率分布情况;
将所述文本向量和/或所述主题向量确定为所述句特征。
5.根据权利要求1至3任一所述的方法,其特征在于,所述词特征和所述句特征采用向量表示;
所述将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果,包括:
将所述词特征对应的向量以及所述句特征对应的向量连接,生成所述待检测文本对应的目标特征向量;
将所述目标特征向量输入所述黑产广告分类模型,得到所述分类结果,所述分类结果中包含正常文本以及黑产广告各自对应的概率,所述黑产广告分类模型基于极端梯度增强XGBoost模型和逻辑回归LR模型构建;
所述根据所述分类结果确定所述待检测文本是否为黑产广告,包括:
若所述分类结果中黑产广告对应的概率高于第一概率阈值,则确定所述待检测文本为黑产广告。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分类结果确定所述待检测文本是否为黑产广告,还包括:
若所述分类结果中黑产广告对应的概率高于第二概率阈值,且低于所述第一概率阈值,则将所述待检测文本发送至人工检测平台,所述人工检测平台用于对所述待检测文本进行人工黑产广告检测;
接收所述人工检测平台发送的检测结果。
7.根据权利要求1至3任一所述的方法,其特征在于,所述获取待检测文本之后,所述方法还包括:
对所述待检测文本进行预处理,得到预处理后的所述待检测文本,预处理方式包括繁体转简体、全角转半角、提醒字段替换、表情符替换、链接替换、去停用词、去指定语言字符、去自定义特殊字符、大小写转换、分词和去空格中的至少一种。
8.一种黑产广告分类模型的训练方法,其特征在于,所述方法包括:
获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型,所述标注信息用于指示是否为黑产广告,所述样本词特征是由所述词特征提取模型基于所述第二样本语料中各个词语的词向量,以及所述第二样本语料中各个词语的词频-逆文档频率TF-IDF,计算得到的加权词向量,所述词向量由所述词特征提取模型中的词语-向量word2vec模型输出。
9.根据权利要求8所述的方法,其特征在于,所述根据所述样本语料训练词特征提取模型和句特征提取模型,包括:
根据所述第一样本语料和所述第二样本语料训练所述词特征提取模型;
根据所述第二样本语料训练所述句特征提取模型;
其中,所述句特征提取模型包括文本-向量doc2vec模型和/或隐狄利克雷分配LDA文本主题模型。
10.根据权利要求8或9所述的方法,其特征在于,所述根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型,包括:
对于所述第二样本语料中的目标样本语料,将所述目标样本语料输入所述词特征提取模型,得到目标样本语料的所述样本词特征;
将所述目标样本语料输入所述句特征提取模型,得到所述目标样本语料的所述样本句特征;
将拼接后的所述样本词特征和所述样本句特征输入所述黑产广告分类模型,得到样本分类结果;
根据所述样本分类结果以及所述目标样本语料对应的所述标注信息,通过梯度下降算法训练所述黑产广告分类模型。
11.一种黑产广告的检测装置,其特征在于,所述装置包括:
文本获取模块,用于获取待检测文本;
第一特征获取模块,用于将所述待检测文本输入词语-向量word2vec模型,得到所述待检测文本中各个词语的词向量;计算所述待检测文本中各个词语的词频-逆文档频率TF-IDF;根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,并将所述加权词向量确定为所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
第二特征获取模块,用于获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
模型分类模块,用于将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
确定模块,用于根据所述分类结果确定所述待检测文本是否为黑产广告。
12.一种黑产广告分类模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
第一训练模块,用于根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
第二训练模块,用于根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型,所述样本词特征是由所述词特征提取模型基于所述第二样本语料中各个词语的词向量,以及所述第二样本语料中各个词语的词频-逆文档频率TF-IDF,计算得到的加权词向量,所述词向量由所述词特征提取模型中的词语-向量word2vec模型输出。
13.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的黑产广告的检测方法,或者,实现如权利要求8至10任一所述的黑产广告分类模型的训练方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行以实现如权利要求1至7任一所述的黑产广告的检测方法,或者,实现如权利要求8至10任一所述的黑产广告分类模型的训练方法。
CN201910023513.7A 2019-01-10 2019-01-10 黑产广告的检测方法、装置、服务器及存储介质 Active CN110162620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023513.7A CN110162620B (zh) 2019-01-10 2019-01-10 黑产广告的检测方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023513.7A CN110162620B (zh) 2019-01-10 2019-01-10 黑产广告的检测方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110162620A CN110162620A (zh) 2019-08-23
CN110162620B true CN110162620B (zh) 2023-08-18

Family

ID=67644845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023513.7A Active CN110162620B (zh) 2019-01-10 2019-01-10 黑产广告的检测方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110162620B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191139A (zh) * 2020-01-02 2020-05-22 湖南映客互娱网络信息有限公司 一种基于特征模型的刷子检测方法与系统
CN111277488B (zh) * 2020-01-19 2022-09-23 上海掌门科技有限公司 会话处理方法和装置
CN113157901B (zh) * 2020-01-22 2024-02-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN112184318B (zh) * 2020-09-30 2024-08-20 北京嘉乔网络科技有限公司 一种广告发布方法及装置
CN112508432B (zh) * 2020-12-15 2024-08-02 百度国际科技(深圳)有限公司 广告潜在风险检测方法及装置、电子设备、介质和产品
CN112668889A (zh) * 2020-12-30 2021-04-16 上海掌门科技有限公司 风险用户探测方法、设备及存储介质
CN113052632B (zh) * 2021-03-25 2024-05-17 北京沃东天骏信息技术有限公司 一种广告流量数据的识别方法、装置、设备及存储介质
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及系统
CN113377956A (zh) * 2021-06-11 2021-09-10 中国工商银行股份有限公司 用于预测黑产攻击趋势的方法、装置、电子设备及介质
CN113449109A (zh) * 2021-07-06 2021-09-28 广州华多网络科技有限公司 安全类别标签检测方法、装置、计算机设备及存储介质
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN115994217B (zh) * 2022-11-29 2024-01-23 南京审计大学 一种财务报告舞弊检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699844A (zh) * 2015-03-31 2015-06-10 北京奇艺世纪科技有限公司 为广告确定视频标签的方法及装置
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
CN108804595A (zh) * 2018-05-28 2018-11-13 中山大学 一种基于word2vec的短文本表示方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239865A1 (en) * 2013-10-28 2016-08-18 Tencent Technology (Shenzhen) Company Limited Method and device for advertisement classification
US10073830B2 (en) * 2014-01-10 2018-09-11 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699844A (zh) * 2015-03-31 2015-06-10 北京奇艺世纪科技有限公司 为广告确定视频标签的方法及装置
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
CN108804595A (zh) * 2018-05-28 2018-11-13 中山大学 一种基于word2vec的短文本表示方法
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于隐含狄列克雷分配分类特征扩展的微博广告过滤方法;邢金彪;崔超远;孙丙宇;宋良图;;计算机应用(第08期) *

Also Published As

Publication number Publication date
CN110162620A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162620B (zh) 黑产广告的检测方法、装置、服务器及存储介质
CN111897970B (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
Bhowmik et al. Bangla text sentiment analysis using supervised machine learning with extended lexicon dictionary
JP6661790B2 (ja) テキストタイプを識別する方法、装置及びデバイス
JP2019519019A5 (zh)
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
Tyagi et al. Sentiment analysis of product reviews using support vector machine learning algorithm
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
US20210004602A1 (en) Method and apparatus for determining (raw) video materials for news
CN110555109A (zh) 基于个人计算机电商评论的多粒度观点挖掘方法
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
Prachi et al. Detection of Fake News Using Machine Learning and Natural Language Processing Algorithms [J]
CN112052424A (zh) 一种内容审核方法及装置
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN112686035B (zh) 一种未登录词进行向量化的方法和装置
Choi et al. Fake review identification and utility evaluation model using machine learning
CN112307738B (zh) 用于处理文本的方法和装置
Sharma et al. Lfwe: Linguistic feature based word embedding for hindi fake news detection
Crabb et al. Reading between the lines: a prototype model for detecting Twitter sockpuppet accounts using language-agnostic processes
Hung et al. Aafndl-an accurate fake information recognition model using deep learning for the vietnamese language
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
Ong et al. A comparative study of extractive summary algorithms using natural language processing
Kavitha et al. An intelligent metaheuristic optimization with deep convolutional recurrent neural network enabled sarcasm detection and classification model
Kalra et al. Impact of Transformer-Based Models and User Clustering in Early Fake News Detection in Social Media.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant