CN113379444A - 一种广告检测方法、设备、系统及计算机可读存储介质 - Google Patents
一种广告检测方法、设备、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113379444A CN113379444A CN202110523038.7A CN202110523038A CN113379444A CN 113379444 A CN113379444 A CN 113379444A CN 202110523038 A CN202110523038 A CN 202110523038A CN 113379444 A CN113379444 A CN 113379444A
- Authority
- CN
- China
- Prior art keywords
- advertisement
- detected
- risk
- detection
- determining whether
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 268
- 238000000034 method Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 230000002457 bidirectional effect Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000020095 red wine Nutrition 0.000 description 2
- 229920000877 Melamine resin Polymers 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- JDSHMPZPIAZGSV-UHFFFAOYSA-N melamine Chemical compound NC1=NC(N)=NC(N)=N1 JDSHMPZPIAZGSV-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种广告检测方法,该方法包括:获取待检测广告,并确定待检测广告的属性参数;基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。本申请实施例还公开了一种广告检测设备、系统及计算机可读存储介质。
Description
技术领域
本申请涉及数据处理领域的广告检测技术,尤其涉及一种广告检测方法、设备、系统及计算机可读存储介质。
背景技术
随着电子商务的发展,无论是广告投放的种类还是数量都急剧增加,对将要投放的广告进行风险检测来确定广告是否可以投放变得尤为重要。
目前,对广告进行风险检测主要是通过人工依照经验进行审核以判断广告是否存在风险;但是,随着线上投放广告数量的增多,通过人工对广告进行风险检测效率较低且准确率不高。
发明内容
为解决上述技术问题,本申请实施例期望提供一种广告检测方法、设备、系统及计算机可读存储介质,解决了人工对广告进行风险检测效率较低且准确率不高的问题。
本申请的技术方案是这样实现的:
一种广告检测方法,包括:
获取待检测广告,并确定所述待检测广告的属性参数;
基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
上述方案中,所述基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
基于所述待检测广告的属性参数确定所述待检测广告的广告类型;
基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
上述方案中,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第一类型,且待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在所述待检测广告的广告类型为第一类型,且待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告。
上述方案中,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第二类型的情况下,获取商品的属性信息;
基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
上述方案中,所述基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告中不具有图片的情况下,采用匹配性检测模型确定所述商品的属性信息与所述待检测广告的标题的字符信息是否匹配;
在匹配且所述待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在匹配且所述待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在不匹配的情况下,确定所述待检测广告为风险广告。
上述方案中,所述基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告中具有图片的情况下,对所述图片中的字符信息进行识别处理得到所述图片中表征的商品信息;
采用匹配性检测模型确定所述商品的属性信息和所述商品信息,与所述待检测广告中标题的字符信息是否匹配;
在匹配且所述待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在匹配且所述待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在不匹配的情况下,确定所述待检测广告为风险广告。
上述方案中,所述对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告,包括:
采用替换性检测模型对所述通配符对应的字符信息的准确性进行检测;
在确定所述通配符对应的字符信息不准确的情况下,确定所述待检测广告为风险广告;
在确定所述通配符对应的字符信息准确的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为非风险广告。
上述方案中,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第三类型的情况下,获取所述待检测广告的字符数;
在所述待检测广告的字符数大于预设字符数的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告。
上述方案中,所述对所述待检测广告的广告内容进行检测,并确定所述待检测广告为风险广告,包括:
采用合规性检测模型对所述待检测广告的广告内容的语义信息和关键词进行检测;
在确定所述待检测广告的广告内容的所述语义信息和所述关键词不准确的情况下,确定所述待检测广告为风险广告。
上述方案中,所述方法还包括:
基于样本广告中的样本文案和样本商品属性,采用双向编码表征算法进行训练得到匹配性检测模型;
基于所述样本广告的样本文案,采用所述双向编码表征算法进行训练得到替换性检测模型;
基于所述样本广告的样本文案和样本禁投词,采用所述双向编码表征算法进行训练得到合规性检测模型。
上述方案中,所述获取待检测广告,并确定所述待检测广告的属性参数,包括:
获取待检测广告和所述待检测广告的标识;
基于所述标识确定所述待检测广告未进行风险检测的情况下,确定所述待检测广告的属性参数。
一种广告检测设备,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的广告检测程序,以实现以下步骤:
获取待检测广告,并确定所述待检测广告的属性参数;
基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
一种广告检测系统,所述系统包括:
获取单元,用于获取待检测广告,并确定所述待检测广告的属性参数;
处理单元,用于基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现广告检测方法的步骤。
因为可以获取待检测广告,并确定待检测广告的属性参数;基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告;如此,可以通过待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了人工依据经验确定待检测广告是否为风险广告的误判率,进一步提高了确定待检测广告是否为风险广告的准确率。
附图说明
图1为本申请一实施例的一种广告检测方法的流程示意图;
图2为本申请另一实施例提供的一种广告检测方法的流程示意图;
图3为本申请又一实施例提供的一种广告检测方法的流程示意图;
图4为本申请又一实施例提供的一种广告检测方法的流程示意图;
图5为本申请又一实施例提供的一种算法结构示意图;
图6为本申请又一实施例提供的一种匹配性检测模型的结构示意图;
图7为本申请又一实施例提供的一种替换性检测模型的结构示意图;
图8为本申请又一实施例提供的一种合规性检测模型的结构示意图;
图9为本申请又一实施例提供的一种广告检测子系统的流程示意图;
图10为本申请又一实施例提供的一种广告检测方法的流程示意图;
图11为本申请又一实施例提供的一种广告检测设备的结构示意图;
图12为本申请又一实施例提供的一种广告检测系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种广告检测方法,该方法应用于广告检测设备,如图1所示,该方法包括以下步骤:
步骤101、获取待检测广告,并确定待检测广告的属性参数。
其中,待检测广告的属性参数可以指的是待检测广告本身的参数信息;待检测广告的属性参数包括但不限于:待检测广告的大小和待检测广告的格式。
在本申请实施例中,待检测广告的格式可以指的是待检测广告的数据类型;待检测广告的数据类型可以包括文本和/或图片;获取待检测广告可以是由广告制作方将制作完成的待检测广告实时发送至广告检测设备的;还可以是广告制作方根据预设时间间隔将待检测广告批量发送至广告检测设备的。
步骤102、基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
其中,字符信息指的是待检测广告中的文字、数字和字母等表示的信息;风险广告主要表现为广告的字符信息不准确。
在一种可行的实现方式中,若待检测广告为“为什么大家都在抢这款A手机,原来大家都觉得这款牙刷超好用!”从中明显可以看到待检测广告中前半句的“A手机”,和后半句的“牙刷”不对应,该广告的语句不通顺,便可以确定该待检测广告为风险广告。
在本申请实施例中,广告检测设备可以基于待检测广告的属性参数来确定待检测广告对应的目标检测方式,并采用目标检测方式,对待检测广告中的字符信息进行分析,确定待检测广告是否为风险广告。
需要说明的是,广告检测设备对待检测广告可以进行实时在线检测;也可以将待检测广告缓存至广告检测设备的数据库中,对待检测广告进行离线检测;还可以当广告检测设备的工作负荷量小于预设负荷量时,对待检测广告进行检测,以降低广告检测设备工作的负荷,提高广告检测设备的使用寿命。
本申请实施例所提供的广告检测方法,获取待检测广告,并确定待检测广告的属性参数;基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告;如此,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例,本申请实施例还提供了一种广告检测方法,如图2所示,该方法包括:
步骤201、广告检测设备获取待检测广告和待检测广告的标识。
其中,待检测广告的标识能够唯一指代待检测广告。待检测广告的标识可以包括但不限于待检测广告的名称或待检测广告的身份证标识号(Identity document,ID)。
在本申请实施例中,待检测广告和待检测广告的标识可以是由广告制作方将制作完成的待检测广告以及待检测广告的标识发送至广告检测设备的。
步骤202、广告检测设备基于标识确定待检测广告未进行风险检测的情况下,确定待检测广告的属性参数。
在本申请实施例中,可以根据待检测广告的标识从历史待检测广告的检测结果数据库中查询是否具有待检测广告的标识对应的检测结果,若检测结果数据库中具有待检测广告的标识对应的检测结果,则可以将该检测结果作为待检测广告对应的检测结果,并基于检测结果确定待检测广告是否为风险广告;若检测结果数据库中不具有待检测广告的标识对应的检测结果,则可以根据待检测广告,确定待检测广告的属性参数。
步骤203、广告检测设备基于待检测广告的属性参数确定待检测广告的广告类型。
其中,待检测广告的广告类型包括但不限于:不具有商品相关信息的文本广告、不具有商品相关信息的图片广告、具有商品相关信息的文本和图片的广告。
在本申请实施例中,广告检测设备可以基于待检测广告的数据类型和/或待检测广告的大小来确定待检测广告的广告类型。
在一种可行的实现方式中,若待检测广告的数据类型为图片,将待检测广告确定为不具有商品相关信息的图片广告;若待检测广告的数据类型为文本和图片,将待检测广告确定为具有商品相关信息的文本和图片的广告;若待检测广告的数据类型为文本,将待检测广告确定为不具有商品相关信息的文本广告。
步骤204、广告检测设备基于待检测广告的广告类型和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请实施例中,广告检测设备可以基于待检测广告的广告类型确定待检测广告对应的目标检测方式,并采用目标检测方式来对待检测广告中的字符信息进行检测,确定待检测广告是否为风险广告。
其中,风险广告主要包括:具有错别字的广告、语句不通顺的广告、具有禁投词(禁用词)的广告、通配符不能被预设字符信息替换的广告、商品的属性信息和广告的标题(文案)不对应的广告等;风险检测指的是可以采用替换性检测、匹配性检测和合规性检测检测方式来确定待检测广告是否为风险广告。其中,合规性检测用于检测待检测广告中是否具有错别字、语句是否通顺、是否具有禁投词(禁用词);替换性检测用于检测待检测广告中的通配符是否能被预设字符信息替换;匹配性检测用于检测待检测广告中的标题和商品的属性信息是否匹配。
需要说明的是,匹配性检测针对的是具有商品相关信息的文本和图片的广告;替换性检测主要针对的是具有文本的广告;其中,具有文本的广告包括:不具有商品信息的文本广告以及具有商品相关信息的文本和图片的广告。
在本申请实施例中,步骤204具体可以通过步骤204A和步骤204B来实现:
步骤204A、在待检测广告的广告类型为第一类型,且待检测广告中具有通配符的情况下,广告检测设备对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
其中,第一类型指的是不具有商品相关信息的文本广告。
在本申请实施例中,当待检测广告为不具有商品相关信息且具有通配符的文本广告时,则可以对待检测广告中通配符对应的字符信息的准确性进行检测,在确定待检测广告中的通配符对应的字符信息的准确时,对待检测广告的广告内容进行检测,基于检测结果来确定待检测广告是否为风险广告;若确定待检测广告中的通配符对应的字符信息不准确,则确定待检测广告为风险广告。
其中,步骤204A可以通过步骤a1-a3来实现:
步骤a1、广告检测设备采用替换性检测模型对通配符对应的字符信息的准确性进行检测。
在本申请实施例中,待处理广告中的通配符对应的字符信息为预先为通配符配置的字符信息,即为预设字符信息;其中,待处理广告中的通配符对应的字符信息可以包括但不限于商品的品类或商品的名称。
在一种可行的实现方式中,在确定待检测广告中具有通配符时,基于该通配符对应的预设字符信息,并采用替换性检测模型来检测待检测广告中的通配符能否被预设字符信息替换,若能被预设字符信息替换,则确定通配符对应的字符信息准确。
在一种可行的实现方式中,待处理广告可以为“XX大促,${category}火热促销中”,其中“XX”可以为某一电商平台的具体名称,“${category}”可以为待处理广告中的通配符,该通配符用于表示商品的种类和类别,${category}对应的预设字符信息如:手机、牙刷、水果,采用替换性检测模型则用于检测“手机”、“牙刷”、“水果”是否能够替换待处理广告中的“${category}”,若能够替换,则表明待处理广告中的通配符(“${category}”)对应的字符信息(“手机”、“牙刷”、“水果”)准确,若不能被替换则表明待处理广告中的通配符(“${category}”)对应的字符信息(“手机”、“牙刷”、“水果”)不准确。
需要说明的是,当确定待检测广告为第一类型,且待检测广告中具有通配符的前提下,还获取了该通配符对应的字符信息,也就是说,替换性检测模型的输入数据为待检测广告以及待检测广告中通配符对应的字符信息,替换性检测模型可以基于该待检测广告预测该待检测广告中输出通配符对应的预设字符信息的概率,若该概率小于预设阈值概率,则确定该通配符对应的字符信息不能用于替换该通配符。
在一种可行的实现方式中,替换性检测模型的输入数据为“XX年货节火热促销中,大量${category}一折起,快来抢!!!”和““${category}”对应的字符信息”,其中“${category}”对应的字符信息可以包括但不限于:手机,替换性检测模型用来检测“手机”能否来替换待检测广告中的“${category}”,替换性检测模型可以掩盖(MASK)掉“${category}”,计算“${category}”所在的位置输出“手机”的概率,若该概率大于预设阈值概率,则表明${category}”可以被“手机”替换,即待检测广告的替换性检测通过。
步骤a2、广告检测设备在确定通配符对应的字符信息不准确的情况下,确定待检测广告为风险广告。
其中,通配符对应的字符信息不准确,也就是说待检测广告中通配符不能被预设字符信息替换,则可以确定待检测广告为风险广告。
步骤a3、广告检测设备在确定通配符对应的字符信息准确的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为非风险广告。
在确定通配符对应的字符信息准确的情况下,也就说,待检测广告中通配符可以被预设字符信息替换,待检测广告的替换性检测通过,此时可以对待检测广告进行合规性检测,具体可以对待检测广告的内容进行检测,来确定待检测广告是否为风险广告。
步骤204B、在待检测广告的广告类型为第一类型,且待检测广告中不具有通配符的情况下,广告检测设备对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请实施例中,若确定待检测广告为不具有商品相关信息的文本广告,且该文本广告中不具有通配符时,则不需要对待检测广告进行匹配性检测和替换性检测,便可以直接对待检测广告的广告内容进行合规性检测,来确定待检测广告的广告内容中的语义信息和关键词是否准确。
需要说明的是,步骤204B中的广告检测设备对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告可以通过b1-b2来实现:
b1、广告检测设备采用合规性检测模型对待检测广告的广告内容的语义信息和关键词进行检测。
其中,合规性检测模型指的是预先训练的用于检测待检测广告中的语义信息是否准确以及是否存在禁投词的模型。其中,语义信息是否准确包括:待检测广告中的语句是否通顺以及待检测广告的语句中是否具有错别字;禁投词至少包括:国家法律规定的敏感词(也称之为关键词)。
在本申请实施例中,对待检测广告的内容进行检测时,可以将待检测广告输入至合规性检测模型中,通过合规性检测模型对待检测广告中的语义信息进行分析确定待检测广告中的语句是否通顺以及是否具有错别字,并对待检测广告的内容进行关键词检索确定待检测广告的内容中是否具有禁投词,当确定待检测广告的语句通顺且无错别字且待检测广告的内容中无禁投词时,确定待检测广告为非风险广告。
b2、在确定待检测广告的广告内容的语义信息和关键词不准确的情况下,广告检测设备确定待检测广告为风险广告。
在本申请实施例中,只有当待检测广告的语义信息和关键词均准确时,才确定待检测广告的合规性检测通过;当待检测广告的和关键词中任一不准确时,确定待检测广告为风险广告。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例所提供的广告检测方法,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例,本申请实施例还提供了一种广告检测方法,如图3所示,该方法包括:
步骤301、广告检测设备获取待检测广告和待检测广告的标识。
步骤302、广告检测设备基于标识确定待检测广告未进行风险检测的情况下,确定待检测广告的属性参数。
步骤303、广告检测设备基于待检测广告的属性参数确定待检测广告的广告类型。
步骤304、在待检测广告的广告类型为第二类型的情况下,广告检测设备获取商品的属性信息。
其中,第二类型指的是具有商品相关信息的文本和图片的广告。其中,商品相关信息的文本和图片的广告中文本至少包括待检测广告的标题;商品相关信息的文本和图片的广告中的图片指的是商品的图片,也可以称之为商品的主图。
在本申请实施例中,当确定待检测广告为具有商品相关信息的文本和图片的广告,则可以获取预先设置的待检测广告对应的商品的ID,从商品的属性信息数据库中获取该商品ID对应的商品的属性信息,并从待检测广告的标题之外的字符信息中提取商品的属性信息。
步骤305、广告检测设备基于商品的属性信息和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请实施例中,可以基于商品的属性信息与待检测广告中标题的字符信息进行匹配,若商品的属性信息与待检测广告中标题的字符信息匹配,则确定待检测广告为非风险广告;若商品的属性信息与待检测广告中标题的字符信息不匹配,则确定待检测广告为风险广告。
在本申请实施例中,步骤305可以通过步骤c1-c4来实现;或通过步骤d1-d5来实现;
c1、在待检测广告中不具有图片的情况下,广告检测设备采用匹配性检测模型确定商品的属性信息与待检测广告的标题的字符信息是否匹配。
需要说明的是,在待检测广告中不具有图片指的是获取的待检测广告在投放时不需要展示商品的图片。
在本申请实施例中,当确定待检测广告的广告类型为具有商品相关信息的文本和图片的广告时,可以获取待检测广告中商品对应的图片的地址,若该地址为空则表示不展示商品的图片;若该地址不为空则表示展示商品的图片。也就是说,广告检测设备获取的第二类型的待检测广告中一定是同时具有文本和图片的,是否需要在投放时展示商品的图片是由图片的地址来决定。
在本申请实施例中,在待检测广告中不展示图片的情况下,可以从待检测广告的除标题之外的字符信息中提取商品的属性信息,并根据预先设置的待检测广告对应的商品的ID,从商品的属性信息数据库中获取该商品ID对应的商品的属性信息,之后确定商品的属性信息与待检测广告的标题是否匹配。
在一种可行的实现方式中,文案可以为“XX年货节火热促销中,大量千元手机一折起”,商品的属性信息可以包括:品类:笔记本电脑,品牌:A,店铺B;匹配性检测模型可以将待检测广告的标题中的涉及的商品的信息的“手机”与商品的属性信息中的“笔记本电脑”进行匹配,明显,“手机”和“笔记本电脑”不匹配,可以确定待检测广告为风险广告。
c2、在匹配且待检测广告中具有通配符的情况下,广告检测设备对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
c3、在匹配且待检测广告中不具有通配符的情况下,广告检测设备对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
c4、在不匹配的情况下,广告检测设备确定待检测广告为风险广告。
d1、在待检测广告中具有图片的情况下,广告检测设备对图片中的字符信息进行识别处理得到图片中表征的商品信息。
需要说明的是,待检测广告中具有图片指的是获取的待检测广告在投放时需要展示商品的图片。
在本申请实施例中,获取的待检测广告在投放时需要展示商品的图片的情况下,可以采用文字识别模型对商品的图片中的字符信息进行识别,提出商品的图片中的字符信息,之后对图片中的字符信息进行分析,提取图片中的商品信息。
d2、广告检测设备采用匹配性检测模型确定商品的属性信息和商品信息,与待检测广告中标题的字符信息是否匹配。
其中,商品信息包括:商品的价格和/或商品的付款方式。
在一种可行的实现方式中,以商品为手机为例,商品的价格为XX手机1999元起,商品的付款方式可以为分期三期免息。
在本申请实施例中,可以将商品的属性信息和商品信息,与待检测广告的标题的字符信息进行匹配,确定待检测广告的标题的字符信息中涉及的商品的信息是否与商品的属性信息和商品信息匹配,若不匹配则确定待检测广告为风险广告。
在一种可行的实现方式中,待检测广告中标题的字符信息中涉及的商品的名称是红酒,但是标题之外的字符信息中的商品名称是红酒柜,明显,待检测广告中标题的字符信息与标题之外的字符信息是不匹配的,则可以确定待检测广告为风险广告。
d3、在匹配且待检测广告中具有通配符的情况下,广告检测设备对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
d4、在匹配且待检测广告中不具有通配符的情况下,广告检测设备对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
d5、在不匹配的情况下,广告检测设备确定待检测广告为风险广告。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例所提供的广告检测方法,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了人工依据经验确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例,本申请实施例还提供了一种广告检测方法,如图4所示,该方法包括:
步骤401、广告检测设备获取待检测广告和待检测广告的标识。
步骤402、广告检测设备基于标识确定待检测广告未进行风险检测的情况下,确定待检测广告的属性参数。
步骤403、广告检测设备基于待检测广告的属性参数确定待检测广告的广告类型。
步骤404、在待检测广告的广告类型为第三类型的情况下,广告检测设备获取待检测广告的字符数。
其中,第三类型为不具有商品相关信息的图片广告。
在本申请实施例中,当确定待检测广告为不具有商品相关信息的图片广告时,广告检测设备可以采用文字识别模型对图片中的字符信息进行识别,提出图片中的字符信息,并确定字符数(也称之为字符的数量)。
步骤405、在待检测广告的字符数大于预设字符数的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请实施例中,可以基于待检测广告中的字符数与预设字符数进行比较,根据比较结果来判断是否对待检测广告的广告内容进行检测,当待检测广告的字符数小于等于预设字符数时,也就是说图片中的字符数较小时,可以不用对提取出来的字符信息进行检测,默认待检测广告不具有风险;当待检测广告的字符信息大于预设字符数时,则需要对图片中提取出来的字符信息进行合规性检测,来确定待检测广告是否为风险广告。
在一种可行的实现方式中,预设的字符数可以为10。
在本申请实施例中,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告还可通过以下方式来实现;
步骤405a、采用合规性检测模型对待检测广告的广告内容的语义信息和关键词进行检测。
步骤405b、在确定待检测广告的广告内容的语义信息和关键词不准确的情况下,确定待检测广告为风险广告。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例所提供的广告检测方法,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例,在本申请的其他实施例中,广告检测方法还可以包括以下步骤:
步骤501、广告检测设备基于样本广告中的样本文案和样本商品属性,采用双向编码表征算法进行训练得到匹配性检测模型。
如图5所示,是双向编码表征(Bidirectional Encoder Representations fromTransformers,BERT)算法的原理图,BERT主要由12层Transformer模型(变换模型)组成,每一个Transformer的核心是由一个Multi-Head Attention(多头注意力层)组成;其中Multi-Header Attention是由h个Attention(注意力层)横向连接组成,它输入时一句话由n个字符组成,长度不足时,用特殊字符填充;其向量可以用公式(1)表示:
Q={q1,q2,q3,…,qn}Q∈Rn×k,qn∈Rk,k∈R 公式(1)
公式1表示Attention的输入向量,它的维度为Rn×k,其中,Q表示文本的向量表示;n表示文本的长度;qn表示字符的向量表示;k表示字符的向量维度。BERT中使用的SelfAttention(自注意力层),它是Attention的一种;表示输入的向量Q=K,其计算公式为:
公式2表示Attention的计算公式,其中:Q=K表示文本的向量表示;V表示注意力向量表示(注意力权重参数);n表示文本的长度;k表示字符的向量维度;dk表示缩放比例,默认dk=k;Multi-Header Attention是由h个Attention横向连接组成,其计算的公式为公式(3):
公式3表示Multi-Header Attention的计算公式,其中:Wo∈Rhn×k,WQ∈Rk×n,WK∈Rk ×n,WV∈Rn×n表示超参向量。表示把h个header(头信息)进行concat(横向相连);
如上,通过公式1-3,可以计算出Multi-Header Attention,它的输出可以用公式(4)来表示:
Q‘={q1’,q2’,q3’,…,qn’}Q∈Rn×k,qn′∈Rk,k∈R 公式(4)
一个Transformer由一个Multi-Header Attention(多头注意力层)+BatchNormal(批归一化层)组成。其中Batch Normal是对输出的Q‘进行标准化。那么一个Transformer完成了输入文本向量Q到输出文本向量Q‘的转化。
一个BERT由12个Transformer组成。我们只需要将Q‘带入到下一个Transformer中就可以完成一个BERT的基本计算;
BERT常用的loss函数(损失函数)是交叉熵,用于计算Mask词(掩盖掉的词)与实际词是否匹配;BERT的loss函数可以用公式(5)来表示:
如上,公式5表示BERT的loss函数,其中P(Xi)∈[0,1]n表示字符i的概率向量;H(Xi)∈[0,1]n字符i的one-hot编码(一位有效编码),n表示所有中英文字符的长度。
如图5所示,BERT中还包括了Fully Connected Layer+GELU+Norm(全连接层+激活函数+规范值)层,和Token Embedding+Position Embedding+Segment Embedding(标记嵌入+位置嵌入+片段嵌入)层,以及softmax(传输函数)。
如图6所示,是匹配性检测模型的原理图;在具体训练匹配性检测模型时,需要样本商品属性到样本文案的映射,样本商品属性与样本文案与样本文案匹配标记为2,不匹配标记为0,通用标记为1,其中,通用指的是样本商品属性是样本文案通用的;目标输出:商品属性与文案是否匹配;在训练过程中可以将商品属性输出向量记为V,文案输出向量记为U,可以采用Item Bert模型(项双向编码表征模型)和Creative Bert模型(创意双向编码表征模型)来进行训练,输入商品属性(正例,标记数据)和商品属性(负例,通过同种类型属性负采样获得)和文案(标记数据),分别得到表征向量V+,V-,U。
其中,匹配性检测模型中的loss函数可以用公式6表示:
Loss=max(||U-V+||-||U-V-||+ε,0) 公式(6)
公式6是匹配性模型的loss函数,其中||U-V+||,||U-V-||分别表示U,V之间的点积(距离),ε常量(默认取值:1.0)。
下述结合匹配性检测模型,对匹配性检测模型的预测流程进行详细的解释说明。
匹配性检测模型的输入为:商品的属性信息和待检测广告的文案(标题),输出:商品属性和文案是否匹配。匹配检测模型的输入还可以是商品的属性信息、商品信息和待检测广告的文案,输出商品的属性和商品信息,与文案是否匹配。
待检测广告的文案与展示的商品的属性是否匹配的计算过程如下:
计算文案与展示商品属性相似度可以用公式(7)来计算:
s=cosine(V,U) V∈Rk,U∈Rk 公式(7)
其中:s∈[0,1]表示文案与商品属性的相似;V表示商品属性表征向量,U表示广告文案表征向量。
预测商品与文案是否匹配可以通过公式(8)实现:
s.t when x>0then sign(x)=1else sign(x)=0 公式(8)
其中:Checkm表示当前文案与商品所有属性是否匹配;k表示商品主要属性(品类、品牌、店铺、价格、图片),i表示第k个商品属性;sign(si)表示单个商品属性与文案匹配标记,默认情况下:匹配=2,通用=1,不匹配=0。通过公式6-8,我们可以检测文案和商品的广告是否匹配。
步骤502、广告检测设备基于样本广告的样本文案,采用双向编码表征算法进行训练得到替换性检测模型。
如图7所示,是替换性检测模型的原理图;训练过程为:输入样本广告的样本文案,mask任意词。如:A平台年货节火热促销中,大量手机一折起,快来抢!!!=>mask【年货节】;A平台【MASK】【MASK】【MASK】火热促销中,大量手机一折起,快来抢!!!目标:输出与实际的字符是否相似。
预测流程为:输入:Mask通配符文案,例如:AB年货节火热促销中,大量${category}一折起,快来抢!!!=>AB年货节火热促销中,大量【MASK】【MASK】一折起,快来抢!!!输出:【手】【机】字符的概率,通过Mask【手机】,然后预测单个字符的概率,例如:【手】的概率:P(xi)=P{xi=手}。计算通配符是否可以被预设字符替换可以采用公式(9)来实现:
其中,m表示替换词的数量;P(xi)表示Mask字符xi输出的概率;Checkr表示替换性检测值。
Checkr越大表示可以被替换性越高。默认情况下,当Checkr>=10,表示通配符可以被指定的字符替换;当Checkr<10,表示通配符不能被指定的字符替换。
步骤503、广告检测设备基于样本广告的样本文案和样本禁投词,采用双向编码表征算法进行训练得到合规性检测模型。
合规性性检测主要用于检测文案是否通顺,是否包含错别字,是否包含禁投词,如图8所示,是合规性检测模型的原理图。
在BERT后面加入了一层Attention Layer(注意层)(参见公式(2)),其中:V∈Rn×n表示字符之间相关性权重;n表示字符的数量;而P(Xi)∈[0,1]n表示字符i相对于所有字符的概率。例如:P(Xi)=P{Xi|i=手}表示字符【手】相对于所有字符(例如:CLS,A,B,年……)的概率。
文案是否通顺计算公式如下所示:
其中,m表示Mask词的数量;p(xi)表示字符xi与左右字符组合概率的平均值,例如:字符【手】左边的字符是【量】,右边的字符是【机】,p(xi)表示P{Xi|i=手,il=量}与P{Xi|i=手,ir=机}概率的平均值。
一般来说,它的值越大表示越不通顺。默认情况下,当PL<=100表示文案通顺,当PL>100表示文案不通顺。
文案是否包含错别字计算公式如(11)所示:
si=min(k*p(xil),k*p(xir)) 公式(11)
其中:k表示中英文的字符数;p(xil),p(xir)分别表示字符i与左右字符组合的概率;k*p(xil)的值越大表示它们是常用词,例如:手机,收集;越小表示它们是非常用连接词,例如:小密,首机。
计算文案中包含错别字的数量可以通过公式(12)来实现:
公式12用于计算文案中包含错别字的数量(是否包含错别字)。其中:n表示文案中字符的数量;si表示字符i是否是错别字。
综合公式10-12,可以检测出文案的通顺度,以及文案中是否包含错别字。
禁投词的检测可以通过正则匹配(规则)的方式。还可以使用匹配性检测来进行校验,如果匹配表示包含禁投词,否则不包含禁投词。
需要说明的是,图5-图8中有两个特殊符号[CLS]和[SEP],其中[CLS]表示该特征用于分类模型,对于非分类模型,该符合可以省去;[SEP]表示分句符号,用于断开输入语料中的两个句子。
基于前述实施例,在本申请的其他实施例中,该广告检测方法可以应用于广告检测子系统中,如图9所示,该子系统可以包括:可视化子系统、模型子系统、缓存子系统和服务子系统。其中,可视化子系统用于完成管理禁投词,管理接口调用以及调用权限;管理禁投词包括对禁投词进行删除、添加和修改等,在一种可行的实现方式中禁投词可以为三聚氰胺、最好的,最大的和最大的;管理接口调用中的接口指的是管理调用匹配性检测模型、替换性检测模型和合规性检测模型的接口;调用权限指的是调用匹配性检测模型、替换性检测模型和合规性检测模型的接口的用户权限。
模型子系统为用于训练匹配性检测模型、替换性检测模型和合规性检测模型的系统,缓存子系统用于保存对待检测广告进行检测的检测结果,并提供查询检测结果的服务,当缓存子系统中存在待检测广告的历史检测结果时,则可以从缓存子系统中获取历史检测结果不用在对待检测广告进行检测,以降低模型对待检测广告进行检测的压力。服务子系统用于提供用于检测待检测广告的应用程序接口(Application Programming Interface,API)接口。
需要说明的是,在四个子系统的协同工作中,可以通过管理(系统管理员干预)、预训练(离线训练匹配性检测模型、合规性检测模型和替换性检测模型)、服务(服务接口调用)和存储(离线预测待检测广告是否为风险广告并存储检测结果)来实现对待检测广告的检测。在对待检测广告进行检测之前可以基于待检测广告的标识先查询缓存子系统中是否有该待检测广告的检测结果,若有则获取检测结果,若无需调用模型对待检测广告进行检测。缓存子系统可以缓存待检测广告,并离线对待检测广告进行检测,降低对待检测广告进行检测的并发量。
在一种可行的实现方式中,模型子系统训练匹配性检测模型、替换性检测模型和合规性检测模型时可以采用BERT+Fine tuning(微调)的方式来对模型进行构建。
下述结合图10对采用本申请实施例所提供的广告检测方法,对待检测广告进行检测的检测过程进行解释说明:
如图10所示,服务器子系统在进行广告风险检测时需要先判断待检测广告是否被检测过(通过查询缓存子系统中是否有待检测广告的历史检测结果来确定),当确定待检测广告被检测过,若检测过,则基于历史检测结果来确定待检测广告是否合规,若未检测过则需要确定待检测广告的广告类型,并基于待检测广告的检测类型来确定目标检测方式来对待检测广告进行检测。
基于前述实施例,本申请的实施例提供一种广告检测设备,该广告检测设备5可以应用于图1~4对应的实施例提供的广告检测方法中,参照图11所示,该广告检测设备5包括:存储器51、处理器52、和通信总线53;
通信总线53用于实现处理器52和存储器51之间的通信连接;
处理器52用于执行存储器51中存储的广告检测程序,以实现以下步骤:
获取待检测广告,并确定待检测广告的属性参数;
基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
基于待检测广告的属性参数确定待检测广告的广告类型;
基于待检测广告的广告类型和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
在待检测广告的广告类型为第一类型,且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在待检测广告的广告类型为第一类型,且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
在待检测广告的广告类型为第二类型的情况下,获取商品的属性信息;
基于商品的属性信息和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
在待检测广告中不具有图片的情况下,采用匹配性检测模型确定商品的属性信息与待检测广告的标题的字符信息是否匹配;
在匹配且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在匹配且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在不匹配的情况下,确定待检测广告为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
在待检测广告中具有图片的情况下,对图片中的字符信息进行识别处理得到图片中表征的商品信息;
采用匹配性检测模型确定商品的属性信息和商品信息,与待检测广告中标题的字符信息是否匹配;
在匹配且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在匹配且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在不匹配的情况下,确定待检测广告为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
采用替换性检测模型对通配符对应的字符信息的准确性进行检测;
在确定通配符对应的字符信息不准确的情况下,确定待检测广告为风险广告;
在确定通配符对应的字符信息准确的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为非风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
在待检测广告的广告类型为第三类型的情况下,获取待检测广告的字符数;
在待检测广告的字符数大于预设字符数的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
采用合规性检测模型对待检测广告的广告内容的语义信息和关键词进行检测;
在确定待检测广告的广告内容的语义信息和关键词不准确的情况下,确定待检测广告为风险广告。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
基于样本广告中的样本文案和样本商品属性,采用双向编码表征算法进行训练得到匹配性检测模型;
基于样本广告的样本文案,采用双向编码表征算法进行训练得到替换性检测模型;
基于样本广告的样本文案和样本禁投词,采用双向编码表征算法进行训练得到合规性检测模型。
在本申请的其他实施例中,处理器52用于执行存储器51中存储的可执行指令,以实现以下步骤:
获取待检测广告和待检测广告的标识;
基于标识确定待检测广告未进行风险检测的情况下,确定待检测广告的属性参数。
本申请实施例所提供的广告检测设备,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例本申请的实施例提供一种广告检测系统,该系统可以应用于图1~4对应的实施例提供的广告检测方法中,如图12所示,该广告检测系统6包括:
获取单元61,用于获取待检测广告,并确定待检测广告的属性参数;
处理单元62,用于基于待检测广告的属性参数和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
基于待检测广告的属性参数确定待检测广告的广告类型;
基于待检测广告的广告类型和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
在待检测广告的广告类型为第一类型,且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在待检测广告的广告类型为第一类型,且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
在待检测广告的广告类型为第二类型的情况下,获取商品的属性信息;
基于商品的属性信息和字符信息,对待检测广告进行风险检测,并确定待检测广告是否为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
在待检测广告中不具有图片的情况下,采用匹配性检测模型确定商品的属性信息与待检测广告的标题的字符信息是否匹配;
在匹配且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在匹配且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在不匹配的情况下,确定待检测广告为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
在待检测广告中具有图片的情况下,对图片中的字符信息进行识别处理得到图片中表征的商品信息;
采用匹配性检测模型确定商品的属性信息和商品信息,与待检测广告中标题的字符信息是否匹配;
在匹配且待检测广告中具有通配符的情况下,对待检测广告中与通配符对应的字符信息的准确性以及待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在匹配且待检测广告中不具有通配符的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告;
在不匹配的情况下,确定待检测广告为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
采用替换性检测模型对通配符对应的字符信息的准确性进行检测;
在确定通配符对应的字符信息不准确的情况下,确定待检测广告为风险广告;
在确定通配符对应的字符信息准确的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为非风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
在待检测广告的广告类型为第三类型的情况下,获取待检测广告的字符数;
在待检测广告的字符数大于预设字符数的情况下,对待检测广告的广告内容进行检测,并确定待检测广告是否为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
采用合规性检测模型对待检测广告的广告内容的语义信息和关键词进行检测;
在确定待检测广告的广告内容的语义信息和关键词不准确的情况下,确定待检测广告为风险广告。
在本申请实施例中,参考图12,处理单元62还用于执行以下步骤:
基于样本广告中的样本文案和样本商品属性,采用双向编码表征算法进行训练得到匹配性检测模型;
基于样本广告的样本文案,采用双向编码表征算法进行训练得到替换性检测模型;
基于样本广告的样本文案和样本禁投词,采用双向编码表征算法进行训练得到合规性检测模型。
在本申请实施例中,参考图12,获取单元61还用于执行以下步骤:
获取待检测广告和待检测广告的标识;
基于标识确定待检测广告未进行风险检测的情况下,确定待检测广告的属性参数。
需要说明的是,本申请实施例中各单元之间的交互过程,可以参照图1~4对应的实施例提供的广告检测方法的实现过程,此处不再赘述。
本申请实施例所提供的广告检测系统,可以基于待检测广告的属性参数和字符信息来对待检测广告进行风险检测,不需要相关技术中人工依据经验确定待检测广告是否为风险广告,提高了确定待检测广告是否为风险广告的效率,而且降低了确定待检测广告是否为风险广告的误判率,进一步地提高了确定待检测广告是否为风险广告的准确率。
基于前述实施例本申请的实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现图1~4对应的实施例提供的广告检测方法中的步骤。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所描述的方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种广告检测方法,其特征在于,包括:
获取待检测广告,并确定所述待检测广告的属性参数;
基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
基于所述待检测广告的属性参数确定所述待检测广告的广告类型;
基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
3.根据权利要求2所述的方法,其特征在于,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第一类型,且待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在所述待检测广告的广告类型为第一类型,且待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告。
4.根据权利要求2所述的方法,其特征在于,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第二类型的情况下,获取商品的属性信息;
基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
5.根据权利要求4所述的方法,其特征在于,所述基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告中不具有图片的情况下,采用匹配性检测模型确定所述商品的属性信息与所述待检测广告的标题的字符信息是否匹配;
在匹配且所述待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在匹配且所述待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在不匹配的情况下,确定所述待检测广告为风险广告。
6.根据权利要求4所述的方法,其特征在于,所述基于所述商品的属性信息和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告中具有图片的情况下,对所述图片中的字符信息进行识别处理得到所述图片中表征的商品信息;
采用匹配性检测模型确定所述商品的属性信息和所述商品信息,与所述待检测广告中标题的字符信息是否匹配;
在匹配且所述待检测广告中具有通配符的情况下,对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在匹配且所述待检测广告中不具有通配符的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告;
在不匹配的情况下,确定所述待检测广告为风险广告。
7.根据权利要求3或5或6所述的方法,其特征在于,所述对所述待检测广告中与通配符对应的字符信息的准确性以及所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告,包括:
采用替换性检测模型对所述通配符对应的字符信息的准确性进行检测;
在确定所述通配符对应的字符信息不准确的情况下,确定所述待检测广告为风险广告;
在确定所述通配符对应的字符信息准确的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为非风险广告。
8.根据权利要求2所述的方法,其特征在于,所述基于所述待检测广告的广告类型和所述字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告,包括:
在所述待检测广告的广告类型为第三类型的情况下,获取所述待检测广告的字符数;
在所述待检测广告的字符数大于预设字符数的情况下,对所述待检测广告的广告内容进行检测,并确定所述待检测广告是否为风险广告。
9.根据权利要求3或5或6或8所述的方法,其特征在于,所述对所述待检测广告的广告内容进行检测,并确定所述待检测广告为风险广告,包括:
采用合规性检测模型对所述待检测广告的广告内容的语义信息和关键词进行检测;
在确定所述待检测广告的广告内容的所述语义信息和所述关键词不准确的情况下,确定所述待检测广告为风险广告。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
基于样本广告中的样本文案和样本商品属性,采用双向编码表征算法进行训练得到匹配性检测模型;
基于所述样本广告的样本文案,采用所述双向编码表征算法进行训练得到替换性检测模型;
基于所述样本广告的样本文案和样本禁投词,采用所述双向编码表征算法进行训练得到合规性检测模型。
11.根据权利要求1所述的方法,其特征在于,所述获取待检测广告,并确定所述待检测广告的属性参数,包括:
获取待检测广告和所述待检测广告的标识;
基于所述标识确定所述待检测广告未进行风险检测的情况下,确定所述待检测广告的属性参数。
12.一种广告检测设备,其特征在于,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的广告检测程序,以实现以下步骤:
获取待检测广告,并确定所述待检测广告的属性参数;
基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
13.一种广告检测系统,其特征在于,所述系统包括:
获取单元,用于获取待检测广告,并确定所述待检测广告的属性参数;
处理单元,用于基于所述待检测广告的属性参数和字符信息,对所述待检测广告进行风险检测,并确定所述待检测广告是否为风险广告。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至11任一项所述的广告检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523038.7A CN113379444A (zh) | 2021-05-13 | 2021-05-13 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523038.7A CN113379444A (zh) | 2021-05-13 | 2021-05-13 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379444A true CN113379444A (zh) | 2021-09-10 |
Family
ID=77570896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110523038.7A Pending CN113379444A (zh) | 2021-05-13 | 2021-05-13 | 一种广告检测方法、设备、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379444A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458300A (zh) * | 2013-08-28 | 2013-12-18 | 天津三星电子有限公司 | 电视机虚假广告提示方法及系统 |
CN104156447A (zh) * | 2014-08-14 | 2014-11-19 | 天格科技(杭州)有限公司 | 一种智能社交平台广告预警及处理方法 |
US20150073895A1 (en) * | 2013-09-06 | 2015-03-12 | Yahoo! Inc. | System and method for identification of subject line templates |
US20160283975A1 (en) * | 2015-03-24 | 2016-09-29 | Facebook, Inc. | Systems and methods for fraud detection based on image analysis |
CN106408334A (zh) * | 2016-08-31 | 2017-02-15 | 微梦创科网络科技(中国)有限公司 | 一种网络广告的审核方法及系统 |
CN109214843A (zh) * | 2017-06-29 | 2019-01-15 | 广东神马搜索科技有限公司 | 一种创意审核方法、装置及服务器 |
CN110569502A (zh) * | 2019-07-31 | 2019-12-13 | 苏宁云计算有限公司 | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN111461767A (zh) * | 2020-03-17 | 2020-07-28 | 北京邮电大学 | 一种基于深度学习的Android欺骗性广告检测方法、装置及设备 |
CN111507097A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种标题文本处理方法、装置、电子设备及存储介质 |
CN111768228A (zh) * | 2020-06-19 | 2020-10-13 | 京东数字科技控股有限公司 | 广告标志的识别准确性验证方法、装置、设备和存储介质 |
CN112258254A (zh) * | 2020-12-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 基于大数据架构的互联网广告风险监测方法及系统 |
CN112508432A (zh) * | 2020-12-15 | 2021-03-16 | 百度国际科技(深圳)有限公司 | 广告潜在风险检测方法及装置、电子设备、介质和产品 |
-
2021
- 2021-05-13 CN CN202110523038.7A patent/CN113379444A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458300A (zh) * | 2013-08-28 | 2013-12-18 | 天津三星电子有限公司 | 电视机虚假广告提示方法及系统 |
US20150073895A1 (en) * | 2013-09-06 | 2015-03-12 | Yahoo! Inc. | System and method for identification of subject line templates |
CN104156447A (zh) * | 2014-08-14 | 2014-11-19 | 天格科技(杭州)有限公司 | 一种智能社交平台广告预警及处理方法 |
US20160283975A1 (en) * | 2015-03-24 | 2016-09-29 | Facebook, Inc. | Systems and methods for fraud detection based on image analysis |
CN106408334A (zh) * | 2016-08-31 | 2017-02-15 | 微梦创科网络科技(中国)有限公司 | 一种网络广告的审核方法及系统 |
CN109214843A (zh) * | 2017-06-29 | 2019-01-15 | 广东神马搜索科技有限公司 | 一种创意审核方法、装置及服务器 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN110569502A (zh) * | 2019-07-31 | 2019-12-13 | 苏宁云计算有限公司 | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 |
CN111461767A (zh) * | 2020-03-17 | 2020-07-28 | 北京邮电大学 | 一种基于深度学习的Android欺骗性广告检测方法、装置及设备 |
CN111507097A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种标题文本处理方法、装置、电子设备及存储介质 |
CN111768228A (zh) * | 2020-06-19 | 2020-10-13 | 京东数字科技控股有限公司 | 广告标志的识别准确性验证方法、装置、设备和存储介质 |
CN112508432A (zh) * | 2020-12-15 | 2021-03-16 | 百度国际科技(深圳)有限公司 | 广告潜在风险检测方法及装置、电子设备、介质和产品 |
CN112258254A (zh) * | 2020-12-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 基于大数据架构的互联网广告风险监测方法及系统 |
Non-Patent Citations (1)
Title |
---|
徐常胜;黄晓雯;钱胜胜;方全;: "基于社会多媒体内容的用户建模应用研究", 南京信息工程大学学报(自然科学版), no. 01, 24 December 2019 (2019-12-24) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN111897970A (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
US20170200205A1 (en) | Method and system for analyzing user reviews | |
CN107368542B (zh) | 一种涉密数据的涉密等级评定方法 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN107038173A (zh) | 应用查询方法和装置、相似应用检测方法和装置 | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
CN115146644B (zh) | 一种面向警情文本的多特征融合命名实体识别方法 | |
CN113590945B (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN112528315A (zh) | 识别敏感数据的方法和装置 | |
US20240193522A1 (en) | Citation and policy based document classification | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
WO2021218027A1 (zh) | 智能面试中专业术语的提取方法、装置、设备及介质 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN114547385A (zh) | 标签构建方法、装置、电子设备及存储介质 | |
CN112308251A (zh) | 一种基于机器学习的工单分派方法和系统 | |
CN111191011A (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN113379444A (zh) | 一种广告检测方法、设备、系统及计算机可读存储介质 | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
CN114780673A (zh) | 基于领域匹配的科技成果管理方法和科技成果管理平台 | |
CN114529191A (zh) | 用于风险识别的方法和装置 | |
CN113962302A (zh) | 一种基于标签分布学习的敏感数据智能识别方法 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |