CN116976976A - 广告处理方法、装置、设备及存储介质 - Google Patents
广告处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116976976A CN116976976A CN202310317312.4A CN202310317312A CN116976976A CN 116976976 A CN116976976 A CN 116976976A CN 202310317312 A CN202310317312 A CN 202310317312A CN 116976976 A CN116976976 A CN 116976976A
- Authority
- CN
- China
- Prior art keywords
- entity
- advertisement
- candidate
- description text
- advertisement description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 217
- 238000001514 detection method Methods 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000002372 labelling Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 43
- 230000001419 dependent effect Effects 0.000 claims description 36
- 230000007704 transition Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 33
- 239000013598 vector Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000008520 organization Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000010380 label transfer Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 239000003674 animal food additive Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 238000011218 seed culture Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0276—Advertisement creation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种广告处理方法、装置、设备及存储介质,其相关实施例可应用于人工智能等场景中。该方法包括:分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:任一候选广告描述文本包括目标实体类型的命名实体;分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果;若存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告违规;可提高判别广告是否违规的准确率。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种广告处理方法、装置、设备及存储介质。
背景技术
随着生活水平的提高,海量广告通过互联网等线上渠道,或线下渠道被投放;通常来说,针对待投放的广告,只有在广告不违规的情况下才能进行投放,针对已投放的广告,在检测到存在违规的情况下,应该进行撤销并责令整改。基于此可知,如何提升对广告是否违规的判别准确率是当前的研究热点。
发明内容
本申请实施例提供一种广告处理方法、装置、设备、存储介质及计算机程序产品,可提高判别广告是否违规的准确率。
一方面,本申请实施例提供了一种广告处理方法,包括:
获取目标广告对应的一个或多个广告描述文本;
分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
一方面,本申请实施例提供了一种广告处理装置,包括:
获取单元,用于获取目标广告对应的一个或多个广告描述文本;
处理单元,用于分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
所述处理单元,还用于基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
所述处理单元,还用于分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
所述处理单元,还用于若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
一方面,本申请实施例提供了一种广告处理设备,其特征在于,所述广告处理设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述广告处理方法。
一方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述广告处理方法。
一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;广告处理设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得广告处理设备执行上述广告处理方法。
本申请实施例中,可以分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;进而基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本,使得任一候选广告描述文本对应的实体预测序列指示:该任一候选广告描述文本包括目标实体类型的命名实体;分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果;并在存在违规检测结果指示内容违规的候选广告描述文本的情况下,确定目标广告违规。也就是说,可以先基于命名实体识别处理,从目标广告对应的广告描述文本中筛选出包括目标实体类型的命名实体的广告描述文本,进而对此类广告描述文本进行违规检测,引入目标实体类型的命名实体作为先验知识,可以提高基于筛选后的广告描述文本判别广告是否违规的准确率以及对违规广告的召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实体识别模型的结构示意图;
图2是本申请实施例提供的一种违规检测模型的结构示意图;
图3是本申请实施例提供的一种广告处理方案的示意图;
图4是本申请实施例提供的一种广告处理方法的流程示意图;
图5是本申请实施例提供的另一种广告处理方法的流程示意图;
图6a是本申请实施例提供的一种基于实体识别模型预测实体预测序列的示意图;
图6b是本申请实施例提供的另一种基于实体识别模型预测实体预测序列的示意图;
图7是本申请实施例提供的一种基于违规检测模型预测违规检测结果的示意图;
图8是本申请实施例提供的一种训练初始实体识别模型的示意图;
图9是本申请实施例提供的一种训练初始违规检测模型的示意图;
图10是本申请实施例提供的广告处理装置的结构示意图;
图11是本申请实施例提供的广告处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习(Deep Learning,DL)等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术;其中,文本处理可以包括词性标注、语句分类等技术,语义理解可以包括词法分析、句法分析、语义分析等技术,机器翻译可以包括语句生成、词性变化等技术,机器人问答可以包括问题理解、答案抽取等技术,知识图谱可以包括实体识别、关系抽取、知识补全等技术。
基于上述提及的自然语言处理技术,本申请实施例提供了一种广告处理方案,可以分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本,其中,任一候选广告描述文本对应的实体预测序列指示:任一候选广告描述文本包括目标实体类型的命名实体;进而可以分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果,任一违规检测结果用于指示是否内容违规;若存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告违规。
在一个实施例中,上述广告处理方案可以由广告处理设备执行,该广告处理设备可以为终端设备或者服务器;此处的终端设备可包括但不限于:计算机、智能手机、平板电脑、笔记本电脑、智能家电、车载终端、智能可穿戴设备等;此处的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。进一步可选的,上述广告处理方案还可以由任意有计算力的电子设备单独或协同执行,本申请实施例不做限制,在本申请后续实施例中以广告处理设备为例进行阐述。
在一个实施例中,目标广告可以为需要进行违规判定的任意广告;目标广告对应的广告描述文本可以为用于对目标广告进行描述的文本;例如,目标广告对应的广告描述文本可以为:目标广告的广告标题、目标广告的广告正文、从目标广告的广告图片中提取得到的图片描述文本,等等;又如,目标广告对应的广告描述文本可以为:从目标广告的广告标题、目标广告的广告正文、目标广告的图片描述文本等文本中选取多种文本,并对该多种文本拼接得到的文本;再如,目标广告对应的广告描述文本可以为:将目标广告的广告标题、目标广告的广告正文、目标广告的图片描述文本等文本,进行文本划分得到的文本片段,例如,每个文本片段可以为一个语句。
在一个实施例中,目标实体类型可以是根据具体需求进行设定的,例如,目标实体类型可以是根据广告违规条件进行设定的;举例来说,若广告违规条件指示:使用人物形象进行医疗广告代言,则目标实体类型可以为姓名类型(name),若广告违规条件指示:使用科研单位的名义或形象为药品广告代言,则目标实体类型可以为组织机构类型(organization);若广告违规条件为:(1)药品广告使用科研单位、学术机构、行业协会或者专家、学者、医师、药师、临床营养师、患者等的名义或者形象作推荐、证明;(2)医疗广告利用广告代言人作推荐、证明;(3)医疗广告利用患者、卫生技术人员、医学教育科研机构及人员以及其他社会社团、组织的名义、形象作证明;(4)医疗器械广告利用广告代言人作推荐、证明;(5)医疗器械广告使用科研单位、学术机构、行业协会或者专家、学者、医师、药师、临床营养师、患者等的名义或者形象作推荐、证明;(6)饲料和饲料添加剂广告利用科研单位、学术机构、技术推广机构、行业协会或者专业人士、用户的名义或者形象作推荐、证明;(7)教育、培训广告利用科研单位、学术机构、教育机构、行业协会、专业人士、受益者的名义或者形象作推荐、证明;(8)招商等有投资回报预期的商品或者服务广告,利用学术机构、行业协会、专业人士、受益者的名义或者形象作推荐、证明;(9)农作物种子、林木种子、草种子、种畜禽、水产苗种和种养殖广告利用科研单位、学术机构、技术推广机构、行业协会或者专业人士、用户的名义或者形象作推荐、证明;则可选的,目标实体类型可以被确定为姓名类型、组织结构类型以及职位类型(position)。
在一个实施例中,各个广告描述文本对应的实体预测序列可以是通过实体识别模型得到的,实体识别模型可以是通过对初始实体识别模型进行训练得到的,初始实体识别模型的训练过程将在后续实施例中进行阐述,在此不做赘述。任一广告描述文本对应的实体预测序列可以由该任一广告描述文本中各个字符对应的预测标签构成,任一预测标签可以是从多个实体标注标签中选取的,该多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,该多个预设实体类型包括目标实体类型;进一步的,该多个预设实体类型可以根据具体需求进行设定,使用包括了该多个预设实体类型的命名实体的样本文本对初始实体识别模型进行训练,可以使得训练得到的实体识别模型可以对该多个预设实体类型的命名实体进行识别;举例来说,若目标实体类型为姓名类型、组织机构类型以及职位类型,则多个预设实体类型可以被设定为姓名类型(name)、组织机构类型(organization)、职位类型(position)、地址类型(address)、书名类型(book)、公司类型(company)、游戏类型(game)、政府类型(government)、电影类型(movie)、景点类型(scene);进一步可选的,多个预设实体类型也可以被设定为与目标实体类型相同。
在一个实施例中,实体标注标签可以根据具体需求选用自然语言处理中常用的标签,例如可以选用BIO标签、BIOES标签,等等。当实体标注标签选用BIO标签时,标签“B”为实体标签,具体表示命名实体的开始,用于对命名实体的起始字符进行标注,标签“I”为实体标签,具体表示命名实体的中间,用于对命名实体的中间字符进行标注,标签“O”为非实体标签,具体表示无意义的字符,用于对非命名实体进行标注;进一步可选的,任一预设实体类型对应的实体标签可以基于该预设实体类型的标注信息进行表示,例如,姓名类型对应的实体标签可以表示为标签“B_name”以及“I_name”,其中,标签“B_name”具体表示姓名类型的命名实体的开始,即姓名的开始,标签“I_name”具体表示姓名类型的命名实体的中间,即姓名的中间;可以知道的是,上述预设实体类型对应的实体标签的表示方式只是示例性的说明,也可以采取其他方式对不同预设实体类型对应的实体标签进行标识,只要能对不同预设实体类型对应的实体标签进行区分即可,例如,可以用标签“B_1”表示姓名类型的命名实体的开始,用标签“B_2”表示组织结构类型的命名实体的开始。当实体标注标签选用BIOES标签时,标签“B”为实体标签,具体表示命名实体的开始,用于对命名实体的起始字符进行标注,标签“I”为实体标签,具体表示命名实体的中间,用于对命名实体的中间字符进行标注,标签“E”为实体标签,具体表示命名实体的结尾,用于对命名实体的结尾字符进行标注,标签“S”为实体标签,用于对单个字符的命名实体进行标注,标签“O”为非实体标签,具体表示无意义的字符,用于对非命名实体进行标注;进一步可选的,任一预设实体类型对应的实体标签可以基于该预设实体类型的标注信息进行表示,表示方式与上述实体标注标签选用BIO标签时类似,在此不再赘述。
在一个实施例中,广告处理设备对任一广告描述文本进行命名实体识别处理,得到该任一广告描述文本对应的实体预测序列,可以包括:对该任一广告描述文本进行语义特征编码处理,得到该任一广告描述文本中各个字符对应的编码语义特征;对各个字符对应的编码语义特征进行序列依赖特征提取处理,得到各个字符对应的序列依赖特征;基于各个字符对应的序列依赖特征,预测该任一广告描述文本对应的实体预测序列。进一步的,实体识别模型可以包括语义特征编码模块、序列依赖特征提取模块以及实体序列预测模块,可以如图1标记所示;其中,实体识别模型中的语义特征编码模块可以用于对广告描述文本进行语义特征编码处理,以得到广告描述文本中各个字符对应的编码语义特征;实体识别模型中的序列依赖特征提取模块可以用于对广告描述文本中各个字符对应的编码语义特征进行序列依赖特征提取处理,以得到各个字符对应的序列依赖特征;实体识别模型中的实体序列预测模块可以用于基于广告描述文本中各个字符对应的序列依赖特征,预测广告描述文本对应的实体预测序列。进一步的,实体识别模型中的语义特征编码模块、序列依赖特征提取模块以及实体序列预测模块可以为能实现相应功能的神经网络模型,可以根据具体需求进行选取或构建;例如,实体识别模型中的语义特征编码模块可以选用语言表征模型BERT(Bidirectional Encoder Representations from Transformers)、RoBERTa等等;实体识别模型中的序列依赖特征提取模块可以选用长短期记忆网络(Long Short-TermMemory,LSTM)、双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)等等,本申请实施例不做限制,在本申请后续实施例中以语义特征编码模块选用BERT,序列依赖特征提取模块选用BiLSTM进行示例性说明。
在一个实施例中,广告处理设备对任一候选广告描述文本进行内容违规检测处理,得到该任一候选广告描述文本对应的违规检测结果,可以包括:通过违规检测模型,对该任一候选广告描述文本进行文本特征提取处理,得到该任一候选广告描述文本对应的文本特征;对该任一候选广告描述文本对应的文本特征进行概率预测处理,得到该任一候选广告描述文本被预测为内容违规的违规预测概率;若违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果;其中,预设概率阈值可以根据具体需求进行设定。进一步的,违规检测模型可以为能用于预测候选广告描述文本是否内容违规的神经网络模型,可以根据具体需求进行选取或构建,例如可以为分类模型。进一步可选的,当违规检测模型为分类模型时,违规检测模型可以包括文本特征提取模块(即编码器)以及分类模块(即分类器),可以如图2标记所示;其中,违规检测模型中的文本特征提取模块可以用于对候选广告描述文本进行文本特征提取处理,以得到候选广告描述文本对应的文本特征;违规检测模型中的分类模块可以用于根据候选广告描述文本对应的文本特征,预测候选广告描述文本是否内容违规,即可以对候选广告描述文本对应的文本特征进行概率预测处理,得到候选广告描述文本被预测为内容违规的违规预测概率;若违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果。进一步可选的,违规检测模型中的文本特征提取模块以及分类模块的模型结构可以根据具体需求进行选取或构建,例如,违规检测模型中的文本特征提取模块可以选用BERT,分类模块所使用的激活函数可以选用sigmoid激活函数。违规检测模型可以是通过对初始违规检测模型进行训练得到的,初始违规检测模型的训练过程将在后续实施例中进行阐述,在此不做赘述。
参见图3,为本申请实施例提供的一种广告处理方案的示意图;若广告处理设备获取目标广告对应的一个或多个广告描述文本的相关过程通过广告获取模块执行,基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本的相关过程通过广告筛选模块执行,则广告处理设备在通过广告获取模块获取目标广告对应的一个或多个广告描述文本之后,可以通过实体识别模型,分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;可以通过广告筛选模块基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本;进而可以通过违规检测模型,分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果;进而可以通过违规判别模块判别目标广告是否违规,即若存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告违规。
特别需要说明的是,在本申请的具体实施方式中,涉及到对象相关的数据,例如广告描述文本中包含与对象相关的数据的情况下,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守当地法律法规和标准。另外在数据的收集、使用和处理过程中,均可以通过用户界面的方式通知相关的对象,并在该用户界面上接收到了确认可以收集或使用或处理的操作之后,才会进行后续的处理。
基于上述广告处理方案,本申请实施例提供了一种广告处理方法。参见图4,为本申请实施例提供的一种广告处理方法的流程示意图。图4所示的广告处理方法可由广告处理设备执行。图4所示的广告处理方法可包括如下步骤:
S401,获取目标广告对应的一个或多个广告描述文本。
在一个实施例中,目标广告可以为需要进行违规判定的任意广告;目标广告对应的广告描述文本可以为用于对目标广告进行描述的文本;例如,目标广告对应的广告描述文本可以为:目标广告的广告标题、目标广告的广告正文、从目标广告的广告图片中提取得到的图片描述文本,等等;又如,目标广告对应的广告描述文本可以为:从目标广告的广告标题、目标广告的广告正文、目标广告的图片描述文本等文本中选取多种文本,并对该多种文本拼接得到的文本;再如,目标广告对应的广告描述文本可以为:将目标广告的广告标题、目标广告的广告正文、目标广告的图片描述文本等文本,进行文本划分得到的文本片段,例如,每个文本片段可以为一个语句。进一步的,广告处理设备从目标广告的广告图片中提取图片描述文本时,可以基于光学字符识别技术(Optical Character Recognition,OCR)实现。更进一步的,当目标广告为网页广告时,广告处理设备可以基于目标广告的地址链接(即统一资源定位符,Uniform Resource Locator,URL)获取网页中的文本、图片等网页内容;在一种可行的实施方式中,广告处理设备可以通过运行爬虫程序获取目标广告对应网页的网页内容;可选的,广告处理设备可以选用静态爬虫程序或动态爬虫程序,当选用动态爬虫程序时,可以使用编程语言Python语言和第三方库requests库,进而可以通过执行内容获取命令(requests.get(url))来实现对目标广告对应网页的网页内容的获取,其中内容获取命令中的url字段即为目标广告的地址链接;上述广告描述文本的获取方式可以自动化地爬取不同网页的广告,具有高扩展性和实时性。
S402,分别对各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列。
在一个实施例中,广告处理设备分别对各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列,可以是通过调用实体识别模型实现的。
S403,基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本。
其中,任一候选广告描述文本对应的实体预测序列指示:该任一候选广告描述文本包括目标实体类型的命名实体。
在一个实施例中,广告处理设备基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本,可以包括:遍历各个广告描述文本对应的实体预测序列,若当前遍历的广告描述文本对应的实体预测序列中包括目标实体类型对应的实体标签,则将当前遍历的广告描述文本确定为一个候选广告描述文本。举例来说,若目标实体类型为姓名类型,实体标注标签选用BIO标签,目标广告对应的一个广告描述文本为:“张三使用8瓶后长出了新发”,该广告描述文本对应的实体预测序列为:“B_nameI_nameOOOOOOOOOO”,包括了目标实体类型对应的实体标签,即标签“B_name”以及标签“I_name”,相应的,该广告描述文本对应的实体预测序列指示该广告描述文本包括的目标实体类型的命名实体为“张三”;因此,可以将该广告描述文本确定为一个候选广告描述文本。
S404,分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果。
在一个实施例中,任一违规检测结果用于指示是否内容违规;广告处理设备分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果,可以通过调用违规检测模型实现。
S405,若存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告违规。
在一个实施例中,若不存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告不违规,即若各个候选广告描述文本对应的违规检测结果均指示内容不违规,则确定目标广告不违规;或者,当基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本失败时,确定目标广告不违规,即基于各个广告描述文本对应的实体预测序列,确定各个广告描述文本均不包括目标实体类型的命名实体时,确定目标广告不违规。
本申请实施例中,可以分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;进而基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本,使得任一候选广告描述文本对应的实体预测序列指示:该任一候选广告描述文本包括目标实体类型的命名实体;分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果;并在存在违规检测结果指示内容违规的候选广告描述文本的情况下,确定目标广告违规。也就是说,可以先基于命名实体识别处理,从目标广告对应的广告描述文本中筛选出包括目标实体类型的命名实体的广告描述文本,进而对此类广告描述文本进行违规检测,引入目标实体类型的命名实体作为先验知识,可以提高基于筛选后的广告描述文本判别广告是否违规的准确率以及对违规广告的召回率。
基于上述广告处理方法的相关实施例,本申请实施例提供了另一种广告处理方法。参见图5,为本申请实施例提供的另一种广告处理方法的流程示意图。图5所示的广告处理方法可由广告处理设备执行。图5所示的广告处理方法可包括如下步骤:
S501,获取目标广告对应的一个或多个广告描述文本。
其中,步骤S501的相关过程与上述步骤S401的相关过程类似,在此不再赘述。
S502,分别对各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列。
在一个实施例中,广告处理设备分别对各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列,可以是通过调用实体识别模型实现的。以目标广告对应的任一广告描述文本为例,广告处理设备对任一广告描述文本进行命名实体识别处理,得到该任一广告描述文本对应的实体预测序列,可以包括:对该任一广告描述文本进行语义特征编码处理,得到该任一广告描述文本中各个字符对应的编码语义特征;对各个字符对应的编码语义特征进行序列依赖特征提取处理,得到各个字符对应的序列依赖特征;基于各个字符对应的序列依赖特征,预测该任一广告描述文本对应的实体预测序列。
其中,广告处理设备可以通过实体识别模型中的语义特征编码模块,来对广告描述文本进行语义特征编码处理,以得到广告描述文本中各个字符对应的编码语义特征;具体实现中,广告描述文本中各个字符对应的嵌入向量被作为实体识别模型中语义特征编码模块的输入,该语义特征编码模块针对各个字符的输出向量被作为相应字符对应的编码语义特征;其中,广告描述文本中各个字符对应的嵌入向量是通过对广告描述文本中各个字符进行特征嵌入处理得到的,该过程可以通过实体识别模型中的嵌入层(embeddinglayer)实现,也就是说,其可以实现从字符到向量的映射。进一步可选的,若实体识别模型中的语义特征编码模块选用BERT,则可以在广告描述文本之前添加特殊标记[CLS],表示文本开端,该特殊标记[CLS]可以被作为广告描述文本中新添加的一个字符,被实体识别模型进行相应处理;BERT可以解决标注数据少,文本信息抽取效果不佳的问题。
其中,广告处理设备可以通过实体识别模型中的序列依赖特征提取模块,来对各个字符对应的编码语义特征进行序列依赖特征提取处理,以得到各个字符对应的序列依赖特征;具体实现中,各个字符对应的编码语义特征被作为实体识别模型中序列依赖特征提取模块的输入,该序列依赖特征提取模块针对各个编码语义特征的输出向量被作为相应字符对应的序列依赖特征,广告描述文本中各个字符对应的序列依赖特征可以包括广告描述文本中各个字符的上下文的文本信息。
在一个实施例中,广告处理设备可以通过实体识别模型中的实体序列预测模块,来基于各个字符对应的序列依赖特征,预测该任一广告描述文本对应的实体预测序列;该过程可以包括:针对各个字符中的任一字符,对该任一字符对应的序列依赖特征进行概率预测处理,得到该任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率,其中,多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,多个预设实体类型包括目标实体类型;根据各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值,其中,任一候选标签序列包括多个候选标签,任一候选标签序列中的候选标签与该任一广告描述文本中的字符一一对应,任一候选标签是从多个实体标注标签中选取的;将最大评价值所指示的候选标签序列确定为该任一广告描述文本对应的实体预测序列;相应的,最大评价值所指示的候选标签序列中的各个候选标签被作为该任一广告描述文本对应的实体预测序列中的各个预测标签。
在一个实施例中,上述得到该任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率的相关过程,可以通过实体识别模型中实体序列预测模块中的线性层(linear layer)来实现;上述得到各个候选标签序列的评价值的相关过程,可以通过实体识别模型中实体序列预测模块中的条件随机场模型(Conditional Random Field,CRF)来实现;其中,条件随机场模型CRF保留了最大熵马尔可夫判别模型(即MEMM判别模型),马尔可夫状态转移,以及每个状态都依赖完整上下文的优点,并进一步可直接在全局进行正则化,解决了标签方差的问题。进一步的,若该任一广告描述文本包括N个字符,多个实体标注标签的数量为M,N,M为正整数;广告处理设备根据各个字符对应的多个标签预测概率,为该任一候选标签序列进行评价处理,得到该任一候选标签序列的评价值,可以包括:针对该任一候选标签序列中的第n个候选标签,获取第n个候选标签的标签转移概率;标签转移概率用于指示:从该任一候选标签序列中的第n-1个候选标签转移至第n个候选标签的概率,n为小于或等于N的正整数;基于该任一广告描述文本中第n个字符,被预测为第n个候选标签的标签预测概率,以及标签转移概率,确定第n个字符的评价值;根据N个字符的评价值,确定出该任一候选标签序列的评价值。
其中,当n=1时,即针对该任一候选标签序列中的第1个候选标签,该第1个候选标签的标签转移概率用于指示:从特殊标签“START”转移至该第1个候选标签的概率,其中,该特殊标签“START”可以表示文本的开始。举例来说,若目标实体类型为姓名类型,实体标注标签选用BIO标签,目标广告对应的一个广告描述文本为:“张三使用8瓶后长出了新发”,该广告描述文本对应的一个候选标签序列为:“B_nameI_nameOOOOOOOOOO”,当n=1时,第1个候选标签为标签“B_name”,第1个候选标签的标签转移概率为:从特殊标签“START”转移至标签“B_name”的概率,进一步的,该第1个字符,被预测为第1个候选标签的标签预测概率,即为字符“张”被预测为标签“B_name”的标签预测概率;当n=2时,第2个候选标签为标签“I_name”,第2个候选标签的标签转移概率为:从标签“B_name”转移至标签“I_name”的概率,进一步的,该第2个字符,被预测为第2个候选标签的标签预测概率,即为字符“三”被预测为标签“I_name”的标签预测概率;以此类推。任一候选标签的标签转移概率可以从标签转移概率矩阵中获取得到,该标签转移概率矩阵是实体识别模型中的模型参数,可以通过对初始实体识别模型进行训练学习到;该标签转移概率矩阵主要可以学习实体标注标签之间的依赖关系,例如当实体标注标签选用BIO标签时,要求文本中第1个字符对应的实体标注标签应该为标签“O”或标签“B”,而不应该为标签“I”,那么在学习标签转移概率矩阵时,期望从特殊标签“START”转移至标签“O”或标签“B”的概率应该较大,从特殊标签“START”转移至标签“I”的概率应该较小。
进一步的,广告处理设备基于该任一广告描述文本中第n个字符,被预测为第n个候选标签的标签预测概率,以及标签转移概率,确定第n个字符的评价值时,可以将该第n个字符被预测为第n个候选标签的标签预测概率,以及该第n个字符对应的标签转移概率进行求和处理、相乘处理等,本申请实施例不做限制;更进一步的,广告处理设备根据N个字符的评价值,确定出该任一候选标签序列的评价值时,可以将该N个字符的评价值进行求和处理、相乘处理等,本申请实施例不做限制。
参见图6a,为本申请实施例提供的一种基于实体识别模型预测实体预测序列的示意图;该实体识别模型中的语义特征编码模块选用BERT,序列依赖特征提取模块选用BiLSTM,实体序列预测模块中包括条件随机场模型CRF;广告处理设备可以将广告描述文本以及特殊字符[CLS]输入至实体识别模型中,通过实体识别模型中的嵌入层embeddinglayer,得到各个字符对应的嵌入向量,进而可以将各个字符对应的嵌入向量输入至该语义特征编码模块BERT中,该语义特征编码模块BERT针对各个字符的输出向量被作为各个字符对应的编码语义特征。进一步的,可以通过该序列依赖特征提取模块BiLSTM对各个字符对应的编码语义特征进行序列依赖特征提取处理,得到各个字符对应的序列依赖特征;通过实体序列预测模块中的线性层linear layer,针对各个字符中的任一字符,对该任一字符对应的序列依赖特征进行概率预测处理,得到该任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率;通过实体序列预测模块中的条件随机场模型CRF,根据各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值,进而可以将最大评价值所指示的候选标签序列确定为该广告描述文本对应的实体预测序列。
参见图6b,为本申请实施例提供的另一种基于实体识别模型预测实体预测序列的示意图;该实体识别模型中的语义特征编码模块选用BERT,序列依赖特征提取模块选用BiLSTM,实体序列预测模块中包括条件随机场模型CRF;广告处理设备可以将广告描述文本以及特殊字符[CLS]输入至实体识别模型中,通过实体识别模型中的嵌入层embeddinglayer,得到各个字符对应的嵌入向量,进而可以将各个字符对应的嵌入向量输入至该语义特征编码模块BERT中,将该语义特征编码模块BERT针对各个字符的输出向量进行加权求和之后的向量作为各个字符对应的编码语义特征。进一步的,可以通过该序列依赖特征提取模块BiLSTM对各个字符对应的编码语义特征进行序列依赖特征提取处理,得到各个字符对应的序列依赖特征;更进一步的,为了提取更多的特征信息,可以将各个字符对应的序列依赖特征输入至多头注意力模块中,将多头注意力模块针对各个序列依赖特征的输出向量作为新的序列依赖特征向量输入至实体预测模块中的线性层linear layer中。通过实体序列预测模块中的线性层linear layer,针对各个字符中的任一字符,对该任一字符对应的新的序列依赖特征进行概率预测处理,得到该任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率;通过实体序列预测模块中的条件随机场模型CRF,根据各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值,进而可以将最大评价值所指示的候选标签序列确定为该广告描述文本对应的实体预测序列。
S503,遍历各个广告描述文本对应的实体预测序列,若当前遍历的广告描述文本对应的实体预测序列中包括目标实体类型对应的实体标签,则将当前遍历的广告描述文本确定为备用广告描述文本。
S504,根据备用广告描述文本对应的实体预测序列,从备用广告描述文本中提取备用命名实体。
其中,任一备用命名实体中各个字符对应的预测标签为实体标签。举例来说,若目标实体类型为姓名类型,实体标注标签选用BIO标签,目标广告对应的一个广告描述文本为:“张三和李四使用8瓶后长出了新发”,该广告描述文本对应的实体预测序列为:“B_nameI_nameOB_nameI_nameOOOOOOOOOO”,包括了目标实体类型对应的实体标签,即标签“B_name”以及标签“I_name”,相应的,该广告描述文本对应的实体预测序列指示该广告描述文本包括目标实体类型的命名实体,因此,可以将该广告描述文本确定为备用广告描述文本;进一步的,从该备用广告描述文本中提取出的备用命名实体可以包括:“张三”以及“李四”。
S505,将各个备用命名实体与多个参考命名实体进行对比。
S506,若存在至少一个备用命名实体,与多个参考命名实体中各个参考命名实体均不相同,则将备用广告描述文本确定为一个候选广告描述文本。
在一个实施例中,参考命名实体可以是根据具体需求进行配置的命名实体,例如,有些品牌可能会用姓名作为品牌名,此时参考命名实体可以是品牌名,用于对比备用命名实体是否为品牌名。若存在至少一个备用命名实体,与多个参考命名实体中各个参考命名实体均不相同,则广告处理设备将备用广告描述文本确定为一个候选广告描述文本,也就是说,广告处理设备在对比出各个备用命名实体中存在至少一个姓名类型的命名实体不为品牌名的情况下,将该备用广告描述文本确定为一个候选广告描述文本。
S507,分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果。
在一个实施例中,任一违规检测结果用于指示是否内容违规;广告处理设备分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果,可以通过调用违规检测模型实现。以任一候选广告描述文本为例,广告处理设备对任一候选广告描述文本进行内容违规检测处理,得到该任一候选广告描述文本对应的违规检测结果,可以包括:通过违规检测模型,对该任一候选广告描述文本进行文本特征提取处理,得到该任一候选广告描述文本对应的文本特征;对该任一候选广告描述文本对应的文本特征进行概率预测处理,得到该任一候选广告描述文本被预测为内容违规的违规预测概率;若违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果。其中,预设概率阈值可以根据具体需求进行设定;当违规检测模型为分类模型时,得到该任一候选广告描述文本对应的文本特征的相关过程可以通过违规检测模型中的文本特征提取模块实现,基于该任一候选广告描述文本对应的文本特征生成违规检测结果的相关过程,可以通过违规检测模型中的分类模块实现。在广告处理设备通过违规检测模型中的文本特征提取模块,对该任一候选广告描述文本进行文本特征提取处理的过程中,该任一候选广告描述文本中各个字符对应的嵌入向量被作为该文本特征提取模块的输入;其中,该任一候选广告描述文本中各个字符对应的嵌入向量是通过对相应字符进行特征嵌入处理得到的,该过程可以通过违规检测模型中的嵌入层(embedding layer)实现,也就是说,其可以实现从字符到向量的映射;进一步可选的,若违规检测模型中的文本特征提取模块选用BERT,则可以在该任一候选广告描述文本之前添加特殊标记[CLS],表示文本开端,该特殊标记[CLS]可以被作为该任一候选广告描述文本中新添加的一个字符,被违规检测模型进行相应处理。
在一个实施例中,在对任一候选广告描述文本进行内容违规检测处理的过程中,还可以引入目标广告的广告类型信息,以提高得到的违规检测结果的准确性;具体实现中,广告处理设备还可以获取目标广告的广告类型信息;那么此时,广告处理设备通过违规检测模型,对任一候选广告描述文本进行文本特征提取处理,得到该任一候选广告描述文本对应的文本特征,可以包括:将该任一候选广告描述文本以及目标广告的广告类型信息输入至违规检测模型;通过违规检测模型,对该任一候选广告描述文本以及目标广告的广告类型信息进行文本特征提取处理,得到该任一候选广告描述文本对应的文本特征,该过程可以如图7标记所示。其中,目标广告的广告类型信息可以为例如教育培训类、医疗类、药品类、金融服务类等,可以指示目标广告的广告类型的信息;在广告处理设备通过违规检测模型中的文本特征提取模块,对该任一候选广告描述文本以及目标广告的广告类型信息进行文本特征提取处理的过程中,该任一候选广告描述文本中各个字符对应的嵌入向量以及目标广告的广告类型信息对应的嵌入向量被作为该文本特征提取模块的输入;其中,该任一候选广告描述文本中各个字符对应的嵌入向量是通过对相应字符进行特征嵌入处理得到的,目标广告的广告类型信息对应的嵌入向量是通过对该广告类型信息进行特征嵌入处理得到的,该过程可以通过违规检测模型中的嵌入层(embedding layer)实现。
S508,若存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告违规。
在一个实施例中,若不存在违规检测结果指示内容违规的候选广告描述文本,则确定目标广告不违规,即若各个候选广告描述文本对应的违规检测结果均指示内容不违规,则确定目标广告不违规;或者,当基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本失败时,确定目标广告不违规,即基于各个广告描述文本对应的实体预测序列,确定各个广告描述文本均不包括目标实体类型的命名实体时,确定目标广告不违规。
在一个实施例中,各个广告描述文本对应的实体预测序列是通过实体识别模型得到的,实体识别模型可以是通过对初始实体识别模型进行训练得到的;参见图8,为本申请实施例提供的一种训练初始实体识别模型的示意图,初始实体识别模型的训练方式可以包括:获取样本文本以及样本文本中各个样本字符对应的参考标签;任一样本字符对应的参考标签是从多个实体标注标签中选取的;通过初始实体识别模型,对样本文本进行命名实体识别处理,得到样本文本对应的实体预测序列;样本文本对应的实体预测序列由样本文本中各个样本字符对应的预测标签构成,任一样本字符对应的预测标签是从多个实体标注标签中选取的;基于样本文本对应的实体预测序列与样本文本对应的实体参考序列之间的差异,对初始实体识别模型进行训练,以得到实体识别模型;样本文本对应的实体参考序列是指:由各个样本字符对应的参考标签构成的序列。
在一个实施例中,初始实体识别模型的训练过程可以由广告处理设备执行,也可以由任意有计算力的电子设备单独或协同执行,本申请实施例以广告处理设备为例进行阐述。其中,广告处理设备通过初始实体识别模型,对样本文本进行命名实体识别处理,得到样本文本对应的实体预测序列的相关过程,与上述通过实体识别模型对广告描述文本进行命名实体识别处理,得到广告描述文本对应的实体预测序列的相关过程类似,在此不再赘述。进一步的,广告处理设备基于样本文本对应的实体预测序列与样本文本对应的实体参考序列之间的差异,对初始实体识别模型进行训练时,可以朝着减小样本文本对应的实体预测序列与样本文本对应的实体参考序列之间的差异的方向,来调整初始实体识别模型的模型参数;其中,朝着减小样本文本对应的实体预测序列与样本文本对应的实体参考序列之间的差异的方向,即期望通过初始实体识别模型得到的实体预测序列接近于实体参考序列,该过程可以通过在预测样本文本对应的实体预测序列过程中产生的各个候选标签序列的评价值来衡量,具体可以朝着增大,与样本文本对应的实体参考序列相同的候选标签序列的评价值,在样本文本对应的各个候选标签序列的评价值之间的占比的方向来对初始实体识别模型进行训练,即期望最大评价值所指示的候选标签序列与该样本文本对应的实体参考序列相同。
在一个实施例中,用于对初始实体识别模型进行训练的任一样本文本,可以是包括了多个预设实体类型中至少一个预设实体类型对应的命名实体的文本;举例来说,当多个预设实体类型被设定为姓名类型(name)、组织机构类型(organization)、职位类型(position)、地址类型(address)、书名类型(book)、公司类型(company)、游戏类型(game)、政府类型(government)、电影类型(movie)以及景点类型(scene)时,用于对初始实体识别模型进行训练的样本文本可以是开源数据集CLUENER的训练集中的样本,其中,该开源数据集CLUENER的训练集包括10748个样本,验证集包括1343个样本;该开源数据集CLUENER中的样本示例性的可以如以下格式示出:{“text”:“部分作品被北京地方艺术馆收藏。”,“label”:{“scene”:{“北京地方艺术馆”:[[5,11]]}}},表示:样本文本为:“部分作品被北京地方艺术馆收藏。”,该样本文本中包括景点类型的命名实体,该命名实体具体为:“北京地方艺术馆”,样本文本中字符从0开始计数,则该命名实体在该样本文本中处于第5个字符至第11个字符。更进一步的,为了提升训练得到的实体识别模型的泛化能力以及对于目标实体类型的命名实体的识别准确率以及覆盖率,可以在基于该开源数据集CLUENER对初始实体识别模型进行训练之后,构建多个包括了目标实体类型的命名实体的样本来进行进一步训练。
在一个实施例中,违规检测模型可以是通过对初始违规检测模型进行训练得到的,参见图9,为本申请实施例提供的一种训练初始违规检测模型的示意图,初始违规检测模型的训练方式可以包括:获取训练文本以及文本标签,文本标签用于指示:训练文本是否内容违规;通过初始违规检测模型,对训练文本进行文本特征提取处理,得到训练文本对应的文本特征;对训练文本对应的文本特征进行概率预测处理,得到训练文本被预测为内容违规的违规预测概率;基于训练文本对应的违规预测概率与文本标签之间的差异,对初始违规检测模型进行训练,以得到违规检测模型。可选的,初始违规检测模型的训练过程可以由广告处理设备执行,也可以由任意有计算力的电子设备单独或协同执行,本申请实施例不做限制,初始违规检测模型的训练过程与分类模型的训练过程类似,例如损失函数可以选用交叉熵损失函数,本申请不做赘述。
本申请实施例中,在基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本的过程中,可以将实体预测序列中包括了目标实体类型的实体标签的广告描述文本确定为备用广告描述文本,进而可以通过对比备用广告描述文本中的命名实体是否与参考命名实体重合,并在备用广告描述文本存在至少一个备用命名实体,与各个参考命名实体均不相同的情况下,将备用广告描述文本确定为候选广告描述文本,可以提高筛选得到的候选广告描述文本的准确性;进一步的,在对候选广告描述文本进行内容违规检测处理的过程中,可以引入目标广告的广告类型信息,使得可以提高违规检测结果的准确性;更进一步的,可以构建多个包括了目标实体类型的命名实体的样本来对初始实体识别模型进行进一步训练,可以提升训练得到的实体识别模型的泛化能力以及对于目标实体类型的命名实体的识别准确率以及覆盖率;综上所述,可以进一步提高判别广告是否违规的准确率以及对违规广告的召回率。
基于上述广告处理方法相关的实施例,本申请实施例提供了一种广告处理装置。参见图10,为本申请实施例提供的一种广告处理装置的结构示意图,该广告处理装置可包括获取单元1001以及处理单元1002。图10所示的广告处理装置可用于执行如下操作:
获取单元1001,用于获取目标广告对应的一个或多个广告描述文本;
处理单元1002,用于分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
所述处理单元1002,还用于基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
所述处理单元1002,还用于分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
所述处理单元1002,还用于若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
在一个实施例中,任一广告描述文本对应的实体预测序列由所述任一广告描述文本中各个字符对应的预测标签构成,任一预测标签是从多个实体标注标签中选取的,所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
所述处理单元1002基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本时,具体执行如下操作:
遍历所述各个广告描述文本对应的实体预测序列,若当前遍历的广告描述文本对应的实体预测序列中包括所述目标实体类型对应的实体标签,则将所述当前遍历的广告描述文本确定为备用广告描述文本;
根据所述备用广告描述文本对应的实体预测序列,从所述备用广告描述文本中提取备用命名实体;任一备用命名实体中各个字符对应的预测标签为实体标签;
将各个备用命名实体与多个参考命名实体进行对比;
若存在至少一个备用命名实体,与所述多个参考命名实体中各个参考命名实体均不相同,则将所述备用广告描述文本确定为一个候选广告描述文本。
在一个实施例中,所述处理单元1002对所述任一候选广告描述文本进行内容违规检测处理,得到所述任一候选广告描述文本对应的违规检测结果时,具体执行如下操作:
通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征;
对所述任一候选广告描述文本对应的文本特征进行概率预测处理,得到所述任一候选广告描述文本被预测为内容违规的违规预测概率;
若所述违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果。
在一个实施例中,所述获取单元1001还用于获取所述目标广告的广告类型信息;
所述处理单元1002通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征时,具体执行如下操作:
将所述任一候选广告描述文本以及所述目标广告的广告类型信息输入至所述违规检测模型;
通过所述违规检测模型,对所述任一候选广告描述文本以及所述目标广告的广告类型信息进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征。
在一个实施例中,所述处理单元1002对任一广告描述文本进行命名实体识别处理,得到所述任一广告描述文本对应的实体预测序列时,具体执行如下操作:
对所述任一广告描述文本进行语义特征编码处理,得到所述任一广告描述文本中各个字符对应的编码语义特征;
对所述各个字符对应的编码语义特征进行序列依赖特征提取处理,得到所述各个字符对应的序列依赖特征;
基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列。
在一个实施例中,所述处理单元1002基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列时,具体执行如下操作:
针对所述各个字符中的任一字符,对所述任一字符对应的序列依赖特征进行概率预测处理,得到所述任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率;所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
根据所述各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值;任一候选标签序列包括多个候选标签,所述任一候选标签序列中的候选标签与所述任一广告描述文本中的字符一一对应,任一候选标签是从所述多个实体标注标签中选取的;
将最大评价值所指示的候选标签序列确定为所述任一广告描述文本对应的实体预测序列。
在一个实施例中,所述任一广告描述文本包括N个字符,所述多个实体标注标签的数量为M,N,M为正整数;
所述处理单元1002根据所述各个字符对应的多个标签预测概率,为任一候选标签序列进行评价处理,得到所述任一候选标签序列的评价值时,具体执行如下操作:
针对所述任一候选标签序列中的第n个候选标签,获取所述第n个候选标签的标签转移概率;所述标签转移概率用于指示:从所述任一候选标签序列中的第n-1个候选标签转移至所述第n个候选标签的概率,n为小于或等于N的正整数;
基于所述任一广告描述文本中第n个字符,被预测为所述第n个候选标签的标签预测概率,以及所述标签转移概率,确定所述第n个字符的评价值;
根据所述N个字符的评价值,确定出所述任一候选标签序列的评价值。
在一个实施例中,所述各个广告描述文本对应的实体预测序列是通过实体识别模型得到的,所述实体识别模型是通过对初始实体识别模型进行训练得到的;
所述处理单元1002用于训练初始实体识别模型时,具体执行如下操作:
获取样本文本以及所述样本文本中各个样本字符对应的参考标签;任一样本字符对应的参考标签是从多个实体标注标签中选取的;
通过所述初始实体识别模型,对所述样本文本进行命名实体识别处理,得到所述样本文本对应的实体预测序列;所述样本文本对应的实体预测序列由所述样本文本中各个样本字符对应的预测标签构成,任一样本字符对应的预测标签是从所述多个实体标注标签中选取的;
基于所述样本文本对应的实体预测序列与所述样本文本对应的实体参考序列之间的差异,对所述初始实体识别模型进行训练,以得到所述实体识别模型;所述样本文本对应的实体参考序列是指:由所述各个样本字符对应的参考标签构成的序列。
根据本申请的一个实施例,图4以及图5所示的广告处理方法所涉及的各个步骤可以是由图10所示的广告处理装置中的各个单元来执行的。例如,图4所示的步骤S401可由图10所示的广告处理装置中的获取单元1001来执行,图4所示的步骤S402至步骤S405可由图10所示的广告处理装置中的处理单元1002来执行。又如,图5所示的步骤S501可由图10所示的广告处理装置中的获取单元1001来执行,图5所示的步骤S502至步骤S508可由图10所示的广告处理装置中的处理单元1002来执行。
根据本申请的另一个实施例,图10所示的广告处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现,例如上述各个单元所实现的功能可由一个处理单元实现。在本申请的其它实施例中,基于逻辑功能划分的广告处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4以及图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的广告处理装置,以及来实现本申请实施例广告处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,可以分别对目标广告对应的各个广告描述文本进行命名实体识别处理,得到各个广告描述文本对应的实体预测序列;进而基于各个广告描述文本对应的实体预测序列,从各个广告描述文本中确定出候选广告描述文本,使得任一候选广告描述文本对应的实体预测序列指示:该任一候选广告描述文本包括目标实体类型的命名实体;分别对各个候选广告描述文本进行内容违规检测处理,得到各个候选广告描述文本对应的违规检测结果;并在存在违规检测结果指示内容违规的候选广告描述文本的情况下,确定目标广告违规。也就是说,可以先基于命名实体识别处理,从目标广告对应的广告描述文本中筛选出包括目标实体类型的命名实体的广告描述文本,进而对此类广告描述文本进行违规检测,引入目标实体类型的命名实体作为先验知识,可以提高基于筛选后的广告描述文本判别广告是否违规的准确率以及对违规广告的召回率。
基于上述广告处理方法的相关实施例以及广告处理装置实施例,本申请还提供了一种广告处理设备。参见图11,为本申请实施例提供的一种广告处理设备的结构示意图。图11所示的广告处理设备可至少包括处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104。其中,处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104可通过总线或其他方式连接。
计算机存储介质1104可以存储在广告处理设备的存储器中,计算机存储介质1104用于存储计算机程序,计算机程序包括程序指令,处理器1101用于执行计算机存储介质1104存储的程序指令。处理器1101(或称CPU(Central Processing Unit,中央处理器))是广告处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述广告处理方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),计算机存储介质是广告处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速随机存取存储器(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器1101加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图4以及图5的广告处理方法实施例中的方法的相应步骤,具体实现中,计算机存储介质中的一条或多条指令由处理器1101加载并执行如下步骤:
获取目标广告对应的一个或多个广告描述文本;
分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
在一个实施例中,任一广告描述文本对应的实体预测序列由所述任一广告描述文本中各个字符对应的预测标签构成,任一预测标签是从多个实体标注标签中选取的,所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
所述处理器1101基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本时,具体执行如下操作:
遍历所述各个广告描述文本对应的实体预测序列,若当前遍历的广告描述文本对应的实体预测序列中包括所述目标实体类型对应的实体标签,则将所述当前遍历的广告描述文本确定为备用广告描述文本;
根据所述备用广告描述文本对应的实体预测序列,从所述备用广告描述文本中提取备用命名实体;任一备用命名实体中各个字符对应的预测标签为实体标签;
将各个备用命名实体与多个参考命名实体进行对比;
若存在至少一个备用命名实体,与所述多个参考命名实体中各个参考命名实体均不相同,则将所述备用广告描述文本确定为一个候选广告描述文本。
在一个实施例中,所述处理器1101对所述任一候选广告描述文本进行内容违规检测处理,得到所述任一候选广告描述文本对应的违规检测结果时,具体执行如下操作:
通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征;
对所述任一候选广告描述文本对应的文本特征进行概率预测处理,得到所述任一候选广告描述文本被预测为内容违规的违规预测概率;
若所述违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果。
在一个实施例中,所述处理器1101还用于获取所述目标广告的广告类型信息;
所述处理器1101通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征时,具体执行如下操作:
将所述任一候选广告描述文本以及所述目标广告的广告类型信息输入至所述违规检测模型;
通过所述违规检测模型,对所述任一候选广告描述文本以及所述目标广告的广告类型信息进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征。
在一个实施例中,所述处理器1101对任一广告描述文本进行命名实体识别处理,得到所述任一广告描述文本对应的实体预测序列时,具体执行如下操作:
对所述任一广告描述文本进行语义特征编码处理,得到所述任一广告描述文本中各个字符对应的编码语义特征;
对所述各个字符对应的编码语义特征进行序列依赖特征提取处理,得到所述各个字符对应的序列依赖特征;
基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列。
在一个实施例中,所述处理器1101基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列时,具体执行如下操作:
针对所述各个字符中的任一字符,对所述任一字符对应的序列依赖特征进行概率预测处理,得到所述任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率;所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
根据所述各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值;任一候选标签序列包括多个候选标签,所述任一候选标签序列中的候选标签与所述任一广告描述文本中的字符一一对应,任一候选标签是从所述多个实体标注标签中选取的;
将最大评价值所指示的候选标签序列确定为所述任一广告描述文本对应的实体预测序列。
在一个实施例中,所述任一广告描述文本包括N个字符,所述多个实体标注标签的数量为M,N,M为正整数;
所述处理器1101根据所述各个字符对应的多个标签预测概率,为任一候选标签序列进行评价处理,得到所述任一候选标签序列的评价值时,具体执行如下操作:
针对所述任一候选标签序列中的第n个候选标签,获取所述第n个候选标签的标签转移概率;所述标签转移概率用于指示:从所述任一候选标签序列中的第n-1个候选标签转移至所述第n个候选标签的概率,n为小于或等于N的正整数;
基于所述任一广告描述文本中第n个字符,被预测为所述第n个候选标签的标签预测概率,以及所述标签转移概率,确定所述第n个字符的评价值;
根据所述N个字符的评价值,确定出所述任一候选标签序列的评价值。
在一个实施例中,所述各个广告描述文本对应的实体预测序列是通过实体识别模型得到的,所述实体识别模型是通过对初始实体识别模型进行训练得到的;
所述处理器1101用于初始实体识别模型时,具体执行如下操作:
获取样本文本以及所述样本文本中各个样本字符对应的参考标签;任一样本字符对应的参考标签是从多个实体标注标签中选取的;
通过所述初始实体识别模型,对所述样本文本进行命名实体识别处理,得到所述样本文本对应的实体预测序列;所述样本文本对应的实体预测序列由所述样本文本中各个样本字符对应的预测标签构成,任一样本字符对应的预测标签是从所述多个实体标注标签中选取的;
基于所述样本文本对应的实体预测序列与所述样本文本对应的实体参考序列之间的差异,对所述初始实体识别模型进行训练,以得到所述实体识别模型;所述样本文本对应的实体参考序列是指:由所述各个样本字符对应的参考标签构成的序列。
本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;广告处理设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得广告处理设备执行上述如图4以及图5所示的方法实施例。其中,计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种广告处理方法,其特征在于,包括:
获取目标广告对应的一个或多个广告描述文本;
分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
2.如权利要求1所述的方法,其特征在于,任一广告描述文本对应的实体预测序列由所述任一广告描述文本中各个字符对应的预测标签构成,任一预测标签是从多个实体标注标签中选取的,所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
所述基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本,包括:
遍历所述各个广告描述文本对应的实体预测序列,若当前遍历的广告描述文本对应的实体预测序列中包括所述目标实体类型对应的实体标签,则将所述当前遍历的广告描述文本确定为备用广告描述文本;
根据所述备用广告描述文本对应的实体预测序列,从所述备用广告描述文本中提取备用命名实体;任一备用命名实体中各个字符对应的预测标签为实体标签;
将各个备用命名实体与多个参考命名实体进行对比;
若存在至少一个备用命名实体,与所述多个参考命名实体中各个参考命名实体均不相同,则将所述备用广告描述文本确定为一个候选广告描述文本。
3.如权利要求1所述的方法,其特征在于,对所述任一候选广告描述文本进行内容违规检测处理,得到所述任一候选广告描述文本对应的违规检测结果,包括:
通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征;
对所述任一候选广告描述文本对应的文本特征进行概率预测处理,得到所述任一候选广告描述文本被预测为内容违规的违规预测概率;
若所述违规预测概率大于预设概率阈值,则生成指示内容违规的违规检测结果,否则,生成指示内容不违规的违规检测结果。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述目标广告的广告类型信息;
所述通过违规检测模型,对所述任一候选广告描述文本进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征,包括:
将所述任一候选广告描述文本以及所述目标广告的广告类型信息输入至所述违规检测模型;
通过所述违规检测模型,对所述任一候选广告描述文本以及所述目标广告的广告类型信息进行文本特征提取处理,得到所述任一候选广告描述文本对应的文本特征。
5.如权利要求1所述的方法,其特征在于,对任一广告描述文本进行命名实体识别处理,得到所述任一广告描述文本对应的实体预测序列,包括:
对所述任一广告描述文本进行语义特征编码处理,得到所述任一广告描述文本中各个字符对应的编码语义特征;
对所述各个字符对应的编码语义特征进行序列依赖特征提取处理,得到所述各个字符对应的序列依赖特征;
基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列。
6.如权利要求5所述的方法,其特征在于,所述基于所述各个字符对应的序列依赖特征,预测所述任一广告描述文本对应的实体预测序列,包括:
针对所述各个字符中的任一字符,对所述任一字符对应的序列依赖特征进行概率预测处理,得到所述任一字符被预测为多个实体标注标签中各个实体标注标签的标签预测概率;所述多个实体标注标签包括非实体标签,以及多个预设实体类型中各个预设实体类型对应的实体标签,所述多个预设实体类型包括所述目标实体类型;
根据所述各个字符对应的多个标签预测概率,为多个候选标签序列进行评价处理,得到各个候选标签序列的评价值;任一候选标签序列包括多个候选标签,所述任一候选标签序列中的候选标签与所述任一广告描述文本中的字符一一对应,任一候选标签是从所述多个实体标注标签中选取的;
将最大评价值所指示的候选标签序列确定为所述任一广告描述文本对应的实体预测序列。
7.如权利要求6所述的方法,其特征在于,所述任一广告描述文本包括N个字符,所述多个实体标注标签的数量为M,N,M为正整数;
根据所述各个字符对应的多个标签预测概率,为任一候选标签序列进行评价处理,得到所述任一候选标签序列的评价值,包括:
针对所述任一候选标签序列中的第n个候选标签,获取所述第n个候选标签的标签转移概率;所述标签转移概率用于指示:从所述任一候选标签序列中的第n-1个候选标签转移至所述第n个候选标签的概率,n为小于或等于N的正整数;
基于所述任一广告描述文本中第n个字符,被预测为所述第n个候选标签的标签预测概率,以及所述标签转移概率,确定所述第n个字符的评价值;
根据所述N个字符的评价值,确定出所述任一候选标签序列的评价值。
8.如权利要求1所述的方法,其特征在于,所述各个广告描述文本对应的实体预测序列是通过实体识别模型得到的,所述实体识别模型是通过对初始实体识别模型进行训练得到的;
所述初始实体识别模型的训练方式包括:
获取样本文本以及所述样本文本中各个样本字符对应的参考标签;任一样本字符对应的参考标签是从多个实体标注标签中选取的;
通过所述初始实体识别模型,对所述样本文本进行命名实体识别处理,得到所述样本文本对应的实体预测序列;所述样本文本对应的实体预测序列由所述样本文本中各个样本字符对应的预测标签构成,任一样本字符对应的预测标签是从所述多个实体标注标签中选取的;
基于所述样本文本对应的实体预测序列与所述样本文本对应的实体参考序列之间的差异,对所述初始实体识别模型进行训练,以得到所述实体识别模型;所述样本文本对应的实体参考序列是指:由所述各个样本字符对应的参考标签构成的序列。
9.一种广告处理装置,其特征在于,包括:
获取单元,用于获取目标广告对应的一个或多个广告描述文本;
处理单元,用于分别对各个广告描述文本进行命名实体识别处理,得到所述各个广告描述文本对应的实体预测序列;
所述处理单元,还用于基于所述各个广告描述文本对应的实体预测序列,从所述各个广告描述文本中确定出候选广告描述文本;任一候选广告描述文本对应的实体预测序列指示:所述任一候选广告描述文本包括目标实体类型的命名实体;
所述处理单元,还用于分别对各个候选广告描述文本进行内容违规检测处理,得到所述各个候选广告描述文本对应的违规检测结果;任一违规检测结果用于指示是否内容违规;
所述处理单元,还用于若存在违规检测结果指示内容违规的候选广告描述文本,则确定所述目标广告违规。
10.一种广告处理设备,其特征在于,所述广告处理设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的广告处理方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-8任一项所述的广告处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310317312.4A CN116976976A (zh) | 2023-03-21 | 2023-03-21 | 广告处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310317312.4A CN116976976A (zh) | 2023-03-21 | 2023-03-21 | 广告处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976976A true CN116976976A (zh) | 2023-10-31 |
Family
ID=88478516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310317312.4A Pending CN116976976A (zh) | 2023-03-21 | 2023-03-21 | 广告处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976976A (zh) |
-
2023
- 2023-03-21 CN CN202310317312.4A patent/CN116976976A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN115659008B (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN111881398A (zh) | 页面类型确定方法、装置和设备及计算机存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN117351336A (zh) | 图像审核方法和相关设备 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN111597306B (zh) | 语句识别方法和装置、存储介质及电子设备 | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 | |
CN112101015B (zh) | 一种识别多标签对象的方法及装置 | |
CN116976976A (zh) | 广告处理方法、装置、设备及存储介质 | |
CN112364649B (zh) | 命名实体的识别方法、装置、计算机设备及存储介质 | |
CN114580533A (zh) | 特征提取模型的训练方法、装置、设备、介质及程序产品 | |
CN112818212B (zh) | 语料数据采集方法、装置、计算机设备和存储介质 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN113569741A (zh) | 图像试题的答案生成方法、装置、电子设备及可读介质 | |
CN113076453A (zh) | 域名分类方法、设备及计算机可读存储介质 | |
CN115114910B (zh) | 文本处理方法、装置、设备、存储介质及产品 | |
CN116992031B (zh) | 数据处理方法、装置、电子设备、存储介质及程序产品 | |
CN115905598B (zh) | 一种社会事件摘要生成的方法、装置、终端设备及介质 | |
CN117649117B (zh) | 处置方案的确定方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |