CN113849597A

CN113849597A - 基于命名实体识别的违法广告词检测方法

Info

Publication number: CN113849597A
Application number: CN202111012858.6A
Authority: CN
Inventors: 闫连山; 袁子博; 姚涛; 蒲桂东
Original assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd
Current assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-28
Anticipated expiration: 2041-08-31
Also published as: CN113849597B

Abstract

本发明提供基于命名实体识别的违法广告词检测方法，步骤1）将广告数据转化为文本格式，形成广告文本；步骤2）对广告领域进行分类，利用BERT中文预训练模型将广告文本按领域分类；步骤3）对应不同广告领域类别，根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本；步骤4）将标注文本分为训练集与验证集，将训练集映射到BERT中文预训练模型中获得动态字向量；步骤5）将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量；步骤6）将得分向量传入条件随机场CRF，CRF获取标签之间的关系，对最终预测的标签加以约束，得到最优标签，本发明通过深层网络BERT+BiLSTM+CRF结构学习违法词特征，达到提取违法词并匹配违法条例的功能。

Description

基于命名实体识别的违法广告词检测方法

技术领域

本发明属于信息技术领域，具体涉及基于命名实体识别的违法广告词检测方法。

背景技术

近年来，随着各产业的飞速发展，广告的宣传方式所占比重越来越大，我国的广告回报率一直在世界范围内名列前茅，所以各大行业更加重视广告宣传。但是伴随着广告增多，违法广告便泛滥起来，某些行业通过虚假广告来夸大产品，会使公众产成误解，从而对消费者造成欺骗甚至伤害。在一些特殊领域，如医疗行业，虚假的宣传信息会让患者对治疗产生错误认知，以至于耽误病情，所以违法广告的检测成为一个棘手的问题。

目前大部分的违法广告检测是通过相关技术人员进行人工筛选，效率低下，如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少，这是一个比较新的领域。近年来，随着深度网络的发展，逐渐有些研究提出使用深度网络解决违法检测的问题，但这些研究大多功能都不够完善，对违法广告的后续处理很难起到帮助。此外，对于广告而言，不同领域的广告有着不同的法律规定，所以很难用一种方法完成对所有类型的广告的检测。

发明内容

针对现有技术中的问题，本发明提供基于命名实体识别的违法广告词检测方法，基于命名实体识别的思想，通过深层网络BERT+BiLSTM+CRF结构学习违法词特征，达到提取违法词并匹配违法条例的功能。

为实现上述目的，本发明是通过以下技术方案实现的：

本发明提供基于命名实体识别的违法广告词检测方法，其特殊之处在于：包括以下步骤：

步骤1）对广告数据进行预处理，将广告数据转化为文本格式，形成广告文本；

步骤2）对广告领域进行分类，利用BERT中文预训练模型将广告文本按领域分类；

步骤3）对应步骤2中的不同广告领域类别，根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本；将广告文本中的违法词当作特殊实体，违法词对应的违法法条即为特殊实体的特征，不同的违法条例对应不同的标签，违法词通过标签实现标注；

步骤4）将标注文本分为训练集与验证集，将训练集映射到BERT中文预训练模型中获得动态字向量，字向量是将标注文本的字词转化成用数学表达的向量，动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息；

步骤5）将步骤4的动态字向量传入BiLSTM双向长短期记忆网络，BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征，结合特征输出每个字的得分向量，得分向量是每个字符对应相应标签概率的向量；

步骤6）将步骤5输出的得分向量传入条件随机场CRF，CRF获取标签之间的关系，对最终预测的标签加以约束，得到最优标签。

进一步的，广告数据包括图片、视频；违法条例对应的标签包括正常标签、违法标签，不涉及违法的字对应正常标签，违法词对应违法标签。

进一步的，在步骤5中，BiLSTM获取得分向量的计算流程表示为:

(1)

(2)

(3)

(4)

(5)

(6)

式中，

为文本长度，

为输入的广告文本的第

个字，

为sigmod激活函数，

、

分别为输入门、遗忘门、输出门，

为输入权重矩阵、

为输入偏置项，

为当前字的输入权重矩阵，

为输入门的输入权重矩阵，

为遗忘门的输入权重矩阵，

输出门的输入权重矩阵，

为当前字的输入权偏置项，

为输入门的输入偏置项，

为遗忘门的输入偏置项，

为输出门的输入偏置项，

为记忆细胞，

为临时细胞状态，

为当前细胞状态，

为前一个字细胞状态，

为字

的隐层状态，

为前一个字

的隐层状态，每个字的输出

和

到下一个字参与计算，并且将每个字的

保存，

包含了每个字结合过上下文语境信息后的特征，用于得到得分向量。

进一步的，在步骤6中，CRF根据训练集{x _i , y _i}获得状态转移矩阵，状态转移矩阵结合得分向量得到最优的标签，其中x _i为广告文本中的字，y _i为x _i对应的标签。

进一步的，状态转移矩阵表示为P_ij，i、j均为自然数且大于等于2，状态转移矩阵中的概率表示为两个标签前后顺序的概率，P_ij为标签i后面为标签j的概率。

进一步的，BERT中文预训练模型为BERT模型、BERT-WWM模型、RoBERTa模型中的任一种。

进一步的，在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。

本发明与现有技术相比，其有益之处在于：

与现有的违法广告检测方法相比，命名实体识别是识别和分类实体的过程，实体一般指人名、地名、时间等，而在此发明中将违法词当作特殊的实体，将违法法条当作实体的特征进行识别。不仅能做到对广告的违法识别，也能提取违法广告中的违法词并关联其触犯的违法条例。与现有的违法广告检测的方法相比，本发明的违法广告检测功能更加全面，现有的相关方法只能做到简单的违法识别，本方法可进一步的提取违法词并关联违法法条，对违法广告的后续处理和预防提供了便利。

本发明具有以下显著优点：

（1）避免了使用同义词替换混淆违法检测：

目前成熟的违法广告检测大都使用检索违法广告字典的方法，而字典里的词终归是有限的，有些不法商家就会利用替换同义词来“钻空子”，比如：“某某中医院痊愈有保障”，这句广告中的“痊愈”在医疗广告法律中属于违法范畴，但如果改成“某某中医院安全送你到家”，就可以逃过检测。本发明使用的NER的方法是根据语义来判断的，可以有效的避免这种情况。

（2）对广告进行分类避免了不同领域广告违法的错误判断：

面对不同领域的广告，都各自有一套不一样的广告规范，比如：医疗服务领域的广告是不允许出现类似“治愈”、“根治”等词语的，而在别的领域是没有这种规定的，所以不能将所有广告一概而论，否则会出现跨领域之间的错误识别，因此判断是否违法之前对广告领域进行分类是需要且必须的工作。

（3）可具体到违法词并匹配具体条例：

现有的违法广告检测功能不完善，有些只能笼统地判断一条广告是否违法，有些能提取到违法的关键词但不能具体到违法条例，有些能匹配违法条例却并不能提取关键词。本方法既能提取违法词，也能匹配违法条例，将多项功能进行了结合。

附图说明

图1为本发明的原理流程图。

图2为BERT+BiLSTM+CRF总体结构图。

图3为违法词提取任务流程图。

图4为LSTM单元结构图。

图5为广告领域分类的训练集结构。

图6为医疗广告领域的违法条例及相应标注。

图7为不同BERT预训练模型对比。

图8为不同网络结构的性能对比。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图1-8对本发明作进一步地详细描述。

实施例1

本发明基于命名实体识别的违法广告词检测方法，具体按照以下步骤进行：

步骤1）广告文本的形成：对广告数据进行预处理，将图片、视频等类型转化为文本格式。

步骤2）对广告文本进行领域分类：由于不同领域的广告都有相应不同的广告违法规范，所以需要对广告领域进行分类，这里使用BERT(Bidirectional EncoderRepresentations from Transformers)中文预训练模型训练分类器，此分类器的作用是将广告按领域进行分类，包括房地产、食品、医疗等领域，分为n类，n取自然数，n大于等于2，类别=（类别1、类别2、...、类别n）。

如图5使用BERT中文预训练模型训练分类器，本实施例将广告分成了12类，涉及医疗服务类、房地产类、食品类、互联网服务类等，比如广告文本“济南天大白癜风医院”属于医疗服务类广告领域。

步骤3）本实施例采用医疗领域广告进行试验，按《广告违法行为监测编码（2020年版）（20200326定稿）》，对广告文本按字粒度进行标注形成标注文本，对于指定的领域中，根据该领域的广告违法行为编码对广告文本进行标注。

一般的命名实体识别（NER）任务中是将姓名、地名和时间这些词语当成实体进行标注，而在本发明中将违法词当作特殊的实体，将违法法条当作实体的特征，不同的违法条例对应不同的标签，具体违法条例及相应标注如下图6，违法条例对应的标签包括正常标签、违法标签，不涉及违法的字对应正常标签，违法词对应违法标签，本发明只针对两种经常会连续出现的违法实体区分开始和内容标签即B与I，其余的违法实体皆不再区分开始和内容标签。

比如广告文本“同德医院微创放心治肿瘤”属于医疗服务类广告领域，那么广告文本的标注为：同/O德/O医/O院/O微/B-YL17创/I-YL17放/B-YL2心/I-YL2治/B-YL17肿/I-YL17瘤/I-YL17，其中O为正常标签，即不涉及违法；B/I-YL17、B/I-YL2为违法标签，在说明书附图6给出了医疗服务类的违法条例及相应标注，可用作参考与说明。

步骤4）将标注文本按5：1分为训练集与验证集，将训练集映射到BERT中文预训练模型中，获得BERT动态字向量的表示，字向量是将现实生活中抽象的字词转化成可以用数学表达的向量，在本申请中就是将标注文本的字词转化成用数学表达的向量；动态指BERT模型可以将每个输出的字向量都包含了字向量所在文本的上下文语境信息，结合上下文语境信息解决了一词多义的现象。其中BERT中文预训练模型采用Facebook发布的中文RoBERTa模型。

步骤5）将动态字向量序列传入长短期记忆网络BiLSTM (Bi-directionalLong-ShortTermMemory)，BiLSTM网络结合上下文语境信息得到每个字词的特征，这里的特征指对违法条例的描述，结合特征输出每个字的得分向量，得分向量是每个字符各标签概率的向量。

步骤6）将步骤5输出的得分向量传入条件随机场CRF(ConditionalRandomField)，CRF可以有效地获取标签之间的关系，对最终预测的标签加以一些约束，使模型得到最优标签。

步骤4至步骤6展示了使用BERT+BiLSTM+CRF网络结构，网络结构图如图2所示。最后实验结果就呈现如图3所示，被识别为实体的关键词视为违法词，并根据相应的标签关联违法条例。

在结合BiLSTM+CRF的网络结构下，图7是在对比何种BERT中文预训练模型效果更好，使用了三种中文预训练模型，分别是BERT模型、BERT-WWM模型和RoBERTa模型，实验结果表明RoBERTa中文预训练模型效果最佳。图8证明了在选用RoBERTa中文预训练模型的情况下，何种网络结构在实施本申请的方法时最有效，使用四种网络结构进行对比，分别是RoBERTa+BiGRU、RoBERTa+BiGRU+CRF、RoBERTa+BiLSTM、RoBERTa+BiLSTM+CRF，实验结果表明RoBERTa+BiLSTM+CRF网络结构效果最佳，其中GRU(GatedRecurrentUnit)网络是LSTM网络的一种变体。对于BERT中文预训练模型的其他模型参与的网络结构，BERT模型、BERT-WWM模型也能达到本申请的效果，但是RoBERTa模型的效果最优。

在经过参数对比实验之后，BERT+BiLSTM+CRF的网络结构精确率P可达到0.736，召回率R可达到0.852，F1值可达到0.790，F1值是对P和R综合评估，可以有效地识别违法广告，并找出违法关键词对应到相关违法条例。

系统的整体流程如图3，首先面对转换好的广告文本进行领域分类，系统会将此广告识别为医疗服务类，然后将这条广告传入医疗服务违法词提取系统，经过NER之后，每个字会被预测出一个标签，此例中“微创”被预测为实体YL17，“治痔疮”被预测也为实体YL17，而“到蒙东”记为非实体，这些实体所代表违法条例可在图6可见。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。