CN113849597A - 基于命名实体识别的违法广告词检测方法 - Google Patents

基于命名实体识别的违法广告词检测方法 Download PDF

Info

Publication number
CN113849597A
CN113849597A CN202111012858.6A CN202111012858A CN113849597A CN 113849597 A CN113849597 A CN 113849597A CN 202111012858 A CN202111012858 A CN 202111012858A CN 113849597 A CN113849597 A CN 113849597A
Authority
CN
China
Prior art keywords
illegal
advertisement
word
text
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111012858.6A
Other languages
English (en)
Other versions
CN113849597B (zh
Inventor
闫连山
袁子博
姚涛
蒲桂东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Aidian Shandong Technology Co ltd
Original Assignee
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Aidian Shandong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University, Aidian Shandong Technology Co ltd filed Critical Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority to CN202111012858.6A priority Critical patent/CN113849597B/zh
Publication of CN113849597A publication Critical patent/CN113849597A/zh
Application granted granted Critical
Publication of CN113849597B publication Critical patent/CN113849597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供基于命名实体识别的违法广告词检测方法,步骤1)将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量;步骤5)将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量;步骤6)将得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签,本发明通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。

Description

基于命名实体识别的违法广告词检测方法
技术领域
本发明属于信息技术领域,具体涉及基于命名实体识别的违法广告词检测方法。
背景技术
近年来,随着各产业的飞速发展,广告的宣传方式所占比重越来越大,我国的广告回报率一直在世界范围内名列前茅,所以各大行业更加重视广告宣传。但是伴随着广告增多,违法广告便泛滥起来,某些行业通过虚假广告来夸大产品,会使公众产成误解,从而对消费者造成欺骗甚至伤害。在一些特殊领域,如医疗行业,虚假的宣传信息会让患者对治疗产生错误认知,以至于耽误病情,所以违法广告的检测成为一个棘手的问题。
目前大部分的违法广告检测是通过相关技术人员进行人工筛选,效率低下,如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少,这是一个比较新的领域。近年来,随着深度网络的发展,逐渐有些研究提出使用深度网络解决违法检测的问题,但这些研究大多功能都不够完善,对违法广告的后续处理很难起到帮助。此外,对于广告而言,不同领域的广告有着不同的法律规定,所以很难用一种方法完成对所有类型的广告的检测。
发明内容
针对现有技术中的问题,本发明提供基于命名实体识别的违法广告词检测方法,基于命名实体识别的思想,通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。
为实现上述目的,本发明是通过以下技术方案实现的:
本发明提供基于命名实体识别的违法广告词检测方法,其特殊之处在于:包括以下步骤:
步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;
步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;
步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;
步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;
步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
Figure 669613DEST_PATH_IMAGE001
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
进一步的,广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
进一步的,在步骤5中,BiLSTM获取得分向量的计算流程表示为:
Figure 773704DEST_PATH_IMAGE002
(1)
Figure 553441DEST_PATH_IMAGE003
(2)
Figure 948651DEST_PATH_IMAGE004
(3)
Figure 700706DEST_PATH_IMAGE005
(4)
Figure 523168DEST_PATH_IMAGE006
(5)
Figure 977152DEST_PATH_IMAGE007
(6)
式中,
Figure 176053DEST_PATH_IMAGE008
为文本长度,
Figure 844931DEST_PATH_IMAGE009
为输入的广告文本的第
Figure 775978DEST_PATH_IMAGE008
个字,
Figure 530308DEST_PATH_IMAGE010
为sigmod激活函数,
Figure 267319DEST_PATH_IMAGE011
Figure 915338DEST_PATH_IMAGE012
Figure 532133DEST_PATH_IMAGE013
分别为输入门、遗忘门、输出门,
Figure 773759DEST_PATH_IMAGE014
为输入权重矩阵、
Figure 48882DEST_PATH_IMAGE015
为输入偏置项,
Figure 630037DEST_PATH_IMAGE016
为当前字的输入权重矩阵,
Figure 965203DEST_PATH_IMAGE017
为输入门的输入权重矩阵,
Figure 694125DEST_PATH_IMAGE018
为遗忘门的输入权重矩阵,
Figure 959890DEST_PATH_IMAGE019
输出门的输入权重矩阵,
Figure 457867DEST_PATH_IMAGE020
为当前字的输入权偏置项,
Figure 167197DEST_PATH_IMAGE021
为输入门的输入偏置项,
Figure 117836DEST_PATH_IMAGE022
为遗忘门的输入偏置项,
Figure 341DEST_PATH_IMAGE023
为输出门的输入偏置项,
Figure 533916DEST_PATH_IMAGE024
为记忆细胞,
Figure 476464DEST_PATH_IMAGE025
为临时细胞状态,
Figure 852082DEST_PATH_IMAGE026
为当前细胞状态,
Figure 272699DEST_PATH_IMAGE027
为前一个字细胞状态,
Figure 745269DEST_PATH_IMAGE028
为字
Figure 45669DEST_PATH_IMAGE009
的隐层状态,
Figure 970900DEST_PATH_IMAGE029
为前一个字
Figure 132891DEST_PATH_IMAGE030
的隐层状态,每个字的输出
Figure 194388DEST_PATH_IMAGE026
Figure 478738DEST_PATH_IMAGE028
到下一个字参与计算,并且将每个字的
Figure 78216DEST_PATH_IMAGE031
保存,
Figure 106215DEST_PATH_IMAGE031
包含了每个字结合过上下文语境信息后的特征,用于得到得分向量。
进一步的,在步骤6中,CRF根据训练集{x i , y i }获得状态转移矩阵,状态转移矩阵结合得分向量得到最优的标签,其中x i 为广告文本中的字,y i x i 对应的标签。
进一步的,状态转移矩阵表示为Pij,i、j均为自然数且大于等于2,状态转移矩阵中的概率表示为两个标签前后顺序的概率,Pij为标签i后面为标签j的概率。
Figure 225480DEST_PATH_IMAGE032
进一步的,BERT中文预训练模型为BERT模型、BERT-WWM模型、RoBERTa模型中的任一种。
进一步的,在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。
本发明与现有技术相比,其有益之处在于:
与现有的违法广告检测方法相比,命名实体识别是识别和分类实体的过程,实体一般指人名、地名、时间等,而在此发明中将违法词当作特殊的实体,将违法法条当作实体的特征进行识别。不仅能做到对广告的违法识别,也能提取违法广告中的违法词并关联其触犯的违法条例。与现有的违法广告检测的方法相比,本发明的违法广告检测功能更加全面,现有的相关方法只能做到简单的违法识别,本方法可进一步的提取违法词并关联违法法条,对违法广告的后续处理和预防提供了便利。
本发明具有以下显著优点:
(1)避免了使用同义词替换混淆违法检测:
目前成熟的违法广告检测大都使用检索违法广告字典的方法,而字典里的词终归是有限的,有些不法商家就会利用替换同义词来“钻空子”,比如:“某某中医院痊愈有保障”,这句广告中的“痊愈”在医疗广告法律中属于违法范畴,但如果改成“某某中医院安全送你到家”,就可以逃过检测。本发明使用的NER的方法是根据语义来判断的,可以有效的避免这种情况。
(2)对广告进行分类避免了不同领域广告违法的错误判断:
面对不同领域的广告,都各自有一套不一样的广告规范,比如:医疗服务领域的广告是不允许出现类似“治愈”、“根治”等词语的,而在别的领域是没有这种规定的,所以不能将所有广告一概而论,否则会出现跨领域之间的错误识别,因此判断是否违法之前对广告领域进行分类是需要且必须的工作。
(3)可具体到违法词并匹配具体条例:
现有的违法广告检测功能不完善,有些只能笼统地判断一条广告是否违法,有些能提取到违法的关键词但不能具体到违法条例,有些能匹配违法条例却并不能提取关键词。本方法既能提取违法词,也能匹配违法条例,将多项功能进行了结合。
附图说明
图1为本发明的原理流程图。
图2为BERT+BiLSTM+CRF总体结构图。
图3为违法词提取任务流程图。
图4为LSTM单元结构图。
图5为广告领域分类的训练集结构。
图6为医疗广告领域的违法条例及相应标注。
图7为不同BERT预训练模型对比。
图8为不同网络结构的性能对比。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图1-8对本发明作进一步地详细描述。
实施例1
本发明基于命名实体识别的违法广告词检测方法,具体按照以下步骤进行:
步骤1)广告文本的形成:对广告数据进行预处理,将图片、视频等类型转化为文本格式。
步骤2)对广告文本进行领域分类:由于不同领域的广告都有相应不同的广告违法规范,所以需要对广告领域进行分类,这里使用BERT(Bidirectional EncoderRepresentations from Transformers)中文预训练模型训练分类器,此分类器的作用是将广告按领域进行分类,包括房地产、食品、医疗等领域,分为n类,n取自然数,n大于等于2,类别=(类别1、类别2、...、类别n)。
如图5使用BERT中文预训练模型训练分类器,本实施例将广告分成了12类,涉及医疗服务类、房地产类、食品类、互联网服务类等,比如广告文本“济南天大白癜风医院”属于医疗服务类广告领域。
步骤3)本实施例采用医疗领域广告进行试验,按《广告违法行为监测编码(2020年版)(20200326定稿)》,对广告文本按字粒度进行标注形成标注文本,对于指定的领域中,根据该领域的广告违法行为编码对广告文本进行标注。
一般的命名实体识别(NER)任务中是将姓名、地名和时间这些词语当成实体进行标注,而在本发明中将违法词当作特殊的实体,将违法法条当作实体的特征,不同的违法条例对应不同的标签,具体违法条例及相应标注如下图6,违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签,本发明只针对两种经常会连续出现的违法实体区分开始和内容标签即B与I,其余的违法实体皆不再区分开始和内容标签。
比如广告文本“同德医院微创放心治肿瘤”属于医疗服务类广告领域,那么广告文本的标注为:同/O德/O医/O院/O微/B-YL17创/I-YL17放/B-YL2心/I-YL2治/B-YL17肿/I-YL17瘤/I-YL17,其中O为正常标签,即不涉及违法;B/I-YL17、B/I-YL2为违法标签,在说明书附图6给出了医疗服务类的违法条例及相应标注,可用作参考与说明。
步骤4)将标注文本按5:1分为训练集与验证集,将训练集映射到BERT中文预训练模型中,获得BERT动态字向量的表示,字向量是将现实生活中抽象的字词转化成可以用数学表达的向量,在本申请中就是将标注文本的字词转化成用数学表达的向量;动态指BERT模型可以将每个输出的字向量都包含了字向量所在文本的上下文语境信息,结合上下文语境信息解决了一词多义的现象。其中BERT中文预训练模型采用Facebook发布的中文RoBERTa模型。
步骤5)将动态字向量序列传入长短期记忆网络BiLSTM (Bi-directionalLong-ShortTermMemory),BiLSTM网络结合上下文语境信息得到每个字词的特征,这里的特征指对违法条例的描述,结合特征输出每个字的得分向量,得分向量是每个字符各标签概率的向量。
Figure 415153DEST_PATH_IMAGE033
步骤6)将步骤5输出的得分向量传入条件随机场CRF(ConditionalRandomField),CRF可以有效地获取标签之间的关系,对最终预测的标签加以一些约束,使模型得到最优标签。
步骤4至步骤6展示了使用BERT+BiLSTM+CRF网络结构,网络结构图如图2所示。最后实验结果就呈现如图3所示,被识别为实体的关键词视为违法词,并根据相应的标签关联违法条例。
在结合BiLSTM+CRF的网络结构下,图7是在对比何种BERT中文预训练模型效果更好,使用了三种中文预训练模型,分别是BERT模型、BERT-WWM模型和RoBERTa模型,实验结果表明RoBERTa中文预训练模型效果最佳。图8证明了在选用RoBERTa中文预训练模型的情况下,何种网络结构在实施本申请的方法时最有效,使用四种网络结构进行对比,分别是RoBERTa+BiGRU、RoBERTa+BiGRU+CRF、RoBERTa+BiLSTM、RoBERTa+BiLSTM+CRF,实验结果表明RoBERTa+BiLSTM+CRF网络结构效果最佳,其中GRU(GatedRecurrentUnit)网络是LSTM网络的一种变体。对于BERT中文预训练模型的其他模型参与的网络结构,BERT模型、BERT-WWM模型也能达到本申请的效果,但是RoBERTa模型的效果最优。
在经过参数对比实验之后,BERT+BiLSTM+CRF的网络结构精确率P可达到0.736,召回率R可达到0.852,F1值可达到0.790,F1值是对P和R综合评估,可以有效地识别违法广告,并找出违法关键词对应到相关违法条例。
系统的整体流程如图3,首先面对转换好的广告文本进行领域分类,系统会将此广告识别为医疗服务类,然后将这条广告传入医疗服务违法词提取系统,经过NER之后,每个字会被预测出一个标签,此例中“微创”被预测为实体YL17,“治痔疮”被预测也为实体YL17,而“到蒙东”记为非实体,这些实体所代表违法条例可在图6可见。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.基于命名实体识别的违法广告词检测方法,其特征在于:包括以下步骤:
步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;
步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;
步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;
将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;
步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;
步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
Figure 482213DEST_PATH_IMAGE001
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
2.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
3.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中,BiLSTM获取得分向量的计算流程表示为:
Figure 235274DEST_PATH_IMAGE002
(1)
Figure 536942DEST_PATH_IMAGE003
(2)
Figure 835199DEST_PATH_IMAGE004
(3)
Figure 222318DEST_PATH_IMAGE005
(4)
Figure 779071DEST_PATH_IMAGE006
(5)
Figure 669666DEST_PATH_IMAGE007
(6)
式中,
Figure 404404DEST_PATH_IMAGE008
为文本长度,
Figure 13240DEST_PATH_IMAGE009
为输入的广告文本的第
Figure 373683DEST_PATH_IMAGE008
个字,
Figure 384364DEST_PATH_IMAGE010
为sigmod激活函数,
Figure 290003DEST_PATH_IMAGE011
Figure 386135DEST_PATH_IMAGE012
Figure 290550DEST_PATH_IMAGE013
分别为输入门、遗忘门、输出门,
Figure 155737DEST_PATH_IMAGE014
为输入权重矩阵、
Figure 232278DEST_PATH_IMAGE015
为输入偏置项,
Figure 815706DEST_PATH_IMAGE016
为当前字的输入权重矩阵,
Figure 252372DEST_PATH_IMAGE017
为输入门的输入权重矩阵,
Figure 175329DEST_PATH_IMAGE018
为遗忘门的输入权重矩阵,
Figure 485088DEST_PATH_IMAGE019
输出门的输入权重矩阵,
Figure 742762DEST_PATH_IMAGE020
为当前字的输入权偏置项,
Figure 796169DEST_PATH_IMAGE021
为输入门的输入偏置项,
Figure 885217DEST_PATH_IMAGE022
为遗忘门的输入偏置项,
Figure 365877DEST_PATH_IMAGE023
为输出门的输入偏置项,
Figure 596001DEST_PATH_IMAGE024
为记忆细胞,
Figure 453098DEST_PATH_IMAGE025
为临时细胞状态,
Figure 147385DEST_PATH_IMAGE026
为当前细胞状态,
Figure 985897DEST_PATH_IMAGE027
为前一个字细胞状态,
Figure 31213DEST_PATH_IMAGE028
为字
Figure 364105DEST_PATH_IMAGE009
的隐层状态,
Figure 912898DEST_PATH_IMAGE029
为前一个字
Figure 940DEST_PATH_IMAGE030
的隐层状态,每个字的输出
Figure 454924DEST_PATH_IMAGE026
Figure 653824DEST_PATH_IMAGE028
到下一个字参与计算,并且将每个字的
Figure 994807DEST_PATH_IMAGE031
保存,
Figure 253750DEST_PATH_IMAGE031
包含了每个字结合过上下文语境信息后的特征,用于得到得分向量。
4.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤6中,CRF根据训练集{x i , y i }获得状态转移矩阵,状态转移矩阵结合得分向量得到最优的标签,其中x i 为广告文本中的字,y i x i 对应的标签。
5.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:状态转移矩阵表示为Pij
Figure 8079DEST_PATH_IMAGE032
其中,i、j均为自然数且大于等于2,状态转移矩阵中的概率表示为两个标签前后顺序的概率,Pij为标签i后面为标签j的概率。
6.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:BERT中文预训练模型为BERT模型、BERT-WWM模型、RoBERTa模型中的任一种。
7.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。
CN202111012858.6A 2021-08-31 2021-08-31 基于命名实体识别的违法广告词检测方法 Active CN113849597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012858.6A CN113849597B (zh) 2021-08-31 2021-08-31 基于命名实体识别的违法广告词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012858.6A CN113849597B (zh) 2021-08-31 2021-08-31 基于命名实体识别的违法广告词检测方法

Publications (2)

Publication Number Publication Date
CN113849597A true CN113849597A (zh) 2021-12-28
CN113849597B CN113849597B (zh) 2024-04-30

Family

ID=78976749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012858.6A Active CN113849597B (zh) 2021-08-31 2021-08-31 基于命名实体识别的违法广告词检测方法

Country Status (1)

Country Link
CN (1) CN113849597B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817996A (zh) * 2021-02-23 2021-05-18 杭州安恒信息技术股份有限公司 一种违法关键词库的更新方法、装置、设备及存储介质
CN114897566A (zh) * 2022-03-21 2022-08-12 晨雨初听(武汉)文化艺术传播有限公司 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统
CN115168568A (zh) * 2022-03-16 2022-10-11 腾讯科技(深圳)有限公司 一种数据内容的识别方法、装置以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢腾;杨俊安;刘辉;: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机系统应用, no. 07, 15 July 2020 (2020-07-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817996A (zh) * 2021-02-23 2021-05-18 杭州安恒信息技术股份有限公司 一种违法关键词库的更新方法、装置、设备及存储介质
CN115168568A (zh) * 2022-03-16 2022-10-11 腾讯科技(深圳)有限公司 一种数据内容的识别方法、装置以及存储介质
CN115168568B (zh) * 2022-03-16 2024-04-05 腾讯科技(深圳)有限公司 一种数据内容的识别方法、装置以及存储介质
CN114897566A (zh) * 2022-03-21 2022-08-12 晨雨初听(武汉)文化艺术传播有限公司 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统
CN114897566B (zh) * 2022-03-21 2023-08-04 深圳市单仁牛商科技股份有限公司 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统

Also Published As

Publication number Publication date
CN113849597B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN112163416B (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
Sun et al. Exploring eWOM in online customer reviews: Sentiment analysis at a fine-grained level
CN109325228B (zh) 英文事件触发词抽取方法和系统
CN113849597A (zh) 基于命名实体识别的违法广告词检测方法
US11886815B2 (en) Self-supervised document representation learning
Chan et al. A text-based decision support system for financial sequence prediction
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Tran et al. Understanding what the users say in chatbots: A case study for the Vietnamese language
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
Reganti et al. Modeling satire in English text for automatic detection
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
TW202422362A (zh) 敏感性資料識別方法、裝置、設備及電腦存儲介質
CN115757775B (zh) 基于文本蕴含的无触发词文本事件检测方法及系统
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN115455202A (zh) 一种应急事件事理图谱构建方法
CN105389303A (zh) 一种异源语料自动融合方法
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
Hua et al. A character-level method for text classification
CN111274403A (zh) 一种网络欺凌检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant