CN113849597A - 基于命名实体识别的违法广告词检测方法 - Google Patents
基于命名实体识别的违法广告词检测方法 Download PDFInfo
- Publication number
- CN113849597A CN113849597A CN202111012858.6A CN202111012858A CN113849597A CN 113849597 A CN113849597 A CN 113849597A CN 202111012858 A CN202111012858 A CN 202111012858A CN 113849597 A CN113849597 A CN 113849597A
- Authority
- CN
- China
- Prior art keywords
- illegal
- advertisement
- word
- text
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 22
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012795 verification Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 101100533306 Mus musculus Setx gene Proteins 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 2
- 101000663557 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 60S ribosomal protein L17-A Proteins 0.000 description 2
- 101000663555 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 60S ribosomal protein L17-B Proteins 0.000 description 2
- 101001070648 Schizosaccharomyces pombe (strain 972 / ATCC 24843) 60S ribosomal protein L20-A Proteins 0.000 description 2
- 101001070656 Schizosaccharomyces pombe (strain 972 / ATCC 24843) 60S ribosomal protein L20-B Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014617 hemorrhoid Diseases 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Computational Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供基于命名实体识别的违法广告词检测方法,步骤1)将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量;步骤5)将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量;步骤6)将得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签,本发明通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。
Description
技术领域
本发明属于信息技术领域,具体涉及基于命名实体识别的违法广告词检测方法。
背景技术
近年来,随着各产业的飞速发展,广告的宣传方式所占比重越来越大,我国的广告回报率一直在世界范围内名列前茅,所以各大行业更加重视广告宣传。但是伴随着广告增多,违法广告便泛滥起来,某些行业通过虚假广告来夸大产品,会使公众产成误解,从而对消费者造成欺骗甚至伤害。在一些特殊领域,如医疗行业,虚假的宣传信息会让患者对治疗产生错误认知,以至于耽误病情,所以违法广告的检测成为一个棘手的问题。
目前大部分的违法广告检测是通过相关技术人员进行人工筛选,效率低下,如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少,这是一个比较新的领域。近年来,随着深度网络的发展,逐渐有些研究提出使用深度网络解决违法检测的问题,但这些研究大多功能都不够完善,对违法广告的后续处理很难起到帮助。此外,对于广告而言,不同领域的广告有着不同的法律规定,所以很难用一种方法完成对所有类型的广告的检测。
发明内容
针对现有技术中的问题,本发明提供基于命名实体识别的违法广告词检测方法,基于命名实体识别的思想,通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。
为实现上述目的,本发明是通过以下技术方案实现的:
本发明提供基于命名实体识别的违法广告词检测方法,其特殊之处在于:包括以下步骤:
步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;
步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;
步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;
步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;
步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
进一步的,广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
进一步的,在步骤5中,BiLSTM获取得分向量的计算流程表示为:
式中,为文本长度,为输入的广告文本的第个字,为sigmod激活函数,、、分别为输入门、遗忘门、输出门,为输入权重矩阵、为输入偏置项, 为当前字的输入权重矩阵,为输入门的输入权重矩阵,为遗忘门的输入权重矩阵,输出门的输入权重矩阵,为当前字的输入权偏置项,为输入门的输入偏置项,为遗忘门的输入偏置项,为输出门的输入偏置项,为记忆细胞,为临时细胞状态,为当前细胞状态,为前一个字细胞状态,为字的隐层状态,为前一个字的隐层状态,每个字的输出和到下一个字参与计算,并且将每个字的保存,包含了每个字结合过上下文语境信息后的特征,用于得到得分向量。
进一步的,在步骤6中,CRF根据训练集{x i , y i }获得状态转移矩阵,状态转移矩阵结合得分向量得到最优的标签,其中x i 为广告文本中的字,y i 为x i 对应的标签。
进一步的,状态转移矩阵表示为Pij,i、j均为自然数且大于等于2,状态转移矩阵中的概率表示为两个标签前后顺序的概率,Pij为标签i后面为标签j的概率。
进一步的,BERT中文预训练模型为BERT模型、BERT-WWM模型、RoBERTa模型中的任一种。
进一步的,在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。
本发明与现有技术相比,其有益之处在于:
与现有的违法广告检测方法相比,命名实体识别是识别和分类实体的过程,实体一般指人名、地名、时间等,而在此发明中将违法词当作特殊的实体,将违法法条当作实体的特征进行识别。不仅能做到对广告的违法识别,也能提取违法广告中的违法词并关联其触犯的违法条例。与现有的违法广告检测的方法相比,本发明的违法广告检测功能更加全面,现有的相关方法只能做到简单的违法识别,本方法可进一步的提取违法词并关联违法法条,对违法广告的后续处理和预防提供了便利。
本发明具有以下显著优点:
(1)避免了使用同义词替换混淆违法检测:
目前成熟的违法广告检测大都使用检索违法广告字典的方法,而字典里的词终归是有限的,有些不法商家就会利用替换同义词来“钻空子”,比如:“某某中医院痊愈有保障”,这句广告中的“痊愈”在医疗广告法律中属于违法范畴,但如果改成“某某中医院安全送你到家”,就可以逃过检测。本发明使用的NER的方法是根据语义来判断的,可以有效的避免这种情况。
(2)对广告进行分类避免了不同领域广告违法的错误判断:
面对不同领域的广告,都各自有一套不一样的广告规范,比如:医疗服务领域的广告是不允许出现类似“治愈”、“根治”等词语的,而在别的领域是没有这种规定的,所以不能将所有广告一概而论,否则会出现跨领域之间的错误识别,因此判断是否违法之前对广告领域进行分类是需要且必须的工作。
(3)可具体到违法词并匹配具体条例:
现有的违法广告检测功能不完善,有些只能笼统地判断一条广告是否违法,有些能提取到违法的关键词但不能具体到违法条例,有些能匹配违法条例却并不能提取关键词。本方法既能提取违法词,也能匹配违法条例,将多项功能进行了结合。
附图说明
图1为本发明的原理流程图。
图2为BERT+BiLSTM+CRF总体结构图。
图3为违法词提取任务流程图。
图4为LSTM单元结构图。
图5为广告领域分类的训练集结构。
图6为医疗广告领域的违法条例及相应标注。
图7为不同BERT预训练模型对比。
图8为不同网络结构的性能对比。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图1-8对本发明作进一步地详细描述。
实施例1
本发明基于命名实体识别的违法广告词检测方法,具体按照以下步骤进行:
步骤1)广告文本的形成:对广告数据进行预处理,将图片、视频等类型转化为文本格式。
步骤2)对广告文本进行领域分类:由于不同领域的广告都有相应不同的广告违法规范,所以需要对广告领域进行分类,这里使用BERT(Bidirectional EncoderRepresentations from Transformers)中文预训练模型训练分类器,此分类器的作用是将广告按领域进行分类,包括房地产、食品、医疗等领域,分为n类,n取自然数,n大于等于2,类别=(类别1、类别2、...、类别n)。
如图5使用BERT中文预训练模型训练分类器,本实施例将广告分成了12类,涉及医疗服务类、房地产类、食品类、互联网服务类等,比如广告文本“济南天大白癜风医院”属于医疗服务类广告领域。
步骤3)本实施例采用医疗领域广告进行试验,按《广告违法行为监测编码(2020年版)(20200326定稿)》,对广告文本按字粒度进行标注形成标注文本,对于指定的领域中,根据该领域的广告违法行为编码对广告文本进行标注。
一般的命名实体识别(NER)任务中是将姓名、地名和时间这些词语当成实体进行标注,而在本发明中将违法词当作特殊的实体,将违法法条当作实体的特征,不同的违法条例对应不同的标签,具体违法条例及相应标注如下图6,违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签,本发明只针对两种经常会连续出现的违法实体区分开始和内容标签即B与I,其余的违法实体皆不再区分开始和内容标签。
比如广告文本“同德医院微创放心治肿瘤”属于医疗服务类广告领域,那么广告文本的标注为:同/O德/O医/O院/O微/B-YL17创/I-YL17放/B-YL2心/I-YL2治/B-YL17肿/I-YL17瘤/I-YL17,其中O为正常标签,即不涉及违法;B/I-YL17、B/I-YL2为违法标签,在说明书附图6给出了医疗服务类的违法条例及相应标注,可用作参考与说明。
步骤4)将标注文本按5:1分为训练集与验证集,将训练集映射到BERT中文预训练模型中,获得BERT动态字向量的表示,字向量是将现实生活中抽象的字词转化成可以用数学表达的向量,在本申请中就是将标注文本的字词转化成用数学表达的向量;动态指BERT模型可以将每个输出的字向量都包含了字向量所在文本的上下文语境信息,结合上下文语境信息解决了一词多义的现象。其中BERT中文预训练模型采用Facebook发布的中文RoBERTa模型。
步骤5)将动态字向量序列传入长短期记忆网络BiLSTM (Bi-directionalLong-ShortTermMemory),BiLSTM网络结合上下文语境信息得到每个字词的特征,这里的特征指对违法条例的描述,结合特征输出每个字的得分向量,得分向量是每个字符各标签概率的向量。
步骤6)将步骤5输出的得分向量传入条件随机场CRF(ConditionalRandomField),CRF可以有效地获取标签之间的关系,对最终预测的标签加以一些约束,使模型得到最优标签。
步骤4至步骤6展示了使用BERT+BiLSTM+CRF网络结构,网络结构图如图2所示。最后实验结果就呈现如图3所示,被识别为实体的关键词视为违法词,并根据相应的标签关联违法条例。
在结合BiLSTM+CRF的网络结构下,图7是在对比何种BERT中文预训练模型效果更好,使用了三种中文预训练模型,分别是BERT模型、BERT-WWM模型和RoBERTa模型,实验结果表明RoBERTa中文预训练模型效果最佳。图8证明了在选用RoBERTa中文预训练模型的情况下,何种网络结构在实施本申请的方法时最有效,使用四种网络结构进行对比,分别是RoBERTa+BiGRU、RoBERTa+BiGRU+CRF、RoBERTa+BiLSTM、RoBERTa+BiLSTM+CRF,实验结果表明RoBERTa+BiLSTM+CRF网络结构效果最佳,其中GRU(GatedRecurrentUnit)网络是LSTM网络的一种变体。对于BERT中文预训练模型的其他模型参与的网络结构,BERT模型、BERT-WWM模型也能达到本申请的效果,但是RoBERTa模型的效果最优。
在经过参数对比实验之后,BERT+BiLSTM+CRF的网络结构精确率P可达到0.736,召回率R可达到0.852,F1值可达到0.790,F1值是对P和R综合评估,可以有效地识别违法广告,并找出违法关键词对应到相关违法条例。
系统的整体流程如图3,首先面对转换好的广告文本进行领域分类,系统会将此广告识别为医疗服务类,然后将这条广告传入医疗服务违法词提取系统,经过NER之后,每个字会被预测出一个标签,此例中“微创”被预测为实体YL17,“治痔疮”被预测也为实体YL17,而“到蒙东”记为非实体,这些实体所代表违法条例可在图6可见。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.基于命名实体识别的违法广告词检测方法,其特征在于:包括以下步骤:
步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;
步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;
步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;
将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;
步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;
步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
2.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
3.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中,BiLSTM获取得分向量的计算流程表示为:
4.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤6中,CRF根据训练集{x i , y i }获得状态转移矩阵,状态转移矩阵结合得分向量得到最优的标签,其中x i 为广告文本中的字,y i 为x i 对应的标签。
6.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:BERT中文预训练模型为BERT模型、BERT-WWM模型、RoBERTa模型中的任一种。
7.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中得分向量通过BiLSTM、BiGRU中的任一种进行获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012858.6A CN113849597B (zh) | 2021-08-31 | 2021-08-31 | 基于命名实体识别的违法广告词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012858.6A CN113849597B (zh) | 2021-08-31 | 2021-08-31 | 基于命名实体识别的违法广告词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849597A true CN113849597A (zh) | 2021-12-28 |
CN113849597B CN113849597B (zh) | 2024-04-30 |
Family
ID=78976749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111012858.6A Active CN113849597B (zh) | 2021-08-31 | 2021-08-31 | 基于命名实体识别的违法广告词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849597B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817996A (zh) * | 2021-02-23 | 2021-05-18 | 杭州安恒信息技术股份有限公司 | 一种违法关键词库的更新方法、装置、设备及存储介质 |
CN114897566A (zh) * | 2022-03-21 | 2022-08-12 | 晨雨初听(武汉)文化艺术传播有限公司 | 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
WO2021043085A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
-
2021
- 2021-08-31 CN CN202111012858.6A patent/CN113849597B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
WO2021043085A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
Non-Patent Citations (1)
Title |
---|
谢腾;杨俊安;刘辉;: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机系统应用, no. 07, 15 July 2020 (2020-07-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817996A (zh) * | 2021-02-23 | 2021-05-18 | 杭州安恒信息技术股份有限公司 | 一种违法关键词库的更新方法、装置、设备及存储介质 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN115168568B (zh) * | 2022-03-16 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN114897566A (zh) * | 2022-03-21 | 2022-08-12 | 晨雨初听(武汉)文化艺术传播有限公司 | 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 |
CN114897566B (zh) * | 2022-03-21 | 2023-08-04 | 深圳市单仁牛商科技股份有限公司 | 一种基于大数据的短视频合规性在线诊断分析方法及诊断分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113849597B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163416B (zh) | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 | |
Sun et al. | Exploring eWOM in online customer reviews: Sentiment analysis at a fine-grained level | |
CN109325228B (zh) | 英文事件触发词抽取方法和系统 | |
CN113849597A (zh) | 基于命名实体识别的违法广告词检测方法 | |
US11886815B2 (en) | Self-supervised document representation learning | |
Chan et al. | A text-based decision support system for financial sequence prediction | |
Daumé III et al. | A large-scale exploration of effective global features for a joint entity detection and tracking model | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
Tran et al. | Understanding what the users say in chatbots: A case study for the Vietnamese language | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
Reganti et al. | Modeling satire in English text for automatic detection | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
TW202422362A (zh) | 敏感性資料識別方法、裝置、設備及電腦存儲介質 | |
CN115757775B (zh) | 基于文本蕴含的无触发词文本事件检测方法及系统 | |
CN110008699A (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
CN105389303A (zh) | 一种异源语料自动融合方法 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN113761128A (zh) | 领域同义词典与模式匹配相结合的事件关键信息抽取方法 | |
Hua et al. | A character-level method for text classification | |
CN111274403A (zh) | 一种网络欺凌检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |