CN108829680A - 一种违规宣传检测方法和装置、计算机可读存储介质 - Google Patents
一种违规宣传检测方法和装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN108829680A CN108829680A CN201810654600.8A CN201810654600A CN108829680A CN 108829680 A CN108829680 A CN 108829680A CN 201810654600 A CN201810654600 A CN 201810654600A CN 108829680 A CN108829680 A CN 108829680A
- Authority
- CN
- China
- Prior art keywords
- violation
- participle
- word
- limit
- limit word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种违规宣传检测方法和装置、计算机可读存储介质,所述违规宣传检测方法包括:对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;根据预设的分词词库,进行分词和词性标注;在各分词中查找预定义的极限词;对查找到的极限词,根据标注的词性进行规则化处理。本申请通过命名实体识别、分词和词性标注以及规则化处理进行违规宣传检测,保障了较优的检测准确率,节省了大量的专业人才成本。
Description
技术领域
本发明涉及广告传媒技术领域,尤其涉及一种违规宣传检测方法和装置、计算机可读存储介质。
背景技术
2015年9月1日正式实施的新《广告法》,加大了广告虚假宣传的治理强度,并对诸如“最”、“一”、“级/极”、“首/家/国”、“品牌”、“虚假”、“权威”、“欺诈”、“时间”等相关极限用语作了严格禁令规定。对于使用极限用语的违规商家,将被扣分,并遭到二十万元以上、一百万元以下罚款,情节严重者将被直接封店;顾客投诉极限用语并维权成功后,赔付金额将由商家全部承担。
但是,目前各商家对通过互联网发布信息的管控往往都还在比较初级的水平,并没有投放广告时的层层把关,比较容易出现一些违规的情况,例如通过互联网搜索的公司介绍或产品介绍中就比较容易出现广告法中的禁用词。
目前市场上还没有相关公司或技术针对互联网的企业宣传数据进行违法识别,相关国家部门或者公司在判别取证时基本上都是专业的法务人员人工搜索引擎搜索和人工判断的方式工作,这种工作方式虽然可以做到比较准确,但是其工作效率低下,搜索覆盖面窄,同时人工成本很高,只有专业的人才能胜任。
发明内容
为了解决上述技术问题,本发明提供了一种违规宣传检测方法和装置、计算机可读存储介质,能够保障较优的检测准确率并节省大量的人工成本。
为了达到本发明目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种违规宣传检测方法,包括:
对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
根据预设的分词词库,进行分词和词性标注;
在各分词中查找预定义的极限词;
对查找到的极限词,根据标注的词性进行规则化处理。
进一步地,所述在各分词中查找预定义的极限词的步骤之前,所述方法还包括:
根据预设的同义词词库,对各分词进行同义词替换处理。
进一步地,所述对查找到的极限词,根据标注的词性进行规则化处理,包括:
如果所述极限词的词性为时限类极限词,则查找所述极限词前后的N个句子中是否包括相应的活动日期,如果包括相应的活动日期,则标注所述极限词不违规;如果不包括相应的活动日期,则标注所述极限词违规,其中,N为自然数;
如果所述极限词的词性是极限类极限词,则直接标注所述极限词违规。
进一步地,所述方法之前还包括:
根据公司名称和/或产品名称搜索相关的网页;
对搜索到的网页进行解析和过滤,得到待检测的网页;
提取待检测的网页的正文内容,并存储到数据库中。
进一步地,所述方法还包括:
在所述各分词中,删除预定义的无意义的分词;
按照预设的顺序将剩余的分词对应到一维向量空间,生成特征数据;
使用预先训练好的神经网络模型对生成的特征数据进行检测;
如果检测到特征数据中有违规的极限词,进行预警。
进一步地,所述神经网络模型为神经自回归主题模式NATM模型。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的违规宣传检测方法的步骤。
本发明实施例还提供了一种违规宣传检测装置,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的违规宣传检测程序,以实现如以上任一项所述的违规宣传检测方法的步骤。
本发明实施例还提供了一种违规宣传检测装置,包括命名实体识别单元、分词单元和第一违规检测单元,其中:
命名实体识别单元,用于对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
分词单元,用于根据预设的分词词库,进行分词和词性标注;
第一违规检测单元,用于在各分词中查找预定义的极限词,对查找到的极限词,根据标注的词性进行规则化处理。
进一步地,所述装置还包括同义词转换单元,其中:
同义词转换单元,用于根据预设的同义词词库,对各分词进行同义词替换处理。
本发明的技术方案,具有如下有益效果:
本发明提供的违规宣传检测方法和装置、计算机可读存储介质,通过命名实体识别、分词和词性标注以及规则化处理进行违规宣传检测,保障了较优的检测准确率,节省了大量的专业人才成本,无论是服务于国家相关单位,还是服务于各企业风控,都是非常有用的;
进一步地,本发明通过互联网爬虫检索数据与深度学习技术建模,进一步提高了检测准确率,能在保障检测准确率较优的同时,实现大规模的违规检测和全网络信息的覆盖率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的一种违规宣传检测方法的流程示意图;
图2为本发明第一实施例的一种违规宣传检测装置的结构示意图;
图3为本发明第二实施例的一种违规宣传检测装置的结构示意图;
图4为本发明第三实施例的一种违规宣传检测装置的结构示意图;
图5为本发明第四实施例的一种违规宣传检测装置的结构示意图;
图6为本发明第五实施例的一种违规宣传检测装置的结构示意图;
图7为本发明第六实施例的一种违规宣传检测装置的结构示意图;
图8为本发明第六实施例的违规宣传检测装置中的获取检测内容单元的结构示意图;
图9为本发明第六实施例的违规宣传检测装置中的自然语言理解单元的工作流程示意图;
图10为本发明第六实施例的违规宣传检测装置中的神经网络训练单元的工作流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
如图1所示,本发明实施例提供了一种违规宣传检测方法,包括如下步骤:
步骤101:对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
需要说明的是,命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NER是在自然语言处理中的一个经典问题,其应用也极为广泛。传统的公认比较好的NER处理算法是条件随机场(Conditional Random Field,CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
随着2015年新广告法的全面实施,按照新的法规规定,在广告中不得使用“国家级”、“最高级”、“最佳”等用语,而企业官网介绍、企业产品介绍以及企业官方公众号中发布的信息作为官方信息发布,也应纳入到新的广告法管控的范围内。根据新广告法,极限用语不得出现在商品列表页、商品的标题、副标题、主图、详情页,以及商品包装等位置。
在新的广告法中涉及的极限词(即违禁词)包括了我们常说不能有“最”字之外,还有与“一”、“级/极”、“首/家/国”、“品牌”、“虚假”、“权威”、“欺诈”、“时间”等等九大相关领域,上千个中文词汇,最常见的如:“最新”、“正品”、“一流”、“高级”、“名牌”、“驰名商标”、“老字号”等常见词汇都在违禁之列。
所述预定义的极限词具体包括:
与“最”有关的极限词:
最、最佳、最具、最爱、最赚、最优、最优秀、最好、最大、最大程度、最高、最高级、最高端、最奢侈、最低、最低级、最低价、最底、最便宜、史上最低价、最流行、最受欢迎、最时尚、最聚拢、最符合、最舒适、最先、最先进、最先进科学、最先进加工工艺、最先享受、最后、最后一波、最新、最新技术、最新科学;
与“一”有关的极限词:
第一、中国第一、全网第一、销量第一、排名第一、唯一、第一品牌、NO.1、TOP.1、独一无二、全国第一、一流、一天、仅此一次(一款)、最后一波、全国X大品牌之一;
与“首/家/国”有关的极限词:
首个、首选、独家、独家配方、首发、全网首发、全国首发、首家、全网首家、全国首家、XX网独家、XX网首发、首次、首款、全国销量冠军、国家级产品、国家(国家免检)、国家领导人、填补国内空白、中国驰名(驰名商标)、国际品质;
与“时间”有关的极限词:
1、限时必须具体时间
今日、今天、几天几夜、倒计时、趁现在、就、仅限、周末、周年庆、特惠趴、购物大趴、闪购、品牌团、精品团、单品团(必须有活动日期);
2、严禁使用
随时结束、随时涨价、马上降价
与“级/极”有关的极限词:
国家级、国家级产品、全球级、宇宙级、世界级、顶级(顶尖/尖端)、顶级工艺、顶级享受、高级、极品、极佳(绝佳/绝对)、终极、极致;
与“品牌”有关的极限词:
大牌、金牌、名牌、王牌、领袖品牌、世界领先、(遥遥)领先、领导者、缔造者、创领品牌、领先上市、巨星、著名、掌门人、至尊、巅峰、奢侈、优秀、资深、领袖、之王、王者、冠军;
与“虚假”有关的极限词:
史无前例、前无古人、永久、万能、祖传、特效、无敌、纯天然、100%、高档、正品、真皮、超赚、精确;
与“权威”有关的极限词:
老字号、中国驰名商标、特供、专供、专家推荐、质量免检、无需国家质量检测、免抽检、国家XX领导人推荐、国家XX机关推荐、使用人民币图样(央行批准除外);
与“欺诈”有关的极限词:
1、涉嫌欺诈消费者
点击领奖、恭喜获奖、全民免单、点击有惊喜、点击获取、点击转身、点击试穿、点击翻转、领取奖品;
2、涉嫌诱导消费者
秒杀、抢爆、再不抢就没了、不会再便宜了、没有他就XX,错过就没机会了、万人疯抢、全民疯抢/抢购、卖/抢疯了。
新法在极限词中严禁使用“最佳”、“最优”、“国家级”、“省级”等极限用语,但是实际社会中有很多获奖名称就是“最佳服务提供商奖”、“省级最优产品奖”等,此类获奖情况在宣传中是可以使用的,所以通过命名实体识别进行训练识别后,将相应实体内容进行替换处理(可以替换为任意的不含上述极限词的词语或代码)可以非常显著的提升语义理解的准确性,减少语义理解错误的情况发生。
本实施例中,所述方法之前还包括:
根据公司名称和/或产品名称搜索相关的网页;
对搜索到的网页进行解析和过滤,得到待检测的网页;
提取待检测的网页的正文内容,并存储到数据库中。
本实施例中,所述根据公司名称和/或产品名称搜索相关的网页,包括:
根据提供的公司名称和/或产品名称(或者公司名称和/或产品名称列表),通过各大搜索引擎进行搜索,抓取包括企业信息类网站、招聘类网站、官方微博、官方微信、电商网站以及其他信息发布源。
本实施例中,所述对搜索到的网页进行解析和过滤,得到待检测的网页,包括:
分析搜索结果和搜索公司的匹配关系,提取网站统一资源定位符(UniformResource Locator,URL);
根据网站URL进行过滤(例如,可以将电子公告板(Bulletin Board System,BBS)论坛等URL的网页内容过滤掉)。
本实施例中,所述提取待检测的网页的正文内容,指的是:过滤掉待检测的网页的头尾、广告以及推广优化相关的内容,提取出网页真实的正文内容。
本实施例中,所述数据库为海杜普(Hadoop)集群组建的Hbase分布式存储数据库;存储至数据库的内容包括公司名称、网站域名、网页的URL、网页源码以及提取的正文内容。Hadoop是一个能够对大量数据进行分布式处理的软件框架,其以一种可靠、高效、可伸缩的方式进行数据处理。HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。
步骤102:根据预设的分词词库,进行分词和词性标注;
需要说明的是,分词和词性标注是语义识别和语义理解的基础,要让计算机程序能读懂一段文本的意思,首先要有合理的切分和标注。但是,由于广告违禁词语中对中文词的规定和使用有较大的特殊性,通过正常的分词软件和分词方法很难准确切分,如广告法中的“最先进”,在普通的分词中会分为“最”和“先进”两个词,然后在构建词向量的时候会彻底分离“最先进”这个词的含义,所以在分词过程中必须要结合词库进行优化,针对广告法中所明令禁止的词以及常见的组合词必须要通过优化词库来保证其独立性和完整性,同时给予此类违禁词一个新的词性,这样才能保证语义理解的准确性。在实际优化中针对广告法中的违禁词词性以z开头:表示极限类的违禁词,如“最新”、“高档”、“永久”等,代码为ze;表示时限类的违禁词,如“随时涨价”、“秒杀”等,代码为zt,表示权威性的违禁词,如“专供”、“老字号”等,代码为za;表示疑似医疗类的违禁词,如“助眠”、“滋阴壮阳”、“降血压”等,代码为zm;表示化妆品虚假宣传类的违禁词,如“特效”、“丰胸”、“瘦身”等,代码为zv;表示迷信类的违禁词,如“逢凶化吉”“提升运气”等,代码为zs。
本实施例中,在所述步骤102之后,所述方法还包括:
根据预设的同义词词库,对各分词进行同义词替换处理。
需要说明的是,同义词林的同义词库优化与分词词库优化类似,由于普通的同义词林与广告法中所规定的广告违禁词有较大区别,所以按照广告法中的违禁词进行优化能得到较好的效果。
步骤103:在各分词中查找预定义的极限词,对查找到的极限词,根据标注的词性进行规则化处理。
本实施例中,所述对查找到的极限词,根据标注的词性进行规则化处理,包括:
如果所述极限词的词性为时限类极限词,则查找所述极限词前后的N个句子中是否包括相应的活动日期,如果包括相应的活动日期,则标注所述极限词不违规;如果不包括相应的活动日期,则标注所述极限词违规,其中,N为自然数。
本实施例中,所述对查找到的极限词,根据标注的词性进行规则化处理,还包括:
如果所述极限词的词性是极限类极限词,则直接标注所述极限词违规。
需要说明的是,所述极限类极限词包括上文所述的与“最”有关的极限词、与“一”有关的极限词、与“首/家/国”有关的极限词以及与“级/极”有关的极限词等。对于其它词性的极限词,本申请也可以定义相关的规则进行规则化处理。通过这种规则化的语义理解一方面可以提升整体的检测速度,同时也更符合人类的思维模式,可以获得更高的准确度。
本实施例中,所述方法之后还包括:
在所述各分词中,删除预定义的无意义的分词;
按照预设的顺序将剩余的分词对应到一维向量空间,生成特征数据;
使用预先训练好的神经网络模型对生成的特征数据进行检测;
如果检测到特征数据中有违规的极限词,进行预警。
需要说明的是,所述预定义的无意义的分词包括“的”“是”等无具体意义的词语;所述预设的顺序,可以为按照极限词的拼音首字母进行排序,也可以按照其它的顺序进行排序。
本实施例中,所述方法之前还包括:训练用于违规宣传检测的神经网络模型,所述训练方法具体包括:
首先,需要对公司宣传类、电商类以及新闻类等不同类别的网页内容进行训练的抓取,在数据抓取中反复根据类别和相关违禁词进行查找,以保障在训练数据中有充足的反面案例;
然后,对数据语料进行筛选和标记,在保证每个不同类别包含违禁词和不包含违禁词数据量大致相当的前提下,每个类别的数据尽可能多的搜集一些不同的内容;
再次,对完成筛选和标记的数据进行自然语言理解(Natural LanguageProcessing,NLP)过程,生成特征数据;
再次,对预处理的数据按照8:2的比例(或者其它比例)随机切分训练集和测试集,然后进行深度学习训练,经过多次训练及参数的调整,以达到最优效果;
最后,将训练得到的模型数据保存到文件中。
本实施例中,所述神经网络模型为神经自回归主题模式(Neural AutoregressiveTopic Mode,NATM)模型。
需要说明的是,本申请通过使用目前流行的深度神经网络对数据进行学习和计算,但具体的神经网络算法使用了最适用于NLP领域的NATM主题模型算法,NATM是一种基于神经网络的主题模型算法,它与卷积神经网络(Convolutional Neural Network,CNN)相比有很大的不同,卷积神经是将数据进行卷积核的计算,在计算过程中相邻的数据是有一定相关性的,但是在NLP领域词向量的处理破坏了原本文本中的邻域关系也就丧失了CNN的优势,而NATM是基于概率的主题模型,用于自然语言的处理和分类中效果更好。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的违规宣传检测方法的步骤。
本发明实施例还提供了一种违规宣传检测装置,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的违规宣传检测程序,以实现如以上任一项所述的违规宣传检测方法的步骤。
如图2所示,本发明实施例还提供了一种违规宣传检测装置,包括命名实体识别单元201、分词单元202和第一违规检测单元203,其中:
命名实体识别单元201,用于对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
分词单元202,用于根据预设的分词词库,进行分词和词性标注;
第一违规检测单元203,用于在各分词中查找预定义的极限词,对查找到的极限词,根据标注的词性进行规则化处理。
需要说明的是,新法在极限词中严禁使用“最佳”、“最优”、“国家级”、“省级”等极限用语,但是实际社会中有很多获奖名称就是“最佳服务提供商奖”、“省级最优产品奖”等,此类获奖情况在宣传中是可以使用的,所以通过命名实体识别进行训练识别后,将相应实体内容进行替换处理可以非常显著的提升语义理解的准确性,减少语义理解错误的情况发生。
本实施例中,如图3所示,所述违规宣传检测装置还包括获取检测内容单元204,其中:
获取检测内容单元204,用于根据公司名称和/或产品名称搜索相关的网页;对搜索到的网页进行解析和过滤,得到待检测的网页;提取待检测的网页的正文内容,并存储到数据库中。
本实施例中,所述获取检测内容单元204的根据公司名称和/或产品名称搜索相关的网页,包括:
根据提供的公司名称/产品名称或者公司名称/产品名称列表,通过各大搜索引擎进行搜索,抓取包括企业信息类网站、招聘类网站、官方微博、官方微信、电商网站以及其他信息发布源。
本实施例中,所述获取检测内容单元204的对搜索到的网页进行解析和过滤,得到待检测的网页,包括:
分析搜索结果和搜索公司的匹配关系,提取网站URL;
根据网站URL进行过滤。
本实施例中,所述获取检测内容单元204过滤掉待检测的网页的头尾、广告以及推广优化相关的内容,提取出网页真实的正文内容。
本实施例中,所述数据库为Hadoop集群组建的Hbase分布式存储数据库;存储到数据库中的内容包括公司名称、网站域名、网页的URL、网页源码以及提取的正文内容。
需要说明的是,分词和词性标注是语义识别和语义理解的基础,要让计算机程序能读懂一段文本的意思,首先要有合理的切分和标注。但是,由于广告违禁词语中对中文词的规定和使用有较大的特殊性,通过正常的分词软件和分词方法很难准确切分,如广告法中的“最先进”,在普通的分词中会分为“最”和“先进”两个词,然后在构建词向量的时候会彻底分离“最先进”这个词的含义,所以分词单元202在分词过程中必须要结合词库进行优化,针对广告法中所明令禁止的词以及常见的组合词必须要通过优化词库来保证其独立性和完整性,同时给予此类违禁词一个新的词性,这样才能保证语义理解的准确性。在实际优化中针对广告法中的违禁词词性以z开头:表示极限类的违禁词,如“最新”、“高档”、“永久”等,代码为ze;表示时限类的违禁词,如“随时涨价”、“秒杀”等,代码为zt,表示权威性的违禁词,如“专供”、“老字号”等,代码为za;表示疑似医疗类的违禁词,如“助眠”、“滋阴壮阳”、“降血压”等,代码为zm;表示化妆品虚假宣传类的违禁词,如“特效”、“丰胸”、“瘦身”等,代码为zv;表示迷信类的违禁词,如“逢凶化吉”“提升运气”等,代码为zs。
本实施例中,如图4所示,所述违规宣传检测装置还包括同义词转换单元205,其中:
同义词转换单元205,用于根据预设的同义词词库,对各分词进行同义词替换处理。
需要说明的是,同义词林的同义词库优化与分词词库优化类似,由于普通的同义词林与广告法中所规定的广告违禁词有较大区别,所以按照广告法中的违禁词进行优化能得到较好的效果。
本实施例中,所述第一违规检测单元203的对查找到的极限词,根据标注的词性进行规则化处理,包括:
如果所述极限词的词性为时限类极限词,则查找所述极限词前后的N个句子中是否包括相应的活动日期,如果包括相应的活动日期,则标注所述极限词不违规;如果不包括相应的活动日期,则标注所述极限词违规,其中,N为自然数。
本实施例中,所述第一违规检测单元203的对查找到的极限词,根据标注的词性进行规则化处理,还包括:
如果所述极限词的词性是极限类极限词,则直接标注所述极限词违规。
需要说明的是,所述极限类极限词包括上文所述的与“最”有关的极限词、与“一”有关的极限词、与“首/家/国”有关的极限词以及与“级/极”有关的极限词等。对于其它词性的极限词,第一违规检测单元203也可以定义相关的规则进行规则化处理。通过这种规则化的语义理解一方面可以提升整体的检测速度,同时也更符合人类的思维模式,可以获得更高的准确度。
本实施例中,如图5所示,所述违规宣传检测装置还包括第二违规检测单元206,其中:
第二违规检测单元206,用于在所述各分词中,删除预定义的无意义的分词;按照预设的顺序将剩余的分词对应到一维向量空间,生成特征数据;使用预先训练好的神经网络模型对生成的特征数据进行检测;如果检测到特征数据中有违规的极限词,进行预警。
需要说明的是,所述预定义的无意义的分词包括“的”“是”等无具体意义的词语。所述预设的顺序,可以为按照极限词的拼音首字母进行排序,也可以按照其它的顺序进行排序。
本实施例中,如图6所示,所述违规宣传检测装置还包括神经网络训练单元207,其中:
神经网络训练单元207,用于训练用于违规宣传检测的神经网络模型,神经网络训练单元207所用的训练方法具体包括:
首先,需要对公司宣传类、电商类以及新闻类等不同类别的网页内容进行训练的抓取,在数据抓取中反复根据类别和相关违禁词进行查找,以保障在训练数据中有充足的反面案例;
然后,对数据语料进行筛选和标记,在保证每个不同类别包含违禁词和不包含违禁词数据量大致相当的前提下,每个类别的数据尽可能多的搜集一些不同的内容;
再次,对完成筛选和标记的数据进行NLP自然语言理解过程,生成特征数据;
再次,对预处理的数据按照8:2的比例(或者其它比例)随机切分训练集和测试集,然后进行深度学习训练,经过多次训练及参数的调整,以达到最优效果;
最后,将训练得到的模型数据保存到文件中。
本实施例中,所述神经网络模型为NATM模型。
需要说明的是,神经网络训练单元207通过使用目前流行的深度神经网络对数据进行学习和计算,但具体的神经网络算法使用了最适用于NLP领域的NATM主题模型算法,NATM是一种基于神经网络的主题模型算法,它与CNN相比有很大的不同,CNN是将数据进行卷积核的计算,在计算过程中相邻的数据是有一定相关性的,但是在NLP领域词向量的处理破坏了原本文本中的邻域关系也就丧失了CNN的优势,而NATM是基于概率的主题模型,用于自然语言的处理和分类中效果更好。
如图7所示,本发明实施例还提供了一种违规宣传检测装置,包括获取检测内容单元701、存储单元702、自然语言理解单元703、神经网络训练单元704、违规检测单元705,其中:
获取检测内容单元701主要负责根据企业信息进行抓取,根据提供的公司名称/产品名称或者公司名称/产品名称列表,通过各大搜索引擎进行搜索,抓取包括企业信息类网站、招聘类网站、官方微博、官方微信、电商网站以及其他信息发布源,抓到的数据保存到存储单元702中。
如图8所示,获取检测内容单元701包括:公司搜索模块7011、URL分布式数据抓取模块7012、Hbase数据存取模块7013,其中公司搜索模块7011在搜索结果的列表页处理中包括搜索结果解析和过滤功能,需要过滤掉一些网站黑名单,分析搜索结果和搜索公司的匹配关系,提取网站URL等,而在网站URL的抓取页面则需要过滤掉网页的头尾、广告以及推广优化相关的内容,提取出网页真实的正文内容。
存储单元702负责对爬虫抓取的海量数据的存储和各单元中间处理数据的保存,使用Hadoop集群组建的高可用Hbase数据库实现了一种分布式存储系统,在获取检测内容单元701中抓取到的数据统一保存到Hbase数据库中,包括公司名称,网站域名、网页的URL、网页源码以及提取的正文内容等等便于后续的查询和使用。
自然语言理解单元703负责对抓取到的网页信息进行语义理解和意图识别,包括:命名实体识别单元、分词单元、分词词库优化单元、同义词转换单元、同义词词库优化单元、基于词/词性的语义理解单元、特征词向量构建单元等,具体的处理流程如图9所示,包括如下步骤:
(1)读取Hbase数据库中的数据;
(2)对读取的数据进行命名实体识别:
命名实体识别的作用主要是识别包含部分关键词的命名实体,例如:在极限词中严禁使用“最佳”、“最优”、“国家级”、“省级”等极限用语,但是实际社会中有很多获奖名称就是“最佳服务提供商奖”、“省级最优产品奖”等,此类获奖情况在宣传中是可以使用的,所以通过命名实体识别进行训练识别后将相应实体内容进行替换处理可以非常显著的提升语义理解的准确性,减少语义理解错误的情况发生。
(3)分词和词性标注:
分词和词性标注是语义识别和语义理解的基础,要让计算机程序能读懂一段文本的意思,首先要有合理的切分和标注。但是,由于广告极限词语中对中文词的规定和使用有较大的特殊性,通过正常的分词软件和分词方法很难准确切分,如广告法中的“最先进”,在普通的分词中会分为“最”和“先进”两个词,然后在构建词向量的时候会彻底分离“最先进”这个词的含义,所以在分词过程中必须要结合词库进行优化,针对广告法中所明令禁止的词以及常见的组合词必须要通过优化词库来保证其独立性和完整性,同时给予此类极限词一个新的词性,这样才能保证语义理解的准确性。在实际优化中针对广告法中的极限词词性以z开头:表示极限类的极限词,如“最新”、“高档”、“永久”等,代码为ze;表示时限类的极限词,如“随时涨价”、“秒杀”等,代码为zt,表示权威性的极限词,如“专供”、“老字号”等,代码为za;表示疑似医疗类的极限词,如“助眠”、“滋阴壮阳”、“降血压”等,代码为zm;表示化妆品虚假宣传类的极限词,如“特效”、“丰胸”、“瘦身”等,代码为zv;表示迷信类的极限词,如“逢凶化吉”“提升运气”等,代码为zs。
(4)同义词林转换:
同义词林的同义词库优化与分词词库优化类似,由于普通的同义词林与广告法中所规定的广告极限词有较大区别,所以按照广告法中的极限词进行优化能得到较好的效果。
(5)基于词/词性的语义理解:
基于词/词性的语义理解是根据极限词和极限词性进行一系列的规则化处理,例如在极限类极限词中,一旦出现,即可认定为违规,此类的语义理解只需要找到相应的极限词或者极限词的词性即可,而在时限类极限词中,一旦出现还必须要在一定范围内有明确的时间限,如果没有才会认定为违规。通过这种规则化的语义理解一方面可以提升整体的检测速度,同时也更符合人类的思维模式,可以获得更高的准确度。
(6)特征词向量构建:
特征词向量构建的将通过同义词林转换后的分词数据进行预处理,按照一定顺序对应到一维的向量空间,便于后面的深度学习模型的训练和检测。
(7)将构建的特征词向量保存到Hbase数据库中。
神经网络训练单元704通过使用目前流行的深度神经网络对数据进行学习和计算,但具体的神经网络算法使用了最适用于NLP领域的NATM主题模型算法,NATM是neuralautoregressive topic mode的简称,是一种基于神经网络的主题模型算法,它与卷积神经网络相比有很大的不同,卷积神经是将数据进行卷积核的计算,在计算过程中相邻的数据是有一定相关性的,但是在NLP领域词向量的处理破坏了原本文本中的邻域关系也就丧失了CNN的优势,而NATM是基于概率的主题模型,用于自然语言的处理和分类中效果更好。如图10所示,神经网络训练单元704的流程如下:
首先,需要对公司宣传类、电商类以及新闻类等不同类别的网页内容进行训练的抓取,在数据抓取中反复根据类别和相关极限词进行查找,以保障在训练数据中有充足的反面案例;
然后,对数据语料进行筛选和标记,在保证每个不同类别包含极限词和不包含极限词数据量大致相当的前提下,每个类别的数据尽可能多的搜集一些不同的内容;
再次,对完成筛选和标记的数据进行上一个模块的NLP自然语言理解过程,生成特征数据;
再次,对预处理的数据按照8:2的比例(或者其它比例)随机切分训练集和测试集,然后进行深度学习训练,经过多次训练及参数的调整,以达到最优效果;
最后,将训练得到的模型数据保存到文件中。
违规检测单元705通过读取构建的特征词向量,运行训练好的NATM神经网络模型进行实时检测,当发现有检测结果为违规的信息时,及时进行预警。
与现有的检测方法相比,本发明提供的违规宣传检测方法和装置、计算机可读存储介质,具有如下优点:
A)目前的检测方法多数都是靠人工+关键词法,通过人为设定的关键词进行搜索,搜索的话效率很低,覆盖面也很窄,往往只是对最常见的关键词进行判断,同时所需要的人力成本也很高,本发明采用互联网爬虫的方式进行信息抓取,通过NLP技术进行自然语言理解,通过深度学习技术进行建模,在最终的模型检索效率及信息覆盖面上都有了质的提升,同时完全通过机器的自动化、智能化,实现了零人工成本;
B)本发明从国家相关部门的角度出发,作为针对违规宣传的检测和治理,通过全自动化的互联网数据抓取,全智能化的数据处理和违规检测,可以大幅提升工作效率,净化网络环境;
C)本发明作为企业提供的风控预警服务,可以自动检测指定企业在互联网中的信息发布情况,并及时向相应企业发布预警,可以大幅降低企业客户的违规成本,让整个市场向良性竞争发展;
D)本发明在NLP自然语意理解部分是可以通过命名实体维护和同义词林维护以及增加语义理解的规则提升NLP理解准确度,进而提升智能检测准确度;
E)本发明可以通过对预警信息的反馈结果进行强化学习,进一步优化模型检测效果。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种违规宣传检测方法,其特征在于,包括:
对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
根据预设的分词词库,进行分词和词性标注;
在各分词中查找预定义的极限词;
对查找到的极限词,根据标注的词性进行规则化处理。
2.根据权利要求1所述的方法,其特征在于,所述在各分词中查找预定义的极限词的步骤之前,所述方法还包括:
根据预设的同义词词库,对各分词进行同义词替换处理。
3.根据权利要求1所述的方法,其特征在于,所述对查找到的极限词,根据标注的词性进行规则化处理,包括:
如果所述极限词的词性为时限类极限词,则查找所述极限词前后的N个句子中是否包括相应的活动日期,如果包括相应的活动日期,则标注所述极限词不违规;如果不包括相应的活动日期,则标注所述极限词违规,其中,N为自然数;
如果所述极限词的词性是极限类极限词,则直接标注所述极限词违规。
4.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:
根据公司名称和/或产品名称搜索相关的网页;
对搜索到的网页进行解析和过滤,得到待检测的网页;
提取待检测的网页的正文内容,并存储到数据库中。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述各分词中,删除预定义的无意义的分词;
按照预设的顺序将剩余的分词对应到一维向量空间,生成特征数据;
使用预先训练好的神经网络模型对生成的特征数据进行检测;
如果检测到特征数据中有违规的极限词,进行预警。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型为神经自回归主题模式NATM模型。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的违规宣传检测方法的步骤。
8.一种违规宣传检测装置,其特征在于,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的违规宣传检测程序,以实现如权利要求1至6中任一项所述的违规宣传检测方法的步骤。
9.一种违规宣传检测装置,其特征在于,包括命名实体识别单元、分词单元和第一违规检测单元,其中:
命名实体识别单元,用于对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
分词单元,用于根据预设的分词词库,进行分词和词性标注;
第一违规检测单元,用于在各分词中查找预定义的极限词,对查找到的极限词,根据标注的词性进行规则化处理。
10.根据权利要求9所述的装置,其特征在于,还包括同义词转换单元,其中:
同义词转换单元,用于根据预设的同义词词库,对各分词进行同义词替换处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810654600.8A CN108829680A (zh) | 2018-06-22 | 2018-06-22 | 一种违规宣传检测方法和装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810654600.8A CN108829680A (zh) | 2018-06-22 | 2018-06-22 | 一种违规宣传检测方法和装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829680A true CN108829680A (zh) | 2018-11-16 |
Family
ID=64138004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810654600.8A Pending CN108829680A (zh) | 2018-06-22 | 2018-06-22 | 一种违规宣传检测方法和装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829680A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886683A (zh) * | 2019-02-25 | 2019-06-14 | 北京神荼科技有限公司 | 监控区块链数据的方法、装置以及存储介质 |
CN110874398A (zh) * | 2020-01-14 | 2020-03-10 | 广东博智林机器人有限公司 | 违禁词处理方法、装置、电子设备及存储介质 |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
CN113505317A (zh) * | 2021-06-15 | 2021-10-15 | 山东伏羲智库互联网研究院 | 一种违规广告识别方法、装置、电子设备及存储介质 |
CN117764688A (zh) * | 2024-01-26 | 2024-03-26 | 喀斯玛(北京)科技有限公司 | 一种针对商品画像的智能风控方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
US20130332460A1 (en) * | 2012-06-06 | 2013-12-12 | Derek Edwin Pappas | Structured and Social Data Aggregator |
CN104539624A (zh) * | 2015-01-08 | 2015-04-22 | 北京奇虎科技有限公司 | 文本中号码信息的安全监测方法及装置 |
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
US20150302476A1 (en) * | 2014-04-22 | 2015-10-22 | Alibaba Group Holding Limited | Method and apparatus for screening promotion keywords |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
-
2018
- 2018-06-22 CN CN201810654600.8A patent/CN108829680A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
US20130332460A1 (en) * | 2012-06-06 | 2013-12-12 | Derek Edwin Pappas | Structured and Social Data Aggregator |
US20150302476A1 (en) * | 2014-04-22 | 2015-10-22 | Alibaba Group Holding Limited | Method and apparatus for screening promotion keywords |
CN104539624A (zh) * | 2015-01-08 | 2015-04-22 | 北京奇虎科技有限公司 | 文本中号码信息的安全监测方法及装置 |
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886683A (zh) * | 2019-02-25 | 2019-06-14 | 北京神荼科技有限公司 | 监控区块链数据的方法、装置以及存储介质 |
CN110874398A (zh) * | 2020-01-14 | 2020-03-10 | 广东博智林机器人有限公司 | 违禁词处理方法、装置、电子设备及存储介质 |
CN110874398B (zh) * | 2020-01-14 | 2020-06-02 | 广东博智林机器人有限公司 | 违禁词处理方法、装置、电子设备及存储介质 |
CN112257422A (zh) * | 2020-10-22 | 2021-01-22 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
CN112257422B (zh) * | 2020-10-22 | 2024-06-11 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
CN113505317A (zh) * | 2021-06-15 | 2021-10-15 | 山东伏羲智库互联网研究院 | 一种违规广告识别方法、装置、电子设备及存储介质 |
CN117764688A (zh) * | 2024-01-26 | 2024-03-26 | 喀斯玛(北京)科技有限公司 | 一种针对商品画像的智能风控方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829680A (zh) | 一种违规宣传检测方法和装置、计算机可读存储介质 | |
Wang et al. | Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis | |
CN107342976B (zh) | 针对企业产业链分析的移动应用平台与方法 | |
Rueckl et al. | Morphological priming, fragment completion, and connectionist networks | |
KR100533810B1 (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
Jones | Who's Afraid of the WTO? | |
CN110633373A (zh) | 一种基于知识图谱和深度学习的汽车舆情分析方法 | |
CA2490202A1 (en) | Query recognizer | |
CN107886240B (zh) | 一种基于规则的跨境电商商品质量风险识别方法 | |
CN102946331A (zh) | 一种社交网络僵尸用户检测方法及装置 | |
Burrows | The French Book Trade in Enlightenment Europe II: Enlightenment Bestsellers | |
CN111291548A (zh) | 一种从法院文书获取信息的方法及装置 | |
Zhu | Framing the political conflict discourse in Chinese media: A case study of Sino-US trade dispute | |
Ricca et al. | An empirical study on keyword-based web site clustering | |
CN111080419A (zh) | 基于微信平台的景区售票系统 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
CN101847242A (zh) | 一种违禁品别名在线自动获取方法及系统 | |
Lewis et al. | The Roman law tradition | |
JP2004280176A (ja) | キーワード強調装置及びプログラム | |
Kleine et al. | Donald Duck: a narrative that embeds behavioral finance? | |
Ani et al. | A Systematic Literature Review on Advertising from Non-western Perspective | |
Odmell et al. | A situational analysis of health tourism for appropriation of indigenous herbal sexual stimulants and fertility enhancers in Zimbabwe: A situational analysis paper | |
Srikasem et al. | Data-driven approach to raise the marketing and trade strategy based on halal food product transactions of china market | |
Tripathi et al. | The Role of Brand Silence and Nostalgia in Revitalizing Traditional Skincare Products with Advertising and Celebrity Endorsement Strategy as a Mediator | |
Mesly et al. | Terminology matters: A review on the concept of economic predation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181116 |
|
RJ01 | Rejection of invention patent application after publication |