CN108664501A - 广告审核方法、装置及服务器 - Google Patents

广告审核方法、装置及服务器 Download PDF

Info

Publication number
CN108664501A
CN108664501A CN201710201374.3A CN201710201374A CN108664501A CN 108664501 A CN108664501 A CN 108664501A CN 201710201374 A CN201710201374 A CN 201710201374A CN 108664501 A CN108664501 A CN 108664501A
Authority
CN
China
Prior art keywords
word
rule
hit
review
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710201374.3A
Other languages
English (en)
Other versions
CN108664501B (zh
Inventor
马良
鲁晨光
裴宇昕
田新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangdong Shenma Search Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shenma Search Technology Co Ltd filed Critical Guangdong Shenma Search Technology Co Ltd
Priority to CN201710201374.3A priority Critical patent/CN108664501B/zh
Publication of CN108664501A publication Critical patent/CN108664501A/zh
Application granted granted Critical
Publication of CN108664501B publication Critical patent/CN108664501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供的广告审核方法、装置及服务器,涉及互联网技术领域。所述方法包括:获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端。以此对广告信息进行多层次匹配,提高了广告审核的效率和准确度。

Description

广告审核方法、装置及服务器
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种广告审核方法、装置及服务器。
背景技术
广告审核在整个广告投放系统中定位为守门员,审核将广告主投放的广告中的不良词汇以及违法信息进行审核,只有通过审核的广告,用户在搜索相关关键词时才能触发广告展示。自动审核在审核业务中定位为审核的智能机器人,提高审核效率,减轻审核员负担,因此,自动审核的效率和准确度是审核的重要性能指标。一方面,随着广告的增多,审核压力不断增大,要求自动审核做出快速实时响应。另一方面,在自动审核匹配过程中,匹配的处理方式并不准确。
发明内容
有鉴于此,本发明实施例的目的在于提供一种广告审核方法、装置及服务器广告审核方法、装置及服务器,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本发明实施例提供了一种广告审核方法,所述方法包括:获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端。
第二方面,本发明实施例提供了一种广告审核装置,所述装置包括:第一获取单元,用于获取待审核的广告信息;第二获取单元,用于基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;发送单元,用于将所述命中信息发送给所述广告信息的投放终端。
第三方面,本发明实施例提供了一种服务器,所述服务器包括处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述服务器执行以下操作:获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端。
本发明实施例提供的一种广告审核方法、装置及服务器,通过获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端,以此对广告信息进行多层次匹配,提高了广告审核的效率和准确度。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的用户终端与服务器进行交互的示意图;
图2为一种可应用于本申请实施例中的服务器的结构框图;
图3为本发明第一实施例提供的广告审核方法的流程图;
图4为本发明第二实施例提供的广告审核方法的流程图;
图5为本发明第二实施例提供的广告审核方法的广告信息处理的示意图;
图6为本发明第二实施例提供的广告审核方法的AC双数组字典树的匹配处理的示意图;
图7为本发明第二实施例提供的广告审核方法的AC双数组字典树结构的示意图;
图8为本发明第三实施例提供的广告审核装置的结构框图;
图9为本发明第四实施例提供的广告审核装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的广告审核方法、装置及服务器可应用于如图1所示的应用环境中。如图1所示,是本发明较佳实施例提供的用户终端100与服务器200进行交互的示意图。所述服务器200通过网络300与一个或多个用户终端100进行通信连接,以进行数据通信或交互。所述服务器200可以是网络服务器、数据库服务器等。所述用户终端100可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digitalassistant,PDA)等。
在本实施例中,所述用户终端100可以作为投放广告信息的投放终端。
请参阅图2,图2示出了一种可应用于本申请实施例中的服务器100的结构框图。如图2所示,服务器100可以包括存储器110、存储控制器111、处理器112和广告审核装置。
存储器110、存储控制器111、处理器112各元件之间直接或间接地电连接,以实现数据的传输或交互。例如,这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。广告审核方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器110中的软件功能模块,例如所述广告审核装置包括的软件功能模块或计算机程序。
存储器110可以存储各种软件程序以及模块,如本申请实施例提供的广告审核方法、装置对应的程序指令/模块。处理器112通过运行存储在存储器110中的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的广告审核方法。存储器110可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(ReadOnly Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器112可以是一种集成电路芯片,具有信号处理能力。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
第一实施例
请参阅图3,本发明实施例提供了一种广告审核方法,应用于服务器,本实施例描述的是服务器的处理流程,所述方法包括:
步骤S200:获取待审核的广告信息。
在本实施例中,投放终端将待审核的广告信息推送给服务器,并存储在服务器的后端数据库中;服务器可以通过访问其数据库,获取所述待审核的广告信息,所述广告信息可以为文本,比如中文词语、英文单词、字符、句子、段落或篇章等。
步骤S210:基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语。
作为一种实施方式,步骤S210可以进一步为:基于预先设定的多种广告审核规则中的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配;
所述多种广告审核规则包括黑词规则、商标词规则、竞品词规则、敏感词规则以及非限规则。所述黑词规则对应的关键词为黑词,所述商标词规则对应的关键词为商标词,所述竞品词规则对应的关键词为竞品词,所述敏感词对应的关键词为敏感词。需要说明的是,黑词、商标词、竞品词以及敏感词各类词语可以互不包括,如此,每一个词语都对应一个规则,在匹配过程中,减少匹配次数,提高匹配效率。例如,“全国首家”在敏感词库里,那就不在黑词、商标词、竞品词库中。
具体地,在获取到待审核的广告信息之后,可以从所述黑词规则、商标词规则、竞品词规则、敏感词规则以及非限规则中选择出至少两个广告审核规则,利用所述选择出的至少两个广告审核规则各自对应的审核关键词对所述广告信息进行匹配。
例如,获取到一段英文段落的广告信息之后,选择黑词规则、商标词规则、竞品词规则三种审核规则进行匹配,分别逐一判断所述英文段落的广告信息是否命中所述黑词规则中的黑词、所述商标词规则中的商标词、所述竞品词中的竞品词。根据判断结果,获得最终的命中信息。
在步骤S210之前,所述方法还可以包括:
分别读取所述黑词规则的文件,从所述黑词规则的文件中提取所述黑词;读取所述商标词规则的文件,从所述商标词规则的文件中提取所述商标词;读取所述竞品词规则的文件,从所述竞品词规则的文件中提取所述竞品词;读取所述敏感词规则的文件,从所述敏感词规则的文件中提取所述敏感词;读取所述非限规则的文件,从所述非限规则的文件中提取所述非限字。
具体地,可以根据广告法中限制的词语分类各自整理为规则分类文件,所述规则分类文件可以包括黑词规则的文件、商标词规则的文件、竞品词规则的文件、敏感词规则的文件以及非限规则的文件。再根据广告信息的类型来提取需要的黑词、商标词、敏感词或非限字等。广告信息的类型可以有食品类、医疗类、化妆品类等。
步骤S220:将所述命中信息发送给所述广告信息的投放终端。
在本实施例中,服务器将获取到的命中信息发送给所述广告信息的投放终端。
本发明实施例提供的广告审核方法,通过获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端。以此对广告信息进行多层次匹配,提高了广告审核的效率和准确度。
第二实施例
请参阅图4,本发明实施例提供了一种广告审核方法,本实施例描述的是服务器的处理流程,所述方法包括:
步骤S300:获取待审核的广告信息。
服务器获取到待审核的广告信息后,基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,包括:
步骤S310:将所述至少两种广告审核规则各自对应的审核关键词进行分段,得到所述至少两种广告审核规则各自对应多个分段关键词。
作为一种实施方式,所述至少两种广告审核规则可以为预先设定的多种广告审核规则中的至少两种广告审核规则。其中,所述多种广告审核规则包括黑词规则、商标词规则、竞品词规则、敏感词规则以及非限规则。所述黑词规则对应的关键词为黑词,所述商标词规则对应的关键词为商标词,所述竞品词规则对应的关键词为竞品词,所述敏感词对应的关键词为敏感词,所述非限规则对应的关键词为非限字。需要说明的是,黑词、商标词、竞品词、敏感词以及非限字都属于不良词汇。
例如,有一个黑词“红包接龙”,对其进行分段,为‘红包接龙’(利用空格隔开)。“红包接龙”(子分散词使用空格隔开)为一个分散词,包含了‘红包’和‘接龙’两个子分散词。分散词即分散匹配规则对应的不良词汇,包含多个子分散词。分散匹配:广告在审核过程中匹配不良词汇的一种方式,分散匹配指广告的文本要分别包含分散词的各个子分散部分。
在步骤S310之前,所述方法还可以包括:
分别读取所述黑词规则的文件,从所述黑词规则的文件中提取所述黑词;读取所述商标词规则的文件,从所述商标词规则的文件中提取所述商标词;读取所述竞品词规则的文件,从所述竞品词规则的文件中提取所述竞品词;读取所述敏感词规则的文件,从所述敏感词规则的文件中提取所述敏感词;读取所述非限规则的文件,从所述非限规则的文件中提取所述非限词。
步骤S320:获取所述至少两种广告审核规则各自对应多个分段关键词对应的非限词,所述非限词为所述多个分段关键词中不需要被命中的词语。
在本实施例中,获取在所述黑词规则、商标词规则、竞品词规则、敏感词规则以及非限规则中至少两种规则各自对应多个分段关键词对应的非限词。
非限词即用于对特定的包含不良词汇的文本进行加白处理。例如,有一个黑词“红包”,同时有一个非限词“旺旺红包”,那么如果广告文本中包含“旺旺红包”是不会被匹配到的,也就是对“旺旺红包”进行了加白处理,使得“红包”不需要被命中,即“旺旺红包”使得“红包”不会被广告审核拒绝,即通过广告审核。
非限词还可以为非限用户:用于对命中特定的不良词汇的广告的一种加白处理方式。比如有一个黑词“红包”,该黑词有一个非限用户“广告主1”,广告文本:‘怎样让红包接龙永远只赢不输’,那么如果该广告文本是属于‘广告主1’的,则这条广告不会被自动审核拒绝,也就是对该用户进行了加白处理。
步骤S330:逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,获得每次匹配得到的第一命中词,去除每次匹配得到的所述第一命中词中的所述非限词且验证所述去除得到后的词语,获得每次匹配得到的第二命中词。步骤S310-步骤S330为分散匹配的过程。
基于步骤S300-S330,从预先设定的至少两种广告审核规则各自对应的审核关键词中选择,以一个广告创意:“北京天坛医院国家级官方神经官能症治疗”为例来进行说明:
请参阅图5,A1解释为:分散规则即预先设定的审核关键词“北京官,协和医院”,将其分段为多个分段关键词(分散词),为“北京官,协和医院”(利用空格隔开);获取到“北京官”的非限词为“神经官能症”。
A2解释为:已经获取到的一个广告创意:“北京天坛医院国家级官方神经官能症治疗”,对这个广告创意进行审核。
A3解释为:根据多个分段关键词“北京官,协和医院”对这个广告创意进行匹配,获得每次匹配得到的第一命中词“北京医院官官”。
A4解释为:去除“神经官能症”中的“官”,获得“北京医院官”。
A5解释为:满足分散即验证所述去除得到后的词语,验证“北京医院官”,是否满足之前的多个分段关键词“北京官,协和医院”(利用空格隔开),其中,“医院”没有和“协和”一起出现,不满足分散,去掉“医院”。
A6解释为:获得每次匹配得到的第二命中词即最终命中:“北京官”。
相对于传统的自动审核匹配方式采取将分散规则的词整体直接加载到算法模块进行匹配,这样对于具有n个子分散的分散词,要对各个子分散词进行排列组合,构建n!个分散词进行重复匹配,加大了匹配复杂度。同时,由于没有区分分散词的各个子分散部分,不能区分命中的非限词是否包含了整个子分散,对于非限词的处理并不准确。在本发明实施例提供的广告审核方法中,在进行分散词、非限词匹配时进行了拆分处理,降低了分散规则匹配的复杂度,同时进行非限处理,提高了非限处理的准确度,从而提高了广告审核的效率和准确度。
基于此,可以获取包括所述每次匹配得到的第二命中词的命中信息“北京官”,并将所述命中信息发送给所述广告信息的投放终端。以此说明该广告创意中未通过审核。
作为一种实施方式,基于步骤S320,建立所述至少两种广告审核规则各自对应的审核关键词的AC双数组字典树,并将所述至少两种广告审核规则各自对应的多个分段关键词赋值到各自的AC双数组字典树的节点上;
相应的,在步骤S330中,所述逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,包括:
逐次将所述广告信息分别与所述至少两种广告审核规则各自对应的AC双数组字典树上各个节点对应的分段关键词进行匹配。
字典树(Retrieval或Trie树)又称单词查找树,是一种树形结构。所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较。字典树trie搜索关键码的时间和关键码自身及其长度有关,最快是Ο(1),即在第一层即可判断是否搜索到,最坏的情况是Ο(n),n为Trie树的层数。
AC双数组字典树(AhoCorasickDouble-Array Trie)是trie树的一个简单而有效的实现,由两个数组构成,一个是base数组,另一个是check数组,由这两个数组来表示trie树结构。该结构有效结合了数字搜索树(Digital Search Tree)检索时间高效的特点和链式表示的Trie空间结构紧凑的特点。双数组Trie的本质是一个确定有限状态自动机,每个节点代表自动机的一个状态,根据变量不同,进行状态转移,当到达结束状态或无法转移时,完成一次查询操作。
其中,base数组用来存储trie树每个节点的状态,每匹配一个字符进行状态转移;check用来存储每个状态的上一个状态,可以检查状态转移的正确性。匹配原理:t=base[s]+c;check[base[s]+c]=s,其中s为当前状态,t为下一个状态,c为字符的编码。例如图6所示,在state200时匹配字符a,a的Unicode为97,满足下面的条件表示能够匹配:base[200]+97=1098,check[1098]=1001。整个匹配过程只利用数组下标和加法操作,效率很高,同时双数组能够降低空间复杂度。在双数组所有键中包含的字符之间的联系都是通过简单的数学加法运算表示,不仅提高了检索速度,而且省去了链式结构中使用的大量指针,节省了存储空间。
进一步地,AC双数组字典树增加了失败指针。以下以英语字符来举例说明,例如,基于uuidi、ui、id、idi、idk、di来构建AC双数组字典树中的字典树上增加失败指针,如图7所示,T1表示增加失败指针后的字典树结构示意图,T2示出了其字典树上每个节点(ID)对应的失败指针(Fail)。Root为根节点,根节点(Root)不包括字符,根节点到某节点的连接为该节点对应的字符串,模式的结尾可能出现叶子节点或路径节点。
如图7所示,基于uuidi、ui、id、idi、idk、di,从左到右,从上到下,建立u、u、i、d、i,及分别对应编号1、2、3、4、5;i及对应编号6;i及对应编号7;d及对应编号8;i、k及对应编号9、10;d及对应编号11;i及对应编号12。T1中,每个节点上的箭头指向另一个节点表示另一个节点是这个节点指向的失败指针;若在一个节点上没有箭头指向另一个节点,表示该节点指向的失败指针为根节点(Root),在T2中Fail以0表示。详细信息如T2所示,ID表示每个节点的编号,Fail表示每个ID对应的失败指针,如ID为6(i)的节点,Fail为7,表示编号为6的节点指向编号为7的节点,正如T1所示,编号为6的节点有个箭头指向编号为7的节点,即编号为7的节点为编号为6的节点的失败指针。例如,输入字符“u ui d k”,基于T1,进行匹配,第5个字符是k,节点5是i,匹配失败,在节点5(i)失败时可以利用之前的匹配信息,在树中查找最长前缀,使其能够匹配上当前失败位置处的最长后缀,找到4的模式串为“uuid”,对应的后缀为“uid”、“id”、“d”,“uid”不能匹配,“id”能匹配7、8,则失败指针指向8,从8开始匹配,使其匹配找到k。不需要回溯到根节点,引入失败指针减少了回溯的次数,将时间复杂度降到了O(m),m是要匹配的文本的长度。
步骤S340:逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行精确匹配和/或包含匹配,获得每次匹配得到的第三命中词。
精确匹配:广告在审核过程中匹配关键词的一种方式,精确匹配指广告信息和要匹配的关键词完全一致。在本实施例中,所述至少两种广告审核规则各自对应的审核关键词如黑词、商标词、竞品词均属于不良词汇。具体地,逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行精确匹配,即所述广告信息和要匹配的所述至少两种广告审核规则各自对应的审核关键词完全一致。
包含匹配:广告在审核过程中匹配关键词的一种方式,包含匹配指广告信息要包含要匹配的关键词。
在本实施例中,逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行包含匹配,即所述广告信息要包含要匹配的所述至少两种广告审核规则各自对应的审核关键词。基于精确匹配和/或包含匹配获得的关键词,获得每次匹配得到的第三命中词。
步骤S350:获取包括所述每次匹配得到的第三命中词和所述每次匹配得到的第二命中词的命中信息。
根据不同的匹配方式,可以结合精确匹配和/或包含匹配以及分散匹配的结果,获得最后的命中信息。
步骤S360:将所述命中信息发送给所述广告信息的投放终端。
在本实施例中,命中信息包括不良词汇如黑词、商标词、敏感词等,服务器将获取到的命中信息发送给所述广告信息的投放终端。以此表示该广告信息未通过审核。
本发明实施例提供的广告审核方法,通过获取待审核的广告信息;基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;将所述命中信息发送给所述广告信息的投放终端。以此对广告信息进行多层次匹配,提高了广告审核的效率和准确度。
第三实施例
请参阅图8,本发明实施例提供了一种广告审核装置400,所述装置400包括:
第一获取单元410,用于获取待审核的广告信息。
第二获取单元420,用于基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语。
发送单元430,用于将所述命中信息发送给所述广告信息的投放终端。
以上各单元可以是由软件代码实现,此时,上述的各单元可存储存储器110内。以上各单元同样可以由硬件例如集成电路芯片实现。
本发明实施例提供的广告审核装置400,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第四实施例
请参阅图9,本发明实施例提供了一种广告审核装置500,所述装置500包括:
第一获取单元510,用于获取待审核的广告信息。
第二获取单元520,用于基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语。
作为一种实施方式,所述第二获取单元520可以包括分段子单元521、非限词获取子单元522、第一匹配子单元523、第一命中信息获取子单元524、第二匹配子单元525以及第二命中信息获取子单元526。
分段子单元521,用于将所述至少两种广告审核规则各自对应的审核关键词进行分段,得到所述至少两种广告审核规则各自对应多个分段关键词。
分段子单元521还可以用于建立所述至少两种广告审核规则各自对应的审核关键词的AC双数组字典树,并将所述至少两种广告审核规则各自对应的多个分段关键词赋值到各自的AC双数组字典树的节点上。
非限词获取子单元522,用于获取所述至少两种广告审核规则各自对应多个分段关键词对应的非限词,所述非限词为所述多个分段关键词中不需要被命中的词语。
第一匹配子单元523,用于逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,获得每次匹配得到的第一命中词,去除每次匹配得到的所述第一命中词中的所述非限词且验证所述去除得到后的词语,获得每次匹配得到的第二命中词。
第一命中信息获取子单元524,用于获取包括所述每次匹配得到的第二命中词的命中信息。
第二匹配子单元525,用于逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行精确匹配和/或包含匹配,获得每次匹配得到的第三命中词。
第二命中信息获取子单元526,用于获取包括所述每次匹配得到的第三命中词和所述每次匹配得到的第二命中词的命中信息。
发送单元530,用于将所述命中信息发送给所述广告信息的投放终端。
以上各单元可以是由软件代码实现,此时,上述的各单元可存储存储器110内。以上各单元同样可以由硬件例如集成电路芯片实现。
本发明实施例提供的广告审核装置500,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (11)

1.一种广告审核方法,其特征在于,所述方法包括:
获取待审核的广告信息;
基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;
将所述命中信息发送给所述广告信息的投放终端。
2.根据权利要求1所述的方法,其特征在于,所述基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,包括:
将所述至少两种广告审核规则各自对应的审核关键词进行分段,得到所述至少两种广告审核规则各自对应多个分段关键词;
获取所述至少两种广告审核规则各自对应多个分段关键词对应的非限词,所述非限词为所述多个分段关键词中不需要被命中的词语;
逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,获得每次匹配得到的第一命中词,去除每次匹配得到的所述第一命中词中的所述非限词且验证所述去除得到后的词语,获得每次匹配得到的第二命中词;
获取包括所述每次匹配得到的第二命中词的命中信息。
3.根据权利要求2所述的方法,其特征在于,所述基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,还包括:
逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行精确匹配和/或包含匹配,获得每次匹配得到的第三命中词;
获取包括所述每次匹配得到的第三命中词和所述每次匹配得到的第二命中词的命中信息。
4.根据权利要求2所述的方法,其特征在于,将所述至少两种广告审核规则各自对应的审核关键词进行分段,得到所述至少两种广告审核规则各自对应多个分段关键词,包括:
建立所述至少两种广告审核规则各自对应的审核关键词的AC双数组字典树,并将所述至少两种广告审核规则各自对应的多个分段关键词赋值到各自的AC双数组字典树的节点上;
相应的,所述逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,包括:
逐次将所述广告信息分别与所述至少两种广告审核规则各自对应的AC双数组字典树上各个节点对应的分段关键词进行匹配。
5.根据权利要求1-4任一所述的方法,其特征在于,所述基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,包括:
基于预先设定的多种广告审核规则中的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配;
所述多种广告审核规则包括黑词规则、商标词规则、竞品词规则、敏感词规则以及非限规则,所述黑词规则对应的关键词为黑词,所述商标词规则对应的关键词为商标词,所述竞品词规则对应的关键词为竞品词,所述敏感词对应的关键词为敏感词,所述非限规则对应的关键词为非限字。
6.根据权利要求5所述的方法,其特征在于,所述基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息之前,还包括:
分别读取所述黑词规则的文件,从所述黑词规则的文件中提取所述黑词;读取所述商标词规则的文件,从所述商标词规则的文件中提取所述商标词;读取所述竞品词规则的文件,从所述竞品词规则的文件中提取所述竞品词;读取所述敏感词规则的文件,从所述敏感词规则的文件中提取所述敏感词;读取所述非限规则的文件,从所述非限规则的文件中提取所述非限字。
7.一种广告审核装置,其特征在于,所述装置包括:
第一获取单元,用于获取待审核的广告信息;
第二获取单元,用于基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;
发送单元,用于将所述命中信息发送给所述广告信息的投放终端。
8.根据权利要求7所述的装置,其特征在于,所述第二获取单元包括:
分段子单元,用于将所述至少两种广告审核规则各自对应的审核关键词进行分段,得到所述至少两种广告审核规则各自对应多个分段关键词;
非限词获取子单元,用于获取所述至少两种广告审核规则各自对应多个分段关键词对应的非限词,所述非限词为所述多个分段关键词中不需要被命中的词语;
第一匹配子单元,用于逐次将所述至少两种广告审核规则各自对应多个分段关键词与所述广告信息进行匹配,获得每次匹配得到的第一命中词,去除每次匹配得到的所述第一命中词中的所述非限词且验证所述去除得到后的词语与所述多个分段关键词匹配,获得每次匹配得到的第二命中词;
第一命中信息获取子单元,用于获取包括所述每次匹配得到的第二命中词的命中信息。
9.根据权利要求8所述的装置,其特征在于,所述第二获取单元还包括:
第二匹配子单元,用于逐次将所述至少两种广告审核规则各自对应的审核关键词与所述广告信息进行精确匹配和/或包含匹配,获得每次匹配得到的第三命中词;
第二命中信息获取子单元,用于获取包括所述每次匹配得到的第三命中词和所述每次匹配得到的第二命中词的命中信息。
10.根据权利要求8所述的装置,其特征在于,所述分段子单元还用于建立所述至少两种广告审核规则各自对应的审核关键词的AC双数组字典树,并将所述至少两种广告审核规则各自对应的多个分段关键词赋值到各自的AC双数组字典树的节点上。
11.一种服务器,其特征在于,所述服务器包括处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述服务器执行以下操作:
获取待审核的广告信息;
基于预先设定的至少两种广告审核规则各自对应的审核关键词对所述广告信息进行匹配,以获取命中信息,所述命中信息包括所述广告信息中分别与所述至少两种广告审核规则各自对应的审核关键词匹配的词语;
将所述命中信息发送给所述广告信息的投放终端。
CN201710201374.3A 2017-03-29 2017-03-29 广告审核方法、装置及服务器 Active CN108664501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710201374.3A CN108664501B (zh) 2017-03-29 2017-03-29 广告审核方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710201374.3A CN108664501B (zh) 2017-03-29 2017-03-29 广告审核方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108664501A true CN108664501A (zh) 2018-10-16
CN108664501B CN108664501B (zh) 2021-02-26

Family

ID=63785470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710201374.3A Active CN108664501B (zh) 2017-03-29 2017-03-29 广告审核方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108664501B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636470A (zh) * 2018-12-14 2019-04-16 邓文月 一种基于移动终端与媒体交互终端的信息交互方法及系统
CN111368529A (zh) * 2020-03-17 2020-07-03 重庆邮电大学 基于边缘计算的移动终端敏感词识别方法、装置及系统
JP2020154840A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 付与装置、付与方法および付与プログラム
CN112988811A (zh) * 2021-03-09 2021-06-18 重庆可兰达科技有限公司 对app广告内容合规性的检测方法、系统、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
CN101253499A (zh) * 2005-06-29 2008-08-27 谷歌公司 审核网站加入广告网络的合适性
US20110166943A1 (en) * 2010-01-07 2011-07-07 Oracle International Corporation Policy-based advertisement engine
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253499A (zh) * 2005-06-29 2008-08-27 谷歌公司 审核网站加入广告网络的合适性
CN101158948A (zh) * 2006-10-08 2008-04-09 中国科学院软件研究所 文本内容过滤方法和系统
US20110166943A1 (en) * 2010-01-07 2011-07-07 Oracle International Corporation Policy-based advertisement engine
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636470A (zh) * 2018-12-14 2019-04-16 邓文月 一种基于移动终端与媒体交互终端的信息交互方法及系统
JP2020154840A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP7042768B2 (ja) 2019-03-20 2022-03-28 ヤフー株式会社 付与装置、付与方法および付与プログラム
CN111368529A (zh) * 2020-03-17 2020-07-03 重庆邮电大学 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN111368529B (zh) * 2020-03-17 2022-07-01 重庆邮电大学 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN112988811A (zh) * 2021-03-09 2021-06-18 重庆可兰达科技有限公司 对app广告内容合规性的检测方法、系统、终端及介质

Also Published As

Publication number Publication date
CN108664501B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
Jiang et al. Query-adaptive image search with hash codes
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN109918532A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN109582772B (zh) 合同信息提取方法、装置、计算机设备和存储介质
CN107273861A (zh) 一种主观题阅卷评分方法、装置及终端设备
CN108664501A (zh) 广告审核方法、装置及服务器
US20100313258A1 (en) Identifying synonyms of entities using a document collection
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN112668323B (zh) 基于自然语言处理的文本要素提取方法及其文本审查系统
CN109714356A (zh) 一种异常域名的识别方法、装置及电子设备
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN112148701A (zh) 一种文件检索的方法及设备
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
US20140081982A1 (en) Method and Computer for Indexing and Searching Structures
CN110046251A (zh) 社区内容风险评估方法及装置
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
Lakshmi et al. DIC-DOC-K-means: dissimilarity-based Initial Centroid selection for DOCument clustering using K-means for improving the effectiveness of text document clustering
CN107491536A (zh) 一种试题校验方法、试题校验装置及电子设备
CN109189892A (zh) 一种基于文章评论的推荐方法及装置
CN112699375A (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
CN110321560A (zh) 一种从文本信息中确定位置信息的方法、装置及电子设备
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200528

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01 (only for office use)

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant