一种利用音频特征识别的广告监播投放系统及方法
技术领域
本发明涉及一种广告音频监播投放系统及方法,具体地,涉及一种利用音频特征识别的广告监播投放系统及方法。
背景技术
随着全球市场经济进一步向纵深发展,企业和商家的广告投入日益加大,视音频媒体的各种广告铺天盖地,但广告的漏播、断播或播出质量差、任意变动播出时间和次数等非正常现象却屡见不鲜。
然而,目前的视音频媒体广告尚缺少一种有效的技术监督和检测手段。在现有的技术中,广告自动检测在日常生活中扮演了越来越重要的角色。例如:从电视终端用户来看,在录制节目时自动滤掉广告,将会大大提高用户舒适度和效率;对于刊登广告者和公司而言,自动检测特定的广告将能有效地验证广告公司履行合同情况;对于社会公共机构而言,广告自动检测能够帮助检测违规广告等等。但这种方法也存在不足,随着广告与互联网技术的发展,目前的广告自动检测技术在准确率上明显偏低,并且存在着检测所需数据量大,计算量非常大,速度比较慢,很难实现实时性能等缺陷。
而为了能够了解广告的播出效果,我们就必须对广告发布进行跟踪和分析。例如:一位广告商购买了每天特定时间的广告,他需要确实且客观的知道广告是否在该特定时间内播出,是否被插入了其他广告商的广告,是否按照既定的方式进行了播出。
在现阶段,并没有一个非常好的方法实现上述问题。在大多数情况下,人们只能够相信广告代理商或者发布方提供的数据。但由于经济利益的问题和信息的不对称性,代理商或发布方常常不报告真实的情况,而尽量报告对自己有利的信息。对于期望获得服务的一方,只能靠人工的抽查来进行个别问题的发现。如果不愿意投入人力的话,就只能相信广告代理商或者发布方提供的报告。
由此可见,为了解决上述问题,就需要一种能够有效地利用音频特征识别进行广告监播投放的系统及方法。
发明内容
本发明的目的是提供一种广告音频监播投放系统及方法,能够解决现有的问题,有效地利用音频特征识别进行广告监播投放。
为了达到上述目的,本发明提供了一种利用音频特征识别的广告监播投放系统,其中,所述的广告监播投放系统包含:监播子系统,刊例子系统,与排期自动匹配的子系统,音频截取子系统,竞品数据录入子系统,广告投放花费计算子系统,数据统计分析子系统以及客户管理子系统。各子系统分别包含数据库和服务器,且均与中央处理器(CPU,CentralProcessing Unit)或PC(personal computer,个人计算机)端连接,并通过应用软件平台进行操作和控制。
本发明还提供了一种通过上述的系统进行的利用音频特征识别的广告监播投放的方法,其中,所述的方法包含:步骤1,建立监播子系统并进行使用;步骤2,建立刊例子系统并进行使用;步骤3,建立与排期自动匹配的子系统并进行使用;步骤4,建立音频截取子系统并进行音频截取;步骤5,建立竞品数据录入子系统并进行使用;步骤6,建立广告投放花费计算子系统并进行使用;步骤7,建立数据统计分析子系统并进行使用;步骤8,建立客户管理子系统并进行使用。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤1所述的监播子系统,在使用时包含:步骤1.1,将投放的广告音频上传至监播子系统,监播子系统对上传的广告音频特征相量进行提取,用提取后的特征相量与收录的指定广播频率音频所提取的特征相量进行匹配;广告的特征相量与广播音频特征相量匹配出结果,匹配上的则是投放的广告在此频率有投放,以及体现出具体播出的时间;步骤1.2,根据上传至监播子系统的广告投放计划时间与广播媒体具体播出的时间进行匹配,输出匹配结果,证明广告是否真实在广播媒体投放,证明广告是否按照播出计划进行投放,生成报告;步骤1.3,生成报告后,根据广告实际在广播媒体投放广告的时间可以在线调取相应广播媒体实播音频听取,实播音频包括实播的广告以及此广告前后各90秒的内容。广告音频特征相量提取的过程为:首先,确定特征点位。点位是指电台频率和时间点,以对应广告播出的开始时间。具体为:将音频格式转换为单声道,重采样为8000Hz;对音频加滑动窗口后计算短时傅立叶变换(STFT),转换为频谱(spectrogram);计算上述频谱每个时间点特定频率的能量值,以800Hz为中心,20Hz为σ(sigma,标准差),5个σ(sigma,标准差)之内按正态分布函数对能量进行加权平均;对上述能量值曲线在滑动窗口内取极大值,极大值对应的时间点即为特征点位,滑动窗口的滑动间隔为0.02秒,窗口长度为0.25秒。其次,提取特征。对每个特征点位按如下算法提取特征,具体为:从点位时间起计算频谱短时傅立叶变换(STFT)的窗口为0.371秒,滑动间隔为0.0116秒,连续128个窗口;将频谱能量范围按对数坐标刻度(log scale,对指数级别的数据进行对数运算以后的标尺或坐标刻度)分为31个区间;每个频谱对应128×31个二维区域,在频谱上计算能量得到尺寸为128×31的矩阵;对上述矩阵进行小波变换;把上述结果中值最大的200个元素置1,其余元素置零得到128×31的0/1矩阵;对上述矩阵进行200维最小哈希算法(MinHash)得到200维向量;对上述向量的200维按4维一组进行分组得到50组,只取其前48组,每一组按算术编码进行编码,并对编码截断只取其前一个字节,由此将200维向量缩减为48维字节向量,作为最终特征向量;匹配两个点位时,对其相似性使用汉明(Hamming)距离不同的字节个数。然后,进行特征搜索。特征搜索包括逐个比对和快速检索两种。逐个比对(brutal force)在比对时支持一定(小范围)的时间空间压缩和拉伸。快速检索(Indexing)是使用局部敏感哈希算法(Locality Sensitive Hashing,LSH)压缩特征向量,建立可以驻留内存的索引,以实现高速近似搜索。最后进行音频搜索优化。音频搜索优化是将搜索音频进行预压缩和拉伸,以找到相应的广告播出点位。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤2所述的刊例子系统建立后,收集整理广播媒体的销售刊例,将刊例输入到刊例子系统,以备调用;监播子系统在建立监播任务时需要建广告的投放计划,投放计划来源于广播媒体的刊例;监播子系统在建立监播任务时自动调取子系统中的刊例,生成计划时间点位,用于与实际广播媒体投放点位进行匹配;竞品数据子系统在数据生成后调取刊例子系统中的相应点位的广播刊例价格,每条播出的广告均对应上刊例价格,在刊例中没有明确具体时长的价格情况,根据相同时段其它时长的广告刊例价格计算出费用;竞品数据用于数据分析的一个分析层面即为广告主播出的费用;所述的刊例子系统包含原始刊例,供客户通过平台下载使用;还包含对原始刊例的数据进行加工处理后的刊例,用于子系统自动调用;广播媒体的刊例一般每年会更新一次,有的媒体三个月或半年更新一次,所述的刊例子系统将历年的刊例进行存储,跑不同年份的数据可以调用不同的时期的刊例价。刊例是媒体广告部门提供的可以发布在其上的广告形式,价格表和报价手册。 我们可以通俗地理解为:刊载在媒体(电视、广播、报纸、杂志、网络媒体、户外媒体)上的广告的价目表。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤3所述的与排期自动匹配的子系统,所述的排期为广告播出的计划点位;所述的与排期自动匹配的子系统,在输入排期后,自动调用广播媒体刊例,输入的排期如果与系统中的广播媒体刊例相同则顺利将播出结果与排期相匹配,如果输入的排期与刊例不符将反馈给输入排期人,调整排期;所述的与排期自动匹配的子系统提供人工输入(录入)点位的功能,通过输出计划播出的实际点位,不用通过广播媒体刊例匹配确认,即可以与实际广播媒体播出结果进行匹配。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤4所述的音频截取子系统,根据广告实际在广播媒体投放广告的时间截取实播广告以及此广告前后各90秒的内容,以供下载使用,并根据需要提供自由截取指定广播媒体,指定日期和时段的音频截取和下载。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤5所述的竞品数据录入子系统,在使用时包含:步骤5.1,自动对14天的广播媒体音频的特征进行扫描,音频特征重复出现的音频即为疑似广告,也就是毛音频;步骤5.2,将疑似广告音频(毛音频)反馈给数据处理人员,依靠人工听取确认是否为广告,根据竞品数据录入子系统的提示以及音频的波形截取广告音频,即为广告样本;步骤5.3,根据截取广告音频(广告样本)的特征相量对广播媒体指定日期以后的所有播出音频进行搜索和匹配,匹配上的即为该广告;步骤5.4,对广告样本进行标签化,注明此广告的所属企业、品牌、产品名称、时长、类别以及其它的属性;步骤5.5,当各个疑似广告音频(毛音频)均处理完成后,广播媒体一天广告播出情况就体现出来,形成串播单,即体现出具体在某一天什么时间播出了什么广告;步骤5.6,截取广告样本每天均参与当天广播媒体音频的识别匹配,在广播媒体当天播出完成后即可以生成当天的串播单。如有新广告播出,在对疑似广告音频(毛音频)进行处理后同样参与当天的音频识别匹配,形成完整的串播单;步骤5.7,在形成完整串播单后,为了保证数据质量避免遗漏新广告样本的建立,进行串播单排查,竞品数据录入子系统根据历史数据的情况对有可能出现广告的位置再一次进行提示,通过人工确认来保证串播单的正确性和完整性;步骤5.8,如果在排期过程中发现新广告,则截取新广告做为样本进行识别。通以上步骤生成每天的串播单。筛选重复广告片段并生成毛音频的过程为:首先,对所有音频进行点位和特征提取。再对所有点位按特征进行聚类(clustering)。每一类包括的是重复音频在相同时间点提取的特征。然后以上述每一个聚类为一个节点生成有向图,称为商图。商图的一个节点对应一个特征时间长度约为2秒的重复音频片段。再把商图中节点对应的前后相连的片段连缀成串。向商图中添加有向边算法,有向边算法为:如果节点A对应的聚类包含具体音频时间点a,节点B对应的聚类包含时间点b,并且b在a之后0.4秒之内则增加A到B的有向边;有向边代表AB是同一重复音频前后相邻的两个特征。随后对上述图检测所有最大线性子图,也就是中间不带分叉的一串相连的节点;每个子图对应一个无歧义重复音频片段,作为种子毛音频。分叉代表在不同的实例中重复片段前后播放的不同内容。接着对代表种子毛音频的子图进行剪枝。为了避免上述检测产生的种子毛音频过于重复琐碎需要对图进行剪枝。剪枝为:如果从节点A到Z有两条平行的路径则删除较短的一条重复检测。较短的一条质量较差。注意种子毛音频的特征一般比原始音频对应片段的特征稀疏,因为有些特征没有聚上类在图检测过程中丢失了。之后在全音频中对种子毛音频进行搜索,取得所有匹配的原始音频片段。将所有匹配的原始音频片段的集合记为S,如果匹配数小于4则认为该音频重复次数较少予以丢弃。这些匹配的原始音频片段互相重复但因为噪音特征无法完全匹配。再取上述音频片段的中心片段。将原始音频片段的中心片段记为c,即medoid,也就是于其余片段匹配最好的片段。接着对中心片段按左右延长,直到无法与别的片段匹配。中心片段按左右延长的算法为:S中任意片段s与c都包含种子片段,从对应种子片段头部和尾部的时间点往前后匹配直至无法匹配,得到扩展时间t,S中除c以外的片段全都计算后得到|S|-1个t,即N个t,取这些t中最典型值为最终扩展距离。因为种子毛音频特征比较稀疏所以种子毛音频的起止点范围并不准确。可以往左右分别追加特征看是否还能与别的片段匹配。N个t取最典型值的算法为:确定区间[0, max(t)],对于每个t都对区间按以t为中心、σ(sigma,标准差)为0.4秒的正态分布进行加权,最后取权重最高的位置。最后,扩展后的中心片段为最终生成的一个毛音频。即重复音频片段。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤6所述的广告投放花费计算子系统,在串播单生成后,根据每条广告所播出的频率、时间、秒长等信息在刊例子系统中找到相对应的刊例价加入到串播单的数据中,刊例中如果没有相应秒长的费用,刊例子系统根据其它秒长费用的规律计算出非刊例中秒长的费用。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤7所述的数据统计分析子系统,根据串播单中的数据,对广播媒体的投放广告情况进行多维度的数据分析,包含:对不同广播媒体之前广告时长、广告量、广告费用等方面进行分析,对同一广播媒体内不同类别、不同品牌、不同产品等之间的投放情况进行分析,对整体广播市场不同类别、不同品牌、不同产品等之前的投放情况进行分析,以及根据数据库中的数据项进行各种组合的数据分析。
上述的利用音频特征识别的广告监播投放的方法,其中,步骤8所述的客户管理子系统为客户开通帐号,客户自主建单,即上传音频和排期,客户管理子系统自动生成广告投放报告,或者由所述的客户管理子系统帮助客户建单(上传音频和排期),将所建单挂到客户帐户下,客户查看自动生成广告投放报告;所述的客户管理子系统还提供客户在线试听功能,下载报告以及下载广告播出音频等服务;所述的客户查看子系统生成的报告带有二维码识别,客户在使用打印版版的纸报告,或电子版的报告,可以通过扫描二维码登录网站,确认报告的真伪;所述的客户管理子系统自动统计客户生成报告量,即使用量,用于费用结算,并支持客户开通主帐号和子帐号的功能,还支持客户主帐号自主定义下一级子帐号的权限,包括可以看到或使用数据以及分享数据的权限;所述的客户管理子系统具有支付后数据分享功能,数据使用人可以将数据分享给其它人员,其它人员登录子系统后可以看到相对应的报告;所述的客户管理子系统支持客户自主分层管理本公司的数据使用人员,包括添加、删除。
本发明提供的利用音频特征识别的广告监播投放系统及方法具有以下优点:
本发明以音频特征取代视频特征、音视频特征结合等进行广告检测,具有计算复杂度低,检测效率高的优点;本发明通过将待测数据与已知广告的音频特征进行比较,可以实现对特定广告的识别;本发明基于音频特征进行识别,具有应用范围广、准确率高的优点,极大的提高了检测效率。本发明可以使广告形式对用户更加友好,对用户更加精确地投放广告。本发明主要用于企业和商家对自己的商业广告在广播、电视、互联网媒体发布时的自动监播,也适用于政府有关部门对视音频媒体单位的广告监管和视音频媒体广告经营者的广告播出监控。
具体实施方式
以下对本发明的具体实施方式作进一步地说明。
本发明提供了一种利用音频特征识别的广告监播投放系统,包含:监播子系统,刊例子系统,与排期自动匹配的子系统,音频截取子系统,竞品数据录入子系统,广告投放花费计算子系统,数据统计分析子系统以及客户管理子系统。各子系统分别包含数据库和服务器,且均与中央处理器(CPU,Central Processing Unit)或PC(personal computer,个人计算机)端连接,并通过应用软件平台进行操作和控制。
本发明还提供了一种通过上述的系统进行的利用音频特征识别的广告监播投放的方法,包含:
步骤1,建立监播子系统并进行使用;步骤2,建立刊例子系统并进行使用;步骤3,建立与排期自动匹配的子系统并进行使用;步骤4,建立音频截取子系统并进行音频截取;步骤5,建立竞品数据录入子系统并进行使用;步骤6,建立广告投放花费计算子系统并进行使用;步骤7,建立数据统计分析子系统并进行使用;步骤8,建立客户管理子系统并进行使用。
步骤1的监播子系统,在使用时包含:步骤1.1,将投放的广告音频上传至监播子系统,监播子系统对上传的广告音频特征相量进行提取,用提取后的特征相量与收录的指定广播频率音频所提取的特征相量进行匹配;广告的特征相量与广播音频特征相量匹配出结果,匹配上的则是投放的广告在此频率有投放,以及体现出具体播出的时间;步骤1.2,根据上传至监播子系统的广告投放计划时间与广播媒体具体播出的时间进行匹配,输出匹配结果,证明广告是否真实在广播媒体投放,证明广告是否按照播出计划进行投放,生成报告;步骤1.3,生成报告后,根据广告实际在广播媒体投放广告的时间可以在线调取相应广播媒体实播音频听取,实播音频包括实播的广告以及此广告前后各90秒的内容。
步骤2的刊例子系统建立后,收集整理广播媒体的销售刊例,将刊例输入到刊例子系统,以备调用;监播子系统在建立监播任务时需要建广告的投放计划,投放计划来源于广播媒体的刊例;监播子系统在建立监播任务时自动调取子系统中的刊例,生成计划时间点位,用于与实际广播媒体投放点位进行匹配;竞品数据子系统在数据生成后调取刊例子系统中的相应点位的广播刊例价格,每条播出的广告均对应上刊例价格,在刊例中没有明确具体时长的价格情况,根据相同时段其它时长的广告刊例价格计算出费用;竞品数据用于数据分析的一个分析层面即为广告主播出的费用;刊例子系统包含原始刊例,供客户通过平台下载使用;还包含对原始刊例的数据进行加工处理后的刊例,用于子系统自动调用;刊例子系统将历年的刊例进行存储,跑不同年份的数据可以调用不同的时期的刊例价。
步骤3的与排期自动匹配的子系统,排期为广告播出的计划点位;与排期自动匹配的子系统,在输入排期后,自动调用广播媒体刊例,输入的排期如果与系统中的广播媒体刊例相同则顺利将播出结果与排期相匹配,如果输入的排期与刊例不符将反馈给输入排期人,调整排期;与排期自动匹配的子系统提供人工输入点位的功能,通过输出计划播出的实际点位,不用通过广播媒体刊例匹配确认,即可以与实际广播媒体播出结果进行匹配。
步骤4的音频截取子系统,根据广告实际在广播媒体投放广告的时间截取实播广告以及此广告前后各90秒的内容,以供下载使用,并根据需要提供自由截取指定广播媒体,指定日期和时段的音频截取和下载。
步骤5的竞品数据录入子系统,在使用时包含:步骤5.1,自动对14天的广播媒体音频的特征进行扫描,音频特征重复出现的音频即为疑似广告,也就是毛音频;步骤5.2,将疑似广告音频反馈给数据处理人员,依靠人工听取确认是否为广告,根据竞品数据录入子系统的提示以及音频的波形截取广告音频,即为广告样本;步骤5.3,根据截取广告音频的特征相量对广播媒体指定日期以后的所有播出音频进行搜索和匹配,匹配上的即为该广告;步骤5.4,对广告样本进行标签化,注明此广告的所属企业、品牌、产品名称、时长、类别以及其它的属性;步骤5.5,当各个疑似广告音频均处理完成后,广播媒体一天广告播出情况就体现出来,形成串播单,即体现出具体在某一天什么时间播出了什么广告;步骤5.6,截取广告样本每天均参与当天广播媒体音频的识别匹配,在广播媒体当天播出完成后即可以生成当天的串播单;如有新广告播出,在对疑似广告音频进行处理后同样参与当天的音频识别匹配,形成完整的串播单;步骤5.7,在形成完整串播单后,为了保证数据质量避免遗漏新广告样本的建立,进行串播单排查,竞品数据录入子系统根据历史数据的情况对有可能出现广告的位置再一次进行提示,通过人工确认来保证串播单的正确性和完整性;步骤5.8,如果在排期过程中发现新广告,则截取新广告做为样本进行识别。
步骤6的广告投放花费计算子系统,在串播单生成后,根据每条广告所播出的频率、时间、秒长等信息在刊例子系统中找到相对应的刊例价加入到串播单的数据中,刊例中如果没有相应秒长的费用,刊例子系统根据其它秒长费用的规律计算出非刊例中秒长的费用。
步骤7的数据统计分析子系统,根据串播单中的数据,对广播媒体的投放广告情况进行多维度的数据分析,包含:对不同广播媒体之前广告时长、广告量、广告费用等方面进行分析,对同一广播媒体内不同类别、不同品牌、不同产品等之间的投放情况进行分析,对整体广播市场不同类别、不同品牌、不同产品等之前的投放情况进行分析,以及根据数据库中的数据项进行各种组合的数据分析。
步骤8的客户管理子系统为客户开通帐号,客户自主建单,即上传音频和排期,客户管理子系统自动生成广告投放报告,或者由客户管理子系统帮助客户建单,将所建单挂到客户帐户下,客户查看自动生成广告投放报告;客户管理子系统还提供客户在线试听功能,下载报告以及下载广告播出音频等服务;客户查看子系统生成的报告带有二维码识别;客户管理子系统自动统计客户生成报告量,即使用量,用于费用结算,并支持客户开通主帐号和子帐号的功能,还支持客户主帐号自主定义下一级子帐号的权限,包括可以看到或使用数据以及分享数据的权限;客户管理子系统具有支付后数据分享功能,数据使用人将数据分享给其它人员,其它人员登录子系统查看相对应的报告;客户管理子系统支持客户自主分层管理本公司的数据使用人员。
下面结合实施例对本发明提供的利用音频特征识别的广告监播投放系统及方法做更进一步描述。
实施例1
一种利用音频特征识别的广告监播投放系统,包含:监播子系统,刊例子系统,与排期自动匹配的子系统,音频截取子系统,竞品数据录入子系统,广告投放花费计算子系统,数据统计分析子系统以及客户管理子系统。各子系统分别包含数据库和服务器,且均与CPU或PC端连接,并通过应用软件平台进行操作和控制。
本实施例还提供了一种通过上述的系统进行的利用音频特征识别的广告监播投放的方法,如下所述。
步骤1,建立监播子系统并进行使用。
监播子系统在使用时包含:步骤1.1,将投放的广告音频上传至监播子系统,监播子系统对上传的广告音频特征相量进行提取,用提取后的特征相量与收录的指定广播频率音频所提取的特征相量进行匹配;广告的特征相量与广播音频特征相量匹配出结果,匹配上的则是投放的广告在此频率有投放,以及体现出具体播出的时间;步骤1.2,根据上传至监播子系统的广告投放计划时间与广播媒体具体播出的时间进行匹配,输出匹配结果,证明广告是否真实在广播媒体投放,证明广告是否按照播出计划进行投放,生成报告;步骤1.3,生成报告后,根据广告实际在广播媒体投放广告的时间可以在线调取相应广播媒体实播音频听取,实播音频包括实播的广告以及此广告前后各90秒的内容。
广告音频特征相量提取的过程为:首先,确定特征点位。点位是指电台频率和时间点,以对应广告播出的开始时间。具体为:将音频格式转换为单声道,重采样为8000Hz;对音频加滑动窗口后计算短时傅立叶变换(STFT),转换为频谱(spectrogram);计算上述频谱每个时间点特定频率的能量值,以800Hz为中心,20Hz为σ(sigma,标准差),5个σ(sigma,标准差)之内按正态分布函数对能量进行加权平均;对上述能量值曲线在滑动窗口内取极大值,极大值对应的时间点即为特征点位,滑动窗口的滑动间隔为0.02秒,窗口长度为0.25秒。其次,提取特征。对每个特征点位按如下算法提取特征,具体为:从点位时间起计算频谱短时傅立叶变换(STFT)的窗口为0.371秒,滑动间隔为0.0116秒,连续128个窗口;将频谱能量范围按对数坐标刻度(log scale,对指数级别的数据进行对数运算以后的标尺或坐标刻度)分为31个区间;每个频谱对应128×31个二维区域,在频谱上计算能量得到尺寸为128×31的矩阵;对上述矩阵进行小波变换;把上述结果中值最大的200个元素置1,其余元素置零得到128×31的0/1矩阵;对上述矩阵进行200维最小哈希算法(MinHash)得到200维向量;对上述向量的200维按4维一组进行分组得到50组,只取其前48组,每一组按算术编码进行编码,并对编码截断只取其前一个字节,由此将200维向量缩减为48维字节向量,作为最终特征向量;匹配两个点位时,对其相似性使用汉明(Hamming)距离不同的字节个数。然后,进行特征搜索。特征搜索包括逐个比对和快速检索两种。逐个比对(brutal force)在比对时支持一定(小范围)的时间空间压缩和拉伸。快速检索(Indexing)是使用局部敏感哈希算法(Locality Sensitive Hashing,LSH)压缩特征向量,建立可以驻留内存的索引,以实现高速近似搜索。最后进行音频搜索优化。音频搜索优化是将搜索音频进行预压缩和拉伸,以找到相应的广告播出点位。
步骤2,建立刊例子系统并进行使用。
刊例子系统建立后,收集整理广播媒体的销售刊例,将刊例输入到刊例子系统,以备调用;监播子系统在建立监播任务时需要建广告的投放计划,投放计划来源于广播媒体的刊例;监播子系统在建立监播任务时自动调取子系统中的刊例,生成计划时间点位,用于与实际广播媒体投放点位进行匹配;竞品数据子系统在数据生成后调取刊例子系统中的相应点位的广播刊例价格,每条播出的广告均对应上刊例价格,在刊例中没有明确具体时长的价格情况,根据相同时段其它时长的广告刊例价格计算出费用;竞品数据用于数据分析的一个分析层面即为广告主播出的费用;刊例子系统包含原始刊例,供客户通过平台下载使用;还包含对原始刊例的数据进行加工处理后的刊例,用于子系统自动调用;广播媒体的刊例一般每年会更新一次,有的媒体三个月或半年更新一次,刊例子系统将历年的刊例进行存储,跑不同年份的数据可以调用不同的时期的刊例价。刊例是媒体广告部门提供的可以发布在其上的广告形式,价格表和报价手册。 我们可以通俗地理解为:刊载在媒体(电视、广播、报纸、杂志、网络媒体、户外媒体)上的广告的价目表。
步骤3,建立与排期自动匹配的子系统并进行使用。
与排期自动匹配的子系统,排期为广告播出的计划点位;与排期自动匹配的子系统,在输入排期后,自动调用广播媒体刊例,输入的排期如果与系统中的广播媒体刊例相同则顺利将播出结果与排期相匹配,如果输入的排期与刊例不符将反馈给输入排期人,调整排期;与排期自动匹配的子系统提供人工输入(录入)点位的功能,通过输出计划播出的实际点位,不用通过广播媒体刊例匹配确认,即可以与实际广播媒体播出结果进行匹配。
步骤4,建立音频截取子系统并进行音频截取。
音频截取子系统根据广告实际在广播媒体投放广告的时间截取实播广告以及此广告前后各90秒的内容,以供下载使用,并根据需要提供自由截取指定广播媒体,指定日期和时段的音频截取和下载。
步骤5,建立竞品数据录入子系统并进行使用。
竞品数据录入子系统,在使用时包含:步骤5.1,自动对14天的广播媒体音频的特征进行扫描,音频特征重复出现的音频即为疑似广告,也就是毛音频;步骤5.2,将疑似广告音频(毛音频)反馈给数据处理人员,依靠人工听取确认是否为广告,根据竞品数据录入子系统的提示以及音频的波形截取广告音频,即为广告样本;步骤5.3,根据截取广告音频(广告样本)的特征相量对广播媒体指定日期以后的所有播出音频进行搜索和匹配,匹配上的即为该广告;步骤5.4,对广告样本进行标签化,注明此广告的所属企业、品牌、产品名称、时长、类别以及其它的属性;步骤5.5,当各个疑似广告音频(毛音频)均处理完成后,广播媒体一天广告播出情况就体现出来,形成串播单,即体现出具体在某一天什么时间播出了什么广告;步骤5.6,截取广告样本每天均参与当天广播媒体音频的识别匹配,在广播媒体当天播出完成后即可以生成当天的串播单。如有新广告播出,在对疑似广告音频(毛音频)进行处理后同样参与当天的音频识别匹配,形成完整的串播单;步骤5.7,在形成完整串播单后,为了保证数据质量避免遗漏新广告样本的建立,进行串播单排查,竞品数据录入子系统根据历史数据的情况对有可能出现广告的位置再一次进行提示,通过人工确认来保证串播单的正确性和完整性;步骤5.8,如果在排期过程中发现新广告,则截取新广告做为样本进行识别。通以上步骤生成每天的串播单。
筛选重复广告片段并生成毛音频的过程为:首先,对所有音频进行点位和特征提取。再对所有点位按特征进行聚类(clustering)。每一类包括的是重复音频在相同时间点提取的特征。然后以上述每一个聚类为一个节点生成有向图,称为商图。商图的一个节点对应一个特征时间长度约为2秒的重复音频片段。再把商图中节点对应的前后相连的片段连缀成串。向商图中添加有向边算法,有向边算法为:如果节点A对应的聚类包含具体音频时间点a,节点B对应的聚类包含时间点b,并且b在a之后0.4秒之内则增加A到B的有向边;有向边代表AB是同一重复音频前后相邻的两个特征。随后对上述图检测所有最大线性子图,也就是中间不带分叉的一串相连的节点;每个子图对应一个无歧义重复音频片段,作为种子毛音频。分叉代表在不同的实例中重复片段前后播放的不同内容。接着对代表种子毛音频的子图进行剪枝。为了避免上述检测产生的种子毛音频过于重复琐碎需要对图进行剪枝。剪枝为:如果从节点A到Z有两条平行的路径则删除较短的一条重复检测。较短的一条质量较差。注意种子毛音频的特征一般比原始音频对应片段的特征稀疏,因为有些特征没有聚上类在图检测过程中丢失了。之后在全音频中对种子毛音频进行搜索,取得所有匹配的原始音频片段。将所有匹配的原始音频片段的集合记为S,如果匹配数小于4则认为该音频重复次数较少予以丢弃。这些匹配的原始音频片段互相重复但因为噪音特征无法完全匹配。再取上述音频片段的中心片段。将原始音频片段的中心片段记为c,即medoid,也就是于其余片段匹配最好的片段。接着对中心片段按左右延长,直到无法与别的片段匹配。中心片段按左右延长的算法为:S中任意片段s与c都包含种子片段,从对应种子片段头部和尾部的时间点往前后匹配直至无法匹配,得到扩展时间t,S中除c以外的片段全都计算后得到|S|-1个t,即N个t,取这些t中最典型值为最终扩展距离。因为种子毛音频特征比较稀疏所以种子毛音频的起止点范围并不准确。可以往左右分别追加特征看是否还能与别的片段匹配。N个t取最典型值的算法为:确定区间[0, max(t)],对于每个t都对区间按以t为中心、σ(sigma,标准差)为0.4秒的正态分布进行加权,最后取权重最高的位置。最后,扩展后的中心片段为最终生成的一个毛音频。即重复音频片段。
步骤6,建立广告投放花费计算子系统并进行使用。
广告投放花费计算子系统在串播单生成后,根据每条广告所播出的频率、时间、秒长等信息在刊例子系统中找到相对应的刊例价加入到串播单的数据中,刊例中如果没有相应秒长的费用,刊例子系统根据其它秒长费用的规律计算出非刊例中秒长的费用。
步骤7,建立数据统计分析子系统并进行使用。
数据统计分析子系统根据串播单中的数据,对广播媒体的投放广告情况进行多维度的数据分析,包含:对不同广播媒体之前广告时长、广告量、广告费用等方面进行分析,对同一广播媒体内不同类别、不同品牌、不同产品等之间的投放情况进行分析,对整体广播市场不同类别、不同品牌、不同产品等之前的投放情况进行分析,以及根据数据库中的数据项进行各种组合的数据分析。
步骤8,建立客户管理子系统并进行使用。
客户管理子系统为客户开通帐号,客户自主建单,即上传音频和排期,客户管理子系统自动生成广告投放报告,或者由客户管理子系统帮助客户建单(上传音频和排期),将所建单挂到客户帐户下,客户查看自动生成广告投放报告;客户管理子系统还提供客户在线试听功能,下载报告以及下载广告播出音频等服务;客户查看子系统生成的报告带有二维码识别,客户在使用打印版版的纸报告,或电子版的报告,可以通过扫描二维码登录网站,确认报告的真伪;客户管理子系统自动统计客户生成报告量,即使用量,用于费用结算,并支持客户开通主帐号和子帐号的功能,还支持客户主帐号自主定义下一级子帐号的权限,包括可以看到或使用数据以及分享数据的权限;客户管理子系统具有支付后数据分享功能,数据使用人可以将数据分享给其它人员,其它人员登录子系统后可以看到相对应的报告;客户管理子系统支持客户自主分层管理本公司的数据使用人员,包括添加、删除。
本发明提供的利用音频特征识别的广告监播投放系统及方法,广告形式对用户更加友好,对用户更加精确地投放广告,通过对广告信息的记录和分析,获取各种有效的数据,继而将这些数据通过有效的方式传递给广告主,可让广告主全面了解广告投放质量,广告主可通过这些数据对网站的广告服务质量进行评估。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。