CN108712666B - 一种基于互动音频水印的移动终端与电视互动方法与系统 - Google Patents
一种基于互动音频水印的移动终端与电视互动方法与系统 Download PDFInfo
- Publication number
- CN108712666B CN108712666B CN201810521369.5A CN201810521369A CN108712666B CN 108712666 B CN108712666 B CN 108712666B CN 201810521369 A CN201810521369 A CN 201810521369A CN 108712666 B CN108712666 B CN 108712666B
- Authority
- CN
- China
- Prior art keywords
- audio
- interactive
- signal
- watermark
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003993 interaction Effects 0.000 title claims abstract description 19
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 230000009466 transformation Effects 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000003014 reinforcing effect Effects 0.000 claims description 2
- 238000002715 modification method Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/4104—Peripherals receiving signals from specially adapted client devices
- H04N21/4126—The peripheral being portable, e.g. PDAs or mobile phones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8358—Generation of protective data, e.g. certificates involving watermark
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于互动音频水印的移动终端与电视互动方法与系统,包括正在播放电视节目的电视机和参与观看电视节目的移动终端,将互动音频水印信号嵌入与电视机连接的视音频信号流中,启动在移动终端设置的互动APP将移动终端与一个互动服务器通过无线网络建立连接,移动终端通过麦克风接收电视机中电视节目的音频信号,移动终端对接收的音频信号进行检测并将检测出的互动音频水印信号发送至互动服务器,互动服务器根据接收的互动音频水印信号向移动终端推送互动信息并显示在移动终端上;本发明无需用户过多复杂操作,通过麦克风采集电视收看环境下的声音,通过根据手机提交的检测到水印ID信息,推送相关的互动HTML5页面。
Description
技术领域
本发明涉及无线通信领域,具体涉及一种基于互动音频水印的移动终端与电视互动方法与系统,即利用空气声波作为信道进行通信,利用在原有宿主音频水印的基础上嵌入互动音频水印,进行移动端和电视节目或者广告多屏互动。
背景技术
电视作为覆盖率最广的传统媒体,其一直占据主流媒体的地位。当前,普通电视用户与电视进行互动交互的方式主要有以下几种形式:1)通过机顶盒操作,实现电视节目点播、时移电视点播;2)通过发送短信,实现与电视节目的交互;3)通过电话,实现与电视节目的交互;4)通过手机扫描并识别电视画面中的二维码,实现与电视节目的交互。二维码扫描则存在安全性差,影响播出画面美观,反复扫码影响观众体验等问题,极度影响用户观赏电视的体验。
公开号为CN106331743A的专利申请公开了“一种基于音频水印的视频交互系统和方法”,该方案虽然利用了音频水印实现互动,但其仍然是将用户局限在视频终端上的操作,是一种网络在线的操作,用户只能在视频显示屏上进行操作,不灵活限制了用户的交互环境。
发明内容
本发明的目的在于克服以上技术缺陷,提供一种基于互动音频水印的移动终端与电视互动方法与系统。本发明的目的是通过以下技术方案实现的:
一种基于互动音频水印的移动终端与电视互动方法,包括正在播放电视节目的电视机和参与观看电视节目的移动终端,将互动音频水印信号嵌入与电视机连接的视音频信号流中,启动在移动终端设置的互动APP将移动终端与一个互动服务器通过无线网络建立连接;其中,移动终端通过麦克风接收电视机中电视节目的音频声音信号,移动终端对接收的音频声音信号进行检测并将检测出的互动音频水印信号发送至互动服务器,互动服务器根据接收的互动音频水印信号向移动终端推送互动信息并显示在移动终端上;所述互动音频水印信号包括对每一个电视节目的音频信号分配唯一的ID信息,每一个ID信息包括多位节目ID代码和多位时间戳计数代码,多位节目ID代码表示了每一个电视节目中的不同素材,多位时间戳计数代码表示了不同素材内的不同时间计数。
进一步是:所述ID信息为32比特信息位,其中:节目ID代码是20位,时间戳计数代码是12位。
进一步是:所述将互动音频水印信号嵌入与电视机连接的视音频信号流中的过程是:
第一步:对要嵌入的互动音频水印信号进行BCH编码;
第二步:用心理声学模型对信号进行分析,以确定拟嵌入的音频水印的频点位置及强度;具体为对向电视机传送的视音频信号中的音频时域信号进行时-频变换形成多个频率窗口区域,从多个频率窗口区域选择音频水印嵌入窗口区域确定嵌入的音频水印的频点位置;
第三步:将BCH编码后的互动音频水印信号随同秘钥嵌入音频水印的频点位置,秘钥用于移动终端检测授权;
第四步:将嵌入音频水印的音频信号进行逆变换(频-时变换)生成音频时域信号返回至视音频信号流中。
进一步是:所述选择音频水印嵌入窗口区域确定嵌入的音频水印的频点位置是:设定一个音频能量门限阈值,当一个窗口区域的音频信号能量大于门限阈值时,此窗口区域确定为嵌入的音频水印的频点位置。
进一步是:所述频率区域窗口划分有多个音频帧,每一音频帧有1024个时间采样点,所述频率区域窗口随音频帧嵌入8bit互动音频水印信号。
进一步是:所述方法进一步包括对嵌入的音频水印嵌入加强因子增加音频水印强度。
进一步是:所述互动服务器根据接收的互动音频水印信号向移动终端推送互动信息是:在互动服务器设置有根据ID信息建立的互动信息库,互动服务器根据ID信息选择对应的互动信息推送至移动终端。
进一步是:对所述音频时域信号进行扩频形成双倍以上的音频水印嵌入窗口区域,实现互动音频水印信号冗余N倍的嵌入,提高了水印信息的鲁棒性。
一种移动终端电视互动系统,包括正在播放电视节目的电视机和参与观看电视节目的移动终端,其中:所述系统还包括有互动音频水印嵌入装置、互动音频水印信息检测装置和互动服务器;
所述互动音频水印嵌入装置设置在与电视机连接的电视信号发送链路中,用于产生互动音频水印信号并将信号嵌入与电视机连接的视音频信号流中;
所述互动音频水印信息检测装置设置在移动终端中,用于将移动终端与互动服务器建立连接并通过移动终端麦克风接收电视音频信号,对电视音频信号中进行检测并将检测出的水印信息发送至互动服务器,接收互动服务器根据接收的水印信息推送的互动信息并显示在移动终端上。
进一步是:所述互动音频水印嵌入装置包括音频水印信息产生模块和音频水印嵌入模块,
所述音频水印信息产生模块:对每个节目音频分配一个唯一的ID信息,对应ID信息产生音频水印信息,将含有ID的音频水印信息传递至音频水印嵌入模块;
所述音频水印嵌入模块:对电视节目视音频信号的音频进行频域变换,确定拟嵌入的音频水印的频点位置及强度;将音频水印信息嵌入电视节目视音频信号中。
本发明的有益效果是:
1)无需用户过多复杂操作,通过麦克风采集电视收看环境下的声音,快速提取中音频中隐藏的音频ID信息;信息广播电视节目文件或者播出信号中嵌入音频水印,即包含互动信息的水印信号,包括节目ID信息与时间戳ID信息两部分;通过根据手机提交的检测到水印ID信息,推送相关的互动HTML5页面。
2)保证音频水印的鲁棒性、保真性、信息容量。
3)充分利用了不同的扩频码之间的不相关性,采用了随机的扩频码来嵌入水印帧,降低了各个混音音频的中的各水印分量之间的相互干扰,大大提高了水印解码的正确率。
4)提出一种新的帧结构,包含:自同步信息、水印信息,解决了音频水印解码时的自同步问题,从而让移动端可以实时进行音频水印检测。帧结构设计带来了自同步,减少了检测端的搜索计算
5)在声音的全频段时,依据人耳听觉模型,按不同的程度嵌入水印信息;增加水印的带宽,降低了音频水印的总体强度,使保真度达到最高。不同的子段的处理,充分利用人耳心理声学模型,在不可感知性及鲁棒性中选择一个最优的平衡
6)包含水印信息的音频信号经过播出传输链路一次MPEG 1LAYER II 256kpbs编码及解码、解码后可正常提取水印信息;单个水印的为8比特;
嵌入水印后的音频依据ITU-R BS.1116建议书进行声音质量主观评价测试,要求所测序列的评分差均优于-1。
7)冗余机制,有效提高水印传输的准确性。
8)杂排机制有效应对不同声音的非平衡特点及时域上的环境影响,减少了水印对宿主信号的频谱成分的强依赖,保证了水印传输的稳定性。
下面结合附图及具体实施方式对本发明作进一步详细说明。
附图说明
图1为本发明系统示意图;
图2为本发明流程示意图;
图3为音频水印嵌入模块示意图;
图4为音频水印帧处理流程图;
图5为门限值ET=0.1时嵌入水印时区图;
图6为门限值ET=0.01时嵌入水印时区图;
图7为窗口分帧示意图;
图8为水印强度选择原理图;
图9为正变换中的频域中水印的处理结构图;
图10为水印信息杂排示意图;
图11为音频水印检测系统流程图。
具体实施方式
实施例1:
一种基于互动音频水印的移动终端与电视互动方法,如图1所示,包括正在播放电视节目的电视机1和参与观看电视节目的移动终端2,移动终端可以是装入互动APP的智能手机或者iPAD以及可以装入互动APP的手提电脑;将互动音频水印信号通过互动音频水印嵌入装置3嵌入与电视机连接的视音频信号流4中,启动在移动终端设置的互动APP将移动终端与一个互动服务器5通过无线网络建立连接,其中,移动终端通过麦克风接收电视机中电视节目的音频声音信号,移动终端对接收的音频声音信号进行检测并将检测出的互动音频水印信号发送至互动服务器,更具体的说是移动终端对麦克风采集到的声音进行滤波白化,帧同步等处理,利用尺度相关检测算法,提取出音频数据中的水印,向后台互动服务器发送信息请求;互动服务器根据接收的互动音频水印信号向移动终端推送互动信息并显示在移动终端上;所述互动音频水印信号包括对每一个电视节目的音频信号分配唯一的ID信息,每一个ID信息包括多位节目ID代码和多位时间戳计数代码,多位节目ID代码表示了每一个电视节目中的不同素材,多位时间戳计数代码表示了不同素材内的不同时间计数。
实施例中:所述互动服务器根据接收的互动音频水印信号向移动终端推送互动信息是:在互动服务器设置有根据ID信息建立的互动信息库,互动服务器根据ID信息选择对应的互动信息推送至移动终端。更具体地说是:互动服务器事先根据生成的ID信息及视频内容建立一个规则库,一个ID可以对应多个规则。根据手机移动端提交的水印ID信息,判断出当前用户所观看的节目素材内容,以及所观看的时间进度。查找当前水印信息ID对应的规则,特别的,可以综合考虑此用户历史收看记录行为,推荐一个最合适的互动规则方式反馈给移动手机端用户,一般地,服务器返回一个特定的网址,用户通过网址参与节目互动。
其中:所述ID信息为32比特信息位,其中:节目ID代码是20位,时间戳计数代码是12位。20位节目代码可以表示不同的节目素材有:2的20次方种,共计1048576种。12位时间戳计数位,可以对每一个素材内的不同时间进行计数,一般的节目素材的长度不超过1小时,即3600秒,12位计数器可以表示4096个不时的时间戳。
实施例中:如图2、3、4所示,所述将互动音频水印信号嵌入与电视机连接的视音频信号流中的过程是:
第一步:对要嵌入的互动音频水印信号进行BCH编码;
第二步:用心理声学模型对信号进行分析,以确定拟嵌入的音频水印的频点位置及强度;具体为对向电视机传送的视音频信号中的音频时域信号进行时-频变换形成多个频率窗口区域,从多个频率窗口区域选择音频水印嵌入窗口区域确定嵌入的音频水印的频点位置;
第三步:将BCH编码后的互动音频水印信号随同秘钥嵌入音频水印的频点位置,秘钥用于移动终端检测授权;
第四步:将嵌入音频水印的音频信号进行逆变换(频-时变换)生成音频时域信号返回至视音频信号流中。
其中:所述选择音频水印嵌入窗口区域确定嵌入的音频水印的频点位置是:设定一个音频能量门限阈值,当一个窗口区域的音频信号能量大于门限阈值时,此窗口区域确定为嵌入的音频水印的频点位置。
实施例中:水印嵌入过程包括主要三个部分:
对视音频信号中的电视音频信号进行变换:这里主要是时-频变换,将电视音频信号分成帧,对每帧数据进行变换分析。使用心理声学模型对信号进行分析,以决定拟嵌入音频水印的频点位置及强度。
水印嵌入:根据水印信息及密钥,结合上一步骤得到的频点位置及强度,对频域的信号进行修改,完成了水印信息的嵌入。
逆变换:将频域处理后的信号通过逆变换,生成时域信号,此信号包含水印信息。
水印信息经过BCH编码,通过(7,4)BCH编码,把拟嵌入的嵌入水印信息经过BCH编码,从而在水印信息部分受损也可以通过冗余纠错解码,提高水印正确检测率。
实施例中:不是所有的区域都适合做水印嵌入的,例如在音频几乎无声的时段,不适合做水印信息的嵌入,否则经过空气传输后。水印正确检测率会很低。设一个窗口内g(n)共有长度为N的采样点。则其能量可记为:
一种选择方法是设置一个门限值ET,当能量超过ET时,则这个窗口是适合水印嵌入的,否则不对这个窗口内的音频进行处理。
图5和图6为两种门限值的示意图,平均大约1.4秒一个窗口。门限值越高,水印的鲁棒性越强,但水印的信息荷载速率会小。反之,门限值越低,则水印的鲁棒性越弱,水印的信息荷载速率会越大。这里需要一下应用层面平衡。
实施例中:所述频率区域窗口划分有多个音频帧,每一音频帧有1024个时间采样点,所述频率区域窗口随音频帧嵌入8bit互动音频水印信号。
对于48kHz采样频率的音频信号,每1024个时间采样点分为1帧,每一个完整的水印窗口为64帧,时长为:1.365秒(记为周期T),在这时间T内要完成8bit水印嵌入,图7示意了窗口中的多个音频帧。
音频信号经过时频变换,进行不同子带的分析,这里采用了16个子带,不同的子带的频率响应曲线不同,得出响应的因子λ=[λ1,λ2,L,λ16]
结合人耳心理模型掩蔽曲线模型对各子带的嵌入强度不同加权系数为:ω=[w1,w2,L,w16]
最终决策掩蔽的全局综合水印强度因子为:
G=λ·ω=λ1w1+λ2w2+L+λ16w16
图8是水印强度选则流程,因此,所述方法进一步包括对嵌入的音频水印嵌入加强因子增加音频水印强度。
对于每一个时间窗口内的音频信号,分成每1024个点一帧,对这1024点进行快速傅立叶变换(FFT),32个帧组成一个窗口,每一帧进行FFT之后,形成结构如图9所示;
由于需要在32帧(称为一个完整窗口T)中嵌入8bit,每1比特需要4帧的音频数据,本实施例中称这4个时频变换组合为一个单元。记要嵌入的水印w0=b1b2L b8记为w0={bi}i=1,2,L 8
在整个频域中选择要嵌入的各个子带,注意这里每个子带的频率范围是非线性的,这里对16子带滤波器中的前6个子带进行嵌入,是因为中低频的能量不容易被滤波去除,特别是广播电视要经过MPEG1LAYER II 256kpbs编码及解码。
为了将b1信息嵌入到音频信号中,需要对4帧音频数据帧、6个条带、6*4=24个片中的数据进行修改,其中的每一片数据里面,根据不同条带的带宽情况,会有不同个数的FFT变换系数;我们的任务是完成这些系数的修改。
基于上述的基本任务,需要说明的是,可以还可使用以下方法提高水印方法的性能;
冗余嵌入:这里面我们采用了冗余通信处理:采用扩频的方法,将信息序列对不同的子带信号进行嵌入处理对要嵌入的扩频序列进行冗余N倍的嵌入,减少声音在传播过程中的拉伸与偏移畸变。对于N倍的嵌入序列,即在不同帧的音频数据中,在相同条带上的片数据,需要进行的FFT系数的修正方法是一样的,如图9中的T(9,4)、T(10,4)、T(11,4)、T(12,4)这同属于一个条带中的四片数据要进行的操作方法是一致的,比如都乘以某一个放大倍数。总之,这里我们在选中低频段中使用4倍水印冗余嵌入提高了水印信息的鲁棒性。
因此,实施例中:对所述音频时域信号进行扩频形成双倍以上的音频水印嵌入窗口区域,实现互动音频水印信号冗余N倍的嵌入,提高了水印信息的鲁棒性。
水印信息杂排:假设要对图9的12帧音频数据分别嵌入b1、b2、b3,那不同的子带中的PN序列原本是完全相同的,考虑到声波传播的衰落具有时变性,忽大忽小,对于水印数据的影响随着时间的不同变化很大。假设某一时段信道对音频信号产生了很大的一个影响,则即使根据上面的冗余嵌入方法,完全可能三个相关值都受到影响,导致最终的解码结果错误。为了避免这样的现象,把水印信息进行数学上的重新排列,将本来要在某一个条带要处理操作,置换到其它条带去操作,这样子即保证了每个单元在各个子带上要完成的操作有完整性。这里的转换矩阵是一个可逆的固定的置换矩阵。
如图10所示:
这里面,条带A是用来嵌入b1的;
条带B是用来嵌入b2的;
条带C是用来嵌入bs的;
本来它们应该是在各自不同的音频数据帧(不同的时间上),本实施例通过置换矩阵进行杂排,以减少音频信号非平衡性带来的性能影响。
这样得到了一个比特位矩阵:
安全性控制:
这种杂错的置换矩阵,可以通过一个密钥Kp来控制,使得只有嵌入端与被授权的检测端才能知道。当密钥发生变化时,即使检测知道了整个水印的嵌入与检测方法,也无法得到正确的水印信息,这样子方便用于水印技术的公开推广,又可以保证只有被授权的检测方才可检测到正确的水印信息。
对于音频水印的检测过程与模块如图11所示:
首先使用48kHz对电视播音环境中的音频信号进行采集。
步骤1:区间段选择
对于一个给定的采集信号,检测其能量分布情况,只有超过能量阈值ET的区间段才会进行下一步检测。
步骤2:加窗处理:
采集后的数据要进行截断处理,对截断的信号进行50%的混叠后加时域窗进行处理,得到傅立叶变换系数F(n),计算公式如下:
F(n)=FFT{x(n)·Hanning(n)}1≤n≤1024
步骤3:倒谱滤波由于电视音频信号的影响,在检测水印信息时,电视音频信号的大能量信号会对检测造成很大的影响,因此必须进步去相关的白化处理,常见的有线性预测法Linear Prediction Coefficients approach(Atal et al,1971)、Savitzky-Golay滤波器、中值滤波器,本实施例使用的是离散余弦变换DCT倒谱滤波(Cepstrum approach),对于采集信号x(n)及其傅立叶变换系数F(n),计算其倒谱系数C[n]
步骤4:计算白化后谱能量
由于对称性,我们只需要处理512个前面的系数
步骤5:片分析由于水印信息是通过宿主信号的FFT系数的修改达到的,为了把散落在各片中的信息累积起来,对于第t帧第b子带,计算此片幅度记为:
步骤6:同步
同步的目标是找到每个窗口的第一个开始帧,由于每个采集到音频帧都有可能是开始帧,需要计算每一帧为开头的强度Sd(d=1,2,L,32),Sd通过以下的归一化相关检测公式得出:
其中,{Qt(d,k),b(k)}表示所有Ns个片,这些片都是用来存储比特位bs,而Ps(k)表示其对应的伪随机码,这里Ps(k)∈{+1,-1}。
用于确定具体片的两个帧索引下标t(d,k)和子带索引下标b(k)由以下公式给出:
t(d,k)=d+[Rs(k,1)-1]×Nc
b(k)=Rs(k,2)
这里Nc是每一个单元的帧数,即Nc=4。Rs是信息位bs的索引矩阵,这个矩阵由上文嵌入阶段中的密钥Kp唯一决定。对于嵌入过程的示意杂排方式,我们有:
同样举例:
这样子,整个窗口的开头帧,即同步的位置点dsync就是相关计算值Sd最大的那一帧:
步骤7:计算比特位强度
通过上述步骤计算得到的帧同步位置,可以计算出每一个水印位Bj的强度为Gj
其中,其下标由以下公式给出:
步骤8:判决水印信息位
水印信息位的值Bj由其强度Gj来决定:
步骤9:重建水印信息
把每一个信息位都检测出来后,最终水印由这些信息位拼接而成。
w0={bi}i=1,2,L 8水印信息经过BCH解码,从而在水印信息部分受损也可以通过冗余纠错解码,提高水印正确检测率。
对于解码得到的水印数据,其可信程度是我们关心的一个主要问题。为了确认可信度较高的水印信息,同时丢弃可信度较低的水印信息,基于冗余嵌入设计了简单的可信度度量方法。假设水印信息在传输过程中没有受到任何的干扰,则从N组水印中解码得到的之应该具有相同的符号,即使用N个扩频序列解码并重新排列恢复后得到的水印数据应该完全相同。随着干扰的不断增加,多组水印数据中的不全部相同的位数开始增加,因此多组水印数据中不全部相同的位数以在一定程度上反映出水印信号的被干扰情况。根据多组水印数据中全部相同的个数来衡量该数据的可信度,全部相同的数据个数越多则水印信息的可信度越大,反之亦然。根据可信度的大小,设定一定的门限,可以排除一些可信度较低的解码信息,从而进一步的提高水印信息提取的准确率:但是可信度门限也不宜设置过高,因为可信度设置过高可能导致信息的检出率下降很多从而得不偿失。
实施例2:
本实施例为实现实施例1所述方法的一种移动终端电视互动系统,因此实施例1的内容应视为本实施例内容,如图1所示,所述系统包括正在播放电视节目的电视机1和参与观看电视节目的移动终端2,移动终端可以是装入互动APP的智能手机或者iPAD以及可以装入互动APP的手提电脑;其中:所述系统还包括有互动音频水印嵌入装置3、互动音频水印信息检测装置和互动服务器5;
所述互动音频水印嵌入装置设置在与电视机连接的电视信号发送链路中,用于产生互动音频水印信号并将信号嵌入与电视机连接的视音频信号流4中;
所述互动音频水印信息检测装置设置在移动终端中,用于将移动终端与互动服务器建立连接并通过移动终端麦克风接收电视音频信号,对电视音频信号中进行检测并将检测出的水印信息发送至互动服务器,接收互动服务器根据接收的水印信息推送的互动信息并显示在移动终端上。
其中:如图2所示,所述互动音频水印嵌入装置包括音频水印信息产生模块和音频水印嵌入模块,
所述音频水印信息产生模块:对每个节目音频分配一个唯一的ID信息,对应ID信息产生音频水印信息,将含有ID的音频水印信息传递至音频水印嵌入模块;
所述音频水印嵌入模块:对电视节目视音频信号的音频进行频域变换,确定拟嵌入的音频水印的频点位置及强度;将音频水印信息嵌入电视节目视音频信号中。
Claims (4)
1.一种基于互动音频水印信号的移动终端电视互动方法,包括正在播放电视节目的电视机和参与观看电视节目的移动终端,将互动音频水印信号嵌入与电视机连接的视音频信号流中,启动在移动终端设置的互动APP将移动终端与一个互动服务器通过无线网络建立连接,其特征在于,移动终端通过麦克风接收电视机中电视节目的音频信号,移动终端对接收的音频信号进行检测并将检测出的互动音频水印信号发送至互动服务器,互动服务器根据接收的互动音频水印信号向移动终端推送互动信息并显示在移动终端上;所述互动音频水印信号包括对每一个电视节目的音频信号分配唯一的ID信息,每一个ID信息包括多位节目ID代码和多位时间戳计数代码,多位节目ID代码表示了每一个电视节目中的不同素材,多位时间戳计数代码表示了不同素材内的不同时间计数;
所述将互动音频水印信号嵌入与电视机连接的视音频信号流中的过程是:
第一步:对要嵌入的互动音频水印信号进行BCH编码;
第二步:用心理声学模型对信号进行分析,以确定拟嵌入的互动音频水印信号的频点位置及强度;具体为对向电视机传送的视音频信号中的音频时域信号进行时频变换形成多个频率窗口区域,从多个频率窗口区域选择互动音频水印信号嵌入窗口区域确定嵌入的互动音频水印信号的频点位置;
第三步:将BCH编码后的互动音频水印信号随同秘钥嵌入音频水印的频点位置,秘钥用于移动终端检测授权;
第四步:将嵌入互动音频水印信号的音频信号进行频时变换生成音频时域信号返回至视音频信号流中;
包含水印信息的音频信号经过播出传输链路一次MPEG 1LAYER II 256kpbs编码及解码、解码后可正常提取水印信息;
所述选择互动音频水印信号嵌入窗口区域确定嵌入的互动音频水印信号的频点位置是:设定一个音频能量门限阈值,当一个窗口区域的音频信号能量大于门限阈值时,此窗口区域确定为嵌入的互动音频水印信号的频点位置;
所述频率窗口区域划分有多个音频帧,每一音频帧有1024个时间采样点,所述频率窗口区域随音频帧嵌入8bit互动音频水印信号,具体为:48kHz采样频率的音频信号,每1024个时间采样点分为1帧,每一个完整的水印窗口为64帧,时长为:1.365秒,记为周期T,在这时间T内要完成8bit水印嵌入,
所述方法进一步包括对嵌入的互动音频水印信号嵌入加强因子增加音频水印强度;具体为:音频信号经过时频变换,进行不同子带的分析,采用了16个子带,不同的子带的频率响应曲线不同,得出响应的因子λ=[λ1,λ2,L,λ16]
结合人耳心理模型掩蔽曲线模型对各子带的嵌入强度不同加权系数为:
ω=[w1,w2,L,w16]
最终决策掩蔽的全局综合水印强度因子为:
G=λ·ω=λ1w1+λ2w2+L+λ16w16。
2.根据权利要求1所述的方法,其特征在于,所述ID信息为32比特信息位,其中:节目ID代码是20位,时间戳计数代码是12位。
3.根据权利要求1所述的方法,其特征在于,对所述音频时域信号进行扩频形成双倍以上的音频水印嵌入窗口区域,实现互动音频水印信号冗余N倍的嵌入,对于N倍的嵌入序列,即在不同帧的音频数据中,在相同条带上的片数据,需要进行的快速傅立叶变换系数的修正方法是一样的。
4.根据权利要求1所述的方法,其特征在于,所述互动服务器根据接收的互动音频水印信号向移动终端推送互动信息是:在互动服务器设置有根据ID信息建立的互动信息库,互动服务器根据ID信息选择对应的互动信息推送至移动终端。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810295576 | 2018-04-04 | ||
CN2018102955763 | 2018-04-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108712666A CN108712666A (zh) | 2018-10-26 |
CN108712666B true CN108712666B (zh) | 2021-07-09 |
Family
ID=63870782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810521369.5A Active CN108712666B (zh) | 2018-04-04 | 2018-05-28 | 一种基于互动音频水印的移动终端与电视互动方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108712666B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584890A (zh) * | 2018-12-18 | 2019-04-05 | 中央电视台 | 音频水印嵌入、提取、电视节目互动方法及装置 |
CN111190518B (zh) * | 2019-12-30 | 2022-05-17 | 中央电视台 | 第一屏和第二屏之间的交互方法、装置、终端及存储介质 |
CN113362835B (zh) * | 2020-03-05 | 2024-06-07 | 杭州网易云音乐科技有限公司 | 音频水印处理方法、装置、电子设备及存储介质 |
CN114071050B (zh) * | 2020-07-29 | 2024-08-02 | 北京字节跳动网络技术有限公司 | 一种基于视频的互动方法、装置、电子设备及介质 |
CN113516991A (zh) * | 2020-08-18 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 基于群组会话的音频播放、设备管理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1848829A (zh) * | 2005-04-14 | 2006-10-18 | 北京中科信利技术有限公司 | 一种自同步的音频水印方法 |
CN102324234A (zh) * | 2011-07-18 | 2012-01-18 | 北京邮电大学 | 一种基于mp3编码原理的音频水印方法 |
CN103475943A (zh) * | 2013-09-11 | 2013-12-25 | 马清虎 | 一种电视节目的互动方法和系统 |
CN104320719A (zh) * | 2014-11-14 | 2015-01-28 | 武汉大学 | 基于音频水印的电视节目互动参与方法及系统 |
CN104361890A (zh) * | 2014-11-10 | 2015-02-18 | 江苏梦之音科技有限公司 | 一种广播音频水印的嵌入与识别方法 |
CN105392022A (zh) * | 2015-11-04 | 2016-03-09 | 北京符景数据服务有限公司 | 基于音频水印的信息交互方法与装置 |
CN105635841A (zh) * | 2015-12-28 | 2016-06-01 | 北京正奇联讯科技有限公司 | 互动播出的控制方法和系统 |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
CN106331743A (zh) * | 2015-07-03 | 2017-01-11 | 上海尚恩华科网络科技股份有限公司 | 一种基于音频水印的视频交互的系统及方法 |
-
2018
- 2018-05-28 CN CN201810521369.5A patent/CN108712666B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1848829A (zh) * | 2005-04-14 | 2006-10-18 | 北京中科信利技术有限公司 | 一种自同步的音频水印方法 |
CN102324234A (zh) * | 2011-07-18 | 2012-01-18 | 北京邮电大学 | 一种基于mp3编码原理的音频水印方法 |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
CN103475943A (zh) * | 2013-09-11 | 2013-12-25 | 马清虎 | 一种电视节目的互动方法和系统 |
CN104361890A (zh) * | 2014-11-10 | 2015-02-18 | 江苏梦之音科技有限公司 | 一种广播音频水印的嵌入与识别方法 |
CN104320719A (zh) * | 2014-11-14 | 2015-01-28 | 武汉大学 | 基于音频水印的电视节目互动参与方法及系统 |
CN106331743A (zh) * | 2015-07-03 | 2017-01-11 | 上海尚恩华科网络科技股份有限公司 | 一种基于音频水印的视频交互的系统及方法 |
CN105392022A (zh) * | 2015-11-04 | 2016-03-09 | 北京符景数据服务有限公司 | 基于音频水印的信息交互方法与装置 |
CN105635841A (zh) * | 2015-12-28 | 2016-06-01 | 北京正奇联讯科技有限公司 | 互动播出的控制方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108712666A (zh) | 2018-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108712666B (zh) | 一种基于互动音频水印的移动终端与电视互动方法与系统 | |
US11961527B2 (en) | Methods and apparatus to perform audio watermarking and watermark detection and extraction | |
US11557304B2 (en) | Methods and apparatus for performing variable block length watermarking of media | |
CN102982806B (zh) | 执行音频信号解码的方法及装置 | |
KR101641979B1 (ko) | 컨텐츠 제공 시스템, 컨텐츠 제공 방법 및 컨텐츠 편집 장치 | |
JP2012507045A (ja) | オーディオ透かし入れ、透かし検出及び抽出を行う方法及び装置 | |
JP2012507044A (ja) | オーディオ透かし入れ、透かし検出及び抽出を行う方法及び装置 | |
JP2006251676A (ja) | 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置 | |
Wu et al. | Distortion reduction via CAE and DenseNet mixture network for low bitrate spatial audio object coding | |
AU2012241085B2 (en) | Methods and apparatus to perform audio watermarking and watermark detection and extraction | |
Koz et al. | Adaptive selection of embedding locations for spread spectrum watermarking of compressed audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |