CN111462765B - 一种基于一维卷积核的自适应音频复杂度表征方法 - Google Patents
一种基于一维卷积核的自适应音频复杂度表征方法 Download PDFInfo
- Publication number
- CN111462765B CN111462765B CN202010255058.6A CN202010255058A CN111462765B CN 111462765 B CN111462765 B CN 111462765B CN 202010255058 A CN202010255058 A CN 202010255058A CN 111462765 B CN111462765 B CN 111462765B
- Authority
- CN
- China
- Prior art keywords
- complexity
- audio
- value
- frame
- convolution kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 10
- 230000003044 adaptive effect Effects 0.000 title description 6
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract 5
- 230000007704 transition Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种基于一维卷积核的自适应音频复杂度表征方法,包括,S1,输入载体x,密信m;S2,根据x、m确定大小为1×n、移动步长为1的一维卷积核k,设定权重参数w,其中w>0;S3,重构音频A’,并求取音频残差D;S4,划定帧长,求取帧内特征参数值δ;S5,求取帧的复杂度C;S6,对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计;S7,输出帧的复杂度C或失真代价ρ。该方法具有计算简便,参数自适应的优点。
Description
技术领域
本发明涉及数字隐写技术领域,尤其涉及一种基于一维卷积核的自适应音频复杂度表征方法。
背景技术
数字隐写作为信息隐藏的重要组成部分,其功能是将秘密信息通过某种方式将其嵌入到数字载体中,使得该载体在公共信道传输而密信不被发现。目前,最安全的隐写方案是内容自适应方案,它们倾向于将秘密信息嵌入具有复杂内容的区域中,而在嵌入密信之前,如何进行复杂度评估,成为了关键技术。目前的主流技术集中在图像领域,在音频领域,少有直接衡量音频复杂度的工具或算法,并且现有的衡量复杂度的算法多来自隐写中的“失真代价函数”,但是该算法计算公式较为复杂。
发明内容
鉴于上述问题,本发明的目的在于提供一种计算简便的基于一维卷积核的自适应音频复杂度表征方法。
为了实现上述目的,本发明的技术方案为:一种基于一维卷积核的自适应音频复杂度表征方法,其特征在于:
S1,输入载体x,密信m;
S2,根据x、m确定大小为1×n、移动步长为1的一维卷积核k,设定权重参数w,其中w>0;
S3,重构音频A’,并求取音频残差D;
S4,划定帧长,求取帧内特征参数值δ;
S5,求取帧的复杂度C;
S6,对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计;
S7,输出帧的复杂度C或失真代价ρ。
进一步的,所述S2中n的值为5,一维卷积核k存在k=[k-2,k-1,k0,k+1,k+2],且
进一步的,所述S3具体包括以下步骤:
S31,对音频进行采样并将每5个采样值作为一个单位A,存在A=[Ai-2,Ai-1,Ai,Ai+1,Ai+2];
S32,对ka进行赋值,具体赋值公式为
其中,ka表示一维卷积核k中第a位的值,它由当前5个采样点的值的权重关系进行构成,表示5个采样值中与目标a位权重对应的采样值,a同时表示该值到中心值Ai的距离;Ai-b表示5个采样值中第i-b个采样值,b=-2,-1,0,1,2;
S32,对中间位置采样点的采样值进行重构,得到Ai'=A·kT,其中T表示失真阈值范围;
S33,求取音频残差D=A-A'。
进一步的,所述S4中帧长为10ms。
进一步的,所述S5中复杂度C求取方式如下:
其中,即为帧内特征参数值δ,T表示失真阈值范围。
进一步的,所述S6中失真代价ρ=C×σ,其中σ为复杂度-失真代价转变系数。
与现有技术相比,本发明的优点在于:
本申请的复杂度表征方法具有计算简便、参数自适应的优点,同时也可以对音频载体的失真代价进行计算。
附图说明
图1为本申请中重构音频的示意图。
图2为本申请中权重参数w与卷积核中心权值k0、失真阈值范围T的关系示意图。
图3为本申请的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图3所示为本申请的流程图,如图所示,该种基于一维卷积核的自适应音频复杂度表征方法,包括以下步骤:
S1,输入载体x,密信m;
S2,根据x、m确定大小为1×n、移动步长为1的一维卷积核k,设定权重参数w,其中w>0;
S3,重构音频A',并求取音频残差D;
S4,划定帧长,求取帧内特征参数值δ;
S5,求取帧的复杂度C;
S6,对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计;
S7,输出帧的复杂度C或失真代价ρ。
具体而言,在重构重构音频A'之前作出以下假设:1)某时刻的采样值,仅与该时刻前后的值均具有相关性;2)时间相隔越长,相关性越低(权重)越低。在进行音频采样时,将每n个采样值作为一个单位A,以为卷积核k的大小与采样单位A相适应,即为1×n,n值的大小可以根据载体密信长度比进行自适应确定,本实施例中n=5,也即A=[Ai-2,Ai-1,Ai,Ai+1,Ai+2],k=[k-2,k-1,k0,k+1,k+2],且k需满足如图1所示。
对于权重的赋值方式,我们同样采用自适应的方式——时域定长范围内的采样点数值进行自适应获取:
其中,表示5个采样值中与目标a位权重对应的采样值,a同时表示该值到中心值Ai的距离;Ai-b表示5个采样值中第i-b个采样值,b=-2,-1,0,1,2;权重参数w为可变参数,且w>0,不同的w会对重构音频与原始音频的残差产生不同的影响,如图2所示;ka是一维卷积核中第a位的位置,它由当前5个采样点的值的权重关系进行构成。
然后重构音频A',得到当前i时刻的A′i的值为:A′i=A·kT,由于每次生成的是中间位置的音频,所以音频采样单元的最初两个采样点和最后两个采样点我们保持其原始的数值大小,不对其进行重构。
随后,我们用D=A-A'对原始音频A与重构音频A′相减获得残差D,并利用残差来构建可以衡量音频复杂度的C值:
其中,即为帧内特征参数值δ,T表示失真阈值范围,N为设定帧长的采样次数。至此,便完成了在长度为N的时域上的音频复杂度表征。
一般地,N选取为10ms所包含的采样值。如音频其采样率为44.1kHz,N=441。之所以选择10ms是因为在语音分析中,10ms为一般为元音发音最短时间单位。所以在音乐、语音构成音频文件中,我们以每10ms为一个单位,对音频进行C值的计算。
最后对失真代价ρ进行计算:ρ=C×σ,即将复杂度C乘以复杂度-失真代价转换系数σ,即为失真代价。系数σ可以按需求自行定义,从而将复杂度转换成隐写所需的具体失真代价。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (5)
1.一种基于一维卷积核的自适应音频复杂度表征方法,其特征在于:
S1,输入载体x,密信m;
S2,根据x、m确定大小为1×n、移动步长为1的一维卷积核k,设定权重参数w,其中w>0;
S3,重构音频A’,并求取音频残差D;
S4,划定帧长,求取帧内特征参数值δ;
S5,求取帧的复杂度C;
复杂度C求取方式如下:
其中,即为帧内特征参数值δ,T表示失真阈值范围;
S6,对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计;
S7,输出帧的复杂度C或失真代价ρ。
2.根据权利要求1所述方法,其特征在于:
所述S2中n的值为5,一维卷积核k存在k=[k-2,k-1,k0,k+1,k+2],且
3.根据权利要求2所述方法,其特征在于:
所述S3具体包括以下步骤:
S31,对音频进行采样并将每5个采样值作为一个单位A,A=[Ai-2,Ai-1,Ai,Ai+1,Ai+2];
S32,对ka进行赋值,具体赋值公式为
其中,ka表示一维卷积核k中第a位的值,它由当前5个采样点的值的权重关系进行构成,表示5个采样值中与目标a位权重对应的采样值,a同时表示该值到中心值Ai的距离;Ai-b表示5个采样值中第i-b个采样值,b=-2,-1,0,1,2;
S32,对中间位置采样点的采样值进行重构,得到Ai’=A·kT,其中T表示失真阈值范围;
S33,求取音频残差D=A-A’。
4.根据权利要求3所述方法,其特征在于:
所述S4中帧长为10ms。
5.根据权利要求1所述方法,其特征在于:
所述S6中失真代价ρ=C×σ,其中σ为复杂度-失真代价转变系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255058.6A CN111462765B (zh) | 2020-04-02 | 2020-04-02 | 一种基于一维卷积核的自适应音频复杂度表征方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255058.6A CN111462765B (zh) | 2020-04-02 | 2020-04-02 | 一种基于一维卷积核的自适应音频复杂度表征方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462765A CN111462765A (zh) | 2020-07-28 |
CN111462765B true CN111462765B (zh) | 2023-08-01 |
Family
ID=71681294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010255058.6A Active CN111462765B (zh) | 2020-04-02 | 2020-04-02 | 一种基于一维卷积核的自适应音频复杂度表征方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462765B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078759A1 (zh) * | 2009-01-09 | 2010-07-15 | 深圳市融创天下科技发展有限公司 | 基于码率控制的图像时间域和空间域分辨率处理方法 |
CN109726769A (zh) * | 2019-01-24 | 2019-05-07 | 电子科技大学 | 一种基于卷积核权重参数的目标分类和角度估计方法 |
CN110085242A (zh) * | 2019-04-28 | 2019-08-02 | 武汉大学 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007007627A1 (de) * | 2006-09-15 | 2008-03-27 | Rwth Aachen | Steganographie in digitalen Signal-Codierern |
CN101577605B (zh) * | 2008-05-08 | 2014-06-18 | 吴志军 | 基于滤波器相似度的语音lpc隐藏和提取算法 |
WO2011160966A1 (en) * | 2010-06-21 | 2011-12-29 | National University Of Ireland, Maynooth | Audio watermarking |
CN102034478B (zh) * | 2010-11-17 | 2013-10-30 | 南京邮电大学 | 基于压缩感知和信息隐藏的语音保密通信系统设计方法 |
EP2835799A1 (en) * | 2013-08-08 | 2015-02-11 | Thomson Licensing | Method and apparatus for detecting a watermark symbol in a section of a received version of a watermarked audio signal |
WO2016115483A2 (en) * | 2015-01-15 | 2016-07-21 | Hardwick John C | Audio watermarking via phase modification |
CN107067360B (zh) * | 2016-10-28 | 2019-11-19 | 上海大学 | 基于纹理合成的鲁棒隐写方法 |
CN107040786B (zh) * | 2017-03-13 | 2019-06-18 | 华南理工大学 | 一种基于时空域特征自适应选择的h.265/hevc视频隐写分析方法 |
CN107483194A (zh) * | 2017-08-29 | 2017-12-15 | 中国民航大学 | 基于非零脉冲位置和幅度信息的g.729语音信息隐藏算法 |
-
2020
- 2020-04-02 CN CN202010255058.6A patent/CN111462765B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010078759A1 (zh) * | 2009-01-09 | 2010-07-15 | 深圳市融创天下科技发展有限公司 | 基于码率控制的图像时间域和空间域分辨率处理方法 |
CN109726769A (zh) * | 2019-01-24 | 2019-05-07 | 电子科技大学 | 一种基于卷积核权重参数的目标分类和角度估计方法 |
CN110085242A (zh) * | 2019-04-28 | 2019-08-02 | 武汉大学 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111462765A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7613264B2 (en) | Flexible sampling-rate encoder | |
CN103854649B (zh) | 一种变换域的丢帧补偿方法及装置 | |
KR101019398B1 (ko) | 오디오 코딩 및 디코딩에서의 여기의 프로세싱 | |
US8532801B2 (en) | Method and apparatus for processing digital audio signal and related computer program | |
CN108682425B (zh) | 一种基于恒定水印的鲁棒数字音频水印嵌入系统 | |
US10447510B1 (en) | On-demand feed forward equalizer with distributed arithmetic architecture and method | |
Zheng et al. | A new reversible watermarking scheme using the content-adaptive block size for prediction | |
WO2023056783A1 (zh) | 音频处理方法、相关设备、存储介质及程序产品 | |
Punidha | Integer wavelet transform based approach for high robustness of audio signal transmission | |
JP2014521112A (ja) | 入力信号に透かし入れするための量子化インデックス変調の方法および装置 | |
Ahmad et al. | Enhancing the performance of audio data hiding method by smoothing interpolated samples | |
CN111462765B (zh) | 一种基于一维卷积核的自适应音频复杂度表征方法 | |
CN116996628B (zh) | 一种网络数据传输防护方法 | |
JP2005513543A (ja) | マルチメディア信号のqimデジタルウォーターマーキング | |
US20100010649A1 (en) | Method and apparatus for processing digital audio signal | |
US7227890B2 (en) | VDSL system based on DMT line coding, and method for determining length of cyclic prefix samples using the system | |
JP3903052B2 (ja) | デジタル信号中のノイズ誤りを訂正する方法 | |
Neethu et al. | Efficient and robust audio watermarking for content authentication and copyright protection | |
CN101976567A (zh) | 一种语音信号差错掩盖方法 | |
WO2018014733A1 (zh) | 一种适用于OvXDM系统译码方法、装置及OvXDM系统 | |
JP2004159171A (ja) | 画像圧縮方法及び画像圧縮装置 | |
Shokri et al. | Audio-speech watermarking using a channel equalizer | |
US8073076B2 (en) | Method and apparatus for processing a communication signal | |
JP2005210735A (ja) | 信号処理装置および信号処理方法およびコンピュータ読取可能記憶媒体 | |
JP2004120766A (ja) | 離散マルチトーン変調によって生成された信号の障害を補正するための回路構成及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |