CN111462765B

CN111462765B - 一种基于一维卷积核的自适应音频复杂度表征方法

Info

Publication number: CN111462765B
Application number: CN202010255058.6A
Authority: CN
Inventors: 王让定; 张雪垣; 严迪群; 林昱臻
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-08-01
Anticipated expiration: 2040-04-02
Also published as: CN111462765A

Abstract

本发明涉及一种基于一维卷积核的自适应音频复杂度表征方法，包括，S1，输入载体x，密信m；S2，根据x、m确定大小为1×n、移动步长为1的一维卷积核k，设定权重参数w，其中w＞0；S3，重构音频A’，并求取音频残差D；S4，划定帧长，求取帧内特征参数值δ；S5，求取帧的复杂度C；S6，对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计；S7，输出帧的复杂度C或失真代价ρ。该方法具有计算简便，参数自适应的优点。

Description

一种基于一维卷积核的自适应音频复杂度表征方法

技术领域

本发明涉及数字隐写技术领域，尤其涉及一种基于一维卷积核的自适应音频复杂度表征方法。

背景技术

数字隐写作为信息隐藏的重要组成部分，其功能是将秘密信息通过某种方式将其嵌入到数字载体中，使得该载体在公共信道传输而密信不被发现。目前，最安全的隐写方案是内容自适应方案，它们倾向于将秘密信息嵌入具有复杂内容的区域中，而在嵌入密信之前，如何进行复杂度评估，成为了关键技术。目前的主流技术集中在图像领域，在音频领域，少有直接衡量音频复杂度的工具或算法，并且现有的衡量复杂度的算法多来自隐写中的“失真代价函数”，但是该算法计算公式较为复杂。

发明内容

鉴于上述问题，本发明的目的在于提供一种计算简便的基于一维卷积核的自适应音频复杂度表征方法。

为了实现上述目的，本发明的技术方案为：一种基于一维卷积核的自适应音频复杂度表征方法，其特征在于：

S1，输入载体x，密信m；

S2，根据x、m确定大小为1×n、移动步长为1的一维卷积核k，设定权重参数w，其中w＞0；

S3，重构音频A’，并求取音频残差D；

S4，划定帧长，求取帧内特征参数值δ；

S5，求取帧的复杂度C；

S6，对采样值进行不同复杂度下、不同二进制位的失真代价ρ统计；

S7，输出帧的复杂度C或失真代价ρ。

进一步的，所述S2中n的值为5，一维卷积核k存在k＝[k_-2，k_-1，k₀，k₊₁，k₊₂]，且

进一步的，所述S3具体包括以下步骤：

S31，对音频进行采样并将每5个采样值作为一个单位A，存在A＝[A_i-2，A_i-1，A_i，A_i+1，A_i+2]；

S32，对k_a进行赋值，具体赋值公式为

其中，k_a表示一维卷积核k中第a位的值，它由当前5个采样点的值的权重关系进行构成，表示5个采样值中与目标a位权重对应的采样值，a同时表示该值到中心值A_i的距离；A_i-b表示5个采样值中第i-b个采样值，b＝-2，-1，0，1，2；

S32，对中间位置采样点的采样值进行重构，得到A_i'＝A·k^T，其中T表示失真阈值范围；

S33，求取音频残差D＝A-A'。

进一步的，所述S4中帧长为10ms。

进一步的，所述S5中复杂度C求取方式如下：

其中，即为帧内特征参数值δ，T表示失真阈值范围。

进一步的，所述S6中失真代价ρ＝C×σ，其中σ为复杂度-失真代价转变系数。

与现有技术相比，本发明的优点在于：

本申请的复杂度表征方法具有计算简便、参数自适应的优点，同时也可以对音频载体的失真代价进行计算。

附图说明

图1为本申请中重构音频的示意图。

图2为本申请中权重参数w与卷积核中心权值k₀、失真阈值范围T的关系示意图。

图3为本申请的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图3所示为本申请的流程图，如图所示，该种基于一维卷积核的自适应音频复杂度表征方法，包括以下步骤：

S1，输入载体x，密信m；

S3，重构音频A'，并求取音频残差D；

S4，划定帧长，求取帧内特征参数值δ；

S5，求取帧的复杂度C；

S7，输出帧的复杂度C或失真代价ρ。

具体而言，在重构重构音频A'之前作出以下假设：1)某时刻的采样值，仅与该时刻前后的值均具有相关性；2)时间相隔越长，相关性越低(权重)越低。在进行音频采样时，将每n个采样值作为一个单位A，以为卷积核k的大小与采样单位A相适应，即为1×n，n值的大小可以根据载体密信长度比进行自适应确定，本实施例中n＝5，也即A＝[A_i-2，A_i-1，A_i，A_i+1，A_i+2]，k＝[k_-2，k_-1，k₀，k₊₁，k₊₂]，且k需满足如图1所示。

对于权重的赋值方式，我们同样采用自适应的方式——时域定长范围内的采样点数值进行自适应获取：

其中，表示5个采样值中与目标a位权重对应的采样值，a同时表示该值到中心值A_i的距离；A_i-b表示5个采样值中第i-b个采样值，b＝-2，-1，0，1，2；权重参数w为可变参数，且w＞0，不同的w会对重构音频与原始音频的残差产生不同的影响，如图2所示；k_a是一维卷积核中第a位的位置，它由当前5个采样点的值的权重关系进行构成。

然后重构音频A'，得到当前i时刻的A′_i的值为：A′_i＝A·k^T，由于每次生成的是中间位置的音频，所以音频采样单元的最初两个采样点和最后两个采样点我们保持其原始的数值大小，不对其进行重构。

随后，我们用D＝A-A'对原始音频A与重构音频A′相减获得残差D，并利用残差来构建可以衡量音频复杂度的C值：

其中，即为帧内特征参数值δ，T表示失真阈值范围，N为设定帧长的采样次数。至此，便完成了在长度为N的时域上的音频复杂度表征。

一般地，N选取为10ms所包含的采样值。如音频其采样率为44.1kHz，N＝441。之所以选择10ms是因为在语音分析中，10ms为一般为元音发音最短时间单位。所以在音乐、语音构成音频文件中，我们以每10ms为一个单位，对音频进行C值的计算。

最后对失真代价ρ进行计算：ρ＝C×σ，即将复杂度C乘以复杂度-失真代价转换系数σ，即为失真代价。系数σ可以按需求自行定义，从而将复杂度转换成隐写所需的具体失真代价。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于一维卷积核的自适应音频复杂度表征方法，其特征在于：

S1，输入载体x，密信m；

S3，重构音频A’，并求取音频残差D；

S4，划定帧长，求取帧内特征参数值δ；

S5，求取帧的复杂度C；

复杂度C求取方式如下：

其中，即为帧内特征参数值δ，T表示失真阈值范围；

S7，输出帧的复杂度C或失真代价ρ。

2.根据权利要求1所述方法，其特征在于：

所述S2中n的值为5，一维卷积核k存在k＝[k_-2，k_-1，k₀，k₊₁，k₊₂]，且

3.根据权利要求2所述方法，其特征在于：

所述S3具体包括以下步骤：

S31，对音频进行采样并将每5个采样值作为一个单位A，A＝[A_i-2，A_i-1，A_i，A_i+1，A_i+2]；

S32，对k_a进行赋值，具体赋值公式为

S32，对中间位置采样点的采样值进行重构，得到A_i’＝A·k^T，其中T表示失真阈值范围；

S33，求取音频残差D＝A-A’。

4.根据权利要求3所述方法，其特征在于：

所述S4中帧长为10ms。

5.根据权利要求1所述方法，其特征在于：

所述S6中失真代价ρ＝C×σ，其中σ为复杂度-失真代价转变系数。