CN105227311A

CN105227311A - 验证方法和系统

Info

Publication number: CN105227311A
Application number: CN201410310446.4A
Authority: CN
Inventors: 黄亮; 张大威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2016-01-06
Anticipated expiration: 2034-07-01
Also published as: CN105227311B

Abstract

本发明提供了一种验证方法，所述方法包括：获取待验证音频；检测所述待验证音频中是否存在水印，若是，则拒绝验证，否则检测所述待验证音频中的内容是否与对应的原始音频中的内容一致，若是，则验证通过，否则验证不通过。采用该验证方法，能有效防止重放攻击，降低听说验证码被破解的几率。此外，还提供了一种验证系统。

Description

验证方法和系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种验证方法和系统。

背景技术

许多应用场景下都需要验证用户是否为“真实的人类”，验证码就是一种当前行之有效的区分用户是计算机和人的公共自动程序。用户需要解答网站服务方提出的验证问题才会被终端认为是人类并继续享受服务。实践证明，基于验证码的验证方法可以极大程度降低恶意暴力破解密码、刷票、论坛灌水、刷页等常见的网络安全风险。

读写验证码是一种最常见的验证码，通常是由服务方提供一张含有字符串的图片，要求用户输入字符串的内容，字符串中可包含大小写字母、数字、汉字、数据公式等中的至少一种，字符串的长度可随机或固定。由用户阅读提供的素材，并输入相应的内容，再传回服务器进行验证。

读写验证码的一种变形是听写验证码，是由服务器提供一段音频给用户，用户理解音频的内容并将其记录下来传回服务器进行验证。但是，不管是读写验证码还是听写验证码，都需要用户输入文字，容易受到码工的攻击。码工是指专门进行验证码手工输入的人，熟练的码工具有非常高的输入效率(百毫秒级别)，对系统的可用性造成严重影响。

由此，提出了一种听说验证码。听说验证码是指在使用时，向用户播放一段具有文字内容的音频，要求用户对着麦克风重复这段音频，服务器对采集到的这段音频进行验证。但是，对于听说验证码来说，最简单的破解方法就是重放攻击，也就是将下发的原始音频直接作为用户音频返回给服务器，以此欺骗服务器而通过验证。

传统的防止重放攻击的方法通常是使用音频的信息摘要值进行过滤。例如，服务器在接收到用户音频时，获取用户音频的MD5值，若与下发的原始音频的MD5值相同，则验证不通过。然而，可以通过对音频进行简单的编辑就可以绕过这种过滤，从而不能得到很好的过滤效果。因此，传统的这种验证方法被破解的几率仍很高。

发明内容

基于此，有必要针对上述技术问题，提供一种能有效防止重放攻击的验证方法和系统。

一种验证方法，所述方法包括：

获取待验证音频；

检测所述待验证音频中是否存在水印，若是，则拒绝验证，否则

检测所述待验证音频中的内容是否与对应的原始音频中的内容一致，若是，则验证通过，否则验证不通过。

一种验证系统，所述系统包括：

第一获取模块，用于获取待验证音频；

水印检测模块，用于检测所述待验证音频中是否存在水印；

验证模块，用于当所述水印检测模块检测到所述待验证音频中存在水印时，则拒绝验证，当所述水印检测模块检测到所述待验证音频中不存在水印时，则检测所述待验证音频中的内容是否与对应的原始音频中的内容一致，若是则验证通过，否则验证不通过。

上述验证方法和系统，通过检测待验证音频是否存在水印，如果存在，则表明很可能将下发的原始音频直接作为用户音频进行返回的，直接拒绝验证，只有当待验证音频中不存在水印时，再检测待验证音频中的内容是否与对应的原始音频中的内容一致，若是，则验证通过，否则验证不通过。该方法和系统能有效防止重放攻击，降低了听说验证码被破解的几率。

附图说明

图1为一个实施例中验证方法的应用环境图；

图2为一个实施例中验证方法的流程示意图；

图3为一个实施例中下发原始音频的流程示意图；

图4为一个实施例中对原始音频添加水印的流程示意图；

图5为一个实施例中检测待验证音频中的水印的流程示意图；

图6为一个实施例中验证系统的结构框图；

图7为另一个实施例中验证系统的结构框图；

图8为一个实施例中水印添加模块的结构框图；

图9为一个实施例中水印检测模块的结构框图；

图10为一个实施例中运行验证方法的服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例所提供的验证方法可应用于如图1所示的环境中。请参考图1所示，终端20通过网络30与音频下发服务器40和验证服务器50进行交互，用户10使用终端向某些应用对应的应用服务器请求数据时，音频下发服务器40随机选择一段原始音频，对原始音频添加水印后，通过网络30下发原始音频给终端20，每个原始音频具有唯一的编号。用户10通过终端20听取接收到的原始音频，终端20再通过麦克风等音频输入设备接收用户10输入的音频(即待验证音频)，终端20通过网络30将待验证音频和对应的原始音频的编号发送到验证服务器50进行验证，验证服务器50接收到待验证音频，检测待验证音频中是否存在原始音频中添加的水印，如果存在，则表明终端20发送的待验证音频实际上就是原始音频，验证服务器50拒绝验证，从而防止了重放攻击。当验证服务器50检测到待验证音频中不存在水印，再进一步检测待验证音频中的内容与对应的原始音频中的内容是否一致，如果一致，说明用户10通过终端20输入的音频正确，验证通过，否则验证不通过。可以理解，音频下发服务器40和验证服务器50可以为同一服务器，由一个服务器来负责下发原始音频和对上传的音频进行验证。

在一个实施例中，如图2所示，提供了一种验证方法，该验证方法可应用于服务器端，也可以应用于终端，本实施例以该验证方法应用于服务器端进行举例说明，该方法具体包括：

步骤202，获取待验证音频。

本实施例中，终端向服务器发送数据请求，在请求一些数据时，服务器需对使用终端的用户进行验证，服务器可自动随机选择一段原始音频，对该原始音频添加水印，并将添加了水印的原始音频和该音频对应的唯一编号下发给终端。终端的用户听取音频，通过麦克风等设备接收用户输入的音频(即待验证音频)，与原始音频的编号一起发送到服务器。

在对原始音频添加水印时，可利用人耳的掩蔽特性，在原始音频的DCT(DiscreteCosineTransform，离散余弦变换)域内选择低频或中频系数添加水印，所添加的水印可以是二值图像，具有更强的视觉直观性。原始音频内容可将所添加的水印掩蔽，使得人耳只能听到原始音频的内容，不会影响用户对音频内容的理解。

步骤204，检测待验证音频中是否存在水印，若是，则进入步骤206，否则进入步骤208。

本实施例中，可根据获取的原始音频的编号获取对应的原始音频，由于原始音频中已添加了水印，利用原始音频作为先验信息可检测待验证音频中是否存在添加到原始音频中的水印，如果存在，则表明接收到的音频就是原始音频。

步骤206，拒绝验证。

步骤208，检测待验证音频中的内容是否与对应的原始音频中的内容一致，若是，则验证通过，否则验证不通过。

如果待验证音频中不存在水印，表明获取到的待验证音频不是原始音频，可对待验证音频进行语音识别，识别出其中的内容，然后判断是否与原始音频中的内容一致，若一致，则表明输入的音频是正确的，验证通过，否则验证不通过。

本实施例中，当待验证音频中存在水印，则拒绝验证，只有当待验证音频中不存在水印时，再检测待验证音频中的内容是否与对应的原始音频中的内容一致，若是，则验证通过，否则验证不通过。该方法和系统能有效防止重放攻击，降低了听说验证码被破解的几率。

在一个实施例中，如图3所示，在接收待验证音频的步骤之前，还包括：

步骤302，获取原始音频。

步骤304，对原始音频添加水印。

步骤306，下发添加水印后的原始音频。

本实施例中，服务器每次向终端下发原始音频之前，都对原始音频添加水印，水印可以是二值图像，在添加二值图像到一维的数字原始音频之前，可对二值图像进行降维处理得到一维序列，对一维序列进行置乱，在添加到原始音频中。这样，每次添加了水印了原始音频都会有所区别，每次下发的原始音频的MD5都不一致，可以有效抵御对原始音频的简单编辑，从而进一步降低了听说验证码被破解的可能性。

进一步的，如图4所示，在一个实施例中，对原始音频添加水印的步骤，包括：

步骤314，区分原始音频的语音段和静音段。

具体的，可采用话音激活检测(VAD，voiceactivitydetection)来区分原始音频的语音段和静音段。话音激活检测采用的是对数似然比和谱熵相结合的方法。

在一个实施例中，将频点k处的似然比定义为：

Λ_{k} = \frac{1}{1 + ξ_{k}} \exp {\frac{γ_{k} ξ_{k}}{1 + ξ_{k}}}

其中，γ_k表示后验信噪比，ξ_k表示先验信噪比。

判决准则为：

\log Λ_{k} = \frac{1}{L} Σ_{k = 0}^{L - 1} \log Λ_{k} \begin{matrix} H_{1} \\ > \\ < \\ H_{0} \end{matrix} η

其中，η为预设的阈值，L表示帧长，H₁表示语音，H₀表示非语音。该判决准则的含义为：将对数似然比logΛ_k与阈值η相比，当logΛ_k大于η阈值时，则判决当前帧为语音帧H₁，否则为非语音帧H₀。

定义第k帧的谱熵为：

E (k) = - Σ_{k = 1}^{N} P (γ_{k}^{2}) \cdot \log (P (γ_{k}^{2}))

其中，γ_k为后验信噪比，N为傅立叶变换长度，即窗长。

将噪声帧内谱熵的一阶平滑作为参考，得到谱熵的门限E_TH，即：

E_noise(k)＝α_EE_noise(k-1)+(1-α_E)E(k)

E_TH＝γ_E(k)·E_noise(k)

其中，α_E为平滑因子，γ_E(k)为偏差修补因子。

对于原始音频的每一语音帧，需要计算其对数似然比和谱熵的门限，当对数似然比大于预设的第一阈值，且谱熵的门限大于预设的第二阈值时，则判定为语音帧，否则为非语音帧，从而区分出语音段和静音段。

步骤324，对语音段的语音进行离散余弦变换。

具体的，可采用如下公式对语音段的语音进行改进的离散余弦变换(MDCT变换)：

S_{k} = \frac{1}{\sqrt{N}} u_{k} Σ_{n = 0}^{N - 1} s (n) \cos (\frac{π}{2 N} (2 n + 1) k), k = 0,1, . . ., N - 1

其中，s(n)表示原始语音信号，N表示一帧语音信号的长度，k表示一帧语音信号内的频点，u_k表示窗函数，一般指哈明窗。

步骤334，对二值图像进行降维并置乱，得到置乱后的水印序列。

二值图像可用一个矩阵表示，图像的像素值为矩阵内的值，像素值可以为0或1。如二值图像表示为W＝w(i,j),0≤i<M₁,0≤j<M₂，其中，M₁表示矩阵的行数，M₂表示矩阵的列数。

由于数字的原始音频是一维的，要将二值图像嵌入到一维的数字原始音频中，需对二值图像进行降维，转换为一维序列，如下式所示：

V＝{v(k)＝w(i,j),0≤i<M₁,0≤j<M₂,k＝i×M₂+j}

通过降维处理，二值图像W中的像素用序列V中的第k个元素v(k)表示。

进一步的，为了消除序列V中相邻元素的相关性，提高嵌入水印的稳健性，采用线性反馈移位寄存器生成的伪随机序列对V中的所有元素作伪随机排序，如下式所示：

V_p＝Permute(V)＝{v_p(k)＝v(k'),0≤k,k'<(M₁×M₂)}

通过伪随机排序，序列V中的第k’个元素移动到第k个元素的位置上，从而得到置乱后的水印序列。

步骤344，在离散余弦变换域内确定中频系数，在中频系数上嵌入置乱后的水印序列。

由于人耳的听觉特性，对高频信息不敏感，对低频信息敏感，为保证在听原始音频时不会听到水印，应尽量可能的将水印嵌入到低频系数中，同时，为了尽量不破坏原始音频的信息，则选取离散余弦变换域内的中频系数，即在D(k)内选取第m_w个系数d(k)(m_w)，作为中频系数，用于嵌入序列V_p中相应的元素v_p(k)。其中，D(k)＝MDCT(A(k)),0≤k<(M₁×M₂)，A(k)为原始数字语音信号(原始音频)。

步骤354，将嵌入了置乱后的水印序列的数字的原始音频进行反向离散余弦变换，得到添加了水印的原始音频。

具体的，对嵌入了水印序列的数字的原始音频进行反向改进的离散余弦变换(IMDCT变换)，得到加入了水印的原始音频，如下式所示：

s (n) = \frac{1}{\sqrt{N}} Σ_{k = 0}^{N - 1} u_{k} S_{k} \cos (\frac{π}{2 N} (2 n + 1) k), n = 0,1, . . ., N - 1

在一个实施例中，可对原始音频进行傅立叶变换到频域；采用最小控制递归平均算法(MCRA，Minima-controlledRecursiveAveraging)对变换到频域的音频进行信噪比估计，得到音频的先验信噪比和后验信噪比。

具体的，可按照如下算法计算得到先验信噪比和后验信噪比：

本算法中，噪声功率谱估计是基于以下两个修正假设获得的：

H_{0}^{k} : {\hat{σ}}_{d}^{2} (λ, k) = α {\hat{σ}}_{d}^{2} (λ - 1, k) + (1 - α) {| Y (λ, k) |}^{2}

H_{1}^{k} : {\hat{σ}}_{d}^{2} (λ, k) = {\hat{σ}}_{d}^{2} (λ - 1, k)

其中，表示语音存在段，噪声延续前一帧的结果不更新功率谱；表示语音不存在段，语音噪声成分较多，这时更新噪声。

具体的，信噪比估计的过程包括：

1)计算平滑含噪功率谱密度

采用如下公式计算平滑含噪功率谱密度：

S(λ,k)＝α_sS(λ-1,k)+(1-α_s)S_f(λ,k)

其中，

S_{f} (λ, k) = Σ_{i = - L_{w}}^{L_{w}} w (i) {| Y (λ, k - i) |}^{2}

其中，λ为帧号，k为频点，α_s为平滑因子，L_w为帧长，w(i)为哈明窗，|Y(λ,k-i)|²为含噪语音功率谱密度，S_f(λ,k)为在频域内的平滑含噪功率谱密度。

2)求取含噪功率谱密度的最小值

按照如下算式求取含噪功率谱密度的最小值S_min(λ,k)：

ifmod(λ/D)＝0

S_min(λ,k)＝min{S_tmp(λ-1,k),S(λ,k)}

S_tmp(λ,k)＝S(λ,k)

else

S_min(λ,k)＝min{S_min(λ-1,k),S(λ,k)}

S_tmp(λ,k)＝min{S_tmp(λ-1,k),S(λ,k)}

end

其中，D为搜索窗口长度，为m对D的求模运算，S_tmp(m)为当前搜索窗口中功率谱的最小值，S_min(m)为各个搜索窗口中连续更新的功率谱的最小值。

因此，当前帧含噪语音的功率值与此时功率谱最小值S_r(λ,k)的比值可改写为：

S_{r} (λ, k) = \frac{S (λ, k)}{S_{\min} (λ, k)}

其中，S_min(λ,k)为当前频点k处含噪语音功率谱的最小值。

3)计算局部语音存在概率P(λ,k)

通过将S_r(λ,k)与一设定阈值δ相比，可以得到当前分析帧中频点k处的局部语音存在概率P(λ,k)，如以下算式所示：

ifS_r(λ,k)>δ

p＝1speechpresent

else

p＝0speechabsent

end

以上算式中，p即为P(λ,k)。

4)计算平滑因子

采用以下公式计算平滑因子α_d(λ,k)：

α_d(λ,k)＝α+(1-α)P(λ,k)

其中，α为固定常数，反映了噪声段中前一帧噪声估计对当前帧噪声估计的影响。

5)更新噪声功率谱密度

按如下公式计算噪声功率谱密度

{\hat{σ}}_{d}^{2} (λ, k) = α_{d} (λ, k) \cdot {\hat{σ}}_{d}^{2} (λ - 1, k) + [1 - α_{d} (λ, k)] {| Y (λ, k) |}^{2}

其中，为当前分析帧中频点k处的噪声功率谱密度，|Y(λ,k)|²为含噪语音功率谱密度。

6)计算信噪比估计值

其中，后验信噪比计算为：

γ_k＝Y_k/λ_d(k)

其中，λ_d(k)为噪声功率谱密度，也就是Y_k为含噪语音功率谱密度，也就是|Y(λ,k)|²。

先验信噪比为：

{\hat{ξ}}_{k} (λ) = α \frac{{\hat{X}}_{k}^{2} (λ - 1)}{λ_{d} (k, λ - 1)} + (1 - α) \max [γ_{k} (λ) - 1,0]

其中，0<α<1为权因子，为前一帧的振幅估计。

本实施例中，由于选择离散余弦域内的中频系数嵌入水印，不仅不会影响用户对音频内容的理解，也不会影响原始音频中的信息。这种水印添加方法对数字信号的滤波、压缩和重采样等操作具有很强的稳健性，实现了快速且低成本的在音频中添加水印。

如图5所示，在一个实施例中，检测待验证音频中的水印的步骤，包括：

步骤214，获取待验证音频对应的原始音频。

本实施例中，服务器获取都待验证音频和对应的原始音频的编号，根据该编号获取到原始音频。

步骤224，对待验证音频和对应的原始音频进行离散余弦变换，得到离散余弦变换域内的待验证音频和原始音频。

具体的，可按照如下公式对原始音频A(原始数字语音信号)和待验证音频As(待检测的数字语音信号)分别做MDCT变换：

D＝MDCT(A)＝{D(k)＝MDCT(A(k)),0≤k<(M₁×M₂)}

Ds＝MDCT(As)＝{Ds(k)＝MDCT(As(k)),0≤k<(M₁×M₂)}

步骤234，在离散余弦变换域内抽取水印序列信息。

在一个实施例中，步骤234具体为：将离散余弦变换域内的原始音频作为先验信息，根据离散余弦变换域内的待验证音频、离散余弦变换域内的原始音频和用于添加水印时被选中嵌入水印的中频系数，计算得到水印序列信息。

具体的，按照如下公式抽取水印序列信息：

v_{sp} (k) = \frac{1}{α \times d (k) (m_{w})} ({ds}^{'} (k) (m_{w}) - d (k) (m_{w}))

其中，α是比例系数，用于控制中频系数的修改量，d(k)(m_w)为被选中的用于嵌入水印的中频系数，

{ds}^{'} (k) (m_{w}) = \{\begin{matrix} ds (k) (m_{w}) (1 + {av}_{p} (k)), m = m_{w} \\ ds (k) (m) \end{matrix} .

步骤244，对水印序列信息归一化成二值形式。

由于抽取的水印信息应该是二维的，因此需要将抽取的水印序列信息v_sp(k)归一化成二值形式，即：

v_{sp} (k) = \{\begin{matrix} 1, & | v_{sp} | > threshold \\ 0, & otherwise \end{matrix}

步骤254，对二值形式的水印序列信息做逆排序，得到一维水印序列。

具体的，对抽取的序列v_sp(k)做伪随机序列逆排序，得到抽取的一维水印序列Vs，如下式：

V_s＝InversePermute(V_sp)＝{v_s(k)＝v_sp(k'),0≤k,k'<(M₁×M₂)}

步骤264，对一维水印序列做升维处理。

由于添加到原始音频的水印是二维的，需要对一维水印序列做升维处理，将一维水印序列Vs转换为二维图像Ws，如下式：

Ws＝{w_s(i,j)＝v_s(k),0≤i<M₁,0≤j<M₂,k＝i×M₂+j}

本实施例中，如果能得到二值图像的水印，则待验证音频中存在原始音频中的水印，否则不存在。

本实施例中，采用原始音频作为先验信息，能够快速且低成本的检测待验证音频中是否存在水印，不会增强整个系统的负担。

如图6所示，在一个实施例中，还提供了一种验证系统，该系统包括：

第一获取模块602，用于获取待验证音频。

水印检测模块604，用于检测待验证音频中是否存在水印。

验证模块606，用于当水印检测模块604检测到待验证音频中存在水印时，拒绝验证，当水印检测模块604检测到待验证音频中不存在水印时，则进一步检测待验证音频中的内容是否与对应的原始音频中的内容一致，若是则验证通过，否则验证不通过。

在一个实施例中，如图7所示，验证系统还包括：

第二获取模块603，用于获取原始音频。

水印添加模块605，用于对原始音频添加水印。

音频下发模块607，用于下发添加水印后的原始音频。

进一步的，在一个实施例中，如图8所示，水印添加模块605包括：

语音区分模块615，用于区分原始音频的语音段和静音段。

第一离散余弦变换模块625，用于对语音段的语音进行离散余弦变换。

二值图像处理模块635，用于对二值图像进行降维并置乱，得到置乱后的水印序列。

水印嵌入模块645，用于在离散余弦变换域内确定中频系数，在中频系数上嵌入置乱后的水印序列。

反向离散余弦变换模块655，用于将嵌入了置乱后的序列的数字的原始音频进行反向离散余弦变换，得到添加了水印的原始音频。

在一个实施例中，如图9所示，水印检测模块604包括：

第二离散余弦变换模块614，用于获取待验证音频对应的原始音频，对待验证音频和对应的原始音频进行离散余弦变换，得到离散余弦变换域内的待验证音频和原始音频。

水印抽取模块624，用于在离散余弦变换域内抽取水印序列信息。

归一化模块634，用于对水印序列信息归一化成二值形式。

逆排序模块644，用于对二值形式的水印序列信息做逆排序，得到一维水印序列。

升维模块654，用于对一维水印序列做升维处理，若能得到二值图像，则待验证音频中存在水印，否则不存在水印。

进一步的，在一个实施例中，水印抽取模块624用于将离散余弦变换域内的原始音频作为先验信息，根据离散余弦变换域内的待验证音频、离散余弦变换域内的原始音频和用于添加水印时被选中嵌入水印的中频系数，计算得到水印序列信息。

在一个实施例中，如图10所示，示出了一种可运行本发明实施例提供的验证方法的服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，CPU)1002(例如，一个或一个以上处理器)和存储器1003，一个或一个以上存储应用程序1034或数据1024的存储介质1004(例如一个或一个以上海量存储设备)。其中，存储器1003和存储介质1004可以是短暂存储或持久存储。存储在存储介质1004的程序可以包括一个或一个以上模块(如前述的第一获取模块602、水印检测模块604和验证模块606等)。更进一步地，中央处理器1002可以设置为与存储介质1004通信，在服务器1000上执行存储介质1004中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1005，一个或一个以上有线或无线网络接口1006，一个或一个以上输入输出接口1007，和/或，一个或一个以上操作系统1014，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中所述的步骤可以基于该图10所示的服务器结构。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种验证方法，所述方法包括：

获取待验证音频；

2.根据权利要求1所述的方法，其特征在于，在接收待验证音频的步骤之前，还包括：

获取原始音频；

对所述原始音频添加水印；

下发添加水印后的原始音频。

3.根据权利要求2所述的方法，其特征在于，所述对所述原始音频添加水印的步骤，包括：

区分所述原始音频的语音段和静音段；

对语音段的语音进行离散余弦变换；

对二值图像进行降维并置乱，得到置乱后的水印序列；

在离散余弦变换域内确定中频系数，在所述中频系数上嵌入所述置乱后的水印序列；

将嵌入了所述置乱后的水印序列的数字的原始音频进行反向离散余弦变换，得到添加了水印的原始音频。

4.根据权利要求1所述的方法，其特征在于，所述检测所述待验证音频中是否存在水印的步骤，包括：

获取所述待验证音频对应的原始音频；

对所述待验证音频和对应的原始音频进行离散余弦变换，得到离散余弦变换域内的待验证音频和原始音频；

在所述离散余弦变换域内抽取水印序列信息；

对所述水印序列信息归一化成二值形式；

对二值形式的水印序列信息做逆排序，得到一维水印序列；

对所述一维水印序列做升维处理；

若能得到二值图像的水印，则所述待验证音频中存在水印，否则不存在水印。

5.根据权利要求4所述的方法，其特征在于，所述在所述离散余弦变换域内抽取水印序列信息的步骤为：

将所述离散余弦变换域内的原始音频作为先验信息，根据离散余弦变换域内的待验证音频、离散余弦变换域内的原始音频和用于添加水印时被选中嵌入水印的中频系数，计算得到水印序列信息。

6.一种验证系统，其特征在于，所述系统包括：

第一获取模块，用于获取待验证音频；

水印检测模块，用于检测所述待验证音频中是否存在水印；

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

第二获取模块，用于获取原始音频；

水印添加模块，用于对原始音频添加水印；

音频下发模块，用于下发添加水印后的原始音频。

8.根据权利要求7所述的系统，其特征在于，所述水印添加模块包括：

语音区分模块，用于区分所述原始音频的语音段和静音段；

第一离散余弦变换模块，用于对语音段的语音进行离散余弦变换；

二值图像处理模块，用于对二值图像进行降维并置乱，得到置乱后的水印序列；

水印嵌入模块，用于在离散余弦变换域内确定中频系数，在所述中频系数上嵌入所述置乱后的水印序列；

反向离散余弦变换模块，用于将嵌入了所述置乱后的序列的数字的原始音频进行反向离散余弦变换，得到添加了水印的原始音频。

9.根据权利要求6所述的系统，其特征在于，所述水印检测模块包括：

第二离散余弦变换模块，用于获取所述待验证音频对应的原始音频；对所述待验证音频和对应的原始音频进行离散余弦变换，得到离散余弦变换域内的待验证音频和原始音频；

水印抽取模块，用于在所述离散余弦变换域内抽取水印序列信息；

归一化模块，用于对所述水印序列信息归一化成二值形式；

逆排序模块，用于对二值形式的水印序列信息做逆排序，得到一维水印序列；

升维模块，用于对所述一维水印序列做升维处理，若能得到二值图像的水印，则所述待验证音频中存在水印，否则不存在水印。

10.根据权利要求9所述的系统，其特征在于，所述水印抽取模块用于将所述离散余弦变换域内的原始音频作为先验信息，根据离散余弦变换域内的待验证音频、离散余弦变换域内的原始音频和用于添加水印时被选中嵌入水印的中频系数，计算得到水印序列信息。