CN105741853A

CN105741853A - 一种基于共振峰频率的数字语音感知哈希方法

Info

Publication number: CN105741853A
Application number: CN201610049423.1A
Authority: CN
Inventors: 王宏霞; 任刘姣
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-07-06
Anticipated expiration: 2036-01-25
Also published as: CN105741853B

Abstract

本发明公开了一种基于共振峰频率的数字语音感知哈希方法，应用于大数据背景下的语音检索，分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征。匹配过程首先对语音的粗略特征进行匹配，筛选出与目标语音具有相似音色的语音片段，然后对筛选出的具有相似音色的语音进行细节特征匹配，最后获得精确匹配结果。应用于海量语音信号处理时可以省去大量不必要的匹配计算量，匹配效率将明显提高。

Description

一种基于共振峰频率的数字语音感知哈希方法

技术领域

本发明涉及一种新颖的针对大数据应用背景下如何提高海量语音信号处理效率的语音感知哈希方案。

背景技术

随着“互联网+”时代的到来，移动互联网，云计算，大数据和人工智能飞速发展，人们迫切希望能够直接通过语音与计算机进行交互，这使得语音的大规模存储和处理成为研究热点。感知哈希作为多媒体内容识别、检索、认证等信息服务的技术支撑，将面临如何降低计算复杂度和计算效率两大难题。目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏，没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异，针对音频的感知哈希方法并不完全适用于语音，所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。

现有的语音感知哈希算法大多是单独针对时域或频域的特性，选取某种鲁棒性强，区分性好的特征生成感知哈希，常见的主要是基于频域特征构造感知哈希序列，例如梅尔倒谱系数，离散余弦变换，小波变换等。文献“Robustaudiohashingbasedondiscrete-wavelettransformandnon-negativematrixfactorisation”(ChenN,WanW,XiaoH，IETCommun.2010,23(9)：1722-1731)提出了基于离散小波变换(DWT)和非负矩阵分解(NMF)的音频鲁棒哈希算法。文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)给出了感知哈希各项性质的数学推导和定义，并提出了用熵率来评价算法区分性和压缩性的联合性能。现有的感知哈希算法虽然性能不断提升，但并没有从大数据应用背景的角度考虑，算法复杂度和实际应用效率之间无法达到平衡。

综上所述，目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏，没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异，针对音频的感知哈希方法并不完全适用于语音，所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案。

发明内容

本发明的目的是针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案使之克服现有技术的以上不足。其具体手段如下：

一种基于共振峰频率的数字语音感知哈希算法，应用于大数据背景下的语音检索，分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征；将粗略特征和细节特征分别量化为感知哈希，匹配过程通过粗略特征的匹配初步确定目标语音所在的范围，筛选出与目标语音具有相似音色的语音段，然后对筛选出的相似语音片段进行细节特征匹配，最后获得精确匹配结果；包含如下主要步骤：

(1)基于共振峰频率的粗糙感知哈希生成：对语音进行频域分析，利用共振峰能够表征说话人音色特征这一特性，选取语音的共振峰频率作为粗略特征，采用不重叠分帧方法，提取每帧的前k个共振峰，这k个共振峰值分别与对应共振峰频率的中值进行比较，大于等于中值则当前帧的感知哈希值为1，小于中值则为0，将提取的感知哈希值按分帧的顺序排列，量化为反映语音粗略特征的粗糙感知哈希序列H₁；

(2)细节感知哈希序列的获得：细节感知哈希生成过程采用重叠分帧，计算每帧时域短时能量，相邻帧的短时能量差作为语音的细节特征，并量化为反映语音细节特征的细节感知哈希序列H₂；

(3)粗糙感知哈希与细节感知哈希结合：每帧的粗糙感知哈希H₁置于细节感知哈希H₂的前面，H₁与H₂顺序拼接起来作为当前帧最终的感知哈希序列H。

这样，本发明将构造感知哈希的方法分为三部分，第一部分针对语音信号的特点，利用共振峰能表征说话人音色特征这一特性，提取语音段的共振峰频率作为语音信号的粗略特征参数，将其量化为语音的粗糙感知哈希序列。第二部分则选取能表征语音信号细节特征的时域能量差作为细节特征参数，时域能量差的计算复杂度相对较低并且具有较强的鲁棒性，同样将时域能量差量化为语音的细节感知哈希序列。第三部分将粗糙感知哈希和细节感知哈希结合使用，匹配过程首先对语音的粗糙感知哈希进行匹配，筛选出与目标语音具有相似音色的语音片段，然后对筛选出的具有相似音色的语音进行细节感知哈希匹配，最后获得精确匹配结果。这样做提高了匹配效率，省去匹配剩余不相似语音的计算量。实验结果表明，本发明有较强的鲁棒性和较好的区分性，实验语音样本越多，匹配效率提高更为明显，进一步展开的具体步骤如下：

(1)粗糙感知哈希生成过程：对语音信号进行不重叠分帧，帧长约等于一个元音或一个字词的发音时间。提取每帧的前k个共振峰，这k个共振峰值分别与对应共振峰频率的中值进行比较，若大于等于中值，则当前帧的感知哈希值为1，若小于中值，则当前感知哈希值为0，将提取的感知哈希值按分帧的顺序排列，量化为反映语音粗略特征的粗糙感知哈希序列H₁；

(2)细节感知哈希生成过程：对语音信号进行重叠分帧，帧移为帧长的2/3长度。对于分帧后的语音，以帧为单位计算每帧时域短时能量作为语音的细节特征，相邻帧的短时能量进行比较，从第二帧开始，将每帧的时域能量值与前一帧的时域能量值进行比较，若大于前一帧表示当前帧提取的时域感知哈希值为1，否则表示0。这样，除第一帧外，每帧都提取了1bit感知哈希值，将所有提取的细节感知哈希值按分帧的顺序结合起来就形成了细节感知哈希序列H₂。

(3)因为粗略特征提取过程采用不重叠分帧，细节特征提取过程采用重叠分帧，所以对于同一段语音，粗糙感知哈希序列比细节感知哈希序列的长度短很多，至少是细节感知哈希序列长度的一半。将每帧的粗糙感知哈希H₁置于细节感知哈希H₂的前面，H₁与H₂顺序拼接起来作为当前帧最终的感知哈希H。检索匹配时就可以利用少量比特的粗糙感知哈希H₁进行初步筛选，再利用细节感知哈希H₂对筛选出的候选语音段进行精确匹配，省去不必要的计算量，大大提高匹配效率。

本发明从感知哈希技术应用于海量信息处理的角度出发，如感知哈希在语音检索中的应用，让计算机能像人耳一样，拥有“听音识人”的功能，初步筛选出与目标语音具有相似音色的语音段，然后只针对筛选出的这些少量语音段进行精确匹配，从而大大减少不必要的计算量，提高检索效率。因此本发明与其他算法感知哈希序列长度相同时，匹配速度至少提高一倍。实验结果表明，感知哈希的区分性和鲁棒性均非常出色，说明本发明在实际应用中将更有意义。

附录说明

图1为整体的算法框图。

图2为基于共振峰频率生成粗糙感知哈希框图。

图3为基于时域能量差生成细节感知哈希框图。

图4为粗糙感知哈希与细节感知哈希结合框图。

图5为本发明实验测试区分性的比特误码率统计直方图。

图6为本发明实验的比特误码率与正态分布对比结果。

图7为本发明在不同阈值下的错误接受率FAR值。

图8为对常规语音信号处理的鲁棒性测试列表。

具体实施方式

以下结合附录和实施例对本发明的技术方案作进一步描述。

本发明对语音信号分别进行粗略特征和细节特征提取。提取粗略特征时，对语音进行频域分析，选取语音的共振峰频率作为特征，采用不重叠分帧方法，提取每帧的前k个共振峰，分别与对应共振峰频率的中值进行比较，量化为反映语音粗略特征的粗糙感知哈希序列；本发明采用线性预测编码(LPC)算法提取语音的共振峰频率，之所以选取LPC算法是因为LPC在语音信号分析和语音信号编码应用中是最有效的方式之一，它提供了一组简洁的语音信号模型参数精确表征语音信号的幅度谱，所需的计算量相对较小，适合应用于大规模语音数据处理中。提取细节特征时，采用重叠分帧，使分帧后的语音信号更接近于平稳信号，计算每帧时域短时能量作为语音的细节特征，相邻帧的短时能量进行做差比较，得到反映语音细节特征的细节感知哈希序列。最后，将生成的两组感知哈希结合起来，作为最终的感知哈希值。过程框图如图1所示。

1、粗糙感知哈希生成过程：

(1)对语音信号进行不重叠分帧，加汉明窗，语音帧的长度为d₁，每帧的长度等于一个元音或一个字词的发音时间；

(2)计算各帧语音信号的p阶线性预测系数，记为：{a_k；k＝1,2,...,p}

(3)线性预测(LPC)模型中传递函数的极点模型如下：

H (z) = \frac{1}{Π (1 - Z_{k} Z^{- k})}

其中，Z_k＝r_kexp(jθ_k)是H(z)在z-平面上第k个极点。计算由线性预测系数a_k构成的多项式的极点，保留所有的非负根，记为Z_k＝r_kexp(jθ_k)；

(4)根据极点值计算出非负根的弧度θ_k，然后计算第k个共振峰的频率F_k，共振峰频率的计算公式如下：

F_k＝θ_k/2πT

T为语音信号的采样周期，θ_k为极点的弧度。

(5)将k个共振峰频率进行排序，计算每一个共振峰频率的平均值，记为M_F(k)，逐个比较共振峰值与M_F(k)的差值，取差值最小的四个共振峰为当前帧的前四个共振峰频率；

(6)取出每帧的第一共振峰(实际应用中，第一共振峰就足以表征说话人的音色特征)，记为F₁(i),i＝1,2,…,m，其中m为语音的帧数，最后按如下公式进行量化：

H_{1} (i) = \{\begin{matrix} 1 & i f & F_{1} (i) &GreaterEqual; F_m e d \\ 0 & i f & F_{1} (i) < F_m e d \end{matrix}

其中，F_med为第一共振峰的中值，H₁(i)表示第i帧的由粗略特征生成的感知哈希序列；

(7)将每帧生成的1bit感知哈希值，按分帧的顺序拼接起来，作为整段语音由粗略特征生成的感知哈希序列H₁。

基于共振峰频率生成粗糙感知哈希框图如图2所示。

2、细节感知哈希生成过程：

(1)将语音信号重叠分帧，加汉明窗处理，帧长为d₂，帧移为帧长的2/3长度；

(2)计算各帧的短时能量，记为E(i),i＝1,2,…,n，短时能量的计算公式如下：

E (i) = Σ_{f = 1}^{d_{2}} | w_{i} (f) |

其中，n为语音的帧数，w_i(f)为第i帧中第f个采样点的值；

(3)将前后两帧间的能量两两计算差值，然后按照以下公式进行量化：

H_{2} (i) = \{\begin{matrix} 1 & i f & E (i + 1) - E (i) &GreaterEqual; 0 \\ 0 & i f & E (i + 1) - E (i) < 0 \end{matrix}

其中，H₂(i)表示第i帧的由细节特征生成的感知哈希序列，E(i)表示第i帧的短时能量；

(4)将每帧生成的1bit哈希值，按分帧的顺序拼接起来，作为整段语音由细节特征生成的感知哈希序列H₂。

基于时域能量差生成细节感知哈希框图如图3所示。

3、粗糙感知哈希与细节感知哈希结合：

粗略特征提取过程采用不重叠分帧方法，细节特征提取过程采用重叠分帧，帧移为帧长的2/3长度，粗糙感知哈希序列的长度是细节感知哈希序列长度的一半。将每帧的粗糙感知哈希H₁置于细节感知哈希H₂的前面，H₁与H₂前后拼接起来作为当前帧最终的感知哈希H。匹配过程中就可以利用少量比特的粗糙感知哈希H₁进行初步筛选，再利用细节感知哈希H₂对筛选出的候选语音段进行精确匹配，省去不必要的计算量，这样，就可以在处理大规模语音信号时，大幅提高匹配效率。

粗糙感知哈希与细节感知哈希的结合过程如图4所示。

本发明的实验效果可以通过下面的性能分析验证：

一个理想的感知哈希算法应具备区分性，感知鲁棒性，摘要性等性质，这三者之间相互制约，若需区分性更好，则必定牺牲一定的摘要性和鲁棒性，反之亦然。

1、感知哈希的区分性

实验中采用的语音库共2000段内容不相同的语音片段，时长均为6s、采样频率8kHz以及量化位数为16位的单声道语音。采用本发明提出的方案提取每段语音的感知哈希序列，得到2000段感知哈希序列，将它们两两之间进行匹配并计算其比特误码率，共得到(2000×1999/2＝1999000)个比特误码率值，其统计直方图如图4所示，可以看出，归一化汉明距离分布在0.35～0.65之间。比特误码率的分布基本服从正态分布，其概率分布参数为：均值μ＝0.4999，标准差σ＝0.0281。比特误码率的统计直方图如图5所示。

实现更好的区分性，等价于得到更低的错误识别率(FAR)。其在不同阈值下的错误接受率(FAR)计算公式为：

F A R (τ) = {&Integral;}_{- \infty}^{τ} f (α | μ, σ) d α = {&Integral;}_{- \infty}^{τ} \frac{1}{σ \sqrt{2 π}} e^{\frac{- {(α - μ)}^{2}}{2 σ^{2}}} d α

图7列出了在不同阈值下，本发明的错误识别率FAR值。从图7可以看出，本发明在不同阈值的情况下，都取得了较低的FAR值，可见本发明算法获得了很好的区分性。

2、感知哈希的鲁棒性

对语音库中的1000段语音进行各种内容保持操作处理，包括MP3压缩、振幅增加、振幅减小、重量化、翻转等。首先提取原始语音的感知哈希序列，然后提取各种内容保持操作处理后语音的感知哈希序列并进行匹配，语音库共1000个语音片段，因此每种内容保持操作都要匹配1000次，得到1000个比特误码率(BER)值。图8列出了各种内容保持操作对应的1000个比特误码率(BER)值中的平均值与最大值。这两个值越小，表示语音经过内容保持操作前后所提取的感知哈希序列的数学距离越小，则说明算法的鲁棒性越好，实验结果表明，在各种内容保持操作后，本发明都获得了较强的鲁棒性。

3、感知哈希的熵率

文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)提出由于错误接受率(FAR)、错误拒绝率(FRR)和等错误率(ERR)会受感知哈希尺寸的影响，所以仅用这三项指标评价算法的性能是不全面的，文中提到使用信源熵率作为区分性和压缩性的联合评价指标，从本质上评价算法性能好坏，熵率的计算公式如下：

H_∞＝-[qlog₂q+(1-q)log₂(1-q)]

其中为转移概率，σ为实际标准差，σ₀为理想标准差。熵率的取值范围是[0，1)，熵率的值越接近1，说明感知哈希的整体性能越好。对语音库中的2000段语音按照本发明提出的算法提取2000段感知哈希序列，得到其转移概率q，然后根据熵率的计算公式计算得出本发明的熵率为0.9463,可以看出本发明区分性和压缩性的联合性能非常出色。

Claims

1.一种基于共振峰频率的数字语音感知哈希方法，应用于大数据背景下的语音检索，分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征；将粗略特征和细节特征分别量化为感知哈希，匹配过程通过粗略特征的匹配初步确定目标语音所在的范围，筛选出与目标语音具有相似音色的语音段，然后对筛选出的相似语音片段进行细节特征匹配，最后获得精确匹配结果；