CN105741852A

CN105741852A - 注意力自适应音频时域调整方法

Info

Publication number: CN105741852A
Application number: CN201410757585.1A
Authority: CN
Inventors: 曾锦华; 施少培; 杨旭; 邱秀莲
Original assignee: EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT
Current assignee: EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2016-07-06
Anticipated expiration: 2034-12-11
Also published as: CN105741852B

Abstract

本发明公开了一种注意力自适应音频时域调整方法，其中，包括如下步骤：步骤a：实时视频中用户头部三维运动参数计算，包括初始化和运动参数计算；步骤b：初始化过程，检测正面人脸，选择具有最大面积的人脸作为初始化对象；步骤c：运动参数计算中，使用图像注册方法计算头部三维运动参数，包括俯仰角pitch、偏航角yaw和横滚角roll，标记为τ(pitch，yaw，roll)；步骤d：参数τ通过函数F1(τ)转换成注意力表征参数α；步骤e：参数α通过函数F2(α)转换成音频信号时域控制参数β；步骤f：依据音频信号时域控制参数β调整音频信号播放速度。本发明的有益效果是：提供更合理更人性化的语音信息获取方法，具有良好的人机交互合理性和人性化设计特征。

Description

注意力自适应音频时域调整方法

技术领域

本发明涉及依据人类头部运动行为判断注意力水平机制和其相应的人机交互接口检测技术，以及依据注意力判断结果自适应实时调整音频信号时域属性的方法，以达到更人性化和更合理的音频信息获取应用。

背景技术

音频信息泛指人类能够听到的所有声音集合，是人类社交和信息获取的重要内容。随着数字录音处理技术的发展和录音设备的普及，设计更加高效和人性化的音频信息获取方法在语言学习、司法辨听和娱乐应用等领域具有重要的实际应用价值。其中，变速不变调技术实现了在不改变原有说话人的音调和语义信息的基础上，调整音频信号的语音播放速度，极大的改善了音频信息获取能力；同时，人类的注意力机制对音频信息的高效获取具有重要的影响作用。如何利用人类音频信息获取的注意力机制及其相应的人机交互接口检测系统，并结合变速不变调技术，实现注意力自适应的音频时域调整，为实现更加高效和人性化的音频信息获取方法的研究具有重要的理论研究意义和实际应用价值。

发明内容

为设计更加高效和人性化的音频信息获取技术，本发明提供一种依据用户头部运动行为判断注意力机制和其相应的人机交互接口检测技术，结合音频信号变速不变调方法，实现依据注意力检测结果自适应调整音频信号时域属性的方法。

本发明解决技术问题所采用的技术手段为：

注意力自适应音频时域调整方法，其中，包括如下步骤：

步骤a：实时视频图像中，用户头部三维运动参数计算，包括初始化和运动参数计算；

步骤b：初始化过程，检测视频图像中的正面人脸图像，如果检测人脸数量为零，初始化失败，输出的注意力参数α为零，并持续步骤b；如果检测正面人脸数量大于等于1，则选择具有最大图像面积的正面人脸作为初始化对象，用于后续的头部运动参数计算。

步骤c：运动参数计算过程中，依据步骤b的初始化结果，使用图像注册的方法计算视频中的用户头部三维运动参数，包括头部的俯仰角度pitch、偏航角度yaw和横滚角度roll，标记为τ(pitch，yaw，roll)；

步骤d：参数τ通过函数F1(τ)转换成输出注意力参数α；

步骤e：输出参数α通过函数F2(α)转换成音频信号时域控制参数β；

步骤f：依据音频信号时域控制参数β调整音频信号播放速度。

上述注意力自适应音频时域调整方法，其中，所述步骤b中正面人脸定义为：

(1)沿用人体解剖学的矢状面、冠状面和横断面的概念，定义用户头部的矢状面、冠状面和横断面分别为S，C，T；同时，定义视频成像平面为P；

(2)正面人脸定义为当C和P平面夹角大小小于一定阈值Τ_s。

上述注意力自适应音频时域调整方法，其中，所述步骤d中的函数F1(τ)计算原理如下：

(1)当头部运动参数俯仰角度pitch和偏航角度yaw小于一定阈值T₂，输出注意力参数α为2，表示注意力集中；

(2)当头部运动参数俯仰角度pitch和偏航角度yaw在[T₂，T₁](T₁＞T₂)范围，输出注意力参数α为1，表示注意力适度分神；

(3)当头部运动参数俯仰角度pitch或偏航角度yaw大于T₁，输出注意力参数α为0，表示注意力分神；

上述注意力自适应音频时域调整方法，其中，所述步骤e中的函数F2(α)计算原理如下：

(1)当α＝2，β＝1*C，C为常数；

(2)当α＝1，β＝μ*C，μ为变量；

(3)当α＝0，β＝0*C；

上述注意力自适应音频时域调整方法，其中，所述步骤f中的音频信号时域控制参数β，当β＝1时为正常速度播放，当β>1时为快速播放，当β<1时为慢速播放。音频信号变速不变调播放速度实时控制具体方法如下：

(1)假设音频信号序列表示为A_i(i＝1,...,k×sr)，其中sr为音频信号采样率(单位：赫兹)，k为音频信号时长(单位：秒)，上一段音频信号播放结束位置假定为e；

(2)获取当前的音频信号时域控制参数β，读取根据参数β的播放时长为t秒的相对于e的后续音频信号序列为A_c(c＝e+1,...,t×β×sr)，t为系统响应延迟；

(3)对A_c(c＝e+1,...,t×β×sr)根据参数β使用相位声码器进行变速不变调信号合成，合成信号标记为A'_i(i＝1,...,t×sr)；

(4)播放合成信号A'_i(i＝1,...,t×sr)。

本发明的有益效果是：

1、本发明设计了基于用户头部运动参数计算分析用户注意力水平机制。

2、本发明设计了根据检测的用户注意力水平自适应调整音频信号时域播放速度方法。

3、本发明设计了根据音频信号时域控制参数实时对音频信号进行变速不变调播放方法。

4、本发明实现的注意力自适应音频时域调整方法具有更高的人机交互合理性和人性化设计特征。

附图说明

图1是本发明注意力自适应音频时域调整方法的流程图。

具体实施方式

下面结合具体应用实施例对本发明作进一步说明，但不作为本发明的限定。

本应用实施例提供了司法鉴定应用中的注意力自适应语音辨听方法，检材语音为wav格式，音频信号采样率为8000Hz，实现对检材语音中的说话人声音进行辨听和文字记录。整个工作流程如图1所示，本应用实施例包括如下步骤：

步骤a：用户正坐于电脑屏幕前，视线大致与屏幕中央对齐并相距50cm左右，用于实时获取视频图像的摄像头固定于屏幕上边缘，以实时的获取用户头部运动图像，摄像头采集的视频的采样率为f帧每秒，这里设定为5帧每秒即200ms采样一次，图像帧大小设定为320*280像素，；

步骤b：初始化阶段，正面人脸检测结果人脸数量为1，并进行后续视频图像中的用户头部运动参数计算；

步骤c：选择需要辨听的检材语音，并设置默认播放速度常数C＝1，变量μ＝0.5；

步骤d：某t1时刻，用户处于正常的辨听工作状态，以头部运动参数定义，俯仰角度pitch和偏航角度yaw小于一定阈值T₂，此时，α＝2，β＝1*1，转到步骤g；

步骤e：某t2时刻，用户想降低语音播放速度以认真辨听，用户稍微低头，此时，俯仰角度pitch和偏航角度yaw在[T₂，T₁]范围，α＝1，β＝0.5*1，转到步骤g；

步骤f：某t3时刻，用户头部转向左边与他人进行讲话，偏航角度yaw大于T₁，α＝0，β＝0*1，转到步骤g；

步骤g：根据音频信号时域控制参数β实时调整音频信号合成播放语速，具体方法如下：

(1)假设音频信号序列表示为A_i(i＝1,...,k×sr)，其中sr＝8000Hz，k为音频信号时长(单位：秒)，上一段音频信号播放结束位置假定为e；

(2)获取当前的音频信号时域属性参数β，读取根据参数β的播放时长为1秒的相对于e的后续音频信号序列为A_c(c＝e+1,...,1×β×8000)；

(3)对A_c(c＝e+1,...,1×β×8000)根据参数β使用相位声码器进行变速不变调信号合成，合成信号标记为A'_i(i＝1,...,1×8000)；

(4)播放合成信号A'_i(i＝1,...,1×8000)。

以上所述仅为本发明的一个应用实施例，并非因此限制本发明的申请专利范围，所以凡运用本发明说明书及图示内容所作出的等效结构变化，均包含在本发明的保护范围内。

Claims

1.注意力自适应音频时域调整方法，其特征在于，包括如下步骤：

步骤a：依据用户的头部运动参数计算判断用户的注意力水平，分别为注意力集中、注意力适度分神和注意力分神；

步骤b：依据注意力检测结果，自适应调整音频信号时域控制参数；

步骤c：依据音频信号时域控制参数，实时进行语音信号变速不变调播放。

2.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤a中的用户头部运动参数计算方法如下：

(1)初始化过程，检测视频图像中的正面人脸图像，如果检测人脸数量为零，初始化失败，并持续进行初始化；如果检测正面人脸数量大于等于1，则选择具有最大图像面积的正面人脸作为初始化对象，用于后续的头部运动参数计算。

(2)头部运动参数计算过程中，依据初始化的正面人脸图像，使用图像注册的方法计算视频中的用户头部三维运动参数，包括头部的俯仰角度pitch、偏航角度yaw和横滚角度roll。

3.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤a中的用户注意力水平计算方法如下：

(1)当用户头部运动参数俯仰角度pitch和偏航角度yaw小于一定阈值T₂，用户注意力水平参数α设置为2，表示注意力集中；

(2)当用户头部运动参数俯仰角度pitch和偏航角度yaw在[T₂，T₁](T₁＞T₂)范围，用户注意力参数α设置为1，表示注意力适度分神；

(3)当用户头部运动参数俯仰角度pitch或偏航角度yaw大于T₁，用户注意力参数α设置为0，表示注意力分神。

4.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤b中依据注意力检测结果(α)自适应调整音频信号时域控制参数(β)的规则表示如下：

(1)当α＝2，β＝1*C，C为常数；

(2)当α＝1，β＝μ*C，μ为变量；

(3)当α＝0，β＝0*C。

5.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤c中依据音频信号时域控制参数(β)实时进行语音信号变速不变调播放方法如下：

(3)对A_c(c＝e+1,...,t×β×sr)根据参数β使用相位声码器进行变速不变调信号合成，合成信号标记为A_i'(i＝1,...,t×sr)；

(4)播放合成信号A_i'(i＝1,...,t×sr)。