CN105741852A - 注意力自适应音频时域调整方法 - Google Patents

注意力自适应音频时域调整方法 Download PDF

Info

Publication number
CN105741852A
CN105741852A CN201410757585.1A CN201410757585A CN105741852A CN 105741852 A CN105741852 A CN 105741852A CN 201410757585 A CN201410757585 A CN 201410757585A CN 105741852 A CN105741852 A CN 105741852A
Authority
CN
China
Prior art keywords
attention
parameter
audio signal
user
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410757585.1A
Other languages
English (en)
Other versions
CN105741852B (zh
Inventor
曾锦华
施少培
杨旭
邱秀莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT
Original Assignee
EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT filed Critical EXPERT TESTIMONY SCIENCE-TECHNOLOGY INST JUDICAL DEPARTMENT
Priority to CN201410757585.1A priority Critical patent/CN105741852B/zh
Publication of CN105741852A publication Critical patent/CN105741852A/zh
Application granted granted Critical
Publication of CN105741852B publication Critical patent/CN105741852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种注意力自适应音频时域调整方法,其中,包括如下步骤:步骤a:实时视频中用户头部三维运动参数计算,包括初始化和运动参数计算;步骤b:初始化过程,检测正面人脸,选择具有最大面积的人脸作为初始化对象;步骤c:运动参数计算中,使用图像注册方法计算头部三维运动参数,包括俯仰角pitch、偏航角yaw和横滚角roll,标记为τ(pitch,yaw,roll);步骤d:参数τ通过函数F1(τ)转换成注意力表征参数α;步骤e:参数α通过函数F2(α)转换成音频信号时域控制参数β;步骤f:依据音频信号时域控制参数β调整音频信号播放速度。本发明的有益效果是:提供更合理更人性化的语音信息获取方法,具有良好的人机交互合理性和人性化设计特征。

Description

注意力自适应音频时域调整方法
技术领域
本发明涉及依据人类头部运动行为判断注意力水平机制和其相应的人机交互接口检测技术,以及依据注意力判断结果自适应实时调整音频信号时域属性的方法,以达到更人性化和更合理的音频信息获取应用。
背景技术
音频信息泛指人类能够听到的所有声音集合,是人类社交和信息获取的重要内容。随着数字录音处理技术的发展和录音设备的普及,设计更加高效和人性化的音频信息获取方法在语言学习、司法辨听和娱乐应用等领域具有重要的实际应用价值。其中,变速不变调技术实现了在不改变原有说话人的音调和语义信息的基础上,调整音频信号的语音播放速度,极大的改善了音频信息获取能力;同时,人类的注意力机制对音频信息的高效获取具有重要的影响作用。如何利用人类音频信息获取的注意力机制及其相应的人机交互接口检测系统,并结合变速不变调技术,实现注意力自适应的音频时域调整,为实现更加高效和人性化的音频信息获取方法的研究具有重要的理论研究意义和实际应用价值。
发明内容
为设计更加高效和人性化的音频信息获取技术,本发明提供一种依据用户头部运动行为判断注意力机制和其相应的人机交互接口检测技术,结合音频信号变速不变调方法,实现依据注意力检测结果自适应调整音频信号时域属性的方法。
本发明解决技术问题所采用的技术手段为:
注意力自适应音频时域调整方法,其中,包括如下步骤:
步骤a:实时视频图像中,用户头部三维运动参数计算,包括初始化和运动参数计算;
步骤b:初始化过程,检测视频图像中的正面人脸图像,如果检测人脸数量为零,初始化失败,输出的注意力参数α为零,并持续步骤b;如果检测正面人脸数量大于等于1,则选择具有最大图像面积的正面人脸作为初始化对象,用于后续的头部运动参数计算。
步骤c:运动参数计算过程中,依据步骤b的初始化结果,使用图像注册的方法计算视频中的用户头部三维运动参数,包括头部的俯仰角度pitch、偏航角度yaw和横滚角度roll,标记为τ(pitch,yaw,roll);
步骤d:参数τ通过函数F1(τ)转换成输出注意力参数α;
步骤e:输出参数α通过函数F2(α)转换成音频信号时域控制参数β;
步骤f:依据音频信号时域控制参数β调整音频信号播放速度。
上述注意力自适应音频时域调整方法,其中,所述步骤b中正面人脸定义为:
(1)沿用人体解剖学的矢状面、冠状面和横断面的概念,定义用户头部的矢状面、冠状面和横断面分别为S,C,T;同时,定义视频成像平面为P;
(2)正面人脸定义为当C和P平面夹角大小小于一定阈值Τs
上述注意力自适应音频时域调整方法,其中,所述步骤d中的函数F1(τ)计算原理如下:
(1)当头部运动参数俯仰角度pitch和偏航角度yaw小于一定阈值T2,输出注意力参数α为2,表示注意力集中;
(2)当头部运动参数俯仰角度pitch和偏航角度yaw在[T2,T1](T1>T2)范围,输出注意力参数α为1,表示注意力适度分神;
(3)当头部运动参数俯仰角度pitch或偏航角度yaw大于T1,输出注意力参数α为0,表示注意力分神;
上述注意力自适应音频时域调整方法,其中,所述步骤e中的函数F2(α)计算原理如下:
(1)当α=2,β=1*C,C为常数;
(2)当α=1,β=μ*C,μ为变量;
(3)当α=0,β=0*C;
上述注意力自适应音频时域调整方法,其中,所述步骤f中的音频信号时域控制参数β,当β=1时为正常速度播放,当β>1时为快速播放,当β<1时为慢速播放。音频信号变速不变调播放速度实时控制具体方法如下:
(1)假设音频信号序列表示为Ai(i=1,...,k×sr),其中sr为音频信号采样率(单位:赫兹),k为音频信号时长(单位:秒),上一段音频信号播放结束位置假定为e;
(2)获取当前的音频信号时域控制参数β,读取根据参数β的播放时长为t秒的相对于e的后续音频信号序列为Ac(c=e+1,...,t×β×sr),t为系统响应延迟;
(3)对Ac(c=e+1,...,t×β×sr)根据参数β使用相位声码器进行变速不变调信号合成,合成信号标记为A'i(i=1,...,t×sr);
(4)播放合成信号A'i(i=1,...,t×sr)。
本发明的有益效果是:
1、本发明设计了基于用户头部运动参数计算分析用户注意力水平机制。
2、本发明设计了根据检测的用户注意力水平自适应调整音频信号时域播放速度方法。
3、本发明设计了根据音频信号时域控制参数实时对音频信号进行变速不变调播放方法。
4、本发明实现的注意力自适应音频时域调整方法具有更高的人机交互合理性和人性化设计特征。
附图说明
图1是本发明注意力自适应音频时域调整方法的流程图。
具体实施方式
下面结合具体应用实施例对本发明作进一步说明,但不作为本发明的限定。
本应用实施例提供了司法鉴定应用中的注意力自适应语音辨听方法,检材语音为wav格式,音频信号采样率为8000Hz,实现对检材语音中的说话人声音进行辨听和文字记录。整个工作流程如图1所示,本应用实施例包括如下步骤:
步骤a:用户正坐于电脑屏幕前,视线大致与屏幕中央对齐并相距50cm左右,用于实时获取视频图像的摄像头固定于屏幕上边缘,以实时的获取用户头部运动图像,摄像头采集的视频的采样率为f帧每秒,这里设定为5帧每秒即200ms采样一次,图像帧大小设定为320*280像素,;
步骤b:初始化阶段,正面人脸检测结果人脸数量为1,并进行后续视频图像中的用户头部运动参数计算;
步骤c:选择需要辨听的检材语音,并设置默认播放速度常数C=1,变量μ=0.5;
步骤d:某t1时刻,用户处于正常的辨听工作状态,以头部运动参数定义,俯仰角度pitch和偏航角度yaw小于一定阈值T2,此时,α=2,β=1*1,转到步骤g;
步骤e:某t2时刻,用户想降低语音播放速度以认真辨听,用户稍微低头,此时,俯仰角度pitch和偏航角度yaw在[T2,T1]范围,α=1,β=0.5*1,转到步骤g;
步骤f:某t3时刻,用户头部转向左边与他人进行讲话,偏航角度yaw大于T1,α=0,β=0*1,转到步骤g;
步骤g:根据音频信号时域控制参数β实时调整音频信号合成播放语速,具体方法如下:
(1)假设音频信号序列表示为Ai(i=1,...,k×sr),其中sr=8000Hz,k为音频信号时长(单位:秒),上一段音频信号播放结束位置假定为e;
(2)获取当前的音频信号时域属性参数β,读取根据参数β的播放时长为1秒的相对于e的后续音频信号序列为Ac(c=e+1,...,1×β×8000);
(3)对Ac(c=e+1,...,1×β×8000)根据参数β使用相位声码器进行变速不变调信号合成,合成信号标记为A'i(i=1,...,1×8000);
(4)播放合成信号A'i(i=1,...,1×8000)。
以上所述仅为本发明的一个应用实施例,并非因此限制本发明的申请专利范围,所以凡运用本发明说明书及图示内容所作出的等效结构变化,均包含在本发明的保护范围内。

Claims (5)

1.注意力自适应音频时域调整方法,其特征在于,包括如下步骤:
步骤a:依据用户的头部运动参数计算判断用户的注意力水平,分别为注意力集中、注意力适度分神和注意力分神;
步骤b:依据注意力检测结果,自适应调整音频信号时域控制参数;
步骤c:依据音频信号时域控制参数,实时进行语音信号变速不变调播放。
2.如权利要求1所述注意力自适应音频时域调整方法,其特征在于,所述步骤a中的用户头部运动参数计算方法如下:
(1)初始化过程,检测视频图像中的正面人脸图像,如果检测人脸数量为零,初始化失败,并持续进行初始化;如果检测正面人脸数量大于等于1,则选择具有最大图像面积的正面人脸作为初始化对象,用于后续的头部运动参数计算。
(2)头部运动参数计算过程中,依据初始化的正面人脸图像,使用图像注册的方法计算视频中的用户头部三维运动参数,包括头部的俯仰角度pitch、偏航角度yaw和横滚角度roll。
3.如权利要求1所述注意力自适应音频时域调整方法,其特征在于,所述步骤a中的用户注意力水平计算方法如下:
(1)当用户头部运动参数俯仰角度pitch和偏航角度yaw小于一定阈值T2,用户注意力水平参数α设置为2,表示注意力集中;
(2)当用户头部运动参数俯仰角度pitch和偏航角度yaw在[T2,T1](T1>T2)范围,用户注意力参数α设置为1,表示注意力适度分神;
(3)当用户头部运动参数俯仰角度pitch或偏航角度yaw大于T1,用户注意力参数α设置为0,表示注意力分神。
4.如权利要求1所述注意力自适应音频时域调整方法,其特征在于,所述步骤b中依据注意力检测结果(α)自适应调整音频信号时域控制参数(β)的规则表示如下:
(1)当α=2,β=1*C,C为常数;
(2)当α=1,β=μ*C,μ为变量;
(3)当α=0,β=0*C。
5.如权利要求1所述注意力自适应音频时域调整方法,其特征在于,所述步骤c中依据音频信号时域控制参数(β)实时进行语音信号变速不变调播放方法如下:
(1)假设音频信号序列表示为Ai(i=1,...,k×sr),其中sr为音频信号采样率(单位:赫兹),k为音频信号时长(单位:秒),上一段音频信号播放结束位置假定为e;
(2)获取当前的音频信号时域控制参数β,读取根据参数β的播放时长为t秒的相对于e的后续音频信号序列为Ac(c=e+1,...,t×β×sr),t为系统响应延迟;
(3)对Ac(c=e+1,...,t×β×sr)根据参数β使用相位声码器进行变速不变调信号合成,合成信号标记为Ai'(i=1,...,t×sr);
(4)播放合成信号Ai'(i=1,...,t×sr)。
CN201410757585.1A 2014-12-11 2014-12-11 注意力自适应音频时域调整方法 Active CN105741852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410757585.1A CN105741852B (zh) 2014-12-11 2014-12-11 注意力自适应音频时域调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410757585.1A CN105741852B (zh) 2014-12-11 2014-12-11 注意力自适应音频时域调整方法

Publications (2)

Publication Number Publication Date
CN105741852A true CN105741852A (zh) 2016-07-06
CN105741852B CN105741852B (zh) 2020-07-24

Family

ID=56240269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410757585.1A Active CN105741852B (zh) 2014-12-11 2014-12-11 注意力自适应音频时域调整方法

Country Status (1)

Country Link
CN (1) CN105741852B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122789A (zh) * 2017-03-14 2017-09-01 华南理工大学 基于深度摄像头的多模态信息融合的学习专注度分析方法
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN115460460A (zh) * 2021-05-19 2022-12-09 北京字跳网络技术有限公司 基于人脸检测的信息交互方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1234681A (zh) * 1998-04-28 1999-11-10 Lg电子株式会社 运动影像自适应显示速度的自动控制装置及其方法
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法
CN101740034A (zh) * 2008-11-04 2010-06-16 刘盛举 一种实现声音变速不变调方法及变速变调系统
CN103228316A (zh) * 2010-11-25 2013-07-31 皇家飞利浦电子股份有限公司 用于在扫描期间分散患者的注意力的系统和方法
CN103607550A (zh) * 2013-11-27 2014-02-26 北京海尔集成电路设计有限公司 一种根据观看者位置调整电视虚拟声道的方法及电视

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1234681A (zh) * 1998-04-28 1999-11-10 Lg电子株式会社 运动影像自适应显示速度的自动控制装置及其方法
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法
CN101740034A (zh) * 2008-11-04 2010-06-16 刘盛举 一种实现声音变速不变调方法及变速变调系统
CN103228316A (zh) * 2010-11-25 2013-07-31 皇家飞利浦电子股份有限公司 用于在扫描期间分散患者的注意力的系统和方法
CN103607550A (zh) * 2013-11-27 2014-02-26 北京海尔集成电路设计有限公司 一种根据观看者位置调整电视虚拟声道的方法及电视

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122789A (zh) * 2017-03-14 2017-09-01 华南理工大学 基于深度摄像头的多模态信息融合的学习专注度分析方法
CN107122789B (zh) * 2017-03-14 2021-10-26 华南理工大学 基于深度摄像头的多模态信息融合的学习专注度分析方法
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN115460460A (zh) * 2021-05-19 2022-12-09 北京字跳网络技术有限公司 基于人脸检测的信息交互方法、装置、设备及存储介质
CN115460460B (zh) * 2021-05-19 2024-03-05 北京字跳网络技术有限公司 基于人脸检测的信息交互方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105741852B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
WO2022148083A1 (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
CN111556254B (zh) 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN107193841A (zh) 媒体文件加速播放、传输及存储的方法和装置
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
US11431887B2 (en) Information processing device and method for detection of a sound image object
KR20210002722A (ko) 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
US8976109B2 (en) Content output system, output control device and output control method
US7257538B2 (en) Generating animation from visual and audio input
CN105741852A (zh) 注意力自适应音频时域调整方法
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN114242069A (zh) 人机客服的切换方法、装置、设备及存储介质
CN114567819B (zh) 视频生成方法、装置、电子设备及存储介质
CN112382277A (zh) 智能设备唤醒方法、智能设备和计算机可读存储介质
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
Ivanko et al. Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions
WO2023202522A1 (zh) 播放速度控制方法和电子设备
US20230030502A1 (en) Information play control method and apparatus, electronic device, computer-readable storage medium and computer program product
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
WO2019119290A1 (zh) 提示信息确定方法、装置、电子设备和计算机程序产品
CN113362432B (zh) 一种面部动画生成方法及装置
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
CN106973282B (zh) 一种全景视频沉浸感增强方法和系统
US20230267942A1 (en) Audio-visual hearing aid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200063 No. 1347 Guangfu West Road, Shanghai, Putuo District

Applicant after: ACADEMY OF FORENSIC SCIENCE

Address before: 200063 No. 1347 Guangfu West Road, Shanghai, Putuo District

Applicant before: INSTITUTE OF FORENSIC SCIENCE, MINISTRY OF JUSTICE PRC

GR01 Patent grant
GR01 Patent grant