CN106328156B - 一种音视频信息融合的麦克风阵列语音增强系统及方法 - Google Patents

一种音视频信息融合的麦克风阵列语音增强系统及方法 Download PDF

Info

Publication number
CN106328156B
CN106328156B CN201610698586.2A CN201610698586A CN106328156B CN 106328156 B CN106328156 B CN 106328156B CN 201610698586 A CN201610698586 A CN 201610698586A CN 106328156 B CN106328156 B CN 106328156B
Authority
CN
China
Prior art keywords
video
audio
module
microphone array
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610698586.2A
Other languages
English (en)
Other versions
CN106328156A (zh
Inventor
张军
陈鑫源
宁更新
冯义志
季飞
余华
陈芳炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610698586.2A priority Critical patent/CN106328156B/zh
Publication of CN106328156A publication Critical patent/CN106328156A/zh
Application granted granted Critical
Publication of CN106328156B publication Critical patent/CN106328156B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种音视频信息融合的麦克风阵列语音增强系统及方法。所述系统包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块,视频采集模块用于采集应用场景中说话人的视频信号;麦克风阵列接收模块用于接收说话人的音频信号;音视频来波方向联合估计模块利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块利用语音和视频信号联合对语音进行二次增强处理。本发明能显著提高麦克风阵列语音增强系统的性能,能广泛应用于视频会议、车载电话、移动视频通话终端等场合。

Description

一种音视频信息融合的麦克风阵列语音增强系统及方法
技术领域
本发明涉及语音信号处理领域,特别是一种音视频信息融合的麦克风阵列语音增强系统。
背景技术
通话设备在实际使用环境中容易受到背景噪音和混响等干扰,使语音信号的质量和可懂度受到影响,因此在许多通话应用中都需要进行有效的语音增强处理,以抑制噪声,提高语音清晰度、可懂度和舒适度。
目前常用的语音增强方法主要包括两类,一类是基于单麦克风的语音增强方法,包括谱减法、维纳滤波、MMSE、卡尔曼滤波、小波变换等,这类方法利用单麦克风接收语音信号,通过时域、频域、小波变换域等滤波和处理来抑制噪声,提高语音的质量;另一类是基于麦克风阵列的语音增强方法,利用多个麦克风接收到的语音信号里包含的空间相位信息对输入语音进行空间滤波,形成具有指向性的空间波束,对指定方向上的语音信号进行增强,能取得比单麦克风更好的增强效果。
现有的麦克风阵列语音增强技术可以大致分为固定波束形成法、自适应波束形成法、后置滤波法三类。固定波束形成法采用延迟相加进行时延补偿且滤波器的权值固定不变,具有运算量低,容易实现等优点,但不具备自适应抑制强干扰的能力。自适应波束形成法中,滤波器系数随着输入信号统计特性的变化而变化,使波束方向零陷对准噪声方向,而注视方向上信号的频率响应固定不变,以此来抑制其它方向上的干扰噪声。后置滤波法根据各信道接收信号间的自相关和互相关特性调整维纳滤波器的系数,含噪的语音信号经过维纳滤波后得到最小均方误差准则下的目标语音估计信号,可以在不相关噪声的环境下以较少的麦克风数目获得较好的消噪性能。但现有的麦克风阵列语音增强技术均基于空气传导的语音传感器,在实际应用中存在着以下的不足:(1)当环境噪声较强时,输出的语音质量不高;(2)当使用环境中存在多个声源时,麦克风阵列的来波方向估计容易出现错误判断;(3)当使用环境中存在多个声源时,传统的来波方向估计通常选择声音最强的声源信号进行增强,不方便使用者指定某个声源进行监听。
发明内容
针对现有麦克风阵列语音增强技术的不足,本发明提供一种音视频信息融合的麦克风阵列语音增强系统及方法,该系统利用音频和视频信息受噪声影响方式的不同,将视频信息用于提高麦克风阵列来波方向估计准确度和麦克风阵列增强语音的质量,能显著提高现有麦克风阵列语音增强系统的性能,可以广泛应用于视频会议、车载电话、移动视频通话终端等场合。
本发明的目的至少通过如下技术方案之一实现。
一种音视频信息融合的麦克风阵列语音增强系统,其包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块,其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接,用于采集应用场景中说话人的视频信号;麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接,用于接收说话人的音频信号;音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接,利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接,利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接,利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理。
进一步地,所述音视频来波方向联合估计模块包括视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块,其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接,根据视频信号估计说话人在视频画面中的位置;麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接,根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向;音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接,由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。
进一步地,所述音视频联合语音增强模块包括噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块和滤波模块,其中噪声估计模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接,用于估计麦克风阵列语音增强模块输出语音中的噪声频谱;音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、所述麦克风阵列语音增强模块连接,根据说话人产生的视频和音频信号对当前语音帧进行分类;音视频联合模型库与音视频联合分类模块连接,用于保存音视频联合分类的模型;最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接,根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数;滤波模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接,用于对麦克风阵列语音增强模块输出语音进行滤波增强。
利用所述的一种音视频信息融合的麦克风阵列语音增强系统的麦克风阵列语音增强方法,包括以下步骤:
步骤1:通过视频采集模块、麦克风阵列接收模块同步采集视频和音频信号;
步骤2:音视频来波方向联合估计模块根据步骤1采集得到的同步音视频信号估计说话人音频的来波方向;
步骤3:麦克风阵列语音增强模块根据说话人音频的来波方向,对麦克风阵列接收模块采集到的音频信号进行增强;
步骤4:将步骤3中麦克风阵列语音增强模块输出的音频信号与步骤1中视频采集模块采集的视频信号进行同步,并通过音视频联合语音增强模块对麦克风阵列语音增强模块输出的音频信号进行增强。
进一步地,步骤2中,音视频来波方向联合估计模块采用以下步骤估计说话人语音的来波方向:
步骤2.1:根据视频采集模块和麦克风阵列接收模块的相对位置,确定视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系;
步骤2.2:通过视频声源定位模块估计说话人唇部在视频画面中的位置,在音视频定位信息融合模块中将其映射为麦克风阵列的来波方向(θlclc),其中θlc为方位角,φlc为仰视角;
步骤2.3:通过麦克风阵列声源定位模块确定当前所有声源的来波方向(θii),其中0≤i≤I-1,I为所确定的声源个数;在音视频定位信息融合模块中,选择与(θlclc)差异最小的(θii)作为需监听的说话人音频的来波方向。
进一步地,步骤2.2采用以下步骤实现:
步骤2.2.1:利用人脸资源库建立人脸肤色模型;
步骤2.2.2:根据步骤2.2.1中的人脸肤色模型,分割出视频画面中的人脸区域,并对人脸中的唇部进行定位,得到视频画面中说话人唇部中心的像素坐标(xlc,ylc);
步骤2.2.3:根据步骤2.1得到的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系,将说话人唇部中心的像素坐标(xlc,ylc)映射为麦克风阵列的来波方向(θlclc)。
进一步地,步骤2中,当视频中检测不到说话人时,采用信号最强的音频来波方向作为声源的来波方向;步骤2中,若存在多个说话人,由使用者在视频画面上指定需监听的说话人;步骤2中,当使用者未指定说话人时,采用信号最强的音频来波方向作为声源的来波方向。
进一步地,步骤4中,音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强:
步骤4.1:同步采集说话人干净的视频信号和语音信号并分帧,提取每帧的音视频联合特征,训练音视频联合分类模型,并保存每一分类的语音频谱均值;
步骤4.2:噪声估计模块对麦克风阵列语音增强模块输出的音频信号进行端点检测,提取其中的纯噪声音频片段,计算噪声的线性频谱均值;
步骤4.3:音视频联合分类模块将视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧,提取每帧的音视频联合特征,并利用步骤4.1中得到的音视频联合分类模型,计算当前音视频帧属于各分类的得分;
步骤4.4:最佳滤波器系数生成模块采用式(1)或式(2)构造当前语音帧的最佳维纳滤波器:
Figure BDA0001085578600000041
Figure BDA0001085578600000051
其中p(m|z)为步骤4.3中得到的音视频联合特征z对音视频联合分类模型中第m分类的得分,K为音视频联合分类模型第m分类的均值矢量维数,M是音视频联合分类模型的混合分量数,
Figure BDA0001085578600000052
为音视频联合分类模型第m分类对应的干净语音频谱均值矢量的第i个分量,
Figure BDA0001085578600000054
为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量
Figure BDA0001085578600000055
的第i个分量;
步骤4.5:滤波模块采用步骤4.4得到的最佳维纳滤波器对麦克风阵列语音增强模块输出的音频进行滤波,得到滤波增强后的语音信号。
进一步地,步骤4.1中音视频联合分类模型采用高斯混合模型或者隐马尔科夫模型。
进一步地,步骤4.3中,音视频联合特征属于各分类的得分采用以下方法计算:
对于每帧音视频联合特征,估计其每个特征分量的可靠性,并采用下式计算相对于联合统计模型第m分类的边缘概率pm(zr):
Figure BDA0001085578600000056
上式中λm是音视频联合统计模型第m分类的模型参数,p(z|λm)是音视频联合统计模型第m分类的概率密度函数;
Figure BDA0001085578600000057
其中xr、yr分别为视频特征x和音频特征y中可靠性大于预设阈值的特征分量构成的矢量,xu、yu分别为视频特征x和音频特征y中可靠性小于预设阈值的特征分量构成的矢量;
音视频联合特征每个特征分量的可靠性采用以下方法计算:估计每个特征分量的信噪比,当信噪比小于预设阈值时,该特征分量的可靠性为0,否则该特征分量的可靠性为1;步骤4.4中,p(m|z)=pm(zr)。
与现有技术相比,本发明的有益之处有:
(1)本发明采用了两级增强的结构,对麦克风阵列增强后的说话人语音进行了二次增强,并在两级增强系统中充分地利用视频和音频信息,因此能有效地减少环境噪声的影响,显著提高系统的抗噪声性能。
(2)本发明同时使用音频和视频信息来确定说话人语音的来波方向,即使使用环境中存在多个声源时,也能保证来波方向估计的准确性,避免了传统麦克风阵列来波方向估计出现声源误判的不足。
(3)使用者可以方便地通过视频画面指定需监听的说话人,克服了传统麦克风阵列难以指定目标说话人的不足。
附图说明
图1为本发明实施例系统结构框图;
图2为本发明实施例中麦克风阵列与视频采集装置位置关系的示意图;
图3为本发明实施例中音视频信息融合的麦克风阵列语音增强方法的流程图;
图4为本发明实施例中来波方向联合估计的流程图。
图5为本发明实施例中对麦克风阵列语音增强模块输出的音频信号进行增强的流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施步骤作进一步的说明,但本发明的实施方式不限于此。
本发明实施例的系统结构如图1所示,由视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块、音视频联合语音增强模块共同构成,其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接,用于采集应用场景中说话人的视频信号;麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接,用于接收说话人的音频信号;音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接,利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接,利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接,利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理。上述实施例中,视频采集模块采用摄像头来实现,麦克风阵列接收模块由6个麦克风m1,m2,m3,m4,m5,m6及相应的放大电路和A/D转换电路构成,麦克风与摄像头的安装位置如图2所示,其中摄像头C位于原点,其光轴与x轴重合,麦克风m1,m4位于x轴,m2,m5位于y轴,m3,m6位于z轴,均以原点为对称中心。音视频来波方向联合估计模块、麦克风阵列语音增强模块、音视频联合语音增强模块由CPU或嵌入式芯片及相应的外围电路构成,音视频联合语音增强模块还包含D/A转换及放大驱动电路。
上述音视频来波方向联合估计模块,由视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块共同构成,其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接,根据视频信号估计说话人在视频画面中的位置;麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接,根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向;音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接,由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。上述实施例中,视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块在CPU或嵌入式芯片中用软件来实现。
上述音视频联合语音增强模块,由噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块、滤波模块共同构成,其中噪声估计模块与最佳滤波器系数生成模块、上述麦克风阵列语音增强模块连接,用于估计麦克风阵列语音增强模块输出语音中的噪声频谱;音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、上述麦克风阵列语音增强模块连接,根据说话人产生的视频和音频信号对当前语音帧进行分类;音视频联合模型库与音视频联合分类模块连接,用于保存音视频联合分类的模型;最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接,根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数;滤波模块与最佳滤波器系数生成模块、上述麦克风阵列语音增强模块连接,用于对麦克风阵列语音增强模块输出语音进行滤波增强。上述实施例中,噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块、滤波模块在CPU或嵌入式芯片中用软件来实现。
本发明提供的音视频信息融合的麦克风阵列语音增强系统,采用以下方法对输入的语音进行增强,其流程如图3所示:
步骤1:通过视频采集模块、麦克风阵列接收模块同步采集视频和音频信号。上述实施例中,麦克风阵列接收模块通过每一个麦克风采集到说话人的多通道语音信号,同时视频采集模块利用摄像头对前方连续拍摄,作为视频输入信号。
步骤2:音视频来波方向联合估计模块根据步骤1采集得到的同步音视频信号估计说话人语音的来波方向,具体又可以分为以下几步,流程如图4所示:
步骤2.1:根据视频采集模块和麦克风阵列接收模块的相对位置,确定视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系。
上述实施例中,如图2所示,以摄像头C为空间坐标系原点O建立空间坐标系Oxyz,摄像头C的焦距为f,摄像头成像的像素平面大小为Px×Py,成像中心的像素坐标为(xc,yc),水平方向和垂直方向单位距离上的像素点数分别是Wx和Wy。若声源s的方位角为θ,仰视角为φ,视频画面中的说话人唇部中心位置与成像中心的水平距离为dx,垂直距离为dy,即说话人唇部中心在成像平面的像素坐标为(xc+dx,yc+dy),则视频画面中说话人唇部中心位置与麦克风阵列的来波方向(θlclc)的映射关系为:
Figure BDA0001085578600000081
Figure BDA0001085578600000082
在其他的一些实施例中,根据视频采集模块和麦克风阵列接收模块摆放位置的不同,上述视频画面中说话人唇部中心位置与麦克风阵列的来波方向具有不同的映射关系。
步骤2.2:通过视频声源定位模块估计说话人唇部在视频画面中的位置,在音视频定位信息融合模块中将其映射为麦克风阵列的来波方向(θlclc),其中θlc为方位角,φlc为仰视角。
上述实例中,首先通过建立高斯人脸肤色模型来对视频画面中说话人脸部区域进行检测定位,然后根据定位到的说话人人脸位置,采用自适应色度滤波算法对说话人唇部中心位置进行定位,具体采用以下步骤实现:
步骤2.2.1:利用人脸资源库建立人脸肤色模型。
上述实施例中,在人脸图像库中选取J幅人脸彩色图像,预处理后保留人脸区域,然后将其每个像素点从RGB颜色空间分别用式(6)和式(7)投影到YCbCr颜色空间和chromatic颜色空间
采用高斯模型对矢量t=[Cb,Cr,r,g]T进行建模,其概率密度函数为:
p(t)=exp{-0.5(t-μ)T-1(t-μ)} (8)
上式中均值μ和方差矩阵∑为:
μ=[μCbCrrg]T (9)
其中Kj为第j幅人脸图像中像素点的数目,Cbjk、Crjk、rjk、gjk分别为第j幅人脸图像中第k个像素点Cb、Cr、r、g的值,∑(*)是颜色空间元素(*)的方差(矩阵)。
步骤2.2.2:根据步骤2.2.1中的人脸肤色模型,分割出视频画面中的人脸区域,并对人脸中的唇部进行定位,得到视频画面中说话人唇部中心的像素坐标(xlc,ylc)。
上述实施例中,将待检测的视频画面中的第k个像素点在联合颜色空间上表示为tk=[Cbk,Crk,rk,gk]T,根据步骤2.2.1中的高斯人脸肤色模型可以计算得到该像素点属于人脸肤色的概率为:
p(tk)=exp{-0.5(tk-μ)T-1(tk-μ)} (11)
若p(tk)>δ,其中δ为预设的阈值,则判断该像素点位于人脸区域,否则该像素点为非人脸区域,由此将待检测视频画面中的人脸区域分割出来。得到人脸的位置信息后,采用自适应色度滤波算法对说话人唇部中心位置进行定位,得到视频画面中说话人唇部中心的像素坐标(xlc,ylc)。
步骤2.2.3:根据步骤2.1得到的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系,将说话人唇部中心的像素坐标(xlc,ylc)映射为麦克风阵列的来波方向(θlclc)。上述实施例中,根据式(4)和式(5)将(xlc,ylc)映射为(θlclc)。
步骤2.3:通过麦克风阵列声源定位模块确定当前所有声源的来波方向(θii),其中0≤i≤I-1,I为所确定的声源个数。在音视频定位信息融合模块中,选择与(θlclc)差异最小的(θii)作为需监听的说话人音频的来波方向。
上述实例中,空间存在I个声源,空间噪声为零均值且与信号相互独立的高斯白噪声,麦克风阵列声源定位模块采用三维MUSIC近场声源识别算法来确定当前所有声源的来波方向。如图2所示,将坐标系原点O(0,0,0)设为麦克风阵列的参考点,声源si(1≤i≤I)的空间坐标为(lii,π-φi),声源si与第j个麦克风的距离为lij(j=1~6),则麦克风接收的信号为:
X=AS+N (12)
其中S为声源信号矩阵,N为噪声信号矩阵,A为阵列方向矩阵,A每个元素可以表示为
Figure BDA0001085578600000111
是声音从si到达阵列参考点O(0,0,0)与到达第j个麦克风之间的时间差,c=340m/s是声音的传播速度。
计算麦克风接收信号X的协方差,然后对所得协方差矩阵进行分解可得到信号子空间Us和噪声子空间UN
R=UssUs H+UNNUN H (13)
计算
Figure BDA0001085578600000112
其中
Figure BDA0001085578600000113
为信号的方向向量,L为对空间谱加窗的长度,wj是第j个频率点的权重,实施例中声源信号的频率特性未知,wj设置为1。PMUSIC取得极大值时所对应的(liii)即为当前声源si的位置,(θii)为声源si的来波方向。
得到所有声源的来波方向后,采用下式计算所有(θii)与(θlclc)的距离,
Figure BDA0001085578600000114
令di最小的(θii)即为当前指定说话人相对于麦克风阵列的来波方向。
上述步骤2中,当视频中检测不到说话人时,采用信号最强的音频来波方向作为声源的来波方向。
上述步骤2中,若存在多个说话人,由使用者在视频画面上指定需监听的说话人,摄像机对说话人进行跟踪,获取指定检测的说话人脸部及唇部定位信息。
上述步骤2中,当使用者未指定说话人时,采用信号最强的音频来波方向作为声源的来波方向。
步骤3:麦克风阵列语音增强模块根据说话人音频的来波方向,对麦克风阵列接收模块采集到的音频信号进行增强。
上述实施例中,麦克风阵列m1、m2、m3、m4、m5、m6采集到的待检测语音信号为S={x1,x2,x3,x4,x5,x6},麦克风阵列语音增强模块采用广义旁瓣抵消器(GSC)算法对麦克风接收到的音频信号进行阵列增强。广义旁瓣抵消器由延时-累加波束形成器、阻塞矩阵和噪声抵消器组成。输入的语音信号分为上下两条支路进行处理,其中上支路中利用延时-累加波束形成器对阵列的输入语音在来波方向进行增强,并抑制其他方向的干扰噪声,其输出为:
yc=ATS
(16)
其中A=C(CHC)-1F为权系数向量,C为约束矩阵,F为对应的约束响应向量。下支路包含阻塞矩阵和噪声抵消器,首先通过构造一个秩r(B)≤3的阻塞矩阵B来滤除期望信号,其输出为干扰和噪声的组合N:
N=BS
(17)
然后噪声抵消器根据N估算出延时-累加波束形成器输出信号中的噪声信号yn
yn=WTN
(18)
根据式(16)和式(18)可以计算得到干净语音信号的估计值ye
ye=yc-yn (19)
式(18)中WT=[w1,w2,...,w6]T为权重矢量,采用下式进行调整,式中i为迭代步数:
Figure BDA0001085578600000121
步骤4:将步骤3中麦克风阵列语音增强模块输出的音频信号与步骤1中视频采集模块采集的视频信号进行同步,并通过音视频联合语音增强模块对麦克风阵列语音增强模块输出的音频信号进行增强。
上述步骤4中,音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强,其流程如图5所示:
步骤4.1:同步采集说话人干净的视频信号和语音信号并分帧,提取每帧的音视频联合特征,训练音视频联合分类模型,并保存每一分类的语音频谱均值。
上述实施例中,同步采集1000段不同说话人干净的音频信号和视频信号,然后分别提取每一帧音频信号的mfcc参数,将音频信号帧的mfcc特征矢量序列记为x,用活动形状模型提取视频信号帧中说话人的唇部几何信息,再加上图像灰度外观特征构成唇部特征序列,记为y,将第h帧音频信号特征矢量和第h帧唇部特征矢量进行拼接,得到第h帧音视频联合特征矢量为
Figure BDA0001085578600000131
由此得到联合模型库的训练数据集。
获得训练数据集后,采用混合高斯模型(GMM)来拟合音视频联合特征矢量的概率分布,令Z={z1,z2,...,zn}表示训练用的音视频联合特征矢量集合,则混合高斯模型联合概率密度函数为:
Figure BDA0001085578600000132
其中M是GMM中的混合分量数,πm是模型混合分量先验权重,1≤m≤M,
Figure BDA0001085578600000133
且πm≥0,μm和∑m分别表示混合高斯模型第m分量的均值矢量和方差矩阵,混合高斯模型每一混合分量概率密度函数为单高斯函数,代表一个分类。令λ={(πmm,∑m)|1≤m≤M}表示混合高斯模型的参数集,采用最大期望算法求出λ的最大似然估计。
建立音视频联合分类模型后,计算该模型中属于每一分类的所有干净音频帧的频谱均值
Figure BDA0001085578600000135
保存在音视频联合模型库中。
在另外一些实施例中,采用隐马尔科夫模型作为联合统计模型,并以隐马尔科夫模型中的每个混合高斯分量表示一个分类。
步骤4.2:噪声估计模块对麦克风阵列语音增强模块输出的音频信号进行端点检测,提取其中的纯噪声音频片段,计算噪声的线性频谱均值;
上述实施例中,经麦克风阵列获取增强语音后,噪声估计模块对其进行分帧,然后根据每帧的短时自相关函数Rw(τ)和短时能量Ew,计算每帧阵列增强语音的短时平均过门限率Cw(n):
Figure BDA0001085578600000141
其中sgn[·]为取符号运算,是调节因子,w(n)是矩形窗函数,Nw为其窗长,τ是时延,T是门限初值。当Cw(n)大于预设的门限值时,判断该帧为语音,否则为噪声信号。根据每帧的判决结果得到阵列增强语音的端点位置。
提取麦克风阵列语音增强模块输出的音频信号中的纯噪声音频片段,计算并保存其线性频谱均值
Figure BDA0001085578600000143
作为经麦克风阵列增强后的说话人语音残留噪声的幅度均值参数。
步骤4.3:音视频联合分类模块将视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧,提取每帧的音视频联合特征,并利用步骤4.1中得到的音视频联合分类模型,计算当前音视频帧属于各分类的得分。
上述实施例中,采用与步骤4.1相同的方法对视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧,并提取每帧的音视频联合特征。
对于每帧音视频联合特征,采用以下方法计算其属于各分类的得分:估计当前音视频联合特征中每个特征分量的可靠性,并采用下式计算相对于联合统计模型第m分类的边缘概率pm(zr):
Figure BDA0001085578600000144
上式中λm是音视频联合统计模型第m分类的模型参数,p(z|λm)是音视频联合统计模型第m分类的概率密度函数;
Figure BDA0001085578600000145
其中xr、yr分别为视频特征x和音频特征y中可靠性大于预设阈值的特征分量构成的矢量,xu、yu分别为视频特征x和音频特征y中可靠性小于预设阈值的特征分量构成的矢量。上述音视频联合特征中每个特征分量的可靠性采用以下方法计算:估计每个特征分量的信噪比,当信噪比小于预设阈值时,该特征分量的可靠性为0,否则该特征分量的可靠性为1。
步骤4.4:最佳滤波器系数生成模块根据步骤4.3的分类结果,构造当前语音帧的最佳维纳滤波器。
上述实施例中,根据步骤4.2估计的噪声线性频谱均值
Figure BDA0001085578600000151
和步骤4.1音视频联合模型库中存储的每个分类模型对应的干净语音频谱均值
Figure BDA0001085578600000152
以及音视频联合特征z对音视频联合分类模型中第m个分类的得分p(m|z),计算当前语音帧最佳滤波器的频域增益函数:
Figure BDA0001085578600000153
其中K为音视频联合分类模型第m分类的均值矢量维数,M是音视频联合分类模型的混合分量数,
Figure BDA0001085578600000154
为音视频联合分类模型第m分类对应的干净语音频谱均值矢量
Figure BDA0001085578600000155
的第i个分量,
Figure BDA0001085578600000156
为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量的第i个分量。上述实施例中,p(m|z)=pm(zr),即音视频联合特征z在高斯混合模型中的得分等于音视频联合统计模型第m分量的边缘概率。
在另一实施例中,最佳滤波器的频域增益函数还可以采用下式计算:
Figure BDA0001085578600000158
步骤4.5:滤波模块采用步骤4.4得到的最佳维纳滤波器对麦克风阵列语音增强模块输出的语音进行滤波,得到滤波增强后的语音信号。

Claims (9)

1.一种音视频信息融合的麦克风阵列语音增强系统,其特征在于包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块,其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接,用于采集应用场景中说话人的视频信号;麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接,用于接收说话人的音频信号;音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接,利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接,利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接,利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理;所述音视频来波方向联合估计模块包括视频声源定位模块、麦克风阵列声源定位模块和音视频定位信息融合模块,其中视频声源定位模块与音视频定位信息融合模块、上述视频采集模块连接,根据视频信号估计说话人在视频画面中的位置;麦克风阵列声源定位模块与音视频定位信息融合模块、上述麦克风阵列接收模块连接,根据麦克风阵列接收模块接收到的阵列语音信号来估计说话人语音的来波方向;音视频定位信息融合模块与视频声源定位模块、麦克风阵列声源定位模块和上述麦克风阵列语音增强模块连接,由视频定位信息与麦克风阵列声源定位信息估计当前说话人语音的来波方向。
2.根据权利要求1所述的一种音视频信息融合的麦克风阵列语音增强系统,其特征在于所述音视频联合语音增强模块包括噪声估计模块、音视频联合分类模块、音视频联合模型库、最佳滤波器系数生成模块和滤波模块,其中噪声估计模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接,用于估计麦克风阵列语音增强模块输出语音中的噪声频谱;音视频联合分类模块与音视频联合模型库、最佳滤波器系数生成模块、上述视频采集模块、所述麦克风阵列语音增强模块连接,根据说话人产生的视频和音频信号对当前语音帧进行分类;音视频联合模型库与音视频联合分类模块连接,用于保存音视频联合分类的模型;最佳滤波器系数生成模块与噪声估计模块、音视频联合分类模块、滤波模块连接,根据音视频联合分类模块的分类结果和噪声计算当前语音帧的最佳滤波器系数;滤波模块与最佳滤波器系数生成模块、所述麦克风阵列语音增强模块连接,用于对麦克风阵列语音增强模块输出语音进行滤波增强。
3.利用权利要求1~2任一项所述的一种音视频信息融合的麦克风阵列语音增强系统的麦克风阵列语音增强方法,其特征在于包括以下步骤:
步骤1:通过视频采集模块、麦克风阵列接收模块同步采集视频和音频信号;
步骤2:音视频来波方向联合估计模块根据步骤1采集得到的同步音视频信号估计说话人音频的来波方向;
步骤3:麦克风阵列语音增强模块根据说话人音频的来波方向,对麦克风阵列接收模块采集到的音频信号进行增强;
步骤4:将步骤3中麦克风阵列语音增强模块输出的音频信号与步骤1中视频采集模块采集的视频信号进行同步,并通过音视频联合语音增强模块对麦克风阵列语音增强模块输出的音频信号进行增强。
4.根据权利要求3所述的麦克风阵列语音增强方法,其特征在于步骤2中,音视频来波方向联合估计模块采用以下步骤估计说话人语音的来波方向:
步骤2.1:根据视频采集模块和麦克风阵列接收模块的相对位置,确定视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系;
步骤2.2:通过视频声源定位模块估计说话人唇部在视频画面中的位置,在音视频定位信息融合模块中将其映射为麦克风阵列的来波方向(θlclc),其中θlc为方位角,φlc为仰视角;
步骤2.3:通过麦克风阵列声源定位模块确定当前所有声源的来波方向(θii),其中0≤i≤I-1,I为所确定的声源个数;在音视频定位信息融合模块中,选择与(θlclc)差异最小的(θii)作为需监听的说话人音频的来波方向。
5.根据权利要求4所述的麦克风阵列语音增强方法,其特征在于步骤2.2采用以下步骤实现:
步骤2.2.1:利用人脸资源库建立人脸肤色模型;
步骤2.2.2:根据步骤2.2.1中的人脸肤色模型,分割出视频画面中的人脸区域,并对人脸中的唇部进行定位,得到视频画面中说话人唇部中心的像素坐标(xlc,ylc);
步骤2.2.3:根据步骤2.1得到的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系,将说话人唇部中心的像素坐标(xlc,ylc)映射为麦克风阵列的来波方向(θlclc)。
6.根据权利要求4所述的麦克风阵列语音增强方法,其特征在于步骤2中,当视频中检测不到说话人时,采用信号最强的音频来波方向作为声源的来波方向;步骤2中,若存在多个说话人,由使用者在视频画面上指定需监听的说话人;步骤2中,当使用者未指定说话人时,采用信号最强的音频来波方向作为声源的来波方向。
7.根据权利要求4所述的麦克风阵列语音增强方法,其特征在于步骤4中,音视频联合语音增强模块采用以下方法对麦克风阵列语音增强模块输出的音频信号进行增强:
步骤4.1:同步采集说话人干净的视频信号和语音信号并分帧,提取每帧的音视频联合特征,训练音视频联合分类模型,并保存每一分类的语音频谱均值;
步骤4.2:噪声估计模块对麦克风阵列语音增强模块输出的音频信号进行端点检测,提取其中的纯噪声音频片段,计算噪声的线性频谱均值;
步骤4.3:音视频联合分类模块将视频采集模块采集的视频信号和麦克风阵列语音增强模块输出的音频信号进行同步和分帧,提取每帧的音视频联合特征,并利用步骤4.1中得到的音视频联合分类模型,计算当前音视频帧属于各分类的得分;
步骤4.4:最佳滤波器系数生成模块采用式(1)或式(2)构造当前语音帧的最佳维纳滤波器:
Figure FDA0002279126060000031
其中p(m|z)为步骤4.3中得到的音视频联合特征z对音视频联合分类模型中第m分类的得分,K为音视频联合分类模型第m分类的均值矢量维数,M是音视频联合分类模型的混合分量数,
Figure FDA0002279126060000041
为音视频联合分类模型第m分类对应的干净语音频谱均值矢量
Figure FDA0002279126060000042
的第i个分量,
Figure FDA0002279126060000043
为说话人语音经麦克风阵列增强后残留噪声的线性频谱均值矢量μmag的第i个分量;
步骤4.5:滤波模块采用步骤4.4得到的最佳维纳滤波器对麦克风阵列语音增强模块输出的音频进行滤波,得到滤波增强后的语音信号。
8.根据权利要求7所述的麦克风阵列语音增强方法,其特征在于步骤4.1中音视频联合分类模型采用高斯混合模型或者隐马尔科夫模型。
9.根据权利要求7所述的麦克风阵列语音增强方法,其特征在于步骤4.3中,音视频联合特征属于各分类的得分采用以下方法计算:
对于每帧音视频联合特征,估计其每个特征分量的可靠性,并采用下式计算相对于联合统计模型第m分类的边缘概率pm(zr):
上式中λm是音视频联合统计模型第m分类的模型参数,p(z|λm)是音视频联合统计模型第m分类的概率密度函数;
Figure FDA0002279126060000045
其中xr、yr分别为视频特征x和音频特征y中可靠性大于预设阈值的特征分量构成的矢量,xu、yu分别为视频特征x和音频特征y中可靠性小于预设阈值的特征分量构成的矢量;
音视频联合特征每个特征分量的可靠性采用以下方法计算:估计每个特征分量的信噪比,当信噪比小于预设阈值时,该特征分量的可靠性为0,否则该特征分量的可靠性为1;步骤4.4中,p(m|z)=pm(zr)。
CN201610698586.2A 2016-08-22 2016-08-22 一种音视频信息融合的麦克风阵列语音增强系统及方法 Expired - Fee Related CN106328156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610698586.2A CN106328156B (zh) 2016-08-22 2016-08-22 一种音视频信息融合的麦克风阵列语音增强系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610698586.2A CN106328156B (zh) 2016-08-22 2016-08-22 一种音视频信息融合的麦克风阵列语音增强系统及方法

Publications (2)

Publication Number Publication Date
CN106328156A CN106328156A (zh) 2017-01-11
CN106328156B true CN106328156B (zh) 2020-02-18

Family

ID=57741296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610698586.2A Expired - Fee Related CN106328156B (zh) 2016-08-22 2016-08-22 一种音视频信息融合的麦克风阵列语音增强系统及方法

Country Status (1)

Country Link
CN (1) CN106328156B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107219512B (zh) * 2017-03-29 2020-05-22 北京大学 一种基于声传递函数的声源定位方法
CN107202976B (zh) * 2017-05-15 2020-08-14 大连理工大学 低复杂度的分布式麦克风阵列声源定位系统
CN107547981A (zh) * 2017-05-17 2018-01-05 宁波桑德纳电子科技有限公司 一种集音装置、监控装置及集音方法
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN107809596A (zh) * 2017-11-15 2018-03-16 重庆科技学院 基于麦克风阵列的视频会议跟踪系统及方法
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备
CN109117698B (zh) * 2017-12-27 2022-04-19 南京世海声学科技有限公司 一种基于最小均方误差准则的噪声背景估计方法
CN110111802B (zh) * 2018-02-01 2021-04-27 南京大学 基于卡尔曼滤波的自适应去混响方法
CN108512586B (zh) * 2018-04-17 2020-08-04 Oppo广东移动通信有限公司 信号处理方法和装置、电子设备、计算机可读存储介质
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
CN109119092B (zh) * 2018-08-31 2021-08-20 广东美的制冷设备有限公司 基于麦克风阵列的波束指向切换方法和装置
CN109147813A (zh) * 2018-09-21 2019-01-04 神思电子技术股份有限公司 一种基于影音定位技术的服务机器人降噪方法
CN109151393A (zh) * 2018-10-09 2019-01-04 深圳市亿联智能有限公司 一种声音定位识别侦测方法
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
CN110009916A (zh) * 2019-05-05 2019-07-12 江苏聆世科技有限公司 汽车鸣笛检测设备及方法
CN112073663B (zh) * 2019-06-10 2023-08-11 海信视像科技股份有限公司 音频增益调节方法、视频聊天方法及显示设备
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing
CN110390945B (zh) * 2019-07-25 2021-09-21 华南理工大学 一种双传感器语音增强方法及实现装置
CN110444220B (zh) * 2019-08-01 2023-02-10 浙江大学 一种多模态远程语音感知方法及装置
CN110545396A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种基于定位去噪的语音识别方法及装置
CN110491406B (zh) * 2019-09-25 2020-07-31 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN111402912A (zh) * 2020-02-18 2020-07-10 云知声智能科技股份有限公司 一种语音信号降噪方法及装置
CN111312217A (zh) * 2020-02-28 2020-06-19 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质
CN111556282A (zh) * 2020-03-16 2020-08-18 浙江大华技术股份有限公司 远距离音视频采集的系统、方法、计算机设备和存储介质
CN113516990A (zh) * 2020-04-10 2021-10-19 华为技术有限公司 一种语音增强方法、训练神经网络的方法以及相关设备
CN111681649B (zh) * 2020-05-25 2023-05-02 重庆邮电大学 语音识别方法、交互系统及包括该系统的成绩管理系统
CN111918169B (zh) * 2020-06-28 2022-11-18 佳禾智能科技股份有限公司 基于多波束成形麦克风阵列的会议音箱及其声波拾取方法
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质
CN111954121B (zh) * 2020-08-21 2022-06-17 云知声智能科技股份有限公司 一种麦克风阵列定向拾音方法及系统
CN112951257A (zh) * 2020-09-24 2021-06-11 上海译会信息科技有限公司 一种音频图像采集设备及说话人定位及语音分离方法
CN114333831A (zh) * 2020-09-30 2022-04-12 华为技术有限公司 信号处理的方法和电子设备
CN112305501A (zh) * 2020-10-21 2021-02-02 珠海格力电器股份有限公司 噪声源的确定方法和装置、存储介质、电子装置
CN112634931B (zh) * 2020-12-22 2024-05-14 北京声智科技有限公司 语音增强方法及装置
CN112995178B (zh) * 2021-02-25 2023-04-25 上海吉盛网络技术有限公司 一种具有远程回拨功能的电梯多方通话装置
CN113093106A (zh) * 2021-04-09 2021-07-09 北京华捷艾米科技有限公司 一种声源定位方法及系统
CN112951258B (zh) * 2021-04-23 2024-05-17 中国科学技术大学 一种音视频语音增强处理方法及装置
CN113312985B (zh) * 2021-05-10 2023-05-26 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法
CN114325586B (zh) * 2021-12-31 2024-05-14 智己汽车科技有限公司 一种车载多媒体声音定位系统
CN116189671B (zh) * 2023-04-27 2023-07-07 凌语国际文化艺术传播股份有限公司 一种用于语言教学的数据挖掘方法及系统
CN116299182A (zh) * 2023-05-11 2023-06-23 深圳市烽火宏声科技有限公司 一种声源三维定位的方法及装置
CN117031397B (zh) * 2023-10-07 2023-12-12 成都流体动力创新中心 一种运动物体噪声源定位和评估的快速计算方法
CN117877504B (zh) * 2024-03-11 2024-05-24 中国海洋大学 一种联合语音增强方法及其模型搭建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201639751U (zh) * 2010-03-11 2010-11-17 成都丹玛尼科技有限公司 基于多麦克风阵列的定向定距语音采集系统
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN103959762A (zh) * 2011-11-30 2014-07-30 诺基亚公司 多媒体捕获中的质量提升
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统
CN106024003A (zh) * 2016-05-10 2016-10-12 北京地平线信息技术有限公司 结合图像的语音定位和增强系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN201639751U (zh) * 2010-03-11 2010-11-17 成都丹玛尼科技有限公司 基于多麦克风阵列的定向定距语音采集系统
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入系统
CN103959762A (zh) * 2011-11-30 2014-07-30 诺基亚公司 多媒体捕获中的质量提升
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN106024003A (zh) * 2016-05-10 2016-10-12 北京地平线信息技术有限公司 结合图像的语音定位和增强系统及方法

Also Published As

Publication number Publication date
CN106328156A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106328156B (zh) 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106653041B (zh) 音频信号处理设备、方法和电子设备
CN106782584B (zh) 音频信号处理设备、方法和电子设备
CN107534725B (zh) 一种语音信号处理方法及装置
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
US9595259B2 (en) Sound source-separating device and sound source-separating method
KR100754385B1 (ko) 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
Wang et al. Over-determined source separation and localization using distributed microphones
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
Wang et al. Microphone-array ego-noise reduction algorithms for auditory micro aerial vehicles
EP1643769A1 (en) Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation
CN112951257A (zh) 一种音频图像采集设备及说话人定位及语音分离方法
US10964326B2 (en) System and method for audio-visual speech recognition
Khan et al. Video-aided model-based source separation in real reverberant rooms
CN110444220B (zh) 一种多模态远程语音感知方法及装置
Wang et al. Tracking a moving sound source from a multi-rotor drone
CN111551921A (zh) 一种声像联动的声源定向系统及方法
Marti et al. Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments
Wang et al. Pseudo-determined blind source separation for ad-hoc microphone networks
Sanchez-Matilla et al. Multi-modal localization and enhancement of multiple sound sources from a micro aerial vehicle
Zhang et al. AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments
Abutalebi et al. Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions
Li et al. Multiple active speaker localization based on audio-visual fusion in two stages
Lin et al. Development of novel hearing aids by using image recognition technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200218