CN107333120A - 一种基于麦克风阵列和立体视觉的集成传感器 - Google Patents

一种基于麦克风阵列和立体视觉的集成传感器 Download PDF

Info

Publication number
CN107333120A
CN107333120A CN201710684083.4A CN201710684083A CN107333120A CN 107333120 A CN107333120 A CN 107333120A CN 201710684083 A CN201710684083 A CN 201710684083A CN 107333120 A CN107333120 A CN 107333120A
Authority
CN
China
Prior art keywords
audio
sound source
video
image
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710684083.4A
Other languages
English (en)
Other versions
CN107333120B (zh
Inventor
王建华
丁录国
赵洁
何珺
王新群
陈宇彬
周乃鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201710684083.4A priority Critical patent/CN107333120B/zh
Publication of CN107333120A publication Critical patent/CN107333120A/zh
Application granted granted Critical
Publication of CN107333120B publication Critical patent/CN107333120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于麦克风阵列和立体视觉的集成传感器,包括硬件系统和控制系统;硬件系统包括麦克风阵列、立体视觉装置,麦克风阵列负责接收环境中声音信息并生成多路模拟音频;立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区,音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理);视频处理区负责定位、追踪目标声源,即通过图像处理和图像识别对目标声源进行校准定位和精准追踪;视频音频合成区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。

Description

一种基于麦克风阵列和立体视觉的集成传感器
技术领域
本发明主要涉及一种基于麦克风阵列和立体视觉的集成传感器,特别是涉及一种基于麦克风阵列和立体视觉的声源定位追踪技术,属于集成传感器领域。
背景技术
在当今时代,要记录事件、场景等,音频和视频无疑是还原度最高的方式;随着互联网技术的飞速发展,人与人之间的交流越来越多的通过网络进行,比如说视频会议。然而,面对复杂的声场环境,声源位置的不可预估,传统的音频采集、视频录制方式面临重大考验。声场中不仅包含目标声源,还包括其它干扰声源;因此,采集的声音中不仅有目标声源的声音,还有环境噪声、声音的回声等,而传统音频录制方式对所有声音统一对待,不能有效提高信噪比(即削弱干扰声音);而传统的视频录制方式中,摄像装置不能自主调整录制方向,需要摄影师手动调节,这不仅是一个技术活,还是一个体力活。在世界范围内,各国科研单位、高校、社会爱好者等对机器人、智能车及人工智能相关领域的研究逐渐加深,普及;传感器的模块化、集成化,算法的简化(高效)在人工智能产品的实现过程中起重要作用;而视觉和听觉作为获取环境信息的基本方式,在机器人和智能车获取环境信息上有极其广泛的应用。
国内的申请公开号CN201320273687,名为“基于麦克风阵列的无线视频跟踪监控系统”的专利,通过获得的音频推出声源大致方位并将其发送给云台控制中心调节摄像装置指向,以实现追踪声源的目的。
国内申请公开号为201410726856,名称为“一种基于麦克风阵列的摄像装置引导装置及引导方法”的专利,基于麦克风阵列,连续时刻内计算不同方向上麦克风阵列接收到的多路音频间的协方差,协方差最大的方向便是声源方向,以此追踪声源位置;然后将得到的声源位置信息实时发送给云台控制中心,以此实现摄像装置追踪物体的功能。
上述专利所涉及的音频处理进行声源追踪,是通过连续时刻内不停地对空间进行扫描(或计算相关性),时间复杂度和空间复杂度大,对处理器的要求高,降低了声源追踪的实时性,对整个空间进行操作增加了干扰因素(环境干扰声源),降低了定位追踪的精确性;而且,直接使用通过音频处理得到的声源坐标,存在较大误差,不能胜任高精度的追踪工作。
发明内容
针对现有技术的不足,本发明的主要目的是提供一种基于麦克风阵列和立体视觉的集成传感器。其功能在于:1.音频处理(基于麦克风阵列)实现对声源的定位、追踪;2.麦克风阵列辅助立体视觉装置进行图像识别、目标追踪和声源校准定位;3.提高音频的信噪比并得到视频、音频的融合信息。
本发明的目的是通过以下技术方案实现的:
一种基于麦克风阵列列和立体视觉的集成传感器,包括硬件系统和控制系统;
硬件系统包括:
麦克风阵列,采集环境中的音频信息,生成多路模拟音频信号si(t),并输送至音频工作区;
立体视觉装置,由云台和摄像装置构成,摄像装置位于云台上中心位置,所述麦克风阵列以摄像装置为中心排布在云台上;摄像装置可以采集环境图像并传送到所述视频工作区中;云台可以接收视频工作区的控制指令进行横摆、俯仰、转动操作;同时立体视觉装置可以将自身当前状态的参数(云台横摆角、俯仰角、摄像装置焦距)发送给视频工作区;
控制系统包括:
音频工作区,对输入的多路模拟音频信号si(t)进行音频去噪和声源定位、声源追踪处理,得到声源大致坐标、声源最优方向和多路去噪数字音频信号;将声源大致坐标和声源最优方向输入到视频工作区,将声源大致坐标、声源最优方向和多路去噪数字音频信号输入到视频音频合成工作区;
视频工作区,根据输入的声源大致坐标和声源最优方向提取有效图像,经图像处理和图像识别,实现音频辅助图像校准定位和音频辅助图像精准追踪;亦可单独进行图像追踪;
视频音频合成工作区,从音频工作区获取多路音频并加权生成增强音频信号,从视频工作区获取视频信号,将按时间序列合成并输出视频音频信号的融合信号。
进一步地,所述音频工作区包括:
音频采集模块,将接收到的麦克风阵列采集的多路模拟音频信号si(t)进行模数转换得到数字音频信号si(k)后输入到音频缓冲区Ⅰ,其中,k表示时间序列;
音频缓冲区Ⅰ,暂存来自音频采集模块的数字音频信号si(k);其中,数据存储于循环队列中,存入---读取---再存入(覆盖原有信息)循环执行;
音频去噪模块,从音频缓冲区Ⅰ读取上一时刻内存入的数字音频信号si(k),然后依次通过滤波、加窗、谱减、倒谱操作对数字音频信号si(k)进行去噪,得到去噪音频音频信号xi(k)并分别输入到音频追踪定位模块和视频音频合成工作区;
音频追踪定位模块,对输入的去噪音频信号xi(k)使用广义互相关时延估计算法进行声源定位,得到声源大致坐标,将声源大致坐标发送给视频工作区;使用优化的空间谱估计算法进行声源追踪,得到连续时刻内的最优方向,将最优方向分别发送给视频工作区和音频视频合成工作区。
更进一步地,所述音频追踪定位模块使用优化的空间谱估计算法进行声源追踪,是通过空间谱估计算法对空间进行能量扫描,获取空间中能量最大的方向将其视为声源在t时长内的最优方向,具体过程如下:
1)声源经过定位然后进行声源追踪,为便于算法功能描述,麦克风阵列与立体视觉装置结构关系如下:麦克风阵列绕摄像装置均匀排布,因此以麦克风阵列为中心和以摄像装置为中心构建的坐标系相同,当立体视觉装置云台精准追踪声源(即云台平面指向声源)时有其中,为声源偏移坐标,追踪声源时,云台只需转动消去偏移坐标即可追踪声源;
2)令θ分别以Δθ的变化量进行能量扫描,为设定的的预估范围,θ1、θ2为设定的θ的预估范围且θ12;其中的预估范围即声源必定出现的最小范围,与θ1、θ2具体大小可根据物体移动速度、方向进行调节;
3)选取初始方向的方向通过空间谱估计算法进行能量计算,得到此时音频信号的能量P00;其中,
4)以四个方向进行能量计算,得到能量E01、E02、E03、E04
5)比较P00~04,五个值大小:
①若E00最大,则令Emax=E00,并保存Emax和它表示的方向,即令
②若E01~04中某一个最大,则将其赋给E10,并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5);若存在En0≥max{En1,En2,En3,En4},则令Emax=En0,并保存Emax和它表示的方向,即令其中,θn0∈[θ12];
③若En0<max{En1,En2,En3,En4}恒成立,则重复执上述步骤4)、步骤5)操作,直至中某一个方向不在内,即或θn0+Δθ)>θ2或θn0-Δθ)<θ1,记录此时能量En0,然后将其赋给Emax,记录此时的方向,并将其赋给其中为得到最大能量Emax的方向,n为比较的次数;
④Emax对应的方向即为t时刻内声源相于麦克风阵列的最优方向
进一步地,所述视频工作区包括:
云台控制中心,与立体视觉装置之间形成闭环控制,既能获取立体视觉装置状态,又可以改变立体视觉装置状态,控制云台进行校准操作;云台控制中心可接收来自音频工作区的声源大致坐标和声源最优方向,还可接收来自图像识别模块的目标声源校准地址,并向立体视觉装置发送读帧控制指令;
视频缓冲区Ⅰ,暂存摄像装置采集的图像信息;
图像处理模块,可以接收来自音频工作区的声源大致坐标或声源最优方向并从视频缓冲区Ⅰ读取一帧图像提取有效区域发送给图像识别模块,其中,读帧操作由云台控制中心和图像识别模块发送的读帧控制指令调控;
图像识别模块,对接收到的来自图像处理模块的有效图像进行逐个像素扫描并与目标声源图像进行匹配,获取目标声源的偏移坐标,然后,将偏移坐标发送给云台控制中心;向图像处理模块发送读帧控制指令(控制图像处理模块视频缓冲区Ⅰ读取一帧图像)。图像识别模块进行图像识别时对图像进行逐个像素扫描并与目标声源图像进行匹配,这样可以得到目标声源的偏移坐标(相对于图像中心),即目标声源的校准地址,然后将校准地址发送给云台控制中心,图像识别模块向图像处理模块发送读帧控制指令。在进行图像识别操作,只要偏移坐标在误差(可根据精度需求自行调节)允许范围内,即为精准追踪,本时刻内方向定位完成(扩展到连续时刻即为追踪)。在进行图像追踪时,图像识别模块可直接控制图像处理模块读取图像追踪声源。
更进一步地,所述图像识别模块和所述立体视觉装置两者之间构成闭环控制:
图像识别模块可以识别目标声源在图像中的像素位置,而图像的像素点又与空间方位是一一映射的关系,因此,通过图像识别可以得到目标声源相对于云台的方向,得到目标声源的偏移坐标;图像识别模块可以通过云台控制中心间接控制云台完成校准操作,然后云台控制中心向图像处理模块发送读帧控制指令;图像处理模块再读取一帧图像,经图像处理和图像识别得到状态反馈(经校准操作后目标声源相对于云台位置);通过上述过程,图像处理模块既可以控制立体视觉装置的状态,又可以获取立体视觉装置状态反馈,两者间形成闭环控制。
更进一步地,所述图像处理模块的读帧操作过程如下:
当视频工作区处于音频辅助图像校准定位或音频辅助图像精准追踪时,图像处理模块从视频缓冲区Ⅰ读取一帧图像的读帧操作需要双重触发:接收到音频工作区发送的声源大致坐标或最优方向后,云台控制中心向其发送读帧控制指令,图像处理模块从视频缓冲区Ⅰ读取一帧图像;而云台控制中心只会在云台完成校准操作后才会向图像处理模块发送读帧控制指令,从而确保所处理的图像准确包含目标声源的图像。
进一步地,所述视频音频合成工作区包括:
音频增强模块,接收来自音频工作区的去噪音频信号xi(k),并根据来自音频工作区的声源最优方向生成加权矩阵,对去噪音频信号xi(k)进行加权求和,然后将求得的增强音频信号输入到音频缓冲区Ⅱ中;
音频缓冲区Ⅱ,暂存增强音频信号;
视频音频合成模块,分别从视频工作区和音频缓冲区Ⅱ中读取视频信号和音频信号并按照时间序列合成,然后输出(到存储器、播放设备等)。
更进一步地,所述音频增强模块的音频增强过程如下:
根据声源最优方向生成加权矩阵,据远场模型和近场模型临界值加权矩阵应按远场模型生成;
x(k)=[x0(k) x1(k) x2(k) … xi(k) … xn(k)]'
y(k)=a*x(k)
上式经傅里叶变换及其逆变换便可求得麦克风阵列增强音频信号y(k);其中,τi为编号为i的麦克风相对于坐标原点的延时,为编号i麦克风在xoy平面上的极坐标,c为声音在空气中的传播速度;
然后将增强音频信号y(k)输入到音频缓冲区Ⅱ。
本发明具有以下优点:
一、在音频处理实现声源追踪过程中采取递推法,由上一时刻的位置递推出本时刻声源最优方向。已知上一时刻声源位置后,就可根据声源移动速度划定必定包含声源的最小空间范围,然后在该空间范围内计算各个方向的能量(即对空间进行能量扫描),能量最大的方向即为声源最优方向,连续时刻内重复执行该操作便可实现声源定位、追踪(连续时刻的定位)功能。这样就大大缩减了每次空间谱估计的范围,减少计算量,而且,还可以除去绝大部分环境干扰声源,除此之外,本发明还对空间谱估计算法做了简化,提高运算效率。
二、在麦克风阵列辅助立体视觉装置进行图像识别、目标追踪和声源校准定位中,核心是在连续时刻内通过图像处理和图像识别对目标声源的校准定位,以此实现精准追踪;而麦克风阵列的存在可以帮助处理器提取有效区域,大大缩减图像识别的运算量。
三、得到提高信噪比的音频以及视频、音频的融合信息,在现代通信中具有重要意义,尤其是视频会议。
附图说明
图1是本发明一种基于麦克风阵列和立体视觉的集成传感器硬件简图
图2是本发明的功能流程图
图3是本发明的各级处理器关系图。
其中:A0为麦克风阵列,B0为立体视觉装置;A1为音频采集模块,A2为音频缓冲区Ⅰ,A3为音频去噪模块,A4为音频追踪定位模块;B1为云台控制中心,B2为视频缓冲区Ⅰ,B3为图像处理模块,B4为图像识别模块;C0为音频增强模块,C1为音频缓冲区Ⅱ,C2视频音频合成模块。
具体实施方式
以下结合附图详细介绍本发明的技术方案:
一种基于麦克风阵列和立体视觉的集成传感器,包括硬件系统和控制系统;硬件系统包括麦克风阵列、立体视觉装置,麦克风阵列负责接收环境中声音信息并生成多路模拟音频;立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区,音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理);视频处理区负责定位、追踪目标声源,即通过图像处理和图像识别对目标声源进行校准定位和精准追踪;视频音频合成工作区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。
如图1所示,所述麦克风阵列,用于采集环境中声音,生成多路模拟音频信号si(t),并将音频信号发送到音频工作区,其中,i为麦克风的编号。
所述立体视觉装置,由云台和摄像装置构成。摄像装置可以自动聚焦,可以采集图像并传送到视频缓冲区Ⅰ中;云台可以接收云台控制中心的控制指令,根据控制指令控制横摆电机和俯仰电机转动;同时立体视觉装置可以将自身当前状态的参数(云台横摆角、俯仰角、摄像装置焦距)发送给云台控制中心。
其中,摄像装置位于云台上中心位置,麦克风阵列也排布在云台上,麦克风阵列采用四元,以摄像装置为中心排布。以摄像装置为坐标系原点建坐标系,四个麦克风1、2、3、4分别在X正半轴、Y正半轴、X负半轴、Y负半轴上,且距原点的距离都是d。
如图2所示,控制系统工作时划分为三大工作区,分别是音频工作区、视频工作区和视频音频合成工作区。
其中,音频工作区用于音频处理(音频信号去噪,音频定位,音频追踪),音频工作区包括音频采集模块A1、音频缓冲区ⅠA2、音频去噪模块A3及音频追踪定位模块A4
视频工作区用于图像处理(音频辅助图像校准定位,音频辅助图像精准追踪,图像追踪),视频工作区包括云台控制中心B1、视频缓冲区ⅠB2、图像处理模块B3及图像识别模块B4
视频音频合成工作区用于音频增强(提升信噪比)和视频音频合成并输出,视频音频合成工作区包括音频增强模块C0、音频缓冲区ⅡC1及视频音频合成模块C2
以下详细介绍各工作区的工作流程:
一、音频工作区:音频工作区用于音频处理(音频信号去噪,音频定位,音频追踪),音频工作区包括音频采集模块A1、音频缓冲区ⅠA2、音频去噪模块A3及音频追踪定位模块A4
1.音频采集模块A1
麦克风阵列A0采集到多路模拟音频信号si(t),并将模拟音频信号si(t)传送给音频采集模块A1100;音频采集模块A1对模拟音频信号si(t)进行模数转换,得到数字音频信号si(k),然后将数字音频信号si(k)发送给音频缓冲区ⅠA2101;其中t为时间,k为时间序列,i为麦克风编号。
2.音频缓冲区ⅠA2
暂存来自音频采集模块的数字音频信号si(k)。其中,数据存储于循环队列中,存入---读取---再存入(覆盖原有信息)循环执行。
3.音频去噪模块A3
音频去噪模块A3连续时刻内从音频缓冲区ⅠA2读取一个时间间隔(一个扫描周期,可根据追踪精度调整)长度的音频信号si(k)102,然后对音频si(k)进行滤波操作,滤除非人声频率范围内的语音;加窗操作,利用语音信号短时平稳性的特点;谱减操作,去除语音信号中的非相干噪声;倒谱操作,消除语音信号中的混响信号;最终得到去噪音频信号xi(k),再将去噪音频信号xi(k)发送给音频追踪定位模块A4103,同时将去噪音频信号xi(k)发送给视频音频合成工作区的音频增强模块C0104。
其中,音频去噪模块A3对音频的操作过程如下:
1)滤波:采用模拟带通滤波对数字音频信号si(k)进行滤波,模拟带通滤波的上截止频率fH=3500Hz,下截止频率fL=200Hz,可以除去音频信号中非人声频率范围内的语音信号;
2)加窗:对带通信号进行加窗处理,得到加窗信号窗函数采用汉明窗;
3)谱减:对加窗信号进行谱减法操作,得到谱减信号然后对进行傅里叶反变换得到去噪信号
其中,为去噪信号的傅里叶变换,为加窗信号的傅里叶变换,为加窗信号中的非相干噪声,而为非相干噪声的傅里叶变换。除去中的非相干噪声得到去噪信号
4)倒谱:
(a)对去噪信号进行分帧处理,得到分帧信号
(b)对分帧信号用窗函数进行预加窗处理,得到预加窗信号
(c)对预加窗信号计算每帧的复倒谱信号xi(k),所述复倒谱计算公式为:
式中,FFT表示傅里叶变换,IFFT表示傅里叶反变换,ln表示自然对数。经过倒谱处理,可以除去音频信号中的混响信号。
4.音频追踪定位模块A4
音频追踪定位模块A4对从音频去噪模块A3接收的去噪音频信号xi(k)进行音频处理,采取广义互相关时延估计算法(TDOA)对声源进行定位,得到声源大致坐标,将声源大致坐标(x,y,z)发送给图像处理模块B4106,并同时将声源大致坐标(x,y,z)发送给云台控制中心B1107;音频追踪定位模块A4采取优化的空间谱估计算法对声源位置进行追踪,得到连续时刻内的最优方向,然后将该时长内声源最优方向分别发送给音频增强模块C0105、图像处理模块B3106及云台控制中心B1107。
音频定位采取广义互相关时延估计算法(TDOA),操作如下:
第一步,对语音信号xi(k)进行广义延时互相关估计得到τi
xi(t)=αis(t-τi)+ni(t);
进行傅里叶变换
其中,为序号为i,j的麦克风采集的音频信号的互相关函数,argmax表示使取得最大值时即为第i个麦克风与第j个麦克风所接收到信号的时延估计值;
第二步,公式计算:
利用第一步得到的τij,进行广义互相关时延估计定位计算;
其中,(x,y,z)为声源坐标,R为声源与原点距离,r1、r2、r3、r4为声源到麦克风1、2、3、4间的距离,d为麦克风与原点间的距离,c为声音在空气中的传播速度。
音频追踪定位模块A4从音频去噪模块A3获得一个时间间隔长度的音频信号xi(k)103,然后将该时长内声源最优方向发送给音频增强模块C0105,同时将该时长内声源最优方向发送给图像处理模块B3106,将该时长内声源最优方向发送给云台控制中心B1107。
连续时刻内对声源进行定位即为声源追踪,然而,若在连续时刻内对声源进行广义互相关时延估计定位计算,计算量大,不利于追踪的实时性,因而采用空间谱估计算法进行声源追踪。本着缩减计算量,减少干扰因素的初衷,在进行追踪时采取递推法(由上一时刻声源最优方向划定声源必将出现的最小范围并在该范围内计算各方向的能量),在确定能量最大的方向时采取逐步比较法,(将通过空间谱估计算法获取空间中能量最大的方向视为声源在t时长内的最优方向,其中t为扫描周期时长)具体过程如下:
1)声源经过定位然后进行声源追踪,立体视觉装置B0云台精准追踪声源(即云台平面指向声源)时有其中,为声源偏移坐标,追踪声源时,云台只需转动消去偏移坐标即可追踪声源。
2)令θ分别以Δθ的变化量进行能量扫描,为设定的的预估范围,θ1、θ2为设定的θ的预估范围且θ12;其中的预估范围即声源必定出现的最小范围,与θ1、θ2具体大小可根据物体移动速度、方向进行调节;
3)选取初始方向的方向通过空间谱估计算法进行能量计算,得到此时音频信号的能量P00;其中,
4)以四个方向进行能量计算,得到能量E01、E02、E03、E04
5)比较P00~04,五个值大小:
①若E00最大,则令Emax=E00,并保存Emax和它表示的方向,即令
②若E01~04中某一个最大,则将其赋给E10,并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5);若存在En0≥max{En1,En2,En3,En4},则令Emax=En0,并保存Emax和它表示的方向,即令其中,
③若En0<max{En1,En2,En3,En4}恒成立,则重复执上述步骤4)、步骤5)操作,直至中某一个方向不在内,即或θn0+Δθ)>θ2或θn0-Δθ)<θ1,记录此时能量En0,然后将其赋给Emax,记录此时的方向,并将其赋给其中为得到最大能量Emax的方向,n为比较的次数;
④Emax对应的方向即为t时刻内声源相于麦克风阵列的最优方向
二.视频工作区:视频工作区用于图像处理(音频辅助图像校准定位,音频辅助图像精准追踪,图像追踪),视频工作区包括云台控制中心B1、视频缓冲区ⅠB2、图像处理模块B3及图像识别模块B4
1.云台控制中心B1
云台控制中心B1接收立体视觉装置B0的状态(云台横摆角、俯仰角和摄像装置焦距)201,并向立体视觉装置B0发送控制指令202,上述两步,云台控制中心B1与立体视觉装置B0间形成闭环控制;云台控制中心B1接收来自音频追踪定位模块A4的声源大致坐标或最优方向以及来自图像识别模块B4的目标声源校准地址206(视频工作区经图像处理和图像识别得到的声源坐标);
云台控制中心B1通过与立体视觉装置B0间的闭环控制(控制云台的横摆、俯仰和转动)使云台平面指向声源,当云台控制中心完成云台调节,便向图像处理模块B3发送读帧控制指令207。
2.视频缓冲区ⅠB2
立体视觉装置B0将采集的连续帧图像发送到视频缓冲区ⅠB2进行暂存200。
3.图像处理模块B3
图像处理模块B3接收到来自音频追踪定位模块A4的声源大致坐标106、来自云台控制中心B1的读帧控制指令207以及图像处理模块B3发送的读帧控制指令205。当图像处理模块B3接收到读帧控制指令后,从视频缓冲区ⅠB2中读取一帧图像,并根据接收到的声源大致坐标提取有效区域,发送给图像识别模块B4204;图像处理模块B3的读帧操作由云台控制中心B1和图像识别模块控制B4
4.图像识别模块B4
图像识别模块B4对接收到的来自图像处理模块B3的有效图像进行逐个像素扫描并与目标声源图像进行匹配,获取目标声源的偏移坐标,然后,将偏移坐标发送给云台控制中心B1。云台控制中心B1调整云台清除偏移误差后,再次向图像处理模块B3发送读帧控制指令。然后,图像处理模块B3再次从视频缓冲区ⅠB1读取一帧图像,按声源方向为(0°,0°)进行有效图像提取,并将提取的有效图像信息发送给图像识别模块B4204,图像识别模块B4对有效图像进行逐个像素扫描、匹配,得到声源偏移坐标(校准地址)。若偏移坐标在误差(可根据精度需求自行设定)允许范围内,认为方向定位成功;若超出允许误差范围,则将偏移误差发送给云台控制中心B1重复上述操作,直至方向定位成功。然后,视频处理器获取摄像装置此刻焦距、云台此刻横摆角和俯仰角,可得到目标声源到立体视觉装置B0的距离、目标声源相对于立体视觉装置B0的方向,由此,便可精准定位目标声源位置。
其中,图像识别模块B4和立体视觉装置B0两者之间构成闭环控制。图像识别模块B4可以识别目标声源在图像中的像素位置,而图像的像素点又与空间方位是一一映射的关系,因此,通过图像识别可以得到目标声源相对于云台的方向,得到目标声源的偏移坐标(校准地址);图像识别模块B4可以通过云台控制中心B1间接控制云台横摆,俯仰,云台转动完成后,云台控制中心B1向图像处理模块B4发送读帧控制指令;图像处理模块B4再读取一帧图像,经图像处理和图像识别得到状态反馈(校准后目标声源的偏移坐标)。这样,图像处理模块B4既可以控制立体视觉装置B0的状态,又可以获取立体视觉装置B0状态反馈,两者间形成闭环控制。如图2集成传感器功能流程图所示,图像处理模块B4通过206、202控制立体视觉装置B0,通过200、203、204获取立体视觉装置B0状态。
前面的音频辅助图像校准定位都是在一个时间间隔(一个扫描周期)内进行的,获得一个时刻声源精准坐标。而对目标声源的精准追踪可以看成连续时刻内对目标声源的校准定位的过程。
在一个时间间隔内,音频辅助图像精准追踪与音频辅助图像校准定位的操作相同的,此处只做简略阐述。
音频辅助图像精准追踪时以音频追踪定位模块A4分别向图像处理模块B3、云台控制中心B1发送声源最优方向的操作为标志划分工作周期,该操作既是上一周期的结束,也是本周期的开始。当视频工作区接收到来自音频工作区的坐标信息后,按照音频辅助图像精准定位的操作进行,最终云台精准指向目标声源,操作结束,本周期工作结束。当视频工作区再次接收到来自音频工作区的坐标信息,下一周期工作开始,最终使云台精准指向目标声源。上述操作重复执行,最终,连续时刻中的每一个时刻云台都精准指向目标声源,由于一个时间间隔(扫描周期)很短,至于长时间环境中,可视为云台连续不间断精准指向目标声源。
图像识别模块B4向图像处理模块B3发送读帧控制指令205,然后图像处理模块B3从视频缓冲区ⅠB2中读取一帧图像并提取有效信息发送给图像识别模块B4204,利用图像识别模块B4与立体视觉装置B0间的闭环控制,确定某一时刻目标声源位置。图像识别模块B4连续控制图像处理模块B3的读帧行为连续触发该过程,从而连续时刻追踪目标声源位置。
三.音频视频合成工作区:视频音频合成工作区用于音频增强(提升信噪比)和视频音频合成并输出,视频音频合成工作区包括音频增强模块C0、音频缓冲区ⅡC1及视频音频合成模块C2
1.音频增强模块C0
音频增强模块C0从音频去噪模块A3接收一组一个时间间隔长度的去噪音频信号xi(k)104,并从音频追踪定位模块A4接收声源最优方向然后将增强的音频信号发送给音频缓冲区ⅡC1暂存。音频增强过程如下:
根据声源最优方向生成加权矩阵,据远场模型和近场模型临界值加权矩阵应按远场模型生成。
x(k)=[x0(k) x1(k) x2(k) … xi(k) … xn(k)]'
y(k)=a*x(k)
上式经傅里叶变换及其逆变换便可求得麦克风阵列增强音频信号y(k)。其中τi为序号为i的麦克风相对于坐标原点的延时,为编号i麦克风在xoy平面上的极坐标,c为声音在空气中的传播速度。然后将增强音频信号y(k)输入到音频缓冲区ⅡC1300。
2.视频音频合成模块C2
视频音频合成模块C2分别从音频缓冲区ⅡC1中读取音频信号301,从视频缓冲区ⅠB2中读取视频信号302。然后,视频音频合成模块C2把视频信号和音频信号按时间序列合成,并将其输入到外部存储器(例如资料记录)中或输出到外部设备播放(例如远程通信)303。本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
应当指出,本发明以四元麦克风绕摄像装置均匀排布在云台上的模型仅处于阐述方便的目的,在不脱离本发明原理的前提下,还能做许多修改和润饰,而这些修改和润饰也视为本发明的保护范围。
以下介绍本发明的实施案例:
本专利涵盖内容众多,逻辑组成复杂、功能多样,适应于多种采集场景,例如会议记录、远程通信、人工智能及设备等等,我们都可以应用其部分或全部功能,使用灵活方便。由于其适应场景众多,无法一一涵盖,现以视频会议为例说明。
本设备安装方便,可直接悬于天花板下方或用支架支撑,应根据实际情况合理安排,高度可根据需要自行调节。
为便于描述,仍以图1所示集成传感器硬件简图为例阐述。构建坐标系,原点为摄像装置,坐标轴分别过四个麦克风。
设备启动后,麦克风阵列A0采集音频信号,立体视觉装置B0采集视频信号分别输入到音频工作区和视频工作区。
如图3所示,控制体系分为三级控制体系,中央处理器为总控制器,从整体上协调三个处理器工作,调整同一处理器不同时刻的工作,下设三个二级处理器;视频处理器、音频处理器、视频音频合成处理器,分别为视频工作区、音频工作区、视频音频合成工作区的主处理器。二级处理器又下设若干三级处理器模块,细化分工。其中视频处理器下设的图像识别模块与图像处理模块,云台控制中心与图像处理模块可以进行同级控制。
音频工作区
在音频处理器的统筹安排下,输入量为模拟音频带噪信号,输出量为声源大致坐标或最优方向和数字音频去噪信号。其中对视频工作区输出声源大致坐标或最优方向,对视频音频合成工作区输出声源大致坐标或最优方向和数字音频去噪信号。
其中,音频采集模块A1对输入模拟音频信号进行模数转换,将生成的数字音频信号暂存于音频缓冲区ⅠA2,音频去噪模块A3对数字音频信号进行滤波、加窗、谱减、倒谱操作,得到去噪语音信号,输出到视频音频合成工作区和音频追踪定位模块A4,经广义互相关时延估计算法(TDOA定位算法)和空间谱估计算法分别得到声源大致坐标和最优方向,然后将其输入到视频工作区和视频音频合成工作区。
视频工作区
云台控制中心B1与立体视觉装置B0间形成闭环控制,在此基础上,图像处理模块B3作为桥梁使立体视觉装置B0的状态信息通过图像处理和图像识别被图像识别模块B4获取,然后,图像识别模块B4通过云台控制中心B1可以改变立体视觉装置B0的状态,两者之间构成闭环控制。当音频工作区向视频工作区输入声源大致坐标和连续时刻的最优方向时,视频工作区开始进行音频辅助图像校准定位、音频辅助图像精准追踪的操作。而操作的结果就是每一给时刻视频工作区都精准定位目标声源坐标,云台都精准指向目标声源(即摄像装置精确采集以目标声源为中心的图像信息);而连续时刻中,视频工作区都精准追踪目标声源,云台精准、连续追踪声源(摄像装置采集方向随目标声源的运动而调整)。摄像装置采集的信息都会存入视频缓冲区ⅠB2中。
视频音频合成工作区
视频音频合成工作区接收到音频工作区的声源大致坐标或声源最优方向和后,音频增强模块C0按声源大致坐标或声源最优方向生成加权矩阵对多路数字音频去噪信号加权求和,生成增强音频信号并暂存于音频缓冲区ⅡC1中。视频音频合成模块C2从视频缓冲区ⅠB2中读取视频信号,从音频缓冲区ⅡC1中读取音频信号并按时间序列合成,生成视频音频合成文件,然后将其输出到外部播放设备。
视频音频合成信号传输时可以借助电缆、光纤传输,也可以借助无线通讯方式传输。
可以根据实际场景需要向中央处理器发送要求,由中央处理器调节整个集成传感器工作,充分利用其内部资源。

Claims (8)

1.一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,包括硬件系统和控制系统;
硬件系统包括:
麦克风阵列,采集环境中的音频信息,生成多路模拟音频信号si(t),并输送至音频工作区;
立体视觉装置,由云台和摄像装置构成,摄像装置位于云台上中心位置,所述麦克风阵列以摄像装置为中心排布在云台上;摄像装置可以采集环境图像并传送到所述视频工作区中;云台可以接收视频工作区的控制指令进行横摆、俯仰转动操作;同时立体视觉装置可以将自身当前状态的参数发送给视频工作区;
控制系统包括:
音频工作区,对输入的多路模拟音频信号si(t)进行音频去噪和声源定位、声源追踪处理,得到声源大致坐标、声源最优方向和多路去噪数字音频信号;将声源大致坐标和声源最优方向输入到视频工作区,将声源大致坐标、声源最优方向和多路去噪数字音频信号输入到视频音频合成工作区;
视频工作区,根据输入的声源大致坐标和声源最优方向提取有效图像,经图像处理和图像识别,实现音频辅助图像校准定位和音频辅助图像精准追踪;亦可单独进行图像追踪;
视频音频合成工作区,从音频工作区获取多路音频并加权生成增强音频信号,从视频工作区获取视频信号,将按时间序列合成并输出视频音频信号的融合信号。
2.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述音频工作区包括:
音频采集模块,将接收到的麦克风阵列采集的多路模拟音频信号si(t)进行模数转换得到数字音频信号si(k)后输入到音频缓冲区Ⅰ;
音频缓冲区Ⅰ,暂存来自音频采集模块的数字音频信号si(k);
音频去噪模块,从音频缓冲区Ⅰ读取上一时刻内存入的数字音频信号si(k),然后依次通过滤波、加窗、谱减、倒谱操作对数字音频信号si(k)进行去噪,得到去噪音频音频信号xi(k)并分别输入到音频追踪定位模块和视频音频合成工作区;
音频追踪定位模块,对输入的去噪音频信号xi(k)使用广义互相关时延估计算法进行声源定位,得到声源大致坐标,将声源大致坐标发送给视频工作区;使用空间谱估计算法进行声源追踪,得到连续时刻内的最优方向,将最优方向分别发送给视频工作区和音频视频合成工作区。
3.如权利要求2所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述音频追踪定位模块使用空间谱估计算法进行声源追踪,是通过空间谱估计算法进行空间能量扫描,获取空间中能量最大的方向将其视为声源在t时长内的最优方向,具体过程如下:
1)声源经过定位然后进行声源追踪,以摄像装置为中心构建坐标系,当立体视觉装置云台平面指向声源时有其中,为声源偏移坐标,追踪声源时,云台只需转动消去偏移坐标即可追踪声源;
2)令θ∈[θ12],θ分别以Δθ的变化量进行能量扫描,为设定的的预估范围,θ1、θ2为设定的θ的预估范围且θ12;其中的预估范围即声源必定出现的最小范围,与θ1、θ2具体大小可根据物体移动速度、方向进行调节;
3)选取初始方向的方向通过空间谱估计算法进行能量计算,得到此时音频信号的能量P00;其中,
4)以四个方向进行能量计算,得到能量E01、E02、E03、E04
5)比较P00~04,五个值大小:
①若E00最大,则令Emax=E00,并保存Emax和它表示的方向,即令
②若E01~04中某一个最大,则将其赋给E10,并将此时的方向坐标赋给然后重复进行上述步骤4)、步骤5);若存在En0≥max{En1,En2,En3,En4},则令Emax=En0,并保存Emax和它表示的方向,即令其中,θn0∈[θ12];
③若En0<max{En1,En2,En3,En4}恒成立,则重复执上述步骤4)、步骤5)操作,直至中某一个方向不在θ∈[θ12]内,即或θn0+Δθ)>θ2或θn0-Δθ)<θ1,记录此时能量En0,然后将其赋给Emax,记录此时的方向,并将其赋给其中为得到最大能量Emax的方向,n为比较的次数;
④Emax对应的方向即为t时刻内声源相于麦克风阵列的最优方向
4.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述视频工作区包括:
云台控制中心,与立体视觉装置之间形成闭环控制,既能获取立体视觉装置状态,又可以改变立体视觉装置状态,控制云台进行校准操作;云台控制中心可接收来自音频工作区的声源大致坐标和声源最优方向,还可接收来自图像识别模块的目标声源校准地址,并向立体视觉装置发送读帧控制指令;
视频缓冲区Ⅰ,暂存摄像装置采集的图像信息;
图像处理模块,可以接收来自音频工作区的声源大致坐标或声源最优方向并从视频缓冲区Ⅰ读取一帧图像提取有效区域发送给图像识别模块,其中,读帧操作由云台控制中心和图像识别模块发送的读帧控制指令调控;
图像识别模块,对接收到的来自图像处理模块的有效图像进行逐个像素扫描并与目标声源图像进行匹配,获取目标声源的偏移坐标,然后,将偏移坐标发送给云台控制中心;在进行图像追踪时,图像识别模块可直接控制图像处理模块读取图像追踪声源。
5.如权利要求4所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述图像识别模块和所述立体视觉装置两者之间构成闭环控制:
图像识别模块可以识别目标声源在图像中的像素位置,而图像的像素点又与空间方位是一一映射的关系,因此,通过图像识别可以得到目标声源相对于云台的方向,得到目标声源的偏移坐标;图像识别模块可以通过云台控制中心间接控制云台完成校准操作,然后云台控制中心向图像处理模块发送读帧控制指令;图像处理模块再读取一帧图像,经图像处理和图像识别得到状态反馈;通过上述过程,图像处理模块既可以控制立体视觉装置的状态,又可以获取立体视觉装置状态反馈,两者间形成闭环控制。
6.如权利要求4所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述图像处理模块的读帧操作过程如下:
当视频工作区处于音频辅助图像校准定位或音频辅助图像精准追踪时,图像处理模块从视频缓冲区Ⅰ读取一帧图像的读帧操作需要双重触发:接收到音频工作区发送的声源大致坐标或最优方向后,云台控制中心向其发送读帧控制指令,图像处理模块从视频缓冲区Ⅰ读取一帧图像;而云台控制中心只会在云台完成校准操作后才会向图像处理模块发送读帧控制指令,从而确保所处理的图像准确包含目标声源的图像。
7.如权利要求1所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述视频音频合成工作区包括:
音频增强模块,接收来自音频工作区的去噪音频信号xi(k),并根据来自音频工作区的声源最优方向生成加权矩阵,对去噪音频信号xi(k)进行加权求和,然后将求得的增强音频信号输入到音频缓冲区Ⅱ中;
音频缓冲区Ⅱ,暂存增强音频信号;
视频音频合成模块,分别从视频工作区和音频缓冲区Ⅱ中读取视频信号和音频信号并按照时间序列合成,然后输出。
8.如权利要求7所述的一种基于麦克风阵列和立体视觉的集成传感器,其特征在于,所述音频增强模块的音频增强过程如下:
根据声源最优方向生成加权矩阵,据远场模型和近场模型临界值加权矩阵应按远场模型生成;
<mrow> <mi>a</mi> <mo>=</mo> <mo>&amp;lsqb;</mo> <mtable> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mn>2</mn> <msub> <mi>&amp;pi;f&amp;tau;</mi> <mn>0</mn> </msub> </mrow> </msup> </mtd> <mtd> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mn>2</mn> <msub> <mi>&amp;pi;f&amp;tau;</mi> <mn>1</mn> </msub> </mrow> </msup> </mtd> <mtd> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mn>2</mn> <msub> <mi>&amp;pi;f&amp;tau;</mi> <mn>2</mn> </msub> </mrow> </msup> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mn>2</mn> <msub> <mi>&amp;pi;f&amp;tau;</mi> <mi>i</mi> </msub> </mrow> </msup> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msup> <mi>e</mi> <mrow> <mi>j</mi> <mn>2</mn> <msub> <mi>&amp;pi;f&amp;tau;</mi> <mi>n</mi> </msub> </mrow> </msup> </mtd> </mtr> </mtable> <mo>&amp;rsqb;</mo> </mrow>
x(k)=[x0(k) x1(k) x2(k) … xi(k) … xn(k)]′
y(k)=a*x(k)
上式经傅里叶变换及其逆变换便可求得麦克风阵列增强音频信号y(k);其中,τi为编号为i的麦克风相对于坐标原点的延时,为编号i麦克风在xoy平面上的极坐标,c为声音在空气中的传播速度;
然后将增强音频信号y(k)输入到音频缓冲区Ⅱ。
CN201710684083.4A 2017-08-11 2017-08-11 一种基于麦克风阵列和立体视觉的集成传感器 Active CN107333120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710684083.4A CN107333120B (zh) 2017-08-11 2017-08-11 一种基于麦克风阵列和立体视觉的集成传感器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710684083.4A CN107333120B (zh) 2017-08-11 2017-08-11 一种基于麦克风阵列和立体视觉的集成传感器

Publications (2)

Publication Number Publication Date
CN107333120A true CN107333120A (zh) 2017-11-07
CN107333120B CN107333120B (zh) 2020-08-04

Family

ID=60199294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710684083.4A Active CN107333120B (zh) 2017-08-11 2017-08-11 一种基于麦克风阵列和立体视觉的集成传感器

Country Status (1)

Country Link
CN (1) CN107333120B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862060A (zh) * 2017-11-15 2018-03-30 吉林大学 一种追踪目标人的语义识别装置及识别方法
CN108762104A (zh) * 2018-05-17 2018-11-06 江西午诺科技有限公司 音箱控制方法、装置、可读存储介质及移动终端
CN109683132A (zh) * 2018-11-09 2019-04-26 天津师范大学 一种声学与图像信号混合终端及其处理方法
CN109688371A (zh) * 2018-11-09 2019-04-26 天津师范大学 一种基于声学传感器阵列和图像识别的声源处理系统的控制方法
CN109862316A (zh) * 2019-01-29 2019-06-07 安徽理工大学 一种基于图像分析技术的自动监听方法装置
CN109877842A (zh) * 2017-12-06 2019-06-14 湘潭宏远电子科技有限公司 一种机器人交互系统
CN110322892A (zh) * 2019-06-18 2019-10-11 中国船舶工业系统工程研究院 一种基于麦克风阵列的语音拾取系统和方法
CN110347187A (zh) * 2019-08-09 2019-10-18 北京机械设备研究所 一种基于声音和图像信息的目标探测跟踪系统与方法
CN110426675A (zh) * 2019-06-28 2019-11-08 中国计量大学 一种基于图像处理的声相仪声源定位结果评定方法
CN110661988A (zh) * 2019-08-14 2020-01-07 天津师范大学 一种声音与图像混合阵列处理系统
CN110718236A (zh) * 2019-10-12 2020-01-21 吴郁君 一种城市环境大数据综合协同管理运转平台
CN110890100A (zh) * 2018-09-10 2020-03-17 杭州海康威视数字技术股份有限公司 语音增强、多媒体数据采集、播放方法、装置及监控系统
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN111354369A (zh) * 2018-12-21 2020-06-30 珠海格力电器股份有限公司 一种语音采集方法及系统
CN111492668A (zh) * 2017-12-14 2020-08-04 巴科股份有限公司 用于在限定的空间内定位音频信号的发源点的方法和系统
CN111629143A (zh) * 2020-04-24 2020-09-04 江苏大学 一种基于对特定光源的识别和声源定位结合的目标搜寻系统及方法
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111915918A (zh) * 2020-06-19 2020-11-10 中国计量大学 一种基于动态特性的汽车鸣笛抓拍装置现场校准系统及方法
CN112261361A (zh) * 2020-09-25 2021-01-22 江苏聆世科技有限公司 一种麦克风阵列与球机联动的异常声源监控方法和系统
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112820257A (zh) * 2020-12-29 2021-05-18 吉林大学 一种基于matlab的gui声音合成装置
CN113099160A (zh) * 2021-03-29 2021-07-09 苏州科达科技股份有限公司 基于麦克风阵列的视频会议方法、系统、设备及存储介质
CN113176538A (zh) * 2021-04-16 2021-07-27 杭州爱华仪器有限公司 一种基于麦克风阵列的声源成像方法
CN113905302A (zh) * 2021-10-11 2022-01-07 Oppo广东移动通信有限公司 触发提示信息的方法、装置以及耳机
CN114466139A (zh) * 2022-01-30 2022-05-10 深圳市浩瀚卓越科技有限公司 追踪定位方法、系统、装置、设备、存储介质和产品
CN115862682A (zh) * 2023-01-03 2023-03-28 杭州觅睿科技股份有限公司 声音检测方法及相关设备
CN117877504A (zh) * 2024-03-11 2024-04-12 中国海洋大学 一种联合语音增强方法及其模型搭建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110050944A1 (en) * 2009-08-28 2011-03-03 Satoshi Nakamura Audiovisual data recording device and method
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
US20120307048A1 (en) * 2011-05-30 2012-12-06 Sony Ericsson Mobile Communications Ab Sensor-based placement of sound in video recording
CN103235287A (zh) * 2013-04-17 2013-08-07 华北电力大学(保定) 一种声源定位摄像追踪装置
CN103439688A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种用于分布式麦克风阵列的声源定位系统及定位方法
CN106950542A (zh) * 2016-01-06 2017-07-14 中兴通讯股份有限公司 声源的定位方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110050944A1 (en) * 2009-08-28 2011-03-03 Satoshi Nakamura Audiovisual data recording device and method
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
US20120307048A1 (en) * 2011-05-30 2012-12-06 Sony Ericsson Mobile Communications Ab Sensor-based placement of sound in video recording
CN103235287A (zh) * 2013-04-17 2013-08-07 华北电力大学(保定) 一种声源定位摄像追踪装置
CN103439688A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种用于分布式麦克风阵列的声源定位系统及定位方法
CN106950542A (zh) * 2016-01-06 2017-07-14 中兴通讯股份有限公司 声源的定位方法、装置及系统

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法
CN107862060A (zh) * 2017-11-15 2018-03-30 吉林大学 一种追踪目标人的语义识别装置及识别方法
CN109877842A (zh) * 2017-12-06 2019-06-14 湘潭宏远电子科技有限公司 一种机器人交互系统
CN111492668B (zh) * 2017-12-14 2021-10-29 巴科股份有限公司 用于在限定的空间内定位音频信号的发源点的方法和系统
US11350212B2 (en) 2017-12-14 2022-05-31 Barco N.V. Method and system for locating the origin of an audio signal within a defined space
CN111492668A (zh) * 2017-12-14 2020-08-04 巴科股份有限公司 用于在限定的空间内定位音频信号的发源点的方法和系统
CN108762104A (zh) * 2018-05-17 2018-11-06 江西午诺科技有限公司 音箱控制方法、装置、可读存储介质及移动终端
CN110890100B (zh) * 2018-09-10 2022-11-18 杭州海康威视数字技术股份有限公司 语音增强、多媒体数据采集、播放方法、装置及监控系统
CN110890100A (zh) * 2018-09-10 2020-03-17 杭州海康威视数字技术股份有限公司 语音增强、多媒体数据采集、播放方法、装置及监控系统
CN111050269B (zh) * 2018-10-15 2021-11-19 华为技术有限公司 音频处理方法和电子设备
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN109688371A (zh) * 2018-11-09 2019-04-26 天津师范大学 一种基于声学传感器阵列和图像识别的声源处理系统的控制方法
CN109683132A (zh) * 2018-11-09 2019-04-26 天津师范大学 一种声学与图像信号混合终端及其处理方法
CN111354369A (zh) * 2018-12-21 2020-06-30 珠海格力电器股份有限公司 一种语音采集方法及系统
CN109862316A (zh) * 2019-01-29 2019-06-07 安徽理工大学 一种基于图像分析技术的自动监听方法装置
CN110322892A (zh) * 2019-06-18 2019-10-11 中国船舶工业系统工程研究院 一种基于麦克风阵列的语音拾取系统和方法
CN110322892B (zh) * 2019-06-18 2021-11-16 中国船舶工业系统工程研究院 一种基于麦克风阵列的语音拾取系统和方法
CN110426675A (zh) * 2019-06-28 2019-11-08 中国计量大学 一种基于图像处理的声相仪声源定位结果评定方法
CN110347187A (zh) * 2019-08-09 2019-10-18 北京机械设备研究所 一种基于声音和图像信息的目标探测跟踪系统与方法
CN110661988B (zh) * 2019-08-14 2022-01-11 四川天源宏创科技有限公司 一种声音与图像混合阵列处理系统
CN110661988A (zh) * 2019-08-14 2020-01-07 天津师范大学 一种声音与图像混合阵列处理系统
CN110718236A (zh) * 2019-10-12 2020-01-21 吴郁君 一种城市环境大数据综合协同管理运转平台
CN110718236B (zh) * 2019-10-12 2021-02-19 胡妍 一种城市环境大数据综合协同管理运转平台
CN111629143A (zh) * 2020-04-24 2020-09-04 江苏大学 一种基于对特定光源的识别和声源定位结合的目标搜寻系统及方法
CN111629143B (zh) * 2020-04-24 2021-10-12 江苏大学 一种基于光源识别和声源定位结合的目标搜寻系统及方法
CN111915918A (zh) * 2020-06-19 2020-11-10 中国计量大学 一种基于动态特性的汽车鸣笛抓拍装置现场校准系统及方法
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN112261361B (zh) * 2020-09-25 2022-10-04 江苏聆世科技有限公司 一种麦克风阵列与球机联动的异常声源监控方法和系统
CN112261361A (zh) * 2020-09-25 2021-01-22 江苏聆世科技有限公司 一种麦克风阵列与球机联动的异常声源监控方法和系统
CN112492207A (zh) * 2020-11-30 2021-03-12 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112492207B (zh) * 2020-11-30 2023-04-18 深圳卡多希科技有限公司 一种基于声源定位控制摄像头转动的方法和装置
CN112820257A (zh) * 2020-12-29 2021-05-18 吉林大学 一种基于matlab的gui声音合成装置
CN112820257B (zh) * 2020-12-29 2022-10-25 吉林大学 一种基于matlab的gui声音合成装置
CN113099160A (zh) * 2021-03-29 2021-07-09 苏州科达科技股份有限公司 基于麦克风阵列的视频会议方法、系统、设备及存储介质
CN113176538A (zh) * 2021-04-16 2021-07-27 杭州爱华仪器有限公司 一种基于麦克风阵列的声源成像方法
CN113905302A (zh) * 2021-10-11 2022-01-07 Oppo广东移动通信有限公司 触发提示信息的方法、装置以及耳机
CN113905302B (zh) * 2021-10-11 2023-05-16 Oppo广东移动通信有限公司 触发提示信息的方法、装置以及耳机
CN114466139A (zh) * 2022-01-30 2022-05-10 深圳市浩瀚卓越科技有限公司 追踪定位方法、系统、装置、设备、存储介质和产品
CN115862682A (zh) * 2023-01-03 2023-03-28 杭州觅睿科技股份有限公司 声音检测方法及相关设备
CN117877504A (zh) * 2024-03-11 2024-04-12 中国海洋大学 一种联合语音增强方法及其模型搭建方法
CN117877504B (zh) * 2024-03-11 2024-05-24 中国海洋大学 一种联合语音增强方法及其模型搭建方法

Also Published As

Publication number Publication date
CN107333120B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN107333120A (zh) 一种基于麦克风阵列和立体视觉的集成传感器
CN104699247B (zh) 一种基于机器视觉的虚拟现实交互系统及方法
CN106292732A (zh) 基于声源定位和人脸检测的智能机器人转动方法
CN102447697B (zh) 开放环境中的半私人通信的方法及系统
CN106664501B (zh) 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法
CN111341303B (zh) 一种声学模型的训练方法及装置、语音识别方法及装置
CN108370471A (zh) 分布式音频捕获和混合
US20230041730A1 (en) Sound effect adjustment
CN106710603A (zh) 利用线性麦克风阵列的语音识别方法及系统
CN107919133A (zh) 针对目标对象的语音增强系统及语音增强方法
CN107945625A (zh) 一种英语发音测试与评价系统
CN103685906B (zh) 一种控制方法、控制装置及控制设备
CN106448722A (zh) 录音方法、装置和系统
CN103607550B (zh) 一种根据观看者位置调整电视虚拟声道的方法及电视
CN108389586A (zh) 一种远程集音装置、监控装置及远程集音方法
CN105451152A (zh) 基于听者位置跟踪的实时声场重建系统和方法
US9591229B2 (en) Image tracking control method, control device, and control equipment
CN105575403A (zh) 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN107346661A (zh) 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN101567969A (zh) 基于麦克风阵列声音制导的智能视频导播方法
JP2003251583A (ja) ロボット視聴覚システム
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
Plinge et al. Multi-speaker tracking using multiple distributed microphone arrays
Dey et al. Challenges and future perspectives in speech-sources direction of arrival estimation and localization
CN107274910A (zh) 一种音视频联动的监控装置及音视频联动方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant