CN106024003B - 结合图像的语音定位和增强系统及方法 - Google Patents

结合图像的语音定位和增强系统及方法 Download PDF

Info

Publication number
CN106024003B
CN106024003B CN201610304047.6A CN201610304047A CN106024003B CN 106024003 B CN106024003 B CN 106024003B CN 201610304047 A CN201610304047 A CN 201610304047A CN 106024003 B CN106024003 B CN 106024003B
Authority
CN
China
Prior art keywords
voice
face
person
tracking
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610304047.6A
Other languages
English (en)
Other versions
CN106024003A (zh
Inventor
徐荣强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN201610304047.6A priority Critical patent/CN106024003B/zh
Publication of CN106024003A publication Critical patent/CN106024003A/zh
Application granted granted Critical
Publication of CN106024003B publication Critical patent/CN106024003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明提供一种结合图像的语音定位和增强系统及方法,所述定位系统包括图像识别跟踪子系统和语音定位和增强子系统。图像识别跟踪子系统包括:摄像头,用于采集图像序列;图像识别跟踪单元,用于识别人员并缓存脸部三维坐标;通过识别人员执行的第一预定义操作唤醒语音定位和增强子系统,并发送脸部三维坐标;跟踪识别所述人员,并发送更新的脸部三维坐标。语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位。本发明实现了结合图像的语音跟踪定位,且具备适用于复杂环境的优点。

Description

结合图像的语音定位和增强系统及方法
技术领域
本申请涉及语音定位技术领域,具体涉及一种结合图像的语音定位和增强系统及方法。
背景技术
现有的语音定位系统和方法都是基于麦克风阵列来完成定位,无法实现实时跟踪,只能通过语音唤醒定位系统重新进行麦克风阵列的定位,无法实时跟踪监控,用户体验效果较差。
同时,现有的语音定位系统和方法因自身的限制对适用环境的要求较高:一方面,抗干扰能力较差,例如抗回声干扰的能力较差,又例如集成在电视、音响等设备中的语音定位系统,因设备本身发音,自身发声内容同样会对定位干扰;另一方面,复杂环境的适应能力较差,噪声环境会降低定位精度,非稳态噪声的干扰,例如同时有多人说话,房间混响也会对定位精度造成影响,例如周围硬反射介质的高混响环境,如玻璃等。
此外,现有的语音定位系统和方法还受到麦克风阵列的限制,例如双麦克风阵列只能满足180°的平面定位,四阵列麦克风只能满足360°的平面定位,通常需要通过复杂阵型的麦克风阵列实现空间定位,而难以通过较简单设备实现立体的空间定位。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能实现跟踪的语音定位且适用于复杂环境的结合图像的语音定位和增强系统及方法。
第一方面,本发明提供一种结合图像的语音定位和增强系统,所述系统包括图像识别跟踪子系统和语音定位和增强子系统。
所述图像识别跟踪子系统包括:
摄像头,用于采集当前场景的图像序列;
图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。
所述语音定位和增强子系统包括:
麦克风阵列,用于采集语音信息;
语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
第二方面,本发明提供一种结合图像的语音定位和增强方法,所述方法包括:
采集当前场景的图像序列;
识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;
唤醒语音定位和增强子系统,并将所述脸部三维坐标发送至所述语音定位和增强子系统;
根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强;
跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员。
本发明诸多实施例提供的结合图像的语音定位和增强系统及方法通过摄像头识别人员并缓存脸部三维坐标,通过自定义的动作开启跟踪识别,为语音定位和增强子系统提供了实时的脸部三维坐标,语音定位和增强单元根据空间滤波算法和实时的脸部三维坐标控制所述麦克风阵列定向聚焦采集所跟踪人员的语音信息,最终实现了结合图像的语音跟踪定位和语音增强,同时实现了避免其它音源的干扰,具备了适用于复杂环境的优点;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过识别自定义的动作关闭跟踪定位和语音增强,实现了智能控制跟踪定位和语音增强的开关;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过根据摄像头的位置和麦克风阵列的位置统一三维坐标系,使语音定位和增强单元无需对接收的脸部三维坐标进行换算,减少了计算的工作量,降低了设备的硬件要求;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过利用所述空间滤波算法根据实时脸部三维坐标进行实时的空域滤波调整,优化了语音信息的采集效果,从而优化了最终跟踪定位的效果;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过采用一组双麦克风阵列,即实现了通过双麦克风阵列和摄像头实现立体的空间定位。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中结合图像的语音定位和增强系统的结构示意图。
图2为本发明一实施例中结合图像的语音定位和增强方法的流程图。
图3为本发明一优选实施例中步骤S60的流程图。
图4为本发明一优选实施例中结合图像的语音定位和增强方法的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明一实施例中结合图像的语音定位和增强系统的结构示意图。
如图1所示,在本实施例中,本发明提供的定位系统包括图像识别跟踪子系统和语音定位和增强子系统。
所述图像识别跟踪子系统包括摄像头10和图像识别跟踪单元30。摄像头10用于采集当前场景的图像序列。图像识别跟踪单元30用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。
所述语音定位和增强子系统包括麦克风阵列50和语音定位和增强单元70。麦克风阵列50用于采集语音信息。语音定位和增强单元70用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列50定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
图2为本发明一实施例中结合图像的语音定位和增强方法的流程图。图2所示的定位方法可应用在图1所示的定位系统中。
如图2所示,在本实施例中,本发明提供的结合图像的语音定位和增强方法具体包括:
S20:采集当前场景的图像序列。
S30:识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标。
S40:通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统。
S50:根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
S60:跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回步骤S50进行循环,直至无法跟踪识别所述人员。
例如在设置了上述定位系统的一间房间内,同时有甲、乙、丙、丁四个人,图像识别跟踪单元30识别四人的脸部并分别缓存各人的脸部三维坐标。图像识别跟踪单元30中预设了可以通过招手3秒开启跟踪识别。在本实施例中,所述第一预定义操作设置为招手3秒,在更多实施例中,还可以根据实际需求将所述第一预定义操作设置为各种不同的手势、各类肢体动作等不同的操作,只要可以通过摄像头10采集并通过图像识别跟踪单元30识别,即可实现相同的技术效果。
当甲招手3秒之后,摄像头10采集到这一序列图像,图像识别跟踪单元30识别出甲执行了招手3秒的操作,随即唤醒了语音定位和增强子系统,并将所缓存的甲的脸部三维坐标发送至所述语音定位和增强子系统,同时对甲进行快速注册,开始进行跟踪识别,同时对于未进行注册的乙丙丁三人不进行跟踪识别。
当甲未移动时,语音定位和增强单元70根据空间滤波算法和之前接收的脸部三维坐标持续控制麦克风阵列50定向聚焦采集甲的语音信息,同时进行语音增强;
当甲移动时,摄像头10采集到相关的图像序列,图像识别跟踪单元30识别出甲进行了移动,缓存新的脸部三维坐标并发送至语音定位和增强单元70,语音定位和增强单元70根据实时接收的脸部三维坐标计算实时的脸部角度信息,根据空间滤波算法和实时的脸部角度信息控制麦克风阵列50跟踪甲,定向聚焦采集语音信息,同时对甲进行语音增强;
当甲移动出了摄像头10的采集范围之后,图像识别跟踪单元30无法跟踪识别甲,停止跟踪识别,进入并维持等待唤醒状态,同时发送提示信息至语音定位和增强子系统,提示停止进行定位。
在一些实施例中,所述图像识别跟踪子系统和语音定位和增强子系统设置为一体集成的装置;在另一些实施例中,所述图像识别跟踪子系统和语音定位和增强子系统可根据实际需求设置为通过通用接口连接的装置,例如采用USB接口的摄像头、标准通用接口的麦克风等。
上述实施例提供的系统和方法通过摄像头识别人员并缓存脸部三维坐标,通过自定义的动作开启跟踪识别,为语音定位和增强子系统提供了实时的脸部三维坐标,语音定位和增强单元根据空间滤波算法和实时的脸部三维坐标控制所述麦克风阵列定向聚焦采集所跟踪人员的语音信息,最终实现了结合图像的语音跟踪定位和语音增强,同时实现了避免其它音源的干扰,具备了适用于复杂环境的优点。
在一优选实施例中,图像识别跟踪单元50还用于识别所述人员执行的第二预定义操作:若识别出,则停止跟踪识别所述人员,进入并维持等待唤醒状态。
图3为本发明一优选实施例中步骤S60的流程图。该定位方法可应用在上述实施例提供的定位系统中。
如图3所示,在一优选实施例中,步骤S60具体包括:
S61:跟踪识别人员,若无法跟踪识别,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
S63:识别所述人员执行的第二预定义操作:
若识别出所述人员执行第二预定义操作,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
S65:若未识别出所述人员执行第二预定义操作,则将更新的人员的脸部三维坐标发送至所述语音定位和增强子系统;返回步骤S50。
具体地,同样以上述甲、乙、丙、丁四个人共处一室的场景为例,图像识别跟踪单元30中还预设了可以通过握拳3秒关闭跟踪识别。在本实施例中,所述第二预定义操作设置为握拳3秒,在更多实施例中,还可以根据实际需求将所述第二预定义操作设置为各种不同的手势、各类肢体动作等不同的操作,只要可以通过摄像头10采集并通过图像识别跟踪单元30识别,即可实现相同的技术效果。
当甲握拳3秒之后,摄像头10采集到这一序列图像,图像识别跟踪单元30识别出甲执行了握拳3秒的操作,停止对甲的跟踪识别,同时向所述语音定位和增强子系统发送提示信息,所述语音定位和增强子系统接收到提示信息后,停止对甲进行定位,同时取消对甲的语音增强。此时所述系统可响应乙、丙或丁通过手势开启跟踪识别。
上述实施例提供的结合图像的语音定位和增强系统及方法进一步通过识别自定义的动作关闭跟踪定位和语音增强,实现了智能控制跟踪定位和语音增强的开关。
在一优选实施例中,图像识别跟踪单元30和语音定位和增强单元70还用于根据摄像头10的位置和麦克风阵列50的位置统一三维坐标系。
图4为本发明一优选实施例中结合图像的语音定位和增强方法的流程图。该定位方法可应用在上述实施例提供的定位系统中。
如图4所示,在一优选实施例中,步骤S20之前还包括:
S10:根据摄像头的位置和麦克风阵列的位置统一三维坐标系。
上述实施例提供的系统和方法进一步通过根据摄像头的位置和麦克风阵列的位置统一三维坐标系,使语音定位和增强单元无需对接收的脸部三维坐标进行坐标换算,减少了计算的工作量,降低了设备的硬件要求。
在一优选实施例中,语音定位和增强单元70还用于利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
在对应的方法实施例中,步骤S50中所述的根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息还包括利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
上述实施例提供的系统和方法进一步通过利用所述空间滤波算法根据实时脸部三维坐标进行实时的空域滤波调整,优化了语音信息的采集效果,从而优化了最终跟踪定位的效果。
在一优选实施例中,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
在一优选实施例中,麦克风阵列50包括一组双麦克风阵列。具体地,在更多实施例中,麦克风阵列50可以包括多对麦克风阵列以实现多线程跟踪定位和语音加强,也可以采用其它不同组成结构的麦克风阵列,只要能实现语音采集和定向语音加强,即可实现同样的技术效果。
上述实施例提供的系统和方法进一步通过采用一组双麦克风阵列,即实现了通过双麦克风阵列和摄像头实现立体的空间定位。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,图像识别跟踪单元30和语音定位和增强单元70可以是设置在计算机或移动智能设备中的软件程序,通过有线或无线的方式与摄像头10和麦克风阵列50连接;也可以是单独进行图像跟踪识别或语音定位的硬件芯片。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,图像识别跟踪单元30还可以被描述为“用于定位摄像头所跟踪人员的定位单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种结合图像的语音定位和增强系统,其特征在于,所述系统包括图像识别跟踪子系统和语音定位和增强子系统;
所述图像识别跟踪子系统包括:
摄像头,用于采集当前场景的图像序列;
图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义肢体动作唤醒语音定位和增强子系统,并将所缓存的执行所述第一预定义肢体动作的人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别执行所述第一预定义肢体动作的人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;
所述语音定位和增强子系统包括:
麦克风阵列,用于采集语音信息;
语音定位和增强单元,用于根据接收的执行所述第一预定义肢体动作的人员的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对执行所述第一预定义肢体动作的人员进行定位和语音增强;
所述图像识别跟踪单元还用于识别执行所述第一预定义肢体动作的人员执行的第二预定义肢体操作;若识别出,则停止跟踪识别执行所述第一预定义肢体动作的人员,进入并维持等待唤醒状态。
2.根据权利要求1所述的系统,其特征在于,所述图像识别跟踪单元和所述语音定位和增强单元还用于根据所述摄像头的位置和所述麦克风阵列的位置统一三维坐标系。
3.根据权利要求1所述的系统,其特征在于,所述语音定位和增强单元还用于利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
4.根据权利要求1所述的系统,其特征在于,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
5.根据权利要求1-4任一项所述的系统,其特征在于,所述麦克风阵列包括一组双麦克风阵列。
6.一种结合图像的语音定位和增强方法,其特征在于,所述方法包括:
采集当前场景的图像序列;
识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;
通过识别所述人员执行的第一预定义肢体动作唤醒语音定位和增强子系统,并将所缓存的执行所述第一预定义肢体动作的人员的脸部三维坐标发送至所述语音定位和增强子系统;
根据接收的执行所述第一预定义肢体动作的人员的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对执行所述第一预定义肢体动作的人员进行定位和语音增强;
跟踪识别执行所述第一预定义肢体动作的人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别执行所述第一预定义肢体动作的人员;
其中,跟踪识别执行所述第一预定义肢体动作的人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别执行所述第一预定义肢体动作的人员,包括:
识别执行所述第一预定义肢体动作的人员执行的第二预定义操作:
若识别出执行所述第一预定义肢体动作的人员执行第二预定义操作,则停止跟踪识别执行所述第一预定义肢体动作的人员,进入并维持等待唤醒状态;
若未识别出执行所述第一预定义肢体动作的人员执行第二预定义操作,则将更新的执行所述第一预定义肢体动作的人员的脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别执行所述第一预定义肢体动作的人员。
7.根据权利要求6所述的方法,其特征在于,所述跟踪识别执行所述第一预定义肢体动作的人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别执行所述第一预定义肢体动作的人员包括:
跟踪识别所述人员,若无法跟踪识别,则停止跟踪识别所述人员,进入并维持等待唤醒状态。
8.根据权利要求6所述的方法,其特征在于,所述采集当前场景的图像序列之前还包括:根据摄像头的位置和麦克风阵列的位置统一三维坐标系。
9.根据权利要求6所述的方法,其特征在于,所述根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息还包括利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
10.根据权利要求6所述的方法,其特征在于,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
11.根据权利要求6-10任一项所述的方法,其特征在于,所述麦克风阵列包括一组双麦克风阵列。
CN201610304047.6A 2016-05-10 2016-05-10 结合图像的语音定位和增强系统及方法 Active CN106024003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610304047.6A CN106024003B (zh) 2016-05-10 2016-05-10 结合图像的语音定位和增强系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610304047.6A CN106024003B (zh) 2016-05-10 2016-05-10 结合图像的语音定位和增强系统及方法

Publications (2)

Publication Number Publication Date
CN106024003A CN106024003A (zh) 2016-10-12
CN106024003B true CN106024003B (zh) 2020-01-31

Family

ID=57100033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610304047.6A Active CN106024003B (zh) 2016-05-10 2016-05-10 结合图像的语音定位和增强系统及方法

Country Status (1)

Country Link
CN (1) CN106024003B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106653041B (zh) * 2017-01-17 2020-02-14 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN106782585B (zh) 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
CN107680593A (zh) 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN108877787A (zh) * 2018-06-29 2018-11-23 北京智能管家科技有限公司 语音识别方法、装置、服务器及存储介质
CN110767246B (zh) * 2018-07-26 2022-08-02 深圳市优必选科技有限公司 一种噪声处理的方法、装置及机器人
CN109194916B (zh) * 2018-09-17 2022-05-06 东莞市丰展电子科技有限公司 一种具有图像处理模块的可移动拍摄系统
CN109194918B (zh) * 2018-09-17 2022-04-19 东莞市丰展电子科技有限公司 一种基于移动载体的拍摄系统
CN109218612B (zh) * 2018-09-17 2022-04-22 东莞市丰展电子科技有限公司 一种追踪拍摄系统及拍摄方法
CN109506568B (zh) * 2018-12-29 2021-06-18 思必驰科技股份有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN109903843A (zh) * 2019-01-24 2019-06-18 上海联影医疗科技有限公司 医疗扫描设备的声源定位及语音采集系统和语音采集方法
CN110188179B (zh) * 2019-05-30 2020-06-19 浙江远传信息技术股份有限公司 语音定向识别交互方法、装置、设备及介质
CN110366065A (zh) * 2019-07-24 2019-10-22 长沙世邦通信技术有限公司 定向跟随人脸位置拾音的方法、装置、系统及存储介质
CN111476126B (zh) * 2020-03-27 2024-02-23 海信集团有限公司 一种室内定位方法、系统及智能设备
CN111932619A (zh) * 2020-07-23 2020-11-13 安徽声讯信息技术有限公司 结合图像识别和语音定位的麦克风跟踪系统及方法
WO2022151032A1 (en) * 2021-01-13 2022-07-21 Alibaba Group Holding Limited Responsive localization of persons by a non-stereo vision system
CN114023351B (zh) * 2021-12-17 2022-07-08 广东讯飞启明科技发展有限公司 一种基于嘈杂环境的语音增强方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN103716540A (zh) * 2013-12-16 2014-04-09 乐视致新电子科技(天津)有限公司 一种定位方法、相关设备及系统
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN105204628A (zh) * 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150022636A1 (en) * 2013-07-19 2015-01-22 Nvidia Corporation Method and system for voice capture using face detection in noisy environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160398A (zh) * 2008-07-31 2011-08-17 诺基亚公司 电子设备定向音频视频采集
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN103716540A (zh) * 2013-12-16 2014-04-09 乐视致新电子科技(天津)有限公司 一种定位方法、相关设备及系统
CN105204628A (zh) * 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法

Also Published As

Publication number Publication date
CN106024003A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106024003B (zh) 结合图像的语音定位和增强系统及方法
CN109506568B (zh) 一种基于图像识别和语音识别的声源定位方法及装置
CN109683135A (zh) 一种声源定位方法及装置、目标抓拍系统
CN108052079B (zh) 设备控制方法、装置、设备控制装置及存储介质
CN107346661B (zh) 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
WO2018049782A1 (zh) 一种家电控制方法、装置、系统及智能空调
US20120259638A1 (en) Apparatus and method for determining relevance of input speech
CN109032039B (zh) 一种语音控制的方法及装置
JP2019532543A (ja) 制御システムならびに制御処理方法および装置
US11806862B2 (en) Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
CN108733419B (zh) 智能设备的持续唤醒方法、装置、智能设备和存储介质
CN105592268A (zh) 视频会议系统、处理装置及视频会议方法
CN102932212A (zh) 一种基于多通道交互方式的智能家居控制系统
US10739952B2 (en) Multiple sensors processing system for natural user interface applications
CN104102181A (zh) 智能家居控制方法、装置及系统
CN110400566B (zh) 识别方法和电子设备
KR100918094B1 (ko) 이동식 영상 카메라를 구비한 제스처 인식 시스템
CN111432115A (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
WO2021017096A1 (zh) 一种将人脸信息录入数据库的方法和装置
CN107589686A (zh) 一种视觉和振动阵列感知一体化的智能安防监控系统
CN110730115A (zh) 语音控制方法及装置、终端、存储介质
CN108089702B (zh) 一种基于超声波的人机体感交互方法及系统
CN110850973B (zh) 音频设备的控制方法、音频设备及存储介质
CN111551921A (zh) 一种声像联动的声源定向系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant