CN106024003A - 结合图像的语音定位和增强系统及方法 - Google Patents
结合图像的语音定位和增强系统及方法 Download PDFInfo
- Publication number
- CN106024003A CN106024003A CN201610304047.6A CN201610304047A CN106024003A CN 106024003 A CN106024003 A CN 106024003A CN 201610304047 A CN201610304047 A CN 201610304047A CN 106024003 A CN106024003 A CN 106024003A
- Authority
- CN
- China
- Prior art keywords
- personnel
- voice
- face
- tracking
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 239000003623 enhancer Substances 0.000 claims description 31
- 239000004568 cement Substances 0.000 claims description 17
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 9
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000002618 waking effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种结合图像的语音定位和增强系统及方法,所述定位系统包括图像识别跟踪子系统和语音定位和增强子系统。图像识别跟踪子系统包括:摄像头,用于采集图像序列;图像识别跟踪单元,用于识别人员并缓存脸部三维坐标;通过识别人员执行的第一预定义操作唤醒语音定位和增强子系统,并发送脸部三维坐标;跟踪识别所述人员,并发送更新的脸部三维坐标。语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位。本发明实现了结合图像的语音跟踪定位,且具备适用于复杂环境的优点。
Description
技术领域
本申请涉及语音定位技术领域,具体涉及一种结合图像的语音定位和增强系统及方法。
背景技术
现有的语音定位系统和方法都是基于麦克风阵列来完成定位,无法实现实时跟踪,只能通过语音唤醒定位系统重新进行麦克风阵列的定位,无法实时跟踪监控,用户体验效果较差。
同时,现有的语音定位系统和方法因自身的限制对适用环境的要求较高:一方面,抗干扰能力较差,例如抗回声干扰的能力较差,又例如集成在电视、音响等设备中的语音定位系统,因设备本身发音,自身发声内容同样会对定位干扰;另一方面,复杂环境的适应能力较差,噪声环境会降低定位精度,非稳态噪声的干扰,例如同时有多人说话,房间混响也会对定位精度造成影响,例如周围硬反射介质的高混响环境,如玻璃等。
此外,现有的语音定位系统和方法还受到麦克风阵列的限制,例如双麦克风阵列只能满足180°的平面定位,四阵列麦克风只能满足360°的平面定位,通常需要通过复杂阵型的麦克风阵列实现空间定位,而难以通过较简单设备实现立体的空间定位。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能实现跟踪的语音定位且适用于复杂环境的结合图像的语音定位和增强系统及方法。
第一方面,本发明提供一种结合图像的语音定位和增强系统,所述系统包括图像识别跟踪子系统和语音定位和增强子系统。
所述图像识别跟踪子系统包括:
摄像头,用于采集当前场景的图像序列;
图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。
所述语音定位和增强子系统包括:
麦克风阵列,用于采集语音信息;
语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
第二方面,本发明提供一种结合图像的语音定位和增强方法,所述方法包括:
采集当前场景的图像序列;
识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;
唤醒语音定位和增强子系统,并将所述脸部三维坐标发送至所述语音定位和增强子系统;
根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强;
跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员。
本发明诸多实施例提供的结合图像的语音定位和增强系统及方法通过摄像头识别人员并缓存脸部三维坐标,通过自定义的动作开启跟踪识别,为语音定位和增强子系统提供了实时的脸部三维坐标,语音定位和增强单元根据空间滤波算法和实时的脸部三维坐标控制所述麦克风阵列定向聚焦采集所跟踪人员的语音信息,最终实现了结合图像的语音跟踪定位和语音增强,同时实现了避免其它音源的干扰,具备了适用于复杂环境的优点;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过识别自定义的动作关闭跟踪定位和语音增强,实现了智能控制跟踪定位和语音增强的开关;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过根据摄像头的位置和麦克风阵列的位置统一三维坐标系,使语音定位和增强单元无需对接收的脸部三维坐标进行换算,减少了计算的工作量,降低了设备的硬件要求;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过利用所述空间滤波算法根据实时脸部三维坐标进行实时的空域滤波调整,优化了语音信息的采集效果,从而优化了最终跟踪定位的效果;
本发明一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过采用一组双麦克风阵列,即实现了通过双麦克风阵列和摄像头实现立体的空间定位。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中结合图像的语音定位和增强系统的结构示意图。
图2为本发明一实施例中结合图像的语音定位和增强方法的流程图。
图3为本发明一优选实施例中步骤S60的流程图。
图4为本发明一优选实施例中结合图像的语音定位和增强方法的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明一实施例中结合图像的语音定位和增强系统的结构示意图。
如图1所示,在本实施例中,本发明提供的定位系统包括图像识别跟踪子系统和语音定位和增强子系统。
所述图像识别跟踪子系统包括摄像头10和图像识别跟踪单元30。摄像头10用于采集当前场景的图像序列。图像识别跟踪单元30用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。
所述语音定位和增强子系统包括麦克风阵列50和语音定位和增强单元70。麦克风阵列50用于采集语音信息。语音定位和增强单元70用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列50定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
图2为本发明一实施例中结合图像的语音定位和增强方法的流程图。图2所示的定位方法可应用在图1所示的定位系统中。
如图2所示,在本实施例中,本发明提供的结合图像的语音定位和增强方法具体包括:
S20:采集当前场景的图像序列。
S30:识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标。
S40:通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统。
S50:根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
S60:跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回步骤S50进行循环,直至无法跟踪识别所述人员。
例如在设置了上述定位系统的一间房间内,同时有甲、乙、丙、丁四个人,图像识别跟踪单元30识别四人的脸部并分别缓存各人的脸部三维坐标。图像识别跟踪单元30中预设了可以通过招手3秒开启跟踪识别。在本实施例中,所述第一预定义操作设置为招手3秒,在更多实施例中,还可以根据实际需求将所述第一预定义操作设置为各种不同的手势、各类肢体动作等不同的操作,只要可以通过摄像头10采集并通过图像识别跟踪单元30识别,即可实现相同的技术效果。
当甲招手3秒之后,摄像头10采集到这一序列图像,图像识别跟踪单元30识别出甲执行了招手3秒的操作,随即唤醒了语音定位和增强子系统,并将所缓存的甲的脸部三维坐标发送至所述语音定位和增强子系统,同时对甲进行快速注册,开始进行跟踪识别,同时对于未进行注册的乙丙丁三人不进行跟踪识别。
当甲未移动时,语音定位和增强单元70根据空间滤波算法和之前接收的脸部三维坐标持续控制麦克风阵列50定向聚焦采集甲的语音信息,同时进行语音增强;
当甲移动时,摄像头10采集到相关的图像序列,图像识别跟踪单元30识别出甲进行了移动,缓存新的脸部三维坐标并发送至语音定位和增强单元70,语音定位和增强单元70根据实时接收的脸部三维坐标计算实时的脸部角度信息,根据空间滤波算法和实时的脸部角度信息控制麦克风阵列50跟踪甲,定向聚焦采集语音信息,同时对甲进行语音增强;
当甲移动出了摄像头10的采集范围之后,图像识别跟踪单元30无法跟踪识别甲,停止跟踪识别,进入并维持等待唤醒状态,同时发送提示信息至语音定位和增强子系统,提示停止进行定位。
在一些实施例中,所述图像识别跟踪子系统和语音定位和增强子系统设置为一体集成的装置;在另一些实施例中,所述图像识别跟踪子系统和语音定位和增强子系统可根据实际需求设置为通过通用接口连接的装置,例如采用USB接口的摄像头、标准通用接口的麦克风等。
上述实施例提供的系统和方法通过摄像头识别人员并缓存脸部三维坐标,通过自定义的动作开启跟踪识别,为语音定位和增强子系统提供了实时的脸部三维坐标,语音定位和增强单元根据空间滤波算法和实时的脸部三维坐标控制所述麦克风阵列定向聚焦采集所跟踪人员的语音信息,最终实现了结合图像的语音跟踪定位和语音增强,同时实现了避免其它音源的干扰,具备了适用于复杂环境的优点。
在一优选实施例中,图像识别跟踪单元50还用于识别所述人员执行的第二预定义操作:若识别出,则停止跟踪识别所述人员,进入并维持等待唤醒状态。
图3为本发明一优选实施例中步骤S60的流程图。该定位方法可应用在上述实施例提供的定位系统中。
如图3所示,在一优选实施例中,步骤S60具体包括:
S61:跟踪识别人员,若无法跟踪识别,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
S63:识别所述人员执行的第二预定义操作:
若识别出所述人员执行第二预定义操作,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
S65:若未识别出所述人员执行第二预定义操作,则将更新的人员的脸部三维坐标发送至所述语音定位和增强子系统;返回步骤S50。
具体地,同样以上述甲、乙、丙、丁四个人共处一室的场景为例,图像识别跟踪单元30中还预设了可以通过握拳3秒关闭跟踪识别。在本实施例中,所述第二预定义操作设置为握拳3秒,在更多实施例中,还可以根据实际需求将所述第二预定义操作设置为各种不同的手势、各类肢体动作等不同的操作,只要可以通过摄像头10采集并通过图像识别跟踪单元30识别,即可实现相同的技术效果。
当甲握拳3秒之后,摄像头10采集到这一序列图像,图像识别跟踪单元30识别出甲执行了握拳3秒的操作,停止对甲的跟踪识别,同时向所述语音定位和增强子系统发送提示信息,所述语音定位和增强子系统接收到提示信息后,停止对甲进行定位,同时取消对甲的语音增强。此时所述系统可响应乙、丙或丁通过手势开启跟踪识别。
上述实施例提供的结合图像的语音定位和增强系统及方法进一步通过识别自定义的动作关闭跟踪定位和语音增强,实现了智能控制跟踪定位和语音增强的开关。
在一优选实施例中,图像识别跟踪单元30和语音定位和增强单元70还用于根据摄像头10的位置和麦克风阵列50的位置统一三维坐标系。
图4为本发明一优选实施例中结合图像的语音定位和增强方法的流程图。该定位方法可应用在上述实施例提供的定位系统中。
如图4所示,在一优选实施例中,步骤S20之前还包括:
S10:根据摄像头的位置和麦克风阵列的位置统一三维坐标系。
上述实施例提供的系统和方法进一步通过根据摄像头的位置和麦克风阵列的位置统一三维坐标系,使语音定位和增强单元无需对接收的脸部三维坐标进行坐标换算,减少了计算的工作量,降低了设备的硬件要求。
在一优选实施例中,语音定位和增强单元70还用于利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
在对应的方法实施例中,步骤S50中所述的根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息还包括利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
上述实施例提供的系统和方法进一步通过利用所述空间滤波算法根据实时脸部三维坐标进行实时的空域滤波调整,优化了语音信息的采集效果,从而优化了最终跟踪定位的效果。
在一优选实施例中,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
在一优选实施例中,麦克风阵列50包括一组双麦克风阵列。具体地,在更多实施例中,麦克风阵列50可以包括多对麦克风阵列以实现多线程跟踪定位和语音加强,也可以采用其它不同组成结构的麦克风阵列,只要能实现语音采集和定向语音加强,即可实现同样的技术效果。
上述实施例提供的系统和方法进一步通过采用一组双麦克风阵列,即实现了通过双麦克风阵列和摄像头实现立体的空间定位。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,图像识别跟踪单元30和语音定位和增强单元70可以是设置在计算机或移动智能设备中的软件程序,通过有线或无线的方式与摄像头10和麦克风阵列50连接;也可以是单独进行图像跟踪识别或语音定位的硬件芯片。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,图像识别跟踪单元30还可以被描述为“用于定位摄像头所跟踪人员的定位单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种结合图像的语音定位和增强系统,其特征在于,所述系统包括图像识别跟踪子系统和语音定位和增强子系统;
所述图像识别跟踪子系统包括:
摄像头,用于采集当前场景的图像序列;
图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;
所述语音定位和增强子系统包括:
麦克风阵列,用于采集语音信息;
语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
2.根据权利要求1所述的系统,其特征在于,所述图像识别跟踪单元还用于识别所述人员执行的第二预定义操作:若识别出,则停止跟踪识别所述人员,进入并维持等待唤醒状态。
3.根据权利要求1所述的系统,其特征在于,所述图像识别跟踪单元和所述语音定位和增强单元还用于根据所述摄像头的位置和所述麦克风阵列的位置统一三维坐标系。
4.根据权利要求1所述的系统,其特征在于,所述语音定位和增强单元还用于利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
5.根据权利要求1所述的定位系统,其特征在于,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
6.根据权利要求1-5任一项所述的系统,其特征在于,所述麦克风阵列包括一组双麦克风阵列。
7.一种结合图像的语音定位和增强方法,其特征在于,所述方法包括:
采集当前场景的图像序列;
识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;
通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;
根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强;
跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员。
8.根据权利要求7所述的方法,其特征在于,所述跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员包括:
跟踪识别所述人员,若无法跟踪识别,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
识别所述人员执行的第二预定义操作:
若识别出所述人员执行第二预定义操作,则停止跟踪识别所述人员,进入并维持等待唤醒状态;
若未识别出所述人员执行第二预定义操作,则将更新的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员。
9.根据权利要求7所述的方法,其特征在于,所述采集当前场景的图像序列之前还包括:
根据摄像头的位置和麦克风阵列的位置统一三维坐标系。
10.根据权利要求7所述的方法,其特征在于,所述根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息还包括利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。
11.根据权利要求7所述的方法,其特征在于,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。
12.根据权利要求7-11任一项所述的定位方法,其特征在于,所述麦克风阵列包括一组双麦克风阵列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304047.6A CN106024003B (zh) | 2016-05-10 | 2016-05-10 | 结合图像的语音定位和增强系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304047.6A CN106024003B (zh) | 2016-05-10 | 2016-05-10 | 结合图像的语音定位和增强系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106024003A true CN106024003A (zh) | 2016-10-12 |
CN106024003B CN106024003B (zh) | 2020-01-31 |
Family
ID=57100033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610304047.6A Active CN106024003B (zh) | 2016-05-10 | 2016-05-10 | 结合图像的语音定位和增强系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106024003B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
CN107680593A (zh) * | 2017-10-13 | 2018-02-09 | 歌尔股份有限公司 | 一种智能设备的语音增强方法及装置 |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN109194916A (zh) * | 2018-09-17 | 2019-01-11 | 东莞市丰展电子科技有限公司 | 一种具有图像处理模块的可移动拍摄系统 |
CN109194918A (zh) * | 2018-09-17 | 2019-01-11 | 东莞市丰展电子科技有限公司 | 一种基于移动载体的拍摄系统 |
CN109218612A (zh) * | 2018-09-17 | 2019-01-15 | 东莞市丰展电子科技有限公司 | 一种追踪拍摄系统及拍摄方法 |
CN109506568A (zh) * | 2018-12-29 | 2019-03-22 | 苏州思必驰信息科技有限公司 | 一种基于图像识别和语音识别的声源定位方法及装置 |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN109903843A (zh) * | 2019-01-24 | 2019-06-18 | 上海联影医疗科技有限公司 | 医疗扫描设备的声源定位及语音采集系统和语音采集方法 |
CN110188179A (zh) * | 2019-05-30 | 2019-08-30 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110366065A (zh) * | 2019-07-24 | 2019-10-22 | 长沙世邦通信技术有限公司 | 定向跟随人脸位置拾音的方法、装置、系统及存储介质 |
CN110767246A (zh) * | 2018-07-26 | 2020-02-07 | 深圳市优必选科技有限公司 | 一种噪声处理的方法、装置及机器人 |
CN111476126A (zh) * | 2020-03-27 | 2020-07-31 | 海信集团有限公司 | 一种室内定位方法、系统及智能设备 |
CN111932619A (zh) * | 2020-07-23 | 2020-11-13 | 安徽声讯信息技术有限公司 | 结合图像识别和语音定位的麦克风跟踪系统及方法 |
CN114023351A (zh) * | 2021-12-17 | 2022-02-08 | 广东讯飞启明科技发展有限公司 | 一种基于嘈杂环境的语音增强方法及系统 |
CN114706041A (zh) * | 2020-12-31 | 2022-07-05 | 三峡大学 | 一种基于声波定位的无人机救援装置的定位方法 |
WO2022151032A1 (en) * | 2021-01-13 | 2022-07-21 | Alibaba Group Holding Limited | Responsive localization of persons by a non-stereo vision system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102160398A (zh) * | 2008-07-31 | 2011-08-17 | 诺基亚公司 | 电子设备定向音频视频采集 |
CN103716540A (zh) * | 2013-12-16 | 2014-04-09 | 乐视致新电子科技(天津)有限公司 | 一种定位方法、相关设备及系统 |
CN103841357A (zh) * | 2012-11-21 | 2014-06-04 | 中兴通讯股份有限公司 | 基于视频跟踪的麦克风阵列声源定位方法、装置及系统 |
US20150022636A1 (en) * | 2013-07-19 | 2015-01-22 | Nvidia Corporation | Method and system for voice capture using face detection in noisy environments |
CN105204628A (zh) * | 2015-09-01 | 2015-12-30 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
-
2016
- 2016-05-10 CN CN201610304047.6A patent/CN106024003B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102160398A (zh) * | 2008-07-31 | 2011-08-17 | 诺基亚公司 | 电子设备定向音频视频采集 |
CN103841357A (zh) * | 2012-11-21 | 2014-06-04 | 中兴通讯股份有限公司 | 基于视频跟踪的麦克风阵列声源定位方法、装置及系统 |
US20150022636A1 (en) * | 2013-07-19 | 2015-01-22 | Nvidia Corporation | Method and system for voice capture using face detection in noisy environments |
CN103716540A (zh) * | 2013-12-16 | 2014-04-09 | 乐视致新电子科技(天津)有限公司 | 一种定位方法、相关设备及系统 |
CN105204628A (zh) * | 2015-09-01 | 2015-12-30 | 涂悦 | 一种基于视觉唤醒的语音控制方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106328156B (zh) * | 2016-08-22 | 2020-02-18 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
WO2018137704A1 (zh) * | 2017-01-26 | 2018-08-02 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
CN106782585B (zh) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
US11302341B2 (en) | 2017-01-26 | 2022-04-12 | Yutou Technology (Hangzhou) Co., Ltd. | Microphone array based pickup method and system |
US10984816B2 (en) | 2017-10-13 | 2021-04-20 | Goertek Inc. | Voice enhancement using depth image and beamforming |
CN107680593A (zh) * | 2017-10-13 | 2018-02-09 | 歌尔股份有限公司 | 一种智能设备的语音增强方法及装置 |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN110767246A (zh) * | 2018-07-26 | 2020-02-07 | 深圳市优必选科技有限公司 | 一种噪声处理的方法、装置及机器人 |
CN109218612A (zh) * | 2018-09-17 | 2019-01-15 | 东莞市丰展电子科技有限公司 | 一种追踪拍摄系统及拍摄方法 |
CN109194918A (zh) * | 2018-09-17 | 2019-01-11 | 东莞市丰展电子科技有限公司 | 一种基于移动载体的拍摄系统 |
CN109194916A (zh) * | 2018-09-17 | 2019-01-11 | 东莞市丰展电子科技有限公司 | 一种具有图像处理模块的可移动拍摄系统 |
CN109506568A (zh) * | 2018-12-29 | 2019-03-22 | 苏州思必驰信息科技有限公司 | 一种基于图像识别和语音识别的声源定位方法及装置 |
CN109903843A (zh) * | 2019-01-24 | 2019-06-18 | 上海联影医疗科技有限公司 | 医疗扫描设备的声源定位及语音采集系统和语音采集方法 |
CN110188179A (zh) * | 2019-05-30 | 2019-08-30 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110188179B (zh) * | 2019-05-30 | 2020-06-19 | 浙江远传信息技术股份有限公司 | 语音定向识别交互方法、装置、设备及介质 |
CN110366065A (zh) * | 2019-07-24 | 2019-10-22 | 长沙世邦通信技术有限公司 | 定向跟随人脸位置拾音的方法、装置、系统及存储介质 |
CN111476126A (zh) * | 2020-03-27 | 2020-07-31 | 海信集团有限公司 | 一种室内定位方法、系统及智能设备 |
CN111476126B (zh) * | 2020-03-27 | 2024-02-23 | 海信集团有限公司 | 一种室内定位方法、系统及智能设备 |
CN111932619A (zh) * | 2020-07-23 | 2020-11-13 | 安徽声讯信息技术有限公司 | 结合图像识别和语音定位的麦克风跟踪系统及方法 |
CN114706041A (zh) * | 2020-12-31 | 2022-07-05 | 三峡大学 | 一种基于声波定位的无人机救援装置的定位方法 |
CN114706041B (zh) * | 2020-12-31 | 2024-04-19 | 三峡大学 | 一种基于声波定位的无人机救援装置的定位方法 |
WO2022151032A1 (en) * | 2021-01-13 | 2022-07-21 | Alibaba Group Holding Limited | Responsive localization of persons by a non-stereo vision system |
CN114023351A (zh) * | 2021-12-17 | 2022-02-08 | 广东讯飞启明科技发展有限公司 | 一种基于嘈杂环境的语音增强方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106024003B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106024003A (zh) | 结合图像的语音定位和增强系统及方法 | |
US20230031491A1 (en) | Voice Awakening Method and Apparatus, Device, and Medium | |
CN102932212A (zh) | 一种基于多通道交互方式的智能家居控制系统 | |
US20120259638A1 (en) | Apparatus and method for determining relevance of input speech | |
US20180231653A1 (en) | Entity-tracking computing system | |
US20200412772A1 (en) | Audio source enhancement facilitated using video data | |
CN104049721B (zh) | 信息处理方法及电子设备 | |
US9001199B2 (en) | System and method for human detection and counting using background modeling, HOG and Haar features | |
CN107230476A (zh) | 一种自然的人机语音交互方法和系统 | |
US20130107057A1 (en) | Method and apparatus for object tracking and recognition | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
CN110970020A (zh) | 一种利用声纹提取有效语音信号的方法 | |
CN109299641B (zh) | 一种列车调度员疲劳监测图像自适应处理算法 | |
CN114779922A (zh) | 教学设备的控制方法、控制设备、教学系统和存储介质 | |
Juan | Gesture recognition and information recommendation based on machine learning and virtual reality in distance education | |
CN108594987A (zh) | 基于多模态交互的多人机协同行为监控系统及其操控方法 | |
Lei et al. | Artificial robot navigation based on gesture and speech recognition | |
CN112700568B (zh) | 一种身份认证的方法、设备及计算机可读存储介质 | |
Gebru et al. | Audio-visual speech-turn detection and tracking | |
CN111932619A (zh) | 结合图像识别和语音定位的麦克风跟踪系统及方法 | |
CN110364159B (zh) | 一种语音指令的执行方法、装置及电子设备 | |
CN105957535A (zh) | 机器人语音信号探测识别系统 | |
CN115174959B (zh) | 视频3d音效设置方法及装置 | |
CN111103807A (zh) | 一种家用终端设备的控制方法及装置 | |
CN106997449A (zh) | 具有人脸识别功能的机器人和人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |