CN103902963B - 一种识别方位及身份的方法和电子设备 - Google Patents

一种识别方位及身份的方法和电子设备 Download PDF

Info

Publication number
CN103902963B
CN103902963B CN201210589531.XA CN201210589531A CN103902963B CN 103902963 B CN103902963 B CN 103902963B CN 201210589531 A CN201210589531 A CN 201210589531A CN 103902963 B CN103902963 B CN 103902963B
Authority
CN
China
Prior art keywords
orientation
people
camera
identity
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210589531.XA
Other languages
English (en)
Other versions
CN103902963A (zh
Inventor
薛苏葵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201210589531.XA priority Critical patent/CN103902963B/zh
Publication of CN103902963A publication Critical patent/CN103902963A/zh
Application granted granted Critical
Publication of CN103902963B publication Critical patent/CN103902963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的实施例提供一种识别方位及身份的方法和电子设备,涉及计算机领域,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。其方法为:首先通过声源定位获取声源的第一方位集合,再通过定位有嘴唇动作的人的获取声源的第二方位集合,并获取有嘴唇动作的人的身份集合,而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合,最后根据第三方位集合和身份集合确定讲话者的方位及身份。本发明实施例用于声源的定位和声源身份的识别。

Description

一种识别方位及身份的方法和电子设备
技术领域
本发明涉及计算机领域,尤其涉及一种识别方位及身份的方法和电子设备。
背景技术
目前,随着语音技术发展迅速,声源定位可以被应用到很多的领域。例如在有多人交流的场景中,通过适当技术去判断说话人的方位和说话人的身份;又例如在低成本的多人视屏会议系统当中,或者在移动的机器人平台上,又或者在Smart TV上,甚至是舞台的智能灯光控制等等。
以有多人交流的场景为例,在面对多个输入声源或者是多个说话者的时候,传统的做法是:先通过一个麦克风阵列(Mic Array)收集声音信号,然后在阵列里面将不同通道的获取的声波进行相互变换(由于方位不同,导致声音有差异)从而分离出声音,进而可以辨别出大致方位。理论上来讲,麦克风通道声音的数量要与声源的数相同,而实际情况往往是麦克风的通道数量要大于声源数量,而在背景声音复杂或者有多个人同时说话的时候,往往定位的效果不会很理想,比如看电视的时候。而且对于这种声源定位,则对于声源分离的要求则更加的苛刻,而且需要收集10s-20s以上的声波信号,通过统计学上的比对,才可以得出一个相对精确的结果。
而且实际的环境往往是很复杂,各种噪音都会对最终的定位和身份识别的正确行造成很大影响,而且10-20s的声音样本收集过程过长,也使得整个系统无法实时的做出反馈。因此,如何准确、高效的定位识别出讲话者成为亟需解决的问题。
发明内容
本发明的实施例提供一种识别方位及身份的方法和电子设备,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种识别方位及身份的方法,应用于识别讲话者的方位及身份,所述方法包括:
采集声音,获取声音所在声源的方位信息,获得第一方位集合;
获取有嘴唇动作的人的方位信息,获得第二方位集合;
获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合;
根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合;
根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份。
另一方面,提供一种电子设备,所述电子设备包括:
第一定位单元,用于采集声音,获取声音所在声源的方位信息,获得第一方位集合;
第二定位单元,用于获取有嘴唇动作的人的方位信息,获得第二方位集合;
身份识别单元,用于获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合;
第三定位单元,用于根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合;
身份匹配单元,用于根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份。
本发明的实施例提供一种识别方位及身份的方法和电子设备,首先通过声源定位获取声源的第一方位集合,再通过定位有嘴唇动作的人的获取声源的第二方位集合,并获取有嘴唇动作的人的身份集合,而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合,最后根据第三方位集合和身份集合确定讲话者的方位及身份,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别方位及身份的方法的流程示意图;
图2为本发明实施例提供的另一种识别方位及身份的方法的流程示意图;
图3为本发明实施例提供的一种电子设备的结构示意图;
图4为本发明实施例提供的另一种电子设备的结构示意图;
图5为本发明实施例提供的又一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种识别方位及身份的方法,如图1所示,方法包括:
101、采集声音,获取声音所在声源的方位信息,获得第一方位集合。
102、获取有嘴唇动作的人的方位信息,获得第二方位集合。
103、获取有嘴唇动作的人的身份,得到有嘴唇动作的人的身份集合。
104、根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合。
105、根据第三方位集合和身份集合确定讲话者的方位信息及身份。
需要说明的是,步骤101、102和103之间没有固定的执行顺序,这里不做限定。
本发明的实施例提供一种识别方位及身份的方法,首先通过声源定位获取声源的第一方位集合,再通过定位有嘴唇动作的人的获取声源的第二方位集合,并获取有嘴唇动作的人的身份集合,而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合,最后根据第三方位集合和身份集合确定讲话者的方位及身份,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。
本发明另一实施例提供另一种识别方位及身份的方法,如图2所示,包括:
201、采集声音,获取声音所在声源的方位信息,获得第一方位集合。
示例性的,可以通过一个麦克风来采集声音,并根据采集到的声音进行声源定位(Sound Source Tracking),该麦克风可以是一个麦克风阵列,包括了多个通道,在接收到声波信号时,该麦克风阵列的不同通道将获取的声波进行互相变换,由于每个通道的位置不同,导致接收到的声音有差异,根据该差异就可以辨别出声源的大致方位(而辨别方位的手法同主动式的声纳探测类似)。
其中,采用麦克风阵列进行声音定位,一般情况下只能定位声源的方向,并不能定位声源的距离,因此,上述采用麦克风阵列获得的声源方位信息一般可以为相对角度。
例如,该角度可以是声源和麦克风所在直线与麦克风的某一基准线的夹角,该麦克风的基准线可以是麦克风的中轴线,或者可以是麦克风的水平线,麦克风的水平线为经过麦克风的中心且垂直于麦克风的中轴线的直线。
当然,上述声源可能是一个声源,也可能是多个声源,因此这里得到的声源的方位信息是一个方位集合,可以称为声源的第一方位集合,可以用D1表示。
202、侦测出可侦测范围内的人脸。
示例性的,可以利用支持人脸侦测(Face Detection)技术的摄像头在可侦测范围内侦测出所有人脸。
203、在已侦测出的人脸中识别有嘴唇动作的人脸,以确定有嘴唇动作的人。
示例性的,可以对已侦测出的所有人脸进行唇部动作识别(LipMovementDetection),在这些人脸中识别出有嘴唇动作的人脸,从而确定有嘴唇动作的人。
204、获取有嘴唇动作的人的方位信息,获得第二方位集合。
示例性的,通过摄像头可以获取有嘴唇动作的人和摄像头所在直线与该摄像头的某一基准线的夹角,该摄像头的基准线可以是摄像头的中轴线,或摄像头的水平线,该摄像头的水平线可以为经过摄像头的中心且垂直于摄像头中轴线的直线。
需要注意的是,麦克风的中轴线与摄像头的中轴线重合,且麦克风的中心与摄像头的中心重合,这样就使得麦克风和摄像头在获取相对角度时,参考的标准线是相同的,避免了不必要的误差。
当然,上述有嘴唇动作的人可能是一个,也可能是多个,因此这里得到的有嘴唇动作的人的方位信息是一个方位集合,可以称为声源的第二方位集合,用D2表示。
进一步的,采用深度摄像头还可以获取有嘴唇动作的人与摄像头的距离,将有嘴唇动作的人与摄像头的距离也作为有嘴唇动作的人的方位信息,这样根据角度和距离就可以获得更加精确的方位信息。
205、获取有嘴唇动作的人的身份,得到有嘴唇动作的人的身份集合。
具体的,可以将有嘴唇动作的人的面部特征与预存的面部特征进行匹配,并根据面部特征与身份的对应关系获取有嘴唇动作的人的身份,得到有嘴唇动作的人的身份集合。
需要说明的是,步骤204与步骤205没有固定的顺序,这里不做限定。
206、根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合。
将第一方位集合和声源的第二方位集合取交集,以获取被的第一集合和第二集合同时包括的方位信息,获得第三方位集合。
具体的,可以将第一方位集合中的声源和麦克风所在直线与麦克风的基准线的夹角,与的第二方位集合中的有嘴唇动作的人和摄像头所在直线与摄像头的基准线的夹角进行对比,若存在大小相同的夹角,则将该夹角的角度确定为讲话者方位信息,获得第三方位集合。其中,关于麦克风的基准线以及摄像头的基准线的选取方法可参照步骤201和步骤204,这里不再赘述。
或者,可以利用加权平均公式根据第一方位集合和第二方位集合确定讲话者方位信息,获得第三方位集合;
其中,加权平均公式包括:D=ω1D12D2,其中,D为第三方位集合,D1为第一方位集合,D2为第二方位集合,ω1和ω2为系数,且(0<ω1<1,0<ω2<1,ω12=1)。
其中,ω1和ω2的值可以根据实际的算法及测试来选取最佳值,本实施例不做限定。
这样,在使用声源定位的同时,加入了人脸侦测和识别技术来确定讲话者的方位,比单纯使用声源定位更加精确,而且人脸侦测和识别的速度相当快,相比通过使用声纹识别技术来识别讲话者的身份而言,具有更高的识别速度,所以上述方法能够明显提高对讲话者的方位和身份的识别精度,并且能够提高讲话者方位及身份的识别效率,实现实时反馈。
本发明的实施例提供一种识别方位及身份的方法,首先通过声源定位获取声源的第一方位集合,再通过定位有嘴唇动作的人的获取声源的第二方位集合,并获取有嘴唇动作的人的身份集合,而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合,最后根据第三方位集合和身份集合确定讲话者的方位及身份,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。
本发明的又一实施例提供一种电子设备01,如图3所示,电子设备包括:
第一定位单元011,用于采集声音,获取声音所在声源的方位信息,获得第一方位集合;
第二定位单元012,用于获取有嘴唇动作的人的方位信息,获得第二方位集合;
身份识别单元013,用于获取有嘴唇动作的人的身份,得到有嘴唇动作的人的身份集合;
第三定位单元014,用于根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合;
身份匹配单元015,用于根据第三方位集合和身份集合确定讲话者的方位信息及身份。
可选的,第一定位单元011可以具体用于:
获取每个声源和麦克风所在直线与麦克风的基准线的夹角作为该声源方位的方位信息,获得第一方位集合;
麦克风的基准线包括麦克风的中轴线,或麦克风的水平线,麦克风的水平线为经过麦克风的中心且垂直于麦克风的中轴线的直线。
可选的,如图4所示,第二定位单元012可以包括:
人脸识别单元0121,用于侦测出可侦测范围内的人脸;
唇部运动识别单元0122,用于在已侦测出的人脸中识别有嘴唇动作的人脸,以确定有嘴唇动作的人;
角度获取单元0123,用于获取每个有嘴唇动作的人和摄像头所在直线与摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息,获得第二方位集合;
摄像头的基准线包括摄像头的中轴线,或摄像头的水平线,摄像头的水平线为经过摄像头的中心且垂直于摄像头中轴线的直线;
其中,麦克风的中轴线与摄像头的中轴线重合,且麦克风的中心与摄像头的中心重合。
可选的,如图5所示,第二定位单元012还可以包括:
距离获取单元0124,用于获取每个有嘴唇动作的人与摄像头的距离,将有嘴唇动作的人与摄像头的距离也作为有嘴唇动作的人的方位信息。
可选的,身份识别单元013可以具体用于:
将有嘴唇动作的人的面部特征与预存的面部特征进行匹配,并根据面部特征与身份的对应关系获取有嘴唇动作的人的身份,得到有嘴唇动作的人的身份集合。
可选的,第三定位单元014可以具体用于:
将第一集合和第二集合取交集,以获取被的第一集合和第二集合同时包括的方位信息,获得第三方位集合;或
利用加权平均公式根据第一集合和第二集合确定第三方位集合;
其中,加权平均公式包括:D=ω1D12D2,其中,D为第三方位集合,D1为第一方位集合,D2为第二方位集合,ω1和ω2为系数,且(0<ω1<1,0<ω2<1,ω12=1)。
这样,在使用声源定位的同时,加入了人脸侦测和识别技术来确定讲话者的方位,比单纯使用声源定位更加精确,而且人脸侦测和识别的速度相当快,相比通过使用声纹识别技术来识别讲话者的身份而言,具有更高的识别速度,所以上述方法能够明显提高对讲话者的方位和身份的识别精度,并且能够提高讲话者方位及身份的识别效率,实现实时反馈。
本发明的实施例提供一种电子设备,首先通过声源定位获取声源的第一方位集合,再通过定位有嘴唇动作的人的获取声源的第二方位集合,并获取有嘴唇动作的人的身份集合,而后根据第一方位集合和第二方位集合确定包括讲话者方位信息的第三方位集合,最后根据第三方位集合和身份集合确定讲话者的方位及身份,能够提高对讲话者识别的精度,并且能够提高识别的效率,实现实时反馈。
本发明各个实施例中的电子设备的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种识别方位及身份的方法,应用于识别讲话者的方位及身份,其特征在于,所述方法包括:
采集声音,获取声音所在声源的方位信息,获得第一方位集合;
获取有嘴唇动作的人的方位信息,获得第二方位集合;
获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合;
根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合,包括:将所述第一方位集合和所述第二方位集合取交集,以获取被所述第一方位集合和所述第二方位集合同时包括的方位信息,获得所述第三方位集合;或者,利用加权平均公式根据所述第一方位集合和所述第二方位集合确定所述第三方位集合;
根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份。
2.根据权利要求1所述的方法,其特征在于,所述获取声音所在声源的方位信息,获得第一方位集合包括:
获取每个声源和麦克风所在直线与所述麦克风的基准线的夹角作为该声源方位的方位信息,获得所述第一方位集合;
所述麦克风的基准线包括所述麦克风的中轴线,或所述麦克风的水平线,所述麦克风的水平线为经过所述麦克风的中心且垂直于所述麦克风的中轴线的直线。
3.根据权利要求1所述的方法,其特征在于,所述获取有嘴唇动作的人的方位信息,获得第二方位集合包括:
侦测出可侦测范围内的人脸;
在已侦测出的人脸中识别有嘴唇动作的人脸,以确定有嘴唇动作的人;
获取每个有嘴唇动作的人和摄像头所在直线与所述摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息,获得所述获得第二方位集合;
所述摄像头的基准线包括所述摄像头的中轴线,或所述摄像头的水平线,所述摄像头的水平线为经过所述摄像头的中心且垂直于所述摄像头中轴线的直线;
其中,麦克风的中轴线与所述摄像头的中轴线重合,且所述麦克风的中心与所述摄像头的中心重合。
4.根据权利要求3所述的方法,其特征在于,所述获取有嘴唇动作的人的方位信息包括:
获取每个有嘴唇动作的人与所述摄像头的距离,将所述有嘴唇动作的人与所述摄像头的距离也作为有嘴唇动作的人的方位信息。
5.根据权利要求1所述的方法,其特征在于,所述获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合包括:
将所述有嘴唇动作的人的面部特征与预存的面部特征进行匹配,并根据面部特征与身份的对应关系获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合。
6.根据权利要求1所述的方法,其特征在于,
所述加权平均公式包括:D=ω1D12D2,其中,D为所述第三方位集合,D1为第一方位集合,D2为第二方位集合,ω1和ω2为系数,且(0<ω1<1,0<ω2<1,ω12=1)。
7.一种电子设备,其特征在于,所述电子设备包括:
第一定位单元,用于采集声音,获取声音所在声源的方位信息,获得第一方位集合;
第二定位单元,用于获取有嘴唇动作的人的方位信息,获得第二方位集合;
身份识别单元,用于获取所述有嘴唇动作的人的身份,得到所述有嘴唇动作的人的身份集合;
第三定位单元,用于根据所述第一方位集合和所述第二方位集合确定包括讲话者方位信息的第三方位集合;
身份匹配单元,用于根据所述第三方位集合和所述身份集合确定所述讲话者的方位信息及身份;
所述第三定位单元具体用于:将所述第一方位集合和所述第二方位集合取交集,以获取被所述第一方位集合和所述第二方位集合同时包括的方位信息,获得所述第三方位集合;或者,利用加权平均公式根据所述第一方位集合和所述第二方位集合确定所述第三方位集合。
8.根据权利要求7所述的电子设备,其特征在于,所述第一定位单元具体用于:
获取每个声源和麦克风所在直线与所述麦克风的基准线的夹角作为该声源方位的方位信息,获得所述第一方位集合;
所述麦克风的基准线包括所述麦克风的中轴线,或所述麦克风的水平线,所述麦克风的水平线为经过所述麦克风的中心且垂直于所述麦克风的中轴线的直线。
9.根据权利要求7所述的电子设备,其特征在于,所述第二定位单元包括:
人脸识别单元,用于侦测出可侦测范围内的人脸;
唇部运动识别单元,用于在已侦测出的人脸中识别有嘴唇动作的人脸,以确定有嘴唇动作的人;
角度获取单元,用于获取每个有嘴唇动作的人和摄像头所在直线与所述摄像头的基准线的夹角作为该有嘴唇动作的人的方位信息,获得所述获得第二方位集合;
所述摄像头的基准线包括所述摄像头的中轴线,或所述摄像头的水平线,所述摄像头的水平线为经过所述摄像头的中心且垂直于所述摄像头中轴线的直线;
其中,麦克风的中轴线与所述摄像头的中轴线重合,且所述麦克风的中心与所述摄像头的中心重合。
10.根据权利要求9所述的电子设备,其特征在于,所述第二定位单元包括还包括:
距离获取单元,用于获取每个有嘴唇动作的人与所述摄像头的距离,将所述有嘴唇动作的人与所述摄像头的距离也作为有嘴唇动作的人的方位信息。
11.根据权利要求7所述的电子设备,其特征在于,
所述加权平均公式包括:D=ω1D12D2,其中,D为所述第三方位集合,D1为第一方位集合,D2为第二方位集合,ω1和ω2为系数,且(0<ω1<1,0<ω2<1,ω12=1)。
CN201210589531.XA 2012-12-28 2012-12-28 一种识别方位及身份的方法和电子设备 Active CN103902963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210589531.XA CN103902963B (zh) 2012-12-28 2012-12-28 一种识别方位及身份的方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210589531.XA CN103902963B (zh) 2012-12-28 2012-12-28 一种识别方位及身份的方法和电子设备

Publications (2)

Publication Number Publication Date
CN103902963A CN103902963A (zh) 2014-07-02
CN103902963B true CN103902963B (zh) 2017-06-20

Family

ID=50994276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210589531.XA Active CN103902963B (zh) 2012-12-28 2012-12-28 一种识别方位及身份的方法和电子设备

Country Status (1)

Country Link
CN (1) CN103902963B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106292732A (zh) * 2015-06-10 2017-01-04 上海元趣信息技术有限公司 基于声源定位和人脸检测的智能机器人转动方法
CN106325142A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人系统及其控制方法
CN105184214B (zh) * 2015-07-20 2019-02-01 北京进化者机器人科技有限公司 一种基于声源定位和人脸检测的人体定位方法和系统
CN105912120B (zh) * 2016-04-14 2018-12-21 中南大学 基于人脸识别的移动机器人人机交互控制方法
CN106210511A (zh) * 2016-06-30 2016-12-07 纳恩博(北京)科技有限公司 一种定位用户的方法和装置
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN107767137A (zh) * 2016-08-23 2018-03-06 中国移动通信有限公司研究院 一种信息处理方法、装置及终端
CN106599866B (zh) * 2016-12-22 2020-06-02 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN106941601A (zh) * 2017-02-13 2017-07-11 杭州百航信息技术有限公司 金融系统风控双录装置及其文件生物识别方法
CN108734733B (zh) * 2018-05-17 2022-04-26 东南大学 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
CN109241721A (zh) * 2018-09-30 2019-01-18 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109410593A (zh) * 2018-12-03 2019-03-01 讯飞智元信息科技有限公司 一种鸣笛抓拍系统及方法
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
CN109816722A (zh) * 2019-01-18 2019-05-28 深圳市沃特沃德股份有限公司 定位发言人位置的方法、装置、存储介质及计算机设备
CN109710080B (zh) * 2019-01-25 2021-12-03 华为技术有限公司 一种屏幕控制和语音控制方法及电子设备
CN110210196B (zh) * 2019-05-08 2023-01-06 北京地平线机器人技术研发有限公司 身份认证方法及装置
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN110545396A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种基于定位去噪的语音识别方法及装置
CN110503957A (zh) * 2019-08-30 2019-11-26 上海依图信息技术有限公司 一种基于图像去噪的语音识别方法及装置
CN110597077B (zh) * 2019-09-25 2022-11-18 的卢技术有限公司 一种基于室内定位实现场景智能切换的方法及系统
CN111048113B (zh) * 2019-12-18 2023-07-28 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN111222117A (zh) * 2019-12-30 2020-06-02 云知声智能科技股份有限公司 身份信息的识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356674A (ja) * 1999-06-11 2000-12-26 Japan Science & Technology Corp 音源同定装置及びその同定方法
CN1633670A (zh) * 2002-02-14 2005-06-29 皇家飞利浦电子股份有限公司 采用视频-语音匹配进行人员认证的方法和系统
CN102375537A (zh) * 2010-08-09 2012-03-14 索尼公司 信息处理装置、信息处理方法和程序
CN102547533A (zh) * 2010-11-05 2012-07-04 索尼公司 声学控制设备和声学控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356674A (ja) * 1999-06-11 2000-12-26 Japan Science & Technology Corp 音源同定装置及びその同定方法
CN1633670A (zh) * 2002-02-14 2005-06-29 皇家飞利浦电子股份有限公司 采用视频-语音匹配进行人员认证的方法和系统
CN102375537A (zh) * 2010-08-09 2012-03-14 索尼公司 信息处理装置、信息处理方法和程序
CN102547533A (zh) * 2010-11-05 2012-07-04 索尼公司 声学控制设备和声学控制方法

Also Published As

Publication number Publication date
CN103902963A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902963B (zh) 一种识别方位及身份的方法和电子设备
CN111025233B (zh) 一种声源方向定位方法和装置、语音设备和系统
CN104246878B (zh) 音频用户交互辨识和上下文精炼
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及系统
CN104220896B (zh) 用于估计到达方向的系统、方法和设备
CN106653041A (zh) 音频信号处理设备、方法和电子设备
CN108737719A (zh) 摄像头拍摄控制方法、装置、智能设备及存储介质
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN104065798A (zh) 声音信号处理方法及设备
Ganapathy et al. 3-D CNN models for far-field multi-channel speech recognition
US9591229B2 (en) Image tracking control method, control device, and control equipment
CN104699445A (zh) 一种音频信息处理方法及装置
CN105578097A (zh) 一种录像方法及终端
CN107124540A (zh) 采集处理方法、装置及系统
CN106339081B (zh) 一种基于商用设备的免携带设备手掌定位人机交互方法
CN108957392A (zh) 声源方向估计方法和装置
JP2013515317A (ja) 状況により適応的にイメージマッチングを行うための方法、システム、及びコンピュータ読み取り可能な記録媒体
CN106302974A (zh) 一种信息处理的方法及电子设备
CN110717441B (zh) 视频目标检测方法、装置、设备及介质
Cai et al. Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
Luo et al. Physics-directed data augmentation for deep model transfer to specific sensor
CN103888861B (zh) 麦克风阵列指向性调节方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant