CN106603878B - 语音定位方法、装置和系统 - Google Patents
语音定位方法、装置和系统 Download PDFInfo
- Publication number
- CN106603878B CN106603878B CN201611131001.5A CN201611131001A CN106603878B CN 106603878 B CN106603878 B CN 106603878B CN 201611131001 A CN201611131001 A CN 201611131001A CN 106603878 B CN106603878 B CN 106603878B
- Authority
- CN
- China
- Prior art keywords
- voice
- microphone
- sound source
- sound
- key word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004807 localization Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000012935 Averaging Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 241000209140 Triticum Species 0.000 claims description 5
- 235000021307 Triticum Nutrition 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 26
- SDIXRDNYIMOKSG-UHFFFAOYSA-L disodium methyl arsenate Chemical compound [Na+].[Na+].C[As]([O-])([O-])=O SDIXRDNYIMOKSG-UHFFFAOYSA-L 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明揭示了一种语音定位方法、装置和系统,其中方法包括:通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。本发明的语音定位方法、装置和系统,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量,并且不需要移动麦克风等拾音设备而实现定向录音,大大提高了拾取声音的准确性和使用的效率。
Description
技术领域
本发明涉及到语音定位领域,特别是涉及到一种语音定位方法、装置和系统。
背景技术
多人会议时,参会人员分散布置,各参会人距离会议电话等会议系统的距离和位置均不相同,此时,某个参会人员发言且需要将语音通过会议系统传输给另一会议系统时,容易受到其它人的干扰,会议系统需要从多个方向去识别发言人的内容,很难做到滤除其它人的语音而只传输发言人的内容。
采用定向拾取声音时,需要移会议系统的拾音设备。如将拾音设备的麦克风朝向发言人,或移动到发言人附近,操作起来非常不方便,不适合多人会议。
发明内容
本发明的主要目的为提供一种自动定位发言人位置的语音定位方法、装置和系统。
为了实现上述发明目的,本发明提出一种语音定位方法,包括:
通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的所述声源方向的语音进行信号增强处理。
进一步地,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的非所述声源方向的语音进行消除处理。
进一步地,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;
根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
进一步地,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
进一步地,所述通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音的步骤,包括:
通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;
如果匹配成功,则判定所述语音信息中存在第一关键字语音。
本发明还提供一种语音定位装置,包括:
接收判断单元,用于通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述语音定位装置还包括:
控制单元,用于根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述语音定位装置还包括:
语音增强单元,用于将接收到的所述声源方向的语音进行信号增强处理。
进一步地,所述语音定位装置还包括:
消除单元,用于将接收到的非所述声源方向的语音进行消除处理。
进一步地,所述语音定位装置还包括:
解除单元,用于接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述计算定位单元,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述计算定位单元,包括:
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标。
进一步地,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述计算定位单元,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
平均处理模块,用于将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
进一步地,所述接收判断单元,包括:
匹配模块,用于通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;
判定模块,用于如果匹配成功,则判定所述语音信息中存在第一关键字语音。
本发明还提供一种语音定位系统,包括控制器和多个麦克风;
所述多个麦克风分别接收语音信息,并将接收的所述语音信息发送给所述控制器;
所述控制器判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
进一步地,所述控制器根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
进一步地,所述控制器将接收到的所述声源方向的语音进行信号增强处理。
进一步地,所述控制器将接收到的非所述声源方向的语音进行消除处理。
进一步地,所述控制器接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述控制器根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
进一步地,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述控制器根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
进一步地,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述控制器根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
进一步地,所述控制器通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。
本发明的语音定位方法、装置和系统,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量,并且不需要移动麦克风等拾音设备而实现定向录音,大大提高了拾取声音的准确性和使用的效率。
附图说明
图1为本发明一实施例的语音定位方法的流程示意图;
图2为本发明一实施例的语音定位方法的流程示意图;
图3为本发明一实施例的语音定位装置的流程示意图;
图4为本发明一实施例的语音定位装置的流程示意图;
图5为本发明一实施例的语音定位系统的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里的控制器是指智能手机、电脑、平板电脑等可以运行计算机程序的电子设备。
参照图1,一种语音定位方法,包括步骤:
S1、通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
S2、如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
S3、根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
如上述步骤S1至S3所述,上述多个麦克风一般会按照环境和要求进行摆放形成一个麦克风阵列,麦克风阵列的几种基本的拓扑结构一般为:均匀线阵、均匀圆阵、十字阵、任意阵等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的,所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。
参照图2,本实施例中,上述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤S3之后,包括:
S4、根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
如上述步骤S4所述,上述预设的拾音算法即为利用麦克风阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
参照图2,本实施例中,上述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤S4之后,包括:
S5、将接收到的所述声源方向的语音进行信号增强处理。
如上述步骤S5所述,首先接收到声源的语音信号,将语音信号转成电信号,然后对电信号进行放大处理得到增强的信号,然后通过发送端发送给远端,使远端处播放的声音更加清楚。上述发送端和远端均可以为会议电话等语音通讯设备。
参照图2,本实施例中,上述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤S4之后,包括:
S6、将接收到的非所述声源方向的语音进行消除处理。
如上述步骤S6所述,因为已经确定了声源的位置,所以可以分辨出哪些声音是声源发出的,哪些是非所述声源发送的,将非所述声源发出的声音进行过滤处理,即消除掉,则会进一步地提高拾取声源声音的清晰度,提高拾取声音的准确性和使用的效率,如果发送给远端,远端处播放的声音更加清楚。因为声音的扩散性,所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除,其是一种理想状态。
参照图2,本实施例中,上述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤S4之后,包括:
S7、接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
如上述步骤S7所述,上述第二关键字语音一般与上述第一关键字语音不同,比如,第一关键字语音为“你好,小新”,那么第二关键字语音则不会为“你好,小新”。第二关键字语音一般会结合人类发言习惯设定,比如设定为“完毕”等。上述解除多个麦克风朝向所述声源方向拾音的状态即为,恢复到原始状态,没有定向采集某一个方向的声音,也不会针对某些方向的声音进行消除、过滤等,此时,如果有发言使人说出第一关键字语音时,则会再次触发声源定位的步骤,然后进行定向拾音等处理,及重复上述各步骤。
本实施例中,上述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤S3之后,包括:
S8、控制预设的指示灯指向所述声源方向。
如上述步骤S8所述,因为是通过第一关键字语音触发计算声源位置,然后再利用预设的拾音算法拾取所述声源方向的语音信息,所以用户不能准确地知道是否已经开始定向拾音,而指示灯的设置,可以明确的指出拾音方向,结构简单,元器件成本较低。
本实施例中,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤S3,包括:
S31、根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;
S32、根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
如上述步骤S31和S32所述,即为基于声达时间差(time difference of arrival,TDOA)的定位技术,利用到达阵列上各麦克风的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。
在另一实施例中,当上述定位信息为各所述麦克风接收到第一关键字语音的声强时,上述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤3,包括:
S33、根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
如上述步骤S33所述,声音在相同介质下进行传播,传播距离越远,能量消耗越多,所以,声源距离各麦克风的距离不同,声源的声音传播到各麦克风使的声强也会不同,根据声强的不同,以及各麦克风的位置,同样可以测算出声源的位置坐标。
在又一实施例中,当上述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,上述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤S3,包括:
S34、根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
S35、根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
S36、将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
如上述步骤S34、S35和S36所述,上述步骤S34和S35可以同时进行,即通过基于声达时间差(time difference of arrival,TDOA)的定位技术获取到一个声源的第一坐标,以及通过各麦克风接收的声强不同,以及各麦克风的位置,测算出一个声源的第二坐标,然后将两个声源坐标进行平均计算,得到一个声源的坐标。比如,第一坐标为(X1、Y1、Z1),第二坐标为(x1、y1、z1),平均后声源的坐标为可以得到更加准确的声源的坐标。
在一具体实施例中,多个麦克风组成一个麦克风阵列,然后接收语音信息,当接收到的语音信息中含有指定的第一关键字语音时,记录各麦克风采集到第一关键字时的时间、声强等定位信息,然后根据定位信息和各麦克风的位置,计算出声源的坐标,该坐标一般为三维坐标。计算声源的坐标的方式多种多样,比如常见的有三类,第一类是基于最大输出功率的可控波束形成技术,当麦克风阵列探测到声音信号时,对各路信号进行加权求和形成波束,直到得到具有最大输出功率的波束为止;第二类是高分辨率谱估计技术,这类技术需要利用麦克风阵列所获取的信号计算空间谱的相关矩阵;第三类是基于声达时间差的定位技术,利用到达阵列上各麦克风的声音信号间的时间差未定位声源等。确定好声源坐标,通过麦克风阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法进行语音拾取方向的处理,以及消除其他方向的声音信号等,以提高拾取声音的准确性和使用的效率。当接收到的语音信息中含有指定的第二关键字语音时,则说明当前的发言人发言完毕,结束定向拾音状态,重新开始检测声音中是否含有第一关键字语音,以准备拾取下一发言人的发言。当未检测到第一关键字语音时,则不实现语音定向拾取处理,直接将所述场合的所有的人声拾取进来,并作语音常规处理,如进行稳态噪声或者非稳态噪声的处理,回声消除等。如果设置有摄像装置,还可以将声源的坐标发送给摄像装置,使摄像装置自动将镜头对准发言人,无需人工控制转动设备调整镜头。
本发明实施例的语音定位方法,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量,并且不需要移动麦克风等拾音设备而实现定向录音,大大提高了拾取声音的准确性和使用的效率。
参照图3,本发明实施例还提供一种语音定位装置,包括:
接收判断单元10,用于通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元20,用于如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
计算定位单元30,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
如上述接收判断单元10、记录单元20和计算定位单元30,上述多个麦克风一般会按照环境和要求进行摆放形成一个麦克风阵列,麦克风阵列的几种基本的拓扑结构一般为:均匀线阵、均匀圆阵、十字阵、任意阵等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:通过匹配模块将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;通过判定模块在匹配成功的情况下,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的,所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。
参照图4,本实施例中,上述语音定位装置还包括:控制单元40,用于根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。上述预设的拾音算法即为利用麦克风阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
参照图4,本实施例中,上述语音定位装置还包括:语音增强单元50,用于将接收到的所述声源方向的语音进行信号增强处理。首先接收到声源的语音信号,将语音信号转成电信号,然后对电信号进行放大处理得到增强的信号,然后通过发送端发送给远端,使远端处播放的声音更加清楚。上述发送端和远端均可以为会议电话等语音通讯设备。
参照图4,本实施例中,上述语音定位装置还包括:消除单元60,用于将接收到的非所述声源方向的语音进行消除处理。因为已经确定了声源的位置,所以可以分辨出哪些声音是声源发出的,哪些是非所述声源发送的,将非所述声源发出的声音进行过滤处理,即消除掉,则会进一步地提高拾取声源声音的清晰度,提高拾取声音的准确性和使用的效率,如果发送给远端,远端处播放的声音更加清楚。因为声音的扩散性,所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除,其是一种理想状态。
参照图4,本实施例中,上述语音定位装置还包括:解除单元70,用于接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。上述第二关键字语音一般与上述第一关键字语音不同,比如,第一关键字语音为“你好,小新”,那么第二关键字语音则不会为“你好,小新”。第二关键字语音一般会结合人类发言习惯设定,比如设定为“完毕”等。上述解除多个麦克风朝向所述声源方向拾音的状态即为,恢复到原始状态,没有定向采集某一个方向的声音,也不会针对某些方向的声音进行消除、过滤等,此时,如果有发言使人说出第一关键字语音时,则会再次触发声源定位的过程,然后进行定向拾音等处理。
本实施例中,上述语音定位装置还包括:指示单元,用于控制预设的指示灯指向所述声源方向。因为是通过第一关键字语音触发计算声源位置,然后再利用预设的拾音算法拾取所述声源方向的语音信息,所以用户不能准确地知道是否已经开始定向拾音,而指示灯的设置,可以明确的指出拾音方向,结构简单,元器件成本较低。
本实施例中,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所上述计算定位单元30,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标。
如上述第一计算模块,即为执行基于声达时间差(time difference of arrival,TDOA)的定位技术的模块,利用到达阵列上各麦克风的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。
在另一实施例中,当上述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述计算定位单元30,包括:
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标。声音在相同介质下进行传播,传播距离越远,能量消耗越多,所以,声源距离各麦克风的距离不同,声源的声音传播到各麦克风时的声强也会不同,根据声强的不同,以及各麦克风的位置,同样可以测算出声源的位置坐标。
在又一实施例中,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述计算定位单元30,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
平均处理模块,用于将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
如上述计算定位单元30包括第一计算模块、第二计算模块和平均处理模块,即通过基于声达时间差(time difference of arrival,TDOA)的定位技术获取到一个声源的第一坐标,以及通过各麦克风接收的声强不同,以及各麦克风的位置,测算出一个声源的第二坐标,然后将两个声源坐标进行平均计算,得到一个声源的坐标。比如,第一坐标为(X1、Y1、Z1),第二坐标为(x1、y1、z1),平均后声源的坐标为可以得到更加准确的声源的坐标。
在一具体实施例中,多个麦克风组成一个麦克风阵列,然后接收语音信息,当接收到的语音信息中含有指定的第一关键字语音时,记录各麦克风采集到第一关键字时的时间、声强等定位信息,然后根据定位信息和各麦克风的位置,计算出声源的坐标,该坐标一般为三维坐标。计算声源的坐标的方式多种多样,比如常见的有三类,第一类是基于最大输出功率的可控波束形成技术,当麦克风阵列探测到声音信号时,对各路信号进行加权求和形成波束,直到得到具有最大输出功率的波束为止;第二类是高分辨率谱估计技术,这类技术需要利用麦克风阵列所获取的信号计算空间谱的相关矩阵;第三类是基于声达时间差的定位技术,利用到达阵列上各麦克风的声音信号间的时间差未定位声源等。确定好声源坐标,通过麦克风阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法进行语音拾取方向的处理,以及消除其他方向的声音信号等,以提高拾取声音的准确性和使用的效率。当接收到的语音信息中含有指定的第二关键字语音时,则说明当前的发言人发言完毕,结束定向拾音状态,重新开始检测声音中是否含有第一关键字语音,以准备拾取下一发言人的发言。当未检测到第一关键字语音时,则不实现语音定向拾取处理,直接将所述场合的所有的人声拾取进来,并作语音常规处理,如进行稳态噪声或者非稳态噪声的处理,回声消除等。如果设置有摄像装置,还可以将声源的坐标发送给摄像装置,使摄像装置自动将镜头对准发言人,无需人工控制转动设备调整镜头。
本发明实施例的语音定位装置,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量,并且不需要移动麦克风等拾音设备而实现定向录音,大大提高了拾取声音的准确性和使用的效率。
参照图5,本发明实施例还提供一种语音定位系统,包括控制器200和多个麦克风100;
所述多个麦克风100分别接收语音信息,并将接收的所述语音信息发送给所述控制器200;所述控制器200判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风100接收到第一关键字语音时的定位信息;根据各所述麦克风100的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
如上述多个麦克风100一般会按照环境和要求进行摆放形成一个麦克风100阵列,麦克风100阵列的几种基本的拓扑结构一般为:均匀线阵、均匀圆阵、十字阵、任意阵等。上述控制器200一般为可以运行计算机程序的电子设备,控制器200上会安装语音识别软件和声源定位软件等。上述控制器200可以为一个独立的个体,如计算机主机,也可以是分开设置,如将语音识别软件安装在一个智能设备内,将声源定位软件安装在一个智能设备内等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音,比如“你好,小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为:将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息,如上述的麦克风100接收到第一关键字语音的时间、声强等。由于麦克风100的位置坐标是已知的,所以根据麦克风100的位置坐标以及指定的定位信息即可计算出声源位置。比如,利用高分辨率谱估计技术计算声源位置,其利用麦克风100阵列所获取的声音信号计算空间谱的相关矩阵等。
本实施例中,上述控制器200根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。上述预设的拾音算法即为利用麦克风100阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音,以提高拾取声音的准确性和使用的效率。
本实施例中,所述控制器200将接收到的所述声源方向的语音进行信号增强处理。首先接收到声源的语音信号,将语音信号转成电信号,然后对电信号进行放大处理得到增强的信号,然后通过发送端300发送给远端400,使远端400处播放的声音更加清楚。上述发送端300和远端400均可以为会议电话等语音通讯设备。
本实施例中,上述控制器200将接收到的非所述声源方向的语音进行消除处理。因为已经确定了声源的位置,所以可以分辨出哪些声音是声源发出的,哪些是非所述声源发送的,将非所述声源发出的声音进行过滤处理,即消除掉,则会进一步地提高拾取声源声音的清晰度,提高拾取声音的准确性和使用的效率,如果发送给远端400,远端400处播放的声音更加清楚。因为声音的扩散性,所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除,其是一种理想状态。
本实施例中,上述控制器200接收所述声源发出的第二关键字语音,解除多个麦克风100朝向所述声源方向拾音的状态。上述第二关键字语音一般与上述第一关键字语音不同,比如,第一关键字语音为“你好,小新”,那么第二关键字语音则不会为“你好,小新”。第二关键字语音一般会结合人类发言习惯设定,比如设定为“完毕”等。上述解除多个麦克风100朝向所述声源方向拾音的状态即为,恢复到原始状态,没有定向采集某一个方向的声音,也不会针对某些方向的声音进行消除、过滤等,此时,如果有发言使人说出第一关键字语音时,则会再次触发声源定位的过程,然后进行定向拾音等处理。
本实施例中,上述控制器200控制预设的指示灯指向所述声源方向。因为是通过第一关键字语音触发计算声源位置,然后再利用预设的拾音算法拾取所述声源方向的语音信息,所以用户不能准确地知道是否已经开始定向拾音,而指示灯的设置,可以明确的指出拾音方向,结构简单,元器件成本较低。
本实施例中,当上述定位信息为各所述麦克风100接收到第一关键字语音的时间时,上述控制器200根据各麦克风100的坐标和预设的音速值,计算各麦克风100距离所述声源的距离;根据各麦克风100接收到第一关键词语音的时间之差,以及各麦克风100距离所述声源的距离,计算所处声源的坐标。即为执行基于声达时间差(time difference ofarrival,TDOA)的定位技术的模块,利用到达阵列上各麦克风100的声音信号间的时间差来定位声源,再利用这些时延求得声音到达不同位置麦克风100的距离差,最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小,硬件成本较低,定位精度较高,同时也易于实时实现,适用于实时处理。
在另一实施例中,当上述定位信息为各所述麦克风100接收到第一关键字语音的声强时,上述控制器200根据所述各麦克风100接收到的第一关键字语音的声强之差,以及各麦克风100的坐标,计算所述声源的坐标。声音在相同介质下进行传播,传播距离越远,能量消耗越多,所以,声源距离各麦克风100的距离不同,声源的声音传播到各麦克风100时的声强也会不同,根据声强的不同,以及各麦克风100的位置,同样可以测算出声源的位置坐标。
在又一实施例中,当上述定位信息包括各所述麦克风100接收到第一关键字语音的时间和声强时,上述控制器200根据各麦克风100的坐标和预设的音速值,计算各麦克风100距离所述声源的距离;根据各麦克风100接收到第一关键词语音的时间之差,以及各麦克风100距离所述声源的距离,计算所处声源的第一坐标;根据所述各麦克风100接收到的第一关键字语音的声强之差,以及各麦克风100的坐标,计算所述声源的第二坐标;将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。即通过基于声达时间差(timedifference of arrival,TDOA)的定位技术获取到一个声源的第一坐标,以及通过各麦克风100接收的声强不同,以及各麦克风100的位置,测算出一个声源的第二坐标,然后将两个声源坐标进行平均计算,得到一个声源的坐标。比如,第一坐标为(X1、Y1、Z1),第二坐标为(x1、y1、z1),平均后声源的坐标为 可以得到更加准确的声源的坐标。
在一具体实施例中,多个麦克风100组成一个麦克风100阵列,然后接收语音信息传递给控制器200,当接收到的语音信息中含有指定的第一关键字语音时,控制器200记录各麦克风100采集到第一关键字时的时间、声强等定位信息,然后根据定位信息和各麦克风100的位置,计算出声源的坐标,该坐标一般为三维坐标。计算声源的坐标的方式多种多样,比如常见的有三类,第一类是基于最大输出功率的可控波束形成技术,当麦克风100阵列探测到声音信号时,对各路信号进行加权求和形成波束,直到得到具有最大输出功率的波束为止;第二类是高分辨率谱估计技术,这类技术需要利用麦克风100阵列所获取的信号计算空间谱的相关矩阵;第三类是基于声达时间差的定位技术,利用到达阵列上各麦克风100的声音信号间的时间差未定位声源等。确定好声源坐标,通过麦克风100阵列与声源相关性、相变和最大相似性处理等技术,从多人交谈的场合中快速定位声源方向的算法进行语音拾取方向的处理,以及消除其他方向的声音信号等,以提高拾取声音的准确性和使用的效率。当接收到的语音信息中含有指定的第二关键字语音时,则说明当前的发言人发言完毕,结束定向拾音状态,重新开始检测声音中是否含有第一关键字语音,以准备拾取下一发言人的发言。当未检测到第一关键字语音时,则不实现语音定向拾取处理,直接将所述场合的所有的人声拾取进来,并作语音常规处理,如进行稳态噪声或者非稳态噪声的处理,回声消除等。如果设置有摄像装置,还可以将声源的坐标发送给摄像装置,使摄像装置自动将镜头对准发言人,无需人工控制转动设备调整镜头。
本发明实施例的语音定位系统置,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量,并且不需要移动麦克风100等拾音设备而实现定向录音,大大提高了拾取声音的准确性和使用的效率。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
A1、一种语音定位方法,包括:
通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
A2、根据A1所述的语音定位方法,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
A3、根据A2所述的语音定位方法,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的所述声源方向的语音进行信号增强处理。
A4、根据A2所述的语音定位方法,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的非所述声源方向的语音进行消除处理。
A5、根据A2所述的语音定位方法,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
A6、根据A2所述的语音定位方法,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
控制预设的指示灯指向所述声源方向。
A7、根据A1所述的语音定位方法,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;
根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
A8、根据A1所述的语音定位方法,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
A9、根据A1所述的语音定位方法,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
A10、根据A1所述的语音定位方法,所述通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音的步骤,包括:
通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;
如果匹配成功,则判定所述语音信息中存在第一关键字语音。
B1、一种语音定位装置,包括:
接收判断单元,用于通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
B2、根据B1所述的语音定位装置,还包括:
控制单元,用于根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
B3、根据B2所述的语音定位装置,还包括:
语音增强单元,用于将接收到的所述声源方向的语音进行信号增强处理。
B4、根据B2所述的语音定位装置,还包括:
消除单元,用于将接收到的非所述声源方向的语音进行消除处理。
B5、根据B2所述的语音定位装置,还包括:解除单元,用于接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
B6、根据B2所述的语音定位装置,还包括:
指示单元,用于控制预设的指示灯指向所述声源方向。
B7、根据B1所述的语音定位装置,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述计算定位单元,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标。
B8、根据B1所述的语音定位装置,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述计算定位单元,包括:
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标。
B9、根据B1所述的语音定位装置,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述计算定位单元,包括:
第一计算模块,用于根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
第二计算模块,用于根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
平均处理模块,用于将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
B10、根据B1所述的语音定位装置,所述接收判断单元,包括:
匹配模块,用于通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;
判定模块,用于如果匹配成功,则判定所述语音信息中存在第一关键字语音。
C1、一种语音定位系统,包括控制器和多个麦克风;
所述多个麦克风分别接收语音信息,并将接收的所述语音信息发送给所述控制器;
所述控制器判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。
C2、根据C1所述的语音定位系统,所述控制器根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
C3、根据C2所述的语音定位系统,所述控制器将接收到的所述声源方向的语音进行信号增强处理。
C4、根据C2所述的语音定位系统,所述控制器将接收到的非所述声源方向的语音进行消除处理。
C5、根据C2所述的语音定位系统,所述控制器接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
C6、根据C2所述的语音定位系统,所述控制器控制预设的指示灯指向所述声源方向。
C7、根据C1所述的语音定位系统,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述控制器根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
C8、根据C1所述的语音定位系统,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述控制器根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
C9、根据C1所述的语音定位系统,当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时,所述控制器根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
C10、根据C1所述的语音定位系统,所述控制器通过多个麦克风接收语音信息,并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配;如果匹配成功,则判定所述语音信息中存在第一关键字语音。
Claims (10)
1.一种语音定位方法,其特征在于,包括:
通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置;
其中,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,具体包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
2.根据权利要求1所述的语音定位方法,其特征在于,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤之后,包括:
根据所述声源位置,利用预设的拾音算法拾取所述声源方向的语音信息。
3.根据权利要求2所述的语音定位方法,其特征在于,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的所述声源方向的语音进行信号增强处理。
4.根据权利要求2所述的语音定位方法,其特征在于,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
将接收到的非所述声源方向的语音进行消除处理。
5.根据权利要求2所述的语音定位方法,其特征在于,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
接收所述声源发出的第二关键字语音,解除多个麦克风朝向所述声源方向拾音的状态。
6.根据权利要求2所述的语音定位方法,其特征在于,所述根据声源位置,利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后,包括:
控制预设的指示灯指向所述声源方向。
7.根据权利要求1所述的语音定位方法,其特征在于,当所述定位信息为各所述麦克风接收到第一关键字语音的时间时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;
根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的坐标。
8.根据权利要求1所述的语音定位方法,其特征在于,当所述定位信息为各所述麦克风接收到第一关键字语音的声强时,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置的步骤,包括:
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的坐标。
9.一种语音定位装置,其特征在于,包括:
接收判断单元,用于通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;
记录单元,用于如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;
计算定位单元,用于根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置;
其中,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置,具体为:
根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;
根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;
将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
10.一种语音定位系统,其特征在于,包括控制器和多个麦克风;
所述多个麦克风分别接收语音信息,并将接收的所述语音信息发送给所述控制器;
所述控制器判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音时的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置;其中,所述根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置,具体为:根据各麦克风的坐标和预设的音速值,计算各麦克风距离所述声源的距离;根据各麦克风接收到第一关键词语音的时间之差,以及各麦克风距离所述声源的距离,计算所处声源的第一坐标;根据所述各麦克风接收到的第一关键字语音的声强之差,以及各麦克风的坐标,计算所述声源的第二坐标;将第一坐标和第二坐标进行平均处理,得到所述声源的坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611131001.5A CN106603878B (zh) | 2016-12-09 | 2016-12-09 | 语音定位方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611131001.5A CN106603878B (zh) | 2016-12-09 | 2016-12-09 | 语音定位方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106603878A CN106603878A (zh) | 2017-04-26 |
CN106603878B true CN106603878B (zh) | 2019-09-06 |
Family
ID=58598501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611131001.5A Expired - Fee Related CN106603878B (zh) | 2016-12-09 | 2016-12-09 | 语音定位方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106603878B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107331392A (zh) * | 2017-06-30 | 2017-11-07 | 北京小米移动软件有限公司 | 位置提示方法、装置以及计算机可读存储介质 |
US10951967B2 (en) * | 2017-08-23 | 2021-03-16 | Amazon Technologies, Inc. | Voice-controlled multimedia device and universal remote |
CN107566980B (zh) * | 2017-10-27 | 2020-10-23 | 深圳市鹏京科技有限公司 | 一种移动终端的定位方法和移动终端 |
CN107993666B (zh) * | 2017-12-19 | 2021-01-29 | 北京华夏电通科技股份有限公司 | 语音识别方法、装置、计算机设备及可读存储介质 |
CN108231075A (zh) * | 2017-12-29 | 2018-06-29 | 北京视觉世界科技有限公司 | 清洁设备的控制方法、装置、设备和存储介质 |
CN108399916A (zh) * | 2018-01-08 | 2018-08-14 | 蔚来汽车有限公司 | 车载智能语音交互系统和方法、处理装置和存储装置 |
CN110121048A (zh) * | 2018-02-05 | 2019-08-13 | 青岛海尔多媒体有限公司 | 一种会议一体机的控制方法及控制系统和会议一体机 |
CN108364642A (zh) * | 2018-02-22 | 2018-08-03 | 成都启英泰伦科技有限公司 | 一种声源锁定方法 |
CN108376060A (zh) * | 2018-02-23 | 2018-08-07 | Tcl通力电子(惠州)有限公司 | 语音控制终端旋转定位方法、显示终端及可读存储介质 |
CN108597263B (zh) * | 2018-04-26 | 2019-09-06 | 百协(上海)人力资源有限公司 | 一种具有部门专业知识培训功能的机器人 |
CN109031201A (zh) * | 2018-06-01 | 2018-12-18 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
CN111081234B (zh) * | 2018-10-18 | 2022-03-25 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
CN109346067B (zh) * | 2018-11-05 | 2021-02-26 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质 |
CN109545217B (zh) * | 2018-12-29 | 2022-01-04 | 深圳Tcl新技术有限公司 | 语音信号接收方法、装置、智能终端及可读存储介质 |
CN110197671A (zh) * | 2019-06-17 | 2019-09-03 | 深圳壹秘科技有限公司 | 定向拾音方法、录音设备和存储介质 |
CN110398727B (zh) * | 2019-07-31 | 2023-08-01 | 深圳市康冠商用科技有限公司 | 一种设备控制方法和设备控制系统 |
CN113516989A (zh) * | 2020-03-27 | 2021-10-19 | 浙江宇视科技有限公司 | 声源音频的管理方法、装置、设备和存储介质 |
CN111412587B (zh) * | 2020-03-31 | 2021-12-07 | 广东美的制冷设备有限公司 | 空调器的语音处理方法、装置、空调器和存储介质 |
CN111556279A (zh) * | 2020-05-22 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 即时会话的监控方法和通信方法 |
CN115277959A (zh) * | 2022-06-29 | 2022-11-01 | 深圳市声扬科技有限公司 | 拾音控制方法、拾音控制装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558156B2 (en) * | 2006-01-06 | 2009-07-07 | Agilent Technologies, Inc. | Acoustic location and enhancement |
JP5261983B2 (ja) * | 2007-05-23 | 2013-08-14 | ヤマハ株式会社 | 音声通信システム |
CN101567969B (zh) * | 2009-05-21 | 2013-08-21 | 上海交通大学 | 基于麦克风阵列声音制导的智能视频导播方法 |
CN103889048B (zh) * | 2012-12-20 | 2017-12-29 | 联想(北京)有限公司 | 一种设备定位方法与装置 |
CN103544959A (zh) * | 2013-10-25 | 2014-01-29 | 华南理工大学 | 一种基于无线定位麦克风阵列语音增强的通话系统及方法 |
-
2016
- 2016-12-09 CN CN201611131001.5A patent/CN106603878B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106603878A (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106603878B (zh) | 语音定位方法、装置和系统 | |
CN107102296B (zh) | 一种基于分布式麦克风阵列的声源定位系统 | |
CN100551028C (zh) | 用于音源追踪的装置和方法 | |
EP2847764B1 (en) | Audio user interaction recognition and context refinement | |
US9746916B2 (en) | Audio user interaction recognition and application interface | |
US8174932B2 (en) | Multimodal object localization | |
Brutti et al. | Multiple source localization based on acoustic map de-emphasis | |
EP2320676A1 (en) | Method, communication device and communication system for controlling sound focusing | |
Nakadai et al. | Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots | |
JP2007221300A (ja) | ロボット及びロボットの制御方法 | |
Brutti et al. | Localization of multiple speakers based on a two step acoustic map analysis | |
CN110517702A (zh) | 信号生成的方法、基于人工智能的语音识别方法及装置 | |
Parisi et al. | Source localization in reverberant environments by consistent peak selection | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Nguyen et al. | Selection of the closest sound source for robot auditory attention in multi-source scenarios | |
Heckmann et al. | Auditory inspired binaural robust sound source localization in echoic and noisy environments | |
Zhao et al. | A robust real-time sound source localization system for olivia robot | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
Segura et al. | GCC-PHAT based head orientation estimation | |
Pasha et al. | A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques | |
CN110730378A (zh) | 一种信息处理方法及系统 | |
Habib et al. | Auditory inspired methods for localization of multiple concurrent speakers | |
Đurković | Localization, tracking, and separation of sound sources for cognitive robots | |
Lu et al. | Separating voices from multiple sound sources using 2D microphone array | |
Parviainen et al. | A speaker localization system for lecture room environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190906 Termination date: 20201209 |
|
CF01 | Termination of patent right due to non-payment of annual fee |