CN106603878B

CN106603878B - 语音定位方法、装置和系统

Info

Publication number: CN106603878B
Application number: CN201611131001.5A
Authority: CN
Inventors: 邱辉
Original assignee: Qiku Internet Technology Shenzhen Co Ltd
Current assignee: Qiku Internet Technology Shenzhen Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2019-09-06
Anticipated expiration: 2036-12-09
Also published as: CN106603878A

Abstract

本发明揭示了一种语音定位方法、装置和系统，其中方法包括：通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音；如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音的定位信息；根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。本发明的语音定位方法、装置和系统，可以实现在多人会议场合或者其它语音识别场合，发言者只需要说出关键字语音，就可以马上定位发言者的方向，以实现定向拾取声音，有利于提高拾取声音的质量，并且不需要移动麦克风等拾音设备而实现定向录音，大大提高了拾取声音的准确性和使用的效率。

Description

语音定位方法、装置和系统

技术领域

本发明涉及到语音定位领域，特别是涉及到一种语音定位方法、装置和系统。

背景技术

多人会议时，参会人员分散布置，各参会人距离会议电话等会议系统的距离和位置均不相同，此时，某个参会人员发言且需要将语音通过会议系统传输给另一会议系统时，容易受到其它人的干扰，会议系统需要从多个方向去识别发言人的内容，很难做到滤除其它人的语音而只传输发言人的内容。

采用定向拾取声音时，需要移会议系统的拾音设备。如将拾音设备的麦克风朝向发言人，或移动到发言人附近，操作起来非常不方便，不适合多人会议。

发明内容

本发明的主要目的为提供一种自动定位发言人位置的语音定位方法、装置和系统。

为了实现上述发明目的，本发明提出一种语音定位方法，包括：

通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音；

如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；

根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

进一步地，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤之后，包括：

根据所述声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。

进一步地，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

将接收到的所述声源方向的语音进行信号增强处理。

将接收到的非所述声源方向的语音进行消除处理。

接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；

根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的坐标。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的坐标。

进一步地，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；

根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；

将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。

进一步地，所述通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音的步骤，包括：

通过多个麦克风接收语音信息，并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；

如果匹配成功，则判定所述语音信息中存在第一关键字语音。

本发明还提供一种语音定位装置，包括：

接收判断单元，用于通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音；

记录单元，用于如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；

计算定位单元，用于根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

进一步地，所述语音定位装置还包括：

控制单元，用于根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。

进一步地，所述语音定位装置还包括：

语音增强单元，用于将接收到的所述声源方向的语音进行信号增强处理。

进一步地，所述语音定位装置还包括：

消除单元，用于将接收到的非所述声源方向的语音进行消除处理。

进一步地，所述语音定位装置还包括：

解除单元，用于接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述计算定位单元，包括：

第一计算模块，用于根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述计算定位单元，包括：

第二计算模块，用于根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标。

进一步地，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述计算定位单元，包括：

第一计算模块，用于根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；

第二计算模块，用于根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；

平均处理模块，用于将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。

进一步地，所述接收判断单元，包括：

匹配模块，用于通过多个麦克风接收语音信息，并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；

判定模块，用于如果匹配成功，则判定所述语音信息中存在第一关键字语音。

本发明还提供一种语音定位系统，包括控制器和多个麦克风；

所述多个麦克风分别接收语音信息，并将接收的所述语音信息发送给所述控制器；

所述控制器判断语音信息中是否含有第一关键字语音；如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

进一步地，所述控制器根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。

进一步地，所述控制器将接收到的所述声源方向的语音进行信号增强处理。

进一步地，所述控制器将接收到的非所述声源方向的语音进行消除处理。

进一步地，所述控制器接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述控制器根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的坐标。

进一步地，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述控制器根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的坐标。

进一步地，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述控制器根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。

进一步地，所述控制器通过多个麦克风接收语音信息，并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；如果匹配成功，则判定所述语音信息中存在第一关键字语音。

本发明的语音定位方法、装置和系统，可以实现在多人会议场合或者其它语音识别场合，发言者只需要说出关键字语音，就可以马上定位发言者的方向，以实现定向拾取声音，有利于提高拾取声音的质量，并且不需要移动麦克风等拾音设备而实现定向录音，大大提高了拾取声音的准确性和使用的效率。

附图说明

图1为本发明一实施例的语音定位方法的流程示意图；

图2为本发明一实施例的语音定位方法的流程示意图；

图3为本发明一实施例的语音定位装置的流程示意图；

图4为本发明一实施例的语音定位装置的流程示意图；

图5为本发明一实施例的语音定位系统的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里的控制器是指智能手机、电脑、平板电脑等可以运行计算机程序的电子设备。

参照图1，一种语音定位方法，包括步骤：

S1、通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音；

S2、如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；

S3、根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

如上述步骤S1至S3所述，上述多个麦克风一般会按照环境和要求进行摆放形成一个麦克风阵列，麦克风阵列的几种基本的拓扑结构一般为：均匀线阵、均匀圆阵、十字阵、任意阵等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音，比如“你好，小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为：将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；如果匹配成功，则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息，如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的，所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如，利用高分辨率谱估计技术计算声源位置，其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。

参照图2，本实施例中，上述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤S3之后，包括：

S4、根据所述声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。

如上述步骤S4所述，上述预设的拾音算法即为利用麦克风阵列与声源相关性、相变和最大相似性处理等技术，从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音，以提高拾取声音的准确性和使用的效率。

参照图2，本实施例中，上述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤S4之后，包括：

S5、将接收到的所述声源方向的语音进行信号增强处理。

如上述步骤S5所述，首先接收到声源的语音信号，将语音信号转成电信号，然后对电信号进行放大处理得到增强的信号，然后通过发送端发送给远端，使远端处播放的声音更加清楚。上述发送端和远端均可以为会议电话等语音通讯设备。

S6、将接收到的非所述声源方向的语音进行消除处理。

如上述步骤S6所述，因为已经确定了声源的位置，所以可以分辨出哪些声音是声源发出的，哪些是非所述声源发送的，将非所述声源发出的声音进行过滤处理，即消除掉，则会进一步地提高拾取声源声音的清晰度，提高拾取声音的准确性和使用的效率，如果发送给远端，远端处播放的声音更加清楚。因为声音的扩散性，所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除，其是一种理想状态。

S7、接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

如上述步骤S7所述，上述第二关键字语音一般与上述第一关键字语音不同，比如，第一关键字语音为“你好，小新”，那么第二关键字语音则不会为“你好，小新”。第二关键字语音一般会结合人类发言习惯设定，比如设定为“完毕”等。上述解除多个麦克风朝向所述声源方向拾音的状态即为，恢复到原始状态，没有定向采集某一个方向的声音，也不会针对某些方向的声音进行消除、过滤等，此时，如果有发言使人说出第一关键字语音时，则会再次触发声源定位的步骤，然后进行定向拾音等处理，及重复上述各步骤。

本实施例中，上述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤S3之后，包括：

S8、控制预设的指示灯指向所述声源方向。

如上述步骤S8所述，因为是通过第一关键字语音触发计算声源位置，然后再利用预设的拾音算法拾取所述声源方向的语音信息，所以用户不能准确地知道是否已经开始定向拾音，而指示灯的设置，可以明确的指出拾音方向，结构简单，元器件成本较低。

本实施例中，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤S3，包括：

S31、根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；

S32、根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的坐标。

如上述步骤S31和S32所述，即为基于声达时间差(time difference of arrival,TDOA)的定位技术，利用到达阵列上各麦克风的声音信号间的时间差来定位声源，再利用这些时延求得声音到达不同位置麦克风的距离差，最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小，硬件成本较低，定位精度较高，同时也易于实时实现，适用于实时处理。

在另一实施例中，当上述定位信息为各所述麦克风接收到第一关键字语音的声强时，上述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤3，包括：

S33、根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的坐标。

如上述步骤S33所述，声音在相同介质下进行传播，传播距离越远，能量消耗越多，所以，声源距离各麦克风的距离不同，声源的声音传播到各麦克风使的声强也会不同，根据声强的不同，以及各麦克风的位置，同样可以测算出声源的位置坐标。

在又一实施例中，当上述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，上述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤S3，包括：

S34、根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；

S35、根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；

S36、将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。

如上述步骤S34、S35和S36所述，上述步骤S34和S35可以同时进行，即通过基于声达时间差(time difference of arrival,TDOA)的定位技术获取到一个声源的第一坐标，以及通过各麦克风接收的声强不同，以及各麦克风的位置，测算出一个声源的第二坐标，然后将两个声源坐标进行平均计算，得到一个声源的坐标。比如，第一坐标为(X1、Y1、Z1)，第二坐标为(x1、y1、z1)，平均后声源的坐标为可以得到更加准确的声源的坐标。

在一具体实施例中，多个麦克风组成一个麦克风阵列，然后接收语音信息，当接收到的语音信息中含有指定的第一关键字语音时，记录各麦克风采集到第一关键字时的时间、声强等定位信息，然后根据定位信息和各麦克风的位置，计算出声源的坐标，该坐标一般为三维坐标。计算声源的坐标的方式多种多样，比如常见的有三类，第一类是基于最大输出功率的可控波束形成技术，当麦克风阵列探测到声音信号时，对各路信号进行加权求和形成波束，直到得到具有最大输出功率的波束为止；第二类是高分辨率谱估计技术，这类技术需要利用麦克风阵列所获取的信号计算空间谱的相关矩阵；第三类是基于声达时间差的定位技术，利用到达阵列上各麦克风的声音信号间的时间差未定位声源等。确定好声源坐标，通过麦克风阵列与声源相关性、相变和最大相似性处理等技术，从多人交谈的场合中快速定位声源方向的算法进行语音拾取方向的处理，以及消除其他方向的声音信号等，以提高拾取声音的准确性和使用的效率。当接收到的语音信息中含有指定的第二关键字语音时，则说明当前的发言人发言完毕，结束定向拾音状态，重新开始检测声音中是否含有第一关键字语音，以准备拾取下一发言人的发言。当未检测到第一关键字语音时，则不实现语音定向拾取处理，直接将所述场合的所有的人声拾取进来，并作语音常规处理，如进行稳态噪声或者非稳态噪声的处理，回声消除等。如果设置有摄像装置，还可以将声源的坐标发送给摄像装置，使摄像装置自动将镜头对准发言人，无需人工控制转动设备调整镜头。

本发明实施例的语音定位方法，可以实现在多人会议场合或者其它语音识别场合，发言者只需要说出关键字语音，就可以马上定位发言者的方向，以实现定向拾取声音，有利于提高拾取声音的质量，并且不需要移动麦克风等拾音设备而实现定向录音，大大提高了拾取声音的准确性和使用的效率。

参照图3，本发明实施例还提供一种语音定位装置，包括：

接收判断单元10，用于通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音；

记录单元20，用于如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；

计算定位单元30，用于根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

如上述接收判断单元10、记录单元20和计算定位单元30，上述多个麦克风一般会按照环境和要求进行摆放形成一个麦克风阵列，麦克风阵列的几种基本的拓扑结构一般为：均匀线阵、均匀圆阵、十字阵、任意阵等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音，比如“你好，小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为：通过匹配模块将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；通过判定模块在匹配成功的情况下，则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息，如上述的麦克风接收到第一关键字语音的时间、声强等。由于麦克风的位置坐标是已知的，所以根据麦克风的位置坐标以及指定的定位信息即可计算出声源位置。比如，利用高分辨率谱估计技术计算声源位置，其利用麦克风阵列所获取的声音信号计算空间谱的相关矩阵等。

参照图4，本实施例中，上述语音定位装置还包括：控制单元40，用于根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。上述预设的拾音算法即为利用麦克风阵列与声源相关性、相变和最大相似性处理等技术，从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音，以提高拾取声音的准确性和使用的效率。

参照图4，本实施例中，上述语音定位装置还包括：语音增强单元50，用于将接收到的所述声源方向的语音进行信号增强处理。首先接收到声源的语音信号，将语音信号转成电信号，然后对电信号进行放大处理得到增强的信号，然后通过发送端发送给远端，使远端处播放的声音更加清楚。上述发送端和远端均可以为会议电话等语音通讯设备。

参照图4，本实施例中，上述语音定位装置还包括：消除单元60，用于将接收到的非所述声源方向的语音进行消除处理。因为已经确定了声源的位置，所以可以分辨出哪些声音是声源发出的，哪些是非所述声源发送的，将非所述声源发出的声音进行过滤处理，即消除掉，则会进一步地提高拾取声源声音的清晰度，提高拾取声音的准确性和使用的效率，如果发送给远端，远端处播放的声音更加清楚。因为声音的扩散性，所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除，其是一种理想状态。

参照图4，本实施例中，上述语音定位装置还包括：解除单元70，用于接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。上述第二关键字语音一般与上述第一关键字语音不同，比如，第一关键字语音为“你好，小新”，那么第二关键字语音则不会为“你好，小新”。第二关键字语音一般会结合人类发言习惯设定，比如设定为“完毕”等。上述解除多个麦克风朝向所述声源方向拾音的状态即为，恢复到原始状态，没有定向采集某一个方向的声音，也不会针对某些方向的声音进行消除、过滤等，此时，如果有发言使人说出第一关键字语音时，则会再次触发声源定位的过程，然后进行定向拾音等处理。

本实施例中，上述语音定位装置还包括：指示单元，用于控制预设的指示灯指向所述声源方向。因为是通过第一关键字语音触发计算声源位置，然后再利用预设的拾音算法拾取所述声源方向的语音信息，所以用户不能准确地知道是否已经开始定向拾音，而指示灯的设置，可以明确的指出拾音方向，结构简单，元器件成本较低。

本实施例中，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所上述计算定位单元30，包括：

如上述第一计算模块，即为执行基于声达时间差(time difference of arrival,TDOA)的定位技术的模块，利用到达阵列上各麦克风的声音信号间的时间差来定位声源，再利用这些时延求得声音到达不同位置麦克风的距离差，最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小，硬件成本较低，定位精度较高，同时也易于实时实现，适用于实时处理。

在另一实施例中，当上述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述计算定位单元30，包括：

第二计算模块，用于根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标。声音在相同介质下进行传播，传播距离越远，能量消耗越多，所以，声源距离各麦克风的距离不同，声源的声音传播到各麦克风时的声强也会不同，根据声强的不同，以及各麦克风的位置，同样可以测算出声源的位置坐标。

在又一实施例中，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述计算定位单元30，包括：

如上述计算定位单元30包括第一计算模块、第二计算模块和平均处理模块，即通过基于声达时间差(time difference of arrival,TDOA)的定位技术获取到一个声源的第一坐标，以及通过各麦克风接收的声强不同，以及各麦克风的位置，测算出一个声源的第二坐标，然后将两个声源坐标进行平均计算，得到一个声源的坐标。比如，第一坐标为(X1、Y1、Z1)，第二坐标为(x1、y1、z1)，平均后声源的坐标为可以得到更加准确的声源的坐标。

本发明实施例的语音定位装置，可以实现在多人会议场合或者其它语音识别场合，发言者只需要说出关键字语音，就可以马上定位发言者的方向，以实现定向拾取声音，有利于提高拾取声音的质量，并且不需要移动麦克风等拾音设备而实现定向录音，大大提高了拾取声音的准确性和使用的效率。

参照图5，本发明实施例还提供一种语音定位系统，包括控制器200和多个麦克风100；

所述多个麦克风100分别接收语音信息，并将接收的所述语音信息发送给所述控制器200；所述控制器200判断语音信息中是否含有第一关键字语音；如果含有所述第一关键字语音，则记录各所述麦克风100接收到第一关键字语音时的定位信息；根据各所述麦克风100的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置。

如上述多个麦克风100一般会按照环境和要求进行摆放形成一个麦克风100阵列，麦克风100阵列的几种基本的拓扑结构一般为：均匀线阵、均匀圆阵、十字阵、任意阵等。上述控制器200一般为可以运行计算机程序的电子设备，控制器200上会安装语音识别软件和声源定位软件等。上述控制器200可以为一个独立的个体，如计算机主机，也可以是分开设置，如将语音识别软件安装在一个智能设备内，将声源定位软件安装在一个智能设备内等。上述第一关键字语音可以是某个指定的字、某个指定的词组或某一句指定的话等的语音，比如“你好，小新”、“我要发言”等语句的发音。判断语音信息中是否含有第一关键字语音的方法可以为：将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；如果匹配成功，则判定所述语音信息中存在第一关键字语音。上述定位信息即为一些接收到第一关键词语音时生成的信息，如上述的麦克风100接收到第一关键字语音的时间、声强等。由于麦克风100的位置坐标是已知的，所以根据麦克风100的位置坐标以及指定的定位信息即可计算出声源位置。比如，利用高分辨率谱估计技术计算声源位置，其利用麦克风100阵列所获取的声音信号计算空间谱的相关矩阵等。

本实施例中，上述控制器200根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。上述预设的拾音算法即为利用麦克风100阵列与声源相关性、相变和最大相似性处理等技术，从多人交谈的场合中快速定位声源方向的算法。这样可以最大限度的接收声源发出的声音，以提高拾取声音的准确性和使用的效率。

本实施例中，所述控制器200将接收到的所述声源方向的语音进行信号增强处理。首先接收到声源的语音信号，将语音信号转成电信号，然后对电信号进行放大处理得到增强的信号，然后通过发送端300发送给远端400，使远端400处播放的声音更加清楚。上述发送端300和远端400均可以为会议电话等语音通讯设备。

本实施例中，上述控制器200将接收到的非所述声源方向的语音进行消除处理。因为已经确定了声源的位置，所以可以分辨出哪些声音是声源发出的，哪些是非所述声源发送的，将非所述声源发出的声音进行过滤处理，即消除掉，则会进一步地提高拾取声源声音的清晰度，提高拾取声音的准确性和使用的效率，如果发送给远端400，远端400处播放的声音更加清楚。因为声音的扩散性，所以上述将接收到的非所述声源方向的语音进行消除处理的过程并不能将非所述声源方向的语音绝对地消除，其是一种理想状态。

本实施例中，上述控制器200接收所述声源发出的第二关键字语音，解除多个麦克风100朝向所述声源方向拾音的状态。上述第二关键字语音一般与上述第一关键字语音不同，比如，第一关键字语音为“你好，小新”，那么第二关键字语音则不会为“你好，小新”。第二关键字语音一般会结合人类发言习惯设定，比如设定为“完毕”等。上述解除多个麦克风100朝向所述声源方向拾音的状态即为，恢复到原始状态，没有定向采集某一个方向的声音，也不会针对某些方向的声音进行消除、过滤等，此时，如果有发言使人说出第一关键字语音时，则会再次触发声源定位的过程，然后进行定向拾音等处理。

本实施例中，上述控制器200控制预设的指示灯指向所述声源方向。因为是通过第一关键字语音触发计算声源位置，然后再利用预设的拾音算法拾取所述声源方向的语音信息，所以用户不能准确地知道是否已经开始定向拾音，而指示灯的设置，可以明确的指出拾音方向，结构简单，元器件成本较低。

本实施例中，当上述定位信息为各所述麦克风100接收到第一关键字语音的时间时，上述控制器200根据各麦克风100的坐标和预设的音速值，计算各麦克风100距离所述声源的距离；根据各麦克风100接收到第一关键词语音的时间之差，以及各麦克风100距离所述声源的距离，计算所处声源的坐标。即为执行基于声达时间差(time difference ofarrival,TDOA)的定位技术的模块，利用到达阵列上各麦克风100的声音信号间的时间差来定位声源，再利用这些时延求得声音到达不同位置麦克风100的距离差，最后用搜索或几何知识确定声源位置。基于到达时间差估计定位法计算量较小，硬件成本较低，定位精度较高，同时也易于实时实现，适用于实时处理。

在另一实施例中，当上述定位信息为各所述麦克风100接收到第一关键字语音的声强时，上述控制器200根据所述各麦克风100接收到的第一关键字语音的声强之差，以及各麦克风100的坐标，计算所述声源的坐标。声音在相同介质下进行传播，传播距离越远，能量消耗越多，所以，声源距离各麦克风100的距离不同，声源的声音传播到各麦克风100时的声强也会不同，根据声强的不同，以及各麦克风100的位置，同样可以测算出声源的位置坐标。

在又一实施例中，当上述定位信息包括各所述麦克风100接收到第一关键字语音的时间和声强时，上述控制器200根据各麦克风100的坐标和预设的音速值，计算各麦克风100距离所述声源的距离；根据各麦克风100接收到第一关键词语音的时间之差，以及各麦克风100距离所述声源的距离，计算所处声源的第一坐标；根据所述各麦克风100接收到的第一关键字语音的声强之差，以及各麦克风100的坐标，计算所述声源的第二坐标；将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。即通过基于声达时间差(timedifference of arrival,TDOA)的定位技术获取到一个声源的第一坐标，以及通过各麦克风100接收的声强不同，以及各麦克风100的位置，测算出一个声源的第二坐标，然后将两个声源坐标进行平均计算，得到一个声源的坐标。比如，第一坐标为(X1、Y1、Z1)，第二坐标为(x1、y1、z1)，平均后声源的坐标为可以得到更加准确的声源的坐标。

在一具体实施例中，多个麦克风100组成一个麦克风100阵列，然后接收语音信息传递给控制器200，当接收到的语音信息中含有指定的第一关键字语音时，控制器200记录各麦克风100采集到第一关键字时的时间、声强等定位信息，然后根据定位信息和各麦克风100的位置，计算出声源的坐标，该坐标一般为三维坐标。计算声源的坐标的方式多种多样，比如常见的有三类，第一类是基于最大输出功率的可控波束形成技术，当麦克风100阵列探测到声音信号时，对各路信号进行加权求和形成波束，直到得到具有最大输出功率的波束为止；第二类是高分辨率谱估计技术，这类技术需要利用麦克风100阵列所获取的信号计算空间谱的相关矩阵；第三类是基于声达时间差的定位技术，利用到达阵列上各麦克风100的声音信号间的时间差未定位声源等。确定好声源坐标，通过麦克风100阵列与声源相关性、相变和最大相似性处理等技术，从多人交谈的场合中快速定位声源方向的算法进行语音拾取方向的处理，以及消除其他方向的声音信号等，以提高拾取声音的准确性和使用的效率。当接收到的语音信息中含有指定的第二关键字语音时，则说明当前的发言人发言完毕，结束定向拾音状态，重新开始检测声音中是否含有第一关键字语音，以准备拾取下一发言人的发言。当未检测到第一关键字语音时，则不实现语音定向拾取处理，直接将所述场合的所有的人声拾取进来，并作语音常规处理，如进行稳态噪声或者非稳态噪声的处理，回声消除等。如果设置有摄像装置，还可以将声源的坐标发送给摄像装置，使摄像装置自动将镜头对准发言人，无需人工控制转动设备调整镜头。

本发明实施例的语音定位系统置，可以实现在多人会议场合或者其它语音识别场合，发言者只需要说出关键字语音，就可以马上定位发言者的方向，以实现定向拾取声音，有利于提高拾取声音的质量，并且不需要移动麦克风100等拾音设备而实现定向录音，大大提高了拾取声音的准确性和使用的效率。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

A1、一种语音定位方法，包括：

A2、根据A1所述的语音定位方法，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤之后，包括：

A3、根据A2所述的语音定位方法，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

将接收到的所述声源方向的语音进行信号增强处理。

A4、根据A2所述的语音定位方法，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

将接收到的非所述声源方向的语音进行消除处理。

A5、根据A2所述的语音定位方法，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

A6、根据A2所述的语音定位方法，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

控制预设的指示灯指向所述声源方向。

A7、根据A1所述的语音定位方法，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

A8、根据A1所述的语音定位方法，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

A9、根据A1所述的语音定位方法，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

A10、根据A1所述的语音定位方法，所述通过多个麦克风接收语音信息，并判断语音信息中是否含有第一关键字语音的步骤，包括：

B1、一种语音定位装置，包括：

B2、根据B1所述的语音定位装置，还包括：

B3、根据B2所述的语音定位装置，还包括：

B4、根据B2所述的语音定位装置，还包括：

B5、根据B2所述的语音定位装置，还包括：解除单元，用于接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

B6、根据B2所述的语音定位装置，还包括：

指示单元，用于控制预设的指示灯指向所述声源方向。

B7、根据B1所述的语音定位装置，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述计算定位单元，包括：

B8、根据B1所述的语音定位装置，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述计算定位单元，包括：

B9、根据B1所述的语音定位装置，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述计算定位单元，包括：

B10、根据B1所述的语音定位装置，所述接收判断单元，包括：

C1、一种语音定位系统，包括控制器和多个麦克风；

C2、根据C1所述的语音定位系统，所述控制器根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息。

C3、根据C2所述的语音定位系统，所述控制器将接收到的所述声源方向的语音进行信号增强处理。

C4、根据C2所述的语音定位系统，所述控制器将接收到的非所述声源方向的语音进行消除处理。

C5、根据C2所述的语音定位系统，所述控制器接收所述声源发出的第二关键字语音，解除多个麦克风朝向所述声源方向拾音的状态。

C6、根据C2所述的语音定位系统，所述控制器控制预设的指示灯指向所述声源方向。

C7、根据C1所述的语音定位系统，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述控制器根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的坐标。

C8、根据C1所述的语音定位系统，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述控制器根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的坐标。

C9、根据C1所述的语音定位系统，当所述定位信息包括各所述麦克风接收到第一关键字语音的时间和声强时，所述控制器根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。

C10、根据C1所述的语音定位系统，所述控制器通过多个麦克风接收语音信息，并将所述语音信息与预设的第一关键字语音列表中的第一关键字语音进行匹配；如果匹配成功，则判定所述语音信息中存在第一关键字语音。

Claims

1.一种语音定位方法，其特征在于，包括：

根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置；

其中，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，具体包括：

2.根据权利要求1所述的语音定位方法，其特征在于，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤之后，包括：

3.根据权利要求2所述的语音定位方法，其特征在于，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

将接收到的所述声源方向的语音进行信号增强处理。

4.根据权利要求2所述的语音定位方法，其特征在于，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

将接收到的非所述声源方向的语音进行消除处理。

5.根据权利要求2所述的语音定位方法，其特征在于，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

6.根据权利要求2所述的语音定位方法，其特征在于，所述根据声源位置，利用预设的拾音算法拾取所述声源方向的语音信息的步骤之后，包括：

控制预设的指示灯指向所述声源方向。

7.根据权利要求1所述的语音定位方法，其特征在于，当所述定位信息为各所述麦克风接收到第一关键字语音的时间时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

8.根据权利要求1所述的语音定位方法，其特征在于，当所述定位信息为各所述麦克风接收到第一关键字语音的声强时，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置的步骤，包括：

9.一种语音定位装置，其特征在于，包括：

计算定位单元，用于根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置；

其中，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置，具体为：

10.一种语音定位系统，其特征在于，包括控制器和多个麦克风；

所述控制器判断语音信息中是否含有第一关键字语音；如果含有所述第一关键字语音，则记录各所述麦克风接收到第一关键字语音时的定位信息；根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置；其中，所述根据各所述麦克风的位置坐标，以及所述定位信息，计算发出所述第一关键字语音的声源位置，具体为：根据各麦克风的坐标和预设的音速值，计算各麦克风距离所述声源的距离；根据各麦克风接收到第一关键词语音的时间之差，以及各麦克风距离所述声源的距离，计算所处声源的第一坐标；根据所述各麦克风接收到的第一关键字语音的声强之差，以及各麦克风的坐标，计算所述声源的第二坐标；将第一坐标和第二坐标进行平均处理，得到所述声源的坐标。