CN110441738A

CN110441738A - 车载语音定位的方法、系统、车辆和存储介质

Info

Publication number: CN110441738A
Application number: CN201810415132.9A
Authority: CN
Inventors: 余涛; 田彪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2019-11-12
Anticipated expiration: 2038-05-03
Also published as: CN110441738B

Abstract

本发明公开了一种车载语音定位的方法、系统、车辆和存储介质。该方法包括：由布置在车辆前端的面向目标座位处的第一传感器阵列，采集目标座位处的目标声源的第一语音信号，第一传感器阵列包括邻间距为第一距离的多个第一传感器；由布置在车辆侧端的第二传感器阵列，采集目标声源的第二语音信号，第二传感器阵列包括邻间距为第二距离的多个第二传感器，第一距离小于第二距离；基于第一语音信号确定方位角度，方位角度是第一语音信号的传播方向与第一传感器阵列的接收方向形成的角度；基于第二语音信号确定时延；基于方位角度和延迟，确定目标声源的位置。上述发明实施例可以对车辆内的一个或者多个语音同时进行精确定位。

Description

车载语音定位的方法、系统、车辆和存储介质

技术领域

本发明涉及语音定位技术领域，尤其涉及一种车载语音定位的方法、系统、车辆和存储介质。

背景技术

随着网络技术的快速发展，语音识别被广泛应用于各种工业。如通过人机语音交互，人可以向机器下达执行任务的命令，机器通过对语音的识别，能够高效地执行相应的任务。

车内的噪声环境十分复杂：除了常规的行驶噪音，还有发动机噪音等。开窗(特别是天窗)引起的风噪也会极大阻碍麦克风的有效拾音。车内的干扰音环境也十分复杂：车内狭小的封闭空间里，既会有司机，也会有多位乘客。车内多人的语音会形成串音干扰。由于车内环境限制，现有的车载语音定位的精度不高，尤其当多人同时发出语音时，其定位的精度较低。

如何在车内复杂的声学环境中，实现对一个或者多个语音同时进行精确定位，成为业界亟待解决的技术问题。

发明内容

鉴于此，本申请至少能解决背景技术中的一个技术问题，本发明实施例提供了一种车载语音定位的方法、系统、车辆和存储介质。

第一方面，提供了一种车载语音定位的方法。该方法包括以下步骤：

由布置在车辆前端的面向目标座位处的第一传感器阵列，采集目标座位处的目标声源的第一语音信号，第一传感器阵列包括邻间距为第一距离的多个第一传感器；

由布置在车辆侧端的第二传感器阵列，采集目标声源的第二语音信号，第二传感器阵列包括邻间距为第二距离的多个第二传感器，第一距离小于第二距离；

基于第一语音信号确定方位角度，方位角度是第一语音信号的传播方向与第一传感器阵列的接收方向形成的角度；

基于第二语音信号确定时延，时延是相邻的第二传感器接收第二语音信号的时间延迟；

基于方位角度和延迟，确定目标声源的位置。

第二方面，提供了一种车载语音定位的系统。该系统包括：

用于布置在车辆前端的面向目标座位处第一传感器阵列、用于布置在车辆侧端处的第二传感器阵列、和语音定位组件，其中：

第一传感器阵列包括：邻间距为第一距离的多个第一传感器；

第二传感器阵列包括：邻间距为第二距离的多个第二传感器，第一距离小于第二距离；

第一传感器阵列，用于采集目标座位处的目标声源的第一语音信号；

第二传感器阵列，用于采集目标声源的第二语音信号；

语音定位组件，用于

基于方位角度和延迟，确定目标声源的位置。

第三方面，提供了一种语音定位的车辆。该车辆包括：

车辆本体；

上述第二方面所述的系统，该系统用于布置在车辆本体的内部。

第四方面，提供了一种车载语音定位的系统。该系统包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行上述第一方面所述的方法。

第五方面，提供了一种计算机可读存储介质。该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第六方面，提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时，使得计算机执行上述各方面所述的方法。

第七方面，提供了一种计算机程序。当该计算机程序在计算机上运行时，使得计算机执行上述各方面所述的方法。

上述发明实施例的应用场景可以是：正在行驶或者停止行驶的车辆中，当分别坐在各自车座椅上的司机和/或乘客发出语音时，可以识别正在发出语音的人，并对其进行精确定位。如，上述实施例可以识别出正在发出语音的人分别是司机和乘客，并定位出司机坐在司机的座位上，乘客坐在第二排左侧位置上。

一方面，上述发明实施例可以通过布置在车辆前端的面向目标座位处的第一传感器阵列，采集目标座位处的目标声源的第一语音信号；由布置在车辆侧端处的第二传感器阵列，采集目标声源的第二语音信号，可以使得目标声源的第二语音信号与第一语音信号在车辆内部的声学传播路径的差异性大幅度增大，以便对一个或者多个目标声源进行精确识别和定位。

另一方面，上述发明实施例可以通过设置第一距离小于第二距离，使得：第一传感器阵列内的各个传感器排布紧凑，第二传感器阵列内的各个传感器排布分散。利用排布紧凑的第一传感器阵列采集其面向的目标位置上的目标声源的第一语音信号，可以较大程度地采集到数量较多、强度较高的信号，保证了后期可以精确处理信号，以便进一步对一个或者多个目标声源进行精确定位和识别。利用排布分散的第二传感器阵列采集车辆侧部的目标声源的第二语音信号，可以增加第二语音信号在第二传感器之间时延，提高时延精度，进而可以提高后期处理信号的精度，保证了对一个或者多个目标声源的精确识别和定位。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例的车载语音定位的场景示意图；

图2是本发明一实施例的语音定位的车辆的示意图；

图3是本发明一实施例的车载语音定位的方法的流程示意图；

图4是图3中方位角的示意图；

图5是本发明一实施例的车载语音定位的运算示意图；

图6是本发明一实施例的车载语音定位的系统的结构示意图；

图7是本发明一实施例的车载语音定位的装系统的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是本发明一实施例的车载语音定位的场景示意图。

语音定位可以应用于多种应用场景中。在各个应用场景中，均可以对多个发出语音信号的目标声源(如人)进行定位。例如，在车辆内、在飞机舱内，在会议室内等可能出现多个人同时说话的场景。当然，只有一人说话的场景也可适用。

因为车辆内的环境十分复杂，在车辆内进行精确的语音定位具有非常高的难度，所以车辆内的环境非常具有代表性。可以理解，车内定位的实施例同样可适用于其它环境复杂的应用场景。

如图1所示，该车载语音定位的场景中，车辆可以包括：车辆本体、第一传感器阵列100、第二传感器阵列200和语音定位组件301。

车辆本体可以是小型客车、中型客车、大型客车等车辆。车辆本体内可以设置有多个座位：如司机座位、副驾驶座位、第一排乘客座位和第二排乘客座位等。各个座位上可以坐有相应的人，其包括但不限于：司机座位上的司机601、副驾驶座位上的乘客602、第一排左侧(以面向车头方面为前方)乘客座位上的乘客603、第一排右侧乘客座位上的乘客604、第二排左侧乘客座位上的乘客605、第二排右侧乘客座位上的乘客606。司机和乘客均可以发出语音。

第一传感器阵列100可以包括多个第一传感器，如：第一传感器101和第一传感器102等。各个第一传感器之间的邻间距可以等于第一距离(可表示为D1)。

第二传感器阵列200可以包括多个第二传感器，如：第二传感器201、第二传感器202、第二传感器203和第二传感器204等。各个第二传感器之间的邻间距可以等于第二距离(可表示为D2)。其中，D1＜D2。

第一传感器阵列100可以布置在车辆前端的面向目标座位(如司机座位和副驾驶座位)处。第二传感器阵列200可以布置在车辆侧端处。第一传感器阵列100可以用于采集目标座位处的目标声源的第一语音信号；第二传感器阵列200用于采集目标声源的第二语音信号。

语音定位组件301可以基于第一语音信号和第二语音信号，确定目标声源的位置。语音定位组件301可以是处理器、芯片、单片机、计算机等。

在其它的实施例中，该场景还可以包括：多个扬声器、服务器302和网络500。

服务器302可以是设置在本地的服务器、工作站、操作员站和物联网设备等。服务器302也可以是设置在云端的虚拟机或者云服务器。其中，本地可以是用户的办公、住处等地方。云端可以是运营商的机房。服务器302设置的地点可以根据语音定位的需求来灵活设置，此方面内容不做限制。当服务器302的可以被较小体积的处理设备替代时，其替代设备也可以设置在车辆本体内。

语音定位组件301和服务器302可以相互通信，二者均可以安装有各种通讯客户端应用，例如即时通信工具、邮箱客户端、社交平台软件、音频、视频软件等。

多个扬声器可以是扬声器401、扬声器402、扬声器403和扬声器404等。

网络500可以是用以在各种电子设备之间提供通信链路的介质。具体的，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

应该理解，图1中的设备的数目仅仅是示意性的，根据实现需要，可以灵活调整。例如，增加第一传感器和第二传感器的数量，或者减少第二传感器的数量等。又例如，取消图1中的多个扬声器。

下面各个实施例均可以适用于该场景中，在该场景中，对车内的司机和乘客等进行语音定位。

图2是本发明一实施例的语音定位的车辆的示意图。

本发明实施例仅以小型客车(如商务轿车)车内环境为实施例，来说明语音信号的定位的实现方式。

当商务轿车行驶时，其车内环境可以具有如下特征：

1、车内的噪声环境十分复杂：除了常规的行驶噪音，发动机噪音等，开窗(特别是天窗)引起的风噪极大地阻碍了传感器(如麦克风)的有效拾音。

2、车内的干扰音环境十分复杂：车内狭小的封闭空间里，既有驾驶员，也有多位乘客。多人同时发出的语音会形成串音干扰。

3、车内多喇叭播放系统引入的干扰也十分复杂：车内娱乐系统在追求高音质体验的同时，也对语音交互中的识别和定位提出了严峻的考验。比如，音频5.1播放系统，多个喇叭播放不同但相关的音频源。又如独立播放系统中，每个喇叭同时播放完全不同的音频，这些会造成处理麦克风信号时的无法有效消除回声的问题。

如图2所示，在该商务轿车内，邻间距不同的第一传感器阵列100和第二传感器阵列200可以组成混合麦克风阵列。例如，在车辆前端的面向目标座位处可以布置有第一传感器阵列100。在在车辆侧端处可以布置有第二传感器阵列200。第一传感器阵列100可以是位置集中型的小型(compact)麦克风阵列。第二传感器阵列200可以是分布式(distributed)麦克风阵列。

第一传感器阵列100可以包括2至4个线性排列而成的第一传感器，如，邻间距等于第一距离D1的麦克风101和麦克风102。D1可以小于等于20厘米(cm)，例如，D1可以在1cm-20cm之间。

在一些实施例中，第一传感器阵列100可以位于距车辆的主驾驶座位和/或副驾驶座位的预设距离处。第一传感器阵列100还可以位于距车辆的车内后视镜上方的预设距离的位置处。例如，麦克风101和麦克风102可以置于车内车头中间位置(如车内灯控制面板)处。

因为在车辆的应用场景中，各个座位的朝向均是面向车头的方向。通常，车辆内的司机和乘客会端正地坐在各自的座位上讲话，所以，本发明实施例中的第一传感器阵列100中的各个第一传感器可以正面接收司机和各位乘客的第一语音信息。在远场模型中，向车头前端方向的各个第一语音信息趋于平行，各个第一语音信息与第一传感器阵列100的方位角度趋于一致。

上述设计可以使得目标位置上的目标声源(如乘客和/或司机)的第一语音信号的主要传播方向正好是第一传感器阵列所在的方向，可以提高采集的待处理信号的强度和完整度，可以保证后期精确处理信号，精确定位声源。

在一些实施例中，第二传感器阵列200可以包括：邻间距等于第二距离D2的麦克风201和麦克风202。例如，D2可以大于等于50cm。第二传感器可以位于距车辆的乘客座位的预设距离的位置处。第二传感器可以位于距车辆的车身窗户的预设距离的位置处。例如，每个麦克风可以安装在车内壁，如侧车窗上方10cm位置处。具体位置可以根据车辆的型号和车窗的形状、大小等因素进行灵活设置，该部分内容不做限制。

因为在车辆的应用场景中，车窗靠近座位，将各个麦克风设置在车窗上方，不仅可以近距离接收乘客和司机的语音信息，而且可以确保语音信号在不同麦克风之间的时延较长。

上述各个麦克风可以在车内乘客的头部位置处形成混合麦克风阵列二维网络。在二维网络中，分布式麦克风阵列中麦克风间距较大，例如，大于50cm。小型麦克阵列中各个麦克风间距相对较小，例如，小于15cm。

上述混合麦克风阵列的布置可以实现如下效果：使用较少数量的麦克风可以采集到车内司机和乘客的语音信号；各个麦克风的声学环境噪声大幅度减少；第一传感器阵列100所采集的语音信号与第二传感器阵列200所采集的语音信号的声学传播路径差异性较大，便于说话人(如乘客和/或司机)的语音精确定位。

图3是本发明一实施例的车载语音定位的方法的流程示意图。

如图3所述，该方法包括以下步骤：S310，由布置在车辆前端的面向目标座位处的第一传感器阵列，采集目标座位处的目标声源的第一语音信号；S320，由布置在车辆侧端的第二传感器阵列，采集目标声源的第二语音信号，第二传感器阵列包括邻间距为第二距离的多个第二传感器，第一距离小于第二距离；S330，基于第一语音信号确定方位角度，方位角度是第一语音信号的传播方向与第一传感器阵列的接收方向形成的角度；S340，基于第二语音信号确定时延，时延是相邻的第二传感器接收第二语音信号的时间延迟；S350，基于方位角度和延迟，确定目标声源的位置。

在步骤S310和S320中，车辆可以是图1和图2实施例中车辆。第一传感器阵列100和第二传感器阵列200中的各个传感器(麦克风)可以预先按图1和图2中的方式进行排列。目标声源可以是商务轿车内的乘客602和乘客604等。乘客602发出的声音可以是说话语音A，乘客604发出的声音可以是唱歌语音B。

具体的，车载语音定位目标声源的实现方式可以包括以下步骤：

S1，目标声源(如乘客602)面向车头方向发出声音。乘客602发出的声音可以是说话语音A。

S2，第一传感器101、第一传感器102、第二传感器201、第二传感器202、第二传感器203和第二传感器204可以分别在不同方向上采集说话语音A。

S3，语音定位组件301接收所采集的说话语音A。

S4，语音定位组件301基于说话语音A计算方位角度θ。θ是说话语音A的传播方向与第一传感器阵列100的接收方向形成的角度。

S5，语音定位组件301基于说话语音A计算时延τ。τ是第二传感器阵列中相邻的第二传感器采集的第二语音信号之间形成的时延。

S6，语音定位组件301基于{θ，τ}，确定目标声源(乘客602)的方位。

S7，语音定位组件301基于方位角度和时延{θ，τ}，确定目标声源(乘客604)的方位。

图4是图3中方位角的示意图。

参考图3和图4，在步骤S330中，第一传感器阵列100中的两个麦克风之间的距离为D米，声波在空气中的传播速度为C米/秒。目标声源所发出的第一语音信号与第一传感器阵列100的两个麦克风形成的方位角度(DOA)为θ。在远场模型中，声音传播的方向可以用平行线表示。

在步骤S330中，基于第一语音信号确定方位角度θ可以包括以下步骤：

S11，将第一语音信号，转换为数字信号。

S12，将数字信号转换为频率点表示的变换域信号。

其中，变换域信号可以用x₁(f)和x₂(f)表示。其中f分别代表频率点。

S13，获取变换域信号的子方位角度。

S14，基于子方位角度，确定方位角度。

在一些实施例中，基于子方位角度，确定方位角度(S14)可以包括：

S141，处理组件根据子方位角度，构造关于频率点和方位角度的导向矢量。

S142，处理组件计算关于频率点的协方差矩阵。

其中，协方差矩阵可以如下表示：

在上述公式1中，R(f)可以表示协方差矩阵，E{·}可以代表数学期望，实际计算时，可由平均值估计来替代。*可以表示复数的共轭。

S143，处理组件基于导向矢量和协方差矩阵，计算关于频率点和方位角度的空间谱。

对于空间每一个θ，构造导向矢量v(f,θ)。空间谱可以如下表示：

在上述公式2中，P(f,θ)可以表示空间谱，v(f,θ)可以是导向矢量，R^-1可以表示逆矩阵，v^H(f,θ)可以表示先共轭再转置。

S144，获取空间谱中一个或者多个频点对应的子方位角度的最大值。

S145，对一个或者多个子方位角度的最大值投票。

S146，将投票数量最多的子方位角度的最大值，确定为方位角度。

对每个频点f的P(f,θ)最大值所对应的θ进行投票，票数最多的θ为所求的DOAθ。

在步骤S340中，时延τ是第二语音信号在第二传感器阵列200中的各个麦克风接收第二语音信号的时间延迟。

时延τ的计算方法可以如下所示：

在上述公式3中，D可以是两个麦克风之间的距离。C可以是声波在空气中的传播速度。θ可以是目标声源到两个麦克风形成的阵列角度(DOA)。

在一些实施例中，基于第二语音信号确定时延的实现方式可以包括：

S21，将第二语音信号，转换为数字信号。

S22，计算数字信号在相同频率点上的相位差。该相位差可以如下所示：

在上述公式4中，*可以表示复数的共轭。x₁(f)和x₂(f)可以表示变换域信号。f可以表示频率点。

S23，基于相位差，计算得到时延。

在一些实施例中，基于相位差，计算得到时延(S23)可以包括：

S31，处理组件对相位差进行逆傅里叶变换，得到相位时延。

对φ(f)进行傅立叶反变换得到ψ(τ)。

S32，处理组件获取相位时延中的最大时延。

τ为ψ(τ)最大值对应的时间点。

S33，基于最大时延，确定为时延。

在步骤S350中，可以根据{θ，τ}，通过聚类方式(如查表、向量量化等方式)得到目标声源的最终定位信息。例如，通过求出的{θ，τ}和预先每个方位上确定的方位信息{θ′，τ′}进行比对，可以求出声源的实际位置。

在一些实施例中，基于方位角度和时延，确定目标声源的位置(S350)可以包括：

S41，获取车辆的一个或者多个座位对应的参考方位角度和参考时延。

S42，确定方位角度和时延分别与参考方位角度和参考时延的匹配结果。

S43，根据匹配结果，确定目标声源位于车辆的一个或者多个座位处。

由此，上述发明实施例可以通过邻间距为第一距离的第一传感器阵列和邻间距为第二距离的传感器阵列，分别采集目标声源的第一语音信号和第二语音信号。由于两点间距离越小，二者相对于同一物体的方位角变化越小，其计算出的方位角度越精确；而两点间距离越大，时延越大，其计算出的时延越精确，所以，本发明实施例，通过将第一距离设置为小于第二距离，然后通过邻间距为第一距离的第一传感器阵列的第一语音信号可以精确计算出方位角度。通过邻间距为第二距离的第二传感器阵列的第二语音信号可以精确计算时延。再基于精度非常高的方位角度和精度非常高的时延，可以得到精度较高的目标声源的方位。

由此，本发明实施例通过不同邻间距的传感器阵列不仅可以将每个传感器的声学传播路径的差异变大，而且可以得到精度较高的方位角度和时延，进一步提高目标声源的方位的定位准确性。

另外，由于定位精度的提高，可以减少每一个阵列中的传感器的个数，从而实现利用较少的传感器即可以实现高精度的定位，节省了硬件资源。

图5是本发明一实施例的车载语音定位的运算示意图。

在本实施例中，目标声源(乘客604)面向目标传播方向发出声音，该声音可以是唱歌语音B。

参考上述图1至图4，该运算方法的实现方式可以如下所示：

S501，麦克风101和麦克风102同时采集唱歌语音B，经过模拟到数字信号变换(ADC)后，计算出方位角度θ。

S502，麦克风201、麦克风202、麦克风203和麦克风204同时采集唱歌语音B，经过模拟到数字信号变换(ADC)后，计算出时延τ。

S503，根据θ和τ，确定目标声源的方位，如{θ，τ}。

本发明实施例通过求出的{θ，τ}和预先每个方位上确定的方位信息进行比对，可以求出声源的实际位置。上述具体计算方式可以参考图3中的实现方式。

需要说明的是，在不冲突的情况下，本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整，或者将上述步骤进行灵活组合等操作。为了简明，不再赘述各种实现方式。另外，各实施例的内容可以相互参考引用。

图6是本发明一实施例的车载语音定位的系统的结构示意图。

如图6所示，车载语音定位的系统可以包括：用于布置在车辆前端的面向目标座位处第一传感器阵列100、用于布置在车辆侧端处的第二传感器阵列200和语音定位组件301。其中：第一传感器阵列100可以包括：邻间距为第一距离的多个第一传感器；第二传感器阵列200可以包括邻间距为第二距离的多个第二传感器，第一距离小于所述第二距离；第一传感器阵列100可以用于采集目标座位处的目标声源的第一语音信号；第二传感器阵列200可以用于采集目标声源的第二语音信号；语音定位组件301可以基于第一语音信号确定方位角度，方位角度是第一语音信号的传播方向与第一传感器阵列的接收方向形成的角度；基于第二语音信号确定时延，时延是相邻的第二传感器接收第二语音信号的时间延迟；基于方位角度和延迟，确定目标声源的位置。

在一些实施例中，第一距离可以小于等于20厘米，第二距离大于等于50厘米。

在一些实施例中，多个第一传感器和多个第二传感器用于布置形成二维网络。

在一些实施例中，第一传感器阵列可以用于设置在车辆前端距车辆的首排座位的第一预设距离处；第二传感器阵列可以用于设置在车辆侧端距车辆的后排座位的第二预设距离处。

在一些实施例中，第一传感器阵列可以用于设置在车辆前端距车辆的车内后视镜上方的第三预设距离处；第二传感器阵列可以用于设置在车辆侧端距车辆的车身窗户的第四预设距离处。

在一些实施例中，语音定位组件301还可以用于：将第一语音信号，转换为数字信号；将数字信号转换为频率点表示的变换域信号；获取变换域信号的子方位角度；基于子方位角度，确定方位角度。

在一些实施例中，语音定位组件301还可以用于：根据子方位角度，构造关于频率点和方位角度的导向矢量；计算关于频率点的协方差矩阵；基于导向矢量和协方差矩阵，计算关于频率点和方位角度的空间谱；获取空间谱中一个或者多个频点对应的子方位角度的最大值；对一个或者多个子方位角度的最大值投票；将投票数量最多的子方位角度的最大值，确定为方位角度。

在一些实施例中，语音定位组件301还可以用于：将第二语音信号，转换为数字信号；计算数字信号在相同频率点上的相位差；基于相位差，计算得到时延。

在一些实施例中，语音定位组件301还可以用于：对相位差进行逆傅里叶变换，得到相位时延；获取相位时延中的最大时延；将最大时延确定为时延。

在一些实施例中，语音定位组件301还可以用于：获取车辆的一个或者多个座位对应的参考方位角度和参考时延；确定方位角度和时延分别与参考方位角度和参考时延的匹配结果；根据匹配结果，确定目标声源位于车辆的一个或者多个座位处。

需要说明的是，上述各实施例的系统可作为上述各实施例的用于各实施例的方法中的执行主体，可以实现各个方法中的相应流程，为了简洁，此方面内容不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，当其在计算机上运行时，使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

图7是本发明一实施例的车载语音定位的系统的框架示意图。

如图7所示，该框架可以包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行图3和图5实施例所做的各种操作。在RAM603中，还存储有系统架构操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种车载语音定位的方法，其特征在于，包括以下步骤：

由布置在车辆前端的面向目标座位处的第一传感器阵列，采集所述目标座位处的目标声源的第一语音信号，所述第一传感器阵列包括邻间距为第一距离的多个第一传感器；

由布置在车辆侧端的第二传感器阵列，采集所述目标声源的第二语音信号，所述第二传感器阵列包括邻间距为第二距离的多个第二传感器，所述第一距离小于所述第二距离；

基于所述第一语音信号确定方位角度，所述方位角度是所述第一语音信号的传播方向与所述第一传感器阵列的接收方向形成的角度；

基于所述第二语音信号确定时延，所述时延是相邻的所述第二传感器接收所述第二语音信号的时间延迟；

基于所述方位角度和所述延迟，确定所述目标声源的位置。

2.根据权利要求1所述的方法，其特征在于，其中：

所述第一距离小于等于20厘米；

所述第二距离大于等于50厘米。

3.根据权利要求1所述的方法，其特征在于，其中：

多个所述第一传感器和多个所述第二传感器形成二维网络。

4.根据权利要求1所述的方法，其特征在于，其中：

所述第一传感器阵列设置在车辆前端距所述车辆的首排座位的第一预设距离处；

所述第二传感器阵列设置在车辆侧端距所述车辆的后排座位的第二预设距离处。

5.根据权利要求1所述的方法，其特征在于，其中：

所述第一传感器阵列设置在车辆前端距所述车辆的车内后视镜上方的第三预设距离处；

所述第二传感器阵列设置在车辆侧端距所述车辆的车身窗户的第四预设距离处。

6.根据权利要求1-5中任一项所述的方法，其特征在于，基于所述第一语音信号确定方位角度，包括：

将所述第一语音信号，转换为数字信号；

将所述数字信号转换为频率点表示的变换域信号；

获取所述变换域信号的子方位角度；

基于所述子方位角度，确定所述方位角度。

7.根据权利要求6所述的方法，其特征在于，基于所述子方位角度，确定所述方位角度，包括：

根据所述子方位角度，构造关于所述频率点和所述方位角度的导向矢量；

计算关于所述频率点的协方差矩阵；

基于所述导向矢量和所述协方差矩阵，计算关于所述频率点和所述方位角度的空间谱；

获取所述空间谱中一个或者多个频点对应的所述子方位角度的最大值；

对一个或者多个所述子方位角度的最大值投票；

将投票数量最多的所述子方位角度的最大值，确定为所述方位角度。

8.根据权利要求1-5中任一项所述的方法，其特征在于，基于所述第二语音信号确定时延，包括：

将所述第二语音信号，转换为数字信号；

计算所述数字信号在相同频率点上的相位差；

基于所述相位差，计算得到所述时延。

9.根据权利要求8所述的方法，其中，基于所述相位差，计算得到所述时延，包括：

对所述相位差进行逆傅里叶变换，得到相位时延；

获取所述相位时延中的最大时延；

将所述最大时延确定为所述时延。

10.根据权利要求1-5中任一项所述的方法，其特征在于，基于所述方位角度和所述时延，确定所述目标声源的位置，包括：

获取车辆的一个或者多个座位对应的参考方位角度和参考时延；

确定所述方位角度和所述时延分别与所述参考方位角度和所述参考时延的匹配结果；

根据所述匹配结果，确定所述目标声源位于车辆的一个或者多个座位处。

11.一种车载语音定位的系统，其特征在于，包括：

所述第一传感器阵列包括：邻间距为第一距离的多个第一传感器；

所述第二传感器阵列包括：邻间距为第二距离的多个第二传感器，所述第一距离小于所述第二距离；

所述第一传感器阵列，用于采集所述目标座位处的目标声源的第一语音信号；

所述第二传感器阵列，用于采集所述目标声源的第二语音信号；

所述语音定位组件，用于

基于所述方位角度和所述延迟，确定所述目标声源的位置。

12.根据权利要求11所述的系统，其特征在于，其中：

所述第一距离小于等于20厘米；

所述第二距离大于等于50厘米。

13.根据权利要求11所述的系统，其特征在于，其中：

多个所述第一传感器和多个所述第二传感器用于布置形成二维网络。

14.根据权利要求11所述的系统，其特征在于，其中：

所述第一传感器阵列，用于设置在车辆前端距所述车辆的首排座位的第一预设距离处；

所述第二传感器阵列，用于设置在车辆侧端距所述车辆的后排座位的第二预设距离处。

15.根据权利要求11所述的系统，其特征在于，其中：

所述第一传感器阵列，用于设置在车辆前端距所述车辆的车内后视镜上方的第三预设距离处；

所述第二传感器阵列，用于设置在车辆侧端距所述车辆的车身窗户的第四预设距离处。

16.根据权利要求11-15中任一项所述的系统，其特征在于，所述语音定位组件还用于：

将所述第一语音信号，转换为数字信号；

将所述数字信号转换为频率点表示的变换域信号；

获取所述变换域信号的子方位角度；

基于所述子方位角度，确定所述方位角度。

17.根据权利要求16所述的系统，其特征在于，所述语音定位组件还用于：

计算关于所述频率点的协方差矩阵；

对一个或者多个所述子方位角度的最大值投票；

18.根据权利要求11-15中任一项所述的系统，其特征在于，所述语音定位组件还用于：

将所述第二语音信号，转换为数字信号；

计算所述数字信号在相同频率点上的相位差；

基于所述相位差，计算得到所述时延。

19.根据权利要求18所述的系统，其中，所述语音定位组件还用于：

对所述相位差进行逆傅里叶变换，得到相位时延；

获取所述相位时延中的最大时延；

将所述最大时延确定为所述时延。

20.根据权利要求11-15中任一项所述的系统，其特征在于，所述语音定位组件还用于：

21.一种语音定位的车辆，其特征在于，该车辆包括：

车辆本体；

如权利要求11-20中任一项所述的车载语音定位的系统，所述车载语音定位的系统用于布置在所述车辆本体的内部。

22.一种车载语音定位的系统，其特征在于，该系统包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，使得所述处理器执行如权利要求1-10中任意一项所述的方法。

23.一种计算机可读存储介质，其特征在于，包括指令，

当所述指令在计算机上运行时，使得计算机执行如权利要求1-10中任意一项所述的方法。