CN116368398A - 语音声源定位方法、装置及系统 - Google Patents

语音声源定位方法、装置及系统 Download PDF

Info

Publication number
CN116368398A
CN116368398A CN202180007542.XA CN202180007542A CN116368398A CN 116368398 A CN116368398 A CN 116368398A CN 202180007542 A CN202180007542 A CN 202180007542A CN 116368398 A CN116368398 A CN 116368398A
Authority
CN
China
Prior art keywords
sound
sensing information
sound sensing
audio
acoustic transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180007542.XA
Other languages
English (en)
Inventor
王浩
刘成明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN116368398A publication Critical patent/CN116368398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种语音声源定位的方法、装置(1200,1300,1400)及系统(400),可以用于定位空间内的语音来源。语音声源定位方法包括:获取由多个声音传感器确定的第一语音的声音传感信息(S601,S801);根据声音传感信息和声学传递关系,从空间的多个区域中确定第一语音的声源位置;其中,声学传递关系用于表示在空间中的一个或多个区域播放音频时,多个声音传感器采集到的声音传感信息与一个或多个区域的传递关系,声学传递关系是基于非自由场条件预先确定的(S802)。

Description

语音声源定位方法、装置及系统 技术领域
本申请实施例涉及声学领域,尤其是一种语音声源定位方法、装置及系统。
背景技术
随着智能汽车的日益发展与用户乘车时间的逐步增加,车内声学体验已逐步成为了用户购买车辆的重要考量之一。一般来说,汽车的座舱内的多位用户所乘坐的位置也不同。为了提高用户的乘坐体验,可以根据说话用户的位置来进行声场的调整,例如,语音增强、噪声抑制、语音分离等功能。准确的语音声源定位可以提高车内通话等人机交互(human machine interaction,HMI)的体验。例如,可以通过传感器阵列来获取发声用户的位置信息,以作为语音增强、噪声抑制、语音分离等功能实现的先验信息。因此,如何提升语音声源定位的鲁棒性值得研究。
发明内容
本申请实施例提供了一种语音声源定位方法、装置及系统,以提升计算设备的性能或降低计算设备的成本。
第一方面,本申请实施例提供了一种语音声源定位方法,包括:获取第一语音的声音传感信息,该声音传感信息由多个声音传感器确定;根据该声音传感信息和声学传递关系,从空间的多个区域中确定该第一语音的声源位置;其中,该声学传递关系用于表示在该空间中的一个或多个区域播放音频时,该多个声音传感器采集到的声音传感信息与该一个或多个区域的传递关系,该声学传递关系是基于非自由场条件预先确定的。
应理解,音频可以包括白噪声和粉红噪声中的一种。上述空间可以是汽车的座舱空间,区域可以是汽车座舱内的座椅区域。例如,驾驶区域、副驾驶区域;再例如,前排区域、后排区域;还可以是以座椅编号来区分的区域。声学传递关系可以是各种形式,例如函数、公式、表格、对应关系等。上述空间还可以是同一房间内的不同区域。
采用非自由场模型,对于空间内的声场声学传递关系的建模更准确,利用这种方法建模得到的声学传递关系,在噪声较大的场景下有更强的抗干扰能力,可以提高语音声源定位的准确性和鲁棒性。对于同一车型,只需要进行一次不同区域的测量,不需要针对每一辆车都进行一次测量,测量成本低。
在一种可选的实施方式中,该根据该声音传感信息和声学传递关系,从空间中确定该第一语音的声源位置,包括:根据该声音传感信息和声学传递关系,确定该空间中的多个区域的功率和;确定该多个区域中对应于最大功率和的区域为该第一语音的 声源位置。
在一种可选的实施方式中,该根据该声音传感信息和声学传递关系,从空间中确定该第一语音的声源位置,包括:根据该声音传感信息和声学传递关系,确定该空间中的多个区域的功率和;在存在一个或多个区域的功率和大于阈值时,确定该一个或多个区域为该第一语音的声源位置。
在一种可选的实施方式中,该声学传递关系与该音频的频域信息及该声音传感信息的频域信息的比值有关。
在一种可选的实施方式中,该功率和与该多个声音传感器采集到的该声音传感信息间的差值有关。
在一种可选的实施方式中,该多个声音传感器为分布式声音传感器阵列,该多个声音传感器的数量大于或等于2。
在一种可选的实施方式中,该多个声音传感器为集中式声音传感器阵列,该多个声音传感器的数量大于或等于2。
上述方法对声音采集装置的数量要求较低,可以减少声音传感器阵列和音频传输线等装置的使用,降低硬件成本。同时,也降低了通信通道和计算资源。s
第二方面,本申请实施例提供了一种语音声源定位方法,在空间内的第一区域和第二区域,播放有音频,所述方法包括:获取所述空间内的声音传感信息,所述声音传感信息由所述空间内的多个声音传感器确定;
根据所述声音传感信息,确定所述空间的声学传递关系;
其中,所述声学传递关系包括所述第一区域的声学传递关系和所述第二区域的声学传递关系,所述第一区域的声学传递关系和所述第二区域的声学传递关系用于确定所述空间的声源位置。
应理解,音频可以包括白噪声和粉红噪声中的一种。上述空间可以是汽车的座舱空间,区域可以是汽车座舱内的座椅区域。例如,驾驶区域、副驾驶区域;再例如,前排区域、后排区域;还可以是以座椅编号来区分的区域。声学传递关系可以是各种形式,例如函数、公式、表格、对应关系等。上述空间还可以是同一房间内的不同区域。
采用非自由场模型,对于空间内的声场声学传递关系的建模更准确,利用这种方法建模得到的声学传递关系,在噪声较大的场景下有更强的抗干扰能力,可以提高语音声源定位的准确性和鲁棒性。对于同一车型,只需要进行一次不同区域的测量,不需要针对每一辆车都进行一次测量,测量成本低。
在一种可选的实施方式中,获取所述音频;
所述根据所述声音传感信息,确定所述空间的声学传递关系包括:
根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系。
在一种可选的实施方式中,所述音频包括第一音频和第二音频,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息为在第一区域播放第一音频时所获得的声音传感信息,第二声音传感信息为在第二区域播放第二音 频时所获得的声音传感信息;所述根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系,包括:
根据所述第一声音传感信息与所述第一音频的比值,确定所述第一区域的声学传递关系;
根据所述第二声音传感信息与所述第二音频的比值,确定所述第二区域的声学传递关系。
在一种可选的实施方式中,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息包括在所述第一区域播放所述音频时,所述多个声音传感器确定的声音传感信息,第二声音传感信息包括在所述第二区域播放所述音频时,所述多个声音传感器确定的声音传感信息;所述多个传感器包括I个传感器,I为大于或等于2的正整数。所述根据所述声音传感信息,确定所述空间的声学传递关系,包括:根据所述多个声音传感器中的I-1个声音传感器所确定的第一声音传感信息的频域信息,与所述多个声音传感器中的除所述I-1个声音传感器之外的同一个声音传感器所确定的第一声音传感信息的频域信息之差,确定所述确定第一区域的声学传递关系;根据所述I-1个声音传感器所确定的第二声音传感信息的频域信息与所述同一个声音传感器所确定的第二声音传感信息的频域信息之差,确定所述确定第二区域的声学传递关系。
在一种可选的实施方式中,该多个声音传感器为分布式声音传感器阵列,该多个声音传感器的数量大于或等于2。
在一种可选的实施方式中,该多个声音传感器为集中式声音传感器阵列,该多个声音传感器的数量大于或等于2。
上述方法对声音采集装置的数量要求较低,可以减少声音传感器阵列和音频传输线等装置的使用,降低硬件成本。同时,也降低了通信通道和计算资源。
第三方面,本申请实施例提供了一种语音声源定位装置,包括处理单元和收发单元,所述收发单元用于获取第一语音的声音传感信息,所述声音传感信息由多个声音传感器确定;
所述处理单元用于根据所述声音传感信息和声学传递关系,从空间的多个区域中确定所述第一语音的声源位置;
其中,所述声学传递关系用于表示在所述空间中的一个或多个区域播放音频时,所述多个声音传感器采集到的声音传感信息与所述一个或多个区域的传递关系,所述声学传递关系是基于非自由场条件预先确定的。
第四方面,本申请实施例提供了一种语音声源定位装置,包括处理单元和收发单元,所述收发单元用于获取所述空间内的声音传感信息,所述声音传感信息由所述空间内的多个声音传感器确定;
所述处理单元用于根据所述声音传感信息,确定所述空间的声学传递关系;
其中,所述声学传递关系包括所述第一区域的声学传递关系和所述第二区域的声学传递关系,所述第一区域的声学传递关系和所述第二区域的声学传递关系用于确定 所述空间的声源位置。
第五方面,本申请实施例提供了一种语音声源定位装置,包括处理器和存储器,该存储器中存储了程序代码,该程序代码被该处理器执行时,以实现如第一方面至第二方面任一方面或任一方面中任一种可能的实施方式描述的方法。
第六方面,本申请实施例提供了一种语音声源定位装置,包括:处理器以及接口电路;其中,该处理器通过该接口电路与存储器耦合,该处理器用于执行该存储器中的程序代码,以实现如第一方面至第二方面任一方面或任一方面中任一种可能的实施方式描述的方法。
应理解,第三方面至第六方面所提供的语音声源定位装置可以用于实现如第一方面至第二方面任一方面或任一方面中任一种可能的实施方式描述的方法。其中,语音声源定位装置应用于座舱时,可以是车载装置、车载芯片、车、车载处理器等装置。另外,在语音声源定位装置应用于智能家居时,该语音声源定位装置可以是智能音响、智能芯片等装置。
第七方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储了程序代码,该程序代码被终端或终端中的处理器执行时,以实现如第一方面至第二方面任一方面或任一方面中任一种可能的实施方式描述的方法。
第八方面,本申请实施例提供一种计算机程序产品,该计算机程序产品包含的程序代码被终端中的处理器执行时,以实现如第一方面至第二方面任一方面或任一方面中任一种可能的实施方式描述的方法。
第九方面,本申请实施例提供一种系统,包括:第三方面至第六方面任一方面或任一方面中任一种可能的实施方式描述的装置。
应理解的是,通过上述方法,采用非自由场模型,对于空间内的声学传递关系的建模更准确,利用这种方法建模得到的声学传递关系,在噪声较大的场景下有更强的抗干扰能力,可以提高语音声源定位的准确性和鲁棒性。对于同一车型,只需要进行一次不同区域的测量,不需要针对每一辆车都进行一次测量,测量成本低。另外,上述方法对声音采集装置的数量要求较低,可以减少声音传感器阵列和音频传输线等装置的使用,降低硬件成本。同时,也降低了通信通道和计算资源。建模与应用该声学传递关系的计算装置可以是同一装置,也可以是不同装置,较为灵活。
应理解,第一方面至第九方面任一方面及任一方面中任一种可能的实施方式所涉及的技术方案细节和技术效果可以相互引用,不再重复赘述。
附图说明
图1为本申请实施例提供的一种车辆的功能框架示意图;
图2为本申请实施例提供的一种车辆的系统架构示意图;
图3为本申请实施例提供的一种汽车内部的结构示意图;
图4为本申请实施例提供的一种测量系统的结构示意图;
图5为本申请实施例提供的一种声音采集装置安装位置示意图;
图6为本申请实施例提供的一种语音声源定位方法的流程示意图;
图7为一种本申请实施例提供的建议的声音传感器的安装位置示例图;
图8为本申请实施例提供的一种语音声源定位方法的流程示意图;
图9为本申请实施例提供的一种语音声源定位的方法流程示意图;
图10为本申请实施例提供的一种语音声源定位的方法流程示意图;
图11为本申请实施例提供的一种系统400的安装方式示例图;
图12为本申请实施例提供的一种语音声源定位装置的结构示意图;
图13为本申请实施例提供的一种语音声源定位装置的结构示意图;
图14为本申请实施例提供的一种语音声源定位装置的结构示意图。
应理解,上述结构示意图中,各框图的尺寸和形态仅供参考,不应构成对本申请实施例的排他性的解读。结构示意图所呈现的各框图间的相对位置和包含关系,仅为示意性地表示各框图间的结构关联,而非限制本申请实施例的物理连接方式。
具体实施方式
下面结合附图并举实施例,对本申请提供的技术方案作进一步说明。应理解,本申请实施例中提供的系统结构和业务场景主要是为了说明本申请的技术方案的可能的实施方式,不应被解读为对本申请的技术方案的唯一限定。本领域普通技术人员可知,随着系统结构的演进和新业务场景的出现,本申请提供的技术方案对类似技术问题同样适用。
应理解,本申请实施例提供的语音声源定位方案,包括语音声源定位方法、装置及系统。由于这些技术方案解决问题的原理相同或相似,在如下具体实施例的介绍中,某些重复之处可能不再赘述,但应视为这些具体实施例之间已有相互引用,可以相互结合。
图1为本申请实施例提供的车辆100的一个功能框架示意图。参考图1所示,车辆100可包括多种子系统,例如信息娱乐系统110、感知系统120、决策控制系统130、驱动系统140以及计算平台150。可选地,车辆100可包括更多或更少的子系统,并且其中各子系统都可包括一个或多个部件。另外,车辆100的每个子系统和部件可以通过有线或者无线的方式实现互连。
在一些实施例中,信息娱乐系统110可以包括通信系统111,娱乐系统112以及导航系统113。
通信系统111可以包括无线通信系统,无线通信系统可以直接地或者经由通信网络来与一个或多个设备无线通信。例如,无线通信系统146可使用第三代(3th generation, 3G)蜂窝通信技术,例如码分多址(code division multiple access,CDMA),或者第四代(4th generation,4G)蜂窝通信技术,例如长期演进(long time evolution,LTE)通信技术。或者第五代(5th generation,5G)蜂窝通信技术,例如新无线(new radio,NR)通信技术。无线通信系统可利用WiFi与无线局域网(wireless local area network,WLAN)通信。在一些实施例中,无线通信系统146可利用红外链路、蓝牙或紫蜂(ZigBee)与设备直接通信。其他无线协议,例如各种车辆通信系统,例如,无线通信系统可包括一个或多个专用短程通信(dedicated short range communications,DSRC)设备,这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。
娱乐系统112可以包括中控屏,麦克风和音响,用户可以基于娱乐系统在车内收听广播,播放音乐;或者将手机和车辆联通,在中控屏上实现手机的投屏,中控屏可以为触控式,用户可以通过触摸屏幕进行操作。在一些情况下,可以通过麦克风获取用户的语音信号,并依据对用户的语音信号的分析实现用户对车辆100的某些控制,例如调节车内温度等。在另一些情况下,可以通过音响向用户播放音乐。
导航系统113可以包括由地图供应商所提供的地图服务,从而为车辆100提供行驶路线的导航,导航系统113可以和车辆的全球定位系统121、惯性测量单元122配合使用。地图供应商所提供的地图服务可以为二维地图,也可以是高精地图。
感知系统120可包括感测关于车辆100周边的环境的信息的若干种传感器。例如,感知系统120可包括全球定位系统121(全球定位系统可以是全球定位卫星(global position satellite,GPS)系统,也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit,IMU)122、激光雷达123、毫米波雷达124、超声雷达125以及摄像装置126。感知系统120还可包括被监视车辆100的内部系统的传感器(例如,车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是车辆100的安全操作的关键功能。
全球定位系统121可用于估计车辆100的地理位置。
惯性测量单元122用于基于惯性加速度来感测车辆100的位置和朝向变化。在一些实施例中,惯性测量单元122可以是加速度计和陀螺仪的组合。
激光雷达123可利用激光来感测车辆100所位于的环境中的物体。在一些实施例中,激光雷达123可包括一个或多个激光源、激光扫描器以及一个或多个检测器,以及其他系统组件。
毫米波雷达124可利用无线电信号来感测车辆100的周边环境内的物体。在一些实施例中,除了感测物体以外,雷达126还可用于感测物体的速度和/或前进方向。
超声雷达125可以利用超声波信号来感测车辆100周围的物体。
摄像装置126可用于捕捉车辆100的周边环境的图像信息。摄像装置126可以包括单目相机、双目相机、结构光相机以及全景相机等,摄像装置126获取的图像信息可以包括静态图像,也可以包括视频流信息。
决策控制系统130包括基于感知系统120所获取的信息进行分析决策的计算系统131,决策控制系统130还包括对车辆100的动力系统进行控制的整车控制器132,以及用于控制车辆100的转向系统133、油门134(包括电动车的加速踏板,这里是一个 示例性的称呼)和制动系统135
计算系统131可以操作来处理和分析由感知系统120所获取的各种信息以便识别车辆100周边环境中的目标、物体和/或特征。所述目标可以包括行人或者动物,所述物体和/或特征可包括交通信号、道路边界和障碍物。计算系统131可使用物体识别算法、运动中恢复结构(structure from motion,SFM)算法、视频跟踪等技术。在一些实施例中,计算系统131可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。计算系统131可以将所获取的各种信息进行分析并得出对车辆的控制策略。
整车控制器132可以用于对车辆的动力电池和引擎141进行协调控制,以提升车辆100的动力性能。
转向系统133可操作来调整车辆100的前进方向。例如在一个实施例中可以为方向盘系统。
油门134用于控制引擎141的操作速度并进而控制车辆100的速度。
制动系统135用于控制车辆100减速。制动系统135可使用摩擦力来减慢车轮144。在一些实施例中,制动系统135可将车轮144的动能转换为电流。制动系统135也可采取其他形式来减慢车轮144转速从而控制车辆100的速度。
驱动系统140可包括为车辆100提供动力运动的组件。在一个实施例中,驱动系统140可包括引擎141、能量源142、传动系统143和车轮144。引擎141可以是内燃机、电动机、空气压缩引擎或其他类型的引擎组合,例如汽油发动机和电动机组成的混动引擎,内燃引擎和空气压缩引擎组成的混动引擎。引擎141将能量源142转换成机械能量。
能量源142的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源142也可以为车辆100的其他系统提供能量。
传动装置143可以将来自引擎141的机械动力传送到车轮144。传动装置143可包括变速箱、差速器和驱动轴。在一个实施例中,传动装置143还可以包括其他器件,比如离合器。其中,驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。
车辆100的部分或所有功能受计算平台150控制。计算平台150可包括至少一个处理器151,处理器151可以执行存储在例如存储器152这样的非暂态计算机可读介质中的指令153。在一些实施例中,计算平台150还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。
处理器151可以是任何常规的处理器,如中央处理单元(central process unit,CPU)。替选地,处理器151还可以包括诸如图像处理器(graphic process unit,GPU),现场可编程门阵列(field programmable gate array,FPGA)、片上系统(sysem on chip,SOC)、专用集成芯片(application specific integrated circuit,ASIC)或它们的组合。尽管图1功能性地图示了处理器、存储器、和在相同块中的计算机110的其它元件,但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如,存储器可以是硬盘驱动器或位于不同于计算机110的外壳内的其它存储介质。因此,对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机 或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤,诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器,所述处理器只执行与特定于组件的功能相关的计算。
在此处所描述的各个方面中,处理器可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中,此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行,包括采取执行单一操纵的必要步骤。
在一些实施例中,存储器152可包含指令153(例如,程序逻辑),指令153可被处理器151执行来执行车辆100的各种功能。存储器152也可包含额外的指令,包括向信息娱乐系统110、感知系统120、决策控制系统130驱动系统140中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。
除了指令153以外,存储器152还可存储数据,例如道路地图、路线信息,车辆的位置、方向、速度以及其它这样的车辆数据,以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算平台150使用。
计算平台150可基于从各种子系统(例如,驱动系统140、感知系统120和决策控制系统130)接收的输入来控制车辆100的功能。例如,计算平台150可利用来自决策控制系统130的输入以便控制转向系统133来避免由感知系统120检测到的障碍物。在一些实施例中,计算平台150可操作来对车辆100及其子系统的许多方面提供控制。
可选地,上述这些组件中的一个或多个可与车辆100分开安装或关联。例如,存储器152可以部分或完全地与车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。
可选地,上述组件只是一个示例,实际应用中,上述各个模块中的组件有可能根据实际需要增添或者删除,图1不应理解为对本申请实施例的限制。
在道路行进的自动驾驶汽车,如上面的车辆100,可以识别其周围环境内的物体以确定对当前速度的调整。所述物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中,可以独立地考虑每个识别的物体,并且基于物体的各自的特性,诸如它的当前速度、加速度、与车辆的间距等,可以用来确定自动驾驶汽车所要调整的速度。
可选地,车辆100或者与车辆100相关联的感知和计算设备(例如计算系统131、计算平台150)可以基于所识别的物体的特性和周围环境的状态(例如,交通、雨、道路上的冰、等等)来预测所述识别的物体的行为。可选地,每一个所识别的物体都依赖于彼此的行为,因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆100能够基于预测的所述识别的物体的行为来调整它的速度。换句话说,自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到哪种状态(例如,加速、减速、或者停止)。在这个过程中,也可以考虑其它因素来确定车辆100的速度,诸如,车辆100在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。
除了提供调整自动驾驶汽车的速度的指令之外,计算设备还可以提供修改车辆100的转向角的指令,以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车 附近的物体(例如,道路上的相邻车道中的轿车)的安全横向和纵向距离。
上述车辆100可以为轿车、卡车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车等,本申请实施例不做特别的限定。
图2为本申请实施例提供的一种车辆的系统架构示意图,车辆200可以包括车辆集成单元(vehicle integration unit,VIU)11,通信盒子(telematic box,T-BOX)12,座舱域控制器(cockpit domain controller,CDC),移动数据中心(mobile data center,MDC)14,整车控制器(vehicle domain controller,VDC)15中的部分或全部。
车辆200还可以在车身上设置有多种类型的传感器,包括:激光雷达21,毫米波雷达22,超声雷达23,摄像装置24。应当理解的是,虽然图2中示出了不同的传感器在车辆200上的位置布局,但是图2中的传感器数量和位置布局仅为一种示意,本领域人员可以依据需要合理地选择传感器的种类、数量和位置布局。
在图2中示出了四个VIU,应当理解的是,图2中的VIU的数量和位置仅为一种示例,本领域技术人员可以依据实际需求选择合适的VIU的数量和位置。
车辆集成单元VIU 11为多个车辆零部件提供车辆零部件所需的部分或全部的数据处理功能或控制功能。VIU可以具有以下多种功能中的一种或多种。
1、电子控制功能,即VIU用于实现部分或全部车辆零部件内部的电子控制单元(electronic control unit,ECU)提供的电子控制功能。例如,某一车辆零部件所需的控制功能,又例如,某一车辆零部件所需的数据处理功能。
2、与网关相同的功能,即VIU还可以具有部分或全部与网关相同的功能,例如,协议转换功能、协议封装并转发功能以及数据格式转换功能。
3、跨车辆零部件的数据的处理功能,即对从多个车辆零部件的执行器获取的数据进行处理、计算等。
需要说明的是,上述功能中涉及的数据,可以包括车辆零部件中执行器的运行数据,例如,执行器的运动参数,执行器的工作状态等。上述功能中涉及的数据还可以是通过车辆零部件的数据采集单元(例如,敏感元件)采集的数据,例如,通过车辆的敏感元件采集的车辆所行驶的道路的道路信息,或者天气信息等,本申请实施例对此不做具体限定。
在图2的车辆200示例中,车辆200可以分为多个域(domain),每个域都有独立的域控制器(domain controller),具体地,在图2中,示出了两种域控制器:座舱域控制器CDC 13和整车域控制器VDC 15。
座舱域控制器CDC 13可用于实现车辆200座舱区域的功能控制,在座舱区域的车辆部件可以包括抬头显示装置(head up display,HUD)、仪表盘、收音机、中控屏幕、导航、摄像头等。
整车域控制器VDC 15可用于对车辆的动力电池和引擎141进行协调控制,以提升车辆200的动力性能,在于一些实施例中,图1中的整车控制器132可以实现VDC的各种功能。
图2中还示出了车联网设备T-BOX 12和移动数据中心MDC 13。T-BOX 12可用 于实现车辆200和车辆内部以及外部设备的通信连接。T-BOX可以通过车辆200的总线获取车内设备数据,也可以通过无线网络和用户的手机通信连接,在一些实施例中,T-BOX 12可以被包括在图1的通信系统111中。移动数据中心MDC 13用于基于环境感知定位、智能规划决策和车辆运动控制等核心控制算法,输出驱动、传动、转向和制动等执行控制指令,实现车辆200的自动控制,还能够通过人机交互界面,实现车辆驾驶信息的人机交互。在一些实施例中,图1中的计算平台150可以实现MDC 13的各种功能。
在图2中的四个VIU 11形成环形拓扑连接网络,每个VIU 11与其近邻位置的传感器通信连接,T-BOX 12、CDC 13、MDC 14以及VDC 15与VIU的环形拓扑连接网络通信连接。VIU 11可以从各传感器获取信息,并将获取的信息上报给CDC 13、MDC14以及VDC 15。借由环形拓扑网络,T-BOX 12、CDC 13、MDC 14以及VDC 15之间也可以实现相互的通信。
应当理解的是,上述环形拓扑连网络接仅是一种示意,本领域技术人员可以依据需求选择其它合适的VIU连接方式。VIU之间的连接可以采用例如以太网(ethernet),VIU和T-BOX 12、CDC 13、MDC 14以及VDC 15的连接可以采用例如以太网或快捷外围部件互连(peripheral component interconnect express,PCIe)技术,VIU和传感器之间的连接可以采用例如控制器局域网络(controller area network,CAN),局域互联网络(local interconnect network,LIN),FlexRay,面向媒体的系统传输(media oriented system transport,MOST)等。
应理解的是,图1所示出的车辆100与图2所示出的车辆200可以为相同车辆,也可以为不同车辆。技术细节可以互相参照,此处不再重复赘述。
图3为本申请实施例提供的一种汽车内部的结构示意图。参考图3所示,汽车座舱内部有多个座位区域,可以容纳多个用户。不同用户在乘坐汽车时可以选择的位置不同。一般为了提高对不同座位的语音提取能力,可以通过在座舱内部署分布式阵列的声音传感器,来采集用户的语音信息。由于分布式阵列的间距一般远大于声音信号的波长,集中式声音传感器阵列常用的波束定位方案难以应用于车载语音交互方案中。另外,汽车在高速行驶时的噪声较大,并且车外声音环境不定性较高,如果直接通过声音传感器采集到的语音信号的强度来对车内声源进行定位,较大的噪声和车外稳定性较弱的声音环境容易对不同声音传感器所接收的声音信号能量造成影响,容易造成声源定位的误判,鲁棒性较差。
为此,本申请实施例提供一种语音声源定位的方案,用于提升语音声音定位识别的准确性和鲁棒性。
图4为本申请实施例提供的一种测量系统的结构示意图,图5为本申请实施例提供的一种声音采集装置安装位置示意图。参考图4所示,系统400包括:声音采集装置401和处理装置402,其中,声音采集装置401和处理装置402可以通过有线通信或无线通信进行数据通信。该系统400可以用于对空间内的声场进行测量和建模,该空间可以是汽车座舱,或者,还可以是一个房间内的区域。其中,声音采集装置401 可以用于采集空间内的声音信号,并得到声音传感信息,处理装置402可以用于对声音采集装置401所获得的声音传感信息进行处理,得到采集空间内的声场情况。声音采集装置401可以设置有一个或多个,不同声音采集装置所覆盖的位置可以不同。以汽车为例,参考图5所示,声音采集装置401包括声音采集装置401a至401e,并且上述声音采集装置安装在汽车内的不同区域,用于从不同位置来采集汽车座舱的声音信号。图5中示出5个声音采集装置,在具体实现过程中,声音采集装置的数量可以调整为更多或更少。另外,声音采集装置401可以由声音传感器来实现,例如麦克风,声音传感器可以以分布式阵列的形式安装,或者,还可以是多个集中式阵列的形式安装。可选的,声音采集装置401还可以由声音传感器和声音采集卡共同实现,其中,声音采集卡可以用于对声音传感器进行供电。处理装置402可以是汽车中的处理装置,例如车机、车载电脑、车载处理芯片等。也可以计算机,例如电脑、处理器、处理芯片等。
在具体实现过程中,可以通过在汽车座舱内的不同区域中进行语音播放,并通过声音采集装置来进行声音信号的采集,进而测量汽车座舱内的声场。通过对座舱内进行非自由场建模,获得更接近真实环境下的声场条件。例如,让测试人员或测试机器进入座舱,并在不同的位置进行说话。根据测试人员或测试机器发出声音的位置和声音采集装置所采集得到的声音信号,来建立汽车座舱内的声场模型,其中,测试人员或测试机器可以是一个或多个,测试人员或测试机器可以同时说话,也可以分别说话。通过实际的车辆测量,可以提高汽车声场建模的精准度。
上述系统400还包括声音播放装置403,该声音播放装置403可以是一个或多个,可以同时播放,也可以分时播放。在具体实现过程中,声音播放装置403可以由音响等装置来实现,可选的,声音播放装置403还可以由声音播放装置和功率放大器来共同实现,其中功率放大器可以用于调节声音播放装置所播放的语音音量大小。例如,功率放大器将接收到的来自处理装置402的声音信号,放大后输出至声音播放装置403,以提高声音播放装置403所播放的声音音量大小。
为了提升声场建立的准确性,在具体实现过程中,可以用人工头和人工嘴来模拟真实的用户。这样可以模仿人类的发声机制,建立更准确的声场模型。
图6为本申请实施例提供的一种语音声源定位方法的流程示意图。应理解的是,该方法可以由电子装置执行,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,智能音响、智能电视等智能家居设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。还可以由图1、图2及图4所示出的系统执行。下面,以图4所示的系统400来执行为例,展开介绍。
空间中包括有第一区域和第二区域,第一区域和第二区域为不同区域,可选的,该空间中还可以包括其他区域。为了便于表述,下面以第一区域和第二区域进行举例。在该空间内的第一区域和第二区域中,播放有音频。
参考图6所示,方法600包括:
S601:获取该空间内的声音传感信息,该声音传感信息由该空间内的多个声音传感器确定。
应理解,该空间内设置有多个声音采集装置401,如声音传感器,用于语音声源定位。在针对该空间内的第一空间和第二空间建立声学传递关系时,以及应用该声学传递关系进行语音声源定位时,该多个声音传感器的位置在该空间内保持位置不变。例如,车内的声音传感器可以固定在座舱内,在建立声学传递关系时和建立声学传递关系后不调整声音传感器的位置。如果调整用于语音声源定位的声音传感器的位置,需要重新进行测试和建立声学传递关系。其中,声音传感器可以是集中式声音传感器,也可以是分布式声音传感器。
声音采集装置401可以将空间内的声音进行采集,预处理或直接发送给处理装置402处理。进而,处理装置402可以获取该空间内的声音传感信息。
S602:根据该声音传感信息,确定该空间的声学传递关系,其中,该声学传递关系包括该第一区域的声学传递关系和该第二区域的声学传递关系,该第一区域的声学传递关系和该第二区域的声学传递关系用于确定该空间的声源位置。
处理装置402可以根据获得到的声音传感信息,确定该空间的声学传递关系。即,第一区域的声学传递关系和第二区域的声学传递关系。设该空间内设置有用于语音声源定位的声音传感器共I个,其中,I为大于或等于2的正整数。例如,第一区域与第1声音传感器的声学传递关系,第一区域与第i声音传感器的声学传递关系,第二区域与第1声音传感器的声学传递关系,第二区域与第i声音传感器的声学传递关系。其中,0<i≤I且i为正整数。声学传递关系可以是函数、公式、表格、对应关系等,本申请对于形式不作限定。这里,可以根据待定位区域的位置来确定声学传感器的设置位置。例如,在声音传感器为2个时,尽量满足不同待定位区域不要关于声音传感器所形成的平面对称。具体地,例如,图7为本申请实施例提供的一种建议的声音传感器的安装位置示例图。参考图7所示,声音传感器1和声音传感器2设置在主驾区域和副驾区域前方。
具体地,该声音传感信息包括第一声音传感信息和第二声音传感信息,该第一声音传感信息包括在该第一区域播放该音频时,该多个声音传感器确定的声音传感信息,第二声音传感信息包括在该第二区域播放该音频时,该多个声音传感器确定的声音传感信息。根据该多个声音传感器中的I-1个声音传感器所确定的第一声音传感信息的频域信息,与该多个声音传感器中的除该I-1个声音传感器之外的同一个声音传感器所确定的第一声音传感信息的频域信息之差,确定该确定第一区域的声学传递关系,根据该I-1个声音传感器所确定的第二声音传感信息的频域信息与该同一个声音传感器所确定的第二声音传感信息的频域信息之差,确定该确定第二区域的声学传递关系。
这里,需要注意的是,在第一区域和第二区域播放的音频可以相同,以便于声学传递关系的建立。对于同一个区域,利用不同的声音传感器所采集到的声音传感信息与同一个声音传感器所采集到的声音传感信息的频域信息之差,确定该区域的声学传递关系,为了便于语音声源定位,对于不同区域,也采用不同的声音传感器所采集到的声音传感信息与同一个声音传感器所采集到的声音传感信息的频域信息之差,来确定该区域的声学传递关系。
例如,对于第一区域和第二区域,都采用第2至第I个声音传感器所采集到的声音传感信息与第1个声音传感器所采集到的声音传感信息的频域信息之差,来确定各 区域的声学传递关系,并且在应用该声音传感信息时也采用该第2至第I个声音传感器所采集到的声音传感信息与第1个声音传感器所采集到的声音传感信息的频域信息之差,来进行语音声源定位。
再例如,对于第一区域和第二区域,都采用第1至第I-1个声音传感器所采集到的声音传感信息与第I个声音传感器所采集到的声音传感信息的频域信息之差,来确定各区域的声学传递关系,并且在应用该声音传感信息时也采用该第1至第I-1个声音传感器所采集到的声音传感信息与第I个声音传感器所采集到的声音传感信息的频域信息之差,来进行语音声源定位。
或者,可选的,在S602之前,该方法还包括:
S603:获取该音频。
可以通过放置在声音播放装置403旁边的声音传感器获取该音频,以用于声学传递关系的建立。直接获取声音播放装置403的源信号(即该音频信号)来建立声学传递关系,可以进一步地提升声学传递关系的精度和语音声源定位精度。
这里,可以根据该声音传感信息的频域信息和该音频的频域信息来确定该空间内的声学传递关系。具体地,该音频包括第一音频和第二音频,第一音频与第二音频可以相同,可以不同。该声音传感信息包括第一声音传感信息和第二声音传感信息,该第一声音传感信息为在第一区域播放第一音频时所获得的声音传感信息,第二声音传感信息为在第二区域播放第二音频时所获得的声音传感信息。根据该第一声音传感信息与该第一音频的比值,确定该第一区域的声学传递关系,根据该第二声音传感信息与该第二音频的比值,确定该第二区域的声学传递关系。
通过上述方法600,可以减少声音传感器的数量,降低硬件成本和计算成本。
图8为本申请实施例提供的一种语音声源定位方法的流程示意图。应理解的是,该方法可以由电子装置执行,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,智能音响、智能电视等智能家居设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。还可以由图1、图2及图4所示出的系统执行。下面,以图4所示的系统400来执行为例,展开介绍。
空间中包括有第一区域和第二区域,第一区域和第二区域为不同区域,可选的,该空间中还可以包括其他区域。为了便于表述,下面以第一区域和第二区域进行举例。
参考图8所示,方法800包括:
S801:获取第一语音的声音传感信息,该声音传感信息由多个声音传感器确定。
应理解,该空间内设置有多个声音采集装置401,如声音传感器,用于语音声源定位。在针对该空间内的第一空间和第二空间建立声学传递关系时,以及应用该声学传递关系进行语音声源定位时,该多个声音传感器的位置在该空间内保持位置不变。例如,车内的声音传感器可以固定在座舱内,在建立声学传递关系时和建立声学传递关系后不调整声音传感器的位置。如果调整用于语音声源定位的声音传感器的位置,需要重新进行测试和建立声学传递关系。其中,声音传感器可以是集中式声音传感器,也可以是分布式声音传感器。
S802:根据该声音传感信息和声学传递关系,从空间的多个区域中确定该第一语 音的声源位置,其中,该声学传递关系用于表示在该空间中的一个或多个区域播放音频时,该多个声音传感器采集到的声音传感信息与该一个或多个区域的传递关系,该声学传递关系是基于非自由场条件预先确定的。
其中,可选的,根据该声音传感信息和声学传递关系,确定该空间中的多个区域的功率和,确定该多个区域中对应于最大功率和的区域为该第一语音的声源位置。例如,空间内设置有5个声音传感器,其中,对应于最大功率和的区域为第一区域,则可以定位该第一语音的声源位置为第一区域。
或者,可选的,根据该声音传感信息和声学传递关系,确定该空间中的多个区域的功率和,在存在一个或多个区域的功率和大于阈值时,确定该一个或多个区域为该第一语音的声源位置。例如,设置一个阈值,在存在区域的功率和大于阈值时,确定该区域中有声源。
通过上述方法600,可以减少声音传感器的数量,降低硬件成本和计算成本。
为了便于理解,对于本申请实施例,如方法600和方法800中的声学传递关系的建立和应用展开具体的描述,具体细节可以相互引用、参考,不再重复赘述。
图9为本申请实施例提供的一种语音声源定位的方法流程示意图。应理解的是,该方法可以由电子装置执行,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。还可以由图1、图2及图4所示出的系统执行。下面,以图4所示的系统400来执行为例,展开介绍。参考图9所示,方法900包括:
S901:在第一区域播放第一声音信号。
声音播放装置403可以在空间内的不同区域(如图3中所示出的区域1至区域5)播放音频,例如第一声音信号。其中,第一区域可以是一个区域,也可以是多个区域。该第一声音信号可以设置为宽频带声音信号,例如,白噪声或粉红噪声。其中,宽频带声音信号一般频带范围可以是50赫兹(Hertz,Hz)至4000Hz,或者,50Hz至2000Hz,或者,20Hz至20000Hz等。应理解,这里宽频带声音信号的取值仅为示例,本申请对此不做限定。
一般来说,这里的宽频带声音信号可以是预先设置的,也可以是处理装置402生成并发送给声音播放装置403的。处理装置402还可以记录上述第一声音信号播放的时间信息和区域信息,形式可以是表格、函数、时间戳、对应关系等多种形式,本申请对此不做限定。其中,区域信息可以是区域的编号、区域的位置等信息中的一个或多个。为了提高处理的精度,时间戳可以是微秒级,处理装置402可以根据采集到的声音传感信息和第一声音信号的时间戳,进行信号的对齐和同步。
S902:获取声音传感信息。
声音采集装置401可以采集空间内的声音信号,例如,座舱内的声音信号。声音采集装置401还可以对上述声音信号进行存储、处理、发送等操作中的一个或多个,并发送至处理装置402,由处理装置402进行后续处理。
S903:根据该声音传感信息和该第一声音信号,确定该第一区域的声学传递关系。
处理装置403接收声音传感信息后,可以根据声音传感信息与第一声音信号的对 应关系,确定区域的声学传递关系。例如,汽车不同座椅区域的声学传递关系,房间内的不同区域的声学传递关系。声学传递关系的形式可以是表格、函数、对应关系等,本申请对此不做限定。
上述声学传递关系可以用于声学传递关系的定位,具体地,对于待定位的区域,分别具有一个声学传递关系,可以在存在语音声源定位的需求时,获取声音传感信息,并根据声音传感信息来确定不同区域的功率和,进而确定出语音声源位置。
下面给出一种示例性的声学传递关系的计算方法和应用方法。待测量空间内设置有声音传感器阵列,其中,共包含有I个传声器单元,I为大于1的正整数。对于第m区域,声音播放装置在该区域所发出的声音信号对应的频域信号记作X m(f),其中,0<m≤M。该第m区域的第i个传感器单元对应的声学传递关系记作
Figure PCTCN2021107616-APPB-000001
其中,0<i≤I且0<I。该第m区域的第i个传感器单元所接收到的声音信号对应的频域信号记作
Figure PCTCN2021107616-APPB-000002
其中,
Figure PCTCN2021107616-APPB-000003
这里,由于
Figure PCTCN2021107616-APPB-000004
和X m(f)均为可获得的信息,则第m区域对应于第i个传感器单元的声学传递关系可以根据下面的公式确定:
Figure PCTCN2021107616-APPB-000005
根据上述声学传递关系确定出第m区域的功率和为
Figure PCTCN2021107616-APPB-000006
确定大于预设阈值的功率和对应的区域位置为声源位置,或者,确定最大功率和对应的区域位置为声源位置。
图10为本申请实施例提供的一种语音声源定位的方法流程示意图。应理解的是,该方法可以由电子装置执行,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。还可以由图1、图2及图4所示出的系统执行。下面,以图4所示的系统400来执行为例,展开介绍。参考图10所示,方法1000包括:
S1001:在第一区域和第二区域分别播放第一声音信号,其中,第一区域与第二区域不同。
声音播放装置403可以在空间内的不同区域(如图3中所示出的区域1至区域5)播放音频,如第一声音信号,其中,第一区域和第二区域不同。第一声音信号可以设置为白噪声信号。一般来说,这里的白噪声信号可以是预先设置的,也可以是处理装置402生成并发送给声音播放装置403的。处理装置402还可以记录上述第一声音信号播放的时间信息和区域信息,形式可以是表格、函数、时间戳、对应关系等多种形式,本申请对此不做限定。其中,时间信息可以是秒级,或者,毫秒级。区域信息可以是区域的编号、区域的位置、大小等信息中的一个或多个。
S1002:获取声音传感信息,其中,该声音传感信息包括在与第一区域对应的第一声音传感信息和与第二区域对应的第二声音传感信息。
在声音播放装置403在第一区域和第二区域分别播放声音信号时,通过声音采集装置401进行控件内的声音信息的采集,将获取到的传感信息分别记作第一声音传感信息和第二声音传感信息。
S1003:根据该声音传感信息和该第一声音信号,确定该第一区域和第二区域的声 学传递关系差异。
处理装置403接收声音传感信息后,可以根据声音传感信息与第一声音信号的对应关系,确定不同区域之间的声学传递关系差异。例如,汽车不同座椅区域的声学传递关系,房间内的不同区域的声学传递关系。
下面给出一种示例性的声学传递关系的计算方法和应用方法。待测量空间内包括M个区域,设置有分布式声音传感器阵列,其中,共包含有I个传声器单元,I为大于1的正整数。对于第m区域,声音播放装置在该区域所发出的声音信号对应的频域信号记作X(f),其中,0<m≤M。该第m区域的第i组传感器单元对应的声学传递关系记作
Figure PCTCN2021107616-APPB-000007
其中,0<i≤I且0<I。该第m区域的第i组传感器单元所接收到的声音信号对应的频域信号记作
Figure PCTCN2021107616-APPB-000008
其中,
Figure PCTCN2021107616-APPB-000009
这里,由于
Figure PCTCN2021107616-APPB-000010
为可获得的信息,而X(f)为未知信息。可以利用不同分布式声音传感器阵列所形成的不同通道获得的声音信号来确定各个区域之间的能量差异。具体地,对于第m区域,第2通道至第I通道所对应的频域信号与第1通道所对应的频域信号的差值满足下式关系:
Figure PCTCN2021107616-APPB-000011
这里,为了便于表述,将
Figure PCTCN2021107616-APPB-000012
记作
Figure PCTCN2021107616-APPB-000013
可以用于评估不同区域之间的声学传递关系的差异和能量差异。其中,2≤i≤I。可以根据不同传感器接收通道所接收到的声音信号差异来确定各区域之间的声学传递关系差异。
根据上述声学传递关系确定出第m区域的功率和为
Figure PCTCN2021107616-APPB-000014
确定大于预设阈值的功率和对应的区域位置为声源位置,或者,确定最大功率和对应的区域位置为声源位置。
为了便于更详细地理解本申请实施例提供的方法,下面给出更具体的实施例。
图11为本申请实施例提供的一种系统400的安装方式示例图。参考图11,在汽车内外安装设置好系统400所涉及的装置,并将人工嘴放在乘客久坐的位置,如图3所示出的区域1至区域5中的一个或多个。处理装置生成白噪声信号,一路通过功率放大器发送至人工嘴并由人工嘴播放,另一路发送至声音采集卡。声音采集卡可以录制分布式阵列采集到的声音信号和处理装置发出的白噪声信号(也可以理解为人工嘴所发出的声音信号)。对分布式阵列所采集到的不同通道的声音信号进行快速傅里叶变换,并获得频域信号。根据上述频域信号和白噪声信号,确定座舱内不同区域的声学传递关系。例如,根据方法900中所描述的方式来计算各座位区域中的声学传递关系。
在另一种可能的实现方式中,参考图11,在汽车内外安装设置好系统400所涉及的装置,并将人工嘴放在乘客久坐的位置,如图3所示出的区域1至区域5中的一个或多个。处理装置生成白噪声信号,该白噪声信号仅通过功率放大器发送至人工嘴并由人工嘴播放。声音采集卡可以录制分布式阵列采集到的声音信号对分布式阵列所采集到的不同通道的声音信号进行快速傅里叶变换,并获得频域信号。根据上述频域信号和白噪声信号,确定座舱内不同区域的声学传递关系。例如,根据方法1000中所描述的方式来计算各座位区域中的声学传递关系。
应理解的是,图6、图8、图9及图10的技术细节和有益效果可以相互引用、参 考、组合。
应理解的是,通过上述方法,采用非自由场模型,对于空间内的声场声学传递关系的建模更准确,利用这种方法建模得到的声学传递关系,在噪声较大的场景下有更强的抗干扰能力,可以提高语音声源定位的准确性和鲁棒性。对于同一车型,只需要进行一次不同区域的测量,不需要针对每一辆车都进行一次测量,测量成本低。另外,上述方法对声音采集装置的数量要求较低,可以减少声音传感器阵列和音频传输线等装置的使用,降低硬件成本。同时,也降低了通信通道和计算资源。
图12为本申请实施例提供的一种语音声源定位装置的结构示意图。该语音声源定位装置1200可以是本申请实施例中的电子装置,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,智能音响、智能电视等智能家居设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。并且可以实现图6、图8、图9及图10中一个或多个附图所描述的方法,以及上述各可选实施例。如图12所示,语音声源定位装置1200包括:处理器1201,与处理器1201耦合的存储器1202。应理解,虽然图12中仅示出了一个处理器和一个存储器。语音声源定位装置1200可以包括其他数目的处理器和存储器。
其中,存储器1202用于存储计算机程序或计算机指令。这些计算机程序或指令可依据功能分为两类。其中一类计算机程序或指令被处理器1201执行时,使得语音声源定位装置1200实现本申请实施例的语音声源定位方法中的步骤。这类计算机程序或指令可记为定位功能程序。例如,定位功能程序中可包括实现图6、图8、图9及图10中一个或多个附图所描述的方法语音声源定位方法的程序代码。
可以理解的是,上述处理器1101和存储器1102可以由处理单元和存储单元替代实现,其中,处理单元和存储单元可以由具有相应功能的代码实现。存储单元,用于存储程序指令;处理单元,用于执行该存储单元中的程序指令,以实现图6、图8、图9及图10任一所示相关的语音声源定位方法、以及上述各可选实施例。
图13为本申请实施例提供的一种语音声源定位装置的结构示意图。该语音声源定位装置可以是本申请实施例中的电子装置,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,智能音响、智能电视等智能家居设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。并且可以实现图6、图8、图9及图10中一个或多个附图所描述的方法,以及上述各可选实施例。如图13所示,语音声源定位装置1300包括:处理器1301,与处理器1301耦合的接口电路1302。应理解,虽然图13中仅示出了一个处理器和一个接口电路。语音声源定位装置1300可以包括其他数目的处理器和接口电路。
其中,接口电路1302用于与电子装置的其他组件连通,例如存储器或其他处理器。处理器1301用于通过接口电路1302与其他组件进行信号交互。接口电路1302可以是处理器1301的输入/输出接口。
例如,处理器1301通过接口电路1302读取与之耦合的存储器中的计算机程序或指令,并译码和执行这些计算机程序或指令。应理解,这些计算机程序或指令可包括上述定位功能程序,也可以包括上述应用在电子装置内的语音声源定位装置的功能程 序。当相应功能程序被处理器1301译码并执行时,可以使得电子装置或在电子装置(如车)内的语音声源定位装置实现本申请实施例所提供的语音声源定位方法中的方案。
可选的,这些定位功能程序存储在语音声源定位装置130外部的存储器中。当上述定位功能程序被处理器1301译码并执行时,存储器中临时存放上述定位功能程序的部分或全部内容。
可选的,这些定位功能程序存储在语音声源定位装置1300内部的存储器中。当语音声源定位装置1300内部的存储器中存储有定位功能程序时,语音声源定位装置1300可被设置在本申请实施例的车或智能家居中。
可选的,这些定位功能程序的部分内容存储在语音声源定位装置1300外部的存储器中,这些定位功能程序的其他部分内容存储在语音声源定位装置1300内部的存储器中。
图14为本申请实施例提供的一种语音声源定位装置的结构示意图。该语音声源定位装置可以是本申请实施例中的电子装置,其中,电子装置可以是计算设备的整机,例如,车、车机等车载设备,智能音响、智能电视等智能家居设备,也可以是应用于计算设备的部分器件,例如,车机中的芯片、声音传感器的处理器或控制器等。并且可以实现图6、图8、图9及图10中一个或多个附图所描述的方法,以及上述各可选实施例。如图14所示,语音声源定位装置1400包括:处理单元1401,与处理单元1401耦合的收发单元1402。应理解,虽然图14中仅示出了一个处理单元和一个收发单元。语音声源定位装置1400可以包括其他数目的处理单元和收发单元。
其中,处理单元1401可以用于实现实现图6、图8、图9及图10中一个或多个附图所描述的方法,以及上述各可选实施例中的处理操作,收发单元1402可以用于实现实现图6、图8、图9及图10中一个或多个附图所描述的方法,以及上述各可选实施例中的获取动作。例如,处理单元1401可以用于执行S602,收发单元1402可以用于执行S601和S603。再例如,处理单元1401可以用于执行S802,收发单元1402可以用于执行S801。再例如,处理单元1401可以用于执行S901和S903,收发单元1402可以用于执行S902。再例如,处理单元1401可以用于执行S1001和S1003,收发单元1402可以用于执行S1002。
其中,本申请实施例中的语音声源定位装置还可以由硬件来实现。处理单元1401可以由处理器1301实现,收发单元1402可以由接口电路1302实现。收发单元1402可以为相同物理实体或不同物理实体,例如收发单元为不同物理实体时,可以称为接收器和发射器。收发单元为相同的物理实体时,可以统称为收发单元或者收发器。
或者,其中,本申请实施例中的语音声源定位装置可以由软件实现,例如,具有上述功能的计算机程序或指令来实现,相应计算机程序或指令可以存储在电子装置内部的存储器中,通过处理器读取该存储器内部的相应计算机程序或指令来实现上述功能。
或者,本申请实施例中的语音声源定位装置还可以由处理器和软件模块的结合实现。
应理解,图1至图2的车辆架构以及图12至图14任一所示的语音声源定位装置 可以互相结合,图1至图2的车辆架构以及图12至图14任一所示的语音声源定位装置以及各可选实施例相关设计细节可互相参考,也可以参考图6、图8、图9及图10任一所示的语音声源定位方法以及各可选实施例相关设计细节。此处不再重复赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (28)

  1. 一种语音声源定位方法,其特征在于,包括:
    获取第一语音的声音传感信息,所述声音传感信息由多个声音传感器确定;
    根据所述声音传感信息和声学传递关系,从空间的多个区域中确定所述第一语音的声源位置;
    其中,所述声学传递关系用于表示在所述空间中的一个或多个区域播放音频时,所述多个声音传感器采集到的声音传感信息与所述一个或多个区域的传递关系,所述声学传递关系是基于非自由场条件预先确定的。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述声音传感信息和声学传递关系,从空间中确定所述第一语音的声源位置,包括:
    根据所述声音传感信息和声学传递关系,确定所述空间中的多个区域的功率和;
    确定所述多个区域中对应于最大功率和的区域为所述第一语音的声源位置。
  3. 根据权利要求1所述的方法,其特征在于,所述根据所述声音传感信息和声学传递关系,从空间中确定所述第一语音的声源位置,包括:
    根据所述声音传感信息和声学传递关系,确定所述空间中的多个区域的功率和;
    在存在一个或多个区域的功率和大于阈值时,确定所述一个或多个区域为所述第一语音的声源位置。
  4. 根据权利要求1至3任一所述的方法,其特征在于,所述声学传递关系与所述音频的频域信息及所述声音传感信息的频域信息的比值有关。
  5. 根据权利要求2至3任一所述的方法,其特征在于,所述功率和与所述多个声音传感器采集到的所述声音传感信息间的差值有关。
  6. 根据权利要求1至4任一所述的方法,其特征在于,所述音频包括白噪声或粉红噪声。
  7. 根据权利要求1至5任一所述的方法,其特征在于,所述多个声音传感器为分布式声音传感器阵列,所述多个声音传感器的数量大于或等于2。
  8. 一种语音声源定位方法,其特征在于,在空间内的第一区域和第二区域,播放有音频,所述方法包括:
    获取所述空间内的声音传感信息,所述声音传感信息由所述空间内的多个声音传感器确定;
    根据所述声音传感信息,确定所述空间的声学传递关系;
    其中,所述声学传递关系包括所述第一区域的声学传递关系和所述第二区域的声学传递关系,所述第一区域的声学传递关系和所述第二区域的声学传递关系用于确定所述空间的声源位置。
  9. 根据权利要求8所述的方法,其特征在于,所述方法还包括:
    获取所述音频;
    所述根据所述声音传感信息,确定所述空间的声学传递关系包括:
    根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系。
  10. 根据权利要求9所述的方法,其特征在于,所述音频包括第一音频和第二音 频,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息为在第一区域播放第一音频时所获得的声音传感信息,第二声音传感信息为在第二区域播放第二音频时所获得的声音传感信息;
    所述根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系,包括:
    根据所述第一声音传感信息与所述第一音频的比值,确定所述第一区域的声学传递关系;
    根据所述第二声音传感信息与所述第二音频的比值,确定所述第二区域的声学传递关系。
  11. 根据权利要求8所述的方法,其特征在于,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息包括在所述第一区域播放所述音频时,所述多个声音传感器确定的声音传感信息,第二声音传感信息包括在所述第二区域播放所述音频时,所述多个声音传感器确定的声音传感信息;所述多个传感器包括I个传感器,I为大于或等于2的正整数;
    所述根据所述声音传感信息,确定所述空间的声学传递关系,包括:
    根据所述多个声音传感器中的I-1个声音传感器所确定的第一声音传感信息的频域信息,与所述多个声音传感器中的除所述I-1个声音传感器之外的同一个声音传感器所确定的第一声音传感信息的频域信息之差,确定所述确定第一区域的声学传递关系;
    根据所述I-1个声音传感器所确定的第二声音传感信息的频域信息与所述同一个声音传感器所确定的第二声音传感信息的频域信息之差,确定所述确定第二区域的声学传递关系。
  12. 根据权利要求8至11任一所述的方法,其特征在于,所述音频包括白噪声或粉红噪声。
  13. 根据权利要求8至12任一所述的方法,其特征在于,所述多个声音传感器为分布式声音传感器阵列。
  14. 一种语音声源定位装置,其特征在于,包括:处理单元和收发单元;
    所述收发单元用于获取第一语音的声音传感信息,所述声音传感信息由多个声音传感器确定;
    所述处理单元用于根据所述声音传感信息和声学传递关系,从空间的多个区域中确定所述第一语音的声源位置;
    其中,所述声学传递关系用于表示在所述空间中的一个或多个区域播放音频时,所述多个声音传感器采集到的声音传感信息与所述一个或多个区域的传递关系,所述声学传递关系是基于非自由场条件预先确定的。
  15. 根据权利要求14所述的装置,其特征在于,所述处理单元用于根据所述声音传感信息和声学传递关系,从空间的多个区域中确定所述第一语音的声源位置,包括:所述处理单元用于根据所述声音传感信息和声学传递关系,确定所述空间中的多个区域的功率和;
    所述处理单元还用于确定所述多个区域中对应于最大功率和的区域为所述第一语 音的声源位置。
  16. 根据权利要求14所述的装置,其特征在于,所述处理单元用于根据所述声音传感信息和声学传递关系,从空间的多个区域中确定所述第一语音的声源位置,包括:
    所述收发单元用于根据所述声音传感信息和声学传递关系,确定所述空间中的多个区域的功率和;
    所述收发单元还用于在存在一个或多个区域的功率和大于阈值时,确定所述一个或多个区域为所述第一语音的声源位置。
  17. 根据权利要求14至16任一所述的装置,其特征在于,所述声学传递关系与所述音频的频域信息及所述声音传感信息的频域信息的比值有关。
  18. 根据权利要求15至16任一所述的装置,其特征在于,所述功率和与所述多个声音传感器采集到的所述声音传感信息间的差值有关。
  19. 根据权利要求14至18任一所述的装置,其特征在于,所述音频包括白噪声或粉红噪声。
  20. 根据权利要求14至19任一所述的装置,其特征在于,所述多个声音传感器为分布式声音传感器阵列,所述多个声音传感器的数量大于或等于2。
  21. 一种语音声源定位装置,其特征在于,包括:处理单元和收发单元;
    所述收发单元用于获取所述空间内的声音传感信息,所述声音传感信息由所述空间内的多个声音传感器确定;
    所述处理单元用于根据所述声音传感信息,确定所述空间的声学传递关系;
    其中,所述声学传递关系包括所述第一区域的声学传递关系和所述第二区域的声学传递关系,所述第一区域的声学传递关系和所述第二区域的声学传递关系用于确定所述空间的声源位置。
  22. 根据权利要求21所述的装置,其特征在于,所述收发单元还用于获取所述音频;
    所述处理单元用于根据所述声音传感信息,确定所述空间的声学传递关系包括:
    所述处理单元用于根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系。
  23. 根据权利要求22所述的装置,其特征在于,所述音频包括第一音频和第二音频,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息为在第一区域播放第一音频时所获得的声音传感信息,第二声音传感信息为在第二区域播放第二音频时所获得的声音传感信息;
    所述处理单元用于根据所述声音传感信息,确定所述空间的声学传递关系,包括:
    所述处理单元用于根据所述第一声音传感信息与所述第一音频的比值,确定所述第一区域的声学传递关系;
    所述处理单元用于根据所述第二声音传感信息与所述第二音频的比值,确定所述第二区域的声学传递关系。
  24. 根据权利要求21所述的装置,其特征在于,所述声音传感信息包括第一声音传感信息和第二声音传感信息,所述第一声音传感信息包括在所述第一区域播放所述音频时,所述多个声音传感器确定的声音传感信息,第二声音传感信息包括在所述第 二区域播放所述音频时,所述多个声音传感器确定的声音传感信息;所述多个传感器包括I个传感器,I大于或等于2;
    所述处理单元用于根据所述声音传感信息的频域信息和所述音频的频域信息,确定所述空间的声学传递关系,包括:
    所述处理单元用于根据所述多个声音传感器中的I-1个声音传感器所确定的第一声音传感信息的频域信息,与所述多个声音传感器中的除所述I-1个声音传感器之外的同一个声音传感器所确定的第一声音传感信息的频域信息之差,确定所述确定第一区域的声学传递关系;
    所述处理单元用于根据所述I-1个声音传感器所确定的第二声音传感信息的频域信息与所述同一个声音传感器所确定的第二声音传感信息的频域信息之差,确定所述确定第二区域的声学传递关系。
  25. 根据权利要求21至24任一所述的方法,其特征在于,所述音频包括白噪声或粉红噪声。
  26. 根据权利要求21至24任一所述的方法,其特征在于,所述多个声音传感器为分布式声音传感器阵列,所述多个声音传感器的数量大于或等于2。
  27. 一种计算机可读存储介质,其特征在于:
    该计算机可读存储介质中存储了程序代码,该程序代码被终端或终端中的处理器执行时,以实现如权利要求1至13任一所述的方法。
  28. 一种计算机程序产品,其特征在于:
    该计算机程序产品包含的程序代码被终端中的处理器执行时,以实现如权利要求1至13任一所述的方法。
CN202180007542.XA 2021-07-21 2021-07-21 语音声源定位方法、装置及系统 Pending CN116368398A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/107616 WO2023000206A1 (zh) 2021-07-21 2021-07-21 语音声源定位方法、装置及系统

Publications (1)

Publication Number Publication Date
CN116368398A true CN116368398A (zh) 2023-06-30

Family

ID=84979791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180007542.XA Pending CN116368398A (zh) 2021-07-21 2021-07-21 语音声源定位方法、装置及系统

Country Status (2)

Country Link
CN (1) CN116368398A (zh)
WO (1) WO2023000206A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164174A1 (zh) * 2023-02-08 2024-08-15 华为技术有限公司 控制方法、音频播放方法及相关装置、系统、车辆

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895112A (zh) * 2014-10-17 2016-08-24 杜比实验室特许公司 面向用户体验的音频信号处理
WO2017063693A1 (en) * 2015-10-14 2017-04-20 Huawei Technologies Co., Ltd. Adaptive reverberation cancellation system
US9813810B1 (en) * 2016-01-05 2017-11-07 Google Inc. Multi-microphone neural network for sound recognition
CN109061567B (zh) * 2018-08-15 2022-08-09 广东海洋大学 多源环境下的语音精确定位方法
CN112346012A (zh) * 2020-11-13 2021-02-09 南京地平线机器人技术有限公司 声源位置确定方法和装置、可读存储介质、电子设备

Also Published As

Publication number Publication date
WO2023000206A1 (zh) 2023-01-26

Similar Documents

Publication Publication Date Title
CN113596705B (zh) 一种发声装置的控制方法、发声系统以及车辆
CN115348657B (zh) 用于车辆时间同步的系统、方法及车辆
CN115042821B (zh) 车辆控制方法、装置、车辆及存储介质
CN113892088A (zh) 一种测试方法和系统
JP7040513B2 (ja) 情報処理装置、情報処理方法及び記録媒体
CN115123257A (zh) 路面减速带位置识别方法、装置、车辆、存储介质及芯片
CN115314526A (zh) 用于自车位置识别的系统架构、传输方法、车辆、介质及芯片
CN116368398A (zh) 语音声源定位方法、装置及系统
CN115056784B (zh) 车辆控制方法、装置、车辆、存储介质及芯片
CN115202234B (zh) 仿真测试方法、装置、存储介质和车辆
CN115407344B (zh) 栅格地图创建方法、装置、车辆及可读存储介质
CN115221151B (zh) 车辆数据的传输方法、装置、车辆、存储介质及芯片
CN115297461B (zh) 数据交互方法、装置、车辆、可读存储介质及芯片
CN114782638B (zh) 生成车道线的方法、装置、车辆、存储介质及芯片
CN115145246B (zh) 控制器的测试方法、装置、车辆、存储介质及芯片
CN115051723A (zh) 车载天线装置、车载远程通信终端、车载通信系统及车辆
CN115334111A (zh) 用于车道识别的系统架构、传输方法,车辆,介质及芯片
CN115930955A (zh) 导航数据传输方法、装置、存储介质和车辆
CN115079624B (zh) 用于车辆绝对时间发布的车载控制器、方法及车辆
CN115297434B (zh) 服务调用方法、装置、车辆、可读存储介质及芯片
CN115179930B (zh) 车辆控制方法、装置、车辆及可读存储介质
CN116022029B (zh) 充电盖打开方法、装置、车辆、可读存储介质及芯片
CN117789741A (zh) 语音信号处理方法、装置、车辆及存储介质
CN115139946B (zh) 车辆落水检测方法、车辆、计算机可读存储介质及芯片
CN115303238B (zh) 辅助刹车和鸣笛方法、装置、车辆、可读存储介质及芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination