CN113053402B - 一种语音处理方法、装置和车辆 - Google Patents

一种语音处理方法、装置和车辆 Download PDF

Info

Publication number
CN113053402B
CN113053402B CN202110241478.3A CN202110241478A CN113053402B CN 113053402 B CN113053402 B CN 113053402B CN 202110241478 A CN202110241478 A CN 202110241478A CN 113053402 B CN113053402 B CN 113053402B
Authority
CN
China
Prior art keywords
audio
target
voice
zone
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110241478.3A
Other languages
English (en)
Other versions
CN113053402A (zh
Inventor
陈真义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110241478.3A priority Critical patent/CN113053402B/zh
Publication of CN113053402A publication Critical patent/CN113053402A/zh
Application granted granted Critical
Publication of CN113053402B publication Critical patent/CN113053402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明实施例提供了一种语音处理方法、装置和车辆,所述方法应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备,所述的方法包括:确定所述车辆内目标说话人所在的目标音区;确定设置在目标音区的音频播放设备所播放的目标音频数据;基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。本发明实施例能够在车辆设置有多个音区的场景下,在某一音区的音频播放设备播放音频时,对该音区音频采集设备采集语音数据进行有效降噪,提取出干净度高的用户语音数据。

Description

一种语音处理方法、装置和车辆
技术领域
本发明涉及汽车技术领域,特别是涉及一种语音处理方法、装置和车辆。
背景技术
随着基于语音对话的方式的人机交互功能不断完善与发展,基于语音对话的方式人机交互功能也逐渐被应用到车辆中。车内用户可以通过语音控制车辆执行各种操作,如调整座椅、空调、车窗及后视镜等等;还是语音导航、播放/暂停音乐等等;解放了用户尤其是驾驶员的双手,大大提高了用户体验。
基于语音对话的方式的人机交互功能的核心之一在于语音识别,而语音识别的准确性依赖于语音信息的前端处理如降噪。目前,传统的语音降噪的方式是设置两个语音采集模块:第一语音采集模块和第二语音采集模块;通过第一语音采集模块采集环境噪音,第二语音采集模块采集语音源区的源语音数据;然后采用第一语音采集信号对第二语音采集信号进行降噪。
然而现有技术仅能针对单音区进行降噪;但目前很多车辆都设置有多个音区且每个音区都设置有扬声器,当扬声器播放音频时,会对用户的语音信息产生干扰;现有技术的降噪方法无法解决该种场景下的语音降噪问题。
发明内容
本发明实施例提供一种语音处理方法,以在车辆设置有多个音区的场景下,在某一音区的音频播放设备播放音频时,对该音区采集的用户语音数据进行有效降噪。
本发明实施例还提供了一种语音处理装置和车辆,以保证上述方法的实施。
为了解决上述问题,本发明公开了一种语音处理方法,应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备,所述的方法包括:确定所述车辆内目标说话人所在的目标音区;确定设置在目标音区的音频播放设备所播放的目标音频数据;基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
可选地,每个音频采集设备设置有对应的语音唤醒键;所述确定所述车辆内目标说话人所在的目标音区,包括:接收语音唤醒键被触发所产生的语音唤醒信号;依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区。
可选地,所述确定所述车辆内目标说话人所在的目标音区,包括:获取多个音频采集设备采集的语音数据;确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向;依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区。
可选地,所述基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:通过采用音频采集设备所采集的语音数据减去目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
可选地,在所述基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据的步骤之后,所述的方法还包括:根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
可选地,在确定所述车辆内目标说话人所在的目标音区的步骤之后,所述的方法还包括:采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置。
可选地,由设置在目标音区的音频采集设备进行语音采集;所述基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:基于所述目标音频数据,对设置在目标音区的音频采集设备所采集语音数据进行降噪,提取出目标说话人的语音数据。
可选地,所述基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成;基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据。
本发明实施例还提供了一种语音处理装置,应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备,所述的装置包括:音区确定模块,用于确定所述车辆内目标说话人所在的目标音区;数据确定模块,用于确定设置在目标音区的音频播放设备所播放的目标音频数据;第一降噪模块,用于基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
可选地,每个音频采集设备设置有对应的语音唤醒键;所述音区确定模块,包括:第一目标音区确定子模块,用于接收语音唤醒键被触发所产生的语音唤醒信号;依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区。
可选地,所述音区确定模块,包括:第二目标音区确定子模块,用于获取多个音频采集设备采集的语音数据;确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向;依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区。
可选地,所述第一降噪模块,包括:第一语音降噪子模块,用于通过采用音频采集设备所采集的语音数据减去目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
可选地,所述的装置还包括:第二降噪模块,用于在基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据的步骤之后,根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
可选地,在所述的装置还包括:构造模块,用于在确定所述车辆内目标说话人所在的目标音区的步骤之后,采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置。
可选地,由设置在目标音区的音频采集设备进行语音采集;所述第一降噪模块,包括:第二语音降噪子模块,用于基于所述目标音频数据,对设置在目标音区的音频采集设备所采集语音数据进行降噪,提取出目标说话人的语音数据。
可选地,所述第二降噪模块,包括:第三语音降噪子模块,用于对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成;基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据。
本发明实施例还提供了一种车辆,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如本发明实施例任一所述的语音处理方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由车辆的处理器执行时,使得车辆能够执行如本发明实施例任一所述的语音处理方法。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,可以在车辆内设置多个音区,其中,每个音区设置有至少一个音频采集设备和至少一个音频播放设备;在确定所述车辆内目标说话人所在的目标音区后,可以确定设置在目标音区的音频播放设备所播放的目标音频数据;然后基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;进而通过将车内空间划分为多个音区,并结合任一音区对应音频播放设备播放的音频数据,能够有效的针对任一音区的音频采集设备采集到的语音数据进行去噪,得到车内任一位置用户的干净度更高的语音数据。
附图说明
图1是本发明实施例的一种车辆中音区划分示意图;
图2是本发明的一种语音处理方法实施例的步骤流程图;
图3是本发明的一种语音处理方法可选实施例的步骤流程图;
图4是本发明的另一种语音处理方法可选实施例的步骤流程图;
图5是本发明的一种语音处理装置实施例的结构框图;
图6是本发明的一种语音处理装置可选实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供的一种语音处理方法,可以应用于车辆中;可以对采集的车内语音数据进行降噪处理,以提取出车内说话人的语音数据;所述降噪处理可以是指降低语音数据中的噪声。
所述车辆可以设置有多个音区,每个音区可以设置有至少一个音频采集设备和至少一个音频播放设备;其中,车辆音区的划分方式可以按照需求设置,每个音区设置的音频采集设备的数量及位置,以及每个音区设置的音频播放设备的数量及位置,均可以按照需求设置,本发明实施例对此不作限制。
可参照图1,图1示出了本发明实施例的一种车辆中音区划分示意图。图1中划分了6个音区,其中,每个音区设置有一个音频采集设备和一个音频播放设备;其中,A1、A2、A3、A4、A5和A6为音频采集设备,B1、B2、B3、B4、B5和B6为音频播放设备。其中,音区1可以称为主驾音区,对应主驾座椅所在的区域,音区2可以称为副驾音区,对应副驾座椅所在的区域;音区3~音区6均可以称为后排音区,可以分别对应一后排座椅所在的区域;本发明实施例对此不作限制。
本发明实施例中,为了车内用户不同的需求,如驾驶员侧重导航和通话,后排乘客侧重音乐等娱乐,可以在车内设置多个终端设备,如可以为每个座椅上的用户设置对应的终端设备;进而每个座椅上的用户可以通过对应的终端设备,选择所需的音频进行播放。一个示例中,一个音区可以对应至少一个终端设备。
在上述基础上,本发明实施例的核心构思之一在于,在目标说话人说话过程中,可以将目标说话人所在音区的音频播放设备播放的音频数据作为车内音频背景音,对采集到的语音数据进行降噪,以提取出目标说话人的语音数据;进而通过将车内空间划分为多个音区,并结合任一音区对应音频播放设备播放的音频数据,能够有效的针对任意音区的音频采集设备采集到的语音数据进行去噪,得到车内任一位置用户的干净度更高的语音数据。
本发明的一个可选实施例中,所述终端设备可以是集成了多种功能的终端设备,如娱乐功能、导航功能、仪表功能等等;不同座椅对应的终端设备所集成的功能可以相同,也可以不同;本发明实施例对此不作限制。
本发明的一个可选实施例中,所述车辆中设置有多个处理单元,可以包括主处理单元和其他处理单元;其中,针对车辆的数据处理,可以部分数据处理由主处理单元执行,部分数据处理由其他处理单元执行;当然;部分数据处理可以由主处理单元与其他处理单元联合执行,本发明实施例对此不作限制。其中,所述其他处理单元可以包括多种,如音频处理单元、麦克风处理单元等等,本发明实施例对此不作限制。相应的,本发明实施例提供的一种语音处理,可以由车辆内的处理单元执行,所述处理单元可以包括主处理单元和/或其他处理单元。
本发明的一个可选实施例中,所述音频采集设备可以包括麦克风,所述音频播放设备可以包括扬声器。
参照图2,示出了本发明的一种语音处理方法实施例的步骤流程图。
步骤202、确定所述车辆内目标说话人所在的目标音区。
步骤204、确定设置在目标音区的音频播放设备所播放的目标音频数据。
步骤206、基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
由于在每个音区的用户在说话过程中,该音区的音频播放设备所播放的音频数据,对提取该音区的用户的语音数据的干扰最大;因此可以先确定车辆内当前正在说话的用户所在的音区;然后采用该音区内音频播放设备播放的音频数据作为车内音频背景音,对音频采集设备采集到的语音数据进行降噪,以提取出当前正在说话的用户的语音数据。
其中,为了便于后续说明,可以将车辆内当前正在说话的用户称为目标说话人;将车辆内当前正在说话的用户所在的音区称为目标音区;将目标音区内音频播放设备所播放的音频数据称为目标音频数据。
其中,目标说话人可以包括至少一个,对应的,目标音区也可以包括至少一个。目标音频数据可以包括多种如音乐、有声读物音频数据、导航音频数据、通话音频数据等等,本发明实施例对此不作限制。
其中,车内音频采集设备可以进行语音采集,进而在目标说话人说话的过程中,车内的音频采集设备可以采集到目标说话人的语音数据。由于车内音频采集设备采集的到的语音数据除了目标说话人的语音数据外,还包括目标音区的目标音频播放设备播放的目标音频数据。因此在确定目标音频数据后,可以基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,以提取出目标说话人的语音数据。车内音频采集设备进行语音采集的步骤,可以是在步骤206之前;且本发明实施例不限制车内音频采集设备进行语音采集,与步骤202、步骤204的执行顺序。
本发明实施例中,进行语音采集的音频采集设备,可以是目标音区的音频采集设备,也可以是包括目标音区的音频采集设备在内的多个音频采集设备;可以按照需求设置,本发明实施例对此不作限制。
综上,本发明实施例中,可以在车辆内设置多个音区,其中,每个音区设置有至少一个音频采集设备和至少一个音频播放设备;在确定所述车辆内目标说话人所在的目标音区后,可以确定设置在目标音区的音频播放设备所播放的目标音频数据;然后基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;进而通过将车内空间划分为多个音区,并结合任一音区对应音频播放设备播放的音频数据,能够有效的针对任一音区的音频采集设备采集到的语音数据进行去噪,得到车内任一位置用户的干净度更高的语音数据。
以下对如何确定所述车辆内目标说话人所在的目标音区进行说明。
参照图3,示出了本发明的一种语音处理方法可选实施例的步骤流程图。
步骤302、确定所述车辆内目标说话人所在的目标音区。
本发明实施例中,可以在目标说话人说话过程中,确定车辆内目标说话人所在的目标音区。对应的,一种确定所述车辆内目标说话人所在的目标音区的方式,可以参照如下子步骤:
子步骤S22、获取多个音频采集设备采集的语音数据。
子步骤S24、确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向。
子步骤S26、依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区。
本发明实施例中,车辆内各音区的音频采集设备可以始终处于开启状态;进而在任一音区的用户说话过程中,各音区的音频采集设备可以采集到该用户的语音数据。然后各音区的音频采集设备可以将采集的语音数据发送至处理单元;进而由处理单元执行上述子步骤S22~子步骤S26,确定目标说话人所在的目标音区。
由于车内不同音区内的音频采集设备的位置不同,因此各音区的音频采集设备接收到同一声源的信号强度和角度是不同的;进而处理单元获取到多个音区的音频采集设备采集的语音数据后,可以确定各音区对应音频采集设备采集的语音数据对应的幅值,以及分别确定各音区的音频采集设备采集的语音数据相对于各音频采集设备的方向。然后可以根据各音区的音频采集设备采集的语音数据对应的幅值,以及各音区的音频采集设备采集的语音数据相对于各音频采集设备的方向进行声源定位,确定出目标说话人所在的目标音区。
本发明实施例中,还可以为每个音频采集设备设置有对应的语音唤醒键,所述语音唤醒键用于唤醒对应的音频采集设备。所述语音唤醒键可以是物理按键,也可以是虚拟按键如终端设备的显示界面中的一控件,本发明实施例对此不作限制。其中,车辆内各音区的音频采集设备可以始终处于休眠状态;当任一音区的用户需要进行语音交互时,可以触发其所在音区的语音唤醒键如按压、点击等。一方面,音频采集设备被唤醒,可以进行语音采集。另一方面,处理单元也可以接收到该语音唤醒键对应的语音唤醒信号,将该语音唤醒键对应音频采集设备所在的音区确定为目标音区。对应的,一种确定所述车辆内目标说话人所在的目标音区的方式,可以参照如下子步骤:
子步骤S42、接收语音唤醒键被触发所产生的语音唤醒信号。
子步骤S44、依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区。
本发明的一个实施例中,每个语音唤醒信号存在对应的标识;所述标识可以包括音频采集设备的标识,或,与音频采集设备的标识存在映射关系的标识;所述音频采集设备的标识可以用于唯一标识音频采集设备。进而处理单元在接收到语音唤醒键被触发所产生的语音唤醒信号后,可以根据该语音唤醒信号的标识所包含的标识,确定与所述语音唤醒键对应的目标音频采集设备;再将目标音频采集设备所设置的音区,确定为所述车辆内目标说话人所在的目标音区。
本发明的一个实施例中,所述标识可以包括音频采集设备的标识(或与音频采集设备的标识存在映射关系的标识)和音区标识;进而处理单元可以根据语音唤醒信号对应标识所包含的音区标识,直接确定所述车辆内目标说话人所在的目标音区。
步骤304、确定设置在目标音区的音频播放设备所播放的目标音频数据。
本发明实施例中,当目标说话人在对应终端设备中选取某一音频后,可以由主处理单元将对应的音频数据,发送至音频处理单元;然后音频处理单元可以将该音频数据发送至功率放大器;功率放大器调整音频数据的放大功率后,可以通过目标音区的音频播放设备播放该音频数据。
进而在确定目标音区后,可以确定主处理单元发送给音频处理单元的音频数据,并将该音频数据确定为目标音频数据。
其中,可以由音频处理单元将目标音频数据发送至麦克风处理单元,由麦克风处理单元进行降噪,即由麦克风处理单元执行步骤306。也可以由主处理单元执行步骤306,本发明实施例对此不作限制。
步骤306、通过采用音频采集设备所采集的目标说话人的语音数据减去目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
本发明实施例中,可以将音频采集设备所采集的语音数据,与目标音频数据进行对齐;然后采用音频采集设备所采集的语音数据减去目标音频数据来进行降噪,进而提取出目标说话人的语音数据。
本发明的一个示例中,可以由为设置在目标音区的音频采集设备进行语音采集;对应的,一种基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:基于所述目标音频数据,对设置在目标音区的音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。也就是通过采用设置在目标音区的音频采集设备所采集的语音数据减去目标音频数据进行降噪,提取出目标说话人的语音数据。
本发明的一个可选实施例中,当由目标音区的音频采集设备进行语音采集时,可以关闭设置在其他音区的音频采集设备;进而通过关闭未说话的用户所在音区的音频采集设备,以节约资源。其中,可以是在确定所述车辆内目标说话人所在的目标音区之后,执行关闭设置在其他音区的音频采集设备的步骤。
本发明的一个示例中,还可以采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置;进而可以由构成针对目标音区的定向音频采集装置的多个音频采集设备进行语音采集。其中,可以采用波束成形技术,采用设置在目标音区的音频采集设备和至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置。对应的,一种基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成;基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据。其中,可以根据构造定向音频采集装置过程中,所设置的各音区的音频采集设备的波束,对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行加权计算,来合成构成定向音频采集装置的所有音频采集设备所采集的语音数据;然后基于目标音频数据对合成的语音数据进行降噪。由于通过定向音频采集装置能够更好的拾音,进而能够提高后续语音识别效果。
综上,本发明实施例中,可以为每个音频采集设备设置对应的语音唤醒键;进而待用户触发语音唤醒按键后,处理单元可以接收语音唤醒键被触发所产生的语音唤醒信号,然后依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区;从而实现快速且准确的识别目标音区。
其次,本发明实施例中,每个音频采集设备也可以不设置对应的语音唤醒键;可以车内多个音区的音频采集设备采集的语音数据,在获取到这多个音区的音频采集设备采集的语音数据后,可以确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向;依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区;进而准确的识别出目标音区。且无需用户操作,提高用户体验。
进一步,本发明实施例中,可以由目标音区的音频采集设备进行语音采集,进而基于所述目标音频数据,对设置在目标音区的音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;由于目标音区的音频采集设备相对于目标说话人距离更近,因此针对目标说话人的拾音效果更好,进而能够增加拾音的准确性,从而提高后续语音识别的准确性。
进一步,本发明实施例中,还可以采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置;然后由构成定向音频采集装置的所有音频采集设备进行语音采集;进而对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成,并基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据;进而从多个方位采集目标说话人的语音数据,进一步提高针对目标说话人的语音数据的拾音准确性,从而提高后续语音识别的准确性。
本发明实施例中,在目标说话人说话的过程中,当其他音区的音频播放设备也在播放音频数据时,则也会一定程度对提取出的目标说话人的语音数据造成干扰。因此本发明实施例还可以在提取出目标说话人的语音数据后,从提取出的目标说话人的语音数据中去除其他音区的音频播放设备播放的音频数据的干扰,来进一步增加去噪效果,提高提取出的目标说话人的语音数据的干净度。
参照图4,示出了本发明另一种语音处理方法可选实施例的步骤流程图。
步骤402、确定所述车辆内目标说话人所在的目标音区。
步骤404、确定设置在目标音区的音频播放设备所播放的目标音频数据。
步骤406、基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
其中,步骤402~步骤406可以参照上述实施例,在此不再赘述。
步骤408、根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算。
步骤410、基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
本发明实施例中,当由目标音区的音频采集设备进行语音采集时,若其他音区的音频播放设备在播放音频数据,目标音区的音频采集设备除了采集到目标说话人的语音数据之外,还会采集到其他音区的音频播放设备在播放音频数据;导致采集的语音数据中还包含其他音区的音频播放设备播放的音频数据。因此可以确定设置在目标音区的音频采集设备与设置在其他音区的音频播放设备的位置关系,并根据设置在目标音区的音频采集设备与设置在其他音区的音频播放设备的位置关系,确定各音频播放设备播放音频数据对目标音区采集到的语音数据中目标说话人的语音数据的干扰程度。然后根据该干扰程度,确定各音频播放设备播放音频数据对应的权重,并基于各音频播放设备播放音频数据对应的权重,对设置在其他音区的音频播放设备播放的音频数据进行加权计算。然后可以采用上一次降噪得到的语音数据,即提取出的目标说话人的语音数据,减去加权计算得到的音频数据,来实现对目标说话人的语音数据进行降噪。
本发明实施例中,当由多个音区的音频采集设备同时进行语音采集时,任一音区的音频采集设备除了采集到目标说话人的语音数据之外,还会采集到其他音区的音频播放设备在播放音频数据;导致采集的语音数据中还包含其他音区的音频播放设备播放的音频数据。进而可以先确定进行语音采集的多个音区中音频采集设备之间的位置关系;然后针对每个音区的音频采集设备,确定每个音区的音频播放设备播放的音频数据,对该音区的音频采集设备采集到的语音数据中目标说话人的语音数据的干扰程度。然后根据该干扰程度,确定各音区的音频播放设备播放音频数据对应的权重,并基于各音频播放设备播放音频数据对应的权重,对设置在这多个音区的音频播放设备播放的音频数据进行加权计算。然后可以采用上一次降噪得到的语音数据,即提取出的目标说话人的语音数据,减去加权计算得到的音频数据,来实现对目标说话人的语音数据进行降噪。
综上,本发明实施例中,在基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据的步骤之后,还可以根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;然后基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪;进而来进一步增加去噪效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种语音处理装置,应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备。所述装置包括如下模块:
参照图5,示出了本发明一种语音处理装置实施例的结构框图,具体可以包括如下模块:
音区确定模块502,用于确定所述车辆内目标说话人所在的目标音区;
数据确定模块504,用于确定设置在目标音区的音频播放设备所播放的目标音频数据;
第一降噪模块506,用于基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
参照图6,示出了本发明一种语音处理装置可选实施例的结构框图,具体可以包括如下模块:
本发明的一个可选实施例中,每个音频采集设备设置有对应的语音唤醒键;所述音区确定模块502,包括:
第一目标音区确定子模块5022,用于接收语音唤醒键被触发所产生的语音唤醒信号;依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区。
本发明的一个可选实施例中,所述音区确定模块502,包括:
第二目标音区确定子模块5024,用于获取多个音频采集设备采集的语音数据;确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向;依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区。
本发明的一个可选实施例中,所述第一降噪模块506,包括:
第一语音降噪子模块5062,用于通过采用音频采集设备所采集的语音数据减去目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
本发明的一个可选实施例中,所述的装置还包括:
第二降噪模块508,用于在基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据的步骤之后,根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
本发明的一个可选实施例中,在所述的装置还包括:
构造模块510,用于在确定所述车辆内目标说话人所在的目标音区的步骤之后,采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置。
本发明的一个可选实施例中,由设置在目标音区的音频采集设备进行语音采集;所述第一降噪模块506,包括:
第二语音降噪子模块5064,用于基于所述目标音频数据,对设置在目标音区的音频采集设备所采集语音数据进行降噪,提取出目标说话人的语音数据。
本发明的一个可选实施例中,所述第一降噪模块506,包括:
第三语音降噪子模块5066,用于对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成;基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据。
综上,本发明实施例中,可以在车辆内设置多个音区,其中,每个音区设置有至少一个音频采集设备和至少一个音频播放设备;在确定所述车辆内目标说话人所在的目标音区后,可以确定设置在目标音区的音频播放设备所播放的目标音频数据;然后基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;进而通过将车内空间划分为多个音区,并结合任一音区对应音频播放设备播放的音频数据,能够有效的针对任一音区的音频采集设备采集到的语音数据进行去噪,得到车内任一位置用户的干净度更高的语音数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种车辆,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如本发明实施例任一所述的语音处理方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由车辆的处理器执行时,使得车辆能够执行如本发明实施例任一所述的语音处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种车辆,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音处理方法,其特征在于,应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备,所述的方法包括:
确定所述车辆内目标说话人所在的目标音区;
确定设置在目标音区的音频播放设备所播放的目标音频数据;
基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;
根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;
基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
2.根据权利要求1所述的方法,其特征在于,每个音频采集设备设置有对应的语音唤醒键;所述确定所述车辆内目标说话人所在的目标音区,包括:
接收语音唤醒键被触发所产生的语音唤醒信号;
依据所述语音唤醒信号的标识,确定所述车辆内目标说话人所在的目标音区。
3.根据权利要求1所述的方法,其特征在于,所述确定所述车辆内目标说话人所在的目标音区,包括:
获取多个音频采集设备采集的语音数据;
确定各音频采集设备采集的语音数据对应的幅值,以及分别确定各音频采集设备采集的语音数据相对于各音频采集设备的方向;
依据所述幅值和方向进行声源定位,确定所述车辆内目标说话人所在的目标音区。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:
通过采用音频采集设备所采集的语音数据减去目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据。
5.根据权利要求1所述的方法,其特征在于,在确定所述车辆内目标说话人所在的目标音区的步骤之后,所述的方法还包括:
采用设置在目标音区的音频采集设备和设置在至少一个其他音区的音频采集设备,构造针对目标音区的定向音频采集装置。
6.根据权利要求1所述的方法,其特征在于,由设置在目标音区的音频采集设备进行语音采集;所述基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:
基于所述目标音频数据,对设置在目标音区的音频采集设备所采集语音数据进行降噪,提取出目标说话人的语音数据。
7.根据权利要求5所述的方法,其特征在于,所述基于所述目标音频数据,对音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据,包括:
对构成定向音频采集装置的所有音频采集设备所采集的语音数据进行合成;
基于所述目标音频数据对合成的语音数据进行降噪,提取出目标说话人的语音数据。
8.一种语音处理装置,其特征在于,应用于车辆中,所述车辆内设置有多个音区,每个音区设置有至少一个音频采集设备和至少一个音频播放设备,所述的装置包括:
音区确定模块,用于确定所述车辆内目标说话人所在的目标音区;
数据确定模块,用于确定设置在目标音区的音频播放设备所播放的目标音频数据;
第一降噪模块,用于基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据;
第二降噪模块,用于在基于所述目标音频数据,对所述音频采集设备所采集的语音数据进行降噪,提取出目标说话人的语音数据的步骤之后,根据设置在各音区的音频采集设备之间的位置关系,对设置在各音区的音频播放设备播放的音频数据进行加权计算;基于加权计算得到的音频数据,对提取出的目标说话人的语音数据进行降噪。
9.一种车辆,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如方法权利要求1-7任一所述的语音处理方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由车辆的处理器执行时,使得车辆能够执行如方法权利要求1-7任一所述的语音处理方法。
CN202110241478.3A 2021-03-04 2021-03-04 一种语音处理方法、装置和车辆 Active CN113053402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110241478.3A CN113053402B (zh) 2021-03-04 2021-03-04 一种语音处理方法、装置和车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110241478.3A CN113053402B (zh) 2021-03-04 2021-03-04 一种语音处理方法、装置和车辆

Publications (2)

Publication Number Publication Date
CN113053402A CN113053402A (zh) 2021-06-29
CN113053402B true CN113053402B (zh) 2024-03-12

Family

ID=76510035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110241478.3A Active CN113053402B (zh) 2021-03-04 2021-03-04 一种语音处理方法、装置和车辆

Country Status (1)

Country Link
CN (1) CN113053402B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674754A (zh) * 2021-08-20 2021-11-19 深圳地平线机器人科技有限公司 基于音频的处理方法和装置
CN114678026B (zh) * 2022-05-27 2022-10-14 广州小鹏汽车科技有限公司 语音交互方法、车机终端、车辆及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013184821A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN110459234A (zh) * 2019-08-15 2019-11-15 苏州思必驰信息科技有限公司 用于车载的语音识别方法及系统
CN110556103A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 音频信号处理方法、装置、系统、设备和存储介质
CN111402877A (zh) * 2020-03-17 2020-07-10 北京百度网讯科技有限公司 基于车载多音区的降噪方法、装置、设备和介质
CN111599357A (zh) * 2020-04-07 2020-08-28 宁波吉利汽车研究开发有限公司 一种车内多音区拾音方法、装置、电子设备及存储介质
CN111768794A (zh) * 2019-03-15 2020-10-13 上海博泰悦臻网络技术服务有限公司 一种语音降噪方法、语音降噪系统、设备及存储介质
CN112185406A (zh) * 2020-09-18 2021-01-05 北京大米科技有限公司 声音处理方法、装置、电子设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013184821A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN110556103A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 音频信号处理方法、装置、系统、设备和存储介质
CN111768794A (zh) * 2019-03-15 2020-10-13 上海博泰悦臻网络技术服务有限公司 一种语音降噪方法、语音降噪系统、设备及存储介质
CN110459234A (zh) * 2019-08-15 2019-11-15 苏州思必驰信息科技有限公司 用于车载的语音识别方法及系统
CN111402877A (zh) * 2020-03-17 2020-07-10 北京百度网讯科技有限公司 基于车载多音区的降噪方法、装置、设备和介质
CN111599357A (zh) * 2020-04-07 2020-08-28 宁波吉利汽车研究开发有限公司 一种车内多音区拾音方法、装置、电子设备及存储介质
CN112185406A (zh) * 2020-09-18 2021-01-05 北京大米科技有限公司 声音处理方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN113053402A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US11017799B2 (en) Method for processing voice in interior environment of vehicle and electronic device using noise data based on input signal to noise ratio
US12069470B2 (en) System and method for assisting selective hearing
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
US11502859B2 (en) Method and apparatus for waking up via speech
CN110070868A (zh) 车载系统的语音交互方法、装置、汽车和机器可读介质
CN110970057B (zh) 一种声音处理方法、装置与设备
CN106782589B (zh) 移动终端及其语音输入方法和装置
CN113053402B (zh) 一种语音处理方法、装置和车辆
US10667048B2 (en) Recording method, recording play method, apparatuses, and terminals
CN109273006B (zh) 车载系统的语音控制方法、车载系统、车辆及存储介质
JP7326627B2 (ja) オーディオ信号処理方法、装置、機器及びコンピュータプログラム
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN111654806B (zh) 音频播放方法、装置、存储介质及电子设备
CN102906811B (zh) 用于调节包括扬声器和麦克风的语音识别系统的方法及语音识别系统
WO2022253003A1 (zh) 语音增强方法及相关设备
JP7020554B2 (ja) 会話サポートシステム、その方法、およびプログラム
CN114220454B (zh) 一种音频降噪方法、介质和电子设备
CN115713946A (zh) 人声定位方法及电子设备和存储介质
CN110782887A (zh) 语音信号处理方法、系统、装置、设备和计算机存储介质
CN112003666B (zh) 车载收音机控制方法、装置、设备及存储介质
CN112530452B (zh) 一种后置滤波补偿方法、装置和系统
KR20230156967A (ko) 오디오 줌
CN114333817A (zh) 遥控器及遥控器语音识别方法
CN111988705A (zh) 音频处理方法、装置、终端及存储介质
CN210575092U (zh) 一种车载听歌识曲装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant