CN111599357A - 一种车内多音区拾音方法、装置、电子设备及存储介质 - Google Patents
一种车内多音区拾音方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111599357A CN111599357A CN202010268061.1A CN202010268061A CN111599357A CN 111599357 A CN111599357 A CN 111599357A CN 202010268061 A CN202010268061 A CN 202010268061A CN 111599357 A CN111599357 A CN 111599357A
- Authority
- CN
- China
- Prior art keywords
- control signal
- voice control
- target
- zone
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000875 corresponding effect Effects 0.000 claims abstract description 107
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000001276 controlling effect Effects 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 16
- 230000001629 suppression Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 16
- 230000004807 localization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本申请实施例所公开的一种车内多音区拾音方法、装置、电子设备及存储介质,其中,方法包括获取车内多音区设置的麦克风所接收的语音信号集合,从中确定语音控制信号集合以及每个语音控制信号对应的时间,并根据每个语音控制信号对应的时间确定出目标语音控制信号以及对应的目标音区,并对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值,控制目标语音控制信号中相应的执行主体执行相应的动作。通过结合Beamforming技术和PIC技术,能够实现在车内多音区的环境下对目标语音控制信号和目标音区的唤醒拾音声源定位,并且还能够提高拾音降噪的效果。
Description
技术领域
本发明涉及自动语音识别技术领域,尤其涉及一种车内多音区拾音方法、装置、电子设备及存储介质。
背景技术
近年来,随着人工智能的快速发展,语音识别技术和回声消除技术逐步应用于车载互联网系统。然而由于车内环境相对复杂,风切声、引擎声、冷气风扇声和乘坐人员的说话声等噪声将直接干扰语音识别,降低语音识别率,导致语音识别出错或者无响应。
如何在车内实现良好的降噪和声源定位以提高语音识别率是当前车辆制造业的研究热点。目前市场上的主流方案是基于麦克风阵列的波束成形方法,该方法通过将麦克风阵列采集到的声音信号进行加权相加,使得在目标方向形成拾音波束,同时衰减除目标方向外其他方向的声音信号,进而实现对特定方向上的声音信号的拾取,达到降噪的目的。此外,麦克风阵列还可以进行声源定位,通过使用麦克风阵列计算目标说话人与麦克风间的角度和距离,进而实现对目标说话人的跟踪以及对后续的语音定向拾取。
当唤醒后,由于纵深问题,车内后排乘客的声音将影响主驾驶人员的拾音,如图1所示,因此,基于麦克风阵列的波束成形方法难以兼顾车内前后排多音区的声源定位,在多音区的应用中具有局限性。
发明内容
本申请实施例提供一种车内多音区拾音方法,该多音区中每个音区设置有麦克风,麦克风用于接收语音信号,
上述方法包括:
获取车内多音区的语音信号集合;语音信号集合是车内多音区中每个音区设置的麦克风接收的;
从语音信号集合中确定语音控制信号集合;语音控制信号集合中的语音控制信号携带有唤醒标识;
确定语音控制信号集合中每个语音控制信号对应的时间;
根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号;语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早;
确定目标语音控制信号对应的目标音区;目标音区在多音区内;
对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值;
控制目标语音控制信号中相应的执行主体执行相应的动作。
进一步地,获取车内多音区的语音信号集合之前,上述方法还包括:
确定主驾拾音开关的状态;
若主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号;主驾对应的音区在车内多音区内;
控制主驾语音控制信号中相应的执行主体执行相应的动作。
进一步地,对目标音区进行过滤降噪操作,包括:
对目标语音控制信号进行音频信号增强操作,
以及利用回音消除算法对非目标语音控制信号进行音频信号抑制操作。
进一步地,控制目标语音控制信号中相应的执行主体执行相应的动作,包括:
将目标语音控制信号发送至语音识别系统进行识别,得到目标语音控制信号中的执行主体以及执行主体相应的动作;
控制执行主体执行相应的动作。
进一步地,多音区内每个音区设置的麦克风具有指向性。
相应地,本申请实施还提供了一种车内多音区拾音装置,该装置包括:
获取模块,用于获取车内多音区的语音信号集合;语音信号集合是车内多音区中每个音区设置的麦克风接收的;
第一确定模块,用于从语音信号集合中确定语音控制信号集合;语音控制信号集合中的语音控制信号携带有唤醒标识;
第二确定模块,用于确定语音控制信号集合中每个语音控制信号对应的时间;
第三确定模块,用于根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号;语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早;
第四确定模块,用于确定目标语音控制信号对应的目标音区;目标音区在多音区内;
过滤降噪模块,用于对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值;
第一控制模块,用于控制目标语音控制信号中相应的执行主体执行相应的动作。
进一步地,该装置还包括:
第五确定模块,用于确定主驾拾音开关的状态;
接收模块,用于若主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号;主驾对应的音区在车内多音区内;
第二控制模块,用于控制主驾语音控制信号中相应的执行主体执行相应的动作。
进一步地,过滤降噪模块包括:
信号增强单元,用于对目标语音控制信号进行音频信号增强操作,
信号抑制单元,用于利用回音消除算法对非目标语音控制信号进行音频信号抑制操作。
相应地,本申请实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述车内多音区拾音方法。
相应地,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述车内多音区拾音方法。
本申请实施例具有如下有益效果:
本申请实施例所公开的一种车内多音区拾音方法、装置、电子设备及存储介质,其中,方法包括获取车内多音区的语音信号集合,该语音信号集合是车内多音区中每个音区设置的麦克风接收的,从语音信号集合中确定语音控制信号集合,其中,语音控制信号集合中的语音控制信号携带有唤醒标识,确定语音控制信号集合中每个语音控制信号对应的时间,并根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号,其中,语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早,确定目标语音控制信号对应的目标音区,该目标音区在多音区内,对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值,控制目标语音控制信号中相应的执行主体执行相应的动作。基于本申请实施例,通过结合Beamforming技术和PIC技术,能够实现在车内多音区的环境下对目标语音控制信号和目标音区的唤醒拾音声源定位,并且还能够提高拾音降噪的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例所提供的一种车内后排乘客的声音影响主驾驶人员的拾音示意图;
图2是本申请实施例所提供的一种应用环境的示意图;
图3是本申请实施例所提供的一种车内多音区拾音方法的流程示意图;
图4是本申请实施例所提供的一种将车辆内部划分为如图4所示的四音区的结构示意图;
图5a是本申请实施例所提供的一种四音区唤醒前的示意图;
图5b是本申请实施例所提供的一种四音区唤醒后的示意图;
图6是本申请实施例所提供的一种波束成型技术Beamforming的效果示意图;
图7a是本申请实施例所提供的一种结合PIC技术和Beamforming技术的效果示意图;
图7b是本申请实施例所提供的一种结合PIC技术和Beamforming技术的效果示意图;
图7c是本申请实施例所提供的一种结合PIC技术和Beamforming技术的效果示意图;
图8是本申请实施例提供的一种车内多音区拾音装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一个实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中,需要理解的是,术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。术语“第一”、“第二”、“第三”、“第四”和“第五”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”和“第五”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”、“第三”、“第四”和“第五”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤、模块或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤、模块或单元,而是可包括没有清楚地列出的或对于这些过程、方法、装置、产品或设备固有的其它步骤、模块或单元。
请参阅图2,其所示为本申请实施例所提供的一种应用环境的示意图,包括:车内多音区拾音装置201、麦克风203和语音识别系统205,其中,车内多音区拾音装置201获取车内多音区的语音信号集合,该语音信号集合是车内多音区中每个音区设置的麦克风203接收的,车内多音区拾音装置201从语音信号集合中确定语音控制信号集合,其中,语音控制信号集合中的语音控制信号携带有唤醒标识,并且车内多音区拾音装置201确定语音控制信号集合中每个语音控制信号对应的时间,并根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号,其中,语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早,确定目标语音控制信号对应的目标音区,该目标音区在多音区内,对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值,车内多音区拾音装置201将目标语音控制信号发送至语音识别系统205进行识别,得到目标语音控制信号中的执行主体以及执行主体相应的动作,并控制执行主体执行相应的动作。
下面介绍本申请一种车内多音区拾音方法的具体实施例,图3是本申请实施例提供的一种车内多音区拾音方法的流程示意图,本说明书提供了如实施例或流程图所示的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式,不代表唯一的执行顺序,在实际执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示,该方法包括:
S301:获取车内多音区的语音信号集合;语音信号集合是车内多音区中每个音区设置的麦克风接收的。
本申请实施例中,根据车型的不同,可以将车辆内部划分为多个音区,可以划分为四音区、六音区或者八音区等。本申请文件中将车辆内部划分为如图4所示的四音区,每个音区设置有麦克风,例如,在第一音区设置麦克风a,在第二音区设置麦克风b,在第三音区设置麦克风c,在第四音区设置麦克风d,需要说明的是,本文中所提及的麦克风还可以是其他具有采集语音信号功能的设备。其中,车内多音区拾音装置获取车内多音区的语音信号集合,即获取车内四音区内每个音区设置的麦克风a、b、c和d所接收的语音信号。
本申请实施例中,在获取车内多音区的语音信号集合之前,车内多音区拾音装置确定主驾拾音开关的状态,若主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号,主驾对应的音区在车内多音区内,控制主驾语音控制信号中相应的执行主体执行相应的动作。
本申请实施例中,对于图4所示的四音区,每个音区设置的麦克风均具有指向性,且不同行音区设置的麦克风的位置所能接收的语音信号的衰减在6分贝及以上,以保证每个音区设置的麦克风所接收的语音信号的强度存在可识别差值。
S303:从语音信号集合中确定语音控制信号集合;语音控制信号集合中的语音控制信号携带有唤醒标识。
本申请实施例中,车内多音区拾音装置根据获取的多音区内麦克风接收的语音信号集合,从中确定出语音控制信号集合,该语音控制信号集合是指麦克风接收的语音信号中部分携带唤醒标识的语音信号,其中,唤醒标识是预先设置的。
本申请实施例中,车内多音区拾音装置采用Passenger InterferenceCancellation(PIC,乘客干扰消除技术)通过相同声源对多音区不同麦克风的信号强度,并结合获取的语音控制信号集合中携带唤醒标识的语音控制信号集合来判断唤醒音区。例如,基于上文中的四音区,如图5a所示为四音区唤醒前的示意图,如图5b所示为四音区唤醒后的示意图,通过图5a和图5b,不难发现,存在在第三音区设置的麦克风c和在第四音区设置的麦克风d接收的语音信号携带有唤醒标识,即第三音区和第四音区对应的语音信号为语音控制信号,第三音区和第四音区为唤醒区域。
S305:确定语音控制信号集合中每个语音控制信号对应的时间。
本申请实施例中,车内多音区拾音装置确定语音控制信号集合中每个语音控制信号对应的时间。举个例子,车内多音区拾音装置在第三音区获取的第一语音控制信号的时间T1早于在第四音区获取的第二语音控制信号的时间T2,即,T1<T2。
S307:根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号;语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早。
本申请实施例中,车内多音区拾音装置根据第一语音控制信号的时间T1和第二语音控制信号的时间T2(T1<T2),确定出在第三音区获取的第一语音控制信号为目标语音控制信号。
S309:确定目标语音控制信号对应的目标音区;目标音区在多音区内。
一种可选的车内多音区拾音装置确定目标语音控制信号对应的目标音区的具体实施方式中,车内多音区拾音装置确定目标音区为第三音区,并通过结合PassengerInterference Cancellation(PIC,乘客干扰消除技术)和波束成型技术Beamforming,使得目标音区设置的麦克风对目标语音控制信号对应的声源进行跟踪及后续的语音信号定向拾取,且不接收其他音区非目标语音控制信号,以提高拾音降噪的效果。
S311:对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值。
本申请实施例中,车内多音区拾音装置采用如图6所示的波束成型技术Beamforming,在目标语音控制信号对应的特定方向形成一个拾音波束,以实现对目标语音控制信号对应的方向的语音信号进行定位和降噪。该Beamforming对目标语音控制信号具有音频信号增强作用,并且对非目标语音控制信号具有音频信号抑制作用。
本申请实施例中,车内多音区拾音装置还利用回音消除算法对非目标语音控制信号进行音频信号抑制操作。
一种可选的实施方式中,在如图4所示的四音区中全局使用PIC技术,且仅在第一音区采用Beamforming,得到如图7a所示的效果示意图,使得主驾上的驾驶员所发出的语音信号具有相对优先的优先级。
另一种可选的实施方式中,在如图4所示的四音区中全局使用PIC技术,且仅在第一音区和第二音区采用Beamforming,得到如图7b所示的效果示意图,使得主驾和副驾对应的驾乘人员所发出的语音信号具有相对优先的优先级。
另一种可选的实施方式中,在如图4所示的四音区中全局使用PIC技术,且在全局采用Beamforming,得到如图7c所示的效果示意图,使得车内驾乘人员所发出的语音信号具有相等的优先级。
S313:控制目标语音控制信号中相应的执行主体执行相应的动作。
本申请实施例中,车内多音区拾音装置将目标语音控制信号发送至语音识别系统进行识别,得到目标语音控制信号中的执行主体以及执行主体相应的动作,并控制执行主体执行相应的动作。
采用本申请实施例所提供的车内多音区拾音方法,通过结合Beamforming技术和PIC技术,能够实现在车内多音区的环境下对目标语音控制信号和目标音区的唤醒拾音声源定位,并且还能够提高拾音降噪的效果。
本申请实施例还提供的一种车内多音区拾音装置,图8是本申请实施例提供的一种车内多音区拾音装置的结构示意图,如图8所示,该装置包括:
获取模块801用于获取车内多音区的语音信号集合;语音信号集合是车内多音区中每个音区设置的麦克风接收的;
第一确定模块803用于从语音信号集合中确定语音控制信号集合;语音控制信号集合中的语音控制信号携带有唤醒标识;
第二确定模块805用于确定语音控制信号集合中每个语音控制信号对应的时间;
第三确定模块807用于根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号;语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早;
第四确定模块809用于确定目标语音控制信号对应的目标音区;目标音区在多音区内;
过滤降噪模块811用于对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值;
第一控制模块813用于控制目标语音控制信号中相应的执行主体执行相应的动作。
本申请实施例中,该装置还包括:
第五确定模块,用于确定主驾拾音开关的状态;
接收模块,用于若主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号;主驾对应的音区在车内多音区内;
第二控制模块,用于控制主驾语音控制信号中相应的执行主体执行相应的动作。
本申请实施例中,过滤降噪模块包括:
信号增强单元,用于对目标语音控制信号进行音频信号增强操作,
信号抑制单元,用于利用回音消除算法对非目标语音控制信号进行音频信号抑制操作。
本申请实施例中的装置与方法实施例基于同样的申请构思。
本申请实施例还提供的一种电子设备,电子设备可设置于服务器之中以保存用于实现方法实施例中的一种车内多音区拾音方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该存储器加载并执行以实现上述的车内多音区拾音方法。
本申请实施例还提供的一种存储介质,存储介质可设置于服务器之中以保存用于实现方法实施例中一种车内多音区拾音方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述车内多音区拾音方法。
可选的,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于包括:U盘、只读存储器(ROM,Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的车内多音区拾音方法、装置、电子设备或存储介质的实施例可见,本申请中方法包括获取车内多音区的语音信号集合,该语音信号集合是车内多音区中每个音区设置的麦克风接收的,从语音信号集合中确定语音控制信号集合,其中,语音控制信号集合中的语音控制信号携带有唤醒标识,确定语音控制信号集合中每个语音控制信号对应的时间,并根据每个语音控制信号对应的时间从语音控制信号集合中确定目标语音控制信号,其中,语音控制信号集合包括目标语音控制信号和非目标语音控制信号,目标语音控制信号对应的时间比非目标语音控制信号对应的时间早,确定目标语音控制信号对应的目标音区,该目标音区在多音区内,对目标音区进行过滤降噪操作,使得目标语音控制信号的强度高于非目标语音控制信号的强度,且使得目标语音控制信号的强度大于识别强度阈值,控制目标语音控制信号中相应的执行主体执行相应的动作。基于本申请实施例,通过结合Beamforming技术和PIC技术,能够实现在车内多音区的环境下对目标语音控制信号和目标音区的唤醒拾音声源定位,并且还能够提高拾音降噪的效果。
需要说明的是:上述本申请实施例的先后顺序仅仅为了描述,不代表实施例的优劣,且上述本说明书对特定的实施例进行了描述,其他实施例也在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果,在某些实施方式中,多任务并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的均为与其他实施例的不同之处。尤其,对于装置的实施例而言,由于其基于相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种车内多音区拾音方法,其特征在于,所述多音区中每个音区设置有麦克风,所述麦克风用于接收语音信号,
所述方法包括:
获取车内多音区的语音信号集合;所述语音信号集合是所述车内多音区中每个音区设置的麦克风接收的;
从所述语音信号集合中确定语音控制信号集合;所述语音控制信号集合中的语音控制信号携带有唤醒标识;
确定所述语音控制信号集合中每个语音控制信号对应的时间;
根据所述每个语音控制信号对应的时间从所述语音控制信号集合中确定目标语音控制信号;所述语音控制信号集合包括目标语音控制信号和非目标语音控制信号,所述目标语音控制信号对应的时间比所述非目标语音控制信号对应的时间早;
确定所述目标语音控制信号对应的目标音区;所述目标音区在所述多音区内;
对所述目标音区进行过滤降噪操作,使得所述目标语音控制信号的强度高于非目标语音控制信号的强度,且使得所述目标语音控制信号的强度大于识别强度阈值;
控制所述目标语音控制信号中相应的执行主体执行相应的动作。
2.根据权利要求1所述的方法,其特征在于,所述获取车内多音区的语音信号集合之前,还包括:
确定主驾拾音开关的状态;
若所述主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号;所述主驾对应的音区在所述车内多音区内;
控制所述主驾语音控制信号中相应的执行主体执行相应的动作。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标音区进行过滤降噪操作,包括:
对所述目标语音控制信号进行音频信号增强操作,
以及利用回音消除算法对所述非目标语音控制信号进行音频信号抑制操作。
4.根据权利要求1所述的方法,其特征在于,所述控制所述目标语音控制信号中相应的执行主体执行相应的动作,包括:
将所述目标语音控制信号发送至语音识别系统进行识别,得到所述目标语音控制信号中的执行主体以及所述执行主体相应的动作;
控制所述执行主体执行相应的动作。
5.根据权利要求1所述的方法,其特征在于,所述多音区内每个音区设置的麦克风具有指向性。
6.一种车内多音区拾音装置,其特征在于,包括:
获取模块,用于获取车内多音区的语音信号集合;所述语音信号集合是所述车内多音区中每个音区设置的麦克风接收的;
第一确定模块,用于从所述语音信号集合中确定语音控制信号集合;所述语音控制信号集合中的语音控制信号携带有唤醒标识;
第二确定模块,用于确定所述语音控制信号集合中每个语音控制信号对应的时间;
第三确定模块,用于根据所述每个语音控制信号对应的时间从所述语音控制信号集合中确定目标语音控制信号;所述语音控制信号集合包括目标语音控制信号和非目标语音控制信号,所述目标语音控制信号对应的时间比所述非目标语音控制信号对应的时间早;
第四确定模块,用于确定所述目标语音控制信号对应的目标音区;所述目标音区在所述多音区内;
过滤降噪模块,用于对所述目标音区进行过滤降噪操作,使得所述目标语音控制信号的强度高于非目标语音控制信号的强度,且使得所述目标语音控制信号的强度大于识别强度阈值;
第一控制模块,用于控制所述目标语音控制信号中相应的执行主体执行相应的动作。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第五确定模块,用于确定主驾拾音开关的状态;
接收模块,用于若所述主驾拾音开关处于工作状态,接收主驾对应的音区中麦克风接收的主驾语音控制信号;所述主驾对应的音区在所述车内多音区内;
第二控制模块,用于控制所述主驾语音控制信号中相应的执行主体执行相应的动作。
8.根据权利要求6所述的方法,其特征在于,所述过滤降噪模块包括:
信号增强单元,用于对所述目标语音控制信号进行音频信号增强操作,
信号抑制单元,用于利用回音消除算法对所述非目标语音控制信号进行音频信号抑制操作。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-5任意一项所述车内多音区拾音方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-5任意一项所述车内多音区拾音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268061.1A CN111599357A (zh) | 2020-04-07 | 2020-04-07 | 一种车内多音区拾音方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268061.1A CN111599357A (zh) | 2020-04-07 | 2020-04-07 | 一种车内多音区拾音方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111599357A true CN111599357A (zh) | 2020-08-28 |
Family
ID=72187350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010268061.1A Pending CN111599357A (zh) | 2020-04-07 | 2020-04-07 | 一种车内多音区拾音方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599357A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986678A (zh) * | 2020-09-03 | 2020-11-24 | 北京蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN113053402A (zh) * | 2021-03-04 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 一种语音处理方法、装置和车辆 |
CN113270095A (zh) * | 2021-04-26 | 2021-08-17 | 镁佳(北京)科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN113380247A (zh) * | 2021-06-08 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 多音区语音唤醒、识别方法和装置、设备、存储介质 |
CN113539260A (zh) * | 2021-06-29 | 2021-10-22 | 广州小鹏汽车科技有限公司 | 一种基于车辆的语音交流方法和装置 |
CN113689852A (zh) * | 2021-08-09 | 2021-11-23 | 东风汽车集团股份有限公司 | 一种基于声源定位的车载语音控制方法和系统 |
EP4030424A3 (en) * | 2021-06-03 | 2022-11-02 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Method and apparatus of processing voice for vehicle, electronic device and medium |
CN115440208A (zh) * | 2022-04-15 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 车辆控制方法、装置、设备及计算机可读存储介质 |
CN115881125A (zh) * | 2023-01-19 | 2023-03-31 | 小米汽车科技有限公司 | 车载多音区语音交互方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120102306A (ko) * | 2011-03-08 | 2012-09-18 | 고려대학교 산학협력단 | 잡음 환경에서의 음성 처리 장치 및 방법 |
US20190214011A1 (en) * | 2016-10-14 | 2019-07-11 | Samsung Electronics Co., Ltd. | Electronic device and method for processing audio signal by electronic device |
CN110010126A (zh) * | 2019-03-11 | 2019-07-12 | 百度国际科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN209183264U (zh) * | 2018-11-06 | 2019-07-30 | 东莞市华泽电子科技有限公司 | 语音处理系统 |
CN110199254A (zh) * | 2017-01-30 | 2019-09-03 | 昕诺飞控股有限公司 | 用于控制多个光源的控制器 |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
US10536287B1 (en) * | 2017-12-13 | 2020-01-14 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
-
2020
- 2020-04-07 CN CN202010268061.1A patent/CN111599357A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120102306A (ko) * | 2011-03-08 | 2012-09-18 | 고려대학교 산학협력단 | 잡음 환경에서의 음성 처리 장치 및 방법 |
US20190214011A1 (en) * | 2016-10-14 | 2019-07-11 | Samsung Electronics Co., Ltd. | Electronic device and method for processing audio signal by electronic device |
CN110199254A (zh) * | 2017-01-30 | 2019-09-03 | 昕诺飞控股有限公司 | 用于控制多个光源的控制器 |
US10536287B1 (en) * | 2017-12-13 | 2020-01-14 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
CN209183264U (zh) * | 2018-11-06 | 2019-07-30 | 东莞市华泽电子科技有限公司 | 语音处理系统 |
CN110010126A (zh) * | 2019-03-11 | 2019-07-12 | 百度国际科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986678A (zh) * | 2020-09-03 | 2020-11-24 | 北京蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN111986678B (zh) * | 2020-09-03 | 2023-12-29 | 杭州蓦然认知科技有限公司 | 一种多路语音识别的语音采集方法、装置 |
CN113053402A (zh) * | 2021-03-04 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 一种语音处理方法、装置和车辆 |
CN113053402B (zh) * | 2021-03-04 | 2024-03-12 | 广州小鹏汽车科技有限公司 | 一种语音处理方法、装置和车辆 |
CN113270095A (zh) * | 2021-04-26 | 2021-08-17 | 镁佳(北京)科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN113270095B (zh) * | 2021-04-26 | 2022-04-08 | 镁佳(北京)科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
EP4030424A3 (en) * | 2021-06-03 | 2022-11-02 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Method and apparatus of processing voice for vehicle, electronic device and medium |
CN113380247A (zh) * | 2021-06-08 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 多音区语音唤醒、识别方法和装置、设备、存储介质 |
CN113539260A (zh) * | 2021-06-29 | 2021-10-22 | 广州小鹏汽车科技有限公司 | 一种基于车辆的语音交流方法和装置 |
CN113689852B (zh) * | 2021-08-09 | 2023-11-10 | 东风汽车集团股份有限公司 | 一种基于声源定位的车载语音控制方法和系统 |
CN113689852A (zh) * | 2021-08-09 | 2021-11-23 | 东风汽车集团股份有限公司 | 一种基于声源定位的车载语音控制方法和系统 |
CN115440208A (zh) * | 2022-04-15 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 车辆控制方法、装置、设备及计算机可读存储介质 |
CN115881125A (zh) * | 2023-01-19 | 2023-03-31 | 小米汽车科技有限公司 | 车载多音区语音交互方法、装置、电子设备和存储介质 |
CN115881125B (zh) * | 2023-01-19 | 2023-05-23 | 小米汽车科技有限公司 | 车载多音区语音交互方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111599357A (zh) | 一种车内多音区拾音方法、装置、电子设备及存储介质 | |
CN110010126B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN109754803B (zh) | 车载多音区语音交互系统及方法 | |
CN106531179B (zh) | 一种基于语义先验的选择性注意的多通道语音增强方法 | |
CN110070868A (zh) | 车载系统的语音交互方法、装置、汽车和机器可读介质 | |
CN106448722A (zh) | 录音方法、装置和系统 | |
CN209183264U (zh) | 语音处理系统 | |
CN109545230A (zh) | 车辆内的音频信号处理方法和装置 | |
CN112435682B (zh) | 车辆降噪系统、方法、装置、车辆及存储介质 | |
WO2016103709A1 (ja) | 音声処理装置 | |
CN108986833A (zh) | 基于麦克风阵列的拾音方法、系统、电子设备及存储介质 | |
CN110120217B (zh) | 一种音频数据处理方法及装置 | |
CN111798860B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
JP2016126022A (ja) | 音声処理装置 | |
CN113270095B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111323753A (zh) | 定位汽车内语音源的方法 | |
CN113053368A (zh) | 语音增强方法、电子设备和存储介质 | |
JP2016167645A (ja) | 音声処理装置及び制御装置 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
CN109215648A (zh) | 车载语音识别系统及方法 | |
CN113053402B (zh) | 一种语音处理方法、装置和车辆 | |
ATE373300T1 (de) | Verfahren zum betrieb einer mehrfachmikrofonanordnung in einem kraftfahrzeug zur sprachgesteuerten befehlseingabe | |
CN113223552A (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN112151058B (zh) | 一种声音信号的处理方法、装置及设备 | |
CN110737422A (zh) | 一种声音信号采集方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |