CN110120217A - 一种音频数据处理方法及装置 - Google Patents
一种音频数据处理方法及装置 Download PDFInfo
- Publication number
- CN110120217A CN110120217A CN201910390481.4A CN201910390481A CN110120217A CN 110120217 A CN110120217 A CN 110120217A CN 201910390481 A CN201910390481 A CN 201910390481A CN 110120217 A CN110120217 A CN 110120217A
- Authority
- CN
- China
- Prior art keywords
- signal
- preprocessed
- separation
- parameter information
- steering direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000926 separation method Methods 0.000 claims abstract description 160
- 230000005236 sound signal Effects 0.000 claims abstract description 80
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000002618 waking effect Effects 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000009467 reduction Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000011946 reduction process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000035939 shock Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001347978 Major minor Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例公开了一种音频数据处理方法及装置,该音频数据处理方法包括:获取拾音信号,根据第一驾驶方向参数信息,确定拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定拾音信号所包含的第二预处理信号;根据第一预处理信号与第二预处理信号对应的信噪比,确定分离参数信息,根据分离参数信息,确定第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号;获取第一分离信号与第二分离信号所包含的异常信号,将异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。采用本发明实施例,可以提高语音识别的准确率。
Description
技术领域
本发明涉及拾音技术领域,尤其涉及一种音频数据处理方法及装置。
背景技术
随着车辆的普及与自动语音识别技术的日益成熟,人车语音交互的使用变得更为广泛。
在目前的车载场景中,可以通过麦克风采集说话人的语音数据,并对采集到的语音数据进行降噪处理(可以包括回声与噪音消除),进而将降噪处理后的语音数据作为语音命令进行语音识别。当采集的语音数据中同时包含车载噪音、多人同时讲话的声音以及播放的音乐时,经过上述降噪处理后的语音数据仍然包括多人讲话的声音,即包含除语音命令之外的其余语音,进而导致语音识别的准确率低下。
发明内容
本发明实施例提供一种音频数据处理方法及装置,可以提高语音识别的准确率。
本发明实施例一方面提供了一种音频数据处理方法,包括:
获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
其中,所述获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号,包括:
获取拾音信号,基于多个方向分别对应的导向矢量,确定第一驾驶方向参数信息与所述第二驾驶方向参数信息;
根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号。
其中,所述拾音信号包括第一信号与第二信号,所述第一驾驶方向参数信息包括第一参数与第二参数,所述第二驾驶方向参数信息包括第三参数与第四参数;
所述根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号,包括:
根据所述第一信号与所述第一参数,确定第一分支信号,根据所述第二信号与所述第二参数,确定第二分支信号,将所述第一分支信号与所述第二分支信号的差值确定为第一预处理信号;
根据所述第一信号与所述第三参数,确定第三分支信号,根据所述第二信号与所述第四参数,确定第四分支信号,将所述第四分支信号与所述第三分支信号的差值确定为第二预处理信号。
其中,所述根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号,包括:
对所述第一预处理信号与所述第二预处理信号进行语音端点检测;
若检测到所述第一预处理信号与所述第二预处理信号中存在语音,则获取所述第一预处理信号与所述第二预处理信号对应的信噪比;
根据所述信噪比,确定所述第一预处理信号与所述第二预处理信号分别对应的声源方向;
基于所述声源方向,确定分离参数信息,基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号。
其中,所述获取所述第一预处理信号与所述第二预处理信号对应的信噪比,包括:
确定所述第一预处理信号对应的第一模值与所述第二预处理信号对应的第二模值;
将所述第一模值与所述第二模值的比值,确定为所述第一预处理信号与所述第二预处理信号对应的信噪比。
其中,所述基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号,包括:
基于所述分离参数信息与所述第二预处理信号,对所述第一预处理信号进行相位对齐,将所述第二预处理信号与相位对齐后的第一预处理信号的差值,确定为第二分离信号;
基于所述分离参数信息与所述第一预处理信号,对所述第二分离信号进行相位对齐,将所述第一预处理信号与相位对齐后的第二分离信号的差值,确定为第一分离信号。
其中,所述根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号,包括:
根据所述第一驾驶方向参数信息与所述拾音信号,确定第一目标信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二目标信号;
获取回声参考信号对应的响应函数,根据所述响应函数确定所述第一目标信号与所述第二目标信号分别对应的回声信号估计值;
将所述第一目标信号与所述回声信号估计值的差值,确定为第一预处理信号,将所述第二目标信号与所述回声信号估计值的差值,确定为第二预处理信号。
其中,所述方法还包括:
根据所述第一音频信号与所述第二音频信号分别对应的唤醒词检测结果,从所述第一音频信号与所述第二音频信号中确定用于响应唤醒词的目标音频信号;
根据所述目标音频信号中的唤醒词,响应车载操作。
本发明实施例一方面提供了一种音频数据处理装置,包括:
预处理模块,用于获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
分离模块,用于根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
消除模块,用于获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
其中,所述预处理模块包括:
参数信息确定单元,用于获取拾音信号,基于多个方向分别对应的导向矢量,确定第一驾驶方向参数信息与所述第二驾驶方向参数信息;
信号预处理单元,用于根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号。
其中,所述拾音信号包括第一信号与第二信号,所述第一驾驶方向参数信息包括第一参数与第二参数,所述第二驾驶方向参数信息包括第三参数与第四参数;
所述信号预处理单元包括:
第一确定子单元,用于根据所述第一信号与所述第一参数,确定第一分支信号,根据所述第二信号与所述第二参数,确定第二分支信号,将所述第一分支信号与所述第二分支信号的差值确定为第一预处理信号;
第二确定子单元,用于根据所述第一信号与所述第三参数,确定第三分支信号,根据所述第二信号与所述第四参数,确定第四分支信号,将所述第四分支信号与所述第三分支信号的差值确定为第二预处理信号。
其中,所述分离模块包括:
检测单元,用于对所述第一预处理信号与所述第二预处理信号进行语音端点检测;
信噪比获取单元,用于若检测到所述第一预处理信号与所述第二预处理信号中存在语音,则获取所述第一预处理信号与所述第二预处理信号对应的信噪比;
声源方向确定单元,用于根据所述信噪比,确定所述第一预处理信号与所述第二预处理信号分别对应的声源方向;
分离信号确定单元,用于基于所述声源方向,确定分离参数信息,基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号。
其中,所述信噪比获取单元包括:
模值确定子单元,用于确定所述第一预处理信号对应的第一模值与所述第二预处理信号对应的第二模值;
信噪比确定子单元,用于将所述第一模值与所述第二模值的比值,确定为所述第一预处理信号与所述第二预处理信号对应的信噪比。
其中,所述分离信号确定单元包括:
第一相位对齐子单元,用于基于所述分离参数信息与所述第二预处理信号,对所述第一预处理信号进行相位对齐,将所述第二预处理信号与相位对齐后的第一预处理信号的差值,确定为第二分离信号;
第二相位对齐子单元,用于基于所述分离参数信息与所述第一预处理信号,对所述第二分离信号进行相位对齐,将所述第一预处理信号与相位对齐后的第二分离信号的差值,确定为第一分离信号。
其中,所述信号预处理单元包括:
目标信号确定子单元,用于根据所述第一驾驶方向参数信息与所述拾音信号,确定第一目标信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二目标信号;
回声估计值确定子单元,用于获取回声参考信号对应的响应函数,根据所述响应函数确定所述第一目标信号与所述第二目标信号分别对应的回声信号估计值;
回声消除子单元,用于将所述第一目标信号与所述回声信号估计值的差值,确定为第一预处理信号,将所述第二目标信号与所述回声信号估计值的差值,确定为第二预处理信号。
其中,所述装置还包括:
唤醒词检测模块,用于根据所述第一音频信号与所述第二音频信号分别对应的唤醒词检测结果,从所述第一音频信号与所述第二音频信号中确定用于响应唤醒词的目标音频信号;
车载操作响应模块,用于根据所述目标音频信号中的唤醒词,响应车载操作。
本发明实施例一方面提供了一种音频数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本发明实施例中一方面中的方法。
本发明实施例一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过根据第一驾驶方向参数信息,可以确定拾音信号中所包含的第一预处理信号,根据第二驾驶方向参数信息,可以确定拾音信号中所包含的第二预处理信号,即可以根据第一驾驶方向与第二驾驶方向分别对应的参数信息,对拾音信号进行预分离,得到第一驾驶方向对应的第一预处理信号,以及第二驾驶方向对应的第二预处理信号,进而可以获取第一预处理信号和第二预处理信号对应的信噪比,根据信噪比确定分离参数信息,进而可以根据分离参数信息对第一预处理信号与第二预处理信号进行进一步的处理,得到第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号,进而可以对第一分离信号与第二分离信号进行回声与噪音消除,获得第一驾驶方向上的第一音频信号,以及第二驾驶方向上的第二音频信号。可见,在上述拾音信号处理过程中,可以将获取的拾取信号进行分离,并对分离后的信号进行回声与噪音消除处理,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号,即在第一驾驶方向上的声源与第二驾驶方向上的声源同时发声时,可以将拾音信号(可以包含第一驾驶方向上的声源与第二驾驶方向上的声源产生的声音数据)进行分离,进而可以确定发出语音命令的主声源,从而提高语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音频数据处理方法的场景示意图;
图2是本发明实施例提供的一种音频数据处理方法的流程示意图;
图3是本发明实施例提供一种回声消除后处理与降噪后处理方法的信号流示意图;
图4是本发明实施例提供的另一种音频数据处理方法的流程示意图;
图5a-图5d是本发明实施例提供的一种音频数据处理方法的信号流示意图;
图6是本发明实施例提供的一种音频数据处理方法的结构示意图;
图7是本发明实施例提供的一种音频数据处理装置的结构示意图;
图8是本发明实施例提供的另一种音频数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种音频数据处理方法的场景示意图。如图1所示,在高强度车载噪音、多人讲话(可以包括主驾驶座的司机12a和副驾驶座的人11a等)以及音乐播放10a的场景下,可以通过两个麦克风进行拾音,此时两个麦克风拾取的拾音信号可以包括音乐声音、主驾驶座司机(下面简称为主驾,也可以称为第一驾驶方向)的人声、副驾驶座人(下面简称为副驾,也可以称为第二驾驶方向)以及回声四个变量。对于两个麦克风拾取到的拾音信号,可以结合盲信号分离(blind signal separation)与固定波束形成(beamformer&null beamformer,BFNBF),对上述拾音信号进行预处理13a,可以用于对拾音信号进行主驾与副驾的人声预分离,得到以主驾声音为主的第一预处理信号和以副驾声音为主的第二预处理信号。随后,可以对第一预处理信号和第二预处理信号进行回声消除14a,通过对回声消除14a后的预处理信号(这里的预处理信号可以包括第一预处理信号和第二预处理信号)进行语音端点检测(Voice Activity Detection,VAD)以及方位角度估计(Direction Of Arrival Estimator,DOA),并可以基于语音端点检测结果与方位角度估计结果,采用自适应波束形成(Adaptive beamforming)对回声消除14a后的预处理信号进行进一步人声分离15a,不仅可以对第一预处理信号中的主驾声音与第二预处理信号中的副驾声音进行语音增强,并可以分为两路输出主驾声音与副驾声音。可以理解的是,在对拾音信号进行固定波束形成与自适应波束形成进行人声分离15a的同时,可以将拾音信号所包含的噪音(如音乐声音以及环境噪音等)进行弱化,因此对拾音信号中所包含的噪音具有一定的抑作用。分别对人声分离15a后的主驾声音与副驾声音进行后处理,例如对人声分离15a后的左侧输出信号进行后处理16a,对人声分离15a后的右侧输出信号进行后处理16b,后处理16a和后处理16b均可以包括回声消除后处理(echo cancellation postprocessing,ECPP)与降噪后处理(noise suppression post processing,NSPP),即对人声分离15a后残留的噪音和回声做消除,并对两路噪音、回声抵消后的输出信号分别做唤醒词检测,根据唤醒词检测结果从两路输出信号中确定目标音频信号,进而根据目标音频信号中的唤醒词,响应车载操作。换言之,可以从多人讲话及强噪音的场景下,识别出发出语音命令的主声源,可以有效提高语音识别的准确率。
请一并参见图2,是本发明实施例提供的一种音频数据处理方法的流程示意图。如图2所示,该音频数据处理方法可以包括以下步骤:
步骤S101,获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
具体的,在车载场景中,设备可以采用多个麦克风进行拾音,将拾取到的声音信号确定为拾音信号。由于实际车载场景中可能包含主驾、副驾、乘客的讲话声,音乐或广播的声音,环境噪音以及回声等,因此麦克风拾取到的拾音信号是混合信号,该混合信号可以包括主驾语音、副驾语音、乘客语音、音乐或广播声、环境噪音以及回声中的至少一种。可以结合盲信号分离与固定波束形成算法对拾音信号进行人声预分离。换言之,设备可以获取第一驾驶方向参数信息与第二驾驶方向参数信息,并根据第一驾驶方向参数信息确定拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息确定拾音信号所包含的第二预处理信号。其中,盲信号分离可以是指从混合信号中恢复出无法直接获取到的目标信号的方法,第一驾驶方向可以是指主驾方向,第二驾驶方向可以是指副驾方向,第一预处理信号可以是指以主驾声音为主的声音信号,第二预处理信号可以是指以副驾声音为主的声音信号。
步骤S102,根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
具体的,设备可以将第一预处理信号与第二预处理信号进行分帧处理,由于人声信号为非稳态信号,当设备检测到第一预处理信号与第二预处理信号存在信号波动时,可以确定第一预处理信号与第二预处理信号中存在语音信号,进而可以计算每帧第一预处理信号与每帧第二预处理信号对应的信噪比,根据每帧信号对应的信噪比,可以确定分离参数信息,即可以将信噪比作为先验信息,根据该先验信息确定分离参数信息,利用该分离参数信息可以对第一预处理信号与第二预处理信号进行进一步的人声分离,得到第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号。
步骤S103,获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
具体的,在确定了上述第一分离信号与第二分离信号后,由于第一分离信号还残留有除第一驾驶方向人声(即主驾声音)之外的其余声音信号,即残留的噪音和回声,也可以称为异常信号,第二分离信号还残留有除第二驾驶方向人声(即副驾声音)之外的其余声音信号,因此可以获取第一分离信号与第二分离信号所包含的异常信号,并对异常信号进行回声消除后处理与降噪后处理,进而可以得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号,即获得纯主驾语音和纯副驾语音。请一并参见图3,是本发明实施例提供一种回声消除后处理与降噪后处理方法的信号流示意图。由于不论是对于第一分离信号还是第二分离信号,进行回声消除后处理与降噪后处理时采用的方法是一样的,这里以第一分离信号为例,对回声消除后处理与降噪后处理方法进行描述。如图3所示,可以采用类似维纳滤波器的方法对残留噪音和回声做消除,具体公式可以表示为:
e(k)=V(k)-s(k)=g*ω(k)-s(k) (1)其中,e(k)可以表示为噪音与回声抵消后的信号输出,即第一音频信号,V(k)可以表示为残留有噪音和回声的输出信号,即第一分离信号,s(k)可以表示为对V(k)中残留的噪音和回声的估算,ω(k)可以表示为维纳滤波器的传递函数,g可以表示为维纳滤波器中通道的冲击响应,*可以表示为卷积运算。在维纳滤波器中,g*ω(k)可以用于表示上述第一分离信号,为方便计算,可以将卷积运算转换成乘积运算,即将公式(1)转换为:E(z)=G(z)W(z)-S(z),其中E(z)、G(z)、W(z)、S(z)分别为e(k)、g、ω(k)、s(k)的Z变换(一种数学变换)。
本发明实施例通过根据第一驾驶方向参数信息,可以确定拾音信号中所包含的第一预处理信号,根据第二驾驶方向参数信息,可以确定拾音信号中所包含的第二预处理信号,即可以根据第一驾驶方向与第二驾驶方向分别对应的参数信息,对拾音信号进行预分离,得到第一驾驶方向对应的第一预处理信号,以及第二驾驶方向对应的第二预处理信号,进而可以获取第一预处理信号和第二预处理信号对应的信噪比,根据信噪比确定分离参数信息,进而可以根据分离参数信息对第一预处理信号与第二预处理信号进行进一步的处理,得到第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号,进而可以对第一分离信号与第二分离信号进行回声与噪音消除,获得第一驾驶方向上的第一音频信号,以及第二驾驶方向上的第二音频信号。可见,在上述拾音信号处理过程中,可以将获取的拾取信号进行分离,并对分离后的信号进行回声与噪音消除处理,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号,即在第一驾驶方向上的声源与第二驾驶方向上的声源同时发声时,可以将拾音信号(可以包含第一驾驶方向上的声源与第二驾驶方向上的声源产生的声音数据)进行分离,进而可以确定发出语音命令的主声源,从而提高语音识别的准确率。
请参见图4,是本发明实施例提供的另一种音频数据处理方法的流程示意图。如图4所示,该音频数据处理方法可以包括以下步骤:
步骤S201,获取拾音信号,基于多个方向分别对应的导向矢量,确定第一驾驶方向参数信息与所述第二驾驶方向参数信息;
具体的,设备可以预先录入不同方向的录音,根据录音方向(即声源方向)自适应学习各个方向上的导向矢量,导向矢量是阵列中的所有阵元对具有单位能量窄带信源的响应,由于阵元对不同方向上的信源具有不同的响应,因此导向矢量与信源的方向是相互关联的。在车载场景中,不同方向的录音可以是指主驾方向的录音,或者主驾偏右/偏左5度方向的录音,或者主驾偏右/偏左10度方向的录音,或者副驾方向的录音,或者副驾偏右/偏左5度方向的录音,或者副驾偏右/偏左10度方向的录音等,这里不做限定,学习各个方向上的导向矢量,可以增强对噪音的鲁棒性。在采用多个麦克风实时采集到拾音信号后,设备可以基于多个方向分别对应的导向矢量,并结合固定波束形成算法设计第一驾驶方向参数信息,以及第二驾驶方向参数信息。其中,上述固定波束形成算法可以为采样矩阵求逆波束形成(sample matrix inversion beamformer),第一驾驶方向参数信息可以是指主驾方向对应的固定波束形成系数,第二驾驶方向参数信息可以是指副驾方向对应的固定波束形成系数。
步骤S202,根据所述第一信号与所述第一参数,确定第一分支信号,根据所述第二信号与所述第二参数,确定第二分支信号,将所述第一分支信号与所述第二分支信号的差值确定为第一预处理信号;
具体的,拾音信号可以包括第一信号与第二信号(第一信号和第二信号可以是指不同的麦克风采集到的声音数据),第一驾驶方向参数信息可以包括第一参数与第二参数,第二驾驶方向参数信息可以包括第三参数与第四参数。设备可以将第一驾驶方向参数信息中的第一参数与第一信号相乘,从第一信号中获取第一驾驶方向上的声音信号,即第一分支信号,将第一驾驶方向参数信息中的第二参数与第二信号相乘,从第二信号中获取第一驾驶方向上的声音信号,即第二分支信号,进而可以将第一分支信号与第二分支信号的差值确定为第一预处理信号。
步骤S203,根据所述第一信号与所述第三参数,确定第三分支信号,根据所述第二信号与所述第四参数,确定第四分支信号,将所述第四分支信号与所述第三分支信号的差值确定为第二预处理信号;
具体的,设备可以将第二驾驶方向参数信息中的第三参数与第一信号相乘,从第一信号中获取第二驾驶方向上的声音信号,即第三分支信号,将第二驾驶方向参数信息中的第四参数与第二信号相乘,从第二信号中获取第二驾驶方向上的声音信号,即第四分支信号,进而可以将第四分支信号与第三分支信号的差值确定为第二预处理信号。
需要说明的是,上述确定的第一预处理信号与第二预处理信号中还包含回声,为了消除第一预处理信号与第二预处理信号中的回声,可以将第一分支信号与第二分支信号的差值作为第一目标信号,将第四分支信号与第三分支信号的差值作为第二目标信号,并对第一目标信号与第二目标信号进行回声消除,进而可以将回声消除后的第一目标信号确定为第一预处理信号,将回声消除后的第二目标信号确定为第二预处理信号。请一并参见图5a,是本发明实施例提供的一种音频数据处理方法的信号流示意图。如图5a所示,x1(k)可以表示为第一信号,x2(k)可以表示为第二信号,w1(k)可以表示为第一参数,w3(k)可以表示为第二参数,w2(k)可以表示为第三参数,w4(k)可以表示为第四参数,x1(k)w1(k)可以表示为第一分支信号,x2(k)w3(k)可以表示为第二分支信号,x1(k)w2(k)可以表示为第三分支信号,x2(k)w4(k)可以表示为第四分支信号,则第一目标信号可以表示为:
其中,y1(k)可以表示为第一目标信号,也可以称为主驾对应的输出,W1=[w1,w3]可以表示为主驾对应的固定波束形成系数,即第一驾驶方向参数信息,可以表示为W1的共轭转置,X=[x1,x2]可以表示为拾音信号,这里以两个麦克风为例,因此拾音信号可以包括两个麦克风分别采集的信号x1和x2。
第二目标信号可以表示为:
其中,y2(k)可以表示为第二目标信号,也可以称为副驾对应的输出,W2=[w2,w4]可以表示为副驾对应的固定波束形成系数,即第二驾驶方向参数信息,可以表示为W2的共轭转置矩阵。
对第一目标信号与第二目标信号进行回声消除时,可以包括:获取回声参考信号对应的响应函数,根据响应函数确定所述第一目标信号与所述第二目标信号分别对应的回声信号估计值;将所述第一目标信号与所述回声信号估计值的差值,确定为第一预处理信号,将所述第二目标信号与所述回声信号估计值的差值,确定为第二预处理信号。回声消除的具体过程可以描述为:设备可以使用自适应滤波器对未知的回声信道进行参数辨识,根据回声参考信号模拟回声路径,使信号的冲击响应与真实的回声路径相逼近,当冲击响应与真实的回声路径之间的差异达到某一标准(可以为预先设置的条件,比如阈值等)时,可以获得响应函数,根据响应函数可以确定第一目标信号与第二目标信号分别对应的回声信号估计值。将第一目标信号与上述得到的回声信号估计值相减,可以得到回声消除后的第一目标信号,并将回声消除后的第一目标信号确定为第一预处理信号,将第二目标信号与上述得到的回声信号估计值相减,得到回声消除后的第二目标信号,并将回声消除后的第二目标信号确定为第二预处理信号。请一并参见图5b,是本发明实施例提供的一种音频数据处理方法的信号流示意图。如图5b所示,可以通过线性回声消除算法(Line EchoCancellation,LEC)对上述固定波束形成的输出做回声消除,即对第一目标信号与第二目标信号做回声消除。线性回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端回声参考信号a(k)的语音模型,利用该语音模型对回声进行估计,并不断地更新滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从第一目标信号或第二目标信号中减去,从而达到消除回声的目的。以第一目标信号为例,通过远端回声参考信号a(k)的语音模型,回声可以表示为:b(k)=h(k)*a(k)来表示,其中b(k)可以表示为实际回声路径中的回声,h(k)可以表示为回声路径中的传导函数,*可以表示为卷积运算,麦克风采集的实际信号为:y1(k)=v(k)+b(k),其中y1(k)可以表示为第一目标信号,即麦克风采集到的声音数据,v(k)可以表示为讲话人的语音数据和环境噪音。实际回声路径中的传导函数h(k)是未知的,可以采用自适应滤波器来近似地求解传导函数h(k),进而可以得到回声估计值:其中可以表示为回声估计值,可以表示为传导函数h(k)的自适应估计,也可以称为响应函数,通过第一目标信号y1(k)与回声估计值的差值不断地调整滤波器系数。滤波器系数的调整可以采用归一化最小均方误差(normalized least mean square,NLMS),自适应滤波器可以对输入的回声参考信号序列a(k)的每一个样值,按照NLMS算法更新系数,使实际输出的信号序列与期望输出的信号序列之间的均方误差为最小,进而估算传导函数h(k),NLMS的具体公式可以表示为:
a(k)=[a(k),a(k-1),...,a(k-p+1)]T (4)
其中,公式(4)表示回声参考信号a(k)为离散信号序列,可以表示为h(k)的共轭转置,主要用于将卷积运算转换为乘积运算,降低计算量,y′1(k)可以表示为回声消除后的第一目标信号,即第一预处理信号,公式(6)中的aH(k)可以表示为a(k)的共轭转置,通过公式(6)可以获得的参数信息,进而可以确定回声信号估计值,从而达到消除回声的目的。可以理解的是,在理想情况下(即h(k)与相等时),此时y′1(k)等于v(k),回声消除的效果最好。
步骤S204,对所述第一预处理信号与所述第二预处理信号进行语音端点检测;
具体的,设备可以对上述第一预处理信号与第二预处理信号进行语音端点检测,即将第一预处理信号与第二预处理信号进行分帧处理,检测当前的输入的信号(即当前信号帧)中是否有语音,可以将非语音片段认为是纯噪音片段。
步骤S205,若检测到所述第一预处理信号与所述第二预处理信号中存在语音,则确定所述第一预处理信号对应的第一模值与所述第二预处理信号对应的第二模值;
具体的,在对第一预处理信号与所述第二预处理信号对应的信号帧进行语音端点检测的过程中,当检测到某信号帧中包含语音信息,则可以计算该信号帧对应的模值。语音端点检测的检测结果可以为0和1,当检测结果为1时,表示输入信号中包含语音;当检测结果为0时,表示输入信号中不包含语音。换言之,当语音端点检测结果为1时,计算当前输入信号(第一预处理信号与所述第二预处理信号对应的信号帧)对应的模值,为方便区分,可以将第一预处理信号对应的模值称为第一模值,将第二与处理信号对应的模值称为第二模值。
步骤S206,将所述第一模值与所述第二模值的比值,确定为所述第一预处理信号与所述第二预处理信号对应的信噪比;
具体的,设备可以将上述第一模值除以第二模值,得到第一预处理信号与所述第二预处理信号对应的信噪比,该信噪比也可以称为短时信噪比,用于表示每一帧信号对应的信噪比。请一并参见图5c,是本发明实施例提供的一种音频数据处理方法的信号流图示意图。如图5c所示,信噪比的求解过程51是对固定波束形成的每一路输出信号(即第一预处理信号与第二预处理信号)计算信噪比,通过固定波束形成可以输出第一目标信号y1(k)和第二目标信号y2(k),对固定波束形成的输出做回声消除,可以得到第一预处理信号y′1(k)和第二预处理信号y′2(k),分别计算y′1(k)和y′2(k)的模(||y′1(k)||表示第一预处理信号y′1(k)的模值),并相除得到信噪比。
步骤S207,根据所述信噪比,确定所述第一预处理信号与所述第二预处理信号分别对应的声源方向;
具体的,根据信噪比,可以判断第一预处理信号和第二预处理信号分别对应的声源方向。例如,y′1(k)可以表示为主驾声音,y′2(k)可以表示为副驾声音,当||y′1(k)||/||y′2(k)||>1时,表示以主驾声音为主,即可以认为发出语音命令的主声源位于主驾方向;当||y′1(k)||/||y′2(k)||<1时,表示以副驾声音为主,即可以认为发出语音命令的主声源位于副驾方向。
步骤S208,基于所述声源方向,确定分离参数信息,基于所述分离参数信息与所述第二预处理信号,对所述第一预处理信号进行相位对齐,将所述第二预处理信号与相位对齐后的第一预处理信号的差值,确定为第二分离信号;
具体的,设备可以将上述信噪比确定的声源方向作为先验信息,对自适应波束形成系数进行更新,将最终得到的自适应波束形成系数确定为分离参数信息,根据分离参数信息可以从第一预处理信号和第二预处理信号中分离出主驾语音(即第一分离信号)和副驾语音(即第二分离信号)。根据第二预处理信息,对第一预处理信息进行相位对齐,即将第一预处理信号与分离参数信息做乘积,并将第二预处理信号减去第一预处理信号与分离参数信息的乘积,可以得到第二分离信号。
步骤S209,基于所述分离参数信息与所述第一预处理信号,对所述第二分离信号进行相位对齐,将所述第一预处理信号与相位对齐后的第二分离信号的差值,确定为第一分离信号;
具体的,根据第一预处理信息,对第二分离信号进行相位对齐,即将第二分离信号与分离参数信息做乘积,并将第一预处理信号减去第二分离信号与分离参数信息的乘积,可以得到第一分离信号。请一并参见图5d,是本发明实施例提供的一种音频数据处理方法的信号流示意图。如图5d所示,分离参数信息可以包括自适应滤波器w5(k)和自适应滤波器w6(k),对于回声消除后的y′1(k)和y′2(k),可以将y′1(k)和y′2(k)作为自适应波束形成的输入信号,当检测到y′1(k)和y′2(k)对应的信号帧包含语音(即语音端点检测的结果为VAD==1)时,可以将y′1(k)和y′2(k)存入循环缓存区52,自适应滤波器w5(k)可以循环利用该循环缓存区52无间隔的情况下循环迭代,将w5(k)与y′1(k)的乘积对y′2(k)做对消,即根据y′2(k)对y′1(k)进行相位对齐,可以求得第二分离信号N(k),具体的计算公式可以表示为:
N(k)=y′2(k)-w5(k)y′1(k) (7)
随后可以根据第二分离信号N(k)与第一预处理信号y′1(k)自适应学习w6(k),进而可以根据第一预处理信号y′1(k)对第二分离信号N(k)进行相位对齐,求得第一分离信号V(k),具体的计算公式可以表示为:
V(k)=y′1(k)-w6(k)N(k) (8)
其中,在循环缓存区52中,y′1(k)和y′2(k)以信号序列的形式进行存储,y′1[n,k]可以表示为y′1(k)中的第n个值,y′2[n,k]可以表示为y′2(k)中的第n个值。
步骤S210,获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号;
其中,步骤S210的具体实现过程可以参见上述图2所对应实施例中对步骤S103的描述,这里不再进行赘述。
步骤S211,根据所述第一音频信号与所述第二音频信号分别对应的唤醒词检测结果,从所述第一音频信号与所述第二音频信号中确定用于响应唤醒词的目标音频信号;
具体的,在确定上述第一音频信号和第二音频信号后,可以采用多路唤醒机制对第一音频信号和第二音频信号进行唤醒词检测,即对两路输出信号(第一音频信号与第二音频信号)均做唤醒词检测,当第一音频信号和第二音频信号中有任一信号存在唤醒词时,可以将存在唤醒词的信号确定为目标音频信号,也可以称为在车载场景中发出的语音命令。
步骤S212,根据所述目标音频信号中的唤醒词,响应车载操作。
具体的,根据上述目标音频信号,可以响应响应的车载操作。例如,若目标音频信号为“播放音乐”语音命令,则设备可以对该语音命令进行语音识别,并根据语音识别结果开启音乐播放;若目标音频信号为“出发去最近的公园”语音命令,则设备可以对该语音命令进行语音识别,并根据该语音识别结果搜索“最近的公园”,并自动为驾驶员进行路线导航等。
请一并参见图6,是本发明实施例提供的一种音频数据处理方法的结构示意图。如图6所示,麦克风1和麦克风2可以采集车载场景中的声音数据,可以将采集到的声音数据确定为拾音信号,该拾音信号为混合信号,可以包括噪音、多人讲话的声音以及回声等,通过固定波束形成61可以对拾音信号进行主副驾的人声预分离,可以通过回声消除62对每个固定波束形成的输出做回声消除,可以从拾音信号中消除回声,可以通过语音端点检测与方位角度估计63对回声消除后的拾音信号进行语音端点检测,并根据语音端点检测结果进行方位角度估计,可以确定拾音信号中的声源方向,将回声消除后的拾音信号作为自适应波束形成64的输入信号,基于声源方向可以从拾音信号中分离出主驾方向的语音信号(即第一分离信号)和副驾方向的语音信号(即第二分离信号),即可以从两路(如左右两侧自适应波束形成)输出主驾方向的语音信号和副驾方向的语音信号,在该自适应波束形成64中,可以包括多种不同的自适应算法,可以结合盲信号分离对主驾方向的语音信号和副驾方向的语音信号进行分离,在对信号进行分离的同时,还可以对拾音信号中的噪音进行抑制,为了完全消除主驾方向的语音信号和副驾方向的语音信号中所残留的噪音和回声(在回声消除62中只是消除了线性回声,因此还残留有非线性回声;在对拾音信号进行分离时,只能对主驾方向上和副驾方向上的噪音进行了抑制,即抑制了指向性噪音,由于麦克风1和麦克风2均为全向拾音麦克风,因此拾音信号中包含的全向噪音还残留在信号中),可以采用回声消除后处理和降噪后处理65,对左侧自适应波束形成输出的主驾方向的语音信号进行回声消除和降噪处理,采用回声消除后处理和降噪后处理66,对右侧自适应波束形成输出的副驾方向的语音信号进行回声消除和降噪处理,最终得到左侧去噪输出(即第一音频信号)和右侧去噪输出(即第二音频信号)。
其中,在进行回声消除时,需要输入远端参考信号67,构建关于远端参考信号67的语音模型做回声消除,如回声消除62、回声消除后处理和降噪后处理65、回声消除后处理和降噪后处理66。语音端点检测可以采用Polar VAD方法来进行检测,Polar VAD方法可以基于空间信息(如信号的波动情况等)来判断拾音信号中是否包含语音,而非基于能量值来判断拾音信号中是否包含语音。在进行回声消除后处理与降噪后处理后,可以对输出的多路信号进行多路唤醒词检测,根据多路唤醒词检测的综合结果来判定主声源方向(即发出语音命令的声源方向),该主声源方向可以为主驾方向或者副驾方向。换言之,设备可以在主驾司机与副驾乘客同时讲话时,识别出发出语音命令的主声源是主驾方向还是副驾方向,当然若后排乘客与主驾方向为同一方向时,也可以识别出后排乘客的语音命令。
本发明实施例通过根据第一驾驶方向参数信息,可以确定拾音信号中所包含的第一预处理信号,根据第二驾驶方向参数信息,可以确定拾音信号中所包含的第二预处理信号,即可以根据第一驾驶方向与第二驾驶方向分别对应的参数信息,对拾音信号进行预分离,得到第一驾驶方向对应的第一预处理信号,以及第二驾驶方向对应的第二预处理信号,进而可以获取第一预处理信号和第二预处理信号对应的信噪比,根据信噪比确定分离参数信息,进而可以根据分离参数信息对第一预处理信号与第二预处理信号进行进一步的处理,得到第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号,进而可以对第一分离信号与第二分离信号进行回声与噪音消除,获得第一驾驶方向上的第一音频信号,以及第二驾驶方向上的第二音频信号。可见,在上述拾音信号处理过程中,可以将获取的拾取信号进行分离,并对分离后的信号进行回声与噪音消除处理,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号,即在第一驾驶方向上的声源与第二驾驶方向上的声源同时发声时,可以将拾音信号(可以包含第一驾驶方向上的声源与第二驾驶方向上的声源产生的声音数据)进行分离,进而可以确定发出语音命令的主声源,从而提高语音识别的准确率;通过学习各方向上的导向矢量,可以提高对强干扰噪音的鲁棒性。
请参见图7,是本发明实施例提供的一种音频数据处理装置的结构示意图。如图7所示,该音频数据处理装置1可以包括:预处理模块10,分离模块20,消除模块30;
预处理模块10,用于获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
分离模块20,用于根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
消除模块30,用于获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
其中,预处理模块10,分离模块20,消除模块30的具体功能实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请一并参见图7,该音频数据处理装置1还可以包括:唤醒词检测模块40,车载操作响应模块50;
唤醒词检测模块40,用于根据所述第一音频信号与所述第二音频信号分别对应的唤醒词检测结果,从所述第一音频信号与所述第二音频信号中确定用于响应唤醒词的目标音频信号;
车载操作响应模块50,用于根据所述目标音频信号中的唤醒词,响应车载操作。
其中,唤醒词检测模块40,车载操作响应模块50的具体功能实现方式可以参见上述图4所对应实施例中的步骤S211-步骤S212,这里不再进行赘述。
请一并参见图7,预处理模块10可以包括:参数信息确定单元101,信号预处理单元102;
参数信息确定单元101,用于获取拾音信号,基于多个方向分别对应的导向矢量,确定第一驾驶方向参数信息与所述第二驾驶方向参数信息;
信号预处理单元102,用于根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号。
其中,参数信息确定单元101,信号预处理单元102的具体功能实现方式可以参见上述图4所对应实施例中的步骤S201-步骤S203,这里不再进行赘述。
请一并参见图7,分离模块20可以包括:检测单元201,信噪比获取单元202,声源方向确定单元203,分离信号确定单元204;
检测单元201,用于对所述第一预处理信号与所述第二预处理信号进行语音端点检测;
信噪比获取单元202,用于若检测到所述第一预处理信号与所述第二预处理信号中存在语音,则获取所述第一预处理信号与所述第二预处理信号对应的信噪比;
声源方向确定单元203,用于根据所述信噪比,确定所述第一预处理信号与所述第二预处理信号分别对应的声源方向;
分离信号确定单元204,用于基于所述声源方向,确定分离参数信息,基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号。
其中,检测单元201,信噪比获取单元202,声源方向确定单元203,分离信号确定单元204的具体功能实现方式可以参见上述图4所对应实施例中的步骤S204-步骤S209,这里不再进行赘述。
请一并参见图7,信号预处理单元102可以包括:第一确定子单元1021,第二确定子单元1022,目标信号确定子单元1023,回声估计值确定子单元1024,回声消除子单元1025;
第一确定子单元1021,用于根据所述第一信号与所述第一参数,确定第一分支信号,根据所述第二信号与所述第二参数,确定第二分支信号,将所述第一分支信号与所述第二分支信号的差值确定为第一预处理信号;
第二确定子单元1022,用于根据所述第一信号与所述第三参数,确定第三分支信号,根据所述第二信号与所述第四参数,确定第四分支信号,将所述第四分支信号与所述第三分支信号的差值确定为第二预处理信号;
目标信号确定子单元1023,用于根据所述第一驾驶方向参数信息与所述拾音信号,确定第一目标信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二目标信号;
回声估计值确定子单元1024,用于获取回声参考信号对应的响应函数,根据所述响应函数确定所述第一目标信号与所述第二目标信号分别对应的回声信号估计值;
回声消除子单元1025,用于将所述第一目标信号与所述回声信号估计值的差值,确定为第一预处理信号,将所述第二目标信号与所述回声信号估计值的差值,确定为第二预处理信号。
其中,第一确定子单元1021,第二确定子单元1022,目标信号确定子单元1023,回声估计值确定子单元1024,回声消除子单元1025的具体功能实现方式可以参见上述图4所对应实施例中的步骤S202-步骤S203,这里不再进行赘述。
请一并参见图7,信噪比获取单元202可以包括:模值确定子单元2021,信噪比确定子单元2022;
模值确定子单元2021,用于确定所述第一预处理信号对应的第一模值与所述第二预处理信号对应的第二模值;
信噪比确定子单元2022,用于将所述第一模值与所述第二模值的比值,确定为所述第一预处理信号与所述第二预处理信号对应的信噪比。
其中,模值确定子单元2021,信噪比确定子单元2022的具体功能实现方式可以参见上述图4所对应实施例中的步骤S205-步骤S206,这里不再进行赘述。
请一并参见图7,分离信号确定单元204可以包括:第一相位对齐子单元2041,第二相位对齐子单元2042;
第一相位对齐子单元2041,用于基于所述分离参数信息与所述第二预处理信号,对所述第一预处理信号进行相位对齐,将所述第二预处理信号与相位对齐后的第一预处理信号的差值,确定为第二分离信号;
第二相位对齐子单元2042,用于基于所述分离参数信息与所述第一预处理信号,对所述第二分离信号进行相位对齐,将所述第一预处理信号与相位对齐后的第二分离信号的差值,确定为第一分离信号。
其中,第一相位对齐子单元2041,第二相位对齐子单元2042的具体功能实现方式可以参见上述图4所对应实施例中的步骤S208-步骤S209,这里不再进行赘述。
本发明实施例通过根据第一驾驶方向参数信息,可以确定拾音信号中所包含的第一预处理信号,根据第二驾驶方向参数信息,可以确定拾音信号中所包含的第二预处理信号,即可以根据第一驾驶方向与第二驾驶方向分别对应的参数信息,对拾音信号进行预分离,得到第一驾驶方向对应的第一预处理信号,以及第二驾驶方向对应的第二预处理信号,进而可以获取第一预处理信号和第二预处理信号对应的信噪比,根据信噪比确定分离参数信息,进而可以根据分离参数信息对第一预处理信号与第二预处理信号进行进一步的处理,得到第一预处理信号对应的第一分离信号,以及第二预处理信号对应的第二分离信号,进而可以对第一分离信号与第二分离信号进行回声与噪音消除,获得第一驾驶方向上的第一音频信号,以及第二驾驶方向上的第二音频信号。可见,在上述拾音信号处理过程中,可以将获取的拾取信号进行分离,并对分离后的信号进行回声与噪音消除处理,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号,即在第一驾驶方向上的声源与第二驾驶方向上的声源同时发声时,可以将拾音信号(可以包含第一驾驶方向上的声源与第二驾驶方向上的声源产生的声音数据)进行分离,进而可以确定发出语音命令的主声源,从而提高语音识别的准确率;通过学习各方向上的导向矢量,可以提高对强干扰噪音的鲁棒性。
请参见图8,图8是本发明实施例提供的一种音频数据处理装置的结构示意图。如图8所示,该音频数据处理装置1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述音频数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图8所示的音频数据处理装置1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现上述图2、图6任一个所对应实施例中对所述音频数据处理方法的描述,在此不再赘述。
应当理解,本发明实施例中所描述的音频数据处理装置1000可执行前文图2、图4任一个所对应实施例中对所述音频数据处理方法的描述,也可执行前文图7所对应实施例中对所述音频数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2、图4任一个所对应实施例中对所述音频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory,ROM)或随机存储存储器(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种音频数据处理方法,其特征在于,包括:
获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
2.根据权利要求1所述的方法,其特征在于,所述获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号,包括:
获取拾音信号,基于多个方向分别对应的导向矢量,确定第一驾驶方向参数信息与所述第二驾驶方向参数信息;
根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号。
3.根据权利要求2所述的方法,其特征在于,所述拾音信号包括第一信号与第二信号,所述第一驾驶方向参数信息包括第一参数与第二参数,所述第二驾驶方向参数信息包括第三参数与第四参数;
所述根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号,包括:
根据所述第一信号与所述第一参数,确定第一分支信号,根据所述第二信号与所述第二参数,确定第二分支信号,将所述第一分支信号与所述第二分支信号的差值确定为第一预处理信号;
根据所述第一信号与所述第三参数,确定第三分支信号,根据所述第二信号与所述第四参数,确定第四分支信号,将所述第四分支信号与所述第三分支信号的差值确定为第二预处理信号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号,包括:
对所述第一预处理信号与所述第二预处理信号进行语音端点检测;
若检测到所述第一预处理信号与所述第二预处理信号中存在语音,则获取所述第一预处理信号与所述第二预处理信号对应的信噪比;
根据所述信噪比,确定所述第一预处理信号与所述第二预处理信号分别对应的声源方向;
基于所述声源方向,确定分离参数信息,基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号。
5.根据权利要求4所述的方法,其特征在于,所述获取所述第一预处理信号与所述第二预处理信号对应的信噪比,包括:
确定所述第一预处理信号对应的第一模值与所述第二预处理信号对应的第二模值;
将所述第一模值与所述第二模值的比值,确定为所述第一预处理信号与所述第二预处理信号对应的信噪比。
6.根据权利要求4所述的方法,其特征在于,所述基于所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号,包括:
基于所述分离参数信息与所述第二预处理信号,对所述第一预处理信号进行相位对齐,将所述第二预处理信号与相位对齐后的第一预处理信号的差值,确定为第二分离信号;
基于所述分离参数信息与所述第一预处理信号,对所述第二分离信号进行相位对齐,将所述第一预处理信号与相位对齐后的第二分离信号的差值,确定为第一分离信号。
7.根据权利要求2所述的方法,其特征在于,所述根据所述第一驾驶方向参数信息与所述拾音信号,确定第一预处理信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二预处理信号,包括:
根据所述第一驾驶方向参数信息与所述拾音信号,确定第一目标信号,根据所述第二驾驶方向参数信息与所述拾音信号,确定第二目标信号;
获取回声参考信号对应的响应函数,根据所述响应函数确定所述第一目标信号与所述第二目标信号分别对应的回声信号估计值;
将所述第一目标信号与所述回声信号估计值的差值,确定为第一预处理信号,将所述第二目标信号与所述回声信号估计值的差值,确定为第二预处理信号。
8.根据权利要求1所述的方法,其特征在于,还包括:
根据所述第一音频信号与所述第二音频信号分别对应的唤醒词检测结果,从所述第一音频信号与所述第二音频信号中确定用于响应唤醒词的目标音频信号;
根据所述目标音频信号中的唤醒词,响应车载操作。
9.一种音频数据处理装置,其特征在于,包括:
预处理模块,用于获取拾音信号,根据第一驾驶方向参数信息,确定所述拾音信号所包含的第一预处理信号,根据第二驾驶方向参数信息,确定所述拾音信号所包含的第二预处理信号;
分离模块,用于根据所述第一预处理信号与所述第二预处理信号对应的信噪比,确定分离参数信息,根据所述分离参数信息,确定所述第一预处理信号对应的第一分离信号,以及所述第二预处理信号对应的第二分离信号;
消除模块,用于获取所述第一分离信号与所述第二分离信号所包含的异常信号,将所述异常信号进行消除,得到第一驾驶方向对应的第一音频信号,以及第二驾驶方向对应的第二音频信号。
10.一种音频数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390481.4A CN110120217B (zh) | 2019-05-10 | 2019-05-10 | 一种音频数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390481.4A CN110120217B (zh) | 2019-05-10 | 2019-05-10 | 一种音频数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110120217A true CN110120217A (zh) | 2019-08-13 |
CN110120217B CN110120217B (zh) | 2023-11-24 |
Family
ID=67522063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910390481.4A Active CN110120217B (zh) | 2019-05-10 | 2019-05-10 | 一种音频数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110120217B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN112201268A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 回声消除方法、回声消除装置及存储介质 |
CN113113035A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 一种音频信号处理方法、装置、系统以及电子设备 |
CN113113001A (zh) * | 2021-04-20 | 2021-07-13 | 深圳市友杰智新科技有限公司 | 人声激活检测方法、装置、计算机设备和存储介质 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
US20220148611A1 (en) * | 2019-03-10 | 2022-05-12 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
US11545172B1 (en) * | 2021-03-09 | 2023-01-03 | Amazon Technologies, Inc. | Sound source localization using reflection classification |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993014492A1 (en) * | 1992-01-17 | 1993-07-22 | The Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data |
US6049607A (en) * | 1998-09-18 | 2000-04-11 | Lamar Signal Processing | Interference canceling method and apparatus |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
US20090097670A1 (en) * | 2007-10-12 | 2009-04-16 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus for extracting target sound from mixed sound |
US20110293103A1 (en) * | 2010-06-01 | 2011-12-01 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US20170094420A1 (en) * | 2015-09-24 | 2017-03-30 | Gn Hearing A/S | Method of determining objective perceptual quantities of noisy speech signals |
US10079026B1 (en) * | 2017-08-23 | 2018-09-18 | Cirrus Logic, Inc. | Spatially-controlled noise reduction for headsets with variable microphone array orientation |
CN108932949A (zh) * | 2018-09-05 | 2018-12-04 | 科大讯飞股份有限公司 | 一种参考信号获取方法及装置 |
-
2019
- 2019-05-10 CN CN201910390481.4A patent/CN110120217B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993014492A1 (en) * | 1992-01-17 | 1993-07-22 | The Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data |
US6049607A (en) * | 1998-09-18 | 2000-04-11 | Lamar Signal Processing | Interference canceling method and apparatus |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
US20090097670A1 (en) * | 2007-10-12 | 2009-04-16 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus for extracting target sound from mixed sound |
US20110293103A1 (en) * | 2010-06-01 | 2011-12-01 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US20170094420A1 (en) * | 2015-09-24 | 2017-03-30 | Gn Hearing A/S | Method of determining objective perceptual quantities of noisy speech signals |
US10079026B1 (en) * | 2017-08-23 | 2018-09-18 | Cirrus Logic, Inc. | Spatially-controlled noise reduction for headsets with variable microphone array orientation |
CN108932949A (zh) * | 2018-09-05 | 2018-12-04 | 科大讯飞股份有限公司 | 一种参考信号获取方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220148611A1 (en) * | 2019-03-10 | 2022-05-12 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
CN113113035A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 一种音频信号处理方法、装置、系统以及电子设备 |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
US12009006B2 (en) | 2020-07-17 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Audio signal processing method, apparatus and device, and storage medium |
CN112201268A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 回声消除方法、回声消除装置及存储介质 |
US11545172B1 (en) * | 2021-03-09 | 2023-01-03 | Amazon Technologies, Inc. | Sound source localization using reflection classification |
CN113113001A (zh) * | 2021-04-20 | 2021-07-13 | 深圳市友杰智新科技有限公司 | 人声激活检测方法、装置、计算机设备和存储介质 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
CN114245266B (zh) * | 2021-12-15 | 2022-12-23 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110120217B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110120217A (zh) | 一种音频数据处理方法及装置 | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
Sainath et al. | Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveforms | |
Kumatani et al. | Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors | |
Saruwatari et al. | Blind source separation combining independent component analysis and beamforming | |
JP4815661B2 (ja) | 信号処理装置及び信号処理方法 | |
CN108352818B (zh) | 用于增强声音信号的声音信号处理装置和方法 | |
US20190172476A1 (en) | Deep learning driven multi-channel filtering for speech enhancement | |
US20170251301A1 (en) | Selective audio source enhancement | |
CN111161751A (zh) | 复杂场景下的分布式麦克风拾音系统及方法 | |
US20170365255A1 (en) | Far field automatic speech recognition pre-processing | |
KR20180069879A (ko) | 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링 | |
Kumatani et al. | Microphone array processing for distant speech recognition: Towards real-world deployment | |
US20110096915A1 (en) | Audio spatialization for conference calls with multiple and moving talkers | |
JP5841986B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
JP2017044916A (ja) | 音源同定装置および音源同定方法 | |
CN101965613A (zh) | 信号增强装置、其方法、程序以及记录介质 | |
CN106531179A (zh) | 一种基于语义先验的选择性注意的多通道语音增强方法 | |
Reindl et al. | A stereophonic acoustic signal extraction scheme for noisy and reverberant environments | |
CN109859749A (zh) | 一种语音信号识别方法和装置 | |
CN105957536B (zh) | 基于通道聚合度频域回声消除方法 | |
Seltzer | Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
CN113744752A (zh) | 语音处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |