CN110459234B - 用于车载的语音识别方法及系统 - Google Patents

用于车载的语音识别方法及系统 Download PDF

Info

Publication number
CN110459234B
CN110459234B CN201910752713.6A CN201910752713A CN110459234B CN 110459234 B CN110459234 B CN 110459234B CN 201910752713 A CN201910752713 A CN 201910752713A CN 110459234 B CN110459234 B CN 110459234B
Authority
CN
China
Prior art keywords
vehicle
noise
audio
sound
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910752713.6A
Other languages
English (en)
Other versions
CN110459234A (zh
Inventor
张华兵
何赛娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910752713.6A priority Critical patent/CN110459234B/zh
Publication of CN110459234A publication Critical patent/CN110459234A/zh
Application granted granted Critical
Publication of CN110459234B publication Critical patent/CN110459234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例提供一种用于车载的语音识别方法。该方法包括:使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为多个音区,根据各音区内的麦克风组成分布式麦克风网络;通过分布式麦克风网络实时采集车载环境下的音频,根据回声消除算法抑制音频中的车载环境自噪声;通过盲源分离算法对抑制音频中多个说话人的声音进行分离;通过分布式麦克风网络定位每个说话人所在的音区,没有说话人发出的声音时,将声音采集为噪音估计,有说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音进行语音识别。本发明实施例还提供一种用于车载的语音识别系统。本发明实施例在车载噪声环境中,具有较高的唤醒率与识别率。

Description

用于车载的语音识别方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种用于车载的语音识别方法及系统。
背景技术
随着便携式移动端和智能型硬件设备的普及流行,通过语音对话的方式实现自然的人机交互功能渐成趋势,这种便捷的手段大大增强了产品的用户体验。其中,语音交互的一种入口实现方式就是语音唤醒和语音识别技术,而高唤醒率和高识别率的获得就需要依赖于优秀的前端信号处理。通过前端信号处理技术,对目标信号进行增强,抑制干扰信号,从而实现目标信号的唤醒和识别。在车辆中使用语音来控制各种智能设备解放了驾驶者的双手。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
由于车辆内部的环境比较恶劣,存在着各种干扰来影响人机交互,同时由于车内有可能存在多人同时说话,多个说话人之间的语音又会相互干扰,更加影响了车载环境下语音识别的识别效果,使得车载的语音识别效果较差。
发明内容
为了至少解决现有技术中车载环境恶劣,多个说话人之间的语音相互干扰,车载的语音识别效果较差的问题。
第一方面,本发明实施例提供一种用于车载的语音识别方法,包括:
使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音,对所述干净语音进行语音识别。
第二方面,本发明实施例提供一种用于车载的语音识别系统,包括:
网络构建程序模块,用于使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
自噪抑制程序模块,用于通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
说话人分离程序模块,用于通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
识别程序模块,用于通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音,对所述干净语音进行语音识别。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于车载的语音识别方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于车载的语音识别方法的步骤。
本发明实施例的有益效果在于:可以有效的分离出各个说话人语音,并分别进行唤醒和识别,在主驾模式下,可支持主驾驶方向的唤醒和识别,可以应用到更多座位的车辆中;同时,使用分布式麦克风网络提升了语音交互的唤醒率与识别率;由于车内各个方向的声音是被完全分离开的,这样来自其他方向的语音被抑制了,降低了误唤醒;在车载噪声环境中,仍具有较高的唤醒率与识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于车载的语音识别方法的流程图;
图2是本发明一实施例提供的一种用于车载的语音识别系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于车载的语音识别方法的流程图,包括如下步骤:
S11:使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
S12:通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
S13:通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
S14:通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音,对所述干净语音进行语音识别。
在本实施方式中,可以将本方法适配在各类的汽车中,例如,四个座位的汽车,或者七个座位的汽车,或者其它数量座位的汽车。
对于步骤S11,例如四座的车辆中,可以配设四个麦克风,七个座的车辆中,可以配设七个麦克风。以四座的车辆为例,使用四个麦克风分别配置在车辆的四个座位的周围,根据这四个麦克风对车辆的空间进行音区信号分离,将车辆的空间分为前座位音区,后座位音区,进一步的分出左前座位音区、右前座位音区、左后座位音区、右后座位音区。并且根据各音区内的麦克风组成分布式麦克风网络。
对于步骤S12,根据所述分布式麦克风网络实时采集车辆中的声音,根据回声消除算法抑制采集的声音中的车载环境自噪声。
作为一种实施方式,在本实施例中,通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频,模拟出传到各麦克风处的回声信号,再将麦克风采集的音频减掉所述回声信号,以消除车载环境自噪声。
回声消除全名是声学回声消除(Acoustic Echo cancellation,AEC)。声学回声指的是设备自身扬声器播放的声音经不同的路径一次或多次反射后进入麦克风所产生的回声集合,也可称作设备自噪声。用户通过语音同设备进行交互的时候,回声信号和干净的语音信号混合,这会恶化采集到的语音信号的信噪比,严重干扰后续的信号处理算法和唤醒识别模块的性能。所以原始麦克风信号要先通过回声消除算法模块,消除设备自噪声,以达到提升信噪比的目的。回声消除主要的原理是采用自适应滤波技术,动态的实时跟踪车内的声学信道,参考音经过这个信道的滤波,模拟出传到麦克风处的回声,最后原始的麦克风信号减掉这个回声信号,达到消除车载设备自噪声的目的。其中,会涉及到随机梯度算法,基础信号
Figure BDA0002167724600000051
再经过梯度算法:
Figure BDA0002167724600000052
其中,所述μ为单位向量,E为噪声的均值。
再经过随机算法得到:
Figure BDA0002167724600000053
最后通过最小均方算法去除了车辆的自噪声:
Figure BDA0002167724600000054
Figure BDA0002167724600000055
对于步骤S13,通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行分离,其中,
盲源分离(blind source separation,BSS)的研究起源于鸡尾酒会问题,该问题可以描述成从许多混乱无章的谈话声和噪声中获得所需要的一个或多个说话人信号。而BSS所要解决的问题就是如何从麦克风采集的混合语音信号中分离出每个说话人信号。盲源分离的主要原理是采用一个变换矩阵,通过不断迭代更新,使最终输出的各分量信号之间的互信息最小。在车载场景,往往会出现大家同时说话的情况,通过盲源分离可以将每个人的声音按照顺序分离出来,可同时实现四个人分别进行人机交互。
根据现有的盲源分离公式:
Figure BDA0002167724600000056
Figure BDA0002167724600000057
Figure BDA0002167724600000058
Figure BDA0002167724600000059
Figure BDA00021677246000000510
Figure BDA00021677246000000511
Figure BDA00021677246000000512
对每一个说话人的声音进行一一分离。
对于步骤S14,分为两个部分,第一部分为噪声估计,第二个部分为语音增强,利用估计出的噪声,从带噪的语音中估计出干净语音,通过对其降噪,处理了车载的环境背景噪声,比如空调噪声,发动机噪声、胎噪、风噪,这类噪声通常不具有空间指向性,噪声能量随时间的变化相对比较平稳。降噪算法主要的原理是,采用专门为车载噪声特点设计的噪声跟踪算法,去实时动态的估计目前车内噪声特征,然后利用语音增强算法把估计出的噪声抑制掉,达到增强用户语音的目的最终提升在车载噪声环境下的语音系统性能。
作为一种实施方式,在本实施例中,对所述音频进行离散傅里叶变换,得到的所述音频的先验、后验信噪比,以确定所述音频的幅度谱;
通过所述噪声估计对所述幅度谱进行去燥,确定出干净语音。
在本实施方式中,噪声估计为当语音不存在时,更新噪声估计,噪声估计算法对最后的增强算法的效果是至关重要的。实验对比发现最小值控制递归平均MCRA(MinimaControlled Recursive Averageing)算法相对性能比较稳定。当语音存在时,用前一帧的噪声估计值作为当前帧的噪声估计值。其中,MCRA算法的主要流程是:先用最小值跟踪法获得带噪语音的最小值,它代表的是对噪声的初步估计,再利用这个最小值来计算语音存在的概率,计算噪声估计的平滑因子,利用递归平均来估计噪声。
作为另一种实施方式,在本实施例中,所述根据前一帧采集的噪音估计进行降噪,确定出干净语音包括:
对所述音频进行离散傅里叶变换,得到的所述音频的先验、后验信噪比,以确定所述音频的幅度谱;
通过所述噪声估计对所述幅度谱进行去燥,确定出干净语音。
在本实施方式中,经过调研,对数最小均方误差算法(logMMSE),从语音失真、计算复杂度,降噪性能等都是比较好的选择。对数最小均方误差算法的主要流程是,对每一帧语音数据做如下操作,主要分为四个步骤:
(1)计算带噪语音信号的DFT(Discrete Fourier Transform,离散傅里叶逆变换)
(2)估计后验信噪比和先验信噪比
(3)估计增强信号的幅度谱
(4)恢复增强信号的复数谱,然后计算IFFT(Inverse Fast Fourier Transform,快速傅里叶逆变换),得到增强的时域,确定出干净的语音。
最后,对所述干净语音进行语音识别,以完成对车载语音的识别。
通过该实施方式可以看出,可以有效的分离出各个说话人语音,并分别进行唤醒和识别,在主驾模式下,可支持主驾驶方向的唤醒和识别,可以应用到更多座位的车辆中;同时,使用分布式麦克风网络提升了语音交互的唤醒率与识别率;由于车内各个方向的声音是被完全分离开的,这样来自其他方向的语音被抑制了,降低了误唤醒;在车载噪声环境中,仍具有较高的唤醒率与识别率。
如图2所示为本发明一实施例提供的一种用于车载的语音识别系统的结构示意图,该系统可执行上述任意实施例所述的用于车载的语音识别方法,并配置在终端中。
本实施例提供的一种用于车载的语音识别系统包括:网络构建程序模块11,自噪抑制程序模块12,说话人分离程序模块13和识别程序模块14。
其中,网络构建程序模块11用于使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;自噪抑制程序模块12用于通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;说话人分离程序模块13用于通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;识别程序模块14用于通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,-当任一音区中检测到在所述任一音区中的说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音,对所述干净语音进行语音识别。
进一步地,所述自噪抑制程序模块用于:
通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频,模拟出传到各麦克风处的回声信号,再将麦克风采集的音频减掉所述回声信号,以消除车载环境自噪声。
进一步地,所述识别程序模块用于:
通过对所述麦克风采集的音频进行最小值跟踪,确定所述音频的噪声估计,根据所述噪声估计判断所述音频内用户语音的存在概率;
根据所述存在概率与预设的用户存在阈值进行比较,确定所述音频内是否存在用户的语音。
进一步地,所述识别程序模块还用于:
对所述音频进行离散傅里叶变换,得到的所述音频的先验、后验信噪比,以确定所述音频的幅度谱;
通过所述噪声估计对所述幅度谱进行去燥,确定出干净语音。
进一步地,所述车载空间至少包括:四座位车辆、七座位车辆。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于车载的语音识别方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,根据前一帧采集的噪音估计进行降噪,确定出干净语音,对所述干净语音进行语音识别。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于车载的语音识别方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于车载的语音识别方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语音识别功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种用于车载的语音识别方法,包括:
使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,对所述音频进行离散傅里叶变换,得到的所述音频的先验、后验信噪比,以确定所述音频的幅度谱,根据前一帧采集的噪音估计对所述幅度谱进行去噪,确定出干净语音,对所述干净语音进行语音识别。
2.根据权利要求1所述的方法,其中,所述根据回声消除算法抑制所述音频中的车载环境自噪声包括:
通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频,模拟出传到各麦克风处的回声信号,再将麦克风采集的音频减掉所述回声信号,以消除车载环境自噪声。
3.根据权利要求1所述的方法,其中,所述任一音区中没有检测到在所述任一音区中的说话人发出的声音包括:
通过对所述麦克风采集的音频进行最小值跟踪,确定所述音频的噪声估计,根据所述噪声估计判断所述音频内用户语音的存在概率;
根据所述存在概率与预设的用户存在阈值进行比较,确定所述音频内是否存在用户的语音。
4.根据权利要求1所述的方法,其中,所述车载空间至少包括:四座位车辆、七座位车辆。
5.一种用于车载的语音识别系统,包括:
网络构建程序模块,用于使用多个麦克风对车载空间进行音区信号分离,至少将车载空间分为前座位音区、后座位音区,根据各音区内的麦克风组成分布式麦克风网络,其中,所述前座位音区、后座位音区至少还分为左音区、右音区;
自噪抑制程序模块,用于通过所述分布式麦克风网络实时采集所述车载环境下的音频,根据回声消除算法抑制所述音频中的车载环境自噪声;
说话人分离程序模块,用于通过盲源分离算法对所述抑制车载环境自噪声后的音频中多个说话人的声音进行一一分离;
识别程序模块,用于通过所述分布式麦克风网络定位出所述多个说话人中每个说话人所在的音区,
-当任一音区中没有检测到在所述任一音区中的说话人发出的声音时,将所述声音采集为噪音估计,
-当任一音区中检测到在所述任一音区中的说话人发出的声音时,对所述音频进行离散傅里叶变换,得到的所述音频的先验、后验信噪比,以确定所述音频的幅度谱,根据前一帧采集的噪音估计对所述幅度谱进行去噪,确定出干净语音,对所述干净语音进行语音识别。
6.根据权利要求5所述的系统,其中,所述自噪抑制程序模块用于:
通过自适应滤波对动态的实时跟踪车内的麦克风采集的音频,模拟出传到各麦克风处的回声信号,再将麦克风采集的音频减掉所述回声信号,以消除车载环境自噪声。
7.根据权利要求5所述的系统,其中,所述识别程序模块用于:
通过对所述麦克风采集的音频进行最小值跟踪,确定所述音频的噪声估计,根据所述噪声估计判断所述音频内用户语音的存在概率;
根据所述存在概率与预设的用户存在阈值进行比较,确定所述音频内是否存在用户的语音。
8.根据权利要求5所述的系统,其中,所述车载空间至少包括:四座位车辆、七座位车辆。
CN201910752713.6A 2019-08-15 2019-08-15 用于车载的语音识别方法及系统 Active CN110459234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752713.6A CN110459234B (zh) 2019-08-15 2019-08-15 用于车载的语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752713.6A CN110459234B (zh) 2019-08-15 2019-08-15 用于车载的语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN110459234A CN110459234A (zh) 2019-11-15
CN110459234B true CN110459234B (zh) 2022-03-22

Family

ID=68486729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752713.6A Active CN110459234B (zh) 2019-08-15 2019-08-15 用于车载的语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN110459234B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
CN111341342A (zh) * 2020-02-11 2020-06-26 上海应用技术大学 基于环境声分离的车载语音提取方法及系统
CN111402877B (zh) * 2020-03-17 2023-08-11 阿波罗智联(北京)科技有限公司 基于车载多音区的降噪方法、装置、设备和介质
CN111724805A (zh) * 2020-06-29 2020-09-29 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN111833899B (zh) * 2020-07-27 2022-07-26 腾讯科技(深圳)有限公司 一种基于多音区的语音检测方法、相关装置及存储介质
CN111845590A (zh) * 2020-07-30 2020-10-30 安徽江淮汽车集团股份有限公司 基于车载以太网的车载音频采集系统及方法
CN111986678B (zh) * 2020-09-03 2023-12-29 杭州蓦然认知科技有限公司 一种多路语音识别的语音采集方法、装置
CN112259113A (zh) * 2020-09-30 2021-01-22 清华大学苏州汽车研究院(相城) 一种提高车内语音识别准确率的前处理系统及其控制方法
CN112672255B (zh) * 2020-12-26 2022-06-28 东风汽车集团有限公司 一种整车音源音量自适应调节方法和装置
CN113053402B (zh) * 2021-03-04 2024-03-12 广州小鹏汽车科技有限公司 一种语音处理方法、装置和车辆
CN113066468A (zh) * 2021-03-18 2021-07-02 辛巴网络科技(南京)有限公司 一种基于车内环境主动噪音干扰消除优化装置及方法
CN113345433B (zh) * 2021-05-30 2023-03-14 重庆长安汽车股份有限公司 一种车外语音交互系统
CN113345456B (zh) * 2021-05-31 2023-06-06 北京小米移动软件有限公司 回声分离方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
JP2017054015A (ja) * 2015-09-10 2017-03-16 新日本無線株式会社 目的音抽出装置及び目的音抽出方法
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN109192203A (zh) * 2018-09-29 2019-01-11 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN109817240A (zh) * 2019-03-21 2019-05-28 北京儒博科技有限公司 信号分离方法、装置、设备及存储介质
CN110070868A (zh) * 2019-04-28 2019-07-30 广州小鹏汽车科技有限公司 车载系统的语音交互方法、装置、汽车和机器可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2017054015A (ja) * 2015-09-10 2017-03-16 新日本無線株式会社 目的音抽出装置及び目的音抽出方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN109192203A (zh) * 2018-09-29 2019-01-11 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN109817240A (zh) * 2019-03-21 2019-05-28 北京儒博科技有限公司 信号分离方法、装置、设备及存储介质
CN110070868A (zh) * 2019-04-28 2019-07-30 广州小鹏汽车科技有限公司 车载系统的语音交互方法、装置、汽车和机器可读介质

Also Published As

Publication number Publication date
CN110459234A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110459234B (zh) 用于车载的语音识别方法及系统
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
CN110503972B (zh) 语音增强方法、系统、计算机设备及存储介质
CN109473118B (zh) 双通道语音增强方法及装置
CN107945815B (zh) 语音信号降噪方法及设备
CN109461449B (zh) 用于智能设备的语音唤醒方法及系统
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US20200184985A1 (en) Multi-stream target-speech detection and channel fusion
US20140112496A1 (en) Microphone placement for noise cancellation in vehicles
CN107910013B (zh) 一种语音信号的输出处理方法及装置
CN104835503A (zh) 一种改进gsc自适应语音增强方法
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
US11089404B2 (en) Sound processing apparatus and sound processing method
CN115482830A (zh) 语音增强方法及相关设备
CN107360497B (zh) 估算混响分量的计算方法及装置
CN1180602C (zh) 用于时空回声消除的方法和装置
CN111445916B (zh) 一种会议系统中音频去混响方法、装置及存储介质
CN111599366A (zh) 一种车载多音区语音处理的方法和相关装置
CN107346658B (zh) 混响抑制方法及装置
CN112927688B (zh) 用于车辆的语音交互方法及系统
CN115620739A (zh) 指定方向的语音增强方法及电子设备和存储介质
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
JP2001337694A (ja) 音源位置推定方法、音声認識方法および音声強調方法
CN110838307A (zh) 语音消息处理方法及装置
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant