CN111344778A - 用于语音增强的方法和系统 - Google Patents
用于语音增强的方法和系统 Download PDFInfo
- Publication number
- CN111344778A CN111344778A CN201780096792.9A CN201780096792A CN111344778A CN 111344778 A CN111344778 A CN 111344778A CN 201780096792 A CN201780096792 A CN 201780096792A CN 111344778 A CN111344778 A CN 111344778A
- Authority
- CN
- China
- Prior art keywords
- speech
- neural network
- unit
- voice
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 238000000926 separation method Methods 0.000 claims abstract description 37
- 230000009467 reduction Effects 0.000 claims abstract description 30
- 230000001360 synchronised effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 28
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000004378 air conditioning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0356—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
提供了一种用于语音增强的方法和系统。所述系统包括:时间同步单元,所述时间同步单元被配置为使从至少两个麦克风发送的麦克风信号同步;源分离单元,所述源分离单元被配置为分离所述同步的麦克风信号并输出分离出的语音信号,所述分离出的语音信号对应于语音源;以及降噪单元,所述降噪单元包括:被配置为提取所述分离出的语音信号的语音特征的特征提取单元,和被配置为接收所述语音特征并输出清晰的语音特征的神经网络。本公开提供了一种可通过使用至少两个麦克风来实现语音分离和降噪的解决方案。
Description
技术领域
本公开涉及语音处理,并且更具体地,涉及一种用于语音增强的方法和系统。
背景技术
车辆中的语音识别系统允许驾驶员和乘客通过说出单词和短语来控制车辆的各种功能,诸如导航器、空调以及甚至自动驾驶员系统的功能。然而,车厢可能有噪声。车辆中的噪声可来自几个源,诸如发动机、风、轮胎、空调、音乐、回声等。鉴于这种噪声,语音信号可能会产生不利的信噪比(SNR),这会限制语音识别系统的有效性。此外,常规的车辆可仅包括一个用于拾取语音信号的麦克风。那些麦克风在车辆中的放置可以是固定的。少量麦克风和它们的放置也可限制语音增强和识别系统的有效性。
另外,在常规车辆中,两个或两个以上的人可同时说话。在这种情况下,少量麦克风和它们的放置可能使语音识别系统的语音分离系统难以分离来自不同的讲话者的语音信号。因此,语音分离系统可产生不利的分离结果。
因此,本领域需要一种用于改善语音分离诸如以便产生清晰、单独的信号和用于降噪的方法和系统。
发明内容
根据本公开的一个方面,提供了一种用于语音增强的系统,所述用于语音增强的系统包括:时间同步单元,所述时间同步单元被配置为使从至少两个麦克风发送的麦克风信号同步;源分离单元,所述源分离单元被配置为分离所述同步的麦克风信号并输出分离出的语音信号,所述分离出的语音信号对应于语音源;降噪单元,所述降噪单元包括:被配置为提取所述分离出的语音信号的语音特征的特征提取单元,和被配置为接收所述语音特征并输出清晰的语音特征的神经网络。
所述系统可在车辆中实施,并且所述时间同步单元、所述源分离单元和所述降噪单元可包括在车辆的音响主机中。所述至少两个麦克风中的一个可安装在所述车辆中。所述系统可在诸如室内环境(例如,办公室、家里、商场)、室外环境(例如,亭、站)等其他环境中实施。
另外,所述至少两个麦克风中的一个可提供在便携式装置中。
另外,所述时间同步单元可被配置为通过检测所述麦克风信号的能量来使所述麦克风信号同步。
另外,所述源分离单元可被配置为多次执行聚类算法以获得多个聚类结果,并从所述多个聚类结果中选择最佳结果。
另外,所述系统可包括再取样模块,所述再取样模块用于在所述麦克风信号的同步之前或之后对所述麦克风信号中的至少一个再取样。
另外,所述神经网络中的模型是通过以下操作事先确定:获取训练数据的集合;提取所述训练数据的语音特征;为所述神经网络确定起始参数的集合;以及根据训练数据的所述语音特征和所述起始参数来迭代地训练所述神经网络的参数。
根据本公开的另一方面,提供了一种语音增强方法,所述语音增强方法包括:使从至少两个麦克风发送的麦克风信号同步;分离所述同步的麦克风信号并输出分离出的语音信号,所述分离出的语音信号对应于语音源;提取所述分离出的语音信号的语音特征;以及通过神经网络将所述语音特征映射到清晰的语音特征。
可在车辆中实施所述方法。可将所述至少两个麦克风中的一个安装在所述车辆中。可在诸如室内环境(例如,办公室、家里、商场)、室外环境(例如,亭、站)等其他环境中实施所述方法。
根据本公开,有可能在没有额外的麦克风阵列的成本的情况下从多通道含噪声的语音提供期望的清晰的语音以便提高语音识别率。
根据实施方案的以下描述将清楚本公开的意义和益处。然而,应该理解的是,那些实施方案仅仅是本发明可如何实施的示例,并且用于描述本发明的术语的含义不限于在描述实施方案时使用术语的特定实施方案。
在审查以下附图和详细描述后,本公开的其他系统、方法、特征和优点对于本领域技术人员来说将为显而易见的或将会变得显而易见。意图使所有此类额外系统、方法、特征和优点都包括在本说明书内,包括在本公开的范围内,并且由随附的权利要求书保护。
附图说明
参考以下附图和描述能够更好地理解本公开。附图中的部件不一定按比例绘制,而是替代地将重点放在说明本公开的原理上。此外,在附图中,相同的附图标记贯穿不同视图表示对应部分。
图1是根据本公开的实施方案的用于语音增强的系统的功能示意图;
图2是根据本公开的实施方案的用于语音增强的系统的框图;
图3是根据本公开的实施方案的用于与音响主机进行时钟同步和信息传输的移动装置的流程图;
图4是根据本公开的实施方案的用于与移动装置建立连接和进行时钟同步以及用于语音增强的音响主机的流程图;
图5是根据本公开的实施方案的源分离单元的功能框图;
图6是根据本公开的实施方案的源分离的流程图;
图7是根据本公开的实施方案的降噪单元的框图;以及
图8是根据本公开的实施方案的神经网络训练的流程图。
实施方案的简要描述
以下,将参考附图更详细地描述本公开的优选实施方案。在本公开的以下描述中,当可能使本公开的主题不清楚时,将省略对并入在本文中的已知功能和配置的详细描述。
本公开提供了一种根据本公开的实施方案的用于语音增强的方法和系统。图1是根据本公开的实施方案的语音处理系统的功能示意图。该系统可布置在车辆中。例如,该系统由车辆的音响主机实施。尽管如此,该系统可提供在诸如办公室、家里、商场、亭、站等其他环境中。
如图1所示,系统10包括源分离单元30和降噪单元40。
麦克风20和21中的一个或多个可被认为是系统10的一部分,或者可被认为与系统10分离。麦克风20和21可提供在不同的装置中,例如,一个安装在车辆中,而另一个安装在移动装置(诸如,移动电话、PDA、平板计算机、膝上型计算机、可佩戴装置等)中。如图1所示的麦克风的数量不应被理解为限制性的,而仅仅出于说明性目的而被选择,并且麦克风的数量可多于两个。麦克风20和21感测周围环境中的声音,并发送感测到的信号以进行进一步处理。不同于常用的麦克风阵列,所述麦克风之间的距离不受限制。
如果麦克风不包括在同一装置中,则可首先使那些麦克风同步,这将在下文中参考图2详细地进行描述。
出于说明性目的,下文中将通过以车辆作为示例来描述实施方案。参考图1,麦克风20和21接收车辆中的声音,所述声音可包括来自用户1(即,语音源1)的语音S1和/或来自用户2(即,语音源2)的语音S2,以及来自包括但不限于发动机、空调、风、音乐、串音、回声等的多个源的环境噪声。车辆中可能存在更多用户(或讲话者)。将分别由麦克风20和21接收的混合的含噪声的声音X1和混合的含噪声的声音X2传输到源分离单元30,然后由源分离单元30进行分离。如果只有一个用户在说话,则源分离单元30输出对应于该用户的含噪声的语音信号;如果两个用户同时讲话,则源分离单元30输出各自对应于两个用户中的一个的两个分离出的含噪声的语音信号。如果有两个以上用户同时讲话,则源分离单元30输出对应于相应用户的个别的含噪声的语音信号。从源分离单元30输出的一个或多个分离出的含噪声的语音信号将被输出到降噪单元40,所述降噪单元然后输出清晰的语音信号。因为源分离所需的一些信息在降噪处理后可能丢失,所以降噪单元40必须放置在源分离单元30的后面。降噪单元40使用神经网络以借助含噪声的语音与清晰的语音之间的映射函数来实现降噪。清晰的语音将被发送到可用于语音识别的语音识别单元(在图1中未示出)。下文中将详细描述包括源分离单元30和降噪单元40的系统的示例。
为了获得期望的源分离结果,系统需要获得来自至少两个麦克风的语音信号。如果只有一个麦克风部署在车辆中,则可将便携式装置上的麦克风与部署在车辆中的麦克风组合来实现源分离和降噪。
图2是示出根据本公开的实施方案的用于语音增强的系统的框图。
如图2所示,一个麦克风位于移动装置中,而另一个麦克风安装在车辆中并被视为音响主机的一部分。包括在车辆的音响主机中的麦克风并不意味着麦克风必须物理地包含在音响主机中,而是意味着麦克风连接到音响主机并由音响主机控制。包括在音响主机中的麦克风可布置在车辆中的任何地方。
参考图2,系统包括移动装置210和音响主机250。移动装置210包括麦克风212、时间同步单元214、语音记录单元216和通信单元220等。
时间同步单元214可实现移动装置与其他装置(诸如音响主机)之间的时钟同步,并且时钟同步可通过网络时间协议(NTP)、精密时间协议(PTP)、简单网络时间协议(SNTP)等来实现。时间同步单元214可由硬件、软件或它们的任何组合(诸如由移动装置中的中央处理器执行的对应的软件程序)实施。
麦克风212接收车辆中的混合的含噪声的声音,所述声音可包括来自一个或多个用户的语音声音和车辆中的环境噪声。环境噪声可能来自车辆内部和/或外部的多个源。麦克风212然后将混合的含噪声的语音信号发送到语音记录单元216,所述语音记录单元暂时或永久地存储混合的含噪声的语音信号。混合的含噪声的语音信号可包括来自多个源的语音信号。
通信单元220可用于各种通信协议。例如,通信单元220可支持无线通信、有线通信或两者。无线通信可包括Wi-Fi、蓝牙或用于移动装置与音响主机之间的信息传输的其他通信协议。
移动装置中的上述单元可通过在移动装置中适配已知的硬件部件来实施以用于准备好的、有效和经济的应用和利用。
如图2所示,音响主机250包括麦克风252、语音记录单元254、时间同步单元256、源分离单元258、降噪单元260和通信单元262等。
时间同步单元256可实现音响主机与其他装置(诸如移动装置)之间的时钟同步,并且时钟同步可通过网络时间协议(NTP)、精密时间协议(PTP)、简单网络时间协议(SNTP)等来实现。时间同步单元256可由硬件、软件或它们的任何组合(诸如由音响主机中的处理器执行的对应的软件程序)实施。
麦克风252具有与麦克风212的功能类似的功能。在接收车辆中的混合的含噪声的声音之后,麦克风252将混合的含噪声的语音信号发送到语音记录单元254。语音记录单元254暂时或永久地存储混合的含噪声的语音信号。
移动装置中的语音记录单元216和音响主机中的语音记录单元254可以是但不限于非易失性存储器(例如,ROM、非易失性随机存取存储器(NVRAM)、快闪存储器、磁盘存储装置)、易失性存储器(例如,RAM、静态随机存取存储器(SRAM))、内部存储器、外部存储器或它们的组合。
源分离单元258和降噪单元260分别对应于如图1所示的源分离单元30和降噪单元40。它们可由硬件、软件或它们的任何组合(诸如由音响主机中的中央处理器执行的对应的软件程序)实施。下文中将参考图4至图8提供源分离单元258和降噪单元260的细节。
通信单元262可用于各种通信协议。例如,通信单元262可支持无线通信(例如,Wi-Fi、蓝牙)或有线通信或两者。由于大多数车辆和大多数移动装置中的通信模块支持蓝牙协议,因此可能不需要修改音响主机和/或移动装置的硬件来实现它们之间的通信,这是具有成本效益的。
这个实施方案对于仅包括一个麦克风的音响主机尤其有用。包括在一个人携带的移动装置中的麦克风可与音响主机中的麦克风一起使用来实现源分离。
可选地,如果在音响主机中包括至少两个用于接收混合的含噪声的声音的麦克风,则系统200可仅包括音响主机250。也就是说,移动装置210对于这类系统不是必不可少的。在这种情况下,音响主机250不需要经由通信单元与移动装置210通信来进行时间同步和信息传输。
图3是根据本公开的实施方案的用于与音响主机250进行时钟同步和信息传输的移动装置210的流程图。
移动装置210可包括用于执行语音接收和传输过程以用于随后在音响主机中进行语音识别的应用程序。
在应用程序启动之后,移动装置210开始与音响主机250连接。移动装置210与音响主机250之间的连接可通过各种网络(诸如无线网络、有线网络等)建立,如框310所示。优选地,用于连接移动装置210和音响主机250的网络是蓝牙或Wi-Fi,这是因为大多数车辆支持这两个协议,并且因此不需要修改音响主机的硬件来建立连接。
在建立移动装置与音响主机之间的连接之后,应执行移动装置与音响主机之间的时钟同步,如框312所示。以NTP作为时钟同步的示例,音响主机通常用作NTP服务器,并且移动装置210的时间同步单元214调整移动装置210的时钟以与音响主机250的时间同步。可选地,移动装置210可用作NTP服务器,然后音响主机250的时间同步单元256调整音响主机的时钟以与移动装置的时间同步。时钟同步可通过其他具体步骤或其他协议实现。
移动装置210与音响主机250之间的时钟同步确保从移动装置210发送的语音信号与从音响主机250中的麦克风接收的语音信号之间的时钟同步。
在时钟同步之后,移动装置准备好接收和传输语音信号。
当车辆中的一个或多个人讲话时,语音声音与环境噪声一起将被移动装置210的麦克风212接收,然后移动装置210将会将混合的含噪声的语音信号发送到音响主机250。
图4示出了由音响主机执行的用于与移动装置建立连接并进行时钟同步以及用于语音增强的过程的流程图。
如框410和框420所示,音响主机250可在从移动装置210接收到连接请求之后与移动装置210建立连接,并执行与移动装置210的时间同步,这已参考图3进行了描述。
在时间同步之后,音响主机250准备好从移动装置210接收信号。
除了移动装置210的麦克风之外,还可从音响主机250的麦克风接收语音信号,如框460所示。
如果移动装置210的麦克风和音响主机250的麦克风具有不同的取样率,则音响主机250可通过再取样模块对从移动装置210发送的混合的含噪声的语音信号再取样,使得来自两个麦克风的信号(即,两个混合物)具有相同的取样率。
此外,可通过检测和对准来自不同的麦克风的信号的起点来在音响主机250中进一步使来自两个麦克风的混合的含噪声的语音信号同步。可通过检测信号的明显变化(诸如信号的功率或能量的明显变化)来执行对语音信号的起点的检测。例如,可使用能量检测方法来检测起点。检测和对准来自不同的麦克风的语音信号的起点将改善随后的源分离和降噪处理的准确度。
来自移动装置210的混合的含噪声的语音信号的再取样序列和语音信号的起点的检测和对准不受限制。
然后,如框440和框450中所示,随后将混合的含噪声的声音信号输入到源分离单元258和降噪单元260中,然后从降噪单元260输出清晰的语音以进行进一步处理,诸如语音识别。
可省略框410-430,并且当系统中不包括移动装置时仅执行框460。
图5是根据本公开的实施方案的源分离单元的功能框图。
源分离单元可包括傅里叶变换单元510、衰减和延迟计算单元520、聚类单元530、掩码确定单元540和分解单元550。
因为两个用户不可能同时激发相同的频率,所以来自多个用户的语音可被认为是统计上独立的,并且因此来自多个源的语音信号可被认为是W分离正交的,对于W分离正交可利用退化分离估计技术(DUET)方法。
参考图6,源分离单元从时间同步单元接收多个同步的混合的语音信号(框610)。例如,对于如图1所示的实施方案,源分离单元接收两个同步的混合的语音信号。然后,源分离单元中的傅里叶变换单元510可执行混合的语音信号的短时傅里叶变换(窗口傅里叶变换)并输出大量时频点(框620)。
源分离是通过分割混合的语音信号中的一个的时频点来实施。为了分割时频点,计算相对到达延迟和相对衰减因子,其中相对到达延迟是从源中的一个到两个麦克风的到达时间之间的时间差,并且相对衰减因子对应于源中的一个与两个麦克风之间的路径的衰减的比。对应于源中的一个的相对到达延迟和相对衰减因子应该分别与对应于源中的另一个的相对到达延迟和相对衰减因子不同,并且因此可根据不同的相对延迟-衰减对来分割时频点。
衰减和延迟计算单元520计算每个时频点的相对衰减和相对延迟(框630)。相对衰减和延迟的计算可通过本领域已知的方法来计算。
然后,通过聚类单元530利用聚类算法(诸如K均值方法)来对计算出的衰减-延迟对进行聚类(框640)。另外,可多次执行聚类算法(诸如K均值方法)以用于从多个结果中选择最佳聚类结果,以便确定聚类的估计的峰值中心。可选择从点到峰值的距离的最小总和作为最佳聚类结果。峰值的数量对应于源的数量。在聚类过程之后,已将衰减-延迟对组合到多个组中,每个组对应于一个源。执行多次聚类算法可优化聚类结果并改善语音分离。
在框650处,掩码确定单元540根据衰减-延迟对所属于的组来确定每个时频点的二进制掩码,其中衰减-延迟对对应于生成衰减-延迟对的时频点。例如,掩码确定单元540可为语音源1指派“1”,并为语音源2指派“0”。在此之后,分解单元550可通过将每个掩码与每个时频点相乘来分解源并且如果必要的话可将时频点转换到时域中(框660)。
返回参考图1,分离出的噪声语音1与分离出的噪声语音2可由降噪单元40按顺序进行处理。将参考图7和图8详细描述降噪单元40。
图7是根据本公开的实施方案的降噪单元的框图。图8是根据本公开的实施方案的神经网络训练的流程图。
如图7所示的降噪单元可包括特征提取模块710、神经网络720和特征反向模块730。神经网络720的网络模型可包括用以学习从含噪声的语音到清晰的语音的映射的特定深度神经网络(DNN),诸如回归深度神经网络、递归神经网络(RNN),或基于具有长期存储器(LSTM)的递归神经网络的模型。另外,神经网络720可以是受监督的深度神经网络。神经网络720可包括一个或多个DNN。
为了能够处置真实世界情形中的广泛的加性噪声,可使用涵盖各种类型的语音和噪声的许多可能组合的大的训练集合来训练网络模型(框810)。各种类型的含噪声的语音和清晰的语音可存储在系统中、存储在外部存储装置中,或存储在在线数据库中。训练数据可包括被不同的信噪比(SNR)等级(诸如20dB、15dB、10dB、5dB、0dB、-5dB等)的各种类型的噪声破坏的清晰的语音数据,所述语音数据模拟不同的操作情形中的受噪声破坏的语音信号。另外,训练数据可仅包括含噪声的数据。噪声数据可代表来自多个源(诸如发动机、空调、风、音乐、串音、回声)的噪声。
在将训练数据输入降噪单元中之后,可通过特征提取模块710提取训练数据的声学特征以作为网络模型的输入(框820)。要提取的特征可以是但不限于对数功率谱特征、相对自相关序列MFCC(梅尔频率倒谱系数)(RAS_MFCC)、Gabor滤波器组(GFB)、功率归一化倒谱系数(PNCC)等。
以递归神经网络作为示例,可预先确定递归神经网络的拓扑结构(框830),然后还可预先确定网络模型的起始参数(权重)的集合(框840)。通常,递归神经网络可包括输入层、输出层和一个或多个隐藏层。输入节点和输出节点的数量与训练数据的所提取的特征的规模相关,并且可根据经验和/或实验确定隐藏层的数量和隐藏层的节点的数量。还可根据经验和/或实验确定起始参数。
在框850处,根据训练数据的语音特征和起始参数来训练网络模型的参数。然后,基于根据训练算法在监督下调节的参数来训练网络模型。可迭代地执行训练,直到输出误差(定义为期望输出与实际输出之间的差)低于预定阈值为止。
可在将系统装载和/或安装在车辆中之前或之后训练网络模型。例如,可通过根据从在线服务器发送的指令使用存储在在线数据库中的样本来训练和修改网络模型,并且可通过使用从车辆的用户收集的语音样本来训练和修改网络模型。
在上述训练之后,可获得受过良好的网络模型以用于降噪,并且神经网络将具有对非预期的环境(诸如非预期的噪声、非预期的讲话者)的泛化能力。
将在下文中参考如图7所示的降噪单元来描述用于降噪的过程。如图7所示,将分离出的含噪声的语音信号输入到降噪单元中以用于特征提取。特征提取模块710从分离出的含噪声的语音信号提取声学特征,并将噪声语音特征发送到神经网络720以用于降噪,然后所述神经网络利用受过良好训练的网络模型产生清晰的语音特征并将清晰的语音特征输出到特征反向模块730。然后由特征反向模块730输出清晰的语音以进行进一步处理,诸如语音识别。
在本公开的上述实施方案中的系统可通过仅两个麦克风实现语音分离和降噪并提供期望的清晰的语音以用于多通道语音识别,从而改善语音识别的准确度和效率。可以低成本和相对低的复杂性实施该系统。另外,该系统可在必要时结合便携式装置上的麦克风,以便适应各种情形,诸如大多数现有车辆。
本领域技术人员将理解,结合图1至图8描述的一个或多个单元、过程或子过程可由硬件和/或软件执行。如果过程由软件执行或单元由软件实施,则该软件可驻留在合适的电子处理部件或系统中的软件存储器(未示出)中,并且可由处理器执行。存储器中的软件可包括用于实施逻辑功能(即,可以数字形式实施的“逻辑”诸如数字电路或源代码,或以模拟形式实施的“逻辑”诸如模拟电路或模拟源,诸如模拟电信号)的可执行指令,并且可选择性地在任何计算机可读介质中体现以由或结合指令执行系统、设备或装置使用。计算机可读介质可选择性地是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置,诸如RAM、ROM、EPROM等。
关于本文中描述的过程、系统、方法、启发法等,应当理解,虽然这类过程的步骤等已被描述为根据特定有序顺序发生,但是可在所描述的步骤以除本文中所描述的顺序之外的顺序执行的情况下实践这类过程。应进一步理解,可同时执行某些步骤,可添加其他步骤,或者可省略本文中描述的某些步骤。换句话说,本文对过程的描述是出于说明某些实施方案的目的而提供的,并且绝不应当被解释来限制权利要求。
为了阐明在未决权利要求中的使用并在此向公众提供通知,除非由申请人作出相反的明确声明,否则代替此前或此后的任何其它隐含定义,短语“<A>、<B>……和<N>中的至少一个”或“<A>、<B>……<N>中的至少一个或它们的组合”被本申请人最广义地定义为意指选自包括A、B……和N的组的一个或多个元素,也就是说,包括任何一个元素单独或与其他元素(其还可包括未列出的额外元素的组合)中的一者或多者的组合的元素A、B……或N中的一者或多者的任何组合。
虽然已经描述了本公开的各种实施方案,但是对于本领域技术人员来说将显而易见的是,在本公开的范围内的更过实施方案和实现方式是可能的。因此,除根据随附权利要求及其等同物之外,本公开不受限制。
Claims (20)
1.一种用于语音增强的系统,包括:
时间同步单元,所述时间同步单元被配置为对从至少两个麦克风发送的麦克风信号进行同步;
源分离单元,所述源分离单元被配置为分离同步的麦克风信号并输出分离出的语音信号,所述分离出的语音信号对应于语音源;以及
降噪单元,所述降噪单元包括:被配置为提取所述分离出的语音信号的语音特征的特征提取单元,和被配置为接收所述语音特征并输出清晰的语音特征的神经网络。
2.如权利要求1所述的系统,其中所述时间同步单元、所述源分离单元和所述降噪单元被包括在车辆的音响主机中。
3.如权利要求1或2所述的系统,其中所述至少两个麦克风中的一个被提供在便携式装置中。
4.如权利要求1至3中任一项所述的系统,其中所述时间同步单元被配置为通过检测所述麦克风信号的能量来使所述麦克风信号同步。
5.如权利要求1至4中任一项所述的系统,其中所述源分离单元被配置为多次执行聚类算法以获得多个聚类结果,并从所述多个聚类结果中选择最佳结果。
6.如权利要求1至5中任一项所述的系统,其中所述系统还包括再取样模块,所述再取样模块用于在所述麦克风信号的同步之前或之后对所述麦克风信号中的至少一个再取样。
7.如权利要求1至6中任一项所述的系统,其中所述神经网络中的模型是通过以下操作事先确定:
获取训练数据的集合;
提取所述训练数据的语音特征;
为所述神经网络确定起始参数的集合;以及
根据训练数据的所述语音特征和所述起始参数来迭代地训练所述神经网络的参数。
8.如权利要求1至7中任一项所述的系统,其中所述神经网络是受监督的深度神经网络。
9.如权利要求3至8中任一项所述的系统,其中所述便携式装置与所述音响主机是同步的。
10.一种语音增强方法,所述语音增强方法包括:
对从至少两个麦克风发送的麦克风信号进行同步;
分离同步的麦克风信号并输出分离出的语音信号,所述分离出的语音信号对应于语音源;
提取所述分离出的语音信号的语音特征;以及
通过神经网络将所述语音特征映射到清晰的语音特征。
11.如权利要求10所述的方法,其中在车辆的音响主机中执行所述同步、分离、提取和映射。
12.如权利要求10或11所述的方法,其中所述至少两个麦克风中的一个被提供在便携式装置中。
13.如权利要求10至12中任一项所述的方法,其中时间同步单元被配置为通过检测所述麦克风信号的能量来使所述麦克风信号同步。
14.如权利要求10至13中任一项所述的方法,其中源分离单元被配置为多次执行聚类算法以获得多个聚类结果,并从所述多个聚类结果中选择最佳结果。
15.如权利要求10至14中任一项所述的方法,所述方法还包括在所述麦克风信号的同步之前或之后对所述麦克风信号中的至少一个再取样。
16.如权利要求10至15中任一项所述的方法,其中通过以下操作来事先确定所述神经网络中的模型:
获取训练数据的集合;
提取所述训练数据的语音特征;
为所述神经网络确定起始参数的集合;以及
根据训练数据的所述语音特征和所述起始参数来迭代地训练所述神经网络的参数。
17.如权利要求10至16中任一项所述的方法,其中所述神经网络是受监督的深度神经网络。
18.如权利要求12至17中任一项所述的方法,所述方法还包括在所述便携式装置与所述音响主机之间执行时钟同步。
19.一种计算机可读存储介质,所述计算机可读存储介质包括可由处理器执行的计算机可执行指令,所述计算机可执行指令包括用于进行以下操作的指令:
获取训练数据的集合;
提取所述训练数据的语音特征;
为神经网络确定起始参数的集合;以及
根据训练数据的所述语音特征和所述起始参数来迭代地训练所述神经网络的参数。
20.如权利要求19所述的计算机可读存储介质,所述计算机可读存储介质还包括用于进行以下操作的指令:
通过检测麦克风信号的能量来使所述麦克风信号同步;以及
多次执行聚类算法以获得多个聚类结果,并从所述多个聚类结果中选择最佳结果。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/112644 WO2019100289A1 (en) | 2017-11-23 | 2017-11-23 | Method and system for speech enhancement |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111344778A true CN111344778A (zh) | 2020-06-26 |
CN111344778B CN111344778B (zh) | 2024-05-28 |
Family
ID=66631280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780096792.9A Active CN111344778B (zh) | 2017-11-23 | 2017-11-23 | 用于语音增强的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11557306B2 (zh) |
EP (1) | EP3714452B1 (zh) |
CN (1) | CN111344778B (zh) |
WO (1) | WO2019100289A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151036A (zh) * | 2020-09-16 | 2020-12-29 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11621015B2 (en) * | 2018-03-12 | 2023-04-04 | Nippon Telegraph And Telephone Corporation | Learning speech data generating apparatus, learning speech data generating method, and program |
WO2020213116A1 (ja) * | 2019-04-18 | 2020-10-22 | マクセル株式会社 | 情報処理装置およびデジタルアシスタントシステム |
WO2021164001A1 (en) * | 2020-02-21 | 2021-08-26 | Harman International Industries, Incorporated | Method and system to improve voice separation by eliminating overlap |
CN112749753B (zh) * | 2021-01-18 | 2024-04-26 | 珠海格力电器股份有限公司 | 电器设备控制方法、装置、电器设备和存储介质 |
CN113345463B (zh) * | 2021-05-31 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
CN117238312B (zh) * | 2023-08-28 | 2024-05-03 | 深蓝感知(杭州)物联科技有限公司 | 一种执法记录仪背景声音放大方法与系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
CN1622200A (zh) * | 2003-11-26 | 2005-06-01 | 微软公司 | 多传感语音增强方法和装置 |
CN1643571A (zh) * | 2002-03-27 | 2005-07-20 | 艾黎弗公司 | 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置 |
CN101031956A (zh) * | 2004-07-22 | 2007-09-05 | 索福特迈克斯有限公司 | 用于嘈杂环境中语音信号分离的头戴式耳机 |
JP2008020872A (ja) * | 2006-06-14 | 2008-01-31 | Denso Corp | 車両用音声認識装置及び車両用ナビゲーション装置 |
US20090141908A1 (en) * | 2007-12-03 | 2009-06-04 | Samsung Electronics Co., Ltd. | Distance based sound source signal filtering method and apparatus |
US20090214052A1 (en) * | 2008-02-22 | 2009-08-27 | Microsoft Corporation | Speech separation with microphone arrays |
CN101790752A (zh) * | 2007-09-28 | 2010-07-28 | 高通股份有限公司 | 多麦克风声音活动检测器 |
CN101911724A (zh) * | 2008-03-18 | 2010-12-08 | 高通股份有限公司 | 使用多个装置上的多个麦克风进行语音增强 |
CN103854660A (zh) * | 2014-02-24 | 2014-06-11 | 中国电子科技集团公司第二十八研究所 | 一种基于独立成分分析的四麦克语音增强方法 |
CN104123948A (zh) * | 2013-04-25 | 2014-10-29 | 索尼公司 | 声音处理设备、方法以及程序 |
CN105469785A (zh) * | 2015-11-25 | 2016-04-06 | 南京师范大学 | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US20170323653A1 (en) * | 2016-05-06 | 2017-11-09 | Robert Bosch Gmbh | Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080020872A1 (en) * | 2006-07-24 | 2008-01-24 | Johnson Benjamin J | Hockey stick |
KR101479624B1 (ko) * | 2013-11-15 | 2015-01-06 | 현대모비스 주식회사 | 차량용 헤드 유닛 및 상기 차량용 헤드 유닛에서의 화면 설정 방법 |
US20160050694A1 (en) * | 2014-08-15 | 2016-02-18 | Harman Becker Automotive Systems Gmbh | Wlan adapter for vehicle head units |
GB201509483D0 (en) | 2014-12-23 | 2015-07-15 | Cirrus Logic Internat Uk Ltd | Feature extraction |
CN107068162B (zh) * | 2017-05-25 | 2021-03-05 | 北京小鱼在家科技有限公司 | 一种语音增强方法、装置及终端设备 |
-
2017
- 2017-11-23 CN CN201780096792.9A patent/CN111344778B/zh active Active
- 2017-11-23 EP EP17932758.0A patent/EP3714452B1/en active Active
- 2017-11-23 US US16/651,799 patent/US11557306B2/en active Active
- 2017-11-23 WO PCT/CN2017/112644 patent/WO2019100289A1/en unknown
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
CN1643571A (zh) * | 2002-03-27 | 2005-07-20 | 艾黎弗公司 | 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置 |
CN1622200A (zh) * | 2003-11-26 | 2005-06-01 | 微软公司 | 多传感语音增强方法和装置 |
CN101031956A (zh) * | 2004-07-22 | 2007-09-05 | 索福特迈克斯有限公司 | 用于嘈杂环境中语音信号分离的头戴式耳机 |
JP2008020872A (ja) * | 2006-06-14 | 2008-01-31 | Denso Corp | 車両用音声認識装置及び車両用ナビゲーション装置 |
CN101790752A (zh) * | 2007-09-28 | 2010-07-28 | 高通股份有限公司 | 多麦克风声音活动检测器 |
US20090141908A1 (en) * | 2007-12-03 | 2009-06-04 | Samsung Electronics Co., Ltd. | Distance based sound source signal filtering method and apparatus |
US20090214052A1 (en) * | 2008-02-22 | 2009-08-27 | Microsoft Corporation | Speech separation with microphone arrays |
CN101911724A (zh) * | 2008-03-18 | 2010-12-08 | 高通股份有限公司 | 使用多个装置上的多个麦克风进行语音增强 |
CN104123948A (zh) * | 2013-04-25 | 2014-10-29 | 索尼公司 | 声音处理设备、方法以及程序 |
CN103854660A (zh) * | 2014-02-24 | 2014-06-11 | 中国电子科技集团公司第二十八研究所 | 一种基于独立成分分析的四麦克语音增强方法 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN105469785A (zh) * | 2015-11-25 | 2016-04-06 | 南京师范大学 | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 |
US20170323653A1 (en) * | 2016-05-06 | 2017-11-09 | Robert Bosch Gmbh | Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151036A (zh) * | 2020-09-16 | 2020-12-29 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112530453A (zh) * | 2020-11-27 | 2021-03-19 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
CN112530453B (zh) * | 2020-11-27 | 2022-04-05 | 五邑大学 | 一种适用于噪声环境下的语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3714452A4 (en) | 2021-06-23 |
WO2019100289A1 (en) | 2019-05-31 |
EP3714452A1 (en) | 2020-09-30 |
CN111344778B (zh) | 2024-05-28 |
US20200294522A1 (en) | 2020-09-17 |
US11557306B2 (en) | 2023-01-17 |
EP3714452B1 (en) | 2023-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111344778B (zh) | 用于语音增强的方法和系统 | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
JP7407580B2 (ja) | システム、及び、方法 | |
US9008329B1 (en) | Noise reduction using multi-feature cluster tracker | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN109509465B (zh) | 语音信号的处理方法、组件、设备及介质 | |
WO2019089486A1 (en) | Multi-channel speech separation | |
KR20100065811A (ko) | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
Wang et al. | Mask weighted STFT ratios for relative transfer function estimation and its application to robust ASR | |
KR20210137146A (ko) | 큐의 클러스터링을 사용한 음성 증강 | |
CN110169082B (zh) | 用于组合音频信号输出的方法和装置、及计算机可读介质 | |
Matsui et al. | Online integration of DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming | |
Kindt et al. | 2d acoustic source localisation using decentralised deep neural networks on distributed microphone arrays | |
Girin et al. | Audio source separation into the wild | |
Gburrek et al. | A meeting transcription system for an ad-hoc acoustic sensor network | |
Feng et al. | Soft label coding for end-to-end sound source localization with ad-hoc microphone arrays | |
US11783809B2 (en) | User voice activity detection using dynamic classifier | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
Keronen et al. | Gaussian-Bernoulli restricted Boltzmann machines and automatic feature extraction for noise robust missing data mask estimation | |
Ng et al. | Small footprint multi-channel convmixer for keyword spotting with centroid based awareness | |
Ihara et al. | Multichannel speech separation and localization by frequency assignment | |
KR101863098B1 (ko) | 음성 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |