CN115424628B - 一种语音处理方法及电子设备 - Google Patents

一种语音处理方法及电子设备 Download PDF

Info

Publication number
CN115424628B
CN115424628B CN202210857469.1A CN202210857469A CN115424628B CN 115424628 B CN115424628 B CN 115424628B CN 202210857469 A CN202210857469 A CN 202210857469A CN 115424628 B CN115424628 B CN 115424628B
Authority
CN
China
Prior art keywords
network
voice
feature
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210857469.1A
Other languages
English (en)
Other versions
CN115424628A (zh
Inventor
吴彪
高飞
夏日升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202210857469.1A priority Critical patent/CN115424628B/zh
Publication of CN115424628A publication Critical patent/CN115424628A/zh
Application granted granted Critical
Publication of CN115424628B publication Critical patent/CN115424628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例提供一种语音处理方法及电子设备,涉及终端技术领域,可以根据电子设备所处环境的不同,采用相应的方式来完成语音增强处理,提高语音增强的效果。其中,在电子设备处于室内环境的情况下,电子设备响应于接收到第一语音,从第一语音中提取第一特征。电子设备采用第一人工智能AI模型过滤第一特征中噪声的特征,得到第二特征,电子设备采用第二AI模型过滤第二特征中混响的特征,得到第三特征,第三特征用于第一语音的识别。在电子设备处于室外环境的情况下,电子设备响应于接收到第二语音,从第二语音中提取第四特征。电子设备采用第三AI模型过滤第四特征中噪声的特征,得到第五特征,第五特征用于第二语音的识别。

Description

一种语音处理方法及电子设备
技术领域
本申请涉及终端技术领域,尤其涉及一种语音处理方法及电子设备。
背景技术
在语音识别、语音唤醒等场景中,通常需要对语音做一些增强处理,如去除噪声、混响等处理。从而可以使得处理后的语音更纯净,有利于后续更准确的实现语音识别、语音唤醒。
现有的语音增强方案,都是同时去除噪声和混响的。例如,将语音输入基于神经网络(neural network,NN)的增强算法模型中,然后模型则可以输出去掉噪声和混响后的结果。但是,由于噪声属于加性干扰,混响属于乘性干扰,同时去除会存在耦合问题,影响语音增强的效果。并且,在一些不存在混响的环境中,现有的语音增强方案的适用性不高。
发明内容
有鉴于此,本申请提供了一种语音处理方法及电子设备,可以提升语音增强处理的效果。
第一方面,本申请实施例提供一种语音处理方法,可用于支持语音采集以及语音处理的电子设备。在电子设备处于室内环境的情况下,由于墙壁、地面等障碍物的存在,电子设备采集到的语音极有可能同时包括噪声和混响,基于此,电子设备响应于接收到第一语音,可以从第一语音中提取第一特征,第一特征包括MFCC、STFT或者Fbank。电子设备采用第一人工智能AI模型过滤第一特征中噪声的特征,得到第二特征,电子设备采用第二AI模型过滤第二特征中混响的特征,得到第三特征,第三特征用于第一语音的识别。也就是说,当在室内环境下采集到第一语音(通常包括人声、噪声和混响)后,可以先后依次过滤掉噪声和混响,完成语音增强处理。在电子设备处于室外环境的情况下,由于室外环境通常比较空旷,电子设备采集的语音中可能包括噪声,但通常不会存在或者仅存在少量的混响,基于此,电子设备响应于接收到第二语音,从第二语音中提取第四特征,第四特征包括MFCC、STFT或者Fbank。电子设备采用第三AI模型过滤第四特征中噪声的特征,得到第五特征,第五特征用于第二语音的识别。也就是说,当在室外环境下采集到第二语音(通常包括人声和噪声)后,可以仅过滤掉噪声,完成语音增强处理。
综上所述,采用本申请实施例的方法,电子设备可以在处于不同的环境中,采用对应的措施来实现语音增强处理。从而可以针对室内环境采集的语音,过滤掉噪声和混响,针对室外环境采集的语音,过滤掉噪声,针对性更强。而且,针对室内环境采集的语音,先后依次过滤掉噪声和混响,而不是同时过滤噪声和混响,可以避免因噪声和混响的耦合而影响语音增强的效果。在过滤噪声后再过滤混响,可以避免噪声干扰过大,影响混响的过滤效果。从而可以提升语音增强处理的效果。
在得到增强后的语音特征,如第三特征或者第五特征,可以利用第四AI模型来识别出语音中包括的文本。下面以第三特征为例来说明:
在一种可能的设计方式中,在得到第三特征之后,电子设备可以将第三特征作为输入,运行第四AI模型,得到识别结果,识别结果指示第一语音中包括的文本。
在一种可能的设计方式中,在得到第三特征之后,电子设备可以将第三特征和第一特征作为输入,运行第四AI模型,得到识别结果,识别结果指示第一语音中包括的文本。在一些场景(可记为场景1)中,语音增强处理的过程中,也可能过滤掉语音中的关键信息。例如,第一语音中包括文本“你好YOYO”,在语音增强处理的过程中,将“你”对应的信息过滤掉。那么,后续仅用增强后的语音特征识别语音中包括的文本,可能导致识别结果不准确。通过将第三特征和第一特征融合输入第四AI模型,第一特征是未经处理过的特征,其包括第一语音中原始文本的特征,如此可以提高识别结果的准确性。
在一种可能的设计方式中,在得到第三特征之后,电子设备可以根据第三特征构建时域语音波形,从时域语音波形中提取第六特征,第六特征包括MFCC、STFT或者Fbank,第六特征与第一特征为不同类型的特征,例如,第六特征是MFCC,第一特征是STFT。电子设备将第六特征作为输入,运行第四AI模型,得到识别结果,识别结果指示第一语音中包括的文本。在一些场景(可记为场景2)中,语音增强处理的过程和使用第四AI模型识别语音中包括的文本的过程中分别使用不同的语音特征,例如前者使用STFT,后者使用MFCC,那么,增强后的语音特征并无法直接供第四AI模型使用。通过波形重构并提取相应的特征,则可以得到适用于第四AI模型的特征。
在一种可能的设计方式中,考虑到上述场景1和场景2可能同时存在,电子设备可以从第一语音中提取第七特征,第七特征包括MFCC、STFT或者Fbank,第七特征和第一特征为不同类型的特征,例如,第七特征和第六特征都是MFCC。并且,在得到第三特征之后,电子设备可以根据第三特征构建时域语音波形,从时域语音波形中提取第六特征,第六特征包括MFCC、STFT或者Fbank,第六特征与第一特征为不同类型的特征,第六特征和第七特征为相同类型的特征。电子设备将第六特征和第七特征作为输入,运行第四AI模型,得到识别结果,识别结果指示第一语音中包括的文本。从而既可以满足第四AI模型对输入的特征的要求,又可以弥补增强的语音特征中遗漏关键信息的不足,提升识别文本的效果。
在一种可能的设计方式中,在识别出语音中包括的文本之后,可以根据识别结果来唤醒语音助手,或者显示(或播报)对应的响应内容,如播报天气。以唤醒语音助手为例,在识别出第一语音中的文本之后,电子设备可以判断第一语音中是否包括预设文本(如“你好YOYO”)。若是,电子设备则可以唤醒电子设备的语音助手。若否,电子设备则不会唤醒语音助手。应理解,在唤醒语音助手之后,则可以使用语音助手来根据用户输入的语音显示(或播报)对应的响应内容。
在一种可能的设计方式中,第一AI模型和第二AI模型通过如下步骤训练得到:将第一特征样本作为第一网络的输入样本,将第一标准输出作为第一网络的输出样本,将第一网络的实际输出作为第二网络的输入样本,将第二标准输出作为第二网络的输出样本,训练第一网络得到第一AI模型,训练第二网络得到第二AI模型。其中,第一特征样本从第一语音样本中提取得到,第一特征样本可以是MFCC、STFT或者Fbank,且第一特征样本与第一特征的类型相同,例如,都是MFCC。第一语音样本是室内环境下采集到的无噪声和混响的语音样本(也可以称为干净语音样本),与模拟的噪声和混响合成后得到的。与第一特征样本相比:第一标准输出不包括噪声的特征,第二标准输出不包括噪声的特征和混响的特征。
在该设计方式中,将第一网络的实际输出作为第二网络的输入样本,则在训练过程中就可以使第二网络学习对第一网络输出的特征的去混响处理,最终训练得到的第二AI模型则可以更好的用于对第一网络输出的特征进行去混响处理,提升语音增强处理的效果。
在一种可能的设计方式中,第三AI模型通过如下步骤训练得到:将第二特征样本作为第三网络的输入样本,将第三标准输出作为第三网络的输出样本,训练第三网络得到第三AI模型。其中,第二特征样本从第二语音样本中提取得到,第二特征样本可以是MFCC、STFT或者Fbank,且第二特征样本与第四特征的类型相同,例如,都是MFCC。并且,通常情况下,室内环境和室外环境下的语音增强处理,使用的都是同类型的语音特征,那么,用于训练的特征样本也应该是同类型的语音特征,例如,第一特征样本和第二特征样本都是MFCC。第二语音样本是室外环境下采集到的无噪声且无混响的语音样本,与模拟的噪声合成后得到的。与第二特征相比:第三标准输出不包括噪声的特征。
在一种可能的设计方式中,第四AI模型通过如下步骤训练得到:将第二网络的实际输出和第三网络的实际输出作为第四网络的输入样本,将第四标准输出和第五标准输出作为第四网络的输出样本,训练第四网络得到第四AI模型。其中,第四标准输出作为对应第二网络的实际输出的输出样本,第四标准输出用于从室内环境下采集到的无噪声且无混响的语音样本中包括的文本,第五标准输出作为对应第三网络的实际输出的输出样本,第五标准输出用于指示从室外环境下采集到的无噪声且无混响的语音样本中包括的文本。
在该设计方式中,将第二网络的实际输出和第三网络的实际输出作为第四网络的输入样本,则在训练过程中就可以使第四网络学习对第二网络输出的特征和第三网络输出的特征识别文本,最终训练得到的第四AI模型则可以更好的用于对第二网络和第三网络输出的特征识别文本,提升文本识别的准确度。
在一种可能的设计方式中,在训练第四网络之后,计算第四网络的实际输出与第四网络的输出样本之间的第一误差。根据第一误差确定第一权重和第二权重,第一权重随第一误差的减小而增大,第二权重随第一误差的减小而减小。前述训练第一网络,包括:根据第一网络的实际输出与第一网络的输出样本之间的第二误差和第一权重的加权值调整第一网络的网络参数。前述训练第二网络,包括:根据第二网络的实际输出与第二网络的输出样本之间的第三误差和第一权重的加权值调整第二网络的网络参数。前述训练第三网络,包括:根据第三网络的实际输出与第三网络的输出样本之间的第四误差和第一权重的加权值调整第三网络的网络参数。前述训练第四网络,包括:根据第一误差第二权重的加权值调整第四网络的网络参数。从而可以在第四网络的准确度较高时,弱化调节第四网络的网络参数,而重点调节第一网络、第二网络和第三网络的网络参数,以使所有网络的训练误差整体可以更快的满足误差条件。
在一种可能的设计方式中,训练第一网络得到第一AI模型,训练第二网络得到第二AI模型,训练第三网络得到第三AI模型,训练第四网络得到第四AI模型,包括:当第一误差、第二误差、第三误差和第四误差的加权和小于预设值则停止训练并得到第一AI模型、第二AI模型、第三AI模型和第四AI模型。其中,第一误差的加权权重为第二权重,第二误差、第三误差和第四误差的加权权重为第一权重。
第二方面,本申请实施例还提供一种电子设备,所述电子设备包括:麦克风、存储器和一个或多个处理器,所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如第一方面及其任一种可能的设计方式所述的方法。
第三方面,本申请实施例提供一种芯片系统,该芯片系统应用于包括显示屏和存储器的电子设备;所述芯片系统包括一个或多个接口电路和一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如第一方面及其任一种可能的设计方式所述的方法。
第四方面,本申请提供一种计算机存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的设计方式所述的方法。
第五方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。
可以理解地,上述提供的第二方面所述的电子设备,第三方面所述的芯片系统,第四方面所述的计算机存储介质,第五方面所述的计算机程序产品所能达到的有益效果,可参考第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1A为本申请实施例适用的场景示意图之一;
图1B为本申请实施例适用的场景示意图之二;
图2为一种混响幅值的变化示意图;
图3A为本申请实施例提供的语音处理方法的流程框图之一;
图3B为本申请实施例提供的语音处理方法的流程框图之二;
图4为本申请实施例提供的一种手机的硬件结构图;
图5A为本申请实施例提供的语音处理方法的流程框图之三;
图5B为本申请实施例的模型训练的流程框图之一;
图5C为本申请实施例的模型训练的流程框图之二;
图6A为本申请实施例提供的一种环境检测的原理示意图;
图6B为本申请实施例提供的语音处理方法的流程框图之四;
图6C为本申请实施例的模型训练的流程框图之三;
图7A为本申请实施例提供的语音处理方法的流程框图之五;
图7B为本申请实施例提供的语音处理方法的流程框图之六;
图7C为本申请实施例提供的语音处理方法的流程框图之七;
图7D为本申请实施例提供的语音处理方法的流程框图之八;
图7E为本申请实施例的模型训练的流程框图之四;
图8A为本申请实施例提供的语音处理方法的流程框图之九;
图8B为本申请实施例提供的一种手机界面的示意图;
图9为本申请实施例的模型训练的流程框图之五;
图10为本申请实施例提供的一种芯片系统的构成示意图。
具体实施方式
本申请实施例提供一种语音处理方法,该方法可以应用于电子设备的语音识别、语音唤醒等场景中。示例性的,本申请实施例提供的电子设备可以为手机、平板电脑、个人计算机(personal computer,PC)、个人数字助理(personal digital assistant,PDA)、上网本、可穿戴电子设备(例如智能手表、智能手环等)、增强现实技术(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、车载设备、智慧屏、智能汽车、智能音响、机器人等,本申请对该电子设备的具体形式不做特殊限制。下文中,将主要以电子设备是手机为例来说明本申请方案。
示例性的,一种语音唤醒场景如图1A所示,用户对着手机说出唤醒词,手机可接收到唤醒词,响应于接收到唤醒词,手机可以唤醒手机的语音助手。例如,唤醒词是图1A所示的“你好YOYO”,用户对着手机说“你好,YOYO”,可以唤醒语音助手YOYO,并且YOYO会回答“诶,我在”。应理解,语音助手是一款应用程序,其可以通过智能对话与即时问答的智能交互,帮助用户解决问题。
示例性的,一种语音识别场景如图1B所示,在唤醒语音助手后,用户对着手机说出反映用户需求的语音,手机可接收到该语音,响应于该语音,手机可以识别用户的需求,然后执行相应的操作,如播报相应的语音内容,或者显示相应的界面,从而满足用户的需求。例如,在唤醒语音助手后,用户对着手机说出图1B所示的“成都明天天气如何”,手机在接收到该语音后,可以播报和/或显示“成都明天天气晴,温度15-25℃”。
在说明本申请实施例的语音处理方法之前,先对本申请中涉及的若干技术术语介绍如下:
1、噪声。
噪声是指在声源发声的过程中,声源所处的环境中、非声源发出的声音,如车辆的鸣笛声、闹钟声、狗叫声等。若手机接收到的语音中包括这些噪声,则后续在用于语音唤醒或者语音识别时,将会受到这些噪声的干扰,从而影响语音唤醒或者语音识别的准确性。
2、混响。
声波在传播过程中,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些。当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失。那么,声源停止发声后还有若干个声波混合持续一段时间。混响则是指声源停止发声后的声音延续现象。示例性的,参见图2,在声源停止发声后,延迟一定时间后会有混响,并且随着时间的推移,混响的幅值会逐渐减小,最终会消失。应理解,声源在持续发声的过程中,每个时刻都会发出新的声音,相应的,上述声源停止发声也是一个持续性的动作,随着新一时刻的到来,历史时刻发出的声音自然就结束了。也就是说,随着声源持续发声,则会不断有混响产生。
2.1、早期混响。
早期混响是指声源停止发声后,较短的一段时间内,如50ms内的混响。而经验给出的教导是:早期混响对于用户的听觉是有益的,便于更清晰的听到声源发声的内容。所以可以将早期混响用于语音唤醒、语音识别。
2.2、晚期混响。
晚期混响是相较于早期混响而言的。例如,早期混响是声源停止发生后、50ms以内的混响,则晚期混响是声源停止发生后、50ms以外的混响。与早期混响不同的是,晚期混响会对语音唤醒、语音识别等造成干扰。所以在语音唤醒、语音识别等场景中,需要去掉晚期混响。下文中,将主要以去混响处理是去晚期混响为例来说明。
在一些实施例中,参见图3A,手机在接收到语音(如图3A中的输入语音)后,可以同时执行降噪处理和去混响处理,例如,采用基于NN的增强算法模型同时完成降噪处理和去混响处理,得到不包括噪声和混响的语音(如图3A中的输出语音)。从而可以实现对接收到的语音的降噪处理和去混响处理。然而,噪声属于加性干扰,混响属于乘性干扰,同时去除噪声和混响会存在耦合问题,影响增强效果。然后,手机根据输出语音可以识别用户的需求并响应,如唤醒语音助手、查询天气等。应理解,增强效果不好,也会导致识别用户的需求不准确,从而无法准确响应用户需求。
并且,当有噪声存在时,通常会因噪声的干扰而影响去混响的效果。
基于此,本申请实施例提供了另一种语音处理方法,如图3B所示,手机在接收到语音(如图3B中的第一语音)后,可以先对第一语音执行降噪处理,得到降噪后的语音,然后对降噪后的语音执行去混响处理,得到降噪且去混响后的语音。从而先后依次完成了对语音的降噪和去混响处理,而不是同时执行降噪处理和去混响处理,从而可以提升语音增强的效果。后续,手机根据降噪和去混响后语音可以识别用户的需求并相应。应理解,增强效果越好,则后续用于识别用户需求的语音越准确,从而可以更准确的响应用户的需求。
参见图4,为本申请实施例提供的一种电子设备的硬件结构的示意图。如图4所示,以电子设备是手机400为例,电子设备可以包括:请参见图4,为本申请实施例提供的一种手机400的硬件结构图。如图4所示,手机400可以包括处理器410,外部存储器接口420,内部存储器421,通用串行总线(universal serial bus,USB)接口430,充电管理模块440,电源管理模块441,电池442,天线1,天线2,移动通信模块450,无线通信模块460,音频模块470,扬声器470A,受话器470B,麦克风470C,耳机接口470D,传感器模块480,按键490,马达491,指示器492,摄像头493,显示屏494,以及用户标识模块(subscriber identificationmodule,SIM)卡接口495等。
可以理解的是,本实施例示意的结构并不构成对手机400的具体限定。在另一些实施例中,手机400可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器410可以包括一个或多个处理单元,例如:处理器410可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机400的结构限定。在另一些实施例中,手机400也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块440用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块440可以通过USB接口430接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块440可以通过手机400的无线充电线圈接收无线充电输入。充电管理模块440为电池442充电的同时,还可以通过电源管理模块441为手机400供电。
电源管理模块441用于连接电池442,充电管理模块440与处理器410。电源管理模块441接收电池442和/或充电管理模块440的输入,为处理器410,内部存储器421,外部存储器,显示屏494,摄像头493,和无线通信模块460等供电。电源管理模块441还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块441也可以设置于处理器410中。在另一些实施例中,电源管理模块441和充电管理模块440也可以设置于同一个器件中。
手机400的无线通信功能可以通过天线1,天线2,移动通信模块450,无线通信模块460,调制解调处理器以及基带处理器等实现。
无线通信模块460可以提供应用在手机400上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块460可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块460经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器410。无线通信模块460还可以从处理器410接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
手机400通过GPU,显示屏494,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏494和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器410可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
手机400可以通过ISP,摄像头493,视频编解码器,GPU,显示屏494以及应用处理器等实现拍摄功能。ISP用于处理摄像头493反馈的数据。摄像头493用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。在一些实施例中,手机400可以包括1个或N个摄像头493,N为大于1的正整数。
外部存储器接口420可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机400的存储能力。外部存储卡通过外部存储器接口420与处理器410通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器421可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器410通过运行存储在内部存储器421的指令,从而执行手机400的各种功能应用以及数据处理。例如,处理器410可以通过执行存储在内部存储器421中的指令,响应于用户展开显示屏494的操作,在显示屏494显示不同的内容。内部存储器421可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机400使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器421可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universalflash storage,UFS)等。
手机400可以通过音频模块470,扬声器470A,受话器470B,麦克风470C,耳机接口470D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
按键490包括开机键,音量键等。按键490可以是机械按键。也可以是触摸式按键。手机400可以接收按键输入,产生与手机400的用户设置以及功能控制有关的键信号输入。马达491可以产生振动提示。马达491可以用于来电振动提示,也可以用于触摸振动反馈。指示器492可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口495用于连接SIM卡。SIM卡可以通过插入SIM卡接口495,或从SIM卡接口495拔出,实现和手机400的接触和分离。手机400可以支持1个或N个SIM卡接口,N为大于1的正整数。
本申请实施例提供的语音处理方法,可以在具有上述硬件结构的手机400中执行。
手机中的麦克风可监听环境中的声音,该声音可以是人发出的声音(即语音)、汽车声音、风声、雨声、动物叫声等手机所在环境中的任何声音。示例性的,用户在某时刻对着手机说话,麦克风则可采集到相应的语音。在理想环境下,如无环境噪声、无障碍物的环境下,采集到的语音中才不会包括噪声和障碍物反射的混响。但是,通常情况下,无法达到理想的环境,相应的,采集到的语音中会包括噪声和混响,则需要采用语音增强处理来去除语音中的噪声和混响。
手机在采集到语音(可记为第一语音)后,可以从第一语音中提取出语音特征(可记为第一特征)。该第一特征可以是梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)、短时傅里叶变换(Short Time Fourier Transform,STFT)特征、滤波器组(FilterBank,Fbank)特征等语音特征,本申请实施例对此不作具体限定。下文中,将主要以MFCC和STFT为例来说明。应理解,由于第一语音中包括噪声和混响,相应的,第一特征中可以包括噪声和混响的特征。
示例性的,第一特征可记为y1,y1=s*rir+noise,s为无噪声无混响的特征,rir为房间冲激响应(Room Impulse Response),s*rir是无噪声无混响的特征与房间冲击响应的卷积,用于表示无噪声无混响的特征和混响的特征之和。noise为噪声的特征。也就是说,第一特征等于无噪声无混响的特征和混响的特征之和,再加上噪声的特征。
然后,手机可针对该第一特征来完成语音增强处理,以去除语音中的噪声和混响。
参见图5A,在一些实施例中,手机可以使用第一人工智能(ArtificialIntelligence,AI)模型和第二AI模型来完成语音增强处理。下面将详细说明使用第一AI模型和第二AI模型完成语音增强处理的实现过程:
手机将第一特征作为输入,运行第一AI模型,得到第二特征。若第一特征是MFCC,则第二特征也是MFCC;若第一特征是STFT,则第二特征也是STFT。与第一特征相同的是,第二特征中也包括混响的特征。但是,与第一特征不同的是:第二特征中不包括噪声的特征。示例性的,第一特征y1=s*rir+noise,第二特征则是y1-noise,即s*rir。
其中,第一AI模型具有过滤语音特征中噪声的特征,得到无噪声的语音特征的功能,即降噪功能。上述第一AI模型可以是卷积神经网络(Convolutional Neural Network,CNN),循环神经网络(Recurrent Neural Network,RNN),门循环单元(Gate RecurrentUnit,GRU),长短期记忆网络(Long Short-Term Memory,LSTM)、卷积循环神经网络(Convolution Recurrent Neural Network,CRNN)等神经网络模型。
示例性的,本申请实施例这里将介绍上述第一AI模型的训练过程。
参见图5B,可以收集各种环境下采集到的没有噪声和混响的干净语音样本。其中,环境可以为会议室、演播厅、办公室、学校、马路、商场、地铁、公交以及电梯等手机在使用过程中可能处于的环境。为该干净语音样本添加混响,得到合成后的第三语音样本。为第三语音样本添加噪声,得到合成后的第一语音样本(如图5B中的501)。从第一语音样本中提取语音特征,得到第一特征样本(如图5B中的502),从第三语音样本中提取语音特征,得到第一标准输出(如图5B中的503)。其中,第一特征样本和第一标准输出都可以是MFCC、STFT。与第一语音样本相比,第三语音样本中不包括噪声。相应的,与第一特征样本相比,第一标准输出中不包括噪声的特征。
而后,将第一特征样本作为输入样本,将第一标准输出作为输出样本,训练上述神经网络模型(可记为第一网络,如图5B中的504)。计算第一网络的实际输出(可记为第一实际输出,如图5B中的505)与第一标准输出之间的误差(如图5B中的506),基于该误差来调整第一网络的网络参数,直至误差满足预设条件则结束训练,结束训练时得到的第一网络即为第一AI模型。
继续参见图5A,在得到第二特征后,手机可将第二特征作为输入,运行第二AI模型,得到第三特征。若第二特征是MFCC,则第三特征也是MFCC;若第二特征是STFT,则第三特征也是STFT。与第二特征相同的是,第三特征中也不包括噪声的特征。但是,与第二特征不同的是,第三特征中包括早期混响的特征,但不包括晚期混响的特征。示例性的,第二特征为s*rir,则第三特征可以是s*rirearly,表示无噪声无混响的特征和早期混响的特征之和。
其中,第二AI模型具有去除语音特征中晚期混响的特征,得到无晚期混响的语音特征的功能,即去除混响的功能。应理解,第二AI模型输出的第三特征即为经过语音增强处理后的特征,该特征可用于识别第一语音中包括的文本,然后则可以唤醒语音助手,或者显示(或播报)对应的响应内容,如播报天气。上述第二AI模型同样可以是CNN,RNN,GRU,LSTM,CRNN等神经网络模型。
示例性的,本申请实施例这里将介绍上述第二AI模型的训练过程。
参见图5C,可以从前述训练第一AI模型过程中用到的第三语音样本中提取语音特征,得到第三特征样本(如图5C中的511),以及从前述训练第一AI模型过程中用到的干净语音样本中提取语音特征,得到第二标准输出(如图5C中的512)。其中,第三特征样本和第二标准输出都可以是MFCC、STFT。与第一语音样本相比,干净语音样本中不包括混响。相应的,与第三特征样本相比,第二标准输出中不包括混响的特征。
而后,将第三特征样本作为输入样本,将第二标准输出作为输出样本,训练上述神经网络模型(可记为第二网络,如图5C中的513)。计算第二网络的实际输出(可记为第二实际输出,如图5C中的514)与第二标准输出之间的误差(如图5C中的515),基于该误差来调整第二网络的网络参数,直至误差满足预设条件则结束训练,结束训练时得到的第二网络即为第二AI模型。
经过上述图5A-图5C的实施例,可以先使用第一AI模型去除语音特征中的噪声,再使用第二AI模型去除混响,而不是同时去除噪声和混响。从而可以避免因噪声和混响耦合而影响语音增强处理的效果。
室内环境中的障碍物较多(如墙壁、地板、天花板、桌椅等)、且通常距离声源较近,更容易反射产生混响。与室内环境不同的是:室外环境通常较空旷,障碍物少、且距离声源较远,不容易反射产生混响。也就是说,室内环境的混响较明显,室外环境的混响可以忽略不计。
基于此,在一些实施例中,手机可以定期执行环境检测。通过环境检测,可以对手机当前所处的环境分类。示例性的,参见图6A,手机可以采用基于深度学习的声学场景分类(Acoustic Sence Classifier,ASC)来实现环境检测,识别出手机当前所处的环境为室内环境或者室外环境。ASC通常作为音频处理的前端部分,包括室内场景、户外场景识别,公共场所、办公室场景识别等。
参见图6B,手机在接收到语音(如图6B中的第一语音或者第二语音)后,可以获得最新的环境检测结果。若为室内环境,则可以在从第一语音中提取出语音特征(如前文第一特征),使用前述第一AI模型和第二AI模型来完成语音增强处理,具体实现可参见前文图5A-图5C实施例的说明。唯一不同的是:由于是室内环境,那么在训练第一AI模型时,收集的应该是各种室内环境的干净语音样本,如办公室、会议室、演播厅、电影院等环境中的语音样本。从而可以更适配室内环境采集的语音的增强处理。
继续参见图6B,若为室外环境,则也可以在从第二语音中提取出语音特征(可记为第四特征)后,使用第三AI模型来完成语音增强处理。与室内环境中采集的第一语音不同的是:室外环境中采集到的第二语音通常包括噪声,但不包括混响。相应的,第四特征中包括噪声的特征,但不包括混响的特征。同样的,第四特征也可以是MFCC、STFT或者Fbank。
示例性的,第四特征可记为y2,y2=s+noise,s为无噪声无混响的特征,noise为噪声的特征。也就是说,第四特征等于无噪声无混响的特征,加上噪声的特征。
下面将详细说明室外环境下,语音增强处理的实现过程:
手机将第四特征作为输入,运行第三AI模型,得到第五特征。若第四特征是MFCC,则第五特征也是MFCC;若第四特征是STFT,则第五特征也是STFT。与第四特征相同的是:第五特征中也不包括混响的特征。与第四特征不同的是:第五特征中不包括噪声的特征。
其中,第三AI模型具有过滤语音特征中噪声的特征,得到无噪声的语音特征的功能,即降噪功能。应理解,第三AI模型输出的第五特征即为经过语音增强处理后的特征,该特征可用于识别第二语音中包括的文本,然后则可以唤醒语音助手,或者显示(或播报)对应的响应内容。上述第三AI模型同样可以是CNN,RNN,GRU,LSTM,CRNN等神经网络模型。
示例性的,本申请实施例这里将介绍上述第三AI模型的训练过程。
参见图6C,可以收集各种室外环境下的采集到的没有噪声没有混响的干净语音样本,为该干净语音样本添加噪声,得到第二语音样本(如图6C中的611)。从第二语音样本中提取语音特征,得到第二特征样本(如图6C中的612)。从干净语音样本中提取语音特征,得到第三标准输出(如图6C中的613)。其中,第二特征样本和第三标准输出都可以是MFCC、STFT。与第二语音样本相比,干净语音样本中不包括噪声。相应的,与第二特征样本相比,第三标准输出也不包括噪声的特征。
而后,将第三特征样本作为输入样本,将第三标准输出作为输出样本,训练上述神经网络模型(可记为第三网络,如图6C中的614)。计算第一网络的实际输出(可记为第三实际输出,如图6C中的615)与第三标准输出之间的误差(如图6C中的616),基于该误差来调整第三网络的网络参数,直至误差满足预设条件则结束训练,结束训练时得到的第三网络即为第三AI模型。
采用本实施例的方法,可以针对室内环境中采集的语音和室外环境采集的语音,采用对应的方式来过滤掉噪声和/或混响。从而可以有针对性的实现语音增强处理,提升语音增强处理的效果。
在采用前述实施例得到过滤掉噪声和混响的语音特征(如第三特征、第五特征)后,手机可以根据得到的语音特征进一步实现语音唤醒或者语音识别。语音唤醒又可以称为关键词检测(Key Word Spotting,KWS)。KWS是指设定一个预设关键词(也可以称为唤醒词,预设文本),如YOYO的“你好YOYO”,手机在检测到用户说了关键词后才会触发语音识别功能处于工作状态,否则处于休眠状态。这样做可以降低手机的功耗,增加手机的续航时间。语音识别是指根据语音中的文本显示(或播报)对应的响应内容。也就是说,无论是KWS或者语音势必,都需要识别出语音中的文本。下文中,将主要以KWS为例来说明。
参见图7A,手机可采用KWS系统来实现KWS的功能。手机可以将经过语音增强处理后得到的增强的语音特征(第三特征或者第五特征)输入至图7A所示的KWS系统中,KWS系统可以对输入的特征进行处理与匹配,最终得到唤醒结果,如成功唤醒语音助手或者不会成功唤醒语音助手。
在一种具体的实现方式中,KWS系统对输入的特征的处理包括利用声学模型识别语音中每一帧属于各个音素的概率,然后通过语言模型处理、解码处理则可以将音素转变为文本。最后判断文本是否包括预设关键词,若包括,手机则可以唤醒语音助手,若不包括,手机则无法成功唤醒语音助手。为了方便说明,可以将KWS系统中用于处理语音特征的模块,包括声学模型、语言模型和解码模块,统称为第四AI模型。通常情况下,第四AI模型可以得到语音中包括的文本。在KWS场景中,后续可判断该文本是否包括预设关键词,从而实现KWS。在语音识别场景中,后续则可识别该文本对应的含义并反馈满足该含义的内容。例如,识别到第四AI模型输出的文本指示需要查询成都明天的天气,则可以播报成都明天的天气。但是,声学模型、语言模型和解码模块等处理语义特征的模块中,至关重要的步骤是通过声学模型识别每一帧属于各个音素的概率。基于此,下文中主要以第四AI模型为声学特征模型为例,来说明本申请方案。
在一些场景中,语音增强处理的过程和KWS的过程中,分别使用的是不同的语音特征。例如,第一AI模型、第二AI模型、第三AI模型输入和输出的特征都是MFCC,但是第四AI模型的输入特征是STFT。又例如,第一AI模型、第二AI模型、第三AI模型输入和输出的特征都是STFT,但是第四AI模型的输入特征是MFCC。
针对这种场景,参见图7B,在一些实施例中,手机可以在经过语音增强处理得到增强的语音特征(如第三特征或者第五特征)后,根据增强的语音特征进行波形重构,得到时域语音(如图7B所示的711过程)。其中,关于根据语音特征重构时域语音的具体实现可参见相关现有技术中的说明,此处不多赘述。应理解,由于是根据增强的语音特征重构的波形,则得到的时域语音也是增强的时域语音(如图7B所示的712过程)。也就是说,重构得到的时域语音中也不包括噪声和混响。在得到增强的时域语音后,手机可以从增强的时域语音中提取第六特征。应注意,在本实施例中,第六特征和前述增强的语音特征(如第三特征或者第五特征)不同。然后,手机将第六特征作为输入,运行第四AI模型,得到音素识别结果(如图7B所示的713过程)。
在一些场景中,语音增强处理的过程中,由于模型(如第一AI模型、第二AI模型、第三AI模型)运算的误差,导致不仅会过滤掉噪声和混响,还可能会过滤掉第一语音中的关键信息,如过滤掉预设关键词的相关信息、或者严重影响语义的信息。该场景下,则可能进一步导致后续KWS不准确。示例性的,KWS的预设关键词是“你好YOYO”,第一语音恰好包括“你好YOYO”,而经过语音增强处理后,可能只剩下“好YOYO”。若以“好YOYO”作为第四AI模型的输入,则得到的匹配结果会指示与关键词匹配失败,从而无法成功唤醒语音助手YOYO。
针对这种场景,参见图7C,在另一些实施例中,手机在经过语音增强处理得到增强的语音特征(如第三特征或者第五特征)后,可以将增强的语音特征(如第三特征或者第五特征)和前文中从第一语音中提取的第一特征作为输入,运行第四AI模型,得到音素识别结果(如图7C所示的721过程)。应理解,将增强的语音特征和第一特征融合作为输入,可以弥补增强的语音特征中遗漏关键信息的不足,提升KWS的效果。
在一些实施例,可以将前述图7B和图7C所示的实施例结合使用。参见图7D,手机可以根据增强的语音特征进行波形重构,得到增强的时域语音。然后从时域语音中提取出第六特征。并且,由于语音增强处理的过程和KWS的过程使用的特征不同,手机还需要从第一语音中提取出第七特征,该第七特征和第六特征是同类型的特征,例如,都是MFCC。最后,手机将第六特征和第七特征作为输入,运行第四AI模型,得到音素识别结果。从而既可以满足KWS的过程对输入的特征的要求,又可以弥补增强的语音特征中遗漏关键信息的不足,提升KWS的效果。
上述第四AI模型可以是隐马尔可夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Networks,DNN)、时延神经网络(Time Delay Neural Network,TDNN)等网络模型。
示例性的,本申请实施例这里将介绍上述第四AI模型的训练过程。
参见图7E,可以从训练前述第一AI模型、第二AI模型以及第三AI模型过程中用到的干净语音样本中提取语音特征,得到第四特征样本(如图7E中的731)。标注干净语音样本中每一帧语音属于各个音素的概率,得到第四标准输出(如图7E中的732)。其中,第四特征样本也可以是MFCC、STFT。
而后,将第四特征样本作为输入样本(或者,也可以将第一特征样本和第四特征样本融合作为输入样本),将第四标准输出作为输出样本,训练上述网络模型(可记为第四网络,如图7E中的733)。计算第四网络的实际输出(可记为第四实际输出,如图7E中的734)与第四标准输出之间的误差(如图7E中的735),基于该误差来调整第四网络的网络参数,直至误差满足预设条件则结束训练,结束训练时得到的第四网络即为第四AI模型。
综上所述,参见图8A,手机可以定期通过环境检测确定手机当前所处的环境为室内环境或者室外环境。然后,手机在采集到实时语音后,可以获取最新的环境检测结果,若为室内环境,手机可以使用第一AI模型和第二AI模型依次过滤掉实时语音中的噪声和混响,完成语音增强处理。若为室外环境,手机可以使用第三AI模型过滤掉实时语音中的噪声,完成语音增强处理。然后,手机可以将语音增强处理后的结果(如增强的语音特征)输入至KWS系统(包括第四AI模型)中,若KWS系统识别出语音增强处理后的结果中包括预设关键词,则可以唤醒语音助手;若KWS系统识别出语音增强处理后的结果中不包括预设关键词,则不会唤醒语音助手。
至此,需要说明的是,实际中,手机可以提供第一控件,该第一控件用于触发手机使用本申请实施例提供的语音处理方法(如图3B-图8A所示的实施例)来唤醒手机的语音助手。例如,第一控件是图8B所示界面801中的按钮803。第一控件的状态包括第一状态和第二状态,第一状态指示采用常规的语音处理方法来唤醒手机的语音助手,第二状态指示采用本申请实施例提供的语音处理方法来唤醒语音助手。例如,界面801中的按钮803处于第一状态,此时则可以采用图3A所示的实施例的来唤醒手机的语音助手。手机检测到用户对第一控件的第一操作(如点击、长按等操作)后,可以切换第一控件的状态,后续则采用对应的语音处理方法来唤醒语音助手。例如,图8B所示的界面802中的按钮803处于第二状态,此时则可以采用图3B-图8A所示的实施例来唤醒手机的语音助手。如此,手机可以根据用户的选择灵活采用相应的处理方式实现KWS。
并且,若在训练前述各个AI模型的过程中使用的样本是单通道语音(即单麦克风采集的语音)对应的样本,则训练得到的AI模型可以用于单通道语音(即单麦克风采集的语音)的处理。若在训练前述各个AI模型的过程中使用的样本是多通道语音(即多麦克风采集的语音)对应的样本,则训练得到的AI模型可以用于多通道语音(即多麦克风采集的语音)的处理。本申请实施例对此不作具体限定。
在前述实施例中,分别独立训练得到各个AI模型。但是实际在使用前述各个AI模型时,第一AI模型的输出要作为第二AI模型的输入,第二AI模型的输出要作为第四AI模型的输入。第三AI模型的输出要作为第四AI模型的输入。那么,若在训练的过程中,未考虑到前述输入输出的关联性,则可能导致训练得到的多个AI模型中,相关联的AI模型之间的匹配度不高。示例性的,由于在训练第四AI模型的过程中,并未将第二网络的实际输出和第三网络的实际输出作为第四网络的输入样本,这样就会导致训练得到的第四AI模型无法很好的用于对第二AI模型和第三AI模型输出的特征进行音素识别。最终会影响KWS的效果。
基于此,在一些实施例中,可以联合训练上述语音增强处理过程使用的AI模型(如第一AI模型、第二AI模型、第三AI模型)和KWS过程中使用的第四AI模型。
参见图9,可以确定第一特征样本、第一标准输出(可记为s1)、第二标准输出(可记为s2)和第四标准输出(可记为y),具体可参见前文关于第一AI模型、第二AI模型和第四AI模型的训练过程。第一特征样本作为第一网络的输入样本。后续训练过程中,第一网络的实际输出(如图9中的实际输出1,可记为s1’)作为第二网络的输入样本。以及,第二网络的实际输出(如图9中的实际输出2,可记为s2’)作为第四网络的输入样本。第一标准输出作为第一网络的输出样本,第二标准输出为第二网络的输出样本,第四标准输出为第四网络的输出样本,第四标准输出指示室内环境下采集的干净语音样本中包括的文本。
以及,可以确定第二特征样本、第三标准输出(可记为s)和第五标准输出(也可记为y),具体可参见前文关于第三AI模型和第四AI模型的训练过程。第二特征样本作为第三网络的输入样本。后续训练过程中,第三网络的实际输出(如图9中的实际输出3,可记为s’)可作为第四网络的输入样本。第三标准输出为第三网络的输出样本,第四标准输出为第四网络的输出样本,第五标准输出指示室外环境下采集的干净语音样本中包括的文本。
应注意,实际输出2和实际输出3都可以作为第四网络的输入样本,相应的,第四网络每一轮的输入样本应该是第一网络(或第二网络)的输入样本和第三网络的输入样本的数量之和。对应实际输出2,第四网络的输出样本为第四标准输出,对应实际输出3,第四网络的输出样本为第五标准输出。本实施例中的第四标准输出和第五标准输出可以理解为前文图7E中的第四标准输出。
在一些实施例中,为了弥补增强的语音特征中遗漏关键信息的不足,可以将从语音样本中提取出的特征和语音增强处理得到的语音特征共同作为第四网络的输入样本。示例性的,将第一特征样本和实际输出2共同作为第四网络的输入样本,将第二特征样本和实际输出3共同作为第四网络的输入样本。
在另一些实施例中,若语音增强处理过程中使用的语音特征和KWS过程中使用的语音特征不同,例如,前者使用MFCC,后者使用STFT,则也可以根据语音增强处理得到的语音特征(如实际输出2、实际输出4)进行波形重构,然后从重构的时域语音中提取出相应的特征,将提取出的语音特征作为第四网络的输入样本(图9中并未示出这种实施例)。
在迭代训练的过程中,可以根据多个网络的训练误差,即实际输出和标准输出之间的误差来调节网络参数,最后在满足误差条件时则结束所有网络的训练,得到相应的AI模型。其中,针对任一网络,可以根据该网络的训练误差来调节该网络的网络参数,然后迭代进行下一轮的训练,直至所有网络的训练误差之和小于预设值,则停止所有网络的训练。例如,第一网络的训练误差记为f1(s1’-s1),第二网络的训练误差记为f2(s2’-s2),第三网络的训练误差记为f3(s’-s),第四网络的训练误差记为f4(y’-y),y’为第四网络的实际输出(如图9中的实际输出4)。例如,可以根据f1(s1’-s1)来调整第一网络的网络参数,根据f2(s2’-s2)来调整第二网络的网络参数,根据f3(s’-s)来调整第三网络的网络参数,根据f4(y’-y)来调整第四网络的网络参数,并且,在f1(s1’-s1)+f2(s2’-s2)+f3(s’-s)+f4(y’-y)小于预设值时,停止所有网络的训练,并将此时的第一网络作为第一AI模型,第二网络作为第二AI模型,第三网络作为第三AI模型,第四网络作为第四AI模型。
应理解,上述f1、f2、f3和f4都是表示误差计算函数,四个误差计算函数可以部分或者全部相同,也可以完全不同。误差计算函数可以为平均绝对误差(Mean AbsoluteError,MAE)、均方误差(Mean Square Error,MSE)、交叉熵误差(Cross-entropy Error,CE)等,本申请实施例对此不作具体限定。以f4是CE为例,则f4(y’-y)为CE(y’-y),CE的计算公式如下所示:
Figure BDA0003755919040000141
很显然,第四网络的实际输出y’越接近第四标准输出y,则CE越小,即第四网络的网络参数越准确。
进一步的,在迭代训练的过程中,还可以根据第四网络的训练误差(也可以称为第一误差)动态调节第一网络、第二网络和第三网络的第一权重,以及动态调节第四网络的第二权重。其中,随着第四网络的训练误差的减少,第一权重整体呈增大的趋势变化,第二权重整体呈减小的趋势变化。整体呈增大的变化趋势包括变大和保持不变,但是不会变小;整体呈减小的趋势变化包括变小和保持不变,但是不会变大。然后第一网络、第二网络和第三网络可分别根据各自的训练误差和对应的权重的加权结果来调整各个网络的网络参数。
示例性的,第一网络的训练误差(也可以称为第二误差)记为f1(s1’-s1),第二网络的训练误差(也可以称为第三误差)记为f2(s2’-s2),第三网络的训练误差(也可以称为第四误差)记为f3(s’-s),第四网络的训练误差记为f4(y’-y),y’为第四网络的实际输出。第一权重记为k1,第二权重记为k2。在迭代训练的过程中,根据k1*f1(s1’-s1)来调节第一网络的网络参数,根据k1*f2(s2’-s2)来调节第二网络的网络参数,根据k1*f3(s’-s)来调节第三网络的网络参数,根据k2*f4(y’-y)来调节第四网络的网络参数。其中,随着f4(y’-y)减小,k1整体呈增大的趋势变化,k2整体呈减小的趋势变化。
在一种具体的实现方式中,随着f4(y’-y)减小,k1整体呈增大的趋势变化,k2整体呈减小的趋势变化,包括:随着f4(y’-y)减小,k1和k2先保持不变,然后k1逐渐变大,k2逐渐变小。例如,k1=max((1-exp(f(y’-y))),0.5),k2=1-max((1-exp(f(y’-y))),0.5)。f4(y’-y)越小,1-exp(f4(y’-y))越大。在1-exp(f4(y’-y))未超过0.5的情况下,k1值随着f4(y’-y)减小保持为0.5不变,相应的,k2保持1-0.5=0.5不变。也就是说,在f4(y’-y)较大时,k1=k2=0.5。随着f4(y’-y)继续减小,1-exp(f4(y’-y))则更大,在1-exp(f4(y’-y))超过0.5的情况下,k1则为1-exp(f4(y’-y)),即会不断增大,相应的,k2=1-(1-exp(f4(y’-y))),则会不断减小。
应理解,针对任一网络,其训练误差的加权结果越大,则会以更大的步长来调节网络参数;训练误差的加权结果越小,则会以更小的步长来调节网络参数。以第一网络为例,随着k1*f(s1’-s1)的值变小,则会以更小的步长来调节第一网络的网络参数。那么,通过f(y’-y)来动态调节k1和k2,并用于训练网络,则可以在f(y’-y)较小后,为f4(y’-y)分配较小的权重,为f1(s1’-s1)、f2(s2’-s2)以及f3(s’-s)分配较大的权重,从而可以在第四网络的准确度较高时,弱化调节第四网络的网络参数,而重点调节第一网络、第二网络和第三网络的网络参数,以使所有网络的训练误差整体可以更快的满足误差条件。
最后,可以在第一网络、第二网络、第三网络和第四网络的训练误差的加权和小于预设阈值时结束训练,结束训练时的第一网络则为第一AI模型,结束训练时的第二网络则为第二AI模型,结束训练时的第三网络则为第三AI模型,以及结束训练时的第四网络则为第四AI模型。其中,在加权求和时,f1(s1’-s1)、f2(s2’-s2)以及f3(s’-s)的加权权重为k1,f4(y’-y)的加权权重为k2。也就是说,整体误差lossall=k1*(f1(s1’-s1)+f2(s2’-s2)+f3(s’-s))+k2*f4(y’-y)。当lossall小于预设阈值时则结束训练。如此,可以更合理的考虑各个网络的训练误差对整体误差的影响。
至此,需要说明的是,前文中主要以第四AI模型是声学模型,即第四AI模型主要用于识别语音中每一帧属于各个音素的概率为例来说明,但是实际实施时,若第四AI模型包括声学模型、语言模型和解码模块,则第四AI模型可用于识别语音中的文本。相应的,在训练过程中,第四网络的输出样本应该是干净语音样本中包括的文本。例如,第四标准输出用于指示室内环境下采集得到的干净语音样本中包括的文本,第五标准输出用于指示室外环境下采集得到的干净语音样本中包括的文本。并且,使用第四AI模型则可以输出得到采集的实时语音中包括的文本。
本申请实施例还提供一种电子设备,该电子设备可以包括:存储器和一个或多个处理器。存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中设备执行的各个功能或者步骤。
本申请实施例还提供一种芯片系统,如图10所示,该芯片系统1000包括至少一个处理器1001和至少一个接口电路1002。处理器1001和接口电路1002可通过线路互联。例如,接口电路1002可用于从其它装置(例如电子设备的存储器)接收信号。又例如,接口电路1002可用于向其它装置(例如处理器1001)发送信号。示例性的,接口电路1002可读取存储器中存储的指令,并将该指令发送给处理器1001。当所述指令被处理器1001执行时,可使得电子设备执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的图像处理方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (13)

1.一种语音处理方法,其特征在于,包括:
在电子设备处于室内环境的情况下,所述电子设备响应于接收到第一语音,从所述第一语音中提取第一特征,所述第一特征包括MFCC、STFT或者Fbank;
所述电子设备采用第一AI模型过滤所述第一特征中噪声的特征,得到第二特征,所述电子设备采用第二AI模型过滤所述第二特征中混响的特征,得到第三特征,所述第三特征用于所述第一语音的识别;
在所述电子设备处于室外环境的情况下,所述电子设备响应于接收到第二语音,从所述第二语音中提取第四特征,所述第四特征包括MFCC、STFT或者Fbank;
所述电子设备采用第三AI模型过滤所述第四特征中噪声的特征,得到第五特征,所述第五特征用于所述第二语音的识别;
所述电子设备使用第四AI模型,识别所述第一语音和所述第二语音中包括的文本;
其中,训练所述第一AI模型、所述第二AI模型、所述第三AI模型和所述第四AI模型的步骤包括:
将第一网络的实际输出作为第二网络的输入样本,将第二网络的实际输出和第三网络的实际输出分别作为第四网络的输入样本;
根据所述第四网络的第一误差确定第一权重和第二权重,所述第一误差为所述第四网络的实际输出与所述第四网络的输出样本之间的误差,所述第一权重随所述第一误差的减小而增大,所述第二权重随所述第一误差的减小而减小;
根据所述第一网络、所述第二网络和所述第三网络分别的训练误差和所述第一权重调节相应网络的网络参数,以及根据所述第一误差和所述第二权重调节所述第四网络的网络参数;
所述第一网络、所述第二网络和所述第三网络的训练误差以及所述第一误差满足误差条件则结束训练,结束训练时的所述第一网络为所述第一AI模型,所述第二网络为所述第二AI模型,所述第三网络为所述第三AI模型以及所述第四网络为所述第四AI模型。
2.根据权利要求1所述的方法,其特征在于,所述电子设备使用第四AI模型,识别所述第一语音和所述第二语音中包括的文本,包括:
所述电子设备将所述第三特征作为输入,运行第四AI模型,得到识别结果,所述识别结果指示所述第一语音中包括的文本。
3.根据权利要求1所述的方法,其特征在于,所述电子设备使用第四AI模型,识别所述第一语音和所述第二语音中包括的文本,包括:
所述电子设备将所述第三特征和所述第一特征作为输入,运行第四AI模型,得到识别结果,所述识别结果指示所述第一语音中包括的文本。
4.根据权利要求1所述的方法,其特征在于,在所述得到第三特征之后,所述方法还包括:
所述电子设备根据所述第三特征构建时域语音波形,从所述时域语音波形中提取第六特征,所述第六特征包括MFCC、STFT或者Fbank,所述第六特征与所述第一特征为不同类型的特征;
所述电子设备使用第四AI模型,识别所述第一语音和所述第二语音中包括的文本,包括:
所述电子设备将所述第六特征作为输入,运行第四AI模型,得到识别结果,所述识别结果指示所述第一语音中包括的文本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述电子设备从所述第一语音中提取第七特征,所述第七特征包括MFCC、STFT或者Fbank,所述第七特征和所述第一特征为不同类型的特征;
在所述得到第三特征之后,所述方法还包括:
所述电子设备根据所述第三特征构建时域语音波形,从所述时域语音波形中提取第六特征,所述第六特征包括MFCC、STFT或者Fbank,所述第六特征与所述第一特征为不同类型的特征,所述第六特征和所述第七特征为相同类型的特征;
所述电子设备使用第四AI模型,识别所述第一语音和所述第二语音中包括的文本,包括:
所述电子设备将所述第六特征和所述第七特征作为输入,运行第四AI模型,得到识别结果,所述识别结果指示所述第一语音中包括的文本。
6.根据权利要求2-5中任一项所述的方法,其特征在于,在所述得到识别结果后,所述方法还包括:
所述电子设备判断所述第一语音中是否包括预设文本;若是,所述电子设备唤醒所述电子设备的语音助手;若否,所述电子设备不会唤醒所述语音助手。
7.根据权利要求2-5中任一项所述的方法,其特征在于,训练所述第一AI模型和所述第二AI模型的步骤包括:
将第一特征样本作为第一网络的输入样本,将第一标准输出作为所述第一网络的输出样本,将所述第一网络的实际输出作为第二网络的输入样本,将第二标准输出作为所述第二网络的输出样本;
其中,所述第一特征样本从第一语音样本中提取得到,所述第一语音样本是室内环境下采集到的无噪声且无混响的语音样本,与模拟的噪声和混响合成后得到的,与所述第一特征样本相比:所述第一标准输出不包括噪声的特征,所述第二标准输出不包括噪声的特征和混响的特征。
8.根据权利要求7所述的方法,其特征在于,训练所述第三AI模型的步骤包括:
将第二特征样本作为第三网络的输入样本,将第三标准输出作为所述第三网络的输出样本;
其中,所述第二特征样本从第二语音样本中提取得到,所述第二语音样本是室外环境下采集到的无噪声且无混响的语音样本,与模拟的噪声合成后得到的,与所述第二特征相比:所述第三标准输出不包括噪声的特征。
9.根据权利要求8所述的方法,其特征在于,训练所述第四AI模型的步骤包括:
将所述第二网络的实际输出和所述第三网络的实际输出作为第四网络的输入样本,将第四标准输出和第五标准输出作为所述第四网络的输出样本;
其中,所述第四标准输出作为对应所述第二网络的实际输出的输出样本,所述第四标准输出用于指示从所述室内环境下采集到的所述无噪声且无混响的语音样本中包括的文本,所述第五标准输出作为对应所述第三网络的实际输出的输出样本,所述第五标准输出用于指示从所述室外环境下采集到的所述无噪声且无混响的语音样本中包括的文本。
10.根据权利要求1-5中任一项所述的方法,其特征在于,所述第一网络、所述第二网络和所述第三网络的训练误差以及所述第一误差满足误差条件,包括:
所述第一网络、所述第二网络和所述第三网络的训练误差以及所述第一误差的加权和小于预设值;
其中,所述第一误差的加权权重为所述第二权重,所述第一网络、所述第二网络和所述第三网络的训练误差的加权权重为所述第一权重。
11.一种电子设备,其特征在于,所述电子设备中包括麦克风、存储器和一个或多个处理器,所述麦克风、所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-10中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-10中任一项所述的方法。
13.一种芯片系统,其特征在于,所述芯片系统应用于包括处理器和存储器的电子设备,所述芯片系统包括一个或多个接口电路和一个或多个处理器,所述接口电路和所述处理器通过线路互联,所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令,当所述处理器执行所述计算机指令时,使得所述电子设备执行如权利要求1-10中任一项所述的方法。
CN202210857469.1A 2022-07-20 2022-07-20 一种语音处理方法及电子设备 Active CN115424628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210857469.1A CN115424628B (zh) 2022-07-20 2022-07-20 一种语音处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210857469.1A CN115424628B (zh) 2022-07-20 2022-07-20 一种语音处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN115424628A CN115424628A (zh) 2022-12-02
CN115424628B true CN115424628B (zh) 2023-06-27

Family

ID=84196463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210857469.1A Active CN115424628B (zh) 2022-07-20 2022-07-20 一种语音处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN115424628B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
CN111951796B (zh) * 2020-08-19 2024-03-12 北京达佳互联信息技术有限公司 语音识别方法及装置、电子设备、存储介质
CN112017682B (zh) * 2020-09-18 2023-05-23 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响系统
CN114512140A (zh) * 2020-10-29 2022-05-17 阿里巴巴集团控股有限公司 语音增强方法、装置及设备
CN112653979A (zh) * 2020-12-29 2021-04-13 苏州思必驰信息科技有限公司 自适应去混响方法和装置
CN113744749B (zh) * 2021-09-18 2023-09-19 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统
CN114187898A (zh) * 2021-12-31 2022-03-15 电子科技大学 一种基于融合神经网络结构的端到端语音识别方法

Also Published As

Publication number Publication date
CN115424628A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
US11749262B2 (en) Keyword detection method and related apparatus
CN112400325B (zh) 数据驱动的音频增强
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
US11380326B2 (en) Method and apparatus for performing speech recognition with wake on voice (WoV)
WO2021244056A1 (zh) 一种数据处理方法、装置和可读介质
CN115312068B (zh) 语音控制方法、设备及存储介质
US20240135959A1 (en) Method and apparatus for target sound detection
CN114141230A (zh) 电子设备及其语音识别方法和介质
CN111081275B (zh) 基于声音分析的终端处理方法、装置、存储介质及终端
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN115424628B (zh) 一种语音处理方法及电子设备
WO2023040658A1 (zh) 语音交互方法及电子设备
WO2023124248A1 (zh) 声纹识别方法和装置
WO2022052691A1 (zh) 基于多设备的语音处理方法、介质、电子设备及系统
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质
CN113823278B (zh) 语音识别方法、装置、电子设备及存储介质
WO2024093460A1 (zh) 语音检测方法及其相关设备
WO2024093460A9 (zh) 语音检测方法及其相关设备
CN116959436A (zh) 一种语音交互方法及电子设备
WO2023142757A1 (zh) 语音识别方法、电子设备及计算机可读存储介质
US20220360935A1 (en) Sound field control apparatus and method for the same
CN116665635A (zh) 语音合成方法、电子设备及计算机可读存储介质
CN115841812A (zh) 语音激活检测模型的训练方法及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant