CN111667834A - 一种助听设备及助听方法 - Google Patents

一种助听设备及助听方法 Download PDF

Info

Publication number
CN111667834A
CN111667834A CN202010434720.4A CN202010434720A CN111667834A CN 111667834 A CN111667834 A CN 111667834A CN 202010434720 A CN202010434720 A CN 202010434720A CN 111667834 A CN111667834 A CN 111667834A
Authority
CN
China
Prior art keywords
voice
model
adopting
preset
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010434720.4A
Other languages
English (en)
Other versions
CN111667834B (zh
Inventor
杜慷
冯大航
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010434720.4A priority Critical patent/CN111667834B/zh
Publication of CN111667834A publication Critical patent/CN111667834A/zh
Application granted granted Critical
Publication of CN111667834B publication Critical patent/CN111667834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/35Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种助听设备及助听方法,助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备可以输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。

Description

一种助听设备及助听方法
技术领域
本申请涉及通信技术领域,尤其涉及一种助听设备及助听方法。
背景技术
语音合成(Test-To-Speech,TTS)又称文语转换技术,是一种通过机械的、电子的方法产生人造语音的技术。
传统助听器是一种小型扩音器,把原本听不到的声音加以扩大,再利用听障者的残余听力,使声音能送到大脑听觉中枢,而感觉到声音。
但是这种传统助听器的筛选有用声音的能力很弱,现实生活中场景复杂,如果在高噪声的环境下,助听器在扩大人声的同时也扩大了周围的高噪声,会对听障者造成很大的困扰,降低了用户体验。
发明内容
本申请实施例提供一种助听设备及助听方法,解决了现有技术存在的上述问题,可以解决在高噪声环境下助听设备返回的语音信号不清晰的问题,解除了高噪声环境下的听障困扰,提高了用户体验。
第一方面,提供了一种助听设备,该设备可以包括:语音采集模块、降噪模块、语音识别模块、语音合成模块和语音输出模块;
所述语音采集模块,用于采集当前环境的语音信号,所述语音信号包括用户语音信号;
所述降噪模块,用于对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
所述语音识别模块,用于采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
所述语音合成模块,用于采用预设语音合成算法,将所述文本信息转换成目标语音;
所述语音输出模块,用于输出所述目标语音。
在一个可选的实现中,所述语音识别模块,具体用于获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,所述语音识别模块,还具体用于采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,所述语音识别模块采用如下方法训练所述多任务生成对抗网络GAN模型:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,语音识别模块,还具体用于采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,所述语音合成模块,具体用于采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
第二方面,提供了一种助听方法,该方法可以包括:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第二方面中任一项上所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第二方面中任一所述的方法步骤。
本申请实施例提供的助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备通过将一次降噪后的包含噪声的语音信号先转换为对应的文本信息,再将文本信息转换为对应的语音,从而使助听设备输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。
附图说明
图1为本发明实施例提供的一种助听设备的结构示意图;
图2为本发明实施例提供的一种助听方法的流程示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本发明实施例提供的一种助听设备的结构示意图。如图1所示,该助听设备可以包括:语音采集模块100、降噪模块200、语音识别模块300、语音合成模块400和语音输出模块500。
其中,助听设备中的语音采集模块100、降噪模块200、语音识别模块300、语音合成模块400和语音输出模块500可以集成在一起,也可以独立存在。
语音采集模块100,用于采集当前环境的语音信号,语音信号可以包括噪声信号和用户语音信号。语音采集模块可以是麦克风等具有语音采集功能的器件。
降噪模块200,用于对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号可以包括用户语音信号。
降噪模块200可以是主动降噪(Active Noise Control,ANC)芯片或数字信号处理器(digital signal processing,DSP),其工作原理是产生一个与外界环境噪声信号幅度相等的反相信号,将噪声信号抵消或将噪声信号约束到固定的范围内,从而达到更好的降噪效果。
可以理解的是,降噪后的语音信号中可能不包含噪声信号,也可能包含少量的噪声信号。
语音识别模块300,用于采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;
语音识别模块300,具体用于获取降噪后的语音信号的至少一个声学特征对应的音素序列。
可选的,语音识别模块300可以采用预设声学特征提取算法,提取降噪后的语音信号的至少一个声学特征,如对降噪后的语音信号进行log梅尔特征log-mel、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)等特征的提取;
利用训练的预设声学模型,获取至少一个声学特征对应的音素序列,其中,预设声学模型可以是采用双向门控循环单元(Bi-GRU)与CTC损失函数的深度学习算法训练得到的,以将至少一个声学特征转换为相应的音素,从而形成音素序列。
可选的,语音识别模块300可以采用训练的多任务生成对抗网络(GenerativeAdversarial Networks,GAN)模型,获取降噪后的语音信号的至少一个声学特征,以及至少一个声学特征对应的音素序列。
之后,查找预设发音词典,得到音素序列对应的词序列;预设发音词典用于描述音素与词的映射关系。
以音素为声韵母为例,预设发音词典就是每个词的发音符号表,如词序列“今天”与音素序列“j in1 t ian1”相对应,词序列“去”与音素序列“q v4”相对应,词序列“天气”与音素序列“t ian1 q i4”相对应。
采用预设语言模型,对词序列中的词进行相关性运算,得到降噪后的语音信号中用户语音信号对应的文本信息。
其中,预设语言模型用于描述词与词的映射关系,以及词到词的各路径概率。
预设语言模型可以采用NGRAM算法、RNN-LM算法、或正则语法JSGF算法来计算词序列中词到词的各路径概率,采用维特比viterbi算法获取最大路径概率对应的词序列,并将其确定为降噪后的语音信号中用户语音信号对应的文本信息。
语音合成模块400,用于采用预设语音合成算法,将文本信息转换成目标语音。
语音合成模块400可以包括:语音合成前端单元、语音合成后端单元和声码器单元。
语音合成前端单元,用于采用预设分析算法,对文本信息进行分析,得到文本序列信息;其中,文本序列信息可以包括音素序列和音素序列对应的韵律特征。其中,预设分析算法可以包括但不限于对文本信息的分词分析、词性标注分析、韵律分析,注音分析和多音字消歧分析。
语音合成后端单元,用于采用声谱合成算法,对音素序列和音素序列对应的韵律特征进行合成运算,得到声谱特征;
语音合成后端单元是基于声谱预测网络tacotron来实现的,可以包括编码阶段、注意力机制阶段、解码阶段和后处理阶段。tacotron可以很好地还原人声,使得合成出来的声音自然逼真。
声码器单元,用于采用预设转换算法,将声谱特征转换为目标语音。声码器单元可以是采用Griffin-Lim算法的模型。
语音输出模块500,用于输出目标语音,以便听障者接收该目标语音。语音输出模块500可以是扬声器。
进一步的,多任务生成对抗网络GAN模型主要包括生成模型和判别模型,其中,生成模型用于输入包含噪声信号和第一用户语音信号的场景语音信号,经提取声学特征处理后,输出尽量真实、纯净的声学特征,用以欺骗判别模型;判别模型用于输入第一用户语音信号,经提取声学特征处理后,得到第一用户语音信号的声学特征,并用得到的第一用户语音信号的声学特征判断生成模型得到的声学特征是否是带噪声信号的声学特征。
当生成模型和判别模型训练到理想状态下,生成模型就可以生成与判别模型得到的第一用户语音信号的声学特征相似的声学特征,且判别模型很难分出该声学特征的真假性,以实现场景语音信号的完全去噪。
具体的,语音识别模块300训练的多任务生成对抗网络GAN模型的过程可以包括:
获取生成模型和判别模型;
向生成模型输入场景语音信号,以及向判别模型输入第一用户语音信号,场景语音信号包括噪声信号和第一用户语音信号;
在检测到判别模型采用声学特征提取算法提取的第一用户语音信号的第一声学特征后,将生成模型采用声学特征提取算法提取的场景语音信号的第二声学特征输入判别模型;
获取判别模型采用预设算法对第一声学特征和第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到第二声学特征对应的音素序列;
采用预设算法,对第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据第一损失值和第二损失值,检测出判别模型和生成模型均处于收敛状态,则将判别模型和生成模型的组合模型确定为多任务生成对抗网络GAN模型。
其中,若第一损失值和第二损失值均小于预设损失阈值,则确定判别模型和生成模型均处于收敛状态,或者,若判别模型的模型参数和生成模型的模型参数己达到最大迭代次数,则确定判别模型和生成模型均处于收敛状态。其中,用户或者运维人员可根据需要设置预设损失阈值的大小,本实施例不做限制。
若根据第一损失值和第二损失值检测出判别模型和生成模型均未处于收敛状态,则根据第一梯度值和第二梯度值更新判别模型的模型参数和生成模型的模型参数,获取新的判别模型和新的生成模型;
在检测到新的判别模型采用声学特征提取算法提取的第一用户语音信号的新的第一声学特征后,将新的生成模型采用声学特征提取算法提取的场景语音信号的新的第二声学特征输入新的判别模型;
获取新的判别模型采用预设算法对新的第一声学特征和新的第二声学特征进行计算得到的第三损失值和第三梯度值;
采用预设音素编译算法,得到新的第二声学特征对应的新的音素序列;
采用预设算法,对第一用户语音信号对应的音素序列与获取的新的音素序列进行计算,获取第四损失值和第四梯度值;
根据第三损失值和所述第四损失值,检测新的判别模型和新的生成模型是否处于收敛状态;
若根据第三损失值和所述第四损失值,检测出新的判别模型和新的生成模型均处于收敛状态,则将新的判别模型和新的生成模型的组合模型确定为多任务生成对抗网络GAN模型。
或者,根据第一损失值和第三损失值的第一差值,以及第二损失值和第四损失值的第二差值,检测新的判别模型和新的生成模型是否处于收敛状态;
若第一差值和第二差值小于预设差值阈值,则确定判别模型和生成模型均处于收敛状态。
可见,多任务生成对抗网络GAN模型为基于multi-task的训练结构,主要损失函数有两个:第一损失值为WGAN loss值,以去除场景语音信号中的噪声信号;第二损失值为基于端到端的交叉熵损失CE loss值,以将场景语音信号转为文本信息。
任务1:判别模型和生成模型分别输入纯净无噪的音频A和带噪声的音频A。判别模型和生成模型中的编码器均是由3层卷积网络和2层双向GRU网络组成,从而得到纯净无噪的音频A的声学特征和带噪声的音频A的声学特征,然后将两种声学特征输入判别模型中,使用WGAN loss损失函数计算损失值,并反传相应梯度。随着GAN的不断训练,编码器将学会自动删除对语音识别无关的信息(如背景噪声等),生成尽可能像纯净音频A的声学特征。
任务2:使用交叉熵损失函数训练基于端到端的语音识别模型,编码器在任务1中介绍的生成模型,解码器结构为:2层卷积网络+1层BLSTM网络+2层卷积网络+1层BLSTM网络+1层全连接网络。使用CE loss损失函数计算损失值,并反传相应梯度,不断训练生成模型,该生成模型的编码器将会同时学会提取有用的语音识别信息,以及去除背景噪声等无关信息两种本领。
由此,训练完的GAN模型最终会成为可去噪的、且能够准确识别语音的语音识别模型。
本申请实施例提供的助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备通过将一次降噪后的包含噪声的语音信号先转换为对应的文本信息,再将文本信息转换为对应的语音,从而使助听设备输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。
与上述方法对应的,本发明实施例还提供一种助听方法,如图2所示,该助听方法包括:
步骤210、采集当前环境的语音信号。
语音信号包括用户语音信号。
步骤220、对采集的语音信号进行降噪,得到降噪后的语音信号。
降噪后的语音信号包括用户语音信号。
步骤230、采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息。
步骤240、采用预设语音合成算法,将文本信息转换成目标语音。
步骤250、输出目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息;
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
本发明上述实施例提供的助听方法的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的助听方法中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器310、通信接口320、存储器330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。
存储器330,用于存放计算机程序;
处理器310,用于执行存储器330上所存放的程序时,实现如下步骤:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的助听方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的助听方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (14)

1.一种助听设备,其特征在于,所述设备包括:语音采集模块、降噪模块、语音识别模块、语音合成模块和语音输出模块;
所述语音采集模块,用于采集当前环境的语音信号,所述语音信号包括用户语音信号;
所述降噪模块,用于对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
所述语音识别模块,用于采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
所述语音合成模块,用于采用预设语音合成算法,将所述文本信息转换成目标语音;
所述语音输出模块,用于输出所述目标语音。
2.如权利要求1所述的设备,其特征在于,所述语音识别模块,具体用于获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
3.如权利要求2所述的设备,其特征在于,所述语音识别模块,还具体用于采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
4.如权利要求3所述的设备,其特征在于,所述语音识别模块采用如下方法训练所述多任务生成对抗网络GAN模型:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
5.如权利要求2所述的设备,其特征在于,语音识别模块,还具体用于采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
6.如权利要求1所述的设备,其特征在于,所述语音合成模块,具体用于采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
7.一种助听方法,其特征在于,所述方法包括:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音。
8.如权利要求7所述的方法,其特征在于,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
9.如权利要求8所述的方法,其特征在于,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
10.如权利要求9所述的方法,其特征在于,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
11.如权利要求8所述的方法,其特征在于,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
12.如权利要求7所述的方法,其特征在于,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
13.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求7-12任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7-12任一所述的方法步骤。
CN202010434720.4A 2020-05-21 2020-05-21 一种助听设备及助听方法 Active CN111667834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434720.4A CN111667834B (zh) 2020-05-21 2020-05-21 一种助听设备及助听方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434720.4A CN111667834B (zh) 2020-05-21 2020-05-21 一种助听设备及助听方法

Publications (2)

Publication Number Publication Date
CN111667834A true CN111667834A (zh) 2020-09-15
CN111667834B CN111667834B (zh) 2023-10-13

Family

ID=72384170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434720.4A Active CN111667834B (zh) 2020-05-21 2020-05-21 一种助听设备及助听方法

Country Status (1)

Country Link
CN (1) CN111667834B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN115243180A (zh) * 2022-07-21 2022-10-25 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN115312067A (zh) * 2022-10-12 2022-11-08 深圳市婕妤达电子有限公司 基于人声的声音信号识别方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160064008A1 (en) * 2014-08-26 2016-03-03 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
WO2020005202A1 (en) * 2018-06-25 2020-01-02 Google Llc Hotword-aware speech synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160064008A1 (en) * 2014-08-26 2016-03-03 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
WO2020005202A1 (en) * 2018-06-25 2020-01-02 Google Llc Hotword-aware speech synthesis
CN109887489A (zh) * 2019-02-23 2019-06-14 天津大学 基于生成对抗网络的深度特征的语音去混响方法
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
简志华;杨震;: "语声转换技术发展及展望" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN115243180A (zh) * 2022-07-21 2022-10-25 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN115243180B (zh) * 2022-07-21 2024-05-10 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN115312067A (zh) * 2022-10-12 2022-11-08 深圳市婕妤达电子有限公司 基于人声的声音信号识别方法、装置及存储介质
CN115312067B (zh) * 2022-10-12 2022-12-27 深圳市婕妤达电子有限公司 基于人声的声音信号识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN111667834B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Akbari et al. Lip2audspec: Speech reconstruction from silent lip movements video
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN111667834B (zh) 一种助听设备及助听方法
CN112750446B (zh) 语音转换方法、装置和系统及存储介质
Yuliani et al. Speech enhancement using deep learning methods: A review
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Shah et al. Effectiveness of Generative Adversarial Network for Non-Audible Murmur-to-Whisper Speech Conversion.
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Grewal et al. Isolated word recognition system for English language
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
CN114187921A (zh) 语音质量评价方法和装置
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Chit et al. Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
KR101610708B1 (ko) 음성 인식 장치 및 방법
Naresh et al. PSoC based isolated speech recognition system
Shrawankar et al. Speech: a challenge to digital signal processing technology for human-to-computer interaction
Thakur et al. Design of Hindi key word recognition system for home automation system using MFCC and DTW
CN111833869A (zh) 一种应用于城市大脑的语音交互方法及系统
Liu et al. Multimodal speech emotion recognition based on aligned attention mechanism
KR102682480B1 (ko) 딥러닝 기반 비병렬 음성 변환을 이용한 asr 인식 성능 향상 시스템
Mendiratta et al. ASR system for isolated words using ANN with back propagation and fuzzy based DWT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant