CN111667834B - 一种助听设备及助听方法 - Google Patents
一种助听设备及助听方法 Download PDFInfo
- Publication number
- CN111667834B CN111667834B CN202010434720.4A CN202010434720A CN111667834B CN 111667834 B CN111667834 B CN 111667834B CN 202010434720 A CN202010434720 A CN 202010434720A CN 111667834 B CN111667834 B CN 111667834B
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- voice signal
- acoustic feature
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009467 reduction Effects 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 34
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 34
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 5
- 208000016354 hearing loss disease Diseases 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/35—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种助听设备及助听方法,助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备可以输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种助听设备及助听方法。
背景技术
语音合成(Test-To-Speech,TTS)又称文语转换技术,是一种通过机械的、电子的方法产生人造语音的技术。
传统助听器是一种小型扩音器,把原本听不到的声音加以扩大,再利用听障者的残余听力,使声音能送到大脑听觉中枢,而感觉到声音。
但是这种传统助听器的筛选有用声音的能力很弱,现实生活中场景复杂,如果在高噪声的环境下,助听器在扩大人声的同时也扩大了周围的高噪声,会对听障者造成很大的困扰,降低了用户体验。
发明内容
本申请实施例提供一种助听设备及助听方法,解决了现有技术存在的上述问题,可以解决在高噪声环境下助听设备返回的语音信号不清晰的问题,解除了高噪声环境下的听障困扰,提高了用户体验。
第一方面,提供了一种助听设备,该设备可以包括:语音采集模块、降噪模块、语音识别模块、语音合成模块和语音输出模块;
所述语音采集模块,用于采集当前环境的语音信号,所述语音信号包括用户语音信号;
所述降噪模块,用于对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
所述语音识别模块,用于采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
所述语音合成模块,用于采用预设语音合成算法,将所述文本信息转换成目标语音;
所述语音输出模块,用于输出所述目标语音。
在一个可选的实现中,所述语音识别模块,具体用于获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,所述语音识别模块,还具体用于采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,所述语音识别模块采用如下方法训练所述多任务生成对抗网络GAN模型:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,语音识别模块,还具体用于采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,所述语音合成模块,具体用于采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
第二方面,提供了一种助听方法,该方法可以包括:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第二方面中任一项上所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第二方面中任一所述的方法步骤。
本申请实施例提供的助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备通过将一次降噪后的包含噪声的语音信号先转换为对应的文本信息,再将文本信息转换为对应的语音,从而使助听设备输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。
附图说明
图1为本发明实施例提供的一种助听设备的结构示意图;
图2为本发明实施例提供的一种助听方法的流程示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本发明实施例提供的一种助听设备的结构示意图。如图1所示,该助听设备可以包括:语音采集模块100、降噪模块200、语音识别模块300、语音合成模块400和语音输出模块500。
其中,助听设备中的语音采集模块100、降噪模块200、语音识别模块300、语音合成模块400和语音输出模块500可以集成在一起,也可以独立存在。
语音采集模块100,用于采集当前环境的语音信号,语音信号可以包括噪声信号和用户语音信号。语音采集模块可以是麦克风等具有语音采集功能的器件。
降噪模块200,用于对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号可以包括用户语音信号。
降噪模块200可以是主动降噪(Active Noise Control,ANC)芯片或数字信号处理器(digital signal processing,DSP),其工作原理是产生一个与外界环境噪声信号幅度相等的反相信号,将噪声信号抵消或将噪声信号约束到固定的范围内,从而达到更好的降噪效果。
可以理解的是,降噪后的语音信号中可能不包含噪声信号,也可能包含少量的噪声信号。
语音识别模块300,用于采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;
语音识别模块300,具体用于获取降噪后的语音信号的至少一个声学特征对应的音素序列。
可选的,语音识别模块300可以采用预设声学特征提取算法,提取降噪后的语音信号的至少一个声学特征,如对降噪后的语音信号进行log梅尔特征log-mel、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)等特征的提取;
利用训练的预设声学模型,获取至少一个声学特征对应的音素序列,其中,预设声学模型可以是采用双向门控循环单元(Bi-GRU)与CTC损失函数的深度学习算法训练得到的,以将至少一个声学特征转换为相应的音素,从而形成音素序列。
可选的,语音识别模块300可以采用训练的多任务生成对抗网络(GenerativeAdversarial Networks,GAN)模型,获取降噪后的语音信号的至少一个声学特征,以及至少一个声学特征对应的音素序列。
之后,查找预设发音词典,得到音素序列对应的词序列;预设发音词典用于描述音素与词的映射关系。
以音素为声韵母为例,预设发音词典就是每个词的发音符号表,如词序列“今天”与音素序列“j in1 t ian1”相对应,词序列“去”与音素序列“q v4”相对应,词序列“天气”与音素序列“t ian1 q i4”相对应。
采用预设语言模型,对词序列中的词进行相关性运算,得到降噪后的语音信号中用户语音信号对应的文本信息。
其中,预设语言模型用于描述词与词的映射关系,以及词到词的各路径概率。
预设语言模型可以采用NGRAM算法、RNN-LM算法、或正则语法JSGF算法来计算词序列中词到词的各路径概率,采用维特比viterbi算法获取最大路径概率对应的词序列,并将其确定为降噪后的语音信号中用户语音信号对应的文本信息。
语音合成模块400,用于采用预设语音合成算法,将文本信息转换成目标语音。
语音合成模块400可以包括:语音合成前端单元、语音合成后端单元和声码器单元。
语音合成前端单元,用于采用预设分析算法,对文本信息进行分析,得到文本序列信息;其中,文本序列信息可以包括音素序列和音素序列对应的韵律特征。其中,预设分析算法可以包括但不限于对文本信息的分词分析、词性标注分析、韵律分析,注音分析和多音字消歧分析。
语音合成后端单元,用于采用声谱合成算法,对音素序列和音素序列对应的韵律特征进行合成运算,得到声谱特征;
语音合成后端单元是基于声谱预测网络tacotron来实现的,可以包括编码阶段、注意力机制阶段、解码阶段和后处理阶段。tacotron可以很好地还原人声,使得合成出来的声音自然逼真。
声码器单元,用于采用预设转换算法,将声谱特征转换为目标语音。声码器单元可以是采用Griffin-Lim算法的模型。
语音输出模块500,用于输出目标语音,以便听障者接收该目标语音。语音输出模块500可以是扬声器。
进一步的,多任务生成对抗网络GAN模型主要包括生成模型和判别模型,其中,生成模型用于输入包含噪声信号和第一用户语音信号的场景语音信号,经提取声学特征处理后,输出尽量真实、纯净的声学特征,用以欺骗判别模型;判别模型用于输入第一用户语音信号,经提取声学特征处理后,得到第一用户语音信号的声学特征,并用得到的第一用户语音信号的声学特征判断生成模型得到的声学特征是否是带噪声信号的声学特征。
当生成模型和判别模型训练到理想状态下,生成模型就可以生成与判别模型得到的第一用户语音信号的声学特征相似的声学特征,且判别模型很难分出该声学特征的真假性,以实现场景语音信号的完全去噪。
具体的,语音识别模块300训练的多任务生成对抗网络GAN模型的过程可以包括:
获取生成模型和判别模型;
向生成模型输入场景语音信号,以及向判别模型输入第一用户语音信号,场景语音信号包括噪声信号和第一用户语音信号;
在检测到判别模型采用声学特征提取算法提取的第一用户语音信号的第一声学特征后,将生成模型采用声学特征提取算法提取的场景语音信号的第二声学特征输入判别模型;
获取判别模型采用预设算法对第一声学特征和第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到第二声学特征对应的音素序列;
采用预设算法,对第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据第一损失值和第二损失值,检测出判别模型和生成模型均处于收敛状态,则将判别模型和生成模型的组合模型确定为多任务生成对抗网络GAN模型。
其中,若第一损失值和第二损失值均小于预设损失阈值,则确定判别模型和生成模型均处于收敛状态,或者,若判别模型的模型参数和生成模型的模型参数己达到最大迭代次数,则确定判别模型和生成模型均处于收敛状态。其中,用户或者运维人员可根据需要设置预设损失阈值的大小,本实施例不做限制。
若根据第一损失值和第二损失值检测出判别模型和生成模型均未处于收敛状态,则根据第一梯度值和第二梯度值更新判别模型的模型参数和生成模型的模型参数,获取新的判别模型和新的生成模型;
在检测到新的判别模型采用声学特征提取算法提取的第一用户语音信号的新的第一声学特征后,将新的生成模型采用声学特征提取算法提取的场景语音信号的新的第二声学特征输入新的判别模型;
获取新的判别模型采用预设算法对新的第一声学特征和新的第二声学特征进行计算得到的第三损失值和第三梯度值;
采用预设音素编译算法,得到新的第二声学特征对应的新的音素序列;
采用预设算法,对第一用户语音信号对应的音素序列与获取的新的音素序列进行计算,获取第四损失值和第四梯度值;
根据第三损失值和所述第四损失值,检测新的判别模型和新的生成模型是否处于收敛状态;
若根据第三损失值和所述第四损失值,检测出新的判别模型和新的生成模型均处于收敛状态,则将新的判别模型和新的生成模型的组合模型确定为多任务生成对抗网络GAN模型。
或者,根据第一损失值和第三损失值的第一差值,以及第二损失值和第四损失值的第二差值,检测新的判别模型和新的生成模型是否处于收敛状态;
若第一差值和第二差值小于预设差值阈值,则确定判别模型和生成模型均处于收敛状态。
可见,多任务生成对抗网络GAN模型为基于multi-task的训练结构,主要损失函数有两个:第一损失值为WGAN loss值,以去除场景语音信号中的噪声信号;第二损失值为基于端到端的交叉熵损失CE loss值,以将场景语音信号转为文本信息。
任务1:判别模型和生成模型分别输入纯净无噪的音频A和带噪声的音频A。判别模型和生成模型中的编码器均是由3层卷积网络和2层双向GRU网络组成,从而得到纯净无噪的音频A的声学特征和带噪声的音频A的声学特征,然后将两种声学特征输入判别模型中,使用WGAN loss损失函数计算损失值,并反传相应梯度。随着GAN的不断训练,编码器将学会自动删除对语音识别无关的信息(如背景噪声等),生成尽可能像纯净音频A的声学特征。
任务2:使用交叉熵损失函数训练基于端到端的语音识别模型,编码器在任务1中介绍的生成模型,解码器结构为:2层卷积网络+1层BLSTM网络+2层卷积网络+1层BLSTM网络+1层全连接网络。使用CE loss损失函数计算损失值,并反传相应梯度,不断训练生成模型,该生成模型的编码器将会同时学会提取有用的语音识别信息,以及去除背景噪声等无关信息两种本领。
由此,训练完的GAN模型最终会成为可去噪的、且能够准确识别语音的语音识别模型。
本申请实施例提供的助听设备中的语音采集模块采集当前环境的语音信号,语音信号包括用户语音信号;降噪模块对采集的语音信号进行降噪,得到降噪后的语音信号,降噪后的语音信号包括用户语音信号;语音识别模块采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息;语音合成模块采用预设语音合成算法,将文本信息转换成目标语音;最后语音输出模块输出目标语音。该助听设备通过将一次降噪后的包含噪声的语音信号先转换为对应的文本信息,再将文本信息转换为对应的语音,从而使助听设备输出清晰的语音,解除了高噪声环境下的听障困扰,提高了用户体验。
与上述方法对应的,本发明实施例还提供一种助听方法,如图2所示,该助听方法包括:
步骤210、采集当前环境的语音信号。
语音信号包括用户语音信号。
步骤220、对采集的语音信号进行降噪,得到降噪后的语音信号。
降噪后的语音信号包括用户语音信号。
步骤230、采用预设语音识别算法,对降噪后的语音信号进行语音识别,得到降噪后的语音信号中用户语音信号对应的文本信息。
步骤240、采用预设语音合成算法,将文本信息转换成目标语音。
步骤250、输出目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息;
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
本发明上述实施例提供的助听方法的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的助听方法中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器310、通信接口320、存储器330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。
存储器330,用于存放计算机程序;
处理器310,用于执行存储器330上所存放的程序时,实现如下步骤:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音。
在一个可选的实现中,采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列。
在一个可选的实现中,训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
在一个可选的实现中,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
在一个可选的实现中,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列对应的声学特征和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的助听方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的助听方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。
Claims (8)
1.一种助听设备,其特征在于,所述设备包括:语音采集模块、降噪模块、语音识别模块、语音合成模块和语音输出模块;
所述语音采集模块,用于采集当前环境的语音信号,所述语音信号包括用户语音信号;
所述降噪模块,用于对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
所述语音识别模块,用于采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
所述语音合成模块,用于采用预设语音合成算法,将所述文本信息转换成目标语音;
所述语音输出模块,用于输出所述目标语音;
所述语音识别模块,具体用于获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息;
所述语音识别模块,还具体用于采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列;
所述语音识别模块采用如下方法训练所述多任务生成对抗网络GAN模型:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
2.如权利要求1所述的设备,其特征在于,语音识别模块,还具体用于采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
3.如权利要求1所述的设备,其特征在于,所述语音合成模块,具体用于采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
4.一种助听方法,其特征在于,所述方法包括:
采集当前环境的语音信号,所述语音信号包括用户语音信号;
对采集的语音信号进行降噪,得到降噪后的语音信号,所述降噪后的语音信号包括所述用户语音信号;
采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息;
采用预设语音合成算法,将所述文本信息转换成目标语音;
输出所述目标语音;
所述采用预设语音识别算法,对所述降噪后的语音信号进行语音识别,得到所述降噪后的语音信号中用户语音信号对应的文本信息,包括:
获取所述降噪后的语音信号的至少一个声学特征对应的音素序列;
查找预设发音词典,得到所述音素序列对应的词序列;
采用预设语言模型,对所述词序列中的词进行相关性运算,得到所述用户语音信号对应的文本信息;
所述获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用训练的多任务生成对抗网络GAN模型,获取所述降噪后的语音信号的至少一个声学特征,以及所述至少一个声学特征对应的音素序列;
训练所述多任务生成对抗网络GAN模型,包括:
获取生成模型和判别模型;
向所述生成模型输入场景语音信号,以及向所述判别模型输入第一用户语音信号,所述场景语音信号包括噪声信号和所述第一用户语音信号;
在检测到所述判别模型采用声学特征提取算法提取的所述第一用户语音信号的第一声学特征后,将所述生成模型采用声学特征提取算法提取的所述场景语音信号的第二声学特征输入所述判别模型;
获取所述判别模型采用预设算法对所述第一声学特征和所述第二声学特征进行计算得到的第一损失值和第一梯度值;
采用预设音素编译算法,得到所述第二声学特征对应的音素序列;
采用所述预设算法,对所述第一用户语音信号对应的音素序列与获取的音素序列进行计算,获取第二损失值和第二梯度值;
若根据所述第一损失值和所述第二损失值,检测出所述判别模型和所述生成模型均处于收敛状态,则将所述判别模型和所述生成模型的组合模型确定为多任务生成对抗网络GAN模型。
5.如权利要求4所述的方法,其特征在于,获取所述降噪后的语音信号的至少一个声学特征对应的音素序列,包括:
采用预设声学特征提取算法,提取所述降噪后的语音信号的至少一个声学特征;
利用预设声学模型,获取所述至少一个声学特征对应的音素序列。
6.如权利要求4所述的方法,其特征在于,采用预设语音合成算法,将所述文本信息转换成目标语音,包括:
采用预设分析算法,对所述文本信息进行分析,得到文本序列信息;其中,文本序列信息包括音素序列和所述音素序列对应的韵律特征;
采用声谱合成算法,对所述音素序列和所述音素序列对应的韵律特征进行合成运算,得到声谱特征;
采用预设转换算法,将所述声谱特征转换为目标语音。
7.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求4-6任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求4-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434720.4A CN111667834B (zh) | 2020-05-21 | 2020-05-21 | 一种助听设备及助听方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434720.4A CN111667834B (zh) | 2020-05-21 | 2020-05-21 | 一种助听设备及助听方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111667834A CN111667834A (zh) | 2020-09-15 |
CN111667834B true CN111667834B (zh) | 2023-10-13 |
Family
ID=72384170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010434720.4A Active CN111667834B (zh) | 2020-05-21 | 2020-05-21 | 一种助听设备及助听方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667834B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178187A (zh) * | 2021-04-26 | 2021-07-27 | 北京有竹居网络技术有限公司 | 一种语音处理方法、装置、设备及介质、程序产品 |
CN114120965A (zh) * | 2021-12-08 | 2022-03-01 | 思必驰科技股份有限公司 | 音频处理方法、电子设备和存储介质 |
CN115243180B (zh) * | 2022-07-21 | 2024-05-10 | 香港中文大学(深圳) | 类脑助听方法、装置、助听设备和计算机设备 |
CN115312067B (zh) * | 2022-10-12 | 2022-12-27 | 深圳市婕妤达电子有限公司 | 基于人声的声音信号识别方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390725B2 (en) * | 2014-08-26 | 2016-07-12 | ClearOne Inc. | Systems and methods for noise reduction using speech recognition and speech synthesis |
-
2020
- 2020-05-21 CN CN202010434720.4A patent/CN111667834B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
CN109887489A (zh) * | 2019-02-23 | 2019-06-14 | 天津大学 | 基于生成对抗网络的深度特征的语音去混响方法 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Non-Patent Citations (1)
Title |
---|
简志华 ; 杨震 ; .语声转换技术发展及展望.南京邮电大学学报(自然科学版).2007,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111667834A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667834B (zh) | 一种助听设备及助听方法 | |
JP6903129B2 (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
Akbari et al. | Lip2audspec: Speech reconstruction from silent lip movements video | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN112750446B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN114333865B (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
CN111508469A (zh) | 一种文语转换方法及装置 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN111862952B (zh) | 一种去混响模型训练方法及装置 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Tsenov et al. | Speech recognition using neural networks | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
CN115881156A (zh) | 基于多尺度的多模态时域语音分离方法 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
Lin et al. | Speaker-aware speech enhancement with self-attention | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
Grewal et al. | Isolated word recognition system for English language | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
CN114187921A (zh) | 语音质量评价方法和装置 | |
WO2022068675A1 (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |