CN110111769B - 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 - Google Patents

一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 Download PDF

Info

Publication number
CN110111769B
CN110111769B CN201910347974.XA CN201910347974A CN110111769B CN 110111769 B CN110111769 B CN 110111769B CN 201910347974 A CN201910347974 A CN 201910347974A CN 110111769 B CN110111769 B CN 110111769B
Authority
CN
China
Prior art keywords
signal
cepstrum
features
preset
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910347974.XA
Other languages
English (en)
Other versions
CN110111769A (zh
Inventor
陈又圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201910347974.XA priority Critical patent/CN110111769B/zh
Publication of CN110111769A publication Critical patent/CN110111769A/zh
Application granted granted Critical
Publication of CN110111769B publication Critical patent/CN110111769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明属于计算机技术领域,尤其涉及一种电子耳蜗控制方法、装置、计算机可读存储介质及电子耳蜗。所述方法采集待处理的原始语音信号;对所述原始语音信号进行预处理,得到预处理后的语音信号;提取所述预处理后的语音信号中的语音特征;使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。通过本发明,可以根据语音信号的语种识别结果,针对各个语种的特点灵活地选取语言处理策略,大大提高了电子耳蜗的识别率。

Description

一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
技术领域
本发明属于计算机技术领域,尤其涉及一种电子耳蜗控制方法、装置、计算机可读存储介质及电子耳蜗。
背景技术
电子耳蜗也被称为耳蜗埋植、电子耳、仿生耳或人工耳蜗,它是目前唯一能使全聋患者恢复听觉的装置。它依靠直接用微弱电流兴奋听神经纤维模仿外周听觉系统的生理功能,产生与正常人耳相似的神经发放模式,从而恢复患者的听觉。电子耳蜗可以帮助全聋患者恢复语言交流能力,增加他们接受教育、就业和社会交往的机会。尤其是聋儿,无论是语前聋还是语后聋,当借助于助听器仍然无法听到声音时,将导致他们终生失去获得正常教育的机会,给家庭和社会增加沉重的负担。电子耳蜗可以帮助他们重新获得音感,获取外界的信息和知识,成为对社会有益的人。
电子耳蜗近年来在不同语种的地区有广泛应用,例如,可应用于英语地区、汉语地区、日语地区、印度语地区等,而汉语又分为普通话、广东话、闽南话等。不同语种之间往往存在着巨大的特性差异,而电子耳蜗最早是基于英语开发的,在应用到其它语种地区时,无法体现出其它语种的特性,导致识别率较低。
发明内容
有鉴于此,本发明实施例提供了一种电子耳蜗控制方法、装置、计算机可读存储介质及电子耳蜗,以解决现有的电子耳蜗在应用到其它语种地区时,无法体现出其它语种的特性,导致识别率较低的问题。
本发明实施例的第一方面提供了一种电子耳蜗控制方法,可以包括:
采集待处理的原始语音信号;
对所述原始语音信号进行预处理,得到预处理后的语音信号;
提取所述预处理后的语音信号中的语音特征;
使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;
从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。
进一步地,所述对所述原始语音信号进行预处理,得到预处理后的语音信号包括:
使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号;
根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号;
对所述增益信号进行分帧及加窗处理,得到加窗信号;
对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号;
对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
进一步地,所述根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号包括:
计算所述高通滤波信号的平均幅度;
根据所述归一化值和所述高通滤波信号的平均幅度计算增益系数;
使用所述增益系数对所述高通滤波信号进行增益调整。
进一步地,所述提取所述预处理后的语音信号中的语音特征包括:
提取所述预处理后的语音信号的梅尔频率倒谱系数;
根据所述梅尔频率倒谱系数计算偏移差分倒谱;
根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征;
对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征;
对所述变换后的特征进行去噪处理,得到所述语音特征。
进一步地,在根据所述偏移差分倒谱进行倒谱均值相减之前,还包括:
对所述原始语音信号进行能量计算并取对数,得到对数能量结果;
使用预设的均值滤波器对所述对数能量结果进行平滑处理,得到平滑能量结果;
根据所述平滑能量结果确定所述原始语音信号的端点。
本发明实施例的第二方面提供了一种电子耳蜗控制装置,可以包括:
语音信息采集模块,用于采集待处理的原始语音信号;
预处理模块,用于对所述原始语音信号进行预处理,得到预处理后的语音信号;
语音特征提取模块,用于提取所述预处理后的语音信号中的语音特征;
语种识别模块,用于使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;
策略选取模块,用于从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。
进一步地,所述预处理模块可以包括:
高通滤波单元,用于使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号;
增益调整单元,用于根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号;
分帧加窗单元,用于对所述增益信号进行分帧及加窗处理,得到加窗信号;
Gammatone滤波单元,用于对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号;
离散余弦变换单元,用于对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
进一步地,所述增益调整单元可以包括:
平均幅度计算子单元,用于计算所述高通滤波信号的平均幅度;
增益系数计算子单元,用于根据所述归一化值和所述高通滤波信号的平均幅度计算增益系数;
增益调整子单元,用于使用所述增益系数对所述高通滤波信号进行增益调整。
进一步地,所述语音特征提取模块可以包括:
梅尔频率倒谱系数提取单元,用于提取所述预处理后的语音信号的梅尔频率倒谱系数;
偏移差分倒谱计算单元,用于根据所述梅尔频率倒谱系数计算偏移差分倒谱;
高斯化特征计算单元,用于根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征;
特征变换单元,用于对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征;
去噪处理单元,用于对所述变换后的特征进行去噪处理,得到所述语音特征。
进一步地,所述语音特征提取模块还可以包括:
能量计算单元,用于对所述原始语音信号进行能量计算并取对数,得到对数能量结果;
平滑处理单元,用于使用预设的均值滤波器对所述对数能量结果进行平滑处理,得到平滑能量结果;
端点确定单元,用于根据所述平滑能量结果确定所述原始语音信号的端点。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任一种电子耳蜗控制方法的步骤。
本发明实施例的第四方面提供了一种电子耳蜗,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任一种电子耳蜗控制方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例采集待处理的原始语音信号;对所述原始语音信号进行预处理,得到预处理后的语音信号;提取所述预处理后的语音信号中的语音特征;使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。通过本发明实施例,可以根据语音信号的语种识别结果,针对各个语种的特点灵活地选取语言处理策略,从而大大提高了电子耳蜗的识别率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种电子耳蜗控制方法的一个实施例流程图;
图2为对原始语音信号进行预处理,得到预处理后的语音信号的示意流程图;
图3为提取预处理后的语音信号中的语音特征的示意流程图;
图4为本发明实施例中一种电子耳蜗控制装置的一个实施例结构图;
图5为本发明实施例中一种电子耳蜗的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种电子耳蜗控制方法的一个实施例可以包括:
步骤S101、采集待处理的原始语音信号。
步骤S102、对所述原始语音信号进行预处理,得到预处理后的语音信号。
如图2所示,步骤S102具体可以包括如下过程:
步骤S1021、使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号。
在信号的预处理过程中,首先需要让所述原始语音信号通过一个高通滤波器,以提升信号的高频成分,所述高通滤波器满足:
y(n)=x(n)-αy(n-1)
其中,n为在进行原始语音信号采集时的采样点序号,1≤n≤N,N为采样点总数,x(n)表示输入到高通滤波器的信号,y(n)表示从高通滤波器输出的信号,α为预设的参数值,设置范围为0.55~0.95。
步骤S1022、根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号。
首先,可以根据下式计算所述高通滤波信号的平均幅度:
Figure BDA0002043005740000071
其中,Have为所述高通滤波信号的平均幅度。
然后,根据所述归一化值和所述高通滤波信号的平均幅度计算增益系数。
所述归一化值的具体取值可以根据实际情况进行设置,本实施例对其不作具体限定,所述增益系数可以根据下式计算得到:
Figure BDA0002043005740000072
其中,Hnor为所述归一化值,A为所述增益系数。
最后,使用所述增益系数对所述高通滤波信号进行增益调整,即:
yGain(n)=A×y(n)
其中,yGain(n)即为增益调整后得到的增益信号。
步骤S1023、对所述增益信号进行分帧及加窗处理,得到加窗信号。
在本实施例中,可以按照256点对所述增益信号进行分帧处理,然后使用三角窗对分帧处理后的信号进行加窗处理,加三角窗的优点是旁瓣小,而且无负旁瓣。
步骤S1024、对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号。
使用Gammatone滤波器组可以计算信号的子带能量,并可以用等响度曲线逆滤波来模拟人的主观感受,该滤波器组能很好地模拟基底膜的分频特性。
步骤S1025、对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
通过离散余弦变换,可以对数据进行压缩,去除数据的相关性,也就是频率方向各维之间的相关性,让数据的主要成分压缩在低频的位置。
步骤S103、提取所述预处理后的语音信号中的语音特征。
如图3所示,步骤S103具体可以包括如下过程:
步骤S1031、提取所述预处理后的语音信号的梅尔频率倒谱系数。
在声音处理领域中,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示,可以在多个领域中使声音信号有更好的表示。在本实施例中,可以基于梅尔刻度,在频域上使用一组三角滤波器计算语音信号的短时子带能量,取对数后再进行离散余弦变换去相关。
步骤S1032、根据所述梅尔频率倒谱系数计算偏移差分倒谱。
首先进行滤波并提取相对谱,目的是抑制信道噪声,也就是抑制信号中非语音信号的频谱。本实施例中优选采用转移函数如下所示的滤波器:
Figure BDA0002043005740000081
然后进一步计算偏移差分倒谱,该偏移差分倒谱特征是从连续若干帧一阶差分特征中抽取若干帧拼接而成的。
步骤S1033、根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征。
倒谱均值相减,即将一段语音的倒谱参数减去这段语音倒谱参数的均值,以消除传输信道的影响。而在这之前,可以通过语音端点检测进行语音位置的定位,确定出所述原始语音信号的端点,具体地,首先对所述原始语音信号进行能量计算并取对数,得到对数能量结果,然后使用预设的均值滤波器对所述对数能量结果进行平滑处理,得到平滑能量结果,最后根据所述平滑能量结果确定所述原始语音信号的端点,例如,可以预先设置一个阈值,大于阈值判别为语音,小于阈值判别为非语音,并由此确定语音的端点。
步骤S1034、对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征。
前面所提取的各个参数具有相应的概率分布,可以通过概率分布上的差异来识别信道中的不匹配,在具体实现上,首先把提取的各个参数和特征组合成特征矩阵,然后进行横向离散余弦变换得到时频二维倒谱特征,然后采用多帧时频二维倒谱特征来训练高斯混合模型,并计算时频二维倒谱特征中每个高斯分量的后验概率,然后进行加权,计算特征矩阵的每一行的统计量,进一步由统计量计算每个线性鉴别分析的解,然后对特征矩阵按行展开成的列向量进行变换,得到变换后的特征。
步骤S1035、对所述变换后的特征进行去噪处理,得到所述语音特征。
步骤S104、使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果。
所述语种识别模型用于进行语种的识别,包括但不限于现有技术中常用的各种神经网络模型以及机器学习模型等,具体选择哪一种模型,可以根据实际情况进行设置,本实施例对此不作具体限定。所述语种识别模型在投入使用之前,预先经过预设的训练样本集合训练得到。所述训练样本集合中包括不同语种的语音信号,对于少量的训练,可以直接进行采集(例如采集电子耳蜗使用者具体应用场景中的信号),对于大型训练,可以使用现成的语种语音库。所述训练样本集合的各个语音信号也需要预先进行预处理及语音特征提取的过程,具体过程与步骤S102及步骤S103中的内容类似,可参见前述内容,此处不再赘述。在经过所述训练样本集合的训练之后,即可使用训练好的所述语种识别模型对所述语音特征进行处理,得到语种识别结果。
步骤S105、从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作。
所述目标策略为与所述语种识别结果对应的语言处理策略。不同语种所采用的语言处理策略有所差别,例如,汉语含有声调等重要信息,声调对汉字识别有重要意义,同样一个音但声调不同,是对应不同的汉字和含义的,而英语等语种的声调则相对没那么重要。本实施例中根据各个语种的特点,预先设置了包括多种语言处理策略的语言处理策略库,在得到语种识别结果之后,即可根据该结果从所述语言处理策略库中选取出对应的语言处理策略,即所述目标测试,并控制电子耳蜗使用所述目标策略进行工作。
综上所述,本发明实施例采集待处理的原始语音信号;对所述原始语音信号进行预处理,得到预处理后的语音信号;提取所述预处理后的语音信号中的语音特征;使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。通过本发明实施例,可以根据语音信号的语种识别结果,针对各个语种的特点灵活地选取语言处理策略,从而大大提高了电子耳蜗的识别率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种电子耳蜗控制方法,图4示出了本发明实施例提供的一种电子耳蜗控制装置的一个实施例结构图。
本实施例中,一种电子耳蜗控制装置可以包括:
语音信息采集模块401,用于采集待处理的原始语音信号;
预处理模块402,用于对所述原始语音信号进行预处理,得到预处理后的语音信号;
语音特征提取模块403,用于提取所述预处理后的语音信号中的语音特征;
语种识别模块404,用于使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;
策略选取模块405,用于从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。
进一步地,所述预处理模块可以包括:
高通滤波单元,用于使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号;
增益调整单元,用于根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号;
分帧加窗单元,用于对所述增益信号进行分帧及加窗处理,得到加窗信号;
Gammatone滤波单元,用于对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号;
离散余弦变换单元,用于对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
进一步地,所述增益调整单元可以包括:
平均幅度计算子单元,用于计算所述高通滤波信号的平均幅度;
增益系数计算子单元,用于根据所述归一化值和所述高通滤波信号的平均幅度计算增益系数;
增益调整子单元,用于使用所述增益系数对所述高通滤波信号进行增益调整。
进一步地,所述语音特征提取模块可以包括:
梅尔频率倒谱系数提取单元,用于提取所述预处理后的语音信号的梅尔频率倒谱系数;
偏移差分倒谱计算单元,用于根据所述梅尔频率倒谱系数计算偏移差分倒谱;
高斯化特征计算单元,用于根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征;
特征变换单元,用于对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征;
去噪处理单元,用于对所述变换后的特征进行去噪处理,得到所述语音特征。
进一步地,所述语音特征提取模块还可以包括:
能量计算单元,用于对所述原始语音信号进行能量计算并取对数,得到对数能量结果;
平滑处理单元,用于使用预设的均值滤波器对所述对数能量结果进行平滑处理,得到平滑能量结果;
端点确定单元,用于根据所述平滑能量结果确定所述原始语音信号的端点。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种电子耳蜗的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
如图5所示,该实施例的电子耳蜗5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个电子耳蜗控制方法实施例中的步骤,例如图1所示的步骤S101至步骤S105。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至模块405的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述电子耳蜗5中的执行过程。
本领域技术人员可以理解,图5仅仅是电子耳蜗5的示例,并不构成对电子耳蜗5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述电子耳蜗5的内部存储单元,例如电子耳蜗5的硬盘或内存。所述存储器51也可以是所述电子耳蜗5的外部存储设备,例如所述电子耳蜗5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述电子耳蜗5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述电子耳蜗5所需的其它程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/电子耳蜗和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子耳蜗实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种电子耳蜗控制方法,其特征在于,包括:
采集待处理的原始语音信号;
对所述原始语音信号进行预处理,得到预处理后的语音信号;
提取所述预处理后的语音信号中的语音特征,包括:提取所述预处理后的语音信号的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数计算偏移差分倒谱;根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征;对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征;对所述变换后的特征进行去噪处理,得到所述语音特征;所述得到变换后的特征,具体为:把提取的各个参数和特征组合成特征矩阵,进行横向离散余弦变换得到时频二维倒谱特征,采用多帧时频二维倒谱特征来训练高斯混合模型,并计算时频二维倒谱特征中每个高斯分量的后验概率进行加权,计算特征矩阵的每一行的统计量,由统计量计算每个线性鉴别分析的解,对特征矩阵按行展开成的列向量进行变换,得到变换后的特征;
使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;所述训练样本集合中包括不同语种的语音信号;
从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。
2.根据权利要求1所述的电子耳蜗控制方法,其特征在于,所述对所述原始语音信号进行预处理,得到预处理后的语音信号包括:
使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号;
根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号;
对所述增益信号进行分帧及加窗处理,得到加窗信号;
对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号;
对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
3.根据权利要求2所述的电子耳蜗控制方法,其特征在于,所述根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号包括:
计算所述高通滤波信号的平均幅度;
根据所述归一化值和所述高通滤波信号的平均幅度计算增益系数;
使用所述增益系数对所述高通滤波信号进行增益调整。
4.根据权利要求1所述的电子耳蜗控制方法,其特征在于,在根据所述偏移差分倒谱进行倒谱均值相减之前,还包括:
对所述原始语音信号进行能量计算并取对数,得到对数能量结果;
使用预设的均值滤波器对所述对数能量结果进行平滑处理,得到平滑能量结果;
根据所述平滑能量结果确定所述原始语音信号的端点。
5.一种电子耳蜗控制装置,其特征在于,包括:
语音信息采集模块,用于采集待处理的原始语音信号;
预处理模块,用于对所述原始语音信号进行预处理,得到预处理后的语音信号;
语音特征提取模块,用于提取所述预处理后的语音信号中的语音特征;所述语音特征提取模块包括:梅尔频率倒谱系数提取单元,用于提取所述预处理后的语音信号的梅尔频率倒谱系数;偏移差分倒谱计算单元,用于根据所述梅尔频率倒谱系数计算偏移差分倒谱;高斯化特征计算单元,用于根据所述偏移差分倒谱进行倒谱均值相减,并使用预设的高斯混合模型对倒谱均值相减后的所述偏移差分倒谱进行处理,得到高斯化特征;特征变换单元,用于对所述高斯化特征进行线性判别分析及特征变换,得到变换后的特征;去噪处理单元,用于对所述变换后的特征进行去噪处理,得到所述语音特征;所述得到变换后的特征,具体为:把提取的各个参数和特征组合成特征矩阵,进行横向离散余弦变换得到时频二维倒谱特征,采用多帧时频二维倒谱特征来训练高斯混合模型,并计算时频二维倒谱特征中每个高斯分量的后验概率进行加权,计算特征矩阵的每一行的统计量,由统计量计算每个线性鉴别分析的解,对特征矩阵按行展开成的列向量进行变换,得到变换后的特征;
语种识别模块,用于使用预设的语种识别模型对所述语音特征进行处理,得到语种识别结果,所述语种识别模型用于进行语种的识别,预先经过预设的训练样本集合训练得到;所述训练样本集合中包括不同语种的语音信号;
策略选取模块,用于从预设的语言处理策略库中选取目标策略,并控制电子耳蜗使用所述目标策略进行工作,所述目标策略为与所述语种识别结果对应的语言处理策略。
6.根据权利要求5所述的电子耳蜗控制装置,其特征在于,所述预处理模块包括:
高通滤波单元,用于使用预设的高通滤波器对所述原始语音信号进行处理,得到高通滤波信号;
增益调整单元,用于根据预设的归一化值对所述高通滤波信号进行增益调整,得到增益信号;
分帧加窗单元,用于对所述增益信号进行分帧及加窗处理,得到加窗信号;
Gammatone滤波单元,用于对所述加窗信号进行傅里叶变换,并使用预设的Gammatone滤波器组对傅里叶变换后的信号进行处理,得到Gammatone滤波信号;
离散余弦变换单元,用于对所述Gammatone滤波信号进行离散余弦变换,得到所述预处理后的语音信号。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的电子耳蜗控制方法的步骤。
8.一种电子耳蜗,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的电子耳蜗控制方法的步骤。
CN201910347974.XA 2019-04-28 2019-04-28 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 Active CN110111769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910347974.XA CN110111769B (zh) 2019-04-28 2019-04-28 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910347974.XA CN110111769B (zh) 2019-04-28 2019-04-28 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗

Publications (2)

Publication Number Publication Date
CN110111769A CN110111769A (zh) 2019-08-09
CN110111769B true CN110111769B (zh) 2021-10-15

Family

ID=67487163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910347974.XA Active CN110111769B (zh) 2019-04-28 2019-04-28 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗

Country Status (1)

Country Link
CN (1) CN110111769B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050262B (zh) * 2020-01-10 2021-04-13 杭州耳青聪科技有限公司 一种智能语音增强的实时电子耳蜗调试系统
CN111243627B (zh) * 2020-01-13 2022-09-27 云知声智能科技股份有限公司 一种语音情感识别方法及装置
CN112420018A (zh) * 2020-10-26 2021-02-26 昆明理工大学 一种适用于低信噪比环境下语种识别方法
CN113257226B (zh) * 2021-03-28 2022-06-28 昆明理工大学 一种基于gfcc的改进特征参数的语种识别方法
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259175A (ja) * 1999-03-08 2000-09-22 Mitsubishi Electric Corp 音声認識装置
CN103778920B (zh) * 2014-02-12 2016-03-09 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN104777629A (zh) * 2015-05-05 2015-07-15 张景 头戴式助听装置
CN107767859B (zh) * 2017-11-10 2020-10-20 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN109036437A (zh) * 2018-08-14 2018-12-18 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN110111769A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
WO2019227586A1 (zh) 语音模型训练方法、说话人识别方法、装置、设备及介质
CN109326299B (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN108564965B (zh) 一种抗噪语音识别系统
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
CN104778948B (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
WO2020087716A1 (zh) 人工耳蜗听觉场景识别方法
Hossain et al. Reference-free assessment of speech intelligibility using bispectrum of an auditory neurogram
CN111796790A (zh) 一种音效调节方法、装置、可读存储介质及终端设备
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Hossain et al. On the feasibility of using a bispectral measure as a nonintrusive predictor of speech intelligibility
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
Dai et al. An improved model of masking effects for robust speech recognition system
CN113012710A (zh) 一种音频降噪方法及存储介质
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
CN111816208A (zh) 一种语音分离质量评估方法、装置及计算机存储介质
Nemala et al. Biomimetic multi-resolution analysis for robust speaker recognition
CN116645975B (zh) 一种呼吸声音特征自动抽取方法、装置、存储介质及系统
CN114220449A (zh) 一种语音信号降噪处理方法、装置和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant