CN111489739B - 音素识别方法、装置及计算机可读存储介质 - Google Patents
音素识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111489739B CN111489739B CN202010306052.7A CN202010306052A CN111489739B CN 111489739 B CN111489739 B CN 111489739B CN 202010306052 A CN202010306052 A CN 202010306052A CN 111489739 B CN111489739 B CN 111489739B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- feature map
- audio signal
- identification result
- data format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims abstract description 80
- 230000009466 transformation Effects 0.000 claims abstract description 59
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 230000003247 decreasing effect Effects 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000013144 data compression Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种音素识别方法、装置及计算机可读存储介质。该音素识别方法包括:对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果,以根据所述第一识别结果确定音素序列。利用上述音素识别方法,能够降低运算量、降低功耗、提高识别速度。
Description
技术领域
本申请属于语音识别领域,具体涉及一种音素识别方法、装置及计算机可读存储介质。
背景技术
在语音识别领域中,音素(phoneme),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。现有的音素识别方法存在计算量大,反应速度慢的问题。
发明内容
本申请实施例提出了一种音素识别方法、装置及计算机可读存储介质。利用这种音素识别方法及装置,能够至少部分解决上述技术问题。
本申请的实施例中提供了以下方案。
本申请的实施例提供一种音素识别方法,包括:对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果;根据所述第一识别结果确定音素序列。
可选地,所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式,且所述定点数的位数小于所述浮点数中尾数的位数。
可选地,对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,包括:对所述第一特征图的声音强度值进行第一线性变换。
可选地,根据所述第一识别结果确定音素序列,包括:对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;对所述第二识别结果经集束搜索得到音素序列概率;将所述音素序列概率经连接时序分类处理得到音素序列。
可选地,根据所述第一识别结果确定音素序列,包括:对所述第一识别结果经最大值搜索得到识别出的音素;将所述识别出的音素经连接时序分类处理得到音素序列。
可选地,还包括确定音频信号的第一特征图的步骤,其中包括:对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长;对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
可选地,确定音频信号的第一特征图,还包括:将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
可选地,确定音频信号的第一特征图,还包括:获取初始音频信号;对所述初始音频信号进行预处理,得到所述时域的音频信号;对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
可选地,对所述初始音频信号进行预处理,包括:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
本申请的实施例提供一种音素识别装置,第一变换模块,配置为对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;第二变换模块,配置为将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;神经网络模块,配置为将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果;序列输出模块,配置为根据所述第一识别结果确定音素序列。
可选地,所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式,且所述定点数的位数小于所述浮点数中尾数的位数。
可选地,所述第一变换模块具体配置为:对所述第一特征图的声音强度值进行第一线性变换。
可选地,所述序列输出模块具体配置为:对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;对所述第二识别结果经集束搜索得到音素序列概率;将所述音素序列概率经连接时序分类处理得到音素序列
可选地,所述序列输出模块具体配置为:对所述第一识别结果经最大值搜索得到识别出的音素;将所述识别出的音素经连接时序分类处理得到音素序列。
可选地,还包括确定模块,所述确定模块包括:第一加窗单元,配置为对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长;第二加窗单元,配置为对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
可选地,所述确定模块还包括:数据压缩单元,配置为将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
可选地,所述确定模块还包括:获取单元,配置为获取初始音频信号;预处理单元,配置为对所述初始音频信号进行预处理,得到所述时域的音频信号;检测单元,配置为对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
可选地,所述预处理单元配置为:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
可选地,所述神经网络模块由专用集成电路实现,所述第一变换模块和所述序列输出模块为软件模块。
本申请的实施例提供一种音素识别装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:上述的音素识别方法。
本申请的实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行上述的音素识别方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:采用第二数据格式表示其中声音强度值的第二特征图作为神经网络的输入,相较于采用第一特征图作为神经网络的输入,例如是采用更少位数的定点型数据代替较多位数的浮点型数据,神经网络的计算的规模更小,运算速度更快,耗电量更低。
应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1为根据本申请一实施例的音素识别方法的流程示意图;
图2为根据本申请又一实施例的音素识别方法的流程示意图;
图3为根据本申请一实施例的音素识别装置的结构示意图;
图4为根据本申请另一实施例的音素识别装置的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本申请中实施例及实施例中特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为根据本申请一实施例的音素识别方法100的流程示意图,该音素识别方法100用于从特征图中识别出音素序列,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。
图1中流程可以包括以下步骤101~步骤104。
步骤101、对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式。
步骤102、将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式。
步骤103、将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果。
步骤104、根据所述第一识别结果确定音素序列。
数据格式例如有两种,一是定点格式,二是浮点格式。所谓定点数和浮点数,是指在计算机中一个数的小数点的位置是固定的还是浮动的:如果一个数中小数点的位置是固定的,则为定点数;如果一个数中小数点的位置是浮动的,则为浮点数。一般来说,定点格式可表示的数值的范围有限,但要求的处理硬件比较简单。而浮点格式可表示的数值的范围很大,但要求的处理硬件比较复杂。
一个浮点数a在计算机中通常由两个数m和e来表示:a=m×b^e。m(即尾数)是形如±d.ddd...ddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作规格化的。有一些描述使用一个单独的符号位来表示正负,这样m必须是正的。e是指数。定点数的小数点的位置固定不变。对于二进制数而言,b=2。
声音强度值的动态范围即最大声音强度值与最小声音强度值的比值。
第一变换具体为一个单调递增函数或者单调递减函数,如此是为了不损失第一特征图中所包含的信息,从而保证了音素识别结果的准确性。
正是由于第一变换,使得第二特征图中声音强度值的动态范围变小,进一步使得采用更少位数的定点数表示声音强度值时能够满足足够的精度。在进行神经网络计算时,通常会涉及到加法运算和乘法运算。在数据的位数相同的情况下,进行加法运算时,定点数比浮点数更具有优势,而进行乘法运算时,定点数不如浮点数效率高。为了减少神经网络的计算量,就需要减少定点数的位数。在保证音素识别结果准确性的前提下,神经网络的计算量大大降低,由此导致运算速度提升,功耗降低。
在本申请的一个实施例中,将32位浮点数表示的声音强度值进行第一变换,第一变换后的声音强度值仍采用32位浮点数表示,由于其动态范围降低,32位浮点数的尾数中后几位如果被略去对最终的识别结果影响可以忽略,故可以截取32位浮点数的尾数中前几位变换得到8位或16位定点数表示的声音强度值。32位浮点数中通常用24位定点数表示尾数,8位或16位的定点数的乘法运算的计算量小于24位定点数的乘法运算的计算量。从而不论是加法运算还是乘法运算,神经网络的运算量都得到极大降低。
注意,在忽略数据格式转换造成的误差的情况下,步骤102中,第一数据表达格式表达的声音强度值与第二数据格式表达的声音强度值是等值的。
具体地,神经网络可选为卷积神经网络(CNN),当然也可以采用循环神经网络(RNN)等其他类型的神经网络。
以上定点数、浮点数的数据表达格式仅是举例。只要第二数据表达格式表示的声音强度值比第一数据格式表达的声音强度值在神经网络模型的计算速度更快、功耗更低即可。
在一些可选的实施方式中,对所述第一特征图的声音强度值进行单调递增或单调递减的第一变换,包括:对所述第一特征图的声音强度值进行线性变换或者取对数。
例如,采用u=av+b的公式对第一特征图中声音强度值进行调整。其中,v表示第一特征图中声音强度值,u表示第二特征图中声音强度值,a和b为常数。其中,a不能为0,b可以是0也可以不等于0。
在一些可选的实施方式中,根据所述第一识别结果确定音素序列,包括:对所述第一识别结果经最大值搜索得到识别出的音素;将所述识别出的音素经连接时序分类处理得到音素序列。
每一个特征图作为一个数据帧。神经网络针对每一个数据帧得到的识别结果是一个概率列表,例如当前数据帧对应的音素是n的概率是多大,是i的概率是多大。最大值搜索即将概率值最大的识别结果最为该数据帧识别出的音素。
连接时序分类(Connectionist Temporal Classification,CTC)处理可用于归纳字符间的连接特性。例如是去除重复的音素。最大值搜索得到的音素序列为:Nnihaaaooooo,去除重复音素后得到音素序列:Nihao。
在一些可选的实施方式中,根据所述第一识别结果确定音素序列,包括:对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;将所述音素序列概率经连接时序分类处理得到音素序列。
集束搜索(Beam Search)使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数(Beam Width-集束宽度)的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。如果集束宽度无穷大,那该搜索就是宽度优先搜索。
集束搜索不是选择一个概率最大值,而是选前n个最大的备选方案,n就是集束大小。
这里预设平均值指的是在对神经网络进行测试时,得到的识别结果的平均值。这里预设方差指的是在对神经网络进行测试时,得到的识别结果的方差。如此,可以简化CTC运算。
如第一识别结果采用定点数表示,为提高后续CTC计算的精度,可以采用尾数位数更多的浮点数表示第二线性变换后的识别结果。
图2示出的是确定音频信号的第一特征图的详细过程。参考图2,在一些可选的实施方式中,确定音频信号的第一特征图,包括以下步骤。
步骤205、对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长。
步骤207、对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
其中,在对时域的音频信号进行短时傅里叶变换时,相邻两个第一窗口优选应当在时间上具有一定的交叠,如此可以保证第一窗口的不会将关键信息截断在两个第一窗口。当然,在精度允许的情况下,相邻两个第一窗口之间在时间上也可以没有交叠。
第一窗口例如是矩形窗,也可以是汉明窗。
每次短时傅里叶变换都会得到一条频谱线。如需图形化展示频谱线,例如可以用x轴表示频率,z轴表示声音强度值。将这些频谱线按照时间上出现的先后顺序排列起来变构成的第一频谱图。例如可以用y轴表示每条频谱线出现的时间。因此,第一频谱图也可以认为是沿时间轴排列的多条频谱线。第一频谱图中每个数据点可表示为[f,t,i],即在t时刻进行的短时傅里叶变换得到的频谱线中频点为f的声音强度值i。
为保证短时傅里叶变换的计算的精度,通常采用浮点型数据表示每个频点对应的声音强度值。本申请中,以32位浮点型数据表示第一特征图中声音强度值。
第二窗口具体可为矩形窗。即截取一段时间范围内一段频谱范围的第一频谱图。
第二窗口截取的频率范围通常是人声的频率范围,例如是100Hz(男低音)到10000Hz(女高音)的频率范围。
第二窗口截取的时间长度不能过小,以保证能识别出一个音素;也不可以过大,以避免一个第二窗口截取到的第一特征图包含了两个音素的信息,且二者互相干扰强烈。
优选地,相邻的两个第二窗口存在时间上的交叠,这样也是保证一个音素信息不会被分割到两个第二窗口截取到的第一特征图中。当然,如对音素识别的精度要求不高,相邻的两个第二窗口之间在时间上也可以是没有交叠的。
沿用前例,第一特征图中声音强度值例如采用32位浮点数的数据格式表示。如此是为了保证计算的精度。
在一些可选的实施方式中,确定音频信号的第一特征图,还包括:步骤206、将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
例如是将同一时间下,频率为201和202的两个声音强度值取平均作为一个数据点,频率为203和204的两个声音强度值取平均作为一个数据点。大大降低了第一频谱图的数据量。
在一些可选的实施方式中,确定音频信号的第一特征图,还包括以下步骤。
步骤201、获取初始音频信号。
步骤202、对所述初始音频信号进行预处理,得到所述时域的音频信号。
步骤204、对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
步骤202的目的在于提高音频信号的信噪比,例如可以包括:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
可选地,确定连续的多个第一特征图,还包括:步骤203、对麦克风阵列执行波束成型,以提升所述初始音频信号的信噪比。波束成型操作的目的是希望被采集的语音信号更清晰。
在一个具体的例子中,由麦克风阵列获取初始音频信号,然后进行自动增益控制,随后经波束成型提高初始音频信号的信噪比,然后依次执行回声消除、去混响、语音信号检测。仅在检测到语音信号的时间段内执行上述步骤205的操作。
基于相同的技术构思,本申请实施例还提供一种音素识别装置,用于执行上述任一实施例所提供的音素识别方法。图3为本申请实施例提供的一种音素识别装置结构示意图。
参考图3,本申请的实施例的一种音素识别装置,包括:第一变换模块2a,配置为对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;第二变换模块2b,配置为将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;神经网络模块3,配置为以所述第二特征图作为神经网络的输入得到第一识别结果;序列输出模块4,配置为根据所述第一识别结果确定音素序列。
在一些可选的实施方式中,所述第一数据格式包括浮点数格式,所述第二数据格式包括定点数格式,且所述定点数的位数小于所述浮点数中尾数的位数。
在一些可选的实施方式中,第一变换模块2a具体配置为:对所述第一特征图的声音强度值进行第一线性变换。
在一些可选的实施方式中,所述序列输出模块4具体配置为:对所述第一识别结果经最大值搜索得到识别出的音素;将所述识别出的音素经连接时序分类处理得到音素序列。
在一些可选的实施方式中,所述序列输出模块4具体配置为:对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;对所述第二识别结果经集束搜索得到音素序列概率;将所述音素序列概率经连接时序分类处理得到音素序列。
在一些可选的实施方式中,还包括确定模块1,确定模块1包括:第一加窗单元15,配置为对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长;第二加窗单元17,配置为对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
在一些可选的实施方式中,所述确定模块1还包括:数据压缩单元16,配置为将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
在一些可选的实施方式中,所述确定模块1还包括:获取单元11,配置为获取初始音频信号;预处理单元13,配置为对所述初始音频信号进行预处理,得到所述时域的音频信号;检测单元14,配置为对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
在一些可选的实施方式中,所述预处理单元13配置为:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
当然,确定模块2还可以包含波束成型模块12,配置为对麦克风阵列执行波束成型,以提高信噪比。
在一些可选的实施方式中,所述神经网络模块由专用集成电路实现,所述第一变换模块和所述序列输出模块为软件模块。
采用专用集成电路进行神经网络计算的效率比采用程序在内存和CPU中运行的方式效率更高,通常要高出一个数量级以上。并且神经网络的结构相对固定,更适于由专用集成电路实现。而诸如第一变换模块和序列输出模块,消耗的计算量相对较少,采用程序在内存中运行而实现的方式可以控制成本。
需要说明的是,本申请实施例中音素识别装置可以实现前述方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
图4为根据本申请一实施例的音素识别装置,用于执行图1(还可能包括图2)所示出的方法,该音素识别装置包括:至少一个处理器2000;以及,与至少一个处理器2000通信连接的存储器1000;其中,存储器1000存储有可被至少一个处理器2000执行的指令,指令被至少一个处理器2000执行,以使至少一个处理器2000能够执行:上述的音素识别方法。
根据本申请的一些实施例,提供了一种非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:上述的音素识别方法。
本申请中各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中每一流程和/或方框、以及流程图和/或方框图中流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (21)
1.一种音素识别方法,其特征在于,包括:
对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;
将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式;
将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果;
根据所述第一识别结果确定音素序列。
2.根据权利要求1所述的音素识别方法,其特征在于,所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式,且所述定点数的位数小于所述浮点数中尾数的位数。
3.根据权利要求1所述的音素识别方法,其特征在于,对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,包括:对所述第一特征图的声音强度值进行第一线性变换。
4.根据权利要求1所述的音素识别方法,其特征在于,根据所述第一识别结果确定音素序列,包括:
对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;
对所述第二识别结果经集束搜索得到音素序列概率;
将所述音素序列概率经连接时序分类处理得到音素序列。
5.根据权利要求1所述的音素识别方法,其特征在于,根据所述第一识别结果确定音素序列,包括:
对所述第一识别结果经最大值搜索得到识别出的音素;
将所述识别出的音素经连接时序分类处理得到音素序列。
6.根据权利要求1所述的音素识别方法,其特征在于,还包括确定音频信号的第一特征图的步骤,其中包括:
对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长;
对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
7.根据权利要求6所述的音素识别方法,其特征在于,确定音频信号的第一特征图,还包括:将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
8.根据权利要求6所述的音素识别方法,其特征在于,确定音频信号的第一特征图,还包括:
获取初始音频信号;
对所述初始音频信号进行预处理,得到所述时域的音频信号;
对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
9.根据权利要求8所述的音素识别方法,其特征在于,对所述初始音频信号进行预处理,包括:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
10.一种音素识别装置,其特征在于,包括:
第一变换模块,配置为对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图,所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围,其中,所述第二特征图中声音强度值采用第一数据格式;
第二变换模块,配置为将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式;所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式;
神经网络模块,配置为将具有所述第二数据格式的第二特征图输入至神经网络模型中,得到第一识别结果;
序列输出模块,配置为根据所述第一识别结果确定音素序列。
11.根据权利要求10所述的音素识别装置,其特征在于,所述第一数据格式为浮点数格式,所述第二数据格式为定点数格式,且所述定点数的位数小于所述浮点数中尾数的位数。
12.根据权利要求10所述的音素识别装置,其特征在于,所述第一变换模块具体配置为:对所述第一特征图的声音强度值进行第一线性变换。
13.根据权利要求10所述的音素识别装置,其特征在于,所述序列输出模块具体配置为:
对所述第一识别结果进行第二线性变换,以使所述第二线性变换后的识别结果的平均值为预设平均值,且所述第二线性变换后的识别结果的方差为预设方差,第二线性变换后的识别结果为第二识别结果,所述第一识别结果采用定点数格式表示,所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数;
对所述第二识别结果经集束搜索得到音素序列概率;
将所述音素序列概率经连接时序分类处理得到音素序列。
14.根据权利要求10所述的音素识别装置,其特征在于,所述序列输出模块具体配置为:
对所述第一识别结果经最大值搜索得到识别出的音素;
将所述识别出的音素经连接时序分类处理得到音素序列。
15.根据权利要求10所述的音素识别装置,其特征在于,还包括确定模块,所述确定模块包括:
第一加窗单元,配置为对时域的音频信号加第一窗口,对每一个第一窗口内的音频信号进行短时傅里叶变换,得到第一频谱图,其中,所述第一窗口具有设定的时长;
第二加窗单元,配置为对所述第一频谱图加第二窗口,得到连续的多个第一特征图,所述第二窗口具有设定的频率范围和设定的时长。
16.根据权利要求15所述的音素识别装置,其特征在于,所述确定模块还包括:
数据压缩单元,配置为将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。
17.根据权利要求15所述的音素识别装置,其特征在于,所述确定模块还包括:
获取单元,配置为获取初始音频信号;
预处理单元,配置为对所述初始音频信号进行预处理,得到所述时域的音频信号;
检测单元,配置为对所述时域的音频信号进行语音信号检测,如检测到语音信号则执行:对时域的音频信号加时间窗口,对每一个时间窗口内的音频信号进行短时傅里叶变换。
18.根据权利要求17所述的音素识别装置,其特征在于,所述预处理单元配置为:对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。
19.根据权利要求10所述的音素识别装置,其特征在于,所述神经网络模块由专用集成电路实现,所述第一变换模块和所述序列输出模块为软件模块。
20.一种音素识别装置,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:根据权利要求1-9任意一项所述的音素识别方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如权利要求1-9中任一项所述的音素识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306052.7A CN111489739B (zh) | 2020-04-17 | 2020-04-17 | 音素识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306052.7A CN111489739B (zh) | 2020-04-17 | 2020-04-17 | 音素识别方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111489739A CN111489739A (zh) | 2020-08-04 |
CN111489739B true CN111489739B (zh) | 2023-06-16 |
Family
ID=71812853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306052.7A Active CN111489739B (zh) | 2020-04-17 | 2020-04-17 | 音素识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489739B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767950A (zh) * | 2021-02-24 | 2021-05-07 | 嘉楠明芯(北京)科技有限公司 | 一种声纹识别方法、装置及计算机可读存储介质 |
CN114267375B (zh) * | 2021-11-24 | 2022-10-28 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014020588A1 (en) * | 2012-07-31 | 2014-02-06 | Novospeech Ltd. | Method and apparatus for speech recognition |
WO2019019252A1 (zh) * | 2017-07-28 | 2019-01-31 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1876901A (en) * | 1999-12-15 | 2001-06-25 | Bright Spark Technologies (Proprietary) Limited | Phonemes recognition in an audio signal |
TW201117194A (en) * | 2009-11-12 | 2011-05-16 | Nat Cheng Kong University | Fixed-point arithmetic design of embedded text-independent speaker recognition system |
JP6876543B2 (ja) * | 2017-06-29 | 2021-05-26 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
EP3679524A4 (en) * | 2017-09-05 | 2020-10-28 | Panasonic Intellectual Property Corporation of America | EXECUTION METHOD, EXECUTION DEVICE, LEARNING METHOD, LEARNING DEVICE AND PROGRAM FOR A DEEP NEURONAL NETWORK |
CN109599094A (zh) * | 2018-12-17 | 2019-04-09 | 海南大学 | 声音美容与情感修饰的方法 |
-
2020
- 2020-04-17 CN CN202010306052.7A patent/CN111489739B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014020588A1 (en) * | 2012-07-31 | 2014-02-06 | Novospeech Ltd. | Method and apparatus for speech recognition |
WO2019019252A1 (zh) * | 2017-07-28 | 2019-01-31 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111489739A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10403266B2 (en) | Detecting keywords in audio using a spiking neural network | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
US10089989B2 (en) | Method and apparatus for a low power voice trigger device | |
KR20190110939A (ko) | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
CN111489739B (zh) | 音素识别方法、装置及计算机可读存储介质 | |
CN110853648B (zh) | 一种不良语音检测方法、装置、电子设备及存储介质 | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN105654955B (zh) | 语音识别方法及装置 | |
CN114443891B (zh) | 编码器的生成方法、指纹提取方法、介质及电子设备 | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN108847251B (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
CN112767950A (zh) | 一种声纹识别方法、装置及计算机可读存储介质 | |
CN110070891B (zh) | 一种歌曲识别方法、装置以及存储介质 | |
Kim et al. | Efficient harmonic peak detection of vowel sounds for enhanced voice activity detection | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
CN117558269B (zh) | 声音识别方法、装置、介质和电子设备 | |
CN115985347B (zh) | 基于深度学习的语音端点检测方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201203 Address after: Room 206, 2 / F, building C, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094 Applicant after: Canaan Bright Sight Co.,Ltd. Address before: 310000, room 12, building 4, building nine, No. nine, 1203 Ring Road, Hangzhou, Zhejiang, Jianggan District Applicant before: Hangzhou Canaan Creative Information Technology Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |