CN112562676B - 一种语音解码方法、装置、设备及存储介质 - Google Patents
一种语音解码方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112562676B CN112562676B CN202011271290.5A CN202011271290A CN112562676B CN 112562676 B CN112562676 B CN 112562676B CN 202011271290 A CN202011271290 A CN 202011271290A CN 112562676 B CN112562676 B CN 112562676B
- Authority
- CN
- China
- Prior art keywords
- recognized
- audio frame
- voice
- information
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000033764 rhythmic process Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000009471 action Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000008609 bushi Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种语音解码方法、装置、设备及存储介质,涉及语音识别技术领域。将待识别语音的韵律信息加入到有限状态转换器的解码过程中,以使在有限状态转换器中可以结合韵律信息,避免错误的搜索路径,进而提高语音识别的识别准确率和实时率。预测待识别语音的韵律信息;将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及一种语音解码方法、装置、设备及存储介质。
背景技术
语音识别(Automatic Speech Recognition,ASR)是一项研究如何将人类说话的声音识别转换为文本的技术,其广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。
声学模型(AM Acoustic Model)是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。
有限状态转换器(HCLG)是一个从上下文相关音素子状态到词的转换器,由语言模型(G),发音词典(L),上下文相关信息(C),隐马尔可夫模型(H)四个部分构建得到。
在语音识别中,先提取语音音频的声学特征,将声学特征输入声学模型,再根据声学模型的输出在有限状态转换器中进行路径搜索,解码得到相应的文本。但在有限状态转换器的解码过程中,进行路径搜索的依据只有声学模型的输出,从而造成在有限状态转换器中的整个解码过程与声音无关,导致解码过程识别准确率不高,解码过程识别速率较低。
发明内容
本申请实施例提供一种语音解码方法、装置、设备及存储介质,将待识别语音的韵律信息加入到有限状态转换器的解码过程中,以使在有限状态转换器中可以结合韵律信息,避免错误的搜索路径,进而提高语音识别的识别准确率和实时率。
本申请实施例第一方面提供一种语音解码方法,所述方法包括:
预测待识别语音的韵律信息;
将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本。
可选地,根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本,包括:
依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
可选地,所述方法还包括:
获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
将经过多次训练后的预设模型确定为韵律预测模型;
预测待识别语音的韵律信息,包括:
将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
可选地,根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本,包括:
根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;
搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
本申请实施例第二方面提供一种语音解码装置,所述装置包括:
预测模块,用于预测待识别语音的韵律信息;
标记模块,用于将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
输入模块,用于将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
解码模块,用于根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本。
可选地,所述解码模块包括:
当前音频帧确定子模块,用于依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
韵律信息获取子模块,用于在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
解码子模块,用于根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
可选地,所述装置还包括:
样本获得模块,用于获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
训练模块,用于将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
韵律预测模型获得模块,用于将经过多次训练后的预设模型确定为韵律预测模型;
所述预测模块包括:
预测子模块,用于将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
可选地,所述解码子模块包括:
路径确定子单元,用于根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;
搜索子单元,用于搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
本申请实施例在语音识别的过程中,将携带韵律信息的音频帧序列和待识别语音的多个音素后验概率同时输入有限状态转换器,在解码时,结合韵律信息和音素后验概率,在有限状态转换器进行路径搜索,增加路径搜索的准确率,进而提高语音识别的准确率。
进一步地,本申请实施例在语音识别过程中,检测得到待识别语音的韵律信息,将韵律信息加入到语音识别的解码过程中,根据韵律信息对有限状态转换器中的搜索路径进行筛选,确定并排除不符合待识别语音的声音的韵律信息的搜索路径,从待识别语音的声音停顿信息的角度,排除了解码得到错误文本的可能性,从而提高识别准确率。并且由于排除了不符合待识别语音的声音的韵律信息的搜索路径,最终需要搜索的路径数量减少,提高了语音识别解码的速度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是一种有限状态转换器的示例图;
图2是本申请实施例提出的语音解码方法的步骤流程图;
图3是本申请实施例中具有韵律信息标记的音频样本的示意图;
图4是本申请依次对待识别语音的多个音素后验概率进行解码的步骤流程图;
图5是本申请实施例提出的语音解码装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
有限状态转换器HCLG中的语言模型(G)(LM Language Model)可以是根据上下文关系,计算文本中单词的条件概率的模型。示例地,语言模型可以根据“市团”,预测得到下一个字可能是“委”或“长”,并分别计算出“委”和“长”的条件概率。本申请实施例中具体可以使用n-gram语言模型、基于前馈神经网络的语言模型或者基于循环神经网络的语言模型。n-gram是指假定某一个字(词)的输出只与前面N-1个字(词)出现的概率有关系。
HCLG中的发音词典(L)(lexicon),可以是字或词到音素的映射关系,即用声母和韵母来表示字(词)。示例地,发音词典可以是“shituan”到“市团”的映射关系。
HCLG中的上下文相关(C)可以是根据任意音素的相邻音素,预测该音素的发音的模型。例如“不是”的拼音是“bushi”,上下文相关(C)根据音素“sh”的三音子“u-sh-i”预测音素“sh”在“u”和“i”的上下文条件间的发音。
HCLG中的隐马尔可夫模型(H)(HMM Hidden Markov Model)是可以描述等多种状态的模型。隐马尔可夫模型可以将三音子用三个状态表示,每个音素都由三个模型刻画建模,更精细地对音素进行表达。在隐马尔可夫模型结合语言模型(G)发音词典(L)、上下文相关(C)组成的HCLG中,可以将任意音素的三音子用三种状态表示,使音素的表示更加精细。例如结合隐马尔可夫模型的HCLG中,可以对拼音“wei”的音素“ei”进行三种状态的建模,在实际解码过程中,根据三种状态的模型对音素“ei”进行计算,得到更加精细的结果。,
图1是本申请一种示例中有限状态转换器的示例图。图1中的示例图是以音频的内容是“你好”、“你说”为例建立的有限状态转换器的示意图。如图1所示,有限状态转换器中具有多个状态节点和转移弧,每个转移弧为一条可能的搜索路径,可以是对应音素的搜索路径,例如“i3/<eps>”、“ao3:<eps>”、“uo1:<eps>”,其中<eps>为占位符,“i”为音素,“3”为声调;也可以是单词(根据语言模型得到)以及择单词的搜索路径,例如“n:你/1.0986”、“h:好/1.792”、“sh:说/1.792”、n:你/0.40527,其中,n为输入字符,你是输出字符,1.0986为选择该条路径的概率;“sil:<eps>/0.69336”为对应静音的转移弧,“sil”为silence的缩写。“#1:<eps>”中的“#1”是消岐符号,<eps>为占位符;节点3是指:指向节点的多个转移弧可以合并的情况下,可以将指向节点3的多个转移换的概率合并到节点3,输出最终的结果“你好”或“你说”。
现有技术下,对语音的解码仅依据声学模型的输出,对成千上万条搜索路径进行搜索,计算文本概率,效率较低。
鉴于上述问题,本申请实施例提出一种语音解码方法,将待识别语音的韵律信息加入到有限状态转换器的解码过程中,以使在有限状态转换器中可以结合韵律信息,避免错误的搜索路径,进而提高语音识别的识别准确率和实时率。
图2是本申请实施例提出的语音解码方法的步骤流程图。如图2所示,语音解码方法包括:
步骤S11:预测待识别语音的韵律信息;
本申请是直接基于待识别语音的音频文件预测韵律信息。具体依据音频文件中,声音的停顿信息、声学特征预测韵律信息。
韵律信息包括:韵律词、语调短语、语法词等。
韵律词是从韵律学的角度定义的,用于表示最小的能够自由运用的语言单位的单词。语法词可以是具有独立语义的单词。语调短语可以是有规则性语法结构的、停延和音步的音域展敛,可以使用规则控制的可能多音步的短语。
以“使用程序节省了时间且提高了数据的准确性”为例,韵律短语可以是“程序节省了时间”,韵律词可以是“准确性”,语法短语可以是“使用程序”、“节约时间”等。
获得音频样本后,先根据音频样本的语义内容获得该音频样本的韵律信息,以及韵律信息在音频样本中的位置,再将韵律信息标记到音频样本对应的音频帧中。
示例地,假设音频样本的内容是“通过展览馆中的文物”,对该音频样本标记韵律信息后,音频样本的内容是“市团#2委#1现#1是否#1还接受#1有意#1创业#2青年#1小额贷款#1申请#2书”。其中,#1是韵律词的标记,#2是语法词的标记。上述音频样本的内容中,市团委、还接受等词可以是韵律词,市团、创业等可以是语法词。
韵律预测可采用深度学习等各种预测方法。本申请提出了一种韵律预测的方法:
步骤S11-1:获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
图3是本申请实施例中具有韵律信息标记的音频样本的示意图。如图3所示:25毫秒为一帧,多个音频帧组成音频样本,韵律信息标记在音频帧的对应位置。本申请实施例是直接在根据音频文件得到的声谱中标记相应的韵律信息,具体可以参照音频样本的内容:“市团#2委#1现#1是否#1还接受#1有意#1创业#2青年#1小额贷款#1申请#2书”,听觉判断音频文件中各种停顿、延迟信号,在音频文件对应的声谱图(波形图)中,或者在音频文件对应的时间图谱中标记韵律词的边界位置。
韵律词的边界位置可以使用韵律词的标记#1,也可以使用其他标记。例如,“市团#2委#1现#1是否#1还接受#1有意#1创业#2青年#1小额贷款#1申请#2书”中“委”字的位置标记有#1,可以判断出“市团委”为韵律词,那么“委”是韵律词“市团委”的韵律词的边界位置,因此可以直接将韵律词的标记#1作为韵律词的边界的标记。
图3中,一个音频帧对应一个音素,“sh”对应第1至50个音频帧、“i”对应第51至第100个二个音频帧、“t”对应第101至180个音频帧、“u”对应第181至第200个音频帧、“an”对应第201至第300个、“w”对应第301至第350个六个音频帧、“ei”对应第351至第400个音频帧,可以得到声音谱中,第400个音频帧的位置为韵律词的边界位置。步骤S11-2:将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
预设模型可以是基于支持向量机(SVM)、循环神经网络(RNN)的深度学习方法等建立的神经网络模型。
步骤S11-3:将经过多次训练后的预设模型确定为韵律预测模型;
多次训练后,直至预设模型对音频样本进行韵律检测能够得到准确的韵律词的边界位置,以能够准确预测韵律词的边界位置的预设模型作为韵律预测模型。具体训练预设模型的方法本申请实施例不做限制。
步骤S11-4:将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
韵律预测模型根据待识别语音的基频F0、梅尔倒谱系数MFCC等声学特征,以及待识别语音中的停顿信息,预测待识别语音的音频文件中韵律词的边界位置。
步骤S12:将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
可以根据实际的需求,增加训练韵律预测模型的音频样本,不仅对音频样本中的每个音频帧标记韵律词的边界位置,还可以对音频样本中的每个音频帧标记韵律短语的边界位置等,进而得到可以预测出待识别语音的音频文件中的各种韵律信息的韵律预测模型。
待识别语音由多个音频帧组成,每个音频帧在音频文件中的延续时长相同,都为25毫秒。音频帧序列是指组成待识别语音的多个音频帧按其在待识别语音中的播放顺序,排列形成的序列。
继续以上述示例进行说明,内容是“市团委现是否还接受有意创业青年小额贷款申请书”的音频文件,对应每个字的音频帧,将韵律词边界#1标记在音频文件中对应“市团委”中“委”的音频帧后,假设音频文件的第400帧对应“委”字发音完成,那么韵律词边界#1标记在音频文件的第400帧的位置,即音频文件的10000毫秒的位置。
步骤S13:将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
声学模型(AM Acoustic Model)声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。具体地,声学模型是逐帧对待识别语音的声学特征进行的发音预测,得到多个音素后验概率,并且音素后验概率也是依据其所对应的音频帧的时间依次排列的。
音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。一般地,应用于英语语料的音素可以是 应用于汉语语料的音素可以是[a、ai、an、ao、b、c、d、ei、er、en、f、g、h、ui、g、k、n、m、l、ou、p、ing…]。
音素后验概率可以指音素的条件概率向量。在本申请的一种示例中,待识别语音的内容是“你好”,提取该待识别语音的声学特征后,将其输入声学模型,得到“nihao”中每个音素所在音频帧对应的音素后验概率,例如音素n所在音频的音素后验概率是:[a-0.5%、ai-0.5%、an-1%、ao-0.5%、b-0.6%、c-0.4%、d-0.1%、ei-0.5%、er-2%、en-1%、f-0.5%、g-1%、h-0.3%、ui-0.4、e-0.4%、g-0.5%、k-0.5%、n-83%、m-0.5%、l-2%、ou-0.5%、p-0.5%、ing-2%],n对应的概率得分是83%,那么基于声学模型预测的音素后验概率,“你好”的第一个发音是n。对内容是“你好”的待识别语音进行发音预测后,可以得到四个音素后验概率,即音素“n”、“i”、“h”、“ao”的音素后验概率。
步骤S14:根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本。
本申请实施例在语音识别的过程中,将携带韵律信息的音频帧序列和待识别语音的多个音素后验概率同时输入有限状态转换器,在解码时,结合韵律信息和音素后验概率,在有限状态转换器进行路径搜索,增加路径搜索的准确率,进而提高语音识别的准确率。
本申请另一种实施例提出了结合韵律信息和音素后验概率,在有限状态转换器进行路径搜索的具体方法。
图4是本申请依次对待识别语音的多个音素后验概率进行解码的步骤流程图。如图4所示:
步骤S21:依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
可以根据待识别语音的时间信息,确定多个音素后验概率对应的音频帧。
示例地,内容是“你好”的音频,“你”对应第1-100个音频帧,“好”对应第101-200个音频帧,“你”的发音“ni”中音素“n”的音素后验概率“[a-0.5%、ai-0.5%、an-1%、ao-0.5%、b-0.6%、c-0.4%、d-0.1%、ei-0.5%、er-2%、en-1%、f-0.5%、g-1%、h-0.3%、ui-0.4、e-0.4%、g-0.5%、k-0.5%、n-83%、m-0.5%、l-2%、ou-0.5%、p-0.5%、ing-2%]”对应的是音频的第1-50个音频帧,音素“i”对应的是音频的第51-100个音频帧,依次类推。每个音频帧在音频中的延续时长是25毫秒,帧移是10毫秒,音频文件第1-50帧输出的音素后验概率都对应音素“n”的音素后验概率:[a-0.5%、ai-0.5%、an-1%、ao-0.5%、b-0.6%、c-0.4%、d-0.1%、ei-0.5%、er-2%、en-1%、f-0.5%、g-1%、h-0.3%、ui-0.4、e-0.4%、g-0.5%、k-0.5%、n-83%、m-0.5%、l-2%、ou-0.5%、p-0.5%、ing-2%]。
假设当前处理的音频帧是第51-100个音频帧时,当前音频帧的音素后验概率都是音素“i”的音素后验概率,那么音素“i”的音素后验概率对应的当前音频帧是音频文件的第51-100个音频帧
步骤S22:在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
根据当前音频帧的时间信息,在携带韵律信息的音频帧序列中获取当前音频帧的韵律信息。
继续以内容是“市团委现是否还接受有意创业青年小额贷款申请书”的待识别语音进行说明,上述待识别语音对应的携带韵律信息音频帧序列是:[10ms-10ms#2-10ms#1-10ms#1-10ms-10ms#1-10ms-10ms-10ms#1-10ms-10ms#1-10ms-10ms#2-10ms-10ms#1-10ms-10ms-10ms-10ms#1-10ms-10ms#2-10ms]。
将内容是“市团委现是否还接受有意创业青年小额贷款申请书”的待识别语音的音频进行声学特征提取后,输入声学模型,得到多个音素:“shi-tuan-wei-xian-zai-shi-fou-hai-jie-shou-you-yi-chuang-ye-qing-nian-xiao-e-duan-kuan-shen-qing-shu”,以及上述多个音素的音素后验概率。再根据待识别语音的时间信息,确定音素“shi”对应待识别语音的第1帧至100帧,音素“tuan”对应待识别语音的第101帧至第200帧,音素“wei”对应待识别语音的第201帧至第300帧,依次解码到音素“tuan”中的音素“an”时,当前音频帧是171-200帧,在上述携带韵律信息的音频帧序列中获取得到当前音频帧的韵律信息是#2,可以确定音素“an”的位置是语法词的边界位置,依次解码到音素“wei”中的音素“ei”时,当前音频帧是第251-300帧,在上述携带韵律信息的音频帧序列中获取得到当前音频帧的韵律信息是#1,可以确定音素“ei”的位置是韵律词的边界位置。
步骤S23:根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
具体地,根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
目标路径是指根据韵律信息在有限状态转换器中确定的错误的搜索路径。
继续以上述示例进行说明,在确定音素“wei”中音素“ei”的位置是韵律词的边界位置后,可以进一步确定“shi-tuan-wei”即“市团委”为韵律词,同理确定音素“xian”即“现”为韵律词首,那么在搜索时,有限状态转换器中表示“weixian”,即危险的搜索路径一定是错误的,那么确定“weixian”对应的搜索路径为目标路径。
换言之,当解码到“现”字的声音时,此处的音素“xian”对在携带韵律信息的音频帧序列中对应的韵律信息为韵律词的边界位置,而在有限状态转换器中存在搜索路径包括:“市团危险”和“市团委现”,此时依据韵律词的边界位置,确定“xian”为独立的韵律词,因此确定“市团危险”为目标路径,进而排除错误的目标路径,减少了冗余的搜索路径,只基于可能正确的搜索路径“市团委现”对“现”进行解码。避免了识别结果会出现“市团危险是否还接受有意创业青年小额贷款申请书”,提高了语音识别的效率和语音识别的准确率。
本申请实施例在语音识别过程中,检测得到待识别语音的韵律信息,将韵律信息加入到语音识别的解码过程中,根据韵律信息对有限状态转换器中的搜索路径进行筛选,确定并排除不符合待识别语音的声音的韵律信息的搜索路径,从待识别语音的声音停顿信息的角度,排除了解码得到错误文本的可能性,从而提高识别准确率。并且由于排除了不符合待识别语音的声音的韵律信息的搜索路径,最终需要搜索的路径数量减少,提高了语音识别解码的速度。
基于同一发明构思,本申请实施例提供一种语音解码装置。图5是本申请实施例提出的语音解码装置的示意图。如图5所示,该装置包括:
预测模块51,用于预测待识别语音的韵律信息;
标记模块52,用于将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
输入模块53,用于将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
解码模块54,用于根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本。
可选地,所述解码模块包括:
当前音频帧确定子模块,用于依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
韵律信息获取子模块,用于在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
解码子模块,用于根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
可选地,所述装置还包括:
样本获得模块,用于获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
训练模块,用于将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
韵律预测模型获得模块,用于将经过多次训练后的预设模型确定为韵律预测模型;
所述预测模块包括:
预测子模块,用于将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
可选地,所述解码子模块包括:
路径确定子单元,用于根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;
搜索子单元,用于搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的语音解码方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的语音解码方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种语音解码方法、装置、设备及存储介质,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种语音解码方法,其特征在于,所述方法包括:
预测待识别语音的韵律信息;
将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本;
其中,所述方法还包括:
获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
将经过多次训练后的预设模型确定为韵律预测模型;
预测待识别语音的韵律信息,包括:
将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
2.根据权利要求1所述的方法,其特征在于,根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本,包括:
依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
3.根据权利要求2所述的方法,其特征在于,根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本,包括:
根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;
搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
4.一种语音解码装置,其特征在于,所述装置包括:
预测模块,用于预测待识别语音的韵律信息;
标记模块,用于将预测的韵律信息标记在与所述待识别语音对应的音频帧序列上,得到携带韵律信息的音频帧序列;
输入模块,用于将所述待识别语音的声学特征输入声学模型,得到所述待识别语音的多个音素后验概率;
解码模块,用于根据所述携带韵律信息的音频帧序列,依次对所述待识别语音的多个音素后验概率进行解码,得到所述待识别语音的对应文本;
其中,所述装置还包括:
样本获得模块,用于获得音频样本,并对所述音频样本中的每个音频帧标记韵律词的边界位置;
训练模块,用于将标记有韵律词的边界位置的音频样本输入预设模型,对所述预设模型进行训练;
韵律预测模型获得模块,用于将经过多次训练后的预设模型确定为韵律预测模型;
所述预测模块包括:
预测子模块,用于将所述待识别语音和所述声学特征输入所述韵律预测模型,得到所述待识别语音中的一个或多个韵律词的边界位置。
5.根据权利要求4所述的装置,其特征在于,所述解码模块包括:
当前音频帧确定子模块,用于依次确定所述待识别语音的多个音素后验概率对应的当前音频帧;
韵律信息获取子模块,用于在所述携带韵律信息的音频帧序列中获取所述当前音频帧的韵律信息;
解码子模块,用于根据所述当前音频帧的韵律信息,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
6.根据权利要求5所述的装置,其特征在于,所述解码子模块包括:
路径确定子单元,用于根据所述当前音频帧的韵律信息,在有限状态转换器中确定目标路径;
搜索子单元,用于搜索除所述目标路径外的其他路径,对所述当前音频帧对应的音素后验概率进行解码,得到所述当前音频帧对应的音素后验概率的对应文本。
7.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一所述的方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-3任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271290.5A CN112562676B (zh) | 2020-11-13 | 2020-11-13 | 一种语音解码方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271290.5A CN112562676B (zh) | 2020-11-13 | 2020-11-13 | 一种语音解码方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562676A CN112562676A (zh) | 2021-03-26 |
CN112562676B true CN112562676B (zh) | 2023-12-29 |
Family
ID=75042222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011271290.5A Active CN112562676B (zh) | 2020-11-13 | 2020-11-13 | 一种语音解码方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562676B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160794B (zh) * | 2021-04-30 | 2022-12-27 | 京东科技控股股份有限公司 | 基于音色克隆的语音合成方法、装置及相关设备 |
CN113284514B (zh) * | 2021-05-19 | 2023-06-16 | 北京大米科技有限公司 | 音频处理方法和装置 |
CN114005438B (zh) * | 2021-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、语音识别模型的训练方法以及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063898A (zh) * | 2010-09-27 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
GB201610623D0 (en) * | 2016-06-17 | 2016-08-03 | Toshiba Kk | A speech processing system and speech processing method |
CN106373558A (zh) * | 2015-07-24 | 2017-02-01 | 科大讯飞股份有限公司 | 语音识别文本处理方法及系统 |
CN107705787A (zh) * | 2017-09-25 | 2018-02-16 | 北京捷通华声科技股份有限公司 | 一种语音识别方法及装置 |
CN110364171A (zh) * | 2018-01-09 | 2019-10-22 | 深圳市腾讯计算机系统有限公司 | 一种语音识别方法、语音识别系统及存储介质 |
CN111739536A (zh) * | 2020-05-09 | 2020-10-02 | 北京捷通华声科技股份有限公司 | 一种音频处理的方法和装置 |
-
2020
- 2020-11-13 CN CN202011271290.5A patent/CN112562676B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063898A (zh) * | 2010-09-27 | 2011-05-18 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
CN106373558A (zh) * | 2015-07-24 | 2017-02-01 | 科大讯飞股份有限公司 | 语音识别文本处理方法及系统 |
GB201610623D0 (en) * | 2016-06-17 | 2016-08-03 | Toshiba Kk | A speech processing system and speech processing method |
CN107705787A (zh) * | 2017-09-25 | 2018-02-16 | 北京捷通华声科技股份有限公司 | 一种语音识别方法及装置 |
CN110364171A (zh) * | 2018-01-09 | 2019-10-22 | 深圳市腾讯计算机系统有限公司 | 一种语音识别方法、语音识别系统及存储介质 |
CN111739536A (zh) * | 2020-05-09 | 2020-10-02 | 北京捷通华声科技股份有限公司 | 一种音频处理的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于Viterbi解码的中文合成音库韵律短语边界自动标注;杨辰雨;朱立新;凌震华;戴礼荣;;清华大学学报(自然科学版)(09);全文 * |
基于言语数据库的汉语音高下倾现象研究;王安红, 陈明, 吕士楠;声学学报(中文版)(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112562676A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
US11769488B2 (en) | Meaning inference from speech audio | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
CN112562676B (zh) | 一种语音解码方法、装置、设备及存储介质 | |
KR20200143659A (ko) | 다중 언어 텍스트-음성 합성 방법 | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US11749281B2 (en) | Neural speech-to-meaning | |
US20160379638A1 (en) | Input speech quality matching | |
CN111862954B (zh) | 一种语音识别模型的获取方法及装置 | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
CN112489638B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
JP2009116075A (ja) | 音声認識装置 | |
US11328713B1 (en) | On-device contextual understanding | |
US11043212B2 (en) | Speech signal processing and evaluation | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
Thilak et al. | Speech recognizer for Tamil language | |
Jain | Leveraging Phonological Information for Indian Language Speech Systems | |
CN116994562A (zh) | 语音识别方法、装置、服务器及计算机可读存储介质 | |
JP2000315095A (ja) | 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体 | |
Tjalve | Accent Features and Idiodictionaries: On Improving Accuracy for | |
JP2013045321A (ja) | 発音複雑度算出装置、音声認識装置、発音複雑度算出方法、音声認識方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |