CN112652300A - 多方言语音识别方法、装置、设备和存储介质 - Google Patents
多方言语音识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112652300A CN112652300A CN202011543499.2A CN202011543499A CN112652300A CN 112652300 A CN112652300 A CN 112652300A CN 202011543499 A CN202011543499 A CN 202011543499A CN 112652300 A CN112652300 A CN 112652300A
- Authority
- CN
- China
- Prior art keywords
- dialect
- vector
- vector code
- speech
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 205
- 238000012549 training Methods 0.000 claims description 49
- 238000002372 labelling Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种多方言语音识别方法、装置、设备和存储介质,该方法包括:通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。本方案提高了方言识别效率,无需大量的样本数据,识别精确度较现有方案更优。
Description
技术领域
本申请实施例涉及计算机领域,尤其涉及一种多方言语音识别方法、装置、设备和存储介质。
背景技术
方言通常指相同语言的变体,关联于特定的地理区域或社会群体。例如,阿拉伯语有多种变体,包括埃及阿拉伯语、海湾阿拉伯语和现代标准阿拉伯语等。虽然在各种方言之间存在一定的相似度,但是在语言层面上通常存在较大差异。由此导致为一种特定的方言训练的自动语音识别系统在另一种方言上的表现很差。
针对方言的自动语音识别,如果每种方言都有足够的样本数据,则可以针对每种方言进行单独的模型训练。但是,在方言资源匮乏的情况下,该种方式可行性较低。现有技术中,存在多种方言共享的语音识别模型,但是其依然需要各自方言的大量特征样本。
发明内容
本发明实施例提供了一种多方言语音识别方法、装置、设备和存储介质,提高了方言识别效率,无需大量的样本数据,识别精确度较现有方案更优。
第一方面,本发明实施例提供了一种多方言语音识别方法,该方法包括:
通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;
通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;
依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
第二方面,本发明实施例还提供了一种多方言语音识别装置,该装置包括:
多方言编码器,用于获取输入的语音声学特征,输出固定长度的第一向量编码;
方言识别器,用于对所述第一向量编码进行识别得到对应的方言向量;
多方言解码器,用于依据所述方言向量对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
第三方面,本发明实施例还提供了一种多方言识别设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的多方言语音识别方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的多方言语音识别方法。
本发明实施例中,通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本,提高了方言识别效率,无需大量的样本数据,识别精确度较现有方案更优。
附图说明
图1为本发明实施例提供的一种多方言语音识别方法的流程图;
图1a为本发明实施例提供的多方言语音识别方法对应的一种识别模型示意图;
图2为本发明实施例提供的另一种多方言语音识别方法的流程图;
图3为本发明实施例提供的另一种多方言语音识别方法的流程图;
图3a为本发明实施例提供的多方言语音识别方法对应的另一种识别模型示意图;
图4为本发明实施例提供的另一种多方言语音识别方法的流程图;
图5为本发明实施例提供的另一种多方言语音识别方法的流程图;
图5a为本发明实施例提供的一种对基于输入的用户语音得到的第一向量编码进行分段的示意图;
图6为本发明实施例提供的另一种多方言语音识别方法的流程图;
图7为本发明实施例提供的一种多方言语音识别装置的结构框图;
图8为本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
图1为本发明实施例提供的一种多方言语音识别方法的流程图,本实施例可适用于多方言下的语音识别,基于序列到序列的语音识别模型,并融合方言识别器进行多方言的语音识别,该方法可以由计算设备如手机、笔记本、iPad、台式机、服务器电脑来执行,具体包括如下步骤:
步骤S101、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
在一个实施例中,该语音声学特征通过对获取到的语音数据进行处理得到,语音数据可以是输入的用户的语音,该语可以是正常的标准语音,也可以是各种方言语音。
示例性的,对输入的语音进行处理得到对应的语音声学特征的方式可以是对语音数据进行如下操作:预滤波,A/D变换、预加重(通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦)、分帧(根据语音的短时平稳特性,语音可以以帧为单位进行处理,如选取的语音帧长为32ms,帧叠为16ms)、加窗(采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响)、快速傅立叶变换(将时域信号变换成为信号的功率谱)。
该多方言编码器可以对输入的语音声学特征进行高级语音特征提取,输出固定长度的第一向量编码,具体的,该多方言编码器可以是RNN类神经网络模型。
示例性的,该语音声学特征可记为序列x,序列x可以是x1,x2,...,xT,相应的,将该语音声学特征x输入至多方言编码器输出固定长度的隐藏状态h,即第一向量编码,示例性的为:h1,h2,...,hT。
步骤S102、通过方言识别器对所述第一向量编码进行识别得到对应的方言向量。
在一个实施例中,在进行多方言的语音识别过程中设置有一方言识别器,该方言识别器用于识别输入的语音数据的方言种类。具体的,该方言识别器通过对第一向量编码h=(h1,h2,...,hT)进行识别以确定出其对应的方言种类。示例性的,该方言识别器基于神经网络模型实现对输入的第一向量编码h=(h1,h2,...,hT)得到对应的方言种类的输出。在训练阶段以已知的各种不同的方言作为样本,针对每一种方言语音采取标记的方式以对方言识别器进行训练,以使其在后续输入一未知的语音特征时确定对应的方言种类。在另一个实施例中,还可以是预先对已知方言类型的方言样本进行特征提取得到对应的特征,在使用方言识别器时,将当前语音数据中的特征和记录存储的特征集合中的特征进行匹配,将集合中匹配度最高的特征对应的方言种类确定为该语音对应的方言种类。
本方案中,每种方言种类对应唯一的预先计算得到并存储的方言向量,该方言向量用于后续的语音识别,不同的方言类型对应不同的方言向量,由于不同方言之间的大多数参数为隐式共享,使得识别模型的跨方言泛化能力强。具体的,该方言向量通过机器学习的方式对每种已知的方言样本进行数据标注,训练学习得到。即本步骤中,通过方言识别器对第一向量编码进行识别确定对应的方言种类,得到和该方言种类对应的唯一的方言向量。
步骤S103、依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
在一个实施例中,将第一向量编码和确定出的方言向量输入至多方言解码器进行解码得到对应的识别文本。该多方言解码器将多方言编码器得到的固定长度的向量h再还原成对应预测的序列数据y以作为识别文本。如将h=(h1,h2,...,hT)还原为y=(y1,y2,...,yT)。
对应的,图1a为本发明实施例提供的多方言语音识别方法对应的一种识别模型示意图,由图1a可知,语音声学特征x输入至多方言编码器,多方言编码其输出第一向量编码h至方言识别器以及多方言解码器,方言识别器对第一向量编码h进行识别得到对应的方言向量dx反馈至多方言解码器,多方言解码器根据方言向量dx以及第一向量编码h进行解码输出识别文本y。
由上述方案可知,本方案中通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;通过方言识别器对第一向量编码进行识别得到对应的方言向量;将方言向量和第一向量编码输入至多方言解码器进行解码得到相应的识别文本,使用了序列到序列的语音识别模型并结合多方言识别器进行语音识别,可以有效的针对不同方言进行语音识别,识别性能显著提升,识别准确率更高。
图2为本发明实施例提供的另一种多方言语音识别方法的流程图,给出了一种具体对多方言识别模型训练的方法。如图2所示,技术方案具体如下:
步骤S201、通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码。
步骤S202、根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
在一个实施例中,针对每种不同的方言对多方言解码器进行训练,训练过程中,采用将已知方言的方言向量即设定方言向量和第二向量编码作为输入,以标准输出的训练识别文本作为输出对该多方言解码器进行训练。示例性的,该多方言解码器由BLSTM层、线性层和softmax层组成。
通过对该多方言解码器进行训练以用于后续针对输入的第一向量编码以及方言向量进行准确识别得到对应于语音声学特征的识别文本,由此实现针对多方言的高效的语音识别。
步骤S203、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
步骤S204、通过方言识别器对所述第一向量编码进行识别得到对应的方言向量。
步骤S205、依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
由上述方案可知,通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码,根据第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,以学习训练得到解码准确率高的多方言解码器,实现对不同方言均可进行高效语音识别的效果。
图3为本发明实施例提供的另一种多方言语音识别方法的流程图,对解码器的解码过程进行了进一步的优化限定。如图3所示,技术方案具体如下:
步骤S301、通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码。
步骤S302、根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
步骤S303、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
步骤S304、通过方言识别器对所述第一向量编码进行识别得到对应的方言向量。
步骤S305、依据所述方言向量通过attention解码单元以及CTC解码单元对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
在一个实施例中,如图3a所示,图3a为本发明实施例提供的多方言语音识别方法对应的另一种识别模型示意图,多方言解码器由attention解码单元以及CTC解码单元组成。其中,attention解码单元为权重向量或矩阵,应用于本序列到序列的语音识别架构中,其权重越大,表示的上下文对输出越重要。其通过神经网络学习而得到对应的权重,该权重值与多方言解码器中的第i-1个隐藏状态,和多方言编码器中的第j个隐藏状态相关,i,j为大于1的整数。
但是考虑到attention解码单元的缺点,如适合短语语音识别,对长句语音识别性能较差。本方案中进一步结合使用了CTC解码单元,attention解码单元和CTC解码单元共用一个多方言编码器。
其中,CTC(Connectionist Temporal Classification)解码单元适用于不确定输入输出内容是否对齐的情况。现做如下定义:输入音频信号用序列A=(a1,a2,...,am)表示,对应的输出如标注文本用符号序列B=(b1,b2,...,bn)表示,为了方便数据训练,期望确定输入序列A与输出序列B之间精确的映射关系,由于方案使用有监督的学习算法,序列A和序列B都是变长的且长度变化情况未知,即序列A和序列B之中的元素并非严格对齐,故通过CTC算法实现元素对齐。
进一步的,本方案中,针对attention解码单元以及CTC解码单元分配有不同的权重比以期达到最优的解码性能。具体的,损失函数如下:
C=μCctc+(1-μ)Catt
其中,通过测试得到μ取值范围为0.6至0.8时,其多方言解码器的解码准确率要由于单独使用attention解码单元或CTC解码单元进行解码。
由上述方案可知,依据方言向量通过attention解码单元以及CTC解码单元对第一向量编码进行解码得到语音声学特征对应的识别文本,通过attention解码单元以及CTC解码单元相结合的方式,应用于本方案中的多方言语音识别,较大程度的提高了语音识别性能。
图4为本发明实施例提供的另一种多方言语音识别方法的流程图,给出了一种具体的同时包含多种方言的语音识别方法。如图4所示,技术方案具体如下:
步骤S401、通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码。
步骤S402、根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
步骤S403、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
步骤S404、通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类,确定每个方言种类对应的方言向量。
在一个实施例中,方言识别器对第一向量编码进行识别,如果识别出包含多种方言,则确定每种方言对应的方言向量。示例性的,在训练学习阶段确定出的方言种类以及对应的方言向量示例性如下表:
方言种类 | 类型1 | 类型2 | 类型3 | 类型4 | ... |
方言向量 | dx1 | dx2 | dx3 | dx4 | ... |
通过对第一向量编码h=(h1,h2,...,hT)进行识别,如确定出包含类型2和类型3,则相应的,确定该第一向量编码h=(h1,h2,...,hT)对应的方言向量为dx2和dx3,将dx2和dx3输入至多方言解码器以用于对第一向量编码h=(h1,h2,...,hT)进行解码得到对应于x=(x1,x2,...,xT)对应的识别文本y=(y1,y2,...,yT)。
步骤S405、依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
由上述方案可知,通过方言识别器对第一向量编码进行识别以确定包含的方言种类,确定每个方言种类对应的方言向量,当包含多种方言时,则将每种方言对应的方言向量输入至多方言解码器进行解码,实现了的多方言语音识别方法能够对同一段语音包含的多个方言语音片段进行识别,进一步优化了识别性能。
图5为本发明实施例提供的另一种多方言语音识别方法的流程图,给出了一种具体的确定同时包含多种方言的语音识别方法。如图5所示,技术方案具体如下:
步骤S501、通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码。
步骤S502、根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
步骤S503、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
步骤S504、通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类,确定每个方言种类对应的方言向量。
步骤S505、对所述第一向量编码进行分段得到多个第一分段向量编码,并为每个所述第一分段向量编码标注对应的方言向量。
在一个实施例中,在对第一向量编码进行处理之前,还包括确定第一向量编码的长度,当第一向量编码的长度大于预设长度时(示例性的,如30s时间输入的用户语音得到的对应的第一向量编码的长度),则执行步骤S504以进行基于该第一向量编码是否存在多种方言类型的识别,如果其存在,则根据识别检测结果对该第一向量编码进行分段,如图5a所示,图5a为本发明实施例提供的一种对基于输入的用户语音得到的第一向量编码进行分段的示意图,针对第一分段确定出方言类型为类型1,对应的方言向量为dx1,针对第二分段确定出方言类型为类型3,其对应的方言向量为dx3。
步骤S506、对每个所述第一分段向量编码使用对应的方言向量进行解码得到所述语音声学特征对应的识别文本。
在一个实施例中,如步骤S505确定出的第一向量编码中,第一分段对应的方言向量为dx1,第二分段对应的方言向量为dx3,则通过多方言解码器对该第一向量编码进行解码的过程中,采取分段解码的方式,即将方言向量为dx1和第一分段对应的数据输入至多方言解码器得到文本1,将方言向量为dx3和第二分段对应的数据输入至多方言解码器得到文本2,将文本1和文本2进行组合后得到最终的识别文本进行输出。
由上述方案可知,通过对第一向量编码进行分段得到多个第一分段向量编码,并为每个所述第一分段向量编码标注对应的方言向量,对每个第一分段向量编码使用对应的方言向量进行解码得到语音声学特征对应的识别文本,针对一段语音包含多种方言的情况下,可以高效的进行语音识别,使得语音识别结果较常规语音识别模型的准确率更高。
图6为本发明实施例提供的另一种多方言语音识别方法的流程图,给出了一种具体的确定同时包含多种方言的语音识别方法。如图6所示,技术方案具体如下:
步骤S601、通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码。
步骤S602、根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
步骤S603、通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码。
步骤S604、通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类,确定每个方言种类对应的方言向量。
步骤S605、通过多方言解码器分别依据不同的方言向量对第一向量编码进行解码。
举例而言,确定出的方言向量为dx2和dx3,则分别输入至多方言解码器以对第一向量编码h进行解码得到对应的识别文本y2和y3。相应的,在执行步骤S605之前,还包括对确定出的不同的方言向量进行相似度分析,如果相似度大于预设相似度则执行步骤S605。
步骤S606、对解码结果进行有效性检测,根据检测结果确定所述语音声学特征对应的识别文本。
在一个实施例中,该有效性检测可以是对识别文本的通顺度进行确定,将通顺度高的识别文本确定为最终的识别文本,如识别文本y2的通顺度优于识别文本y3,则将识别文本y2确定为最终的识别文本。在一个实施例中,该通顺度的检测确定可以使用预先设置的文本通顺度检测模型进行检测。
由上述方案可知,通过多方言解码器分别依据不同的方言向量对第一向量编码进行解码,对解码结果进行有效性检测,根据检测结果确定语音声学特征对应的识别文本,该种方式实现了对多方言在统一语音片段中的高效识别,识别准确率较现有方案得到了显著提升。
图7为本发明实施例提供的一种多方言语音识别装置的结构框图,该装置用于执行上述实施例提供的多方言语音识别方法,具备执行方法相应的功能模块和有益效果。如图7所示,该装置具体包括:多方言编码器101、方言识别器102和多方言解码器103,其中,
多方言编码器101,用于获取输入的语音声学特征,输出固定长度的第一向量编码;
方言识别器102,用于对所述第一向量编码进行识别得到对应的方言向量;
多方言解码器103,用于依据所述方言向量对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
由上述方案可知,通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本,提高了方言识别效率,无需大量的样本数据,识别精确度较现有方案更优。
在一个可能的实施例中,所述多方言编码器101还用于:
在获取输入的语音数据之前,获取输入的训练语音数据,输出固定长度的第二向量编码;
所述多方言解码器103还用于:根据所述第二向量编码、设定方言向量以及训练识别文本对进行训练,所述训练识别文本和所述训练声学特征相对应。
在一个可能的实施例中,所述解码器包括attention解码单元以及CTC解码单元,所述attention解码单元和所述CTC解码单元分配有不同的权重比。
在一个可能的实施例中,方言识别器102还用于:在通过多方言编码器获取输入的训练语音声学特征之前,通过神经网络模型对输入的已知方言类型的方言样本进行学习得到对应的设定方言向量。
在一个可能的实施例中,所述方言识别器102具体用于:
通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类;确定每个方言种类对应的方言向量。
在一个可能的实施例中,所述方言识别器102还用于:
当所述方言识别器确定出所述第一向量编码中包含多种方言种类时,对所述第一向量编码进行分段得到多个第一分段向量编码,并为每个所述第一分段向量编码标注对应的方言向量;
所述多方言解码器103具体用于:
对每个所述第一分段向量编码使用对应的方言向量进行解码。
在一个可能的实施例中,所述多方言编码器101具体用于:
获取输入的语音声学特征x,输出固定长度的隐藏状态h,其中所述声学特征x包括x1,x2,...,xT;所述隐藏状态h包括h1,h2,...,hT;
方言识别器102具体用于:对所述第一向量编码h进行识别得到对应的方言向量dx;
图8为本发明实施例提供的一种多方言识别设备的结构示意图,如图8所示,该设备包括处理器201、存储器202、输入装置203和输出装置204;设备中处理器201的数量可以是一个或多个,图8中以一个处理器201为例;设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接,图8中以通过总线连接为例。存储器202作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的多方言语音识别方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的多方言语音识别方法。输入装置203可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种多方言语音识别方法,该方法包括:
通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;
通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;
依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明实施例可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务,或者网络设备等)执行本发明实施例各个实施例所述的方法。
值得注意的是,上述多方言语音识别装置的实施例中,所包括的各个器和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能器的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
注意,上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明实施例不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明实施例构思的情况下,还可以包括更多其他等效实施例,而本发明实施例的范围由所附的权利要求范围决定。
Claims (10)
1.多方言语音识别方法,其特征在于,包括:
通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码;
通过方言识别器对所述第一向量编码进行识别得到对应的方言向量;
依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
2.根据权利要求1所述的多方言语音识别方法,其特征在于,在通过多方言编码器获取输入的语音声学特征之前,还包括:
通过多方言编码器获取输入的训练语音声学特征,输出固定长度的第二向量编码;
根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练,所述训练识别文本和所述训练声学特征相对应。
3.根据权利要求2所述的多方言语音识别方法,其特征在于,所述解码器包括attention解码单元以及CTC解码单元,所述attention解码单元和所述CTC解码单元分配有不同的权重比。
4.根据权利要求2所述的多方言语音识别方法,其特征在于,在通过多方言编码器获取输入的训练语音声学特征之前,还包括:
通过神经网络模型对输入的已知方言类型的方言样本进行学习得到对应的设定方言向量。
5.根据权利要求1所述的多方言语音识别方法,其特征在于,所述通过方言识别器对所述第一向量编码进行识别得到对应的方言向量,包括:
通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类;
确定每个方言种类对应的方言向量。
6.根据权利要求5所述的多方言语音识别方法,其特征在于,当所述方言识别器确定出所述第一向量编码中包含多种方言种类时,还包括:
对所述第一向量编码进行分段得到多个第一分段向量编码,并为每个所述第一分段向量编码标注对应的方言向量;
相应的,所述依据所述方言向量通过多方言解码器对所述第一向量编码进行解码,包括:
对每个所述第一分段向量编码使用对应的方言向量进行解码。
7.根据权利要求1-6中任一项所述的多方言语音识别方法,其特征在于,所述通过多方言编码器获取输入的语音声学特征,输出固定长度的第一向量编码,包括:
通过多方言编码器获取输入的语音声学特征x,输出固定长度的隐藏状态h,其中所述声学特征x包括x1,x2,...,xT;所述隐藏状态h包括h1,h2,...,hT;
相应的,所述通过方言识别器对所述第一向量编码进行识别得到对应的方言向量,依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本,包括:
通过方言识别器对所述第一向量编码h进行识别得到对应的方言向量dx;
8.一种多方言语音识别装置,其特征在于,包括:
多方言编码器,用于获取输入的语音声学特征,输出固定长度的第一向量编码;
方言识别器,用于对所述第一向量编码进行识别得到对应的方言向量;
多方言解码器,用于依据所述方言向量对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。
9.一种多方言识别设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的多方言语音识别方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一项所述的多方言语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011543499.2A CN112652300B (zh) | 2020-12-24 | 2020-12-24 | 多方言语音识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011543499.2A CN112652300B (zh) | 2020-12-24 | 2020-12-24 | 多方言语音识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652300A true CN112652300A (zh) | 2021-04-13 |
CN112652300B CN112652300B (zh) | 2024-05-17 |
Family
ID=75360193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011543499.2A Active CN112652300B (zh) | 2020-12-24 | 2020-12-24 | 多方言语音识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652300B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823262A (zh) * | 2021-11-16 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114267334A (zh) * | 2021-12-29 | 2022-04-01 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN110223672A (zh) * | 2019-05-16 | 2019-09-10 | 九牧厨卫股份有限公司 | 一种离线式多语种语音识别方法 |
CN110335592A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN110797016A (zh) * | 2019-02-26 | 2020-02-14 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
US20200160836A1 (en) * | 2018-11-21 | 2020-05-21 | Google Llc | Multi-dialect and multilingual speech recognition |
CN111862945A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
-
2020
- 2020-12-24 CN CN202011543499.2A patent/CN112652300B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
US20200160836A1 (en) * | 2018-11-21 | 2020-05-21 | Google Llc | Multi-dialect and multilingual speech recognition |
CN110797016A (zh) * | 2019-02-26 | 2020-02-14 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
CN110223672A (zh) * | 2019-05-16 | 2019-09-10 | 九牧厨卫股份有限公司 | 一种离线式多语种语音识别方法 |
CN111862945A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110335592A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
Non-Patent Citations (3)
Title |
---|
BO LI 等: "Multi-Dialect Speech Recognition with a Single Sequence-to-Sequence Model", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》, 13 September 2018 (2018-09-13) * |
SHUBHAM TOSHNIWAL: "Multilingual Speech Recognition with a Single End-to-End Model", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 》, 13 September 2018 (2018-09-13) * |
胡文轩 等: "基于端到端的多语种语音识别研究", 《信号处理》, 15 October 2021 (2021-10-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823262A (zh) * | 2021-11-16 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN113823262B (zh) * | 2021-11-16 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114267334A (zh) * | 2021-12-29 | 2022-04-01 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112652300B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN110472224B (zh) | 服务质量的检测方法、装置、计算机设备和存储介质 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
US20230089308A1 (en) | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering | |
CN112002323B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
US11887623B2 (en) | End-to-end speech diarization via iterative speaker embedding | |
CN111538809B (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
EP4057283A2 (en) | Method for detecting voice, method for training, apparatuses and smart speaker | |
CN112652300B (zh) | 多方言语音识别方法、装置、设备和存储介质 | |
CN111444349A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
CN113053377B (zh) | 语音唤醒方法和装置、计算机可读存储介质、电子设备 | |
US20240046921A1 (en) | Method, apparatus, electronic device, and medium for speech processing | |
CN113889088B (zh) | 训练语音识别模型的方法及装置、电子设备和存储介质 | |
CN115623134A (zh) | 会议音频处理方法、装置、设备及存储介质 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN111883133B (zh) | 客服语音识别方法、装置、服务器及存储介质 | |
CN114358026A (zh) | 语音翻译方法、装置、设备和计算机可读存储介质 | |
JP2020173441A (ja) | 音声認識方法及び装置 | |
CN110413984A (zh) | 一种情绪识别方法及装置 | |
US20230298591A1 (en) | Optimizing Personal VAD for On-Device Speech Recognition | |
CN112489633B (zh) | 语音特征编码网络的训练方法、装置及存储介质 | |
US20240296837A1 (en) | Mask-conformer augmenting conformer with mask-predict decoder unifying speech recognition and rescoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |