CN109147766B

CN109147766B - 基于端到端深度学习模型的语音识别方法及系统

Info

Publication number: CN109147766B
Application number: CN201810739424.8A
Authority: CN
Inventors: 赵明
Original assignee: Beijing Aiyisheng Technology Co ltd
Current assignee: Beijing Aiyisheng Technology Co ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2020-08-18
Anticipated expiration: 2038-07-06
Also published as: CN109147766A

Abstract

一种基于端到端深度学习模型的语音识别方法，包括以下步骤：把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表；用规则映射表对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示；对编码后的语料使用混合式端到端模型训练，混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，得到“拼音”和“音素”声学模型；用规则映射表对将要应用的多个词汇进行编码，形成词汇库；使用声学模型识别语音；使用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小编辑距离，对应的词汇就是识别结果。本方法提升了系统的识别效率。

Description

基于端到端深度学习模型的语音识别方法及系统

技术领域

本发明涉及语音识别领域，具体说，涉及一种基于端到端深度学习模型的语音识别方法及系统，特别适合小词汇量(如有限命令)的语音识别。

背景技术

语音作为一种重要的人机交互方式，越来越被广泛关注。而基于当前语音技术的发展现状，有限命令的语音识别场景最为成熟和重要，特别是在一些与信息系统的交互领域，命令式的交互清晰不容易出错。尤其是在医疗领域，医生的时间相当宝贵，每节省一分钟就可能多拯救一个人的生命。而语音识别就可以极大提升医生使用信息系统的效率，最大限度节省医生在系统交互上的时间。另外，在某些场景下，语音命令的交互比传统交互更加安全和有效，比如手术室里，医生通过语音与系统交互就可以避免接触感染，提高安全性。因此，命令式的语音识别方法研究具有重要的现实意义。

目前语音识别有以下几种算法。1)基于动态时间规整的算法。这种方法主要用于连续语音的识别场景下，但是该方法运算量大。对于小词汇识别，也有很多基于这个方法进行改进的，比如利用频率尺度的DTW算法。2)基于参数模型的隐马尔可夫模型。但是这种方法需要大量的词汇和训练时间。一般连续隐马尔可夫模型比离散隐马尔可夫模型计算量大，同时识别率也更高。3)基于非参数模型的矢量量化的方法。该方法所需的模型训练数据，已经识别的时间和存储的空间都比较小，但是这种方法对于大量词汇语音的识别不如隐马尔可夫模型好，但在小词汇量的语音识别系统中，有比较好的效果。4)端到端的语音识别系统。这种方法主要使用深度学习模型，并应用在连续的语音识别当中，很少用于少量词汇的语音识别。

发明内容

为解决以上问题，本发明提供一种基于端到端深度学习模型的语音识别方法，包括以下步骤：步骤S10，对韵母、声母进行分类编码，并且把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表；步骤S20，利用所述规则映射表，对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示；步骤S30，对编码后的语料使用混合式端到端模型进行训练，所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，从而得到“拼音”和“音素”声学模型；步骤S40，利用规则映射表对将要应用的多个词汇进行编码，形成词汇库；步骤S50，使用所述声学模型识别语音；步骤S60，使用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小的编辑距离，对应的词汇就是识别结果。

优选地，步骤S50中，识别语音时，判断拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则步骤S501，仅用“拼音”声学模型来识别语音，当拼音序列字数小于等于字数限值时，则步骤S502，“拼音”声学模型与“音素”声学模型结合来识别语音。

优选地，字数限值大于等于2。

优选地，对韵母、声母进行的分类编码是字母或数字。

优选地，韵母ai、ei采用同一编码；韵母ao、ou采用同一编码；韵母en、eng采用同一编码；韵母un、ong采用同一编码；声母m、n、l采用同一编码；声母f、h采用同一编码；声母zh、z采用同一编码；声母ch、c采用同一编码。

一种基于端到端深度学习模型的语音识别系统，包括：编码模块，对韵母、声母进行分类编码，并且把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表，利用所述规则映射表，对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示；训练模块，对编码后的语料使用混合式端到端模型进行训练，所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，从而得到“拼音”和“音素”声学模型；识别模块，使用所述声学模型识别语音。

优选地，所述识别模块还包括编辑距离对比单元，编辑距离对比单元利用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小的编辑距离，对应的词汇就是识别结果。

优选地，识别模块还包括语音字数判断单元，在识别语音时，语音字数判断单元判断语音的拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则仅用“拼音”声学模型来识别语音，当拼音序列字数小于等于字数限值时，则“拼音”声学模型与“音素”声学模型结合来识别语音。

本方法的采用端到端深度学习模型，将语音识别为对应的编码，同时对比识别出的编码和词汇库内的编码的编辑距离来判断识别结果。该方法充分体现了端到端模型统一优化的优点，提升了系统的识别效率，另外，通过自定义的汉字编码表，把相近的发音映射到同一个编码，降低了结果空间，从而可以使用更少的训练数据训练出更准确的模型。本方法尤其可以解决传统小词汇识别方法无法使用大规模数据进行优化的缺陷，同时又保证了识别的效率。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的基于端到端深度学习模型的语音识别方法的流程图；

图2是表示本发明实施例的基于端到端深度学习模型的语音识别系统的构成图；

图3是表示本发明实施例的识别模块的构成图。

具体实施方式

下面将参考附图来描述本发明所述的基于端到端深度学习模型的语音识别方法的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本实施例的基于端到端深度学习模型的语音识别方法包括如下步骤：

步骤S10，对韵母、声母进行分类编码，把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表。如下表1为韵母规则映射表，表2为声母规则映射表。

表1

韵母

编码

韵母

编码

韵母

编码

韵母

编码

a

o

b

e

c

i

d

u

e

v

f

ai

g

ei

g

ui

h

ao

i

ou

i

iu

j

ie

k

ve

l

er

m

an

n

en

o

in

p

un

q

ven

r

ang

s

eng

o

ing

p

ong

q

表2

声母

编码

声母

编码

声母

编码

声母

编码

b

A

p

B

m

C

f

D

d

E

t

F

n

C

l

C

g

H

k

I

h

D

j

J

q

K

x

L

zh

M

ch

N

sh

O

r

P

z

M

c

N

s

Q

y

R

w

S

需要说明的是，本实施例并不限制以上与声母和韵母对应的编码形式，也可以采用其他例如数字来编码。

步骤S20，利用所述规则映射表，对语料(语料包括音频和对应的汉字，作为训练数据)进行数据编码，把语料的汉字利用规则映射表中编码进行表示。

步骤S30，对编码后的语料使用混合式端到端模型进行训练，得到“拼音”和“音素”两个声学模型。具体说，是采用“拼音”端到端模型和“音素”端到端模型的混合形式。“音素”端到端模型主要就是用“音素”作为输出，而“拼音”端到端模型会产生“拼音序列”。其中，音素是声音的最小单位，每一个字母都是一个音素。例如，“你”对应三个音素(包括音调)“n”、“i”、“3”(3为你的音调)，“上”对应“s”“h”“a”“n”“g”“4”，是6个音素。

步骤S40，对将要应用的词汇也进行上述编码，形成词汇库。例如，该语音识别是应用在手术室里，则可能会应用“测量血压”、“打开灯光”等一些常用的词语。将这些常用词汇形成词汇库，并编制对应的词汇编码。

步骤S50，使用声学模型识别语音。

步骤S60，使用编辑距离对比声学模型输出的编码和词汇库的编码，找到最小的编辑距离，对应的词汇就是识别结果。其中，编辑距离定义如下：编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。

在一个可选实施例中，步骤S50中，识别语音时，判断拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则步骤S501，仅用“拼音”声学模型来识别语音。当拼音序列字数小于等于字数限值时，则步骤S502，“拼音”声学模型与“音素”声学模型结合来识别语音。

在一个可选实施例中，字数限值大于等于2。

下面以具体实例来对方法作更进一步的说明。

1)首先把语料库进行编码，通过端到端模型进行训练，得到声学模型。

2)建立词汇库，例如，词汇库仅包括“你好”“明天”两个词汇，经过编码分别为“CdDi”、“Cp Fdn”。

3)输入一段语音，比如“你好”，最后通过声学模型，得到结果可能会与词汇库中的词汇有一定的差别，例如得到编码“Cd Da”。

4)计算结果与词汇的编辑距离，即“Cd Da”与“Cd Di”、“Cp Fdn”的编辑距离，分别为1和4。

5)取最小编辑距离，则为“Cd Di”，所以识别结果为“你好”。

本发明还提供一种基于端到端深度学习模型的语音识别系统，包括编码模块12、训练模块14、识别模块16。编码模块12对韵母、声母进行分类编码，并且把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表。编码模块12利用所述规则映射表，对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示。

训练模块14对编码后的语料使用混合式端到端模型进行训练，所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，从而得到“拼音”和“音素”声学模型。

识别模块16使用所述声学模型识别语音。

在一个可选实施例中，所述识别模块16还包括编辑距离对比单元162，编辑距离对比单元利用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小的编辑距离，对应的词汇就是识别结果。

在一个可选实施例中，识别模块16还包括语音字数判断单元164，在识别语音时，语音字数判断单元判断语音的拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则仅用“拼音”声学模型来识别语音，当拼音序列字数小于等于字数限值时，则“拼音”声学模型与“音素”声学模型结合来识别语音。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端深度学习模型的语音识别方法，其特征在于，包括如下步骤：

步骤S10，对韵母、声母进行分类编码，并且把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表；

步骤S20，利用所述规则映射表，对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示；

步骤S30，对编码后的语料使用混合式端到端模型进行训练，所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，从而得到“拼音”和“音素”声学模型；

步骤S40，利用规则映射表对将要应用的多个词汇进行编码，形成词汇库；

步骤S50，使用所述声学模型识别语音；

步骤S60，使用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小的编辑距离，对应的词汇就是识别结果，

其中，

步骤S50中，识别语音时，判断拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则步骤S501，仅用“拼音”声学模型来识别语音，

当拼音序列字数小于等于字数限值时，则步骤S502，“拼音”声学模型与“音素”声学模型结合来识别语音。

2.根据权利要求1所述的基于端到端深度学习模型的语音识别方法，其特征在于，

字数限值大于等于2。

3.根据权利要求1所述的基于端到端深度学习模型的语音识别方法，其特征在于，

对韵母、声母进行的分类编码是字母或数字。

4.根据权利要求1所述的基于端到端深度学习模型的语音识别方法，其特征在于，韵母ai、ei采用同一编码；

韵母ao、ou采用同一编码；

韵母en、eng采用同一编码；

韵母un、ong采用同一编码；

声母m、n、l采用同一编码；

声母f、h采用同一编码；

声母zh、z采用同一编码；

声母ch、c采用同一编码。

5.一种基于端到端深度学习模型的语音识别系统，其特征在于，包括：

编码模块，对韵母、声母进行分类编码，并且把发音相近的韵母映射到同一个编码，把发音相近的声母映射到同一个编码，形成规则映射表，

利用所述规则映射表，对语料进行数据编码，把语料的汉字利用规则映射表中编码进行表示；

训练模块，对编码后的语料使用混合式端到端模型进行训练，所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型，从而得到“拼音”和“音素”声学模型；

识别模块，使用所述声学模型识别语音，其中，识别模块还包括语音字数判断单元，在识别语音时，语音字数判断单元判断语音的拼音序列的字数是否小于等于字数限值，当拼音序列的字数大于字数限值时，则仅用“拼音”声学模型来识别语音，当拼音序列字数小于等于字数限值时，则“拼音”声学模型与“音素”声学模型结合来识别语音。

6.根据权利要求5所述的基于端到端深度学习模型的语音识别系统，其特征在于，所述识别模块还包括编辑距离对比单元，编辑距离对比单元利用编辑距离对比声学模型输出的编码和词汇库内词汇的编码，找到最小的编辑距离，对应的词汇就是识别结果。