发明内容
本申请实施例提供一种语音识别方法,用以解决语音识别的速度及精度问题。
本申请实施例提供一种语音识别方法,包括:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
可选的,所述获得所述音频数据的高层音频特征,包括:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。
可选的,所述将所述滤波特征作为编码器网络的输入,提取出所述高层音频特征,包括:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
可选的,所述通过编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对目标翻译器的编码特征。
可选的,通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。
可选的,所述根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息,包括:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
可选的,还包括:获得开始解码指示信息;通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。
可选的,还包括:将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。
可选的,所述编码器网络的翻译器特征提取模块为包含残差链接的模块;所述残差链接,用于:将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。
本申请实施例还提供一种语音识别系统,包括:编码器网络、深度语言分析模块、解码器网络;其中,所述编码器网络,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;所述解码器网络,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。
可选的,所述编码器网络,为包含多个翻译器特征提取模块的网络;其中,所述编码器网络的翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激励函数和第二前向网络。
可选的,所述翻译器特征提取模块,包含残差链接;所述残差链接,用于:将所述第一层泛化层接收的输入特征与所述注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为第二泛化层的输入特征、将第二泛化层的输入特征与第二前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征。
可选的,所述编码器网络还用于:获得待识别的音频数据;获得所述音频数据的滤波特征;针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将声学级别下采样特征作为翻译器特征提取模块的输入信息,获得针对目标翻译器的编码特征;叠加多个目标翻译器的编码特征,得到所述高层音频特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征。
可选的,所述解码器网络还包括:解码特征处理模块;所述解码特征处理模块,用于接收所述解码特征作为输入信息,根据所述输入信息获得所述音频数据对应的文本单位的预测值;根据所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
可选的,所述已解码文本信息,为与当前待解码文本信息相邻的上一个已解码文本信息。
本申请实施例还提供一种语音识别装置,包括:音频获取单元,用于获得待识别的音频数据;高层音频特征提取单元,用于获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;句法特征提取单元,用于根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;解码单元,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
本申请实施例还提供一种电子设备,包括:存储器,以及处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
本申请实施例还提供一种存储设备存储有指令,所述指令能够被处理器加载并执行以下步骤:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
本申请实施例还提供一种智能音箱,包括:拾音设备及语音识别设备,其中,所述语音识别设备包括编码器网络模块、深度语言分析模块、解码器网络模块;
所述拾音设备用于获取待识别的音频数据;
所述编码器网络模块,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。
本申请实施例还提供一种车载智能语音交互装置,包括:拾音设备、语音识别设备及执行设备;其中,所述语音识别设备包括编码器网络模块,深度语言分析模块、解码器网络模块;
所述拾音设备用于获取待识别的音频数据;
所述编码器网络模块,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息;
所述执行设备用于根据所述音频数据对应的文本信息执行相应指令。
本申请实施例还提供一种语音输入装置,包括:语音采集模块、语音识别模块及输出模块;其中,所述语音识别模块包括编码器网络模块、深度语言分析模块、解码器网络模块;
所述语音采集模块用于获取待输入的音频数据;
所述编码器网络模块,用于获得待输入的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息;
所述输出模块用于将文本信息发送至输出设备。
与现有技术相比,本申请具有以下优点:
本申请提供的一种语音识别方法、装置及电子设备,通过根据已解码文本信息,使用深度语言模型获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;根据已解码文本信息、高层句法特征以及高层音频特征,获得待识别的音频数据对应的文本信息。在解码过程中,融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
本申请提供的一种语音识别系统,包括:编码器网络、深度语言分析模块、解码器网络;由于深度语言分析模块根据已解码文本信息,获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;解码器网络根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。解码器网络融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请提供一种语音识别方法、装置、电子设备及存储设备。本申请还提供一种语音识别系统。在下面的实施例中逐一进行详细说明。
为便于理解,首先给出所述语音识别方法的一种系统框架。请参考图1,图中,用户与音频采集设备进行交互,交互过程中,音频采集设备采集用户的音频数据,作为待识别的音频数据,所述音频数据可以是音频片段。由编码器(encoder)网络101,解码器(decoder)网络102和深度语言模型103,针对待识别的音频数据进行端到端语音识别,得到对应的文本信息,已识别出的文本信息可以输出给后续模块或设备使用,例如,从已识别出的文本信息提取指令,按照指令进行相应控制操作。
图中,编码器网络101,可以将所述音频数据转换为滤波特征,例如,由滤波器组(Filter banks)转换为滤波特征,再根据所述滤波特征得到所述音频数据的高层音频特征,在高层音频特征提取中融合了注意力机制。编码器网络的输入可以是音频数据,输出为编码得到的高层音频特征。可以基于一个或多个翻译器(transformer,翻译器)特征提取模块构建编码器网络。
图中,深度语言模型102,用于获得已识别出的文本信息,作为输入的特定语境信息,根据所述特定语境信息分析得到所述音频数据对应的当前待解码文本信息的高层句法特征。可以基于一个或多个翻译器(transformer,翻译器)特征提取模块构建深度语言模型。
图中,解码器网络103,用于根据高层句法特征、当前待识别的音频数据的高层音频特征,得到待识别的音频数据的解码特征,根据解码特征识别出待识别的音频数据对应的文本信息。实际应用中,可以由开始解码指示信息触发语音识别,开始解码指示信息分别输入解码器网络和深度语言模型,解码器网络融合深度语言模型的句法特征,获得解码特征,解码特征输入给前向网络,逐字开始解码,得到所述音频数据对应的文本信息。将当前解码得到的文本信息输入到解码器网络和深度语言模型,并通过内存继续将音频数据的高层音频特征输入解码器网络,得到下个文本信息,直到解码出结束符号。解码器网络是针对输入的编码得到的高层音频特征,引入高层句法特征,解码出对应的文本信息。解码器网络融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合不同语言与发音,实现不同语言到文本信息的直接映射与解码。可以基于一个或多个翻译器(transformer,翻译器)特征提取模块构建解码器网络。
本申请第一实施例提供一种语音识别方法,以下结合图2至4对本申请第一实施例提供的语音识别方法进行说明。
图2所示的语音识别方法,包括:步骤S201至步骤S204。
步骤S201,获得待识别的音频数据。
实际应用中,可以由音频采集设备采集音频数据,作为待识别的音频数据,例如,由麦克风实现语音信号的录入采集,得到音频数据。也可以由其他计算设备获取给定的音频片段,作为待识别的音频数据。
步骤S202,获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征。
本实施例中,通过编码器网络获得所述高层音频特征,具体的,由编码器网络针对输入的待识别的音频数据,编码得到中间向量,将所述中间向量作为所述音频数据的高层音频特征。所述编码器网络可以为RNN神经网络,也可以基于一个或多个翻译器(transformer,翻译器)特征提取模块构建编码器网络。
一个实施方式中,通过下述处理获得所述音频数据的高层音频特征:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。例如,由滤波器组(Filter banks)对所述音频数据进行滤波,得到音频数据的滤波特征;再由编码器网络根据所述滤波特征得到所述音频数据的高层音频特征。具体的,所述编码器网络包括一个或多个翻译器特征提取模块。请参考图3,图中所示的编码器网络包含:卷积层301,时间下采样层302,多个相同或相似的翻译器特征提取模块303,例如可以为4个。所述一个或多个翻译器特征提取模块中的每个翻译器针对输入的滤波特征进行编码,得到的编码特征作为所述高层音频特征;或者,将每个翻译器得到的编码特征进行叠加后获得所述高层音频特征。具体包括下述处理:
通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;
根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
本实施例中,通过下述处理获得针对目标翻译器的编码特征:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对目标翻译器的编码特征。其中,所述声学特征可以为音频数据的能量、过零率、LPC(Linear Prediction Coefficient,线性预测系数)系数中的任一特征;所述感知特征可以为音频数据的音调、旋律、节奏中的任一特征。例如,所述滤波特征以x表示,x的维度为T*D,其中,T为时间维度,D为滤波特征长度。通过卷积层,提取x的底层特征h_low作为声学级别特征。通过时间下采样层,将底层特征h_low中的相邻行合并,得到声学级别特征的下采样特征(以下称为声学级别下采样特征)h_reduce,则h_reduce的维度为T/2*D。
本实施例中,所述编码器网络的每个翻译特征提取模块还包括残差链接。所谓残差链接,是指将输入信息输入到以非线性变换描述的网络,得到的输出信息可以表示为输入和输入的一个非线性变换的线性叠加。例如,输入信息为x,网络的输出信息为F(x),引入残差链接后得到的描述输入输出关系的函数G(x)可以拆分为F(x)和X的线性叠加,即G(x)=x+F(x)。引入残差的目的是跳过网络中的一些层。具体通过下述处理将翻译特征提取模块的输入信息与输出信息进行叠加:
通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;
叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。
本实施例中,所述编译器网络的每个翻译器特征提取模块包含注意力模块,从而在高层音频特征的提取中融合了注意力机制。具体的,每个翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激活函数RELU和第二前向网络。请参考图4,图中所示的翻译器特征提取模块包括:第一层泛化层401,注意力模块402,第二层范化层403,第一前向网络404,非线性函数405,和第二前向网络406。其中,层泛化层(layer normalization),用于对神经网络的输入信息进行尺度归一化;卷积层(convolutional layer)为卷积神经网络中的处理单元;注意力模块(attention block)用于引入注意力机制;非线性激活函数采用Relu函数,用于进行线性整流。图中包含残差链接;所述残差链接具体用于:
将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;
将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。
实际应用中,编码器网络结构不受约束,例如,可以利用卷积神经网络(Convolutional Neural Networks,CNN)或RNN循环神经网络,针对所述滤波特征提取出所述音频数据的高层音频特征。
步骤S203,根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征。
本实施例中,所述深度语言模型,为包含多个相同或相似的翻译器特征提取模块的神经网络,例如可以为3个。其中,每个翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激活函数RELU和第二前向网络。可以由开始解码指示信息作为开始符号触发语音识别,开始符号分别输入解码器网络和深度语言模型,深度语言模型将开始符号包含的信息作为当前特定语境,计算当前特定语境下,下一个待解码的文本信息的高层句法特征。解码器网络融合深度语言模型的高层句法特征,获得解码特征,将解码特征输入给前向网络,由开始符号触发的开始解码出的文本信息为初始文本信息。初始文本信息继续作为深度语言模型的输入信息,深度语言模型将初始文本信息作为当前给定语境,提取下一个待解码文本信息的高层句法特征。初始文本信息还继续作为解码器网络输入信息,并且所述高层句法特征以及将音频数据的高层音频特征作为解码器网络的输入信息,得到下一个文本信息,重复上述处理,直到解码出结束符号。其中,一个文本信息可以是一个字,从而实现逐字解码。例如,给定开始符号x_1,深度语言模型获得的高层句法特征为z(x_n|x_n-1,x_n-2,…,x_1),将高层句法特征作为解码器网络的输入信息之一。
步骤S204,根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
本实施例中,通过解码器网络获得所述音频数据对应的文本信息。具体包括:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。其中,所述文本单位可以是字。所述预测值,可以是对解码出的每个字的评分值。
一个实施方式中,根据开始解码指示信息,获取待识别的音频数据对应的初始文本信息。具体包括下述处理:
获得开始解码指示信息;
通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;
通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。
然后,再将初始文本信息作为给定语境信息,继续解码出所述音频数据对应的下一个文本信息。所述已解码文本信息,可以是与当前待解码文本信息相邻的上一个已解码文本信息。具体的,将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。
一个实施方式中,所述解码器网络,包含多个相同或相似的翻译器特征提取模块,例如可以为2个。具体的,可以由2层翻译器特征提取模块构成一个解码器网络。其中,每个翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激活函数RELU和第二前向网络。以下举例说明解码器网络的处理:将音频数据的高层次音频特征h_high,高层句法特征以及开始解码指示信息,输入2层翻译器特征提取模块,得到对应所述高层次音频特征的解码特征h_final。h_final再通过一个前向网络,得到对应所述音频数据解码出的每个字的评分值。利用softmax函数对所述评分值进行处理,得到当前解码的字概率分布,得到概率最高的字,作为所述音频数据对应的文本信息。将当前解码得到的文本信息输入到解码器网络和深度语言模型,通过内存继续将高层音频特征输入给解码器网络,得到下个字,重复处理,逐字解码,直到解码出结束符号,获得由解码开始到结束的全部文本信息。
至此,对本申请第一实施例提供的语音识别方法进行了详细介绍。所述方法,通过根据已解码文本信息,使用深度语言模型获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;根据已解码文本信息、高层句法特征以及高层音频特征,获得待识别的音频数据对应的文本信息。在解码过程中,融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
以上述实施例为基础,本申请第二实施例提供了一种语音识别系统。
以下结合图5对本申请第二实施例提供的系统进行说明。
图5所示的语音识别系统,包括:编码器网络501、深度语言分析模块502、解码器网络503。
所述编码器网络501,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征。
本实施例中,所述编码器网络,为包含多个翻译器特征提取模块的网络;其中,所述编码器网络的翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激励函数和第二前向网络。其中,层泛化层(layer normalization),用于对神经网络的输入信息进行尺度归一化;卷积层(convolutional layer)为卷积神经网络中的处理单元;注意力模块(attention block)用于引入注意力机制;非线性激活函数采用Relu函数,用于进行线性整流。由于每个翻译器特征提取模块包含注意力模块,因此在高层音频特征的提取中融合了注意力机制。一个实施方式中,所述翻译器特征提取模块,包含残差链接。所谓残差链接,是指将输入信息输入到以非线性变换描述的网络,得到的输出信息可以表示为输入和输入的一个非线性变换的线性叠加。例如,输入信息为x,网络的输出信息为F(x),引入残差链接后得到的描述输入输出关系的函数G(x)可以拆分为F(x)和X的线性叠加,即G(x)=x+F(x)。引入残差的目的是跳过网络中的一些层。所述残差链接,具体用于:将所述第一层泛化层接收的输入特征与所述注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为第二泛化层的输入特征、将第二泛化层的输入特征与第二前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征。
本实施例中,所述编码器网络还用于:获得待识别的音频数据;获得所述音频数据的滤波特征;针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将声学级别下采样特征作为翻译器特征提取模块的输入信息,获得针对目标翻译器的编码特征;叠加多个目标翻译器的编码特征,得到所述高层音频特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征。其中,所述声学特征可以为音频数据的能量、过零率、LPC系数中的任一特征;所述感知特征可以为音频数据的音调、旋律、节奏中的任一特征。
实际应用中,可以由音频采集设备采集音频数据,作为待识别的音频数据,例如,由麦克风实现语音信号的录入采集,得到音频数据。也可以由其他计算设备获取给定的音频片段,作为待识别的音频数据。本实施例中,所述编码器网络针对输入的待识别的音频数据,编码得到中间向量,将所述中间向量作为所述音频数据的高层音频特征。所述编码器网络可以为RNN神经网络,也可以基于一个或多个翻译器(transformer,翻译器)特征提取模块构建编码器网络。一个实施方式中,所述编码器网络具体用于:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。例如,由滤波器组(Filterbanks)对所述音频数据进行滤波,得到音频数据的滤波特征;再由编码器网络根据所述滤波特征得到所述音频数据的高层音频特征。具体的,所述编码器网络包括一个或多个翻译器特征提取模块。例如,包含4个相同或相似的翻译器特征提取模块。所述一个或多个翻译器特征提取模块中的每个翻译器针对输入的滤波特征进行编码,得到的编码特征作为所述高层音频特征;或者,将每个翻译器得到的编码特征进行叠加后获得所述高层音频特征。所述编码器网络具体用于:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
实际应用中,编码器网络结构不受约束,例如,可以利用卷积神经网络(Convolutional Neural Networks,CNN)或RNN循环神经网络,针对所述滤波特征提取出所述音频数据的高层音频特征。
所述深度语言分析模块502,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征。其中,所述已解码文本信息,为与当前待解码文本信息相邻的上一个已解码文本信息。
本实施例中,所述深度语言分析模块,为包含多个相同或相似的翻译器特征提取模块的神经网络,例如可以为3个。其中,每个翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激活函数RELU和第二前向网络。可以由开始解码指示信息作为开始符号触发语音识别,开始符号分别输入解码器网络和深度语言分析模块,深度语言分析模块将开始符号包含的信息作为当前特定语境,计算当前特定语境下,下一个待解码的文本信息的高层句法特征。后续解码过程中融合所述高层句法特征,获得待识别音频数据对应的初始文本信息。初始文本信息继续作为深度语言分析模块的输入信息,深度语言分析模块将初始文本信息作为当前给定语境,提取下一个待解码文本信息的高层句法特征,重复处理,将已解码文本信息作为当前给定语境信息,基于当前给定语境信息获得当前待识别音频数据对应的文本信息的高层句法特征,用于解码出当前待识别音频数据对应的文本信息,直到解码出结束符号。其中,一个文本信息可以是一个字,从而实现逐字解码。
所述解码器网络503,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。
本实施例中,所述解码器网络还包括:解码特征处理模块;所述解码特征处理模块,用于接收所述解码特征作为输入信息,根据所述输入信息获得所述音频数据对应的文本单位的预测值;根据所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
本实施例中,解码器网络具体用于:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;将所述解码特征作为所述解码网络包含的前向网络的输入信息,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。其中,所述文本单位可以是字。所述预测值,可以是对解码出的每个字的评分值。
一个实施方式中,解码器网络用于根据开始解码指示信息,获取待识别的音频数据对应的初始文本信息。具体包括下述处理:获得开始解码指示信息;获得深度语言分析模块提取的初始待解码文本信息的高层句法特征;根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。然后,再将初始文本信息作为给定语境信息,继续解码出所述音频数据对应的下一个文本信息,直到解码出结束解码指示信息为止。所述已解码文本信息,可以是与当前待解码文本信息相邻的上一个已解码文本信息。
一个实施方式中,所述解码器网络,包含多个相同或相似的翻译器特征提取模块,例如可以为2个。具体的,可以是由2层翻译器特征提取模块构成一个解码器网络。其中,每个翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激活函数RELU和第二前向网络。
至此,对本申请第二实施例提供的语音识别进行了详细介绍。所述系统,包括:编码器网络、深度语言分析模块、解码器网络;由于深度语言分析模块根据已解码文本信息,获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;解码器网络根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。解码器网络融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
与第一实施例相对应,本申请第三实施例提供一种语音识别装置。图6示出了第三实施例提供的装置示意图。以下结合图6对所述装置进行说明。
图6所示的语音识别装置,包括:1、一种语音识别方法,其特征在于,包括:
音频获取单元601,用于获得待识别的音频数据;
高层音频特征提取单元602,用于获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
句法特征提取单元603,用于根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
解码单元604,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
其中,所述高层音频特征提取单元602具体用于:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。
其中,所述高层音频特征提取单元602具体用于:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
其中,所述高层音频特征提取单元602具体用于:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对目标翻译器的编码特征。
其中,所述高层音频特征提取单元602具体用于:通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。
其中,所述解码单元604具体用于:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
其中,所述装置还包括初始解码单元,所述初始解码单元用于:获得开始解码指示信息;通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。
其中,所述解码单元还具体用于:将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。
其中,所述编码器网络的翻译器特征提取模块为包含残差链接的模块;所述残差链接,用于:将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。
与第一实施例相对应,本申请第四实施例提供一种电子设备。图7示出了所述电子设备的示意图。以下结合图7对所述电子设备进行说明。
图7所示的电子设备,包括:
存储器701,以及处理器702;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获得待识别的音频数据;
获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
可选的,所述处理器还用于执行下述计算机可执行指令:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。
可选的,所述处理器还用于执行下述计算机可执行指令:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
可选的,所述处理器还用于执行下述计算机可执行指令:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对目标翻译器的编码特征。
可选的,所述处理器还用于执行下述计算机可执行指令:通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。
可选的,所述处理器还用于执行下述计算机可执行指令:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
可选的,所述处理器还用于执行下述计算机可执行指令:获得开始解码指示信息;通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。
可选的,所述处理器还用于执行下述计算机可执行指令:将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。
可选的,所述编码器网络的翻译器特征提取模块为包含残差链接的模块;所述处理器还用于执行下述计算机可执行指令:将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。
本申请实施例提供的电子设备执行所述指令,通过根据已解码文本信息,使用深度语言模型获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;根据已解码文本信息、高层句法特征以及高层音频特征,获得待识别的音频数据对应的文本信息。在解码过程中,融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
与第一实施例相对应,本申请第五实施例提供一种存储设备。所述存储设备的结构示意图类似图7。第五实施例所示的存储设备存储有指令,所述指令能够被处理器加载并执行以下步骤:
获得待识别的音频数据;
获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
本申请实施例提供的存储设备,存储的计算机程序被加载执行后,通过根据已解码文本信息,使用深度语言模型获得待识别的音频数据对应的当前待解码文本信息的高层句法特征;根据已解码文本信息、高层句法特征以及高层音频特征,获得待识别的音频数据对应的文本信息。在解码过程中,融合了深度语言模型的高层句法特征,能够更好的融合语言模型的语义信息,从而可以结合语言与发音,实现语言到文本信息的直接映射与解码,解决了语音识别的速度及精度问题。
以上述实施例为基础,本申请第六实施例提供一种智能音箱。所述智能音箱,包括:拾音设备及语音识别设备,其中,所述语音识别设备包括编码器网络模块、深度语言分析模块、解码器网络模块;
所述拾音设备用于获取待识别的音频数据;
所述编码器网络模块,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。
以上述实施例为基础,本申请第七实施例提供一种车载智能语音交互装置,所述装置包括:拾音设备、语音识别设备及执行设备;其中,所述语音识别设备包括编码器网络模块,深度语言分析模块、解码器网络模块;
所述拾音设备用于获取待识别的音频数据;
所述编码器网络模块,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息;
所述执行设备用于根据所述音频数据对应的文本信息执行相应指令。
以上述实施例为基础,本申请第八实施例提供一种语音输入装置,包括:语音采集模块、语音识别模块及输出模块;其中,所述语音识别模块包括编码器网络模块、深度语言分析模块、解码器网络模块;
所述语音采集模块用于获取待输入的音频数据;
所述编码器网络模块,用于获得待输入的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;
所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;
所述解码器网络模块,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息;
所述输出模块用于将文本信息发送至输出设备。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。