CN111292727B

CN111292727B - 一种语音识别方法及电子设备

Info

Publication number: CN111292727B
Application number: CN202010078826.5A
Authority: CN
Inventors: 邱意; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2023-03-24
Anticipated expiration: 2040-02-03
Also published as: CN111292727A

Abstract

本发明提供一种语音识别方法及电子设备，该方法包括：获取待识别语音的第一FBank特征；将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。训练样本包括第二FBank特征和语谱图，可使得训练样本包含更多的方言信息，可以增强识别模型对方言的鲁棒性，提高识别模型的识别准确率。

Description

一种语音识别方法及电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别方法及电子设备。

背景技术

近年来，语音识别技术发展迅速，逐渐从实验室走向市场，形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统，已经逐渐显露出其强大的技术优势和生命力。

现在，越来越多的语音识别技术被带入到人们的工作生活中，在信息处理、教育与商务、工业控制等方面，语音识别已经显露出巨大的优势。虽然语音识别技术的发展日趋成熟，但是目前语音识别技术对方言的识别准确率较低。

发明内容

本发明实施例提供一种语音识别方法及电子设备，以解决现有语音识别技术对方言的识别准确率较低的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音识别方法，应用于电子设备，包括：

获取待识别语音的第一FBank特征；

将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；

其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。

第二方面，本发明实施例还提供一种电子设备，包括：

第一获取模块，用于获取待识别语音的第一FBank特征；

第二获取模块，用于将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；

第三方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音识别方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别方法的步骤。

在本发明实施例中，获取待识别语音的第一FBank特征；将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。训练样本包括第二FBank特征和语谱图，可使得训练样本包含更多的方言信息，可以增强识别模型对方言的鲁棒性，提高识别模型的识别准确率。

附图说明

图1是本发明实施例提供的语音识别方法的流程图；

图2是本发明实施例提供的识别模型的结构图；

图3是本发明实施例提供的电子设备的结构图；

图4是本发明另一实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的语音识别方法的流程图之一，如图1所示，本实施例提供一种语音识别方法，应用于电子设备，包括以下步骤：

步骤101、获取待识别语音的第一FBank特征。

FilterBank特征可简称FBank特征，为了与训练样本中的FBank特征进行区分，待识别语音的FBank特征称为第一FBank特征，训练样本中的FBank特征称为第二FBank特征。在本发明中，第一、第二仅用于区别不同的FBank特征或语谱图，并无其他意义。

语谱图就是语音频谱图，一般是通过处理接收的时域信号得到频谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。

在本步骤中，获取待识别语音的第一FBank特征包括：将待识别语音输入至高斯混合模型，获得第一语音帧，该第一语音帧具有标注信息，然后根据第一语音帧，获得第一FBank特征，其中，高斯混合模型根据方言语音样本进行训练。高斯混合模型的训练过程为：对所述方言语音样本进行标注，该标注为句子级别的标注，即一条方言语音样本对应一个标注，此处可采用人工标注的方式进行标注，获得标注样本，然后将标注样本输入至高斯混合模型进行训练，获得标注的语音帧，一条语音帧对应一个标注。

本发明中，方言可理解为地方性语言，例如，相对普通话来说，上海话、四川话均为方言。对方言语音样本进行标注时，不同的方言可采用不同的标记进行标注，例如，将上海话标注为1，四川话标注为2；或者，将长沙话标记为1，株洲话标记为2，在此不做限定。

步骤102、将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。

识别模型通过方言语音样本的第二FBank特征和语谱图进行训练，可以增强识别模型对方言的鲁棒性，提高识别模型的识别准确率。

本发明实施例中，上述电子设备可以为任何包括摄像头的电子设备，例如：手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digital assistant，简称PDA)、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)等。

本发明中，获取待识别语音的第一FBank特征；将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。训练样本包括第二FBank特征和语谱图，可使得训练样本包含更多的方言信息，可以增强识别模型对方言的鲁棒性，提高识别模型的识别准确率。

在本发明一个实施例中，所述第二FBank特征通过语音帧获取，所述语音帧通过将标注后的所述方言语音样本输入至高斯混合模型获得。

具体的，第二FBank特征的获取过程为：对所述方言语音样本进行标注，获得标注样本；将所述标注样本输入至高斯混合模型进行训练，获得标注的语音帧；根据所述语音帧，获取第二FBank特征，此处，第二FBank特征可为80维的FBank特征。

在本发明一个实施例中，所述识别模型的获取过程包括：

获取所述方言语音样本的所述第二FBank特征和所述语谱图；

将所述第二FBank特征输入至第一特征提取层，获得第一输出；

将所述语谱图输入至第二特征提取层，获得第二输出；

将所述第一输出和所述第二输出输入至方言识别层，获得第三输出；

将所述第一输出输入至声学模型层，获得第四输出；

根据所述第三输出和所述第四输出，更新所述第一特征提取层、所述第二特征提取层、所述声学模型层以及所述方言识别层的参数。

具体的，识别模型包括第一特征提取层、第二特征提取层、声学模型层以及方言识别层。

如图2所示，所述第一特征提取层包括第一长短期记忆网络(LSTM，Long Short-Term Memory，简称LSTM)输入层、第一LSTM中间层以及第一双向长短时记忆网络(bidirectional long short-term memory，简称BLSTM)输出层。第一LSTM输入层和第一LSTM中间层均包括220个神经网络单元，第一BLSTM输出层包括440个神经网络单元，其中，每个方向设置220个神经网络单元。

所述第二特征提取层包括卷积神经网络(Convolutional Neural Network，简称CNN)输入层、第二LSTM中间层以及第二BLSTM输出层。CNN输入层包括3层，第一层卷积核数目为32，接2*2的max-pooling；第二层卷积核数目为64，接2*2的最大值池化(即max-pooling)，第三层卷积核128，接2*2的max-pooling，第二LSTM中间层包括220个神经网络单元，第二BLSTM输出层包括440个神经网络单元，其中，每个方向设置220个神经网络单元。

所述声学模型层包括第二LSTM输入层、第三LSTM中间层以及第一分类器(例如，softmax分类器)。第二LSTM输入层包括220个神经网络单元，第三LSTM中间层包括640个神经网络单元。

所述方言识别层包括BLSTM输入层和第二分类器(例如，softmax分类器)。BLSTM输入层包括440个神经网络单元。

如图2所示，识别模型输出的损失函数包括celoss1(即第三输出)和celoss2(即第四输出)，在获取到celoss1和celoss2后，通过反向传播更新第一特征提取层、第二特征提取层、声学模型层以及方言识别层的参数，具体为：

根据如下表达式，更新所述第一特征提取层、所述第二特征提取层、所述声学模型层以及所述方言识别层的参数：

其中，

表示偏导数；

w1、w1’分别为所述第一特征提取层更新前和更新后的参数；celoss1为所述第三输出，celoss2为所述第四输出；λ为0.5，5×10^-5＜a＜5×10^-7；

w2、w2’分别为所述声学模型层更新前和更新后的参数；

w3、w3’分别为所述方言识别层更新前和更新后的参数；

w4、w4’分别为所述第二特征提取层更新前和更新后的参数。

通过分别对第一特征提取层、第二特征提取层、声学模型层和方言识别层的参数进行不断更新，以对识别模型进行优化，提高识别模型的识别准确率。

celoss1表示交叉熵，根据交叉熵损失函数计算声学模型层在帧级别(对识别模型进行训练的训练样本的第二FBank特征为语音帧)的识别损失，从而对识别模型第一特征提取层、第二特征提取层、声学模型层以及方言识别层的参数进行更新。

celoss2表示交叉熵，根据交叉熵损失函数计算方言识别层对帧级别语音的识别损失，从而对识别模型第一特征提取层、第二特征提取层、声学模型层以及方言识别层的参数进行更新。λ为权重系数，一般取0.5。

其中，将第一语谱图与第一FBank特征作为识别模型的训练样本，这两种特征可包含更多的方言信息，有利于提升识别模型识别的准确率。celoss2中包含celoss1，celoss2-λceloss1可使特征提取层对同一句话的不同方言发音，如“中国，你好”都能很好的投射到同一个特征表达空间，这样可以减少不同方言之间的特征差异，有利于声学模型层的训练，提升识别性能。

在采用识别模型进行识别时，是根据声学模型层的输出来确定识别结果，也就是说，在利用识别模型进行识别阶段，第二特征提取层和方言识别层并不需要使用到。但是，在识别模型的训练过程中，为了获得准确度高的识别模型，采用第二特征提取层和方言识别层进行辅助训练，即根据声学模型层和方言识别层的输出来对第一特征提取层的参数进行更新，可使第一特征提取层对同一句话的不同方言发音，都能很好的投射到同一个特征表达空间，这样可以减少不同方言之间的特征差异，有利于声学模型层的训练，并提升其识别性能。在对待识别语音进行识别时，将所述第一FBank特征输入至识别模型的第一特征提取层，并根据声学模型层的输出确定识别结果。

参见图3，图3是本发明实施例提供的电子设备的结构图，如图3所示，电子设备300包括：

第一获取模块，用于获取待识别语音的第一FBank特征；

进一步的，所述第二FBank特征通过语音帧获取，所述语音帧通过将标注后的所述方言语音样本输入至高斯混合模型获得。

进一步的，所述识别模型的获取过程包括：

获取所述方言语音样本的所述第二FBank特征和所述语谱图；

将所述语谱图输入至第二特征提取层，获得第二输出；

将所述第一输出输入至声学模型层，获得第四输出；

进一步的，所述第一特征提取层包括第一长短期记忆网络LSTM输入层、第一LSTM中间层以及第一双向长短时记忆网络BLSTM输出层；

所述第二特征提取层包括卷积神经网络CNN输入层、第二LSTM中间层以及第二BLSTM输出层；

所述声学模型层包括第二LSTM输入层、第三LSTM中间层以及第一分类器；

所述方言识别层包括BLSTM输入层和第二分类器。

进一步的，根据所述第三输出和所述第四输出，更新所述第一特征提取层、所述第二特征提取层、所述声学模型层以及所述方言识别层的参数，包括：

其中，

表示偏导数；

w2、w2’分别为所述声学模型层更新前和更新后的参数；

w3、w3’分别为所述方言识别层更新前和更新后的参数；

w4、w4’分别为所述第二特征提取层更新前和更新后的参数。

电子设备300能够实现图1的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例的电子设备400，获取待识别语音的第一FBank特征；将所述第一FBank特征输入至识别模型，以对所述待识别语音进行识别，获得识别结果；其中，所述识别模型的训练样本包括方言语音样本的第二FBank特征和语谱图。训练样本包括第二FBank特征和语谱图，可使得训练样本包含更多的方言信息，可以增强识别模型对方言的鲁棒性，提高识别模型的识别准确率。

图4为实现本发明各个实施例的一种电子设备的硬件结构示意图，如图4所示，该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，用于获取待识别语音的第一FBank特征；

进一步的，所述识别模型的获取过程包括：

获取所述方言语音样本的所述第二FBank特征和所述语谱图；

将所述语谱图输入至第二特征提取层，获得第二输出；

将所述第一输出输入至声学模型层，获得第四输出；

所述方言识别层包括BLSTM输入层和第二分类器。

/>

其中，

表示偏导数；

w2、w2’分别为所述声学模型层更新前和更新后的参数；

w3、w3’分别为所述方言识别层更新前和更新后的参数；

w4、w4’分别为所述第二特征提取层更新前和更新后的参数。

电子设备400能够实现前述实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在电子设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

电子设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器410，存储器409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。