CN106611599A

CN106611599A - 基于人工神经网络的语音识别方法、装置及电子设备

Info

Publication number: CN106611599A
Application number: CN201510688493.7A
Authority: CN
Inventors: 柯逸倩; 孙廷玮
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2017-05-03

Abstract

一种基于人工神经网络的语音识别方法、装置及电子设备，基于人工神经网络的语音识别方法包括：离线训练用于语音识别的人工神经网络模型；在离线训练的人工神经网络模型通过测试后，记录人工神经网络模型的当前权重和当前偏置值；将当前权重和当前偏置值作为无线终端采用的人工神经网络模型的初始权重和初始偏置值；在线训练采用初始权重和初始偏置值的人工神经网络模型，得到在线训练后的权重和偏置值；将采用在线训练后的权重和偏置值的人工神经网络模型用于无线终端的语音识别。所述基于人工神经网络的语音识别方法、装置及电子设备缩短了无线终端采用的人工神经网络模型的训练时间，提高了语音识别输出结果的准确性。

Description

基于人工神经网络的语音识别方法、装置及电子设备

技术领域

本发明涉及智能通信领域，尤其涉及一种基于人工神经网络的语音识别方法、装置及电子设备。

背景技术

随着智能终端行业的快速发展，智能终端上能够实现的功能越来越多，其中，语音控制是在智能终端上非常流行的一种功能。如何准确快速的识别每个语音命令是语音控制的重要部分。

现有技术中，通常使用人工神经网络(Neural Network Algorithm,ANN)方法对语音控制命令进行分类识别。人工神经网络模型由大量的节点(或神经元)之间相互联接构成。每个节点代表一种特定的输出函数，为激励函数。两个节点之间的连接代表一个对于通过该连接信号的加权值，称之为权重，相当于人工神经网络的记忆。人工神经网络模型的输出根据网络的连接方式、权重值和激励函数的不同而不同。语音控制命令中的音频数据中包含元音和辅音，人工神经网络方法通过识别出元音和辅音并进行分类，然后再利用元音和辅音的分类结果的组合和顺序按照一定的规则判定语音数据命令。权重和隐藏神经元的偏置是影响人工神经网络模型性能的重要参数，通过提取的语音数据来训练人工神经网络模型，得到有效的权重和偏置。

但是，现有技术的语音识别方法中，通常人工神经网络模型的初始权重是由随机数初始化，初始偏置值由零初始化，由于权重和偏置值的初始化方式，导致语音识别的分类输出结果不准确，同时需要相当长的时间来进行训练人工神经网络模型。

发明内容

本发明解决的技术问题是如何缩短用于语音识别的人工神经网络模型的训练时间，提高输出结果的准确性。

为解决上述技术问题，本发明实施例提供一种基于人工神经网络的语音识别方法，所述基于人工神经网络的语音识别方法包括：

离线训练用于语音识别的人工神经网络模型；

在离线训练的所述人工神经网络模型通过测试后，记录所述人工神经网络模型的当前权重和当前偏置值；

将所述当前权重和所述当前偏置值作为无线终端采用的所述人工神经网络模型的初始权重和初始偏置值；

在线训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型，得到在线训练后的权重和偏置值；

将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于所述无线终端的语音识别。

可选的，所述离线训练用于语音识别的人工神经网络模型包括：

获取目标语音数据和干扰语音数据，形成第一训练数据集；

将所述人工神经网络模型的权重随机初始化，偏置值从零初始化；

根据所述第一训练数据集训练所述人工神经网络模型。

可选的，所述离线训练的所述人工神经网络模型通过测试包括：

将测试语音数据输入至离线训练后的所述人工神经网络模型，并将所述人工神经网络模型的输出与所述测试语音数据进行比较，得到输出错误率；

当所述输出错误率达到设定阈值时，记录所述人工神经网络模型的当前权重和当前偏置值。

可选的，所述输出错误率没有达到设定阈值时，将所述人工神经网络模型的所述权重随机初始化，所述偏置值从零初始化。

可选的，所述在线训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型包括：

获取终端记录的语音数据，形成第二训练数据集；

根据所述第二训练数据集训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型。

可选的，将在线训练后的所述人工神经网络模型的输出转换为可供电子设备执行的操作指令。

可选的，所述第一训练数据集包括具备不同语速、语调或分贝的所述目标语音数据或所述干扰语音数据；所述第二训练数据集包括具备不同语速、语调或分贝的所述语音数据。

为解决上述技术问题，本发明实施例还公开了一种基于人工神经网络的语音识别装置，基于人工神经网络的语音识别装置包括：

初始单元，适于将记录的初始权重和初始偏置值用于人工神经网络模型；所述初始权重和所述初始偏置值是通过离线训练所述人工神经网络模型得到。

在线训练单元，耦接所述初始单元，在线训练采用所述初始权重和所述初始偏置值的人工神经网络模型，得到在线训练后的权重和偏置值；

语音识别单元，将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于无线终端的语音识别。可选的，所述基于人工神经网络的语音识别装置还包括：语音转换单元，将在线训练后的所述人工神经网络模型的输出转换为可供电子设备执行的操作指令。

为解决上述技术问题，本发明实施例还公开了一种电子设备所述电子设备包括基于人工神经网络的语音识别装置。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例通过离线训练用于语音识别的人工神经网络模型，在离线训练的所述人工神经网络模型通过测试后，记录所述人工神经网络模型的当前权重和当前偏置值；将所述当前权重和所述当前偏置值作为无线终端采用的所述人工神经网络模型的初始权重和初始偏置值；在线训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型，得到在线训练后的权重和偏置值；将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于所述无线终端的语音识别；通过离线训练人工神经网络模型得到初始权重和初始偏置值，用于无线终端采用的人工神经网络模型，缩短了无线终端采用的人工神经网络模型的训练时间，提高了语音识别输出结果的准确性。

附图说明

图1是本发明实施例一种人工神经网络模型结构示意图；

图2是本发明实施例一种基于人工神经网络的语音识别方法流程图；

图3是本发明实施例一种离线训练人工神经网络的方法流程图；

图4是本发明实施例一种在线训练人工神经网络的方法流程图；

图5是本发明实施例一种基于人工神经网络的语音识别装置结构示意图。

具体实施方式

如背景技术中所述，现有技术的语音识别方法中，通常人工神经网络模型权重是由随机数初始化，偏置由零初始化，由于权重和偏置的初始化方式，导致语音识别的分类输出结果不准确，同时需要相当长的时间来进行训练人工神经网络模型。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种人工神经网络模型结构示意图。

请参照图1，人工神经网络结构包括输入层、隐藏层和输出层。

本实施例中，输入层包括，X₁，X₂…X_i表示输入的数据；输出层包括，Y₁,Y_2....Y_j表示输出数据；输入层和隐藏层存在多重连接方式，每种连接方式对应一个连接权系数，即权重W₁₁，W_1j，W₂₁，…W_ij；b₁…b_j表示隐藏层的偏置。

本实施例中，人工神经网络由神经元模型构成，神经元模型并行分布形成信息处理网络。每个神经元具有单一输出，并且能够与其它神经元连接；以处理单元(Processing Element,PE)为节点，用加权有向弧相互连接而成。

需要说明的是，本发明实施例中包含一个隐藏层，在实际应用环境中，人工神经网络也可以包括任意可实施数量的隐藏层。

本实施例中，人工神经网络的输出数据的计算公式为：Y_j＝f((∑X_iW_ij)+b_j)；其中f是传递函数或激发函数(Activation Function)或作用函数，传递函数f决定节点的输出Y_j。

可以理解的是，在不同的人工神经网络的体系结构，具备不同的传递函数f。

人工神经网络模型的结构设计完成后，除输入、输出参数外，还需要对人工神经网络模型进行训练，得到有效的权重和偏置值后，用于无线终端的语音识别。

图2是本发明实施例一种基于人工神经网络的语音识别方法流程图。

请参照图2，所述人工神经网络的语音识别方法包括：

步骤S201，离线训练用于语音识别的人工神经网络模型。

本实施例中，在对无线终端的语音控制上，对于输入的语音指令，所述人工神经网络模型的判定结果只有是控制指令或不是控制指令两类。故人工神经网络模型的输出决定输入的语音指令能否控制无线终端。

本实施例中，离线训练是指在用于语音识别人工神经网络模型配置在无线终端之前，得到用于语音识别的人工神经网络模型有效的权重和偏置值，缩短用户在无线终端使用语音控制时对人工神经网络模型的训练时间。

可以理解的是，本发明实施例的所述人工神经网络的输出层结果有两种，输出为1或0，表示是控制指令或不是控制指令。在实际的应用环境中，所述输出可以是任意可表示同样含义的表达方式。

其中，离线训练用于语音识别的人工神经网络模型可参考图3，图3是本发明实施例一种离线训练人工神经网络的方法流程图。

请参照图3，所述离线训练人工神经网络的方法包括：步骤S301，获取目标语音数据和干扰语音数据，形成第一训练数据集。

本实施例中，获取目标语音数据和干扰语音数据，其中，目标语音数据为控制无线终端的语音指令，干扰语音数据为不能控制无线终端的语音指令。所述目标语音数据和所述干扰语音数据为两类语义不同的语音数据，且具备不同语速、语调或分贝，形成第一训练数据集。

可以理解的是，在实际的应用环境中，离线训练人工神经网络模型也可以采用任意可实施数量类型的语音数据进行训练，分类的方法可参考本实施例。

步骤S302，将所述人工神经网络模型的权重随机初始化，偏置值从零初始化。

本实施例中，在人工神经网络模型建成后，传递函数f为已配置参数，在权重和偏置值也有数值时，人工神经网络模型才能运行。在初始状态，权重和偏置值分别通过随机初始化和从零初始化确定。

步骤S303，根据所述第一训练数据集训练所述人工神经网络模型。

本实施例中，通过第一训练数据集训练所述人工神经网络模型是为了得到有效的权重和偏置值，人工神经网络模型使用有效的权重和偏置值后，当目标语音数据作为输入对应的输出可以控制无线终端；当干扰语音数据作为输入对应的输出不可以控制无线终端。

步骤S304，将测试语音数据输入至离线训练后的所述人工神经网络模型，并将所述人工神经网络模型的输出与所述测试语音数据进行比较，得到输出错误率。

本实施例中，采用的所述测试语音数据与第一训练集中的目标语音数据和干扰语音数据是不同的。

本实施例中，输出错误率为输出结果不是控制指令的语音数据数量与第一训练集的语音数据总数量之比。

步骤S305，判断所述输出错误率是否达到设定阈值，如果是，则进入步骤S306，否则，继续步骤S302。

本实施例中，所述输出错误率的设定阈值根据实际应用环境做适应性的调整。

步骤S306，记录人工神经网络模型的当前权重和当前偏置值。

本实施例中，当所述输出错误率达到设定阈值时，记录所述人工神经网络模型的当前权重和当前偏置值。所述输出错误率没有达到设定阈值时，将所述人工神经网络模型的所述权重随机初始化，所述偏置值从零初始化。

本发明实施例的离线训练人工神经网络的方法在所述人工神经网络模型用于无线终端设备之前，计算出有效的权重和偏置值。

步骤S202，在离线训练的所述人工神经网络模型通过测试后，记录所述人工神经网络模型的当前权重和当前偏置值。

本实施例中，将离线训练人工神经网络的方法得到的当前权重和当前偏置值记录并存储。

步骤S203，将所述当前权重和所述当前偏置值作为无线终端采用的所述人工神经网络模型的初始权重和初始偏置值。

本实施例中，人工神经网络模型配置于所述无线终端后，初始状态为，将初始权重和初始偏置值设置为记录并保存的所述当前权重和所述当前偏置值。

步骤S204，在线训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型，得到在线训练后的权重和偏置值。

本实施例中，用户首次使用无线终端的语音控制功能时，还需要对所述无线终端的人工神经网络模型进行在线训练。在线训练人工神经网络模型是指，根据用户输入保存的语音数据对无线终端的人工神经网络模型进行训练，在初始权重和初始偏置值的基础上对权重和偏置值进行优化，得到在线训练后的权重和偏置值。

步骤S205，将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于所述无线终端的语音识别。

本实施例中，在得到优化后的权重和偏置值后，将其配置于无线终端的人工神经网络模型，用于语音识别，识别出的控制指令适于实施对无线终端的控制。

本发明实施例的离线训练人工神经网络的方法在所述人工神经网络模型用于无线终端设备之前，计算出有效的权重和偏置值，相对于现有技术中的随机初始化，将计算出的有效的权重和偏置值用于人工神经网络模型，缩短了用户使用终端时的在线训练时间。

本发明实施例的基于人工神经网络的语音识别方法与现有技术的语音识别方法对比的测试结果如表1、表2和表3所示。

方法类型	错误率
		现有技术	错误率>50％
本发明实施例	0％<错误率<20％

表1

请参照表1，表1所示测试结果采用的测试语音数据为，你好小E和成吉思汗，其中，你好小E为目标语音数据。现有技术的语音识别方法对于测试数据的输出对应的错误率大于50％；本发明实施例对于测试数据的输出对应的错误率小于20％。

表2

请参照表2，表2所示测试结果采用的测试语音数据为，你好小E和你好可乐，其中，你好小E为目标语音数据。每组数据分别作了10次测试。现有技术的语音识别方法的输出结果中，有一次测试的错误率小于20％，五次测试的错误率大于30％小于50％，四次测试的错误率大于等于50％；本发明实施例对于测试数据的输出结果中，四次测试的错误率为0％，即完全正确；六次测试的错误率大于30％小于50％，零次测试的错误率大于等于50％。

表3

请参照表3，表3所示测试结果采用的测试语音数据为，成吉思汗和蒙娜丽莎，其中，成吉思汗为目标语音数据。每组数据分别作了10次测试。现有技术的语音识别方法的输出结果中，有零次测试的错误率小于20％，三次测试的错误率大于30％小于50％，七次测试的错误率大于等于50％；本发明实施例对于测试数据的输出结果中，零次测试的错误率为0％，即完全正确；十次测试的错误率大于30％小于50％，零次测试的错误率大于等于50％。

参照表1、表2和表3的测试结果，本发明实施例的基于人工神经网络的语音识别方法相对于现有技术，对于语音识别的错误率减少，正确率提高，提高了无线终端语音识别输出结果的准确性。

图4是本发明实施例一种在线训练人工神经网络的方法流程图。

请参照图4，所述在线训练人工神经网络的方法包括：

步骤S401，获取终端记录的语音数据，形成第二训练数据集。

本实施例中，用户在使用语音控制无线终端时，终端会记录用户的语音数据，将所述语音数据集合成第二训练数据集。所述第二训练集和第一训练集中的语音数据内容不同，但是分类方法相似。

步骤S402，将当前权重和当前偏置值作为无线终端采用的人工神经网络模型的初始权重和初始偏置值。

本发明实施例中，在人工神经网络模型中，在具有任意值的权重和偏置值的初始组合中，同一性质的输入数据的有效权值和偏置值会比较接近。在基于人工神经网络的语音识别中，输入数据都是语音数据，可以采用相同或相近的权重和偏置值。

步骤S403，通过第二训练数据集测试训练的人工神经网络模型。

步骤S404，得到用于无线终端的分类训练模型。

本发明实施例中，将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于所述无线终端的语音识别。

请参照图5，所述基于人工神经网络的语音识别装置包括：

在线训练单元501，在线训练采用初始权重和初始偏置值的人工神经网络模型，得到在线训练后的权重和偏置值

语音识别单元502，将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于无线终端的语音识别。

初始单元503，耦接所述在线训练单元，适于将记录的所述初始权重和所述初始偏置值用于所述人工神经网络模型。

语音转换单元504，将在线训练后的所述人工神经网络模型的输出转换为可供电子设备执行的操作指令。

具体实施方式可参考前述相应实施例，此处不再赘述。

本发明实施例还公开了一种电子设备，所述电子设备配置有所述基于人工神经网络的语音识别装置。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于人工神经网络的语音识别方法，其特征在于，包括：

离线训练用于语音识别的人工神经网络模型；

2.根据权利要求1所述的基于人工神经网络的语音识别方法，其特征在于，所述离线训练用于语音识别的人工神经网络模型包括：

获取目标语音数据和干扰语音数据，形成第一训练数据集；

根据所述第一训练数据集训练所述人工神经网络模型。

3.根据权利要求1所述的基于人工神经网络的语音识别方法，其特征在于，所述离线训练的所述人工神经网络模型通过测试包括：

4.根据权利要求3所述的基于人工神经网络的语音识别方法，其特征在于，所述输出错误率没有达到设定阈值时，将所述人工神经网络模型的所述权重随机初始化，所述偏置值从零初始化。

5.根据权利要求1所述的基于人工神经网络的语音识别方法，其特征在于，所述在线训练采用所述初始权重和所述初始偏置值的所述人工神经网络模型包括：

获取终端记录的语音数据，形成第二训练数据集；

6.根据权利要求1所述的基于人工神经网络的语音识别方法，其特征在于，将在线训练后的所述人工神经网络模型的输出转换为可供电子设备执行的操作指令。

7.根据权利要求1所述的基于人工神经网络的语音识别方法，其特征在于，所述第一训练数据集包括具备不同语速、语调或分贝的所述目标语音数据或所述干扰语音数据；所述第二训练数据集包括具备不同语速、语调或分贝的所述语音数据。

8.一种基于人工神经网络的语音识别装置，其特征在于，包括：

初始单元，适于将记录的初始权重和初始偏置值用于人工神经网络模型；

所述初始权重和所述初始偏置值是通过离线训练所述人工神经网络模型得到。

语音识别单元，将采用所述在线训练后的权重和偏置值的所述人工神经网络模型用于无线终端的语音识别。

9.根据权利要求8所述的基于人工神经网络的语音识别装置，其特征在于，还包括：语音转换单元，将在线训练后的所述人工神经网络模型的输出转换为可供电子设备执行的操作指令。

10.一种电子设备，其特征在于，包括如权利要求8或9所述的基于人工神经网络的语音识别装置。