CN108010527A

CN108010527A - 语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN108010527A
Application number: CN201711376008.8A
Authority: CN
Inventors: 孟令龙; 何海亮
Original assignee: Shenzhen Oribo Technology Co Ltd
Current assignee: Shenzhen Oribo Technology Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-05-08
Anticipated expiration: 2037-12-19
Also published as: CN111508489A; CN111508489B; CN108010527B

Abstract

本发明公开了一种语音识别方法、装置、计算机设备和存储介质，该方法包括以下步骤：采集用户数据，用户数据包括第一类数据和第二类数据，第一类数据包括用户操作数据，第二类数据包括用户语言数据；通过机器学习算法利用用户数据进行预测建模，生成预测模型；在语音识别过程中，当识别用户的控制命令失败时，利用预测模型预测出用户的控制命令。本发明实施例所提供的一种语音识别方法，通过采集用户数据，并通过机器学习算法利用用户数据进行预测建模生成预测模型，当语音识别过程中识别用户的控制命令失败时，则利用预测模型预测出用户的控制命令，从而提高了语音识别的成功率和准确率，进而提高了语音控制的可靠性和智能性，提升了用户体验。

Description

语音识别方法、装置、计算机设备和存储介质

技术领域

本发明涉及语音控制技术领域，尤其是涉及一种语音识别方法、装置、计算机设备和存储介质。

背景技术

随着语音控制技术的发展，语音控制已广泛应用于各个领域，最典型的是应用于智能家居控制领域。在进行语音控制时，系统首先根据用户的语音指令进行语音识别，识别出用户的控制命令，再根据控制命令控制相应的智能设备。

在进行语音识别时，需要将用户的语音信息识别为文字信息。由于用户说话的习惯、方式、音调音色等各不相同，故同一个控制命令，当由不同的用户说出来时，解析出来的文字可能千差万别，这就导致最终识别出的控制命令可能是错误的，或者根本识别不出控制命令，从而影响语音控制的可靠性，降低了用户体验。

因此，如何提高语音识别的成功率和准确率，进而提高语音控制的可靠性，是当前亟需解决的技术问题。

发明内容

本发明实施例的主要目的在于提供一种语音识别方法、装置、计算机设备和存储介质，旨在提高语音识别的成功率和准确率，进而提高语音控制的可靠性。

为达以上目的，本发明实施例提出一种语音识别方法，所述方法包括以下步骤：

采集用户数据；所述用户数据包括第一类数据和第二类数据，所述第一类数据包括用户操作数据，所述第二类数据包括用户语言数据；

通过机器学习算法利用所述用户数据进行预测建模，生成预测模型；

在语音识别过程中，当识别用户的控制命令失败时，利用所述预测模型预测出用户的控制命令。

可选地，所述通过机器学习算法利用所述用户数据进行预测建模，生成预测模型的步骤包括：

对所述用户数据进行形式转换处理，转换为可用于机器学习的数据形式；

通过机器学习算法对所述用户数据进行学习训练，生成预测模型。

可选地，所述通过机器学习算法对所述用户数据进行学习训练，生成预测模型的步骤包括：

通过二分K均值聚类算法对所述第一类数据进行学习训练，生成聚类模型；通过贝叶斯算法对所述第二类数据进行学习训练，生成第二概率模型；

通过梯度提升树算法对所述聚类模型和所述第二概率模型进行学习训练，生成所述预测模型。

分别通过二分K均值聚类算法和贝叶斯算法对所述第一类数据进行学习训练，生成聚类模型和第一概率模型；通过贝叶斯算法对所述第二类数据进行学习训练，生成第二概率模型；

通过梯度提升树算法对所述聚类模型、所述第一概率模型和所述第二概率模型进行学习训练，生成所述预测模型。

分别通过二分K均值聚类算法、贝叶斯算法和多元逻辑回归算法对所述第一类数据进行学习训练，生成聚类模型、第一概率模型和回归模型；通过贝叶斯算法对所述第二类数据进行学习训练，生成第二概率模型；

通过梯度提升树算法对所述聚类模型、所述第一概率模型、所述第二概率模型和所述回归模型进行学习训练，生成所述预测模型。

可选地，所述第一类数据还包括外部环境数据。

可选地，所述利用所述预测模型预测出用户的控制命令的步骤之后还包括：收集预测后的反馈结果，根据所述反馈结果校正所述预测模型。

本发明实施例同时提出一种语音识别装置，所述装置包括：

数据采集模块，用于采集用户数据；所述用户数据包括第一类数据和第二类数据，所述第一类数据包括用户操作数据，所述第二类数据包括用户语言数据；

预测建模模块，用于通过机器学习算法利用所述用户数据进行预测建模，生成预测模型；

命令预测模块，用于在语音识别过程中，当识别用户的控制命令失败时，利用所述预测模型预测出用户的控制命令。

本发明实施例还提出一种计算机设备，其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音识别方法。

本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时，实现前述语音识别方法的步骤。

本发明实施例所提供的一种语音识别方法，通过采集用户数据，并通过机器学习算法利用用户数据进行预测建模生成预测模型，当语音识别过程中识别用户的控制命令失败时，则利用预测模型预测出用户的控制命令，从而提高了语音识别的成功率和准确率，进而提高了语音控制的可靠性和智能性，提升了用户体验。

附图说明

图1是本发明的语音识别方法第一实施例的流程图；

图2是本发明的语音识别方法第二实施例的流程图；

图3是本发明的语音识别装置第一实施例的模块示意图；

图4是图3中的预测建模模块的模块示意图；

图5是图4中的模型建立单元的模块示意图；

图6是图4中的模型建立单元的又一模块示意图；

图7是图4中的模型建立单元的又一模块示意图；

图8是图4中的模型建立单元的又一模块示意图；

图9是本发明的语音识别装置第二实施例的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例的语音识别方法，主要应用于计算机设备，所述计算机设备主要指服务器，当然也可以指终端设备，本发明对此不作限定。

参见图1，提出本发明的语音识别方法一实施例，所述方法包括以下步骤：

S11、采集用户数据。

本发明实施例中，用户数据具有多样性，主要包括第一类数据和第二类数据。第一类数据至少包括用户操作数据，还可以进一步包括外部环境数据，此外还可以进一步包括其它数据，本发明对此不作限定；第二类数据主要包括用户语言数据，此外还可以包括其它数据。

服务器可以直接从用户操作日志中获取用户操作数据，如从智能家居系统平台的用户操作日志中获取用户操作数据。用户操作数据主要包括用户基本信息、时间信息和操作信息。用户基本信息包括用户类型、用户成员、用户位置信息等，其中，用户类型如家庭、企事业单位等，用户成员如是否有儿童、老人、孕妇以及成员数量等，用户位置信息如行政区域(如省、市、区、街道)、楼层、房间及其朝向等。操作信息包括操作指令、操作终端类型、操作设备、触发机制等，其中，操作指令如打开、关闭、设置、调大、调小等，操作终端类型如应用(APP)、语音、控制板等，操作设备如风扇、电视、窗帘等，触发机制如手动、联动、定时、情景、远程等。

服务器可以通过终端设备获取用户所在地区的外部环境数据，该外部环境数据主要包括地理信息(如经纬度)、天气信息等，天气信息如晴天、阴天、雨天、雪天等。

服务器可以在每次语音控制后采集用户语言数据，该用户语言数据即语音识别过程中对用户语音信息进行解析识别后获得的语言文本信息，包括解析识别失败的数据和解析识别成功的数据。

S12、通过机器学习算法利用用户数据进行预测建模，生成预测模型。

本发明实施例中，服务器采集到用户数据后，首先对用户数据进行形式转换处理，转换为可用于机器学习的数据形式；然后通过机器学习算法对用户数据进行学习训练，生成预测模型。

对于用户操作数据的形式转换处理，可以对时间进行每半小时一个维度的设定，用户操作数据存在于哪个时间维度，就在该时间维度下设为1，其余为0。有些数据可能是缺失的，对缺失部分进行补齐，如用均值进行补充，按照这种方式进行数据整理，同一行数据增加上一次操作日志的数据，总维度数可以设定为320左右。

考虑到大部分维度都具有相似性，所以很多维度对预测用户下一个操作关系是无关紧要的，因此可以进一步利用奇异值分解(Singular Value Decomposition，SVD)算法对用户操作数据进行降维处理，计算公式如下：

上述公式(1)中，假设A是一个N×M的矩阵，那么得到的U是一个N×N的方阵(里面的向量是正交的，U里面的向量称为左奇异向量)，∑是一个N×M的矩阵(除了对角线的元素都是0，对角线上的元素称为奇异值)，VT(V的转置)是一个N×N的矩阵(里面的向量也是正交的，V里面的向量称为右奇异向量)。

在很多情况下，前10％甚至1％的奇异值之和就占了全部的奇异值之和的99％以上了。也就是说，也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

上述公式(2)中，右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说，矩阵面积越小，存储量就越小)要远远小于原始的矩阵A，如果想要压缩空间来表示原矩阵A，则存下这里的三个矩阵：U、Σ、V。

将用户操作数据代入公式UΣV＝SVD(Amx320)(其中m是该用户操作的一条操作日志数据)，当Σ的长度取150时，UΣ(150)V的结果与Amx320比较误差在10％以内，剩余170左右的值相加总和小于10％，对预测影响较小，所以取前150个值对应的维度已经能够准确的预测下一步操作行为，所以只需使用150个维度进行预测建模，且将其中一部分作为训练集另一部分作为测试集，进行交叉验证。例如，将150个维度中的70％(105个)作为训练集，30％(45个)作为测试集，进行交叉验证。

对于用户语言数据的形式转换处理，可以先通过HashingTF()方法计算每个词在文档中的词频，再通过IDF()计算每个词的TF-IDF值，形成新的数据集，将数据集中的一部分作为训练集另一部分作为测试集。例如，将数据集中的70％作为训练集，30％作为测试集。

本发明实施例中，机器学习算法主要包括二分K均值聚类算法、贝叶斯算法和梯度提升树算法，此外还可以进一步包括多元逻辑回归算法等。

可选地，服务器首先通过二分K均值聚类(Bisecting K-means)算法对第一类数据进行学习训练，生成聚类模型，并通过贝叶斯(Naive Bayesian classification)算法对第二类数据进行学习训练，生成第二概率模型；然后通过梯度提升树(Gradient BoostingDecision Tree)算法对聚类模型和第二概率模型进行学习训练，生成预测模型。

可选地，服务器首先分别通过二分K均值聚类算法和贝叶斯算法对第一类数据进行学习训练，生成聚类模型和第一概率模型，并通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；然后通过梯度提升树算法对聚类模型、第一概率模型和第二概率模型进行学习训练，生成预测模型。通过增加第一概率模型，提高了预测结果的准确性。

可选地，服务器首先分别通过二分K均值聚类算法和多元逻辑回归(MultinomialLogistic Regression)算法对第一类数据进行学习训练，生成聚类模型和回归模型，并通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；然后通过梯度提升树算法对聚类模型、第二概率模型和回归模型进行学习训练，生成预测模型。通过增加回归模型，提高了预测模型预测的准确性。

可选地，服务器首先分别通过二分K均值聚类算法、贝叶斯算法和多元逻辑回归算法对第一类数据进行学习训练，生成聚类模型、第一概率模型和回归模型，并通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；然后通过梯度提升树算法对聚类模型、第一概率模型、第二概率模型和回归模型进行学习训练，生成预测模型。通过增加第一概率模型和回归模型，进一步提高了预测模型预测的准确性。

具体实施时，服务器可以把操作指令和操作设备组合作为标签，其它维度作为特征，带入机器学习算法模型(用sparkml包)进行预测建模。

建立第一概率模型时，服务器将第一类数据代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集)，得到该用户多种标签的概率大小，通过计算出的模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到操作结果的概率模型，即第一概率模型Model(A)。贝叶斯概率公式如下：

前述公式(3)中，P(B)表示先验概率，表明B事件发生的概率大小，P(B|A)表示后验概率，表明在A事件发生的情况下B事件发生的概率大小，∑nj表示对j到n的所有值求和。

建立聚类模型时，服务器将第一类数据代入二分K-means公式BisectingKMeans(Am)(其中m是训练集)，得到聚类模型，通过计算出的聚类模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到聚类模型Model(B)。二分K-means公式如下：

前述公式(4)中，d代表欧氏距离，欧氏距离是判断向量之间距离的计算方法，公式(4)表示n维空间中的2个向量a＝(x1,x2,...xn)和b＝(y1,y2,...yn)的欧氏距离，距离越大相似度越小，距离越小相似度越大。

建立回归模型时，服务器将第一类数据代入逻辑回归公式LogisticRegressionWithLBFGS(Am)(其中m是训练集)，得到回归模型，通过计算出的回归模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到回归模型Model(C)。逻辑回归公式如下：

E步骤：

M步骤：

前述公式(5)和(6)中，P(k|xi)代表一个条件概率即样本xi属于某个类别的概率，其中u表示均值，∑表示求和。N(xi|..)表示样本xi的高斯概率分布密度。E步骤中，根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率，即隐性变量的期望，作为隐藏变量的现估计值；M步骤中，将似然函数最大化以获得新的参数值。

建立第二概率模型时，服务器将第二类数据(用户语言数据)代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集)，得到该用户多种标签的概率大小，通过计算出的模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到用户语言的概率模型，即第二概率模型Model(D)。贝叶斯概率公式见前述公式(3)。

建立最终的预测模型时，服务器通过梯度提升树(GBDT)迭代决策树确定最终模型，整合前述第一概率模型、聚类模型、回归模型和第二概率模型，把4个弱分类器代入梯度提升树公式GradientBoostedTrees(Model(A)，Model(B)，Model(C)，Model(D))，经过反复训练、校验，得到最终的可预测用户控制命令的预测模型。

S13、在语音识别过程中，当识别用户的控制命令失败时，利用预测模型预测出用户的控制命令。

当用户进行语音控制时，服务器对用户的语音指令进行解析识别，以获取用户的控制命令。当识别用户的控制命令失败时，服务器则进入预测程序，将用户的语音指令(还可以包括当前的外部环境数据)作为输入数据输入预测模型，预测出用户的控制命令，并根据控制命令执行相应的操作，如控制对应的智能设备打开、关闭等。

这里所述的识别用户的控制命令失败，包括识别不出控制命令的情形，还可以包括识别的准确率低于阈值(如50％-70％)的情形。

进一步地，如图2所示，在本发明的语音识别方法第二实施例中，步骤S13之后还包括以下步骤：

S14、收集预测后的反馈结果，根据反馈结果校正预测模型。

具体实施时，服务器可以请求用户返回反馈信息，如询问本次操作是否正确，根据反馈结果增加损失函数对模型进行校正，以提高预测结果的准确性。

此外，服务器也可以根据用户的后续操作来判断本次预测是否正确。例如，本次预测结果为打开空调，服务器控制空调开启后，接着接收到用户调节温度的控制命令时，则判定本次预测正确。

本发明实施例的语音识别方法，通过采集用户数据，并通过机器学习算法利用用户数据进行预测建模生成预测模型，当语音识别过程中识别用户的控制命令失败时，则利用预测模型预测出用户的控制命令，从而提高了语音识别的成功率，进而提高了语音控制的可靠性和智能性，提升了用户体验。

参照图3，提出本发明的语音识别装置第一实施例，所述装置应用于计算机设备，特别是服务器。所述装置包括数据采集模块10、预测建模模块20和命令预测模块30，其中：数据采集模块10，用于采集用户数据；预测建模模块20，用于通过机器学习算法利用用户数据进行预测建模，生成预测模型；命令预测模块30，用于在语音识别过程中，当识别用户的控制命令失败时，利用预测模型预测出用户的控制命令。

对于用户操作数据，数据采集模块10可以直接从用户操作日志中获取，如从智能家居系统平台的用户操作日志中获取用户操作数据。用户操作数据主要包括用户基本信息、时间信息和操作信息。

对于外部环境数据，数据采集模块10可以通过用户的终端设备或网络获取，该外部环境信息主要包括地理信息(如经纬度)、天气信息等，天气信息如晴天、阴天、雨天、雪天等。

对于用户语言数据，数据采集模块10可以在每次语音控制后获取，用户语言数据即语音识别过程中对用户语音信息进行解析识别后获得的语言文本信息，包括解析识别失败的数据和解析识别成功的数据。

本发明实施例中，预测建模模块20如图4所示，包括数据处理单元21和模型建立单元22，其中：数据处理单元21，用于对用户数据进行形式转换处理，转换为可用于机器学习的数据形式；模型建立单元22，用于通过机器学习算法对用户数据进行学习训练，生成预测模型。

对于用户操作数据的形式转换处理，数据处理单元21可以对时间进行每半小时一个维度的设定，用户操作数据存在于哪个时间维度，就在该时间维度下设为1，其余为0。有些数据可能是缺失的，对缺失部分进行补齐，如用均值进行补充，按照这种方式进行数据整理，同一行数据增加上一次操作日志的数据，总维度数可以设定为320左右。

考虑到大部分维度都具有相似性，所以很多维度对预测用户下一个操作关系是无关紧要的，因此数据处理单元21可以进一步利用奇异值分解(Singular ValueDecomposition，SVD)算法对用户操作数据进行降维处理，计算公式如下：

数据处理单元21将用户操作数据代入公式UΣV＝SVD(Amx320)(其中m是该用户操作的一条操作日志数据)，当Σ的长度取150时，UΣ(150)V的结果与Amx320比较误差在10％以内，剩余170左右的值相加总和小于10％，对预测影响较小，所以取前150个值对应的维度已经能够准确的预测下一步操作行为，所以只需使用150个维度进行预测建模，且将其中一部分作为训练集另一部分作为测试集，进行交叉验证。例如，将150个维度中的70％(105个)作为训练集，30％(45个)作为测试集，进行交叉验证。

对于用户语言数据的形式转换处理，数据处理单元21可以先通过HashingTF()方法计算每个词在文档中的词频，再通过IDF()计算每个词的TF-IDF值，形成新的数据集，将数据集中的一部分作为训练集另一部分作为测试集。例如，将数据集中的70％作为训练集，30％作为测试集。

可选地，如图5所示，模型建立单元22包括聚类模型建立单元221、第二概率模型建立单元222和预测模型建立单元223，其中：聚类模型建立单元221，用于通过二分K均值聚类算法对第一类数据进行学习训练，生成聚类模型；第二概率模型建立单元222，用于通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；预测模型建立单元223，用于通过梯度提升树算法对聚类模型和第二概率模型进行学习训练，生成预测模型。

可选地，如图6所示，模型建立单元22包括聚类模型建立单元221、第一概率模型建立单元224、第二概率模型建立单元222和预测模型建立单元223，其中：聚类模型建立单元221，用于通过二分K均值聚类算法对第一类数据进行学习训练，生成聚类模型；第一概率模型建立单元224，用于通过贝叶斯算法对第一类数据进行学习训练，生成第一概率模型；第二概率模型建立单元222，用于通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；预测模型建立单元223，用于通过梯度提升树算法对聚类模型、第一概率模型和第二概率模型进行学习训练，生成预测模型。通过增加第一概率模型，提高了预测模型预测的准确性。

可选地，如图7所示，模型建立单元22包括聚类模型建立单元221、回归模型建立单元225、第二概率模型建立单元222和预测模型建立单元223，其中：聚类模型建立单元221，用于通过二分K均值聚类算法对第一类数据进行学习训练，生成聚类模型；回归模型建立单元225，用于通过多元逻辑回归算法对第一类数据进行学习训练，生成回归模型；第二概率模型建立单元222，用于通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；预测模型建立单元223，用于通过梯度提升树算法对聚类模型、回归模型和第二概率模型进行学习训练，生成预测模型。通过增加回归模型，提高了预测模型预测的准确性。

可选地，如图8所示，模型建立单元22包括聚类模型建立单元221、第一概率模型建立单元224、回归模型建立单元225、第二概率模型建立单元222和预测模型建立单元223，其中：聚类模型建立单元221，用于通过二分K均值聚类算法对第一类数据进行学习训练，生成聚类模型；第一概率模型建立单元224，用于通过贝叶斯算法对第一类数据进行学习训练，生成第一概率模型；回归模型建立单元225，用于通过多元逻辑回归算法对第一类数据进行学习训练，生成回归模型；第二概率模型建立单元222，用于通过贝叶斯算法对第二类数据进行学习训练，生成第二概率模型；预测模型建立单元223，用于通过梯度提升树算法对聚类模型、第一概率模型、回归模型和第二概率模型进行学习训练，生成预测模型。通过增加第一概率模型和回归模型，进一步提高预测模型预测的准确性。

具体实施时，模型建立单元22可以把操作指令和操作设备组合作为标签，其它维度作为特征，带入机器学习算法模型(用spark ml包)进行预测建模。

建立第一概率模型时，第一概率模型建立单元224将第一类数据代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集)，得到该用户多种标签的概率大小，通过计算出的模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到操作结果的概率模型，即第一概率模型Model(A)。贝叶斯概率公式如下：

建立聚类模型时，聚类模型建立单元221将第一类数据代入二分K-means公式BisectingKMeans(Am)(其中m是训练集)，得到聚类模型，通过计算出的聚类模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到聚类模型Model(B)。二分K-means公式如下：

建立回归模型时，回归模型建立单元225将第一类数据代入逻辑回归公式LogisticRegressionWithLBFGS(Am)(其中m是训练集)，得到回归模型，通过计算出的回归模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到回归模型Model(C)。逻辑回归公式如下：

E步骤：

M步骤：

建立第二概率模型时，第二概率模型建立单元222将第二类数据(用户语言数据)代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集)，得到该用户多种标签的概率大小，通过计算出的模型代入测试集，进行校验；反复进行上述操作，调试出最优参数，得到用户语言的概率模型，即第二概率模型Model(D)。贝叶斯概率公式见前述公式(3)。

建立最终的预测模型时，预测模型建立单元223通过梯度提升树(GBDT)迭代决策树确定最终模型，整合前述第一概率模型、聚类模型、回归模型和第二概率模型，把4个弱分类器代入梯度提升树公式GradientBoostedTrees(Model(A)，Model(B)，Model(C)，Model(D))，经过反复训练、校验，得到最终的可预测用户控制命令的预测模型。

当用户进行语音控制时，服务器对用户的语音指令进行解析识别，以获取用户的控制命令。当识别用户的控制命令失败时，服务器则进入预测程序，通过命令预测模块30将用户的语音指令(还可以包括当前的外部环境数据)作为输入数据输入预测模型，预测出用户的控制命令，最终服务器根据控制命令执行相应的操作，如控制对应的智能设备打开、关闭等。

进一步地，如图9所示，在本发明的语音识别装置第二实施例中，该装置还包括模型校正模块40，所述模型校正模块40用于：收集预测后的反馈结果，根据反馈结果校正预测模型。

具体实施时，模型校正模块40可以请求用户返回反馈信息，如询问本次操作是否正确，根据反馈结果增加损失函数对模型进行校正，以提高预测结果的准确性。

此外，模型校正模块40也可以根据用户的后续操作来判断本次预测是否正确。例如，本次预测结果为打开空调，服务器控制空调开启后，接着接收到用户调节温度的控制命令时，模型校正模块40则判定本次预测正确。

本发明实施例的语音识别装置，通过采集用户数据，并通过机器学习算法利用用户数据进行预测建模生成预测模型，当语音识别过程中识别用户的控制命令失败时，则利用预测模型预测出用户的控制命令，从而提高了语音识别的成功率，进而提高了语音控制的可靠性和智能性，提升了用户体验。

本发明实施例同时提出一种计算机设备，其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音识别方法。所述语音识别方法包括以下步骤：采集用户数据，该用户数据包括第一类数据和第二类数据，第一类数据包括用户操作数据，第二类数据包括用户语言数据；通过机器学习算法利用用户数据进行预测建模，生成预测模型；在语音识别过程中，当识别用户的控制命令失败时，利用预测模型预测出用户的控制命令。本实施例中所描述的语音识别方法为本发明中上述实施例所涉及的语音识别方法，在此不再赘述。

本发明实施例还提出一种计算机可读存储介质，该计算机可读存储介质上存储有语音识别程序，该语音识别程序被处理器执行时，实现语音识别方法的步骤。所述语音识别方法包括以下步骤：采集用户数据，该用户数据包括第一类数据和第二类数据，第一类数据包括用户操作数据，第二类数据包括用户语言数据；通过机器学习算法利用用户数据进行预测建模，生成预测模型；在语音识别过程中，当识别用户的控制命令失败时，利用预测模型预测出用户的控制命令。本实施例中所描述的语音识别方法为本发明中上述实施例所涉及的语音识别方法，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

应当理解的是，以上仅为本发明的优选实施例，不能因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，所述通过机器学习算法利用所述用户数据进行预测建模，生成预测模型的步骤包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述通过机器学习算法对所述用户数据进行学习训练，生成预测模型的步骤包括：

4.根据权利要求2所述的语音识别方法，其特征在于，所述通过机器学习算法对所述用户数据进行学习训练，生成预测模型的步骤包括：

5.根据权利要求2所述的语音识别方法，其特征在于，所述通过机器学习算法对所述用户数据进行学习训练，生成预测模型的步骤包括：

6.根据权利要求1-5任一项所述的语音识别方法，其特征在于，所述第一类数据还包括外部环境数据。

7.根据权利要求1-5任一项所述的语音识别方法，其特征在于，所述利用所述预测模型预测出用户的控制命令的步骤之后还包括：

收集预测后的反馈结果，根据所述反馈结果校正所述预测模型。

8.一种语音识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求1至7任一项所述的语音识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时，实现如权利要求1至7中任一项所述的语音识别方法的步骤。