CN111063342B

CN111063342B - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN111063342B
Application number: CN202010001662.6A
Authority: CN
Inventors: 吴渤; 于蒙; 陈联武; 温超; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2022-09-30
Anticipated expiration: 2040-01-02
Also published as: CN111063342A

Abstract

本申请公开了一种语音识别方法、装置、计算机设备及存储介质，属于数据处理领域。方法包括：将采集到的音频数据输入到时域分离模型中，由时域分离模型基于音频数据进行预测，得到时域分离信息，时域分离信息用于分离音频数据中的噪音数据和语音数据；基于时域分离信息对音频数据进行语音分离，得到时域语音数据；对时域语音数据进行特征提取，得到时域语音数据对应的时域语音特征信息；对时域语音数据对应的时域语音特征信息进行语音识别，确定时域语音数据对应的语音内容。通过本申请提供的语音识别方法，计算机设备可以不对时域的音频信息进行转化到频域再进行语音分离，在时域就可以完成语音和别的整个流程，提高了语音识别的速度。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理领域，特别涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，人们希望通过更加简便的方式来控制各种智能设备以实现不同的功能。语音识别由于其便捷性被广大厂商重视，各大厂商都希望通过语音识别技术来减少用户的手动操作，提高产品的易用性。

相关技术中往往会将收集到的音频信息进行时频转换，得到音频信息对应的频域信息，在频域将音频信息中的噪声去除，保留人声，随后再将频域信息还原为时域上的波形，对波形进行特征提取和语音识别,通过语音识别的结果控制智能设备实现相应的功能，减少手动操作。

但是，在语音识别的过程中，将频域信息转化为时域上的波形需要耗费较多的时间和计算资源，语音识别的速度较慢，导致智能设备响应用户语音指令的速度较慢。

发明内容

本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质，可以提高智能设备对用户语音指令响应的速度，技术方案如下：

一方面，提供了一种语音识别方法，所述方法包括：

将采集到的音频数据输入到时域分离模型中，由所述时域分离模型基于所述音频数据进行预测，得到时域分离信息，所述时域分离信息用于分离所述音频数据中的噪音数据和语音数据；

基于所述时域分离信息对所述音频数据进行语音分离，得到时域语音数据；

对所述时域语音数据进行特征提取，得到所述时域语音数据对应的时域语音特征信息；

对所述时域语音数据对应的时域语音特征信息进行语音识别，确定所述时域语音数据对应的语音内容。

一方面，提供了一种语音识别方法，所述方法包括：

将音频数据中的语音数据的频域信息转化为频谱图；

对所述频谱图进行特征提取，得到所述频谱图对应的频域语音特征信息；

将所述频域语音特征信息输入到频域语音识别模型中，由所述频域语音识别模型基于所述频域语音特征信息进行预测，得到所述频域语音特征信息对应的音素；

基于多个音素，确定所述语音数据对应的语音内容。

一方面，提供了一种语音识别装置，所述装置包括：

预测模块，用于将采集到的音频数据输入到时域分离模型中，由所述时域分离模型基于所述音频数据进行预测，得到时域分离信息，所述时域分离信息用于分离所述音频数据中的噪音数据和语音数据；

语音分离模块，用于基于所述时域分离信息对所述音频数据进行语音分离，得到时域语音数据；

特征提取模块，用于对所述时域语音数据进行特征提取，得到所述时域语音数据对应的时域语音特征信息；

语音识别模块，用于对所述时域语音数据对应的时域语音特征信息进行语音识别，确定所述时域语音数据对应的语音内容。

在一种可能的实施方式中，所述语音识别模块包括：

第二预测单元，用于将所述时域语音特征信息输入到时域语音识别模型中，由所述时域语音识别模型基于所述时域语音特征信息进行预测，得到所述时域语音特征信息与多个音素之间对应的概率；

音素确定单元，用于将概率最大的音素确定为所述时域语音特征信息对应的音素；

语音内容确定单元，用于基于多个音素，确定所述时域语音数据对应的语音内容。

一方面，提供了一种语音识别装置，所述装置包括：

转化模块，用于将音频数据中的语音数据的频域信息转化为频谱图；

特征提取模块，用于对所述频谱图进行特征提取，得到所述频谱图对应的频域语音特征信息；

音素预测模块，用于将所述频域语音特征信息输入到频域语音识别模型中，由所述频域语音识别模型基于所述频域语音特征信息进行预测，得到所述频域语音特征信息对应的音素；

语音内容确定模块，用于基于多个音素，确定所述语音数据对应的语音内容。

在一种可能的实施方式中，所述音素预测模块包括：

概率预测单元，用于将所述频域语音特征信息输入到频域语音识别模型中，由所述频域语音识别模型基于所述频域语音特征信息进行预测，得到所述频域语音特征信息与多个音素之间对应的概率；

确定单元，用于将概率最大的音素确定为所述语音特征信息对应的音素。

在一种可能的实施方式中，所述装置还包括：

频域分离信息预测模块，用于将频域音频数据输入到频域分离模型中，由所述频域分离模型基于所述频域音频数据进行预测，得到频域分离信息，所述频域分离信息用于分离所述频域音频数据中的噪音数据和语音数据；

语音增强模块，用于基于所述频域分离信息对所述频域音频数据进行语音增强，得到所述音频数据中的语音数据的频域信息。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述语音识别方法所执行的操作。

一方面，提供了一种存储介质，所述存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现所述语音识别方法所执行的操作。

通过本申请提供的语音识别方法，计算机设备在进行语音识别的过程中，可以不对时域的音频信息进行转化到频域再进行语音分离，在时域就可以完成语音和别的整个流程，提高了语音识别的速度；也可以在频域直接进行语音识别，无需再将频域语音信息转化到时域再进行特征提取和语音识别，提高了语音识别的速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法实施环境示意图；

图2是本申请实施例提供的一种语音识别方法流程图；

图3是本申请实施例提供的语音识别方法的逻辑流程图；

图4是本申请实施例提供的一种语音识别方法流程图；

图5是本申请实施例提供的一种语音识别装置结构示意图；

图6是本申请实施例提供的一种语音识别装置结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个长度相同的音频帧是指两个或两个以上的长度相同的音频帧。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

傅里叶变换是一种时频转换方法，可以将时域的信息转换到频域上。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素分为元音和辅音两类，例如汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。

语音增强表示从音频数据中将噪音数据和语音数据分离的过程。

图1是本发明实施例提供的一种网络通话方法的实施环境的示意图，参见图1，该实施环境中包括计算机设备110和服务器140。

计算机设备110通过无线网络或有线网络与服务器110相连。计算机设备110可以是智能手机、平板电脑、智能音箱等设备。计算机设备110安装和运行有支持语音识别技术的应用程序。示例性的，计算机设备110是用户使用的计算机设备，计算机设备110中运行的应用程序内登录有用户账号。

计算机设备110通过无线网络或有线网络与服务器140相连。

可选地，服务器140包括：接入服务器、后台服务器和数据库。接入服务器用于为计算机设备110提供接入服务。后台服务器用于提供语音识别有关的后台服务。该数据库可以包括用户信息数据库以及样本数据库等，当然，还可以基于服务器所提供的不同服务可以对应于不同数据库，后台服务器可以是一台或多台。当后台服务器是多台时，存在至少两台后台服务器用于提供不同的服务，和/或，存在至少两台后台服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

计算机设备110可以泛指多个计算机设备中的一个，本实施例仅以计算机设备110来举例说明。

本领域技术人员可以知晓，上述计算机设备的数量可以更多或更少。比如上述计算机设备可以仅为一个，或者上述计算机设备为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他计算机设备。本发明实施例对计算机设备的数量和设备类型不加以限定。

上述语音识别方法可以应用于车载终端、电视盒子、语音识别产品以及智能音箱等产品，可以应用于上述产品前端，也可以通过前端和服务器之间的交互来实现。若上述产品前端的计算能力较弱，那么可以只执行语音增强的部分，语音识别的部分由服务器进行实施。

以车载终端为例，车载终端可以采集音频数据，对音频数据进行语音增强，得到语音数据。车载终端可以将语音数据发送至与车载终端连接的后台服务器，由后台服务器对接收到的语音数据进行特征提取和语音识别，得到与语音数据对应的语音内容。后台服务器可以将与语音数据对应的语音内容发送至车载终端，车载终端基于获取到的语音内容来执行对应的驾驶控制或者处理过程，例如开启或关闭天窗，开启或关闭导航系统以及开启或关闭照明灯光等操作。

以电视盒子为例，用户可以通过与电视盒子相匹配的遥控器向电视盒子发送音频数据，电视盒子可以对音频信息进行语音增强，得到语音数据。电视盒子可以将语音数据发送至与电视盒子连接的后台服务器，由后台服务器对接收到的语音数据进行特征提取和语音识别，得到与语音数据对应的语音内容。后台服务器可以将与语音数据对应的语音内容发送至电视盒子，电视盒子基于获取到的语音内容来执行对应的操作，例如切换播放内容以及开启或关闭电视盒子等操作。

以自动语音识别产品为例，用户可以通过预设的语音指令唤醒自动语音识别产品，自动语音识别产品在被用户唤醒之后，可以采集音频数据，将音频数据发送至后台服务器，由后台服务器对音频数据进行语音增强，得到语音数据，再对语音数据进行特征提取和语音识别，得到与语音数据对应的语音内容。后台服务器可以将与语音数据对应的语音内容发送至自动语音识别产品，自动语音识别产品基于获取到的语音内容来执行对应的操作，例如设定闹钟，语言转换以及拍摄照片等操作。

以智能音箱为例，用户可以通过预设的语音指令唤醒智能音箱，智能音箱在被用户唤醒之后，可以采集音频数据，将音频数据发送至后台服务器，由后台服务器对音频数据进行语音增强，得到语音数据，再对语音数据进行特征提取和语音识别，得到与语音数据对应的语音内容。后台服务器可以将与语音数据对应的语音内容发送至智能音箱，智能音箱基于获取到的语音内容来执行对应的操作，例如切换歌曲，单曲循环以及报时等操作。

如果前端产品例如车载终端、电视盒子、语音识别产品以及智能音箱等具有足够的计算能力，也可以在前端执行全部的语音识别操作，无需与服务器进行通信。

需要说明的是，本申请实施例提供的语音识别方法可以应用于各种基于语音识别功能的产品中，上述描述仅仅是为了便于理解而进行的，并不能对本申请造成不当限定。

图2是本申请实施例提供的一种语音识别方法的流程图，图3是本申请实施例提供的语音识别方法的逻辑流程图，参见图2和图3，方法包括：

201、计算机设备将采集到的音频数据输入到时域分离模型中，由时域分离模型输出时域分离信息，时域分离信息用于分离音频数据中的噪音数据和语音数据。

本申请实施例中的时域分离模型可以基于样本时域语音数据和样本音频数据训练得到，其中，样本音频数据是由样本时域语音数据和样本时域噪音数据混合生成的。

在一次迭代过程中，计算机设备可以将目标样本音频数据输入到待训练时域分离模型中，由待训练时域分离模型基于目标样本音频数据进行预测，输出一个预测时域分离信息，计算机设备可以基于预测时域分离信息和目标样本音频数据，得到预测时域语音数据。计算机设备可以确定预测时域语音数据和目标样本时域语音数据之间的差别信息，基于差别信息调整待训练时域分离模型的模型参数，其中，目标样本时域语音数据为与目标样本音频数据对应的样本时域语音数据。当待训练时域分离模型的模型参数符合目标条件时，计算机设备可以停止模型训练，将此时的模型作为时域分离模型。具体来说，计算机设备可以将样本时域语音数据和样本音频数据分割为目标长度的向量，分别用样本语音向量和样本音频向量表示。

计算机设备可以将样本音频向量输入到待训练时域分离模型中，由待训练时域分离模型基于初始化的权重进行运算，得到预测时域分离向量。计算机设备可以将预测时域分离向量和样本音频向量相乘，得到预测语音向量。计算机设备可以确定预测语音向量与样本语音向量之间的相似度信息，基于相似度信息调整待训练时域分离模型的模型参数。当待训练时域分离模型的损失函数达到目标阈值时，计算机设备可以停止模型训练，将此时的模型作为时域分离模型。除此之外，时域分离模型也可以采用提前训练好的开源模型，例如时域音频分离网络(Time-Domain Audio Separation Network，TasNet)以及对具有额外标签的音乐源进行深度提取模型(Deep Extractor for Music Sources With ExtraUnlabeled Data Remixed，Demucs)等，本申请实施例对此不做限定。

在一种可能的实施方式中，计算机设备可以将采集到的音频数据分割成多个长度相同的音频帧，每个长度相同的音频帧与时间上前后相邻的音频帧之间均有固定长度的重叠部分，这样可以避免音频数据丢失。计算机设备可以按照时间顺序依次将长度相同的音频帧输入到时域分离模型中，由时域分离模型基于长度相同的音频帧进行预测，得到多个第一分离信息，将多个第一分离信息按照时间顺序进行组合，得到时域分离信息。

202、计算机设备基于时域分离信息对音频数据进行语音分离，得到时域语音数据。

在一种可能的实施方式中，计算机设备可以基于采集到的时域上的音频数据和基于时域分离模型得到的时域分离信息，直接在时域上进行语音分离，得到时域语音数据。具体来说，计算机设备可以采用矩阵的形式来表示音频数据和时域分离信息，计算机设备可以直接将表示音频数据的矩阵和表示时域分离信息的矩阵相乘，得到表示时域语音数据的矩阵，例如，音频数据的矩阵为一个一维矩阵{1,1,2,3,4,5}，时域分离信息也为一个一维矩阵{1,0,1,1,0,0}^T，将二者相乘可以得到{1,0,2,3,0,0}，该矩阵可以用于表示时域语音数据。

在这种实施方式下，计算机设备可以直接在时域上将音频数据中的噪音数据和语音数据分离开，得到时域语音数据，无需将音频数据转化到频域再将噪音数据和语音数据分离，降低了计算机设备的计算量。

203、计算机设备对时域语音数据进行特征提取，得到时域语音数据对应的时域语音特征信息。

在一种可能的实施方式中，计算机设备可以将时域语音数据输入到特征提取模型中，由特征提取模型基于任一语音帧和语音帧时序相邻的关联语音帧之间的关系，对语音帧进行特征提取，得到语音帧的特征信息，对各个语音帧的特征信息进行组合，输出时域语音数据对应的时域语音特征信息。

具体来说，计算机设备可以将时域语音数据分隔成多个目标长度的语音帧，将任一语音帧和目标数量的关联语音帧输入到特征提取模型中，特征提取模型可以分别对该语音帧和关联语音帧进行特征提取，并为关联语音帧和该语音帧赋予不同的权重，将特征提取后的多个语音帧特征信息进行加权求和，得到目标语音帧特征信息，按照时间顺序将多个目标语音特征信息进行组合，得到时域语音数据对应的时域语音特诊信息。

例如，计算机设备可以将时域语音数据分隔成多个长度为32ms的语音帧，向特征提取模型中输入一个语音帧以及四个关联语音帧，其中两个关联语音帧的采集时间在该语音帧的前面，两个关联语音帧的采集时间在该语音帧的后面，特征提取模型可以分别对五个语音帧进行特征提取，得到一个第一语音帧特征信息和四个第二语音帧特征信息，其中第一语音特征信息为该语音帧对应的语音特征信息，第二语音特征信息为关联语音帧对应的语音特征信息。特征提取模型可以为第一语音帧特征信息赋予一个权重0.7，可以为四个第二语音帧特征信息赋予权重0.075，将五个语音特征信息进行加权求和，得到该语音帧特征信息，按照时间顺序将多个目标语音特征信息进行组合，得到时域语音数据对应的时域语音特征信息。

需要说明的是，输入特征提取模型的语音帧的数量，以及特征提取模型赋予每个语音帧特征信息的权重可以根据实际需要进行设定，本申请实施例对此不做限定。

204、计算机设备将时域语音特征信息输入到时域语音识别模型中，由时域语音识别模型基于时域语音特征信息进行预测，得到时域语音特征信息对应的音素。

其中，本申请中时域语音识别模型是由样本时域语音特征信息和与之对应的样本音素训练得到的，时域语音特征信息中可以包括语音数据的语音强度，语音语调等信息。训练过程中，时域语音识别模型可以基于时域语音特征信息预测相应的音素的概率能力，训练的目的就是使得将样本时域语音特征信息输入时域语音识别模型后得到与样本时域语音特征对应的样本音素的概率尽可能的高。

当然，并不是任何时域语音特征信息均有与之对应的音素，例如人在说话时的停顿或间隔等，由于这些停顿或间隔时的语音特征信息与人在说话时的差距较大，本申请中的时域语音识别模型也可以设置目标条件来对时域语音特征信息进行筛选，确定时域语音特征信息是否为人在说话时的语音特征，若时域语音特征信息符合目标条件，那么可以进行后续的语音识别，得到与该时域语音特征信息对应的音素；若时域语音特征信息不符合目标条件，那么时域语音识别模型可以直接将该语音特征信息对应的音素输出为空白，保证每个输入的时域语音特征信息均可以有一个对应的输出，例如时域语音识别模型可以通过比较时域语音特征信息中的语音强度和语音强度阈值来判断时域语音特征信息是否为人说话时的语音特征信息，若输入时域语音识别模型的时域语音特征信息中的语音强度大于语音强度阈值，可以确定该时域语音特性信息为人说话时的语音特征信息，可以对该时域语音特征信息进行后续的语音识别操作；若输入时域语音识别模型的时域语音特征信息中的语音强度小于语音强度阈值，可以确定该时域语音特征信息为空白信息，可以直接输出空白音素。

需要说明的是，本申请实施例中的时域语音识别模型可以为浅层的声学模型，例如高斯混合模型(Gaussian Mixture Model，GMM)和隐马尔可夫模型(Hidden MarkovModel，HMM)，还可以采用深度学习模型，例如深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)以及循环神经网络(RecurrentNeural Network，RNN)等基础的网络结构，当然也可以为对上述模型进行改进后的模型，例如全序列卷积神经网络(Deep Fully Convolutional Neural Network，DFCNN)以及高性能深度神经网络计算库(Compute Library for Deep Neural Networks，CLDNN)等模型，本申请实施例对于时域语音识别模型的类型不做限定。

在一种可能的实施方式中，计算机设备可以将时域语音特征信息输入到时域语音识别模型中，由时域语音识别模型基于时域语音特征信息进行预测，得到时域语音特征信息与多个音素之间对应的概率，将概率最大的音素确定为时域语音特征信息对应的音素。例如，计算机设备可以通过向量的形式表示时域语音特征信息，计算机设备可以将表示时域语音特征信息的第一向量输入到时域语音识别模型中，由该时域语音识别模型基于第一向量和多个隐藏层、池化层以及全连接层进行运算，得到表示第一向量与多个音素之间对应概率的第二向量，比如(0.1，0.11，0.2，0.6，0.7………),其中0.1可以表示该第一向量与音素“a”的对应概率为0.1，0.7可以表示该第一向量与音素“e”的对应概率为0.7，若0.7为第二向量中最大的数字，那么时域语音识别模型可以确定该第一向量对应的音素为“e”，也即是该时域语音特征信息对应的音素为“e”，当然，该实施方式中的时域语音识别模型的结构可以根据实际需要进行设定，本申请实施例对此不做限定。

在一种可能的实施方式中，计算机设备可以将时间上相邻的多个时域语音特征信息输入到时域语音识别模型中，由时域语音识别模型基于多个时域语音特征信息进行预测，得到多个时域语音特征信息与多个音素组合之间对应的概率，将概率最大的音素组确定为多个时域语音特征信息对应的音素组。例如，计算机设备可以通过向量的形式表示时域语音特征信息，计算机设备可以将表示时域语音特征信息的多个第一向量输入到时域语音识别模型中，由该时域语音识别模型基于第一向量和多个隐藏层、池化层以及全连接层进行运算，得到表示多个第一向量与多个音素组之间对应概率的第二向量，比如(0.1，0.11，0.2，0.6，0.7………),其中0.1可以表示多个第一向量与音素组“ca”的对应概率为0.1，0.7可以表示多个第一向量与音素组“bo”的对应概率为0.7，若0.7为第二向量中最大的数字，那么时域语音识别模型可以确定多个第一向量对应的音素组为“bo”，也即是多个时域语音特征信息对应的音素为“bo”，当然，该实施方式中的时域语音识别模型的结构可以根据实际需要进行设定，本申请实施例对此不做限定。

205、计算机设备在多个音素之间插入分隔符，任意两个分隔符之间的音素对应于同一个目标音素，基于多个目标音素，确定时域语音数据对应的语音内容。

在一种可能的实施方式中，计算机设备可以按照时间顺序将语音识别模型预测的音素进行组合，基于一个分隔符插入模型来在多个音素之间插入分隔符，该分隔符插入模型可以基于时间上相邻的多个时域语音特征信息，预测分隔符的插入位置。计算机设备可以将任意两个分隔符之间的音素确定为同一个目标音素，基于多个目标音素，确定多个目标音节，基于多个目标音节，确定语音数据对应的文本信息。具体来说，该分隔符插入模型的主要功能是将两个相同的目标音素区分开，例如计算机设备按照时间顺序得到了一组音素“hhheeelllloo”，计算机设备可能会直接将相同的音素确定为同一个目标音素，也即是将“hhh”确定为“h”、将“eee”确定为“e”、将“llll”确定为“l”以及将“oo”确定为“o”，最终得到的文本信息为“helo”，这样得到结果可能与实际上的结果“hello”不同。计算机设备可以基于分隔符插入模型在一组音素“hhheeelllloo”中插入分隔符，例如“/hhh/eee/lll/l/oo/”，计算机设备可以得到正确的文本信息为“hello”，其中“/”表示分隔符。这样可以提高语音识别的精确度。

通过本申请实施例提供的语音识别方法，计算机设备可以直接在时域对音频信息进行语音分离，将噪音信息和语音信息进行分离，无需将音频信息转化到频域再进行语音增强，还可以在直接在时域上对语音信息进行特征提取和语音识别，从整体上提升了语音识别的速度。

图4是本申请实施例提供的一种语音识别方法的流程图，参见图4，方法包括：

401、计算机设备对采集到的音频数据进行时频变换，得到频域音频数据。

在一种可能的实施方式中，计算机设备可以基于目标采样频率对音频进行采样，得到音频数据。计算机设备可以将N个采样点集合成一个音频帧，提高计算机设备处理音频数据的速度，这个过程也被成为分帧，其中N为采样点的数量，N为正整数，N的大小可以根据实际需要进行设定，例如N可以取256或512，本申请实施例对于N的大小不作限定。除此之外，计算机设备在进行分帧时，可以在两个相邻的音频帧之间设置重合部分，该重合部分被称为帧移，其中，帧移的大小与N有关，例如可以取N的1/2或1/3，本申请实施例对此不做限定。采用这样的分帧方式可以避免两个相邻的音频帧之间变化过大，使得计算机设备在后续对音频数据的处理过程中可以取得更加精确的效果。

在分帧之后，计算机设备还可以对音频帧进行加窗，具体来说，计算机设备可以将每个音频帧与窗函数进行相乘，得到加窗后的音频帧。

在加窗之后，计算机设备可以对加窗后的音频帧进行时频转换，将时域的音频数据转换到频域，得到各个音频帧的频域音频数据。通过这样的时频转换，计算机设备可以更加方便的获取音频数据的特性，有利于计算机设备进一步对音频数据进行分析和处理。具体来说，计算机设备可以采用快速傅里叶变换(Fast Fourier Transform，FFT)、小波变换等方法对采集到的音频数据进行时频变换，得到频域音频数据，当然也可以采用其他能够实现时频转化的方法，本申请实施例对于时频变换的方法不做限定。

402、计算机设备将频域音频数据输入到频域分离模型中，由频域分离模型基于频域音频数据进行预测，得到频域分离信息，频域分离信息用于分离频域音频数据中的噪音数据和语音数据。

本申请实施例中的频域分离模型可以基于样本频域语音数据和样本频域音频数据训练得到，其中，样本频域音频数据是由样本频域语音数据和样本频域噪音数据混合生成的。在一次迭代过程中，计算机设备可以将目标样本频域音频数据输入到待训练频域分离模型中，由待训练频域分离模型基于目标样本频域音频数据进行预测，输出一个预测频域分离信息，计算机设备可以基于预测频域分离信息和目标样本频域音频数据，得到预测频域语音数据。计算机设备可以确定预测频域语音数据和目标样本频域语音数据之间的差别信息，基于差别信息调整待训练频域分离模型的模型参数，其中，目标样本频域语音数据为与目标样本频域音频数据对应的样本频域语音数据。若待训练频域分离模型的模型参数符合目标条件，计算机设备可以停止模型训练，将此时的模型作为频域分离模型。

具体来说，计算机设备可以以向量的形式表示样本频域语音数据和样本频域音频数据，分别记作样本频域语音向量和样本频域音频向量。计算机设备可以将样本频域音频向量输入到待训练频域分离模型中，由待训练频域分离模型基于初始化的权重进行运算，得到预测频域分离向量。计算机设备可以将预测频域分离向量和样本频域音频向量相乘，得到预测频域语音向量。计算机设备可以确定预测频域语音向量与样本频域语音向量之间的相似度信息，基于相似度信息调整待训练频域分离模型的模型参数。当待训练频域分离模型的损失函数达到目标阈值时，计算机设备可以停止模型训练，将此时的模型作为频域分离模型。除此之外，频域分离模型也可以采用提前训练好的开源模型，例如独立分量分析(Independent Component Analysis，ICA)、波束合成方法(Delay and Sum，DSB)以及线性约束最小方差滤波器(Linearly Constrained Minimum-Variance，LCMV)等，本申请实施例对此不做限定。

在一种可能的实施方式中，计算机设备可以按照时间先后依次将频域音频数据输入到频域分离模型中，由频域分离模型基于频域音频数据进行预测，得到多个与时间对应的第二分离信息，将多个第二分离信息按照时间顺序信息进行组合，得到频域分离信息。

403、计算机设备基于频域分离信息对频域音频数据进行语音增强，得到音频数据中的语音数据的频域信息。

在一种可能的实施方式中，计算机设备可以基于频域音频数据和频域分离信息，在频域上进行语音增强，得到音频数据中的语音数据的频域信息，将音频数据中的语音数据的频域信息作为频域语音数据。具体来说，计算机设备可以采用矩阵的形式来表示频域音频数据和频域分离信息，计算机设备可以直接将表示频域音频数据的矩阵和表示频域分离信息的矩阵相乘，得到表示频域语音数据的矩阵，例如，频域音频数据的矩阵为一个一维矩阵{1,1,2,3,4,5}，频域分离信息也为一个一维矩阵{1,0,1,1,0,0}^T，将二者相乘可以得到{1,0,2,3,0,0}，该矩阵可以用于表示频域语音数据。

404、计算机设备将频域语音数据转化为频谱图，对频谱图进行特征提取，得到频谱图对应的频域语音特征信息。

在一种可能的实时方式中，计算机设备可以将频域语音数据转化为频谱图，将频谱图输入到特征提取模型中，由特征提取模型对频谱图进行特征提取，输出与频谱图对应的特征信息，将频谱图对应的特征信息作为频域语音数据对应的频域语音特征信息。具体来说，若计算机设备采用矩阵形式来表示频域语音数据，计算机设备可以基于频域语音数据的矩阵将频域语音数据转化为频谱图，对频谱图进行特征提取，得到频谱图的特征信息，以频谱图的特征信息来表示频域语音数据的特征信息，无需将频域语音数据转化到时域再进行特征提取，提高了语音识别的速度。

在一种可能的实施方式中，计算机设备也可以不将频域语音数据转化为频谱图，直接对频域语音数据进行特征提取，得到频域语音数据对应的频域语音特征信息。具体来说，若计算机设备采用矩阵形式来表示频域语音数据，计算机设备可以直接对频域语音数据的矩阵进行特征提取，得到频域语音特征信息。在这种实现方式下，计算机设备也无需将频域语音数据转化到时域再进行特征提取，提高了语音识别的速度。

405、计算机设备将频域语音特征信息输入到频域语音识别模型中，由频域语音识别模型基于频域语音特征信息进行预测，得到频域语音特征信息对应的音素。

其中，本申请中语音识别模型是由样本频域语音特征信息和与之对应的样本音素训练得到的，频域语音特征信息中可以包括语音数据的语音强度，语音语调等信息。训练过程中，频域语音识别模型可以基于频域语音特征信息预测相应的音素的概率能力，训练的目的就是使得将样本频域语音特征信息输入频域语音识别模型后得到与样本频域语音特征对应的样本音素的概率尽可能的高。

当然，并不是任何频域语音特征信息均有与之对应的音素，例如人在说话时的停顿或间隔等，由于这些停顿或间隔时的语音特征信息与人在说话时的差距较大，本申请中的频域语音识别模型也可以设置目标条件来对频域语音特征信息进行筛选，确定频域语音特征信息是否为人在说话时的语音特征，若频域语音特征信息符合目标条件，那么可以进行后续的语音识别，得到与该频域特征信息对应的音素；若频域语音特征信息不符合目标条件，那么频域语音识别模型可以直接将该语音特征信息对应的音素输出为空白，保证每个输入的频域语音特征信息均可以有一个对应的输出，例如频域语音识别模型可以通过比较频域语音特征信息中的语音强度和语音强度阈值来判断频域语音特征信息是否为人说话时的语音特征信息，若输入频域语音识别模型的频域语音特征信息中的语音强度大于语音强度阈值，可以确定该频域语音特性信息为人说话时的语音特征信息，可以对该频域语音特征信息进行后续的语音识别操作；若输入频域语音识别模型的频域语音特征信息中的语音强度小于语音强度阈值，可以确定该频域语音特征信息为空白信息，可以直接输出空白音素。

需要说明的是，本申请实施例中的频域语音识别模型可以为浅层的声学模型，例如高斯混合模型(Gaussian Mixture Model，GMM)和隐马尔可夫模型(Hidden MarkovModel，HMM)，还可以采用深度学习模型，例如深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)以及循环神经网络(RecurrentNeural Network，RNN)等基础的网络结构，当然也可以为对上述模型进行改进后的模型，例如全序列卷积神经网络(Deep Fully Convolutional Neural Network，DFCNN)以及高性能深度神经网络计算库(Compute Library for Deep Neural Networks，CLDNN)等模型，本申请实施例对于频域语音识别模型的类型不做限定。

在一种可能的实施方式中，计算机设备可以将频域语音特征信息输入到频域语音识别模型中，由频域语音识别模型基于频域语音特征信息进行预测，得到频域语音特征信息与多个音素之间对应的概率，将概率最大的音素确定为频域语音特征信息对应的音素。例如，计算机设备可以通过向量的形式表示频域语音特征信息，计算机设备可以将表示频域语音特征信息的第一向量输入到频域语音识别模型中，由该频域语音识别模型基于第一向量和多个隐藏层、池化层以及全连接层进行运算，得到表示第一向量与多个音素之间对应概率的第二向量，比如(0.1，0.11，0.2，0.6，0.7………),其中0.1可以表示该第一向量与音素“a”的对应概率为0.1，0.7可以表示该第一向量与音素“e”的对应概率为0.7，若0.7为第二向量中最大的数字，那么频域语音识别模型可以确定该第一向量对应的音素为“e”，也即是该频域语音特征信息对应的音素为“e”，当然，该实施方式中的频域语音识别模型的结构可以根据实际需要进行设定，本申请实施例对此不做限定。

在一种可能的实施方式中，计算机设备可以将时间上相邻的多个频域语音特征信息输入到频域语音识别模型中，由频域语音识别模型基于多个频域语音特征信息进行预测，得到多个频域语音特征信息与多个音素组合之间对应的概率，将概率最大的音素组确定为多个频域语音特征信息对应的音素组。例如，计算机设备可以通过向量的形式表示频域语音特征信息，计算机设备可以将表示频域语音特征信息的多个第一向量输入到频域语音识别模型中，由该频域语音识别模型基于第一向量和多个隐藏层、池化层以及全连接层进行运算，得到表示多个第一向量与多个音素组之间对应概率的第二向量，比如(0.1，0.11，0.2，0.6，0.7………),其中0.1可以表示多个第一向量与音素组“ca”的对应概率为0.1，0.7可以表示多个第一向量与音素组“bo”的对应概率为0.7，若0.7为第二向量中最大的数字，那么频域语音识别模型可以确定多个第一向量对应的音素组为“bo”，也即是多个频域语音特征信息对应的音素为“bo”，当然，该实施方式中的频域语音识别模型的结构可以根据实际需要进行设定，本申请实施例对此不做限定。

406、计算机设备在多个音素之间插入分隔符，任意两个分隔符之间的音素对应于同一个目标音素，基于多个目标音素，确定语音数据对应的文本信息。

在一种可能的实施方式中，计算机设备可以按照时间顺序将语音识别模型预测的音素进行组合，基于一个分隔符插入模型来在多个音素之间插入分隔符，该分隔符插入模型可以基于时间上相邻的多个时域语音特征信息，预测分隔符的插入位置。计算机设备可以将任意两个分隔符之间的音素确定为同一个目标音素，基于多个目标音素，确定多个目标音节，基于多个目标音节，确定语音数据对应的文本信息。具体来说，该分隔符插入模型的主要功能是将两个相同的目标音素区分开，例如计算机设备按照时间顺序得到了一组音素“hhheeelllloo”，计算机设备可能会直接将相同的音素确定为同一个目标音素，也即是将“hhh”确定为“h”、将“eee”确定为“e”、将“llll”确定为“l”以及将“oo”确定为“o”，最终得到的文本信息为“helo”，这样得到结果可能与实际上的结果“hello”不同。计算机设备可以基于分隔符插入模型在一组音素“hhheeelllloo”中插入分隔符，例如“/hhh/eee/lll/l/oo/”，计算机设备可以得到正确的文本信息为“hello”，其中“/”表示分隔符。

通过本申请实施例提供的语音识别方法，计算机设备在将音频数据转化到频域后在频域对音频数据进行语音增强，将噪音数据和语音数据进行分离，在频域上直接对语音数据进行特征提取和语音识别，无需将频域语音信息转化到时域再进行特征提取和语音识别，提升了语音识别的速度。

图5是本申请实施例提供的一种语音识别装置结构示意图，参见图5，装置包括：预测模块501、语音分离模块502、特征提取模块503以及语音识别模块504。

预测模块501，用于将采集到的音频数据输入到时域分离模型中，由时域分离模型基于音频数据进行预测，得到时域分离信息，时域分离信息用于分离音频数据中的噪音数据和语音数据。

语音分离模块502，用于基于时域分离信息对音频数据进行语音分离，得到时域语音数据。

特征提取模块503，用于对时域语音数据进行特征提取，得到时域语音数据对应的时域语音特征信息。

语音识别模块504，用于对时域语音数据对应的时域语音特征信息进行语音识别，确定时域语音数据对应的语音内容。

在一种可能的实施方式中，预测模块包括：

分割单元，用于将音频数据分割成多个长度相同的音频帧，按照时间的先后顺序将多个长度相同的音频帧输入到时域分离模型中。

第一预测单元，用于由时域分离模型基于多个长度相同的音频帧进行预测，得到多个第一分离信息，将多个第一分离信息按照时间顺序进行组合，得到时域分离信息。

在一种可能的实施方式中，特征提取模块包括：

将时域语音数据输入到特征提取模型中，由特征提取模型基于任一语音帧和语音帧时序相邻的关联语音帧之间的关系，对语音帧进行特征提取，得到语音帧的特征信息，对各个语音帧的特征信息进行组合，输出时域语音数据对应的时域语音特征信息。

在一种可能的实施方式中，语音识别模块包括：

第二预测单元，用于将时域语音特征信息输入到时域语音识别模型中，由时域语音识别模型基于时域语音特征信息进行预测，得到时域语音特征信息与多个音素之间对应的概率。

音素确定单元，用于将概率最大的音素确定为时域语音特征信息对应的音素。

语音内容确定单元，用于基于多个音素，确定时域语音数据对应的语音内容。

通过本申请实施例提供的语音识别装置，计算机设备可以直接在时域对音频信息进行语音分离，将噪音信息和语音信息进行分离，无需将音频信息转化到频域再进行语音增强，还可以在直接在时域上对语音信息进行特征提取和语音识别，从整体上提升了语音识别的速度。

需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本申请实施例提供的一种语音识别装置结构示意图，参见图6，装置包括：转化模块601、特征提取模块602、音素预测模块603以及语音内容确定模块604。

转化模块601，用于将音频数据中的语音数据的频域信息转化为频谱图。

特征提取模块602，用于对频谱图进行特征提取，得到频谱图对应的频域语音特征信息。

音素预测模块603，用于将频域语音特征信息输入到频域语音识别模型中，由频域语音识别模型基于频域语音特征信息进行预测，得到频域语音特征信息对应的音素。

语音内容确定模块604，用于基于多个音素，确定语音数据对应的语音内容。

在一种可能的实施方式中，特征提取模块用于：

将频谱图输入到特征提取模型中，由特征提取模型对频谱图进行特征提取，输出与频谱图对应的频谱图特征信息，将频谱图特征信息作为语音数据对应的频域语音特征信息。

在一种可能的实施方式中，音素预测模块包括：

概率预测单元，用于将频域语音特征信息输入到频域语音识别模型中，由频域语音识别模型基于频域语音特征信息进行预测，得到频域语音特征信息与多个音素之间对应的概率。

确定单元，用于将概率最大的音素确定为语音特征信息对应的音素。

在一种可能的实施方式中，装置还包括：

频域分离信息预测模块，用于将频域音频数据输入到频域分离模型中，由频域分离模型基于频域音频数据进行预测，得到频域分离信息，频域分离信息用于分离频域音频数据中的噪音数据和语音数据。

语音增强模块，用于基于频域分离信息对频域音频数据进行语音增强，得到音频数据中的语音数据的频域信息。

通过本申请实施例提供的语音识别装置，计算机设备在将音频数据转化到频域后在频域对音频数据进行语音增强，将噪音数据和语音数据进行分离，在频域上直接对语音数据进行特征提取和语音识别，无需将频域语音信息转化到时域再进行特征提取和语音识别，提升了语音识别的速度。

图7是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备700可以是：智能手机、平板电脑、智能家居设备、智能手环、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。

通常，计算机设备700包括有：一个或多个处理器701和一个或多个存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个存储介质，该存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的语音识别方法。

在一些实施例中，计算机设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置计算机设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在计算机设备700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在计算机设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在计算机设备的前面板，后置摄像头设置在计算机设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位计算机设备700的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在计算机设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时，可以检测用户对计算机设备700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置计算机设备700的正面、背面或侧面。当计算机设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的语音识别方法。例如，该存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

将采集到的音频数据分割成多个长度相同的音频帧，按照时间的先后顺序将所述多个长度相同的音频帧输入到时域分离模型中；

由所述时域分离模型基于所述多个长度相同的音频帧进行预测，得到多个第一分离信息，将多个第一分离信息按照时间顺序进行组合，得到时域分离信息，所述时域分离信息用于分离所述音频数据中的噪音数据和语音数据；

将所述时域分离信息与所述音频数据相乘，得到时域语音数据；

将所述时域语音数据分割成多个目标长度的语音帧；

将任一所述语音帧和目标数量的关联语音帧输入到特征提取模型中，通过所述特征提取模型分别对所述语音帧和所述目标数量的关联语音帧进行特征提取，并为所述目标数量的关联语音帧和所述语音帧赋予不同的权重，所述目标数量的关联语音帧为与所述语音帧时序相邻的语音帧；

将特征提取后的多个语音帧的特征信息进行加权求和，得到所述语音帧的目标语音帧特征信息；

按照时间顺序将所述多个目标长度的语音帧的多个目标语音特征信息进行组合，得到所述时域语音数据对应的时域语音特征信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述时域语音数据对应的时域语音特征信息进行语音识别，得到所述时域语音数据对应的语音内容包括：

将所述时域语音特征信息输入到时域语音识别模型中，由所述时域语音识别模型基于所述时域语音特征信息进行预测，得到所述时域语音特征信息与多个音素之间对应的概率；

将概率最大的音素确定为所述时域语音特征信息对应的音素；

基于多个音素，确定所述时域语音数据对应的语音内容。

3.根据权利要求2所述的方法，其特征在于，所述基于多个音素，确定所述时域语音数据对应的语音内容包括：

在所述多个音素之间插入分隔符，得到多个目标音素，任意两个分隔符之间的音素对应于同一个目标音素；

基于所述多个目标音素，确定时域语音数据对应的语音内容。

4.根据权利要求3所述的方法，其特征在于，所述在所述多个音素之间插入分隔符，得到多个目标音素包括：

按照时间顺序将所述多个音素进行组合；

基于分隔符插入模型，在组合后的多个音素之间插入分隔符，所述分隔符插入模型用于基于时间上相邻的多个时域语音特征信息预测分隔符的插入位置；

将任意两个分隔符之间的音素确定为同一个目标音素。

5.根据权利要求3所述的方法，其特征在于，所述基于所述多个目标音素，确定时域语音数据对应的语音内容包括：

基于所述多个目标音素，确定多个目标音节；

基于所述多个目标音节，确定所述时域语音数据对应的文本信息。

6.根据权利要求1所述的方法，其特征在于，所述对所述时域语音数据对应的时域语音特征信息进行语音识别，得到所述时域语音数据对应的语音内容包括：

将时间上相邻的多个时域语音特征信息输入到时域语音识别模型中，由所述时域语音识别模型基于所述多个时域语音特征信息进行预测，得到所述多个时域语音特征信息与多个音素组合之间对应的概率；

将概率最大的音素组确定为所述多个时域语音特征信息对应的音素组；

基于所述音素组，确定所述时域语音数据对应的语音内容。

7.一种语音识别装置，其特征在于，所述装置包括：

预测模块，用于将采集到的音频数据分割成多个长度相同的音频帧，按照时间的先后顺序将所述多个长度相同的音频帧输入到时域分离模型中；由所述时域分离模型基于所述多个长度相同的音频帧进行预测，得到多个第一分离信息，将多个第一分离信息按照时间顺序进行组合，得到时域分离信息，所述时域分离信息用于分离所述音频数据中的噪音数据和语音数据；

语音分离模块，用于将所述时域分离信息与所述音频数据相乘，得到时域语音数据；

特征提取模块，用于将所述时域语音数据分割成多个目标长度的语音帧；将任一所述语音帧和目标数量的关联语音帧输入到特征提取模型中，通过所述特征提取模型分别对所述语音帧和所述目标数量的关联语音帧进行特征提取，并为所述目标数量的关联语音帧和所述语音帧赋予不同的权重，所述目标数量的关联语音帧为与所述语音帧时序相邻的语音帧；将特征提取后的多个语音帧的特征信息进行加权求和，得到所述语音帧的目标语音帧特征信息；按照时间顺序将所述多个目标长度的语音帧的多个目标语音特征信息进行组合，得到所述时域语音数据对应的时域语音特征信息；

8.根据权利要求7所述的装置，其特征在于，所述语音识别模块包括：

9.根据权利要求8所述的装置，其特征在于，所述语音内容确定单元，用于在所述多个音素之间插入分隔符，得到多个目标音素，任意两个分隔符之间的音素对应于同一个目标音素；基于所述多个目标音素，确定时域语音数据对应的语音内容。

10.根据权利要求9所述的装置，其特征在于，所述语音内容确定单元，用于按照时间顺序将所述多个音素进行组合；基于分隔符插入模型，在组合后的多个音素之间插入分隔符，所述分隔符插入模型用于基于时间上相邻的多个时域语音特征信息预测分隔符的插入位置；将任意两个分隔符之间的音素确定为同一个目标音素。

11.根据权利要求9所述的装置，其特征在于，所述语音内容确定单元，用于基于所述多个目标音素，确定多个目标音节；基于所述多个目标音节，确定所述时域语音数据对应的文本信息。

12.根据权利要求8所述的装置，其特征在于，所述语音内容确定单元，用于将时间上相邻的多个时域语音特征信息输入到时域语音识别模型中，由所述时域语音识别模型基于所述多个时域语音特征信息进行预测，得到所述多个时域语音特征信息与多个音素组合之间对应的概率；将概率最大的音素组确定为所述多个时域语音特征信息对应的音素组；基于所述音素组，确定所述时域语音数据对应的语音内容。

13.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法。

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法。