CN113823278B

CN113823278B - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN113823278B
Application number: CN202111067308.4A
Authority: CN
Inventors: 吴俊�; 陈孝良; 李智勇
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-12-08
Anticipated expiration: 2041-09-13
Also published as: CN113823278A

Abstract

本申请提供了一种语音识别方法、装置、电子设备及存储介质，属于语音识别技术领域。所述方法包括：获取音频信号和振动信号，振动信号为第一对象的发声部位的皮肤振动产生的信号，音频信号的采集时间与振动信号的采集时间之间的时间间隔在预设范围内；分别确定音频信号与振动信号之间的关联特征、音频信号的音频特征以及振动信号的振动特征；对关联特征、音频特征和振动特征进行融合，得到融合特征；对融合特征进行语音识别。本申请结合振动信号以及音频信号与振动信号之间的关联特征进行语音识别，即使在嘈杂的环境中，也能够降低噪声对语音识别的干扰，提高语音识别的准确性。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

近年来，语音识别技术发展迅速，已广泛应用于文本转换、智能问答和语音控制等场景。通常情况下，电子设备采集环境中的音频信号，基于语音识别技术，对采集到的音频信号进行识别，得到文本信息。但是，在嘈杂的环境中，电子设备采集到的音频信号包含噪声，噪声对语音识别的干扰较大，会导致语音识别的准确性降低。

发明内容

本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质，能够提高语音识别的准确性。所述技术方案如下：

根据本申请实施例的一方面，提供了一种语音识别方法，所述方法包括：获取音频信号和振动信号，所述振动信号为第一对象的发声部位的皮肤振动产生的信号，所述音频信号的采集时间与所述振动信号的采集时间之间的时间间隔在预设范围内；分别确定所述音频信号与所述振动信号之间的关联特征、所述音频信号的音频特征、以及所述振动信号的振动特征；对所述关联特征、所述音频特征和所述振动特征进行融合，得到融合特征；对所述融合特征进行语音识别。

根据本申请实施例的另一方面，提供了一种语音识别装置，所述装置包括：信号获取模块，用于获取音频信号和振动信号，所述振动信号为第一对象的发声部位的皮肤振动产生的信号，所述音频信号的采集时间与所述振动信号的采集时间之间的时间间隔在预设范围内；特征确定模块，用于分别确定所述音频信号与所述振动信号之间的关联特征、所述音频信号的音频特征、以及所述振动信号的振动特征；特征融合模块，用于对所述关联特征、所述音频特征和所述振动特征进行融合，得到融合特征；语音识别模块，用于对所述融合特征进行语音识别。

在一种可能的实现方式中，所述特征确定模块，用于：按照相同的时间长度对所述音频信号和所述振动信号分别进行分帧，得到连续的多个音频信号帧和多个振动信号帧，其中，每个音频信号帧按照时间对应有一个振动信号帧；确定每个所述音频信号帧与所述音频信号帧对应的振动信号帧之间的关联子特征；确定所述关联特征由多个所述音频信号帧对应的关联子特征构成；确定所述音频特征由多个所述音频信号帧的音频子特征构成；确定所述振动特征由多个所述振动信号帧的振动子特征构成。

在一种可能的实现方式中，所述特征融合模块，用于：对每个所述音频信号帧的音频子特征、所述音频信号帧对应的振动信号帧的振动子特征以及所述音频信号帧与所述振动信号帧之间的关联子特征进行融合，得到所述音频信号帧对应的融合子特征；确定所述融合特征由多个所述音频信号帧对应的融合子特征构成。

在一种可能的实现方式中，所述融合特征包括多个所述音频信号帧对应的融合子特征，所述语音识别模块，包括：特征更新单元，用于对每个所述音频信号帧对应的融合子特征与所述音频信号帧对应的多个其他融合子特征进行融合，得到所述音频信号帧对应的更新后的融合子特征；语音识别单元，用于调用语音识别网络，对多个所述音频信号帧对应的更新后的融合子特征进行语音识别，得到文本信息；其中，所述多个其他融合子特征为位于所述音频信号帧之前的第一数量的音频信号帧对应的融合子特征或位于所述音频信号帧之后的第二数量的音频信号帧对应的融合子特征，或者所述多个其他的融合子特征为取自所述音频信号帧之前和之后的多个音频信号帧对应的融合子特征。

在一种可能的实现方式中，所述装置还包括语音识别网络训练模块，所述语音识别网络训练模块，用于：获取样本音频信号、所述样本音频信号对应的标注文本信息和样本振动信号，所述样本音频信号的采集时间与所述样本振动信号的采集时间之间的时间间隔在预设范围内，所述样本振动信号为第二对象的发声部位的皮肤振动产生的信号；对所述样本音频信号与所述样本振动信号之间的样本关联特征、所述样本音频信号的样本音频特征、以及所述样本振动信号的样本振动特征进行融合，得到样本融合特征；调用所述语音识别网络，对所述样本融合特征进行语音识别，得到预测文本信息；基于所述预测文本信息和所述标注文本信息，训练所述语音识别网络。

在一种可能的实现方式中，所述语音识别网络包括声学模型和语言模型，所述语音识别单元，用于：调用所述声学模型，对多个所述音频信号帧对应的更新后的融合子特征进行声学识别，得到多个所述音频信号帧对应的声学单元；调用所述语言模型，将多个所述音频信号帧对应的声学单元转换为至少一个文本单元，将所述至少一个文本单元构成所述文本信息。

在一种可能的实现方式中，所述装置还包括语音模型训练模块；所述语言模型训练模块，用于：获取样本文本信息和所述样本文本信息对应的多个声学单元；调用所述语言模型，将多个所述声学单元转换为至少一个文本单元，将所述至少一个文本单元构成预测文本信息；基于所述预测文本信息和所述样本文本信息，训练所述语言模型。

在一种可能的实现方式中，所述特征确定模块，用于：确定所述音频信号帧的第一频谱和所述振动信号帧的第二频谱，所述第一频谱包括多个频点对应的第一幅度，所述第二频谱包括多个所述频点对应的第二幅度；将每个所述频点的第一幅度与所述频点的第二幅度相乘，得到所述音频信号帧与所述振动信号帧在所述频点上的关联度；将多个所述频点对应的关联度构成所述关联子特征。

根据本申请实施例的另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可能的实现方式中所述的语音识别方法。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可能的实现方式中所述的语音识别方法。

根据本申请实施例的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器执行以实现上述任一种可能的实现方式中所述的语音识别方法。

本申请实施例提供的技术方案，在针对第一对象进行语音识别时，除了获取音频信号之外，还获取振动信号，该振动信号为第一对象的发声部位的皮肤振动产生的信号，能够准确表示第一对象的发声情况，与第一对象发出的音频信号强相关，并且，不会受到噪声的干扰，对针对第一对象的语音识别具有重要的参考价值，因此进一步确定获取到的音频信号与该振动信号之间的关联特征，结合该关联特征、获取到的音频信号的特征和振动信号的特征，进行语音识别，即使在嘈杂的环境中，也能够降低噪声对语音识别的干扰，得到准确的第一对象的语音识别结果，提高了语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音识别方法的流程图；

图3是本申请实施例提供的一种语音识别方法的流程图；

图4是本申请实施例提供的一种确定关联子特征的流程图；

图5是本申请实施例提供的一种语音识别网络的训练流程图；

图6是本申请实施例提供的一种声学模型的训练流程图；

图7是本申请实施例提供的一种语言模型的训练流程图；

图8是本申请实施例提供的一种语音识别过程的示意图；

图9是本申请实施例提供的一种文本转换过程的流程图；

图10是本申请实施例提供的一种智能问答过程的流程图；

图11是本申请实施例提供的一种语音识别装置的框图；

图12是本申请实施例提供的一种电子设备的框图；

图13是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一频谱称为第二频谱，将第二频谱称为第一频谱。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个音频信号帧包括3个音频信号帧，而每个音频信号帧是指这3个音频信号帧中的每一个音频信号帧，任一是指这3个音频信号帧中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括电子设备101和振动传感器102。

电子设备101具有音频信号采集功能和语音识别功能。可选地，电子设备101为智能手机、平板电脑、笔记本电脑、台式电脑或者智能电视，但并不局限于此。

振动传感器102具有振动信号采集功能。振动传感器102置于某一对象的发声部位的皮肤上，采集振动信号，由采集到的振动信号表示该对象的发声部位的皮肤振动情况。其中，对象主要依靠声带振动发出音频信号，发声部位位于脖颈处，声带振动会引起脖颈处的皮肤振动，因此，可以将振动传感器102置于脖颈处的皮肤上。振动传感器102具有可穿戴的特性，可选地，振动传感器102贴附于脖颈处；或者，振动传感器102安装在挂脖式装置的内壁上，振动传感器102的安装位置的外壁与脖颈处的皮肤接触。可选地，挂脖式装置为挂脖式耳机。

振动传感器102与电子设备101通过无线或有线通信方式连接，将采集到的振动信号发送至电子设备101；电子设备101基于接收到的振动信号和采集到的音频信号进行语音识别。

图2是本申请实施例提供的一种语音识别方法的流程图。下面结合图2，对该语音识别方法进行简要说明，参见图2，该语音识别方法由电子设备执行，包括以下步骤：

201、电子设备获取音频信号和振动信号。

其中，振动信号是振动传感器采集的，振动传感器置于第一对象的发声部位的皮肤上，采集振动信号。该振动信号也即是第一对象的发声部位的皮肤振动产生的信号。振动传感器向电子设备发送采集到的振动信号，从而电子设备通过接收振动传感器发送的振动信号，获取到振动信号。

音频信号的采集时间与振动信号的采集时间之间的时间间隔在预设范围内。例如，预设范围为0毫秒至100毫秒。可选地，音频信号由电子设备的麦克风采集，电子设备的麦克风集成在电子设备的音频电路中，电子设备通过麦克风获取音频信号；或者，音频信号由音频采集设备采集，并由音频采集设备发送至电子设备，从而电子设备通过接收音频采集设备发送的音频信号，获取到音频信号，本申请实施例对电子设备获取音频信号的方式不做限制。可选地，音频采集设备是独立于电子设备之外，且与电子设备通过无线或有线通信方式连接的麦克风。

需要说明的是，第一对象是语音识别所针对的对象，语音识别的目的为识别出第一对象发出的音频信号对应的文本信息，也即是，识别出第一对象在说什么。而采集上述音频信号的设备所在的环境中除第一对象之外，可能还包括其他发声对象，该音频信号包括第一对象发出的音频信号和其他发声对象发出的音频信号，其他发声对象发出的音频信号相对于第一对象发出的音频信号来说是噪声。

202、电子设备分别确定该音频信号与该振动信号之间的关联特征、该音频信号的音频特征、以及该振动信号的振动特征。

其中，振动信号与第一对象发出的音频信号是强相关的。电子设备获取到的音频信号与振动信号之间的关联特征，能够表示电子设备获取到的音频信号与第一对象发出的音频信号之间的关联度，也即是表示电子设备获取到的音频信号包括第一对象发出的音频信号的可能性。另外，音频特征是对音频信号进行特征提取得到的用于语音识别的特征。振动特征是对振动信号进行特征提取得到的用于语音识别的特征。

203、电子设备对关联特征、音频特征和振动特征进行融合，得到融合特征，对融合特征进行语音识别。

在得到关联特征、音频特征和振动特征三种特征后，电子设备基于这三种特征的融合，进行语音识别，得到文本信息，该文本信息表示第一对象所说的话。

上述实施例是对语音识别方法的简要说明，下面结合图3，对该语音识别方法进行详细说明，图3是本申请实施例提供的一种语音识别方法的流程图，参见图3，该语音识别方法由电子设备执行，包括以下步骤：

301、电子设备获取音频信号和振动信号。

其中，音频信号的采集时间与振动信号的采集时间之间的时间间隔在预设范围内。在一种可能的实现方式中，电子设备基于第一对象的控制操作采集音频信号，振动传感器基于电子设备的控制指令采集振动信号。电子设备获取音频信号和振动信号的步骤包括：电子设备响应于语音识别启动操作，开始采集音频信号，并向振动传感器发送启动采集指令；振动传感器响应于启动采集指令，开始采集振动信号；电子设备响应于语音识别结束操作，结束音频信号的采集，得到采集到的音频信号，并向振动传感器发送结束采集指令，振动传感器响应于结束采集指令，结束振动信号的采集，并向电子设备发送采集到的振动信号；电子设备接收振动传感器发送的振动信号。

在一种可能的实现方式中，电子设备基于第一对象的控制操作采集音频信号。振动传感器持续采集振动信号，向电子设备发送采集到的振动信号。由于发声部位通过振动产生声音，振动信号略早于音频信号产生，振动信号的采集时间应在音频信号的采集时间之前，因此，电子设备接收振动传感器发送的振动信号，从接收到的振动信号中获取采集时间在音频信号的采集时间之前，且采集时间与音频信号的采集时间之间的时间间隔在预设范围内的振动信号。也即是，电子设备获取音频信号和振动信号的步骤包括：电子设备响应于第一时刻触发的语音识别启动操作，开始采集音频信号，响应于第二时刻触发的语音识别结束操作，结束音频信号的采集，得到起始时刻为第一时刻且结束时刻为第二时刻的音频信号；电子设备从接收到的振动信号中，获取起始时刻为第三时刻且结束时刻为第二时刻的振动信号，第三时刻与第一时刻之间的时间间隔为预设范围内的任一数值，本申请实施例对此不做限制。

在一种可能的实现方式中，电子设备持续采集音频信号；振动传感器持续采集振动信号，向电子设备发送采集到的振动信号，电子设备获取音频信号和振动信号的步骤包括：电子设备从接收到的振动信号中，确定振动信号出现的第三时刻和振动信号结束的第四时刻；获取起始时刻为第三时刻且结束时刻为第四时刻的振动信号；从采集到的音频信号中，获取起始时刻为第三时刻且结束时刻为第四时刻的音频信号。

上述实施例均是以电子设备采集音频信号为例进行说明的，在一些实施例中，音频信号由音频采集设备采集，并发送至电子设备。例如，电子设备基于第一对象的控制操作，向音频采集设备发送控制指令，指示音频采集设备采集音频信号并将采集到的音频信号发送至电子设备，从而电子设备获取到音频信号。再如，音频采集设备持续采集音频信号，向电子设备发送音频信号；电子设备从接收到的音频信号中，获取采集时间与振动信号的采集时间相同的音频信号。

302、电子设备按照相同的时间长度对音频信号和振动信号分别进行分帧，得到连续的多个音频信号帧和多个振动信号帧，其中，每个音频信号帧按照时间对应有一个振动信号帧。

其中，音频信号和振动信号均是在一段时间内不断波动的信号，而信号的有效处理需要在信号平稳的情况下进行，因此对音频信号和振动信号进行分帧，得到多个平稳的信号帧，再对得到的信号帧进行后续处理。

分帧是将信号分为多个片段，一个音频信号帧是音频信号中的一个片段，也即是一帧音频信号。一个振动信号帧是振动信号中的一个片段，也即是一帧振动信号。音频信号帧的时间长度与振动信号帧的时间长度相等。上述时间长度可灵活配置，例如，上述时间长度配置为15毫秒、20毫秒或者25毫秒等，本申请实施例对此不做限制。

另外，为了保证相邻的帧之间平滑过渡，保证多个帧之间的连续性，会采用交叠分段的方法进行分帧，这样，相邻的帧之间会有重叠。相邻两帧的起始时刻的差值称为帧移，帧移可灵活配置，例如，帧移配置为帧长的一半，或者，帧移配置为8毫秒、9毫秒或者10毫秒等，本申请实施例对此不做限制。

303、电子设备确定每个音频信号帧与该音频信号帧对应的振动信号帧之间的关联子特征。

上述步骤302得到的多个音频信号帧的数量与多个振动信号帧的数量相等，且音频信号帧与振动信号帧之间是一一对应的，音频信号帧与对应的振动信号帧是同一段时间内的不同类型的信号。

在一种可能的实现方式中，参见图4，电子设备确定音频信号帧与该音频信号帧对应的振动信号帧之间的关联子特征的步骤包括以下步骤3031至步骤3032：

3031、电子设备确定该音频信号帧的第一频谱和该振动信号帧的第二频谱，第一频谱包括多个频点对应的第一幅度，第二频谱包括该多个频点对应的第二幅度。

可选地，电子设备对音频信号帧和振动信号帧分别进行傅里叶变换，得到音频信号帧的第一频谱和振动信号帧的第二频谱。其中，第一频谱包括多个频点以及每个频点对应的第一幅度，第二频谱包括多个频点以及每个频点对应的第二幅度。一个频点代表一个频率，一个频点对应的幅度代表该频点代表的频率下的信号的强度。第一频谱中的多个频点与第二频谱中的多个频点一一对应，第一频谱中的频点代表的频率与对应的第二频谱中的频点代表的频率相同。

可选地，为了减轻频谱泄漏，电子设备在确定音频信号帧的第一频谱和振动信号帧的第二频谱之前，还将窗函数分别与音频信号帧和振动信号帧相乘，得到加窗后的音频信号帧和加窗后的振动信号帧，对加窗后的音频信号帧和加窗后的振动信号帧进行后续处理。

3032、电子设备将每个频点的第一幅度与该频点的第二幅度相乘，得到该音频信号帧与该振动信号帧在该频点上的关联度；将多个频点对应的关联度构成关联子特征。

任一频点在第一频谱中的第一幅度与该频点在第二频谱中的第二幅度的乘积越大，表示音频信号和振动信号在该频点的强度都较大，音频信号与振动信号在该频点上越相似，因此，由该乘积代表音频信号与振动信号在该频点上的关联度，关联度越大，表示第一对象发出音频信号的可能性越大，音频信号包括第一对象发出的音频信号的可能性也就越大。

上述实施例是以电子设备确定音频信号帧和振动信号帧在一个频点上的关联度为例进行说明的，电子设备确定每个频点对应的关联度的过程均与上述过程同理，在此不再赘述。

上述技术方案，通过确定每个音频信号帧与对应的振动信号帧之间的关联子特征，得到了更细粒度的特征表示，提高了特征表示的准确性，在此基础上进行语音识别，能够提高语音识别的准确性。

需要说明的是，电子设备分别确定每个音频信号帧与对应的振动信号帧之间的关联子特征，从而会得到多个关联子特征，该多个关联子特征即构成该音频信号与该振动信号之间的关联特征，也即是，电子设备确定关联特征由多个音频信号帧对应的关联子特征构成。可选地，多个关联子特征按照对应的音频信号帧的采集时间的先后顺序构成关联特征。

304、电子设备确定每个音频信号帧的音频子特征。

可选地，音频子特征为频谱、FBank(FilterBank，滤波器组)特征或者MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征等，本申请实施例对音频子特征的类型不做限制。

在一些实施例中，音频子特征为频谱，电子设备将音频信号帧的第一频谱确定为该音频信号帧的音频子特征。

在一些实施例中，音频子特征为FBank特征，电子设备对音频信号帧的第一频谱进行滤波，得到该音频信号帧的音频子特征。

在一些实施例中，音频子特征为MFCC特征，电子设备对音频信号帧的第一频谱进行梅尔倒谱分析，得到该音频信号帧的音频子特征。

需要说明的是，电子设备分别确定每个音频信号帧的音频子特征，从而会得到多个音频子特征，该多个音频子特征即构成该音频信号的音频特征，也即是，电子设备确定音频特征由多个音频信号帧的音频子特征构成。可选地，多个音频子特征按照采集时间的先后顺序构成音频特征。

305、电子设备确定每个振动信号帧的振动子特征。

可选地，振动子特征为频谱、FBank特征或者MFCC特征等，本申请实施例对振动子特征的类型不做限制。

在一些实施例中，振动子特征为频谱，电子设备将振动信号帧的第二频谱确定为该振动信号帧的振动子特征。

在一些实施例中，振动子特征为FBank特征，电子设备对振动信号帧的第二频谱进行滤波，得到该振动信号帧的振动子特征。

在一些实施例中，振动子特征为MFCC特征，电子设备对振动信号帧的第二频谱进行梅尔倒谱分析，得到该振动信号帧的振动子特征。

需要说明的一点是，电子设备分别确定每个振动信号帧的振动子特征的步骤，从而会得到多个振动子特征，该多个振动子特征即构成该振动信号的振动特征，也即是，电子设备确定振动特征由多个振动信号帧的振动子特征构成。可选地，多个振动子特征按照采集时间的先后顺序构成振动特征。

需要说明的另一点是，在上述实施例中，对确定关联子特征、确定音频子特征以及确定振动子特征的先后顺序，是以先确定关联子特征，再确定音频子特征，再确定振动子特征为例进行说明的。在另一些实施例中，上述确定关联子特征、确定音频子特征以及确定振动子特征的步骤按照其他时序进行。例如，电子设备并行执行确定关联子特征、确定音频子特征以及确定振动子特征的步骤。再如，电子设备先确定音频子特征，再确定关联子特征，再确定振动子特征，本申请实施例对电子设备确定关联子特征、音频子特征和振动子特征的先后顺序不做限制。

在一些实施例中，关联子特征是基于音频信号帧的第一频谱和振动信号帧的第二频谱确定的，音频子特征是基于音频信号帧的第一频谱确定的，振动子特征是基于振动信号帧的第二频谱确定的。为了减少频谱的重复确定，提高特征提取效率，电子设备先确定音频信号帧的第一频谱和振动信号帧的第二频谱，再执行基于第一频谱和第二频谱确定关联子特征、基于第一频谱确定音频子特征和基于第二频谱确定振动子特征的步骤。本申请实施例对基于第一频谱和第二频谱确定关联子特征、基于第一频谱确定音频子特征和基于第二频谱确定振动子特征的执行顺序不做限制。

306、电子设备对关联特征、音频特征和振动特征进行融合，得到融合特征。

在一种可能的实现方式中，电子设备通过拼接的方式对特征进行融合，也即是，电子设备对关联特征、音频特征和振动特征进行拼接，得到融合特征。其中，关联特征、音频特征和振动特征的拼接顺序可灵活配置，本申请实施例对此不做限制。例如，电子设备在关联特征之后拼接音频特征，再在音频特征之后拼接振动特征，得到融合特征；或者，电子设备在音频特征之后拼接关联特征，再在关联特征之后拼接振动特征，得到融合特征，在此不在一一列举。

除了通过拼接的方式对特征进行融合之外，电子设备还可以通过其他方式对特征进行融合，本申请实施例对特征融合的方式不做限制。例如，电子设备还可以对关联特征、音频特征和振动特征进行逐点相加，得到融合特征。其中，关联特征包括多个关联特征值，音频特征包括多个音频特征值，振动特征包括多个振动特征值，并且，关联特征值、音频特征值和振动特征值一一对应，逐点相加是指每组互相对应的关联特征值、音频特征值和振动特征值相加。

再如，电子设备还可以调用特征融合网络，对关联特征、音频特征和振动特征进行融合，得到融合特征。可选地，特征融合网络的网络结构为卷积神经网络。

在一种可能的实现方式中，音频特征包括多个音频信号帧的音频子特征，振动特征包括多个振动信号帧的振动子特征，关联特征包括多个音频信号帧对应的关联子特征。电子设备对每个音频信号帧的音频子特征、该音频信号帧对应的振动信号帧的振动子特征以及该音频信号帧与该振动信号帧之间的关联子特征进行融合，得到该音频信号帧对应的融合子特征。电子设备分别确定每个音频信号帧对应的融合子特征，从而会得到多个融合子特征，该多个融合子特征即构成融合特征，也即是，电子设备确定融合特征由多个音频信号帧对应的融合子特征构成。

其中，电子设备对音频子特征、振动子特征和关联子特征进行融合的方式与上述电子设备对音频特征、振动特征和关联特征进行融合的方式同理，在此不再赘述。

在一些实施例中，电子设备在得到上述融合特征后，可以直接执行步骤307，对该融合特征进行语音识别，得到文本信息。

在一些实施例中，由于多个信号帧是随着时间的推进依次产生的，相邻的多个信号帧之间存在关联，为了结合多个信号帧之间的关联进行语音识别，提高语音识别的准确性，电子设备在得到每个音频信号帧对应的融合特征之后，执行步骤307之前，还对每个音频信号帧对应的融合子特征与该音频信号帧对应的多个其他融合子特征进行融合，得到该音频信号帧对应的更新后的融合子特征；进而执行步骤307，对多个音频信号帧对应的更新后的融合子特征进行语音识别，得到文本信息。

其中，多个其他融合子特征为位于该音频信号帧之前的第一数量的音频信号帧对应的融合子特征或者位于该音频信号帧之后的第二数量的音频信号帧对应的融合子特征，或者，多个其他的融合子特征为取自该音频信号帧之前和之后的多个音频信号帧对应的融合子特征。

可选的，多个其他融合子特征为位于该音频信号帧之前的第一数量的连续的音频信号帧对应的融合子特征，或者位于该音频信号帧之后的第二数量的连续的音频信号帧对应的融合子特征，或者，多个其他的融合子特征为取自该音频信号帧之前和之后的多个连续的音频信号帧对应的融合子特征。

其中，第一数量与第二数量可以相同或者不同。第一数量和第二数量均可灵活配置，例如，第一数量为10或者20等，第二数量为10或者20等。在一个示例中，一个音频信号帧对应的多个其他融合子特征包括位于该音频信号帧之前的连续的10个音频信号帧对应的融合子特征和位于该音频信号帧之后的连续的10个音频信号帧对应的融合子特征。

307、电子设备调用语音识别网络，对融合特征进行语音识别，得到文本信息。

在一种可能的实现方式中，语音识别网络为端到端的网络，语音识别网络的输入为融合特征，输出为文本信息。可选地，语音识别网络的网络结构为seq2seq(sequence tosequence，序列转换为序列)的结构，例如，语音识别网络的网络结构为Transformer(转换器)。语音识别网络包括编码器和解码器，电子设备调用编码器，将多个音频信号帧对应的融合子特征转换为多个编码特征；调用解码器，将多个编码特征转换为至少一个文本单元，该至少一个文本单元构成文本信息。其中，文本单元是词组或句子的组成单元，文本单元为文字或单词。

在一种可能的实现方式中，电子设备对音频信号帧对应的音频子特征、该音频信号帧对应的振动信号帧的振动子特征以及该音频信号帧与该振动信号帧之间的关联子特征进行融合，得到了融合子特征。语音识别网络包括声学模型和语言模型，电子设备调用声学模型，对多个音频信号帧对应的融合子特征进行声学识别，得到多个音频信号帧对应的声学单元；调用语言模型，将多个音频信号帧对应的声学单元转换为至少一个文本单元，将该至少一个文本单元构成文本信息。其中，声学单元是根据语音的自然属性划分的语音单位，声学单元为音素或音节。

在一种可能的实现方式中，电子设备对音频信号帧对应的音频子特征、该音频信号帧对应的振动信号帧的振动子特征以及该音频信号帧与该振动信号帧之间的关联子特征进行融合，得到了融合子特征，进而对该音频信号帧对应的融合子特征与该音频信号帧对应的多个其他融合子特征进行融合，得到了该音频信号帧对应的更新后的融合子特征。相应的，电子设备调用声学模型，对多个音频信号帧对应的更新后的融合子特征进行声学识别，得到多个音频信号帧对应的声学单元；调用语言模型，将多个音频信号帧对应的声学单元转换为至少一个文本单元，将该至少一个文本单元构成文本信息。

声学模型用于将特征识别为声学单元，可选地，声学模型为GMM-HMM(GaussianMixture Model-Hidden Markov Model，高斯混合-隐马尔可夫模型)、DNN-HMM(DeepNeural Network-Hidden Markov Model，深度神经网络-隐马尔可夫模型)或者DNN-CTC(Deep Neural Network-Connectionist Temporal Classification，深度神经网络-基于连接的时序分类)等，本申请实施例对此不做限制。语言模型用于将声学单元转换为语句通顺的文本信息。可选地，语言模型为N-Gram(N元语法)模型。

需要说明的是，上述电子设备调用的语音识别网络为训练完成的语音识别网络。可选地，语音识别网络由该电子设备对应的服务器训练完成后，发送给该电子设备；或者，语音识别网络由该电子设备训练，本申请实施例对训练语音识别网络的设备不做限制。下面以服务器训练语音识别网络为例进行说明。

在一些实施例中，服务器对语音识别网络整体进行训练，参见图5，该语音识别网络的训练过程包括：

501、服务器获取样本音频信号、样本振动信号和标注文本信息。

其中，样本音频信号的采集时间与样本振动信号的采集时间之间的时间间隔在预设范围内。样本振动信号为第二对象的发声部位的皮肤振动产生的信号。样本音频信号为第二对象所在的环境中的音频信号。标注文本信息是样本音频信号对应的文本信息，也即是第二对象发出的音频信号对应的文本信息，是准确表示第二对象在说什么的文本信息。需要说明的是，第二对象和第一对象为同一对象，或者，第二对象和第一对象为不同的两个对象，本申请实施例对此不做限制。

502、服务器对样本音频信号与样本振动信号之间的样本关联特征、样本音频信号的样本音频特征、以及样本振动信号的样本振动特征进行融合，得到样本融合特征。

步骤502与上述步骤302至步骤306同理，在此不再赘述。

503、服务器调用语音识别网络，对样本融合特征进行语音识别，得到预测文本信息。

服务器调用语音识别网络，对样本融合特征进行语音识别，得到预测文本信息的过程与步骤307同理。另外，服务器在第一次基于获取到的样本音频信号、样本振动信号和标注文本信息训练语音识别网络时，调用的语音识别网络为初始的语音识别网络。服务器在第n次基于获取到的样本音频信号、样本振动信号和标注文本信息训练语音识别网络时，调用的语音识别网络为经过n-1次更新得到的语音识别网络，n为大于1的正整数。

504、服务器基于预测文本信息和标注文本信息，训练语音识别网络。

在一些实施例中，服务器基于预测文本信息和标注文本信息，确定损失值，该损失值表示预测文本信息与标注文本信息之间的差异；基于该损失值进行反向传播，更新语音识别网络的参数，以减小更新后的语音识别网络识别得到的文本信息与标注文本信息之间的差异。

需要说明的是，在语音识别网络未满足停止训练条件的情况下，服务器迭代执行上述步骤501至步骤504，直至语音识别网络满足停止训练条件。可选地，停止训练条件为更新后的语音识别网络识别得到的文本信息与标注文本信息之间的差异小于差异阈值；或者，停止训练条件为迭代次数达到上限，本申请实施例对此不做限制。其中，上述差异阈值可灵活配置，例如，差异阈值为0.1或者0.3等。迭代次数的上限可灵活配置，例如，该上限为500或者1000等。

在一些实施例中，语音识别网络包括声学模型和语言模型，服务器分别训练声学模型和语言模型。下面分别对声学模型和语言模型的训练过程进行说明。

参见图6，声学模型的训练过程包括：

601、获取样本音频信号、样本振动信号以及样本音频信号对应的多个标注声学单元。

其中，样本音频信号的采集时间与样本振动信号的采集时间之间的时间间隔在预设范围内。样本振动信号为第二对象的发声部位的皮肤振动产生的信号。样本音频信号为第二对象所在的环境中的音频信号。多个标注声学单元为第二对象发出的音频信号对应的多个声学单元，是对第二对象发出的音频信号的准确表示。

602、基于样本音频信号包括的多个样本音频信号帧以及样本振动信号包括的多个样本振动信号帧，确定多个样本音频信号帧对应的样本关联子特征、多个样本音频信号帧对应的样本音频子特征和多个样本振动信号帧的样本振动子特征。

步骤602与上述302至步骤305同理，在此不再赘述。

603、对每个样本音频信号帧与该样本音频信号帧对应的样本振动信号帧之间的样本关联子特征、该样本音频信号帧的样本音频子特征和该样本振动信号帧的样本振动子特征进行融合，得到该样本音频信号帧对应的融合子特征。

步骤603与上述步骤306同理，在此不再赘述。

604、调用声学模型，对多个样本音频信号帧对应的融合子特征进行声学识别，得到多个样本音频信号帧对应的预测声学单元。

其中，服务器在第一次基于获取到的样本音频信号、样本振动信号和标注声学单元训练声学模型时，调用的声学模型为初始的声学模型。服务器在第n次基于获取到的样本音频信号、样本振动信号和标注声学单元训练声学模型时，调用的声学模型为经过n-1次更新得到的声学模型，n为大于1的正整数。

605、基于多个样本音频信号帧对应的预测声学单元和多个标注声学单元，训练声学模型。

在一些实施例中，服务器基于多个预测声学单元和多个标注声学单元，确定损失值，该损失值表示多个预测声学单元与多个标注声学单元之间的差异；基于该损失值进行反向传播，更新声学模型的参数，以减小更新后的声学模型识别得到的多个预测声学单元与多个标注声学单元之间的差异。

需要说明的是，在声学模型未满足停止训练条件的情况下，服务器迭代执行上述步骤601至步骤605，直至声学模型满足停止训练条件。可选地，停止训练条件为更新后的声学模型识别得到的多个预测声学单元与多个标注声学单元之间的差异小于差异阈值；或者，停止训练条件为迭代次数达到上限，本申请实施例对此不做限制。其中，上述差异阈值可灵活配置，例如，差异阈值为0.1或者0.3等。迭代次数的上限可灵活配置，例如，该上限为500或者1000等。

参见图7，语言模型的训练过程包括：

701、服务器获取样本文本信息和该样本文本信息对应的多个声学单元。

其中，样本文本信息对应的多个声学单元是对该样本文本信息的准确声学表示。

702、服务器调用语言模型，将多个声学单元转换为至少一个文本单元，将至少一个文本单元构成预测文本信息。

其中，服务器在第一次基于获取到的样本文本信息训练语言模型时，调用的语言模型为初始的语言模型。服务器在第n次基于获取到的样本文本信息训练语言模型时，调用的语言模型为经过n-1次更新得到的语言模型，n为大于1的正整数。

703、服务器基于预测文本信息和样本文本信息，训练语言模型。

需要说明的是，在语言模型未满足停止训练条件的情况下，服务器迭代执行上述步骤701至步骤703，直至语言模型满足停止训练条件。可选地，停止训练条件为更新后的语言模型识别得到的预测文本信息与标注文本信息之间的差异小于差异阈值；或者，停止训练条件为迭代次数达到上限，本申请实施例对此不做限制。其中，上述差异阈值可灵活配置，例如，差异阈值为0.1或者0.3等。迭代次数的上限可灵活配置，例如，该上限为500或者1000等。

为了使上述过程更加清晰，下面结合图8进行说明，参见图8，在进行语音识别之前，获取到音频信号和振动信号；进而对音频信号进行特征提取，得到音频特征；对振动信号进行特征提取，得到振动特征；确定音频信号与振动信号之间的关联特征，也即是，音频信号与振动信号之间的互相关特征；进而将音频特征、振动特征和关联特征输入语音识别模型。在训练过程中，语音识别模型基于输入的音频特征、振动特征和关联特征进行迭代更新。在语音识别过程中，将音频特征、振动特征和关联特征输入训练完成的语音识别模型中，即可得到语音识别结果。

需要说明的是，相关技术为了降低噪声的干扰，会在语音识别之前，基于语音增强算法，对音频信号进行语音增强。但是，在信噪比较低的情况下，语音识别对语音增强算法的依赖性很强。如果语音识别网络基于语音增强前的音频信号训练得到，噪声的干扰会导致语音识别网络的效果较差。如果语音识别网络基于语音增强后的音频信号训练得到，则语音识别网络的识别效果受语音增强的效果影响很大，如果通过语音增强算法无法有效降低噪声的干扰，语音识别的效果也会很差。并且，语音增强算法对噪声的针对性较强，一种语音增强算法很难适用于对多种噪声的处理，在语音增强后进行语音识别的方法不能适用于包含各种噪声的场景。

而本申请实施例提供的语音识别方法，引入了对象的发声部位的振动信号，振动信号不会受到环境中噪声的影响，语音识别网络基于音频信号、振动信号以及音频信号和振动信号之间的关联特征训练得到，在低信噪比环境下，无需依赖语音增强算法，也能够结合振动信号和音频信号与振动信号之间的关联特征，降低噪声的干扰，有效提高语音识别的准确率。

本申请实施例提供的语音识别方法可应用在文本转换、智能问答和语音控制等多种场景中。下面结合图9，对该语音识别方法在文本转换场景中的应用进行说明。

901、电子设备显示文本输入界面，响应于对文本输入界面中的转换控件的触发操作，采集音频信号，向振动传感器发送启动采集指令，将处于初始状态的转换控件更新为录制状态。

其中，转换控件用于指示将录制的音频信号转换为文本信息，启动采集指令用于指示开始采集振动信号。

902、振动传感器响应于启动采集指令，采集振动信号。

903、振动传感器向电子设备发送采集到的振动信号。

904、电子设备响应于对处于录制状态的转换控件的触发操作，将转换控件更新为语音识别状态，基于采集到的音频信号和采集到的振动信号进行语音识别，得到文本信息。

其中，语音识别状态用于表示正在进行语音识别。电子设备基于采集到的音频信号和采集到的振动信号进行语音识别，得到文本信息与步骤302至步骤307同理，在此不再赘述。可选地，电子设备响应于对处于录制状态的转换控件的触发操作，还向振动传感器发送结束采集指令，结束采集指令用于指示停止采集振动信号，振动传感器响应于结束采集指令，停止采集振动信号。

905、电子设备将该文本信息显示在文本输入界面中，将转换控件更新为初始状态。

下面结合图10，对该语音识别方法在智能问答场景中的应用进行说明。

1001、电子设备采集音频信号。

1002、振动传感器采集振动信号，向电子设备发送振动信号。

1003、电子设备接收振动信号，从接收到的振动信号中，确定振动信号出现的第三时刻和振动信号结束的第四时刻，获取起始时刻为第三时刻且结束时刻为第四时刻的振动信号。

1004、电子设备从采集到的音频信号中，获取起始时刻为第三时刻且结束时刻为第四时刻的音频信号。

1005、电子设备基于获取到的振动信号和音频信号进行语音识别，得到文本信息。

1006、电子设备确定该文本信息对应的回答语句，输出该回答语句。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图11是本申请实施例提供的一种语音识别装置的框图。参见图11，该装置包括：信号获取模块1101，用于获取音频信号和振动信号，该振动信号为第一对象的发声部位的皮肤振动产生的信号，该音频信号的采集时间与该振动信号的采集时间之间的时间间隔在预设范围内；特征确定模块1102，用于分别确定该音频信号与该振动信号之间的关联特征、该音频信号的音频特征、以及该振动信号的振动特征；特征融合模块1103，用于对该关联特征、该音频特征和该振动特征进行融合，得到融合特征；语音识别模块1104，用于对该融合特征进行语音识别。

本申请实施例提供的语音识别装置，在针对第一对象进行语音识别时，除了获取音频信号之外，还获取振动信号，该振动信号为第一对象的发声部位的皮肤振动产生的信号，能够准确表示第一对象的发声情况，与第一对象发出的音频信号强相关，并且，不会受到噪声的干扰，对针对第一对象的语音识别具有重要的参考价值，因此进一步确定获取到的音频信号与该振动信号之间的关联特征，结合该关联特征、获取到的音频信号的特征和振动信号的特征，进行语音识别，即使在嘈杂的环境中，也能够降低噪声对语音识别的干扰，得到准确的第一对象的语音识别结果，提高了语音识别的准确性。

在一种可能的实现方式中，该特征确定模块1102，用于：按照相同的时间长度对该音频信号和该振动信号分别进行分帧，得到连续的多个音频信号帧和多个振动信号帧，其中，每个音频信号帧按照时间对应有一个振动信号帧；确定每个该音频信号帧与该音频信号帧对应的振动信号帧之间的关联子特征；确定该关联特征由多个该音频信号帧对应的关联子特征构成；确定该音频特征由多个该音频信号帧的音频子特征构成；确定该振动特征由多个该振动信号帧的振动子特征构成。

在一种可能的实现方式中，该特征融合模块1103，用于：对每个该音频信号帧的音频子特征、该音频信号帧对应的振动信号帧的振动子特征以及该音频信号帧与该振动信号帧之间的关联子特征进行融合，得到该音频信号帧对应的融合子特征；确定该融合特征由多个该音频信号帧对应的融合子特征构成。

在一种可能的实现方式中，该融合特征包括多个该音频信号帧对应的融合子特征，该语音识别模块1104，包括：特征更新单元，用于对每个该音频信号帧对应的融合子特征与该音频信号帧对应的多个其他融合子特征进行融合，得到该音频信号帧对应的更新后的融合子特征；语音识别单元，用于调用语音识别网络，对多个该音频信号帧对应的更新后的融合子特征进行语音识别，得到文本信息；其中，该多个其他融合子特征为位于该音频信号帧之前的第一数量的音频信号帧对应的融合子特征或位于该音频信号帧之后的第二数量的音频信号帧对应的融合子特征，或者该多个其他的融合子特征为取自该音频信号帧之前和之后的多个音频信号帧对应的融合子特征。

在一种可能的实现方式中，该装置还包括语音识别网络训练模块，该语音识别网络训练模块，用于：获取样本音频信号、样本音频信号对应的标注文本信息和样本振动信号，该样本音频信号的采集时间与该样本振动信号的采集时间之间的时间间隔在预设范围内，该样本振动信号为第二对象的发声部位的皮肤振动产生的信号；对该样本音频信号与该样本振动信号之间的样本关联特征、该样本音频信号的样本音频特征、以及该样本振动信号的样本振动特征进行融合，得到样本融合特征；调用该语音识别网络，对该样本融合特征进行语音识别，得到预测文本信息；基于该预测文本信息和该标注文本信息，训练该语音识别网络。

在一种可能的实现方式中，该语音识别网络包括声学模型和语言模型，该语音识别单元，用于：调用该声学模型，对多个该音频信号帧对应的更新后的融合子特征进行声学识别，得到多个该音频信号帧对应的声学单元；调用该语言模型，将多个该音频信号帧对应的声学单元转换为至少一个文本单元，将该至少一个文本单元构成该文本信息。

在一种可能的实现方式中，该装置还包括语音模型训练模块；该语言模型训练模块，用于：获取样本文本信息和该样本文本信息对应的多个声学单元；调用该语言模型，将多个该声学单元转换为至少一个文本单元，将该至少一个文本单元构成预测文本信息；基于该预测文本信息和该样本文本信息，训练该语言模型。

在一种可能的实现方式中，该特征确定模块1102，用于：确定该音频信号帧的第一频谱和该振动信号帧的第二频谱，该第一频谱包括多个频点对应的第一幅度，该第二频谱包括多个该频点对应的第二幅度；将每个该频点的第一幅度与该频点的第二幅度相乘，得到该音频信号帧与该振动信号帧在该频点上的关联度；将多个该频点对应的关联度构成该关联子特征。

需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语音识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本申请一个示例性实施例提供的电子设备1200的结构框图。该电子设备1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1201所执行以实现本申请中方法实施例提供的语音识别方法。

在一些实施例中，电子设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在电子设备1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在电子设备1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在电子设备1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备1200的前面板，后置摄像头设置在电子设备1200的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位电子设备1200的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1209用于为电子设备1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图12中示出的结构并不构成对电子设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，上述至少一条程序代码可由电子设备中的处理器执行以完成上述实施例中的语音识别方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact DiscRead-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序可由电子设备的处理器执行以完成上述实施例中的语音识别方法。

图13是本申请实施例提供的一种服务器的框图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，存储器1302中存储有至少一条程序代码，至少一条程序代码由处理器1301加载并执行以实现上述方法实施例提供的语音识别网络的训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取音频信号和振动信号，所述振动信号为第一对象的发声部位的皮肤振动产生的信号，所述音频信号的采集时间与所述振动信号的采集时间之间的时间间隔在预设范围内；

分别确定所述音频信号与所述振动信号之间的关联特征、所述音频信号的音频特征、以及所述振动信号的振动特征；

对所述关联特征、所述音频特征和所述振动特征进行融合，得到融合特征；

对所述融合特征进行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述分别确定所述音频信号与所述振动信号之间的关联特征、所述音频信号的音频特征、以及所述振动信号的振动特征，包括：

按照相同的时间长度对所述音频信号和所述振动信号分别进行分帧，得到连续的多个音频信号帧和多个振动信号帧，其中，每个音频信号帧按照时间对应有一个振动信号帧；

确定每个所述音频信号帧与所述音频信号帧对应的振动信号帧之间的关联子特征；

确定所述关联特征由多个所述音频信号帧对应的关联子特征构成；

确定所述音频特征由多个所述音频信号帧的音频子特征构成；

确定所述振动特征由多个所述振动信号帧的振动子特征构成。

3.根据权利要求2所述的方法，其特征在于，所述对所述关联特征、所述音频特征和所述振动特征进行融合，得到融合特征，包括：

对每个所述音频信号帧的音频子特征、所述音频信号帧对应的振动信号帧的振动子特征以及所述音频信号帧与所述振动信号帧之间的关联子特征进行融合，得到所述音频信号帧对应的融合子特征；

确定所述融合特征由多个所述音频信号帧对应的融合子特征构成。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述融合特征包括多个所述音频信号帧对应的融合子特征，所述对所述融合特征进行语音识别，包括：

对每个所述音频信号帧对应的融合子特征与所述音频信号帧对应的多个其他融合子特征进行融合，得到所述音频信号帧对应的更新后的融合子特征；

调用语音识别网络，对多个所述音频信号帧对应的更新后的融合子特征进行语音识别，得到文本信息；

其中，所述多个其他融合子特征为位于所述音频信号帧之前的第一数量的音频信号帧对应的融合子特征或位于所述音频信号帧之后的第二数量的音频信号帧对应的融合子特征，或者所述多个其他的融合子特征为取自所述音频信号帧之前和之后的多个音频信号帧对应的融合子特征。

5.根据权利要求4所述的方法，其特征在于，在获取音频信号和振动信号之前，还包括：训练所述语音识别网络；所述训练所述语音识别网络的步骤包括：

获取样本音频信号、所述样本音频信号对应的标注文本信息和样本振动信号，所述样本音频信号的采集时间与所述样本振动信号的采集时间之间的时间间隔在所述预设范围内，所述样本振动信号为第二对象的发声部位的皮肤振动产生的信号；

对所述样本音频信号与所述样本振动信号之间的样本关联特征、所述样本音频信号的样本音频特征、以及所述样本振动信号的样本振动特征进行融合，得到样本融合特征；

调用所述语音识别网络，对所述样本融合特征进行语音识别，得到预测文本信息；

基于所述预测文本信息和所述标注文本信息，训练所述语音识别网络。

6.根据权利要求4所述的方法，其特征在于，所述语音识别网络包括声学模型和语言模型，所述调用语音识别网络，对多个所述音频信号帧对应的更新后的融合子特征进行语音识别，得到文本信息，包括：

调用所述声学模型，对多个所述音频信号帧对应的更新后的融合子特征进行声学识别，得到多个所述音频信号帧对应的声学单元；

调用所述语言模型，将多个所述音频信号帧对应的声学单元转换为至少一个文本单元，将所述至少一个文本单元构成所述文本信息。

7.根据权利要求6所述的方法，其特征在于，在获取音频信号和振动信号之前，还包括：训练所述语言模型；所述训练所述语言模型的步骤包括：

获取样本文本信息和所述样本文本信息对应的多个声学单元；

调用所述语言模型，将多个所述声学单元转换为至少一个文本单元，将所述至少一个文本单元构成预测文本信息；

基于所述预测文本信息和所述样本文本信息，训练所述语言模型。

8.根据权利要求2所述的方法，其特征在于，所述确定每个所述音频信号帧与所述音频信号帧对应的振动信号帧之间的关联子特征，包括：

确定所述音频信号帧的第一频谱和所述振动信号帧的第二频谱，所述第一频谱包括多个频点对应的第一幅度，所述第二频谱包括多个所述频点对应的第二幅度；

将每个所述频点的第一幅度与所述频点的第二幅度相乘，得到所述音频信号帧与所述振动信号帧在所述频点上的关联度；

将多个所述频点对应的关联度构成所述关联子特征。

9.一种语音识别装置，其特征在于，所述装置包括：

信号获取模块，用于获取音频信号和振动信号，所述振动信号为第一对象的发声部位的皮肤振动产生的信号，所述音频信号的采集时间与所述振动信号的采集时间之间的时间间隔在预设范围内；

特征确定模块，用于分别确定所述音频信号与所述振动信号之间的关联特征、所述音频信号的音频特征、以及所述振动信号的振动特征；

特征融合模块，用于对所述关联特征、所述音频特征和所述振动特征进行融合，得到融合特征；

语音识别模块，用于对所述融合特征进行语音识别。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-8任一项所述的语音识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-8任一项所述的语音识别方法。