CN116631419A

CN116631419A - 语音信号的处理方法、装置、电子设备和存储介质

Info

Publication number: CN116631419A
Application number: CN202310621422.XA
Authority: CN
Inventors: 周岭松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-22

Abstract

本申请提出一种语音信号的处理方法、装置、电子设备和存储介质，其中，方法包括：获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据，根据第一子帧语音数据和/或至少一个历史子帧语音数据预测得到第一子帧语音数据后的第二子帧语音数据，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据，根据第一帧语音数据和第二帧语音数据得到第一子帧语音数据中的目标人声信号，实现了不需要延迟设定时长以等待获取第二子帧语音数据，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

Description

语音信号的处理方法、装置、电子设备和存储介质

技术领域

本申请涉及信号处理技术领域，尤其涉及一种语音信号的处理方法、装置、电子设备和存储介质。

背景技术

目前已经有具有通透模式(环境声技术)的耳机出现，当用户佩戴耳机时，切换到通透模式，可以像没有戴耳机一样的感知外界声音，并且能听清楚其中的人声部分，实现与对方的清晰对话。然而，环境中通常有噪声，我们期望交谈时能听到更多的人声和更少的噪声，因而升级出了人声增强功能。

相关技术中，在进行人声增强的过程中，语音信号需要分帧处理，在对帧进行处理时信号的获取存在一定的延时，导致实际环境中传入耳朵的声音和延迟播放出来的声音在人耳内叠加，存在混响感，降低了人声信号的质量。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请提出一种语音信号的处理方法、装置、电子设备和存储介质，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

本申请一方面实施例提出了一种语音信号的处理方法，包括：

获取当前环境的第一子帧语音数据和所述第一子帧语音数据之前的至少一个历史子帧语音数据；

根据所述第一子帧语音数据和/或所述至少一个历史子帧语音数据进行预测，得到所述第一子帧语音数据之后的第二子帧语音数据；将所述第一子帧语音数据和所述第二子帧语音数据拼接，得到第一帧语音数据，以及将所述至少一个历史子帧语音数据中的目标历史子帧语音数据与所述第一子帧语音数据拼接，得到第二帧语音数据；

根据所述第一帧语音数据和所述第二帧语音数据进行人声信号提取，得到所述第一子帧语音数据中的目标人声信号。

本申请另一方面方面实施例提出了一种语音信号的处理装置，包括：

获取模块，用于获取当前环境的第一子帧语音数据和所述第一子帧语音数据之前的至少一个历史子帧语音数据；

预测模块，用于根据所述第一子帧语音数据和/或所述至少一个历史子帧语音数据进行预测，得到所述第一子帧语音数据之后的第二子帧语音数据；

拼接模块，用于将所述第一子帧语音数据和所述第二子帧语音数据拼接，得到第一帧语音数据，以及将所述至少一个历史子帧语音数据中的目标历史子帧语音数据与所述第一子帧语音数据拼接，得到第二帧语音数据；

确定模块，用于根据所述第一帧语音数据和所述第二帧语音数据进行人声信号提取，得到所述第一子帧语音数据中的目标人声信号。

本申请另一方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现如前述一方面所述的方法。

本申请提出的语音信号的处理方法、装置、电子设备和存储介质，获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据，根据第一子帧语音数据和/或至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，以及将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据，根据第一帧语音数据和第二帧语音数据进行人声信号提取，得到第一子帧语音数据中的目标人声信号，通过预测得到当前采集的环境的第一子帧语音数据之后的第二子帧语音数据，不需要延迟设定时长以等待获取第二子帧语音数据，即可确定当前第一子帧语音数据中的目标人声信号，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为相关技术中语音信号处理的示意图；

图2为本申请实施例所提供的一种语音信号的处理方法的流程示意图；

图3为本申请实施例提供的另一种语音信号的处理方法的流程示意图；

图4为本申请实施例提供的一种语音信号处理的示意图；

图5为本申请实施例提供的一种语音信号的处理装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的语音信号的处理方法、装置、电子设备和存储介质。

相关技术中，在耳机处于通透模式时，通过耳机的前馈麦克风采集环境中的语音(声音)信号，对语音信号进行分帧处理，而为了避免块效应引起的声音失真，通常相邻的帧与帧之间进行重叠相加，以获取处理后待播放的语音信号。作为一种示例，图1为相关技术中语音信号处理的示意图，以语音帧间50％重叠相加为例进行说明，如图1所示，当前麦克风采到的半帧信号，即现半帧与相邻的前半帧的信号合成一帧信号，以对一帧语音信号进行处理，由于是50％的重叠相加，处理后只能输出半帧信号，且信号内容对应前半帧，也就是说当前处理后输出的是前半帧的信号内容。而当前输入的现半帧信号的内容，需要与采集到的下一个半帧信号叠加后，才可以输出到扬声器上播放，因此，会引入半帧的时延，即采集下一个半帧信号的时间，导致被动传进用户耳朵的声音和耳机通过扬声器延迟播放出来的声音在人耳内叠加，存在一种混响感，降低了自然听感。为解决这个问题，本申请提出了一种语音信号的处理方法，通过预测得到当前采集的环境的第一子帧语音数据之后的第二子帧语音数据，不需要延迟设定时长以等待获取第二子帧语音数据，即可确定当前第一子帧语音数据中的目标人声信号，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

图2为本申请实施例所提供的一种语音信号的处理方法的流程示意图。

本申请实施例的语音信号的处理方法的执行主体为语音信号的处理装置，该装置可设置于耳机中。

如图2所示，该方法可以包括以下步骤：

步骤201，获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据。

其中，第一子帧语音数据，为一帧语音数据中的部分语音数据，也就是说第一子帧语音数据包含的采样点个数为一帧语音数据中的采样点个数的第一占比，其中，第一占比为25％，50％等等，作为一种示例，第一占比为50％，即第一子帧语音数据为半帧的语音数据，例如，一帧语音数据包含的采样点个数为1024个采样点，则第一子帧语音数据包含的采样点个数为512个采样点。

需要说明的是，相关技术中，语音信号要进行分帧处理，为了避免块效应引起的声音失真，通常分帧处理得到的相邻帧与帧之间存在重叠，例如，相邻帧之间的重叠为50％。

作为一种实现方式，当前环境的第一子帧语音数据，可以是通过耳机的麦克风采集的，例如，通过耳机的前馈麦克风采集的。

其中，第一子帧语音数据之前的历史语音数据，即至少一个历史子帧语音数据，是历史存储的语音数据。其中，历史子帧语音数据，是一帧语音数据中的部分语音数据，也就是说历史子帧语音数据的帧长与第一子帧语音数据的帧长的和等于一帧语音数据的帧长，或者历史子帧语音数据的帧长和第一子帧语音数据的帧长相等。例如，历史子帧语音数据为2个，为与第一子帧语音数据相邻的历史子帧语音数据A，以及与历史子帧语音数据A相邻的历史子帧语音数据B，一帧语音数据包括1024个采样点的数据，即一帧语音数据的帧长视为1024个采样点，其中，第一子帧语音数据包括512个采样点的数据，即帧长视为512个采样点，相邻的历史子帧语音数据A包括512个采样点的数据，即帧长视为512个采样点，而历史子帧语音数据B包括512个采样点的数据，即帧长视为512个采样点。或者，其中，第一子帧语音数据包括256个采样点的数据，即帧长视为256个采样点，相邻的历史子帧语音数据A包括768个采样点的数据，即帧长视为768个采样点，历史子帧语音数据B包括256个采样点的数据，即帧长视为256个采样点。对于其它例子，本实施例中不一一列举。

作为一种示例，第一子帧语音数据为半帧语音数据，则历史语音数据则包含N个半帧，例如，N为3，则历史语音数据和第一子帧语音数据可组成2帧语音数据。

步骤202，根据第一子帧语音数据和/或至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据。

本申请实施例的第一种实现方式中，根据第一子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据。

本申请实施例的第二种实现方式中，根据至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据。

本申请实施例的第三种实现方式中，根据第一子帧语音数据和至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据。

其中，第二子帧语音数据的帧长和第一子帧语音数据的帧长等于一帧语音数据的帧长。也就是说，第二语音数据包含的采样点个数为一帧语音数据中的采样点个数的第二占比，第一占比和第二占比的和为1。

作为一种示例，一帧语音数据包括1024个采样点的数据，即一帧语音数据的帧长视为1024个采样点，其中，第一子帧语音数据包括512个采样点的数据，即为半帧数据，即帧长视为512个采样点，预测得到的第二子帧语音数据包括512个采样点的数据，即为半帧数据，即帧长视为512个采样点；若第一子帧语音数据包括256个采样点的数据，即为四分之一帧数据，即帧长视为256个采样点，预测得到的第二子帧语音数据包括768个采样点的数据，即为半帧数据，即帧长视为768个采样点。

步骤203，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，以及将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据。

本申请实施例中，第二子帧语音数据的帧长和第一子帧语音数据的帧长等于一帧语音数据的帧长，即将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据。目标历史子帧语音数据，是指帧长和第一子帧语音数据的帧长之和等于一帧语音数据的帧长的历史子帧语音数据，作为一种实现方式，目标历史子帧语音数据为与第一子帧语音数据相邻的之前的一个历史子帧语音数据，从而，将目标历史子帧语音数据和第一子帧语音数据拼接，得到第二帧语音数据。

步骤204，根据第一帧语音数据和第二帧语音数据进行人声信号提取，得到第一子帧语音数据中的目标人声信号。

本申请实施例中，第一帧语音数据和第二帧语音数据中均包含第一子帧语音数据，因此，第一子帧语音数据视为相邻两帧之间的重叠部分，分别针对第一帧语音数据和第二帧语音数据采用人声增强算法，得到第一帧语音数据中的人声信号和第二帧语音数据中的人声信号，根据第一帧语音数据中的人声信号和第二帧语音数据中的人声信号，得到增强的第一子帧语音数据中的目标人声信号。

本申请实施例中的语音信号的处理方法中，获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据，根据第一子帧语音数据和/或至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，以及将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据，根据第一帧语音数据和第二帧语音数据进行人声信号提取，得到第一子帧语音数据中的目标人声信号，通过预测得到当前采集的环境的第一子帧语音数据之后的第二子帧语音数据，不需要延迟设定时长以等待获取第二子帧语音数据，即可确定当前第一子帧语音数据中的目标人声信号，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

基于上述实施例，图3为本申请实施例提供的另一种语音信号的处理方法的流程示意图，如图3所示，该方法包含以下步骤：

步骤301，获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据。

具体可参照前述实施例中的解释说明，原理相同，此处不再赘述。

步骤302，根据第一子帧语音数据和/或至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据。

本申请实施例中，根据第一子帧语音数据和至少一个历史子帧语音数据，生成至少一帧语音数据，作为一种实现方式中，获取至少一个历史子帧语音数据中和第一子帧语音数据相邻的目标历史子帧语音数据，以及目标历史子帧语音数据之前的历史子帧语音数据，将第一子帧语音数据和目标历史子帧语音数据拼接得到一帧语音数据，并将目标历史子帧之前的多个历史子帧语音数据进行相邻的子帧拼接，得到至少一帧语音数据，其中，目标历史子帧语音数据的帧长和第一子帧语音数据的帧长之和等于一帧语音数据的帧长。进而，根据至少一帧语音数据，预测得到第二子帧语音信号。实现了基于已有的多帧语音数据，预测未来的第二子帧语音数据，实现了提前获取得到第二子帧语音数据，而不需要延时设定时长才能获取到采集的第二子帧语音数据，避免了延时的产生，及时生成当前待播放的语音信号，使得被动声和播放声音对齐，优化延迟。

其中，第二子帧语音信号的预测方法，作为一种实现方式，将至少一帧语音数据，输入训练得到的语音预测模型，得到语音预测模型预测得到的第二子帧语音信号，其中，语音预测模型例如为长短时记忆网络(Long Short Term Memory Network，LSTM)模型或循环神经网络(Recurrent Neural Network，RNN)模型，实现利用现有的多帧数据来预测未来的第二子帧语音数据，提高了预测效率和准确性。其中，语音预测模型是基于训练样本训练得到的，训练样本为一子帧语音数据，并携带了标注的下一子帧语音数据，基于预测得到的下一子帧语音数据和标注的下一子帧语音数据间的差异对语音预测模型进行训练，得到训练得到的语音预测模型。

作为一种示例，以各子帧语音数据为半帧为例进行说明，即相邻帧间的重叠为半帧。如图4所示，其中，第一子帧语音数据为当前采集的半帧语音数据，称为当前半帧，历史语音数据包含N个历史半帧语音数据，分别称为历史半帧1，历史半帧2，……以及历史半帧N，通过第一子帧语音数据和多个历史半帧语音数据预测未来的半帧，即第一子帧语音数据之后的第二子帧语音数据，第二子帧语音数据，实现了基于多帧预测未来的半帧，提高了预测的准确性。

步骤303，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，以及将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据。

如图4所示，将当前半帧和未来半帧的语音数据拼接，得到第一帧语音数据，以及根据历史半帧1和当前半帧的语音数据拼接，得到第二帧语音数据，进而基于第一帧语音数据和第二帧语音数据进行信号处理，可得到当前半帧的语音数据，即当前半帧对应的目标人声信号。

步骤304，分别对第一帧语音数据和第二帧语音数据进行傅里叶变换转换至频域，得到第一频域语音帧和第二频域语音帧。

本申请实施例中，需要将时域的第一帧语音数据和第二帧语音数据通过窗函数处理后，再进行傅里叶变换转换至频域，得到第一频域语音帧和第二频域语音帧，以在频域进行信号处理。其中，窗函数例如为矩形窗、汉宁窗、平顶窗、指数窗等。

步骤305，对第一频域语音帧进行维纳滤波处理，得到第一频域人声信号，以及对第二频域语音帧进行维纳滤波处理，得到第二频域人声信号。

本申请实施例的一种实现方式中，获取第一频域语音帧对应的维纳滤波器的滤波系数，通过滤波系数对第一频域语音帧进行滤波，即滤除人声信号以外的信号得到第一频域语音帧中的第一频域人声信号。同理，获取第二频域语音帧对应的维纳滤波器的滤波系数，通过第二频域语音帧对应的维纳滤波器的滤波系数对第二频域语音帧进行滤波，即滤除人声信号以外的信号得到第二频域语音帧中的第二频域人声信号。

其中，各频域语音帧(本申请中第一频域语音帧或第二频域语音帧)对应的维纳滤波器的滤波系数的确定方法，以第一频域语音帧为例进行说明，作为一种实现方式，可确定第一频域语音帧对应的功率谱，并对第一频域语音帧进行噪声估计，得到第一频域语音帧中噪声信号对应的功率谱，根据第一频域语音帧对应的功率谱和第一频域语音帧中噪声信号对应的功率谱，确定第一频域语音帧对应的后验信噪比，根据后验信噪比和第一频域语音帧的前一频域语音帧中噪声信号对应的功率谱，确定第一频域语音帧对应的先验信噪比估计值，根据先验信噪比估计值，生成第一频域语音帧对应的维纳滤波器的滤波系数。

步骤306，对第一频域人声信号和第二频域人声信号分别进行傅里叶逆变换转换至时域，得到第一时域人声信号和第二时域人声信号。

步骤307，从第一时域人声信号和第二时域人声信号中确定属于第一子帧语音数据中的人声信号，得到目标人声信号。

作为一种实现方式，将频域信号转换至时域的情况下，由于在时域，第一时域人声信号和第二时域人声信号为时间的序列，即按照采样时间的先后排列的数据，也就是说在第一时域人声信号中包含携带了时间信息的各个采样点，因此，可基于各个采样点的时间信息确定第一时域人声信号中属于第一子帧语音数据中的第一人声信号，以及第二时域人声信号中属于第一子帧语音数据中的第二人声信号，将第一人声信号和第二人声信号叠加，得到目标人声信号，作为一种实现方式，将第一人声信号和第二人声信号通过合成窗函数进行叠加，得到第一子帧语音数据中的目标人声信号。

例如，历史子帧语音数据是“1”，当前的第一子帧语音数据是“2”，相关技术中输出的是“1”，而本申请则输出的语音数据是“2”，也就是说本申请中输出的语音数据和实际采集的语音数据是对应的，不存在延时，避免了不同数据的混乱感，提高了语音数据输出的质量。

步骤308，采用设定的扬声器对目标人声信号进行播放。

本申请实施例中，通过扬声器对当前获取的第一子帧语音信号中的目标人声信号进行播放，被动传进人耳的声音和扬声器播放的声音无延迟重合，使得被动声和播放声音对齐，优化延迟，可以听到自然、清晰的人声信号，提供更自然地人声听感。

进一进，本申请实施例的一种实现方式中，根据预设的通透滤波器对第一帧语音数据和第二帧语音数据分别进行滤波处理，得到第一帧语音数据中和第一子帧语音数据对应的第一环境语音数据，以及第二帧语音数据中和第二子帧语音数据对应的第二环境语音数据，将第一环境语音数据和第二环境语音数据叠加，可选地，可通过合成窗函数进行合成，得到得到第一子帧语音数据中的目标环境语音数据。进而，采用设定的扬声器对目标人声信号和目标环境语音数据进行同步播放，使得通透后环境语音中的人声部分被增强，同时可获取环境中除人声信号以外的其它声音信号，而其它声音信号并没有增强，只增强了人声的信号，使得人声信号更加清晰。

本申请实施例的语音数据处理方法中，可利用现有的多帧数据来预测未来半帧数据，未来半帧数据与当前半帧数据合并帧处理，使得被动声和播放声音对齐，优化延迟。

为了实现上述实施例，本申请实施例还提出一种语音信号的处理装置。

图5为本申请实施例提供的一种语音信号的处理装置的结构示意图。

如图5所示，该装置可以包括：

获取模块51，用于获取当前环境的第一子帧语音数据和所述第一子帧语音数据之前的至少一个历史子帧语音数据；

预测模块52，用于根据所述第一子帧语音数据和/或所述至少一个历史子帧语音数据进行预测，得到所述第一子帧语音数据之后的第二子帧语音数据；

拼接模块53，用于将所述第一子帧语音数据和所述第二子帧语音数据拼接，得到第一帧语音数据，以及将所述至少一个历史子帧语音数据中的目标历史子帧语音数据与所述第一子帧语音数据拼接，得到第二帧语音数据；

确定模块54，用于根据所述第一帧语音数据和所述第二帧语音数据进行人声信号提取，得到所述第一子帧语音数据中的目标人声信号。

进一步，在本申请实施例的一种实现方式中，确定模块54，具体用于：

分别对所述第一帧语音数据和所述第二帧语音数据进行傅里叶变换转换至频域，得到第一频域语音帧和第二频域语音帧；

对所述第一频域语音帧进行维纳滤波处理，得到第一频域人声信号，以及对所述第二频域语音帧进行维纳滤波处理，得到第二频域人声信号；

对所述第一频域人声信号和所述第二频域人声信号分别进行傅里叶逆变换转换至时域，得到第一时域人声信号和第二时域人声信号；

从所述第一时域人声信号和所述第二时域人声信号中确定属于所述第一子帧语音数据中的人声信号，得到所述目标人声信号。

在本申请实施例的一种实现方式中，确定模块54，具体用于：

获取所述第一频域语音帧对应的维纳滤波器的滤波系数；

通过所述滤波系数对所述第一频域语音帧进行滤波，得到所述第一频域语音帧中的第一频域人声信号。

确定所述第一时域人声信号中属于所述第一子帧语音数据中的第一人声信号，以及所述第二时域人声信号中属于所述第一子帧语音数据中的第二人声信号；

将所述第一人声信号和所述第二人声信号叠加，得到所述目标人声信号。

在本申请实施例的一种实现方式中，预测模块54，具体用于：

根据所述第一子帧语音数据和所述至少一个历史子帧语音数据，生成至少一帧语音数据；根据所述至少一帧语音数据，预测得到所述第二子帧语音信号。

将所述至少一帧语音数据，输入训练得到的语音预测模型，得到所述语音预测模型预测得到的所述第二子帧语音信号。

在本申请实施例的一种实现方式中，该装置还包括：

采用设定的扬声器对所述目标人声信号进行播放。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

本申请实施例中的语音信号的处理装置中，获取当前环境的第一子帧语音数据和第一子帧语音数据之前的至少一个历史子帧语音数据，根据第一子帧语音数据和/或至少一个历史子帧语音数据进行预测，得到第一子帧语音数据之后的第二子帧语音数据，将第一子帧语音数据和第二子帧语音数据拼接，得到第一帧语音数据，以及将至少一个历史子帧语音数据中的目标历史子帧语音数据与第一子帧语音数据拼接，得到第二帧语音数据，根据第一帧语音数据和第二帧语音数据进行人声信号提取，得到第一子帧语音数据中的目标人声信号，通过预测得到当前采集的环境的第一子帧语音数据之后的第二子帧语音数据，不需要延迟设定时长以等待获取第二子帧语音数据，即可确定当前第一子帧语音数据中的目标人声信号，避免了对帧间重叠数据处理引入的时延，减少了混响感，提高了语音质量。

为了实现上述实施例，本申请还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的方法。

图6为本申请实施例提供的一种电子设备的结构示意图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音信号的处理方法，其特征在于，包括：

根据所述第一子帧语音数据和/或所述至少一个历史子帧语音数据进行预测，得到所述第一子帧语音数据之后的第二子帧语音数据；

将所述第一子帧语音数据和所述第二子帧语音数据拼接，得到第一帧语音数据，以及将所述至少一个历史子帧语音数据中的目标历史子帧语音数据与所述第一子帧语音数据拼接，得到第二帧语音数据；

2.如权利要求1所述的方法，其特征在于，所述根据所述第一帧语音数据和所述第二帧语音数据进行人声信号提取，得到所述第一子帧语音数据中的目标人声信号，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述第一频域语音帧进行维纳滤波处理，得到第一频域人声信号，包括：

获取所述第一频域语音帧对应的维纳滤波器的滤波系数；

4.如权利要求2所述的方法，其特征在于，所述从所述第一时域人声信号和所述第二时域人声信号中确定属于所述第一子帧语音数据中的人声信号，得到所述目标人声信号，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述第一子帧语音数据和/或所述至少一个历史子帧语音数据进行预测，得到所述第一子帧语音数据之后的第二子帧语音数据，包括：

根据所述第一子帧语音数据和所述至少一个历史子帧语音数据，生成至少一帧语音数据；

根据所述至少一帧语音数据，预测得到所述第二子帧语音信号。

6.如权利要求5所述的方法，其特征在于，所述根据所述至少一帧语音数据，预测得到所述第二子帧语音信号，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据所述第一帧语音数据和所述第二帧语音数据进行人声信号提取，得到所述第一子帧语音数据中的目标人声信号之后，还包括：

采用设定的扬声器对所述目标人声信号进行播放。

8.一种语音信号的处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。