CN114898736A

CN114898736A - 语音信号识别方法、装置、电子设备和存储介质

Info

Publication number: CN114898736A
Application number: CN202210334101.7A
Authority: CN
Inventors: 梁玉权; 王全东; 吴俊楠; 郭理勇; 孔玉祥
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-08-12

Abstract

本申请提出一种语音信号识别方法、装置、电子设备和存储介质，其中，方法包括：获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列，对第一音素序列进行识别得到语音内容，实现了基于多个通道的第一语音信号的全局信息进行识别，以得到语音内容，实现了信号较小的失真度和较高的纯净度，提高了语音内容的质量。

Description

语音信号识别方法、装置、电子设备和存储介质

技术领域

本申请涉及技术领域，尤其涉及一种语音信号识别方法、装置、电子设备和存储介质。

背景技术

实际场景中，在进行语音交互识别的场景下，获取到的语音信号可以为多通道的语音信号，例如包含扬声器通道的语音信号，阵列麦克风中多个麦克风通道的语音信号，而相关技术中，在对语音进行识别时，是基于单通道的语音信号进行处理的，这种处理方式识别得到的语音内容的质量较差。

发明内容

本申请提出一种语音信号识别方法、装置、电子设备和存储介质，以实现提高语音内容识别的效果。

本申请一方面实施例提出了一种语音信号识别方法，包括：

获取多个通道的第一语音信号；其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号；

将所述多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列；

对所述第一音素序列进行识别得到语音内容。

本申请另一方面方面实施例提出了一种语音信号识别装置，包括：

获取模块，用于获取多个通道的第一语音信号；其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号；

处理模块，用于将所述多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列；

识别模块，用于对所述第一音素序列进行识别得到语音内容。

本申请另一方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现如前述一方面所述的方法。

本申请提出的语音信号识别方法、装置、电子设备和存储介质，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列，对第一音素序列进行识别得到语音内容，实现了基于多个通道的第一语音信号的全局信息进行识别，以得到语音内容，实现了信号较小的失真度和较高的纯净度，提高了语音内容的质量。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种语音信号识别方法的流程示意图；

图2为本申请实施例提供的另一种语音信号识别方法的流程示意图；

图3为本申请实施例提供的一种语音内容识别的示意图；

图4为本申请实施例提供的另一种语音信号识别方法的流程示意图；

图5为本申请实施例提供的第一声学模型的结构示意图；

图6为本申请实施例提供的另一种语音信号识别方法的流程示意图；

图7为本申请实施例提供的另一种语音信号识别方法的流程示意图；

图8为本申请实施例提供的一种语音信号增强的结构示意图；

图9为本申请实施例提供的另一种语音信号识别方法的流程示意图；

图10为本申请实施例提供的一种语音信号识别装置的结构示意图；

图11为本申请实施例提供的一种电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的语音信号识别方法、装置、电子设备和存储介质。

图1为本申请实施例所提供的一种语音信号识别方法的流程示意图。

本申请实施例的语音信号识别方法的执行主体为语音信号识别装置，该装置可设置于电子设备中，或者为电子设备，电子设备为智能音箱、智能电视、智能机顶盒、智能手机、可穿戴设备等，本实施例中对电子设备的具体形式不进行限定。

如图1所示，该方法可以包括以下步骤：

步骤101，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号。

本申请实施例中，多个通道的第一语音信号可以是设置在电子设备中的传麦克风阵列和扬声器的通道的语音信号。在家居环境或车载环境下，由2个或以上的麦克风组成的麦克风阵列会接收到发声设备自身发出的声音，例如，扬声器播放的音乐，还会接收到用户的语音以及环境的噪音和回声。因此，多个通道的第一语音信号包含多个麦克风通道的语音信号、发声设备播放的语音信号的原始信号、混响信号和环境噪音信号，其中，麦克风阵列包含多个麦克风，每一个麦克风对应一个通道的第一语音信号。

其中，各个通道的第一语音信号，为设定时长内采集的原始语音信号，原始语音信号可以是根据声源发声的间隔，采集的任意一个设定时长内的原始语音信号。也就是说各个通道的第一语音信号未经前端信号的分帧处理，即对各个通道的第一语音信号进行识别时并不是针对各帧语音信号的局部信号分别进行处理的，而是基于完整的语音信号进行处理的，信号未进行割裂，保留了信号的全部信息，信号的失真度较低，提高了后续语音识别的效果。

步骤102，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列。

其中，第一声学模型是基于ASR架构的声学模型，非端到端多通道ASR声学模型可以基于kaldi的chain-tdnn实现。

本申请实施例中，第一声学模型是基于多通道的语音信号训练得到的，训练得到的第一声学模型已经学习到了输入的多个通道的第一语音信号和对应的第一音素序列间的关系，而由于第一声学模型在训练时也是基于多通道的语音信号训练得到的，也就是说第一声学模型在训练过程中也学习到了多个通道的语音信号的全局语义信息，学习到的多个通道的语音信号对应的音素序列的准确性也较高。

需要说明的是，各个通道的第一语音信号时长相同，在输入第一声学模型进行识别时，得到的第一音素序列包含各个通道的第一语音信号的各个帧对应的音素，实现了多通道的第一语音信号的各帧和对应的因素的强制对齐，因此，第一音素序列是帧级别的音素的组合，例如，多个通道为3个通道，分别为通道1、通道2和通道3，每个通道对应3帧，则通道1、通道2和通道3中的第一帧均对应音素w，而通道1、通道2和通道3中的第二帧均对应音素w，而通道1、通道2和通道3中的第三帧均对应音素o(声调3)，从而得到的音素序列为w wo。

步骤103，对第一音素序列进行识别得到语音内容。

从而，对第一音素序列进行识别，可以得到对应的语音内容，例如，步骤102中的音素序列w w o，则可以识别是语音“我”的发音，即语音内容为我。作为一种实现方式，可将第一音素序列输入训练得到的语言模型，以识别得到对应的语言内容，例如，语音内容为文本数据。

本申请实施例的语音信号识别方法中，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列，对第一音素序列进行识别得到语音内容，实现了基于多个通道的第一语音信号的全局信息进行识别，以得到语音内容，实现了信号较小的失真度和较高的纯净度，提高了语音内容的质量。

基于上述实施例，图2为本申请实施例提供的另一种语音信号识别方法的流程示意图，如图2所示，该方法包含以下步骤：

步骤201，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号。

步骤202，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列。

其中，步骤201和步骤202可参照前述实施例中的解释说明，原理相同，本实施例中不再赘述。

步骤203，对第一音素序列中连续的多个同一音素进行合并，得到第二音素序列。

本申请实施例中，第一音素序列是帧级别的音素序列，第一音素序列包含了多个通道的第一语音信号的各帧强制对齐的各个音素，由于多帧可能对应同一个音素，因此，第一音素序列中存在多个同一音素连续重复出现的情况，因此，为了识别的效率和准确度，可将第一音素序列中连续的多个同一音素进行合并，得到第二音素序列。

作为一种实现方式，根据第一音素序列中顺序排列的多个音素，确定至少一个音素组，各个音素组中包含相邻的多个同一音素，将各个音素组中的同一音素合并，得到第二音素序列。例如，第一音素序列为“wwww oo zzz ouououou l eee”，进行音素去重后得到的第二音素序列为“w o(3)z ou(3)l e(1)”其中，括号中的数字为声调。

步骤204，对第二音素序列进行识别得到语音内容。

进而，对去重后的第二音素序列进行识别，可以提高语音内容识别的效率和准确度。作为一种实现方式，可将第二音素序列输入训练得到的语言模型，以识别得到对应的语言内容，例如，语音内容为文本数据。

如图3所示，图3中示出了一种语音内容识别的示意图，通过训练得到的第一声学模型，对多个通道的第一语音信号进行识别得到对应的第二音素序列，进而将得到的第二音素序列输入语言模型进行识别得到对应的语音内容。

本申请实施例的语音信号识别方法中，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列，实现了基于多个通道的第一语音信号的全局信息进行识别，得到对应的音素序列，实现了信号较小的失真度和较高的纯净度，提高了音素序列的准确性，进而，对第一音素序列中的重复音素进行去重后再识别得到语音内容，提高了语音内容的识别效率和识别质量。

上述实施例中运用了训练得到的第一声学模型，基于上述实施例，图4为本申请实施例提供的另一种语音信号识别方法的流程示意图，具体说明了第一声学模型的训练方法，如图4所示，该方法包含以下步骤：

步骤401，获取第一训练样本集。

其中，第一训练样本集中的各个第一训练样本包含多个通道的第二语音信号，各个通道的第二语音信号为设定时长内同步采集的原始样本语音信号，各个第一训练样本标注了对应的第三音素序列，而第三音素序列可以是人工确定的各个通道的第二语音信号对应的音素序列，也可以是基于其它模型识别得到的，后续实施例中会详细介绍。

其中，前述实施例中对各个通道的第一语音信号的说明，也适用于各通道的第二语音信号，原理相同，本实施例中不再赘述。

需要说明的是，多个通道的第一语音信号和多个通道的第二语音信号仅用于区分，第一训练样本中也可以包含多个通道的第一语音信号。

如图5所示，以一个第一训练样本为例，多个通道的第二语音信号包含声源通道的第二语音信号和各个录音通道的第二语音信号，以及标注的第三音素序列，其中，Ch0即为声源通道的第二语音信号，其中，声源通道例如为扬声器通道，Ch1、Ch2······ChN分别为各个录音通道的第二语音信号，录音通道，例如为麦克风通道。

步骤402，针对各个第一训练样本，将第一训练样本输入第一声学模型，得到第一训练样本对应的第四音素序列。

步骤403，根据第四音素序列和标注的第三音素序列之间的差异，调整第一声学模型的参数。

本申请实施例中，针对每一个第一训练样本，将相应的第一训练样本输入第一声学模型，可以得到识别得到的该第一训练样本对应的第四音素序列，其中，第四音素序列仅为标识不同的音素序列。进而，根据识别得到的第四音素序列和标注的第三音素序列之间的差异，确定对应的损失函数，根据损失函数，调整第一声学模型的参数，通过训练样本集中的多个训练样本不断的调整第一声学模型的参数，直至识别得到的第四音素序列和标注的第三音素序列之间的差异最小，则模型训练完毕。

如图5所示，通过第一声学模型的训练网络，对第一声学模型的多通道进行训练，得到训练完成的第二声学模型。

本申请实施例的语音信号识别方法中，利用多个通道的第二语音信号作为训练样本对第一声学模型进行训练，实现了基于未进行分帧信号处理的多个通道的原始的第二语音信号作为训练样本对第一声学模型进行训练，由于未对信号进行割裂，采用了语音信号的全局信息，提高了第一声学模型的训练效果。

基于上述实施例，图6为本申请实施例提供的另一种语音信号识别方法的流程示意图，如图6所示，具体说明了第一声学模型的训练样本的标注信息是如何确定，以提高训练样本的生成效率，步骤401之前，方法包含以下步骤：

步骤501，获取多组多个通道的第二语音信号。

其中，每一组多个通道的第二语音信号，用于生成第一训练样本。

步骤502，针对各组多个通道的第二语音信号，根据多个通道的第二语音信号进行语音信号处理，得到增强的单通道的第一目标语音信号。

作为一种实现方式，针对各组多个通道的第二语音信号，通过波束成形得到单通道第二语音信号，进而对对单通道第二语音信号，通过后置滤波器进行语音增强，并转化至时域中得到增强的单通道的第一目标语音信号。

步骤503，将单通道的第一目标语音信号输入训练得到的第二声学模型，得到对应的第三音素序列。

其中，第二声学模型，例如，为混合高斯隐马尔科夫模型GMM-HMM。

第二声学模型已经通过训练学习到了增强的单通道的第一目标语音信号和对应的第三音素序列间的对应关系，其中，第二声学模型的训练方法，后续实施例中会详细介绍，此次不再赘述。

步骤504，根据多组多个通道的第二语音信号和对应的第三音素序列，生成第一训练样本集。

本申请实施例中，通过训练得到的第二声学模型，对各个多个通道的第二语音信号进行识别，可以得到多个通道的第二语音信号对应的第三音素序列，并将第三音素序列作为对应的多个通道的第二语音信号的标注信息，即标准的音素序列，相较于人工标注的方式，提高了标注的效率。

本申请实施例的语音信号识别方法中，通过训练得到的第二声学模型，对各个多个通道的第二语音信号进行识别，得到多个通道的第二语音信号的标注信息，即标准的音素序列，相较于人工标注的方式，提高了标注的效率。

基于上述实施例，图7为本申请实施例提供的另一种语音信号识别方法的流程示意图，如图7所示，具体说明了如何对多个通道的语音信号进行处理，得到增强的单通道的第一目标语音信号，步骤502包含以下步骤：

步骤601，根据声源通道的第二语音信号，对各个录音通道的第二语音信号进行回声消除，得到回声消除的各个录音通道的第二语音信号。

作为一种示例，图8为本申请实施例提供的一种语音信号增强的结构示意图。如图8 所示，Ch0‘即为声源通道的第二语音信号，Ch1‘、Ch2‘······ChN‘分别为各个录音通道的第二语音信号。

本申请实施例中，多个录音通道的第一语音信号中包含声学回声的干扰信号，其中，声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的，因此，需要对多个录音通道的第一语音信号进行回声消除。作为一种实现方式，确定声源通道的第二语音信号进行传递的声学传递函数，根据声学传递函数对声源通道的第二语音信号进行回声估计，得到估计的回声信号，根据各个录音通道的第二语音信号和回声信号，得到回声消除的各个录音通道的第二语音信号。具体来说，估计发声设备至录音设备，如扬声器到麦克风的包括了反射路径的声学传输函数，进而可构造回声消除的维纳霍夫方程，采用求逆的方式求解声学传递函数。进而，通过估计的声学传递函数过滤传入的声源通道的第二语音信号，得到估计的回声信号。然后从各个录音通道的第二语音信号中减去这个估计的回声信号得到去除回声的各个录音通道的第二语音信号，通过回声消除提高了多个录音通道的第二语音信号的准确性。

需要说明的是，在对多个通道的第二语音信号进行回声消除时，针对各个通道的第二语音信号，并没有进行语音信号的分帧处理，即本申请中并不是基于语音信号处理得到的每一帧语音信号进行处理，也就是说本申请中在对各个通道的第二语音信号进行处理时，是采用的设定时长内采集的原始语音信号，以利用该通道的第二语音信号的全局信息，相对比分帧处理的流式信号处理方法采用语音帧局部信息的方式，全局信息中携带了各帧的完整的上下文信息，可提高语音信号识别的效果。

步骤602，根据回声消除的多个录音通道的第二语音信号进行波束成形，得到单通道第二语音信号。

本申请实施例中，通过调整相位阵列的基本单元参数，使得某些角度的信号获得相长干涉，而另一些角度的信号获得相消干涉。通过各个录音通道的第二语音信号生成波束图，确定波束图中波束主瓣或波束峰值指向的方位，即角度，确定各个录音通道的第二语音信号中信号响应最大的第二语音信号，表示该录音通道的第二语音信号对应方位波束输出功率为1，即该方向到达信号功率估计值为1，进而，进而，采用自适应波束成形方法，即最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)，确定各个录音通道的第二语音信号对应的权重，对各个录音通道第二语音信号加权求和、滤波，最终输出期望方向的语音信号，相当于形成一个“波束”，即将回声消除的多个录音通道的第二语音信号进行波束成形，得到单通道的第二语音信号。本申请中通过对多个录音通道的第二语音信号进行加权合并处理，实现抑制非目标方向的干扰信号，以增强波束形成后得到的单通道第二语音信号。

步骤603，对单通道第二语音信号，通过后置滤波器进行语音增强。

本申请实施例中，单通道第二语音信号中，还包含未被完全抑制的非目标方向的干扰信号，导致单通道第二语音信号中，仍然存在噪声或干扰声的残留，因此，需要再次进行滤波处理。通过设置后置维纳滤波器的滤波参数，以对单通道第二语音信号进行语音增强，获取更为纯净的增强的单通道第二语音信号。

步骤604，将增强的单通道第二语音信号进行傅里叶逆变换，得到单通道的第一目标语音信号。

本申请中，通过将增强的单通道第二语音信号进行傅里叶逆变化，将单通道语音信号从频域转化至时域，以便于后续的数据处理。

本申请实施例的语音信号识别方法中，获取待处理的多个通道的第二语音信号，通过回声消除，得到回声消除的多个录音通道的第二语音信号，根据回声消除的多个录音通道的第二语音信号，进行波束成形，得到单通道第二语音信号，对单通道第二语音信号进行信号增强得到增强的单通道第二语音信号，其中，各个通道的第二语音信号未经分帧处理，实现了基于多个录音通道的语音信号的全局信息得到单通道的目标第一语音信号，实现了信号较小的失真度和较高的纯净度，提高了目标第一语音信号的质量。

上述实施例中运用了训练得到的第二声学模型，对第一声学模型训练过程中采用的第一训练样本识别标注的第三音素序列，以提高标注的效率。基于上述实施例，图9为本申请实施例提供的另一种语音信号识别方法的流程示意图，具体说明了第二声学模型的训练方法，如图9所示，该方法包含以下步骤：

步骤801，获取第二训练样本集。

其中，第二训练样本集中包含多个第二训练样本，各个第二训练样本包含增强的单通道第二目标语音信号和对应的标准音素序列，增强的单通道第二目标语音信号是对多个通道的第三语音信号进行语音信号处理得到的，其中，各个通道的第三语音信号为设定时长内同步采集的原始语音信号。

作为一种示例，标准音素序列，可以是人工根据对应的标准文本，采用设定的发音词典映射得到的，例如，标准文本为：龙珠之地球人最强，采用设定的发音词典映射得到的音素序列为：long2 zh u1 zh ix1 d i4 q iu2 r en2 z ui4 q iang2，其中的数字代表的是发音的声调，例如，2是拼音中的第二声调，4是拼音中的第4声调；又例如，标准文本为：龙珠之强者争霸，采用设定的发音词典映射得到的音素序列为：l ong2 zh u1 zh ix1 qiang2 zh e3 zh eng1 b a4。

需要说明的是，前述实施例中，关于增强的单通道的第一目标语音信号的解释说明，也适用于本实施例的增强的单通道的第二目标语音信号，原理相同，本实施例中不再赘述。

步骤802，针对各个第二训练样本，将第二训练样本输入第二声学模型，预测得到第二训练样本对应的第五音素序列。

本申请实施例中，第二声学模型，例如，为混合高斯隐马尔科夫模型GMM-HMM，该模型的训练样本是采用的增强的单通道的第二目标语音信号，通过训练可以获取到准确度更高的音素序列，进而将准确度更好的音素序列作为第一声学模型的训练样本的标注信息去训练第一声学模型，可以提高第一声学模型训练的效率和效果，同时，训练得到的第一声学模型可以直接对多个通道的语音信号进行直接识别，不再需要进行语音信号处理，提高了识别的效率。

其中，第五音素序列也是帧级别的音素序列，指示了每一帧对应的音素。可参照前述实施例中，关于第一音素序列的解释说明，原理类似，此处不再赘述。

步骤803，根据第五音素序列的准确性，调整第二声学模型的参数。

本申请实施例中，针对各个第二训练样本，第二识别模型在对多个通道的第三语音信号中的各帧进行音素强制对齐时，可以根据标注的第五音素序列，确定各种要对应的音素是哪些，已经各个音素的排列顺序，从而确定多个通道的第三语音信号对应的第五音素序列，进而，作为一种实现方式，可识别第五音素序列的准确性，并根据准确度，调整第二声学模型的参数，在准确性满足设定要求时，模型参数调整完成，第二声学模型训练完毕。作为另一种实现方式，也可以按照设定的模型迭代次数，根据第五音素序列的准确性，调整第二声学模型的参数，直至达到迭代次数，第二声学模型训练完毕。

其中，对多个通道的第三语音信号进行分帧处理时，可以按照25ms时间窗和10ms帧移来进行分帧处理，其中，本申请实施例中出现的其它多个通道的语音信号也可以按照对应的时间窗和帧移处理，以实现分帧。

需要理解的是，第二声学模型在训练过程中，根据标注的标注音素序列，可确定出现的音素，以及出现音素的先后顺序，但由于未知每个音素出现的起始帧，以及每个音素连续出现了多少帧，从而不知道每一帧的音素标签，根据标注的标注音素序列，是利用了部分先验知识，属于不完全的无监督训练。

本申请实施例的声学模型的训练方法中，作为训练样本的增强的单通道第二目标语音信号，是采用原始未进行分帧处理的多个通道的第三目标语音信号，也就是说是基于全局信息处理得到的加强的语音信号，用于训练第二声学模型，提高了模型的训练效果，从而得到质量较高的音素序列。

为了实现上述实施例，本申请实施例还提出一种语音信号识别装置。

图10为本申请实施例提供的一种语音信号识别装置的结构示意图。

如图10所示，该装置包括：

获取模块91，用于获取多个通道的第一语音信号；其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号。

处理模块92，用于将所述多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列。

识别模块93，用于对所述第一音素序列进行识别得到语音内容。

进一步，在本申请实施例的一种实现方式中，识别模块93，具体用于：

对所述第一音素序列中连续的多个同一音素进行合并，得到第二音素序列；对所述第二音素序列进行识别得到语音内容。

在本申请实施例的一种实现方式中，识别模块93，具体用于：

根据所述第一音素序列中顺序排列的多个音素，确定至少一个音素组；所述音素组中包含相邻的多个同一音素；将各个所述音素组中的同一音素合并，得到所述第二音素序列。

在本申请实施例的一种实现方式中，该方法还包含第一训练模块，所述第一声学模型通过以下方式得到：

第一训练模块，用于获取第一训练样本集；所述第一训练样本集中的各个第一训练样本包含多个通道的第二语音信号，各个通道的第二语音信号为设定时长内同步采集的原始样本语音信号；各个所述第一训练样本标注了对应的第三音素序列；针对各个所述第一训练样本，将所述第一训练样本输入所述第一声学模型，得到所述第一训练样本对应的第四音素序列；根据所述第四音素序列和标注的所述第三音素序列之间的差异，调整所述第一声学模型的参数。

在本申请实施例的一种实现方式中，该方法还包含：

增强模块，用于获取多组所述多个通道的第二语音信号；针对各组所述多个通道的第二语音信号，根据所述多个通道的第二语音信号进行语音信号处理，得到增强的单通道的第一目标语音信号；

生成模块，用于将所述单通道的第一目标语音信号输入训练得到的第二声学模型，得到对应的第三音素序列；根据多组所述多个通道的第二语音信号和对应的第三音素序列，生成所述第一训练样本集。

作为一种实现方式，多个通道的第二语音信号是从声源通道和多个录音通道采样得到的，增强模块，具体用于：

根据所述声源通道的第二语音信号，对所述各个录音通道的第二语音信号进行回声消除，得到回声消除的各个录音通道的第二语音信号；

根据所述回声消除的多个录音通道的第二语音信号进行波束成形，得到单通道第二语音信号；

对所述单通道第二语音信号，通过后置滤波器进行语音增强；

将所述增强的单通道第二语音信号进行傅里叶逆变换，得到所述单通道的第一目标语音信号。

作为一种实现方式，增强模块，具体还用于：

确定所述声源通道的第二语音信号进行传递的声学传递函数；

根据所述声学传递函数对所述声源通道的第二语音信号进行回声估计，得到估计的回声信号；

根据各个所述录音通道的第二语音信号和所述回声信号，得到回声消除的各个录音通道的第二语音信号。

作为一种实现方式，该装置还包括：第二训练模块，所述第二声学模型通过以下方式得到：

第二训练模块，用于获取第二训练样本集；其中，所述第二训练样本集中包含多个第二训练样本，各个所述第二训练样本包含增强的单通道第二目标语音信号和对应的标准音素序列；所述增强的单通道第二目标语音信号是对多个通道的第三语音信号进行语音信号处理得到的，其中，各个通道的第三语音信号为设定时长内同步采集的原始语音信号；针对各个所述第二训练样本，将所述第二训练样本输入所述第二声学模型，预测得到所述第二训练样本对应的第五音素序列；根据所述第五音素序列的准确性，调整所述第二声学模型的参数。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

本申请实施例的语音信号识别装置中，获取多个通道的第一语音信号，其中，各个通道的第一语音信号为设定时长内同步采集的原始语音信号，将多个通道的第一语音信号输入训练得到的第一声学模型，得到对应的第一音素序列，对第一音素序列进行识别得到语音内容，实现了基于多个通道的第一语音信号的全局信息进行识别，以得到语音内容，实现了信号较小的失真度和较高的纯净度，提高了语音内容的质量。

为了实现上述实施例，本申请还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的方法。

图11为本申请实施例提供的一种电子设备的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，电子设备800可以包括以下一个或多个组件：处理组件818，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件 814，以及通信组件816。

处理组件818通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件818可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件818可以包括一个或多个模块，便于处理组件818和其他组件之间的交互。例如，处理组件818可以包括多媒体模块，以方便多媒体组件808和处理组件818之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风 (MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件818和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800 或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音信号识别方法，其特征在于，包括：

对所述第一音素序列进行识别得到语音内容。

2.如权利要求1所述的方法，其特征在于，对所述第一音素序列进行识别得到语音内容，包括：

对所述第一音素序列中连续的多个同一音素进行合并，得到第二音素序列；

对所述第二音素序列进行识别得到语音内容。

3.如权利要求2所述的方法，其特征在于，所述对第一音素序列中连续的多个同一音素进行合并，得到第二音素序列，包括：

根据所述第一音素序列中顺序排列的多个音素，确定至少一个音素组；所述音素组中包含相邻的多个同一音素；

将各个所述音素组中的同一音素合并，得到所述第二音素序列。

4.如权利要求1所述的方法，其特征在于，所述第一声学模型通过以下方式得到：

获取第一训练样本集；所述第一训练样本集中的各个第一训练样本包含多个通道的第二语音信号，各个通道的第二语音信号为设定时长内同步采集的原始样本语音信号；各个所述第一训练样本标注了对应的第三音素序列；

针对各个所述第一训练样本，将所述第一训练样本输入所述第一声学模型，得到所述第一训练样本对应的第四音素序列；

根据所述第四音素序列和标注的所述第三音素序列之间的差异，调整所述第一声学模型的参数。

5.如权利要求4所述的方法，其特征在于，所述获取第一训练样本集之前，包括：

获取多组所述多个通道的第二语音信号；

针对各组所述多个通道的第二语音信号，根据所述多个通道的第二语音信号进行语音信号处理，得到增强的单通道的第一目标语音信号；

将所述单通道的第一目标语音信号输入训练得到的第二声学模型，得到对应的第三音素序列；

根据多组所述多个通道的第二语音信号和对应的第三音素序列，生成所述第一训练样本集。

6.如权利要求5所述的方法，其特征在于，所述多个通道的第二语音信号是从声源通道和多个录音通道采样得到的，所述根据所述多个通道的第二语音信号进行语音信号处理，得到增强的单通道的第一目标语音信号，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述声源通道的第二语音信号，对所述各个录音通道的第二语音信号进行回声消除，得到回声消除的各个录音通道的第二语音信号，包括：

8.如权利要求5所述的方法，其特征在于，所述第二声学模型通过以下方式得到：

获取第二训练样本集；其中，所述第二训练样本集中包含多个第二训练样本，各个所述第二训练样本包含增强的单通道第二目标语音信号和对应的标准音素序列；所述增强的单通道第二目标语音信号是对多个通道的第三语音信号进行语音信号处理得到的，其中，各个通道的第三语音信号为设定时长内同步采集的原始语音信号；

针对各个所述第二训练样本，将所述第二训练样本输入所述第二声学模型，预测得到所述第二训练样本对应的第五音素序列；

根据所述第五音素序列的准确性，调整所述第二声学模型的参数。

9.一种语音信号识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。