CN115862602A

CN115862602A - 一种语音识别方法、终端设备及存储介质

Info

Publication number: CN115862602A
Application number: CN202111110547.3A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-03-28

Abstract

本发明涉及一种语音识别方法、终端设备及存储介质，该方法中包括：S1：采集原始音频数据；S2：对原始音频数据进行转码和数据增强处理后，将三种音频合并组成训练集；S3：提取训练集中各音频的声学特征；S4：构建3‑gram语言模型并进行训练；S5：构建单音素声学模型，并基于单音素构建三音素声学模型，通过训练集中各音频的声学特征模型进行训练；S6：构建说话人识别模型；S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练；S8：通过发音词典、声学模型和语言模型共同构建语音识别模型；S9：通过语音识别模型进行语音识别。本发明增加信道的多样性，提升了系统的识别效果及鲁棒性。

Description

一种语音识别方法、终端设备及存储介质

技术领域

本发明语音识别领域，尤其涉及一种语音识别方法、终端设备及存储介质。

背景技术

低资源语种的语音识别一直以来都是语音识别领域的难点，现有的针对低资源语种的语音识别方法主要有两种：一种为利用相近语种的资源做预训练或者混合训练，然后迁移到目标语种后进行微调；另一种为对数据本身进行处理，增加数据数量和多样性，目前主要采用的为增加加性噪声和增加混响。现有的低资源语种的语音识别方法存在一定局限性：1.需要收集相近语种的数据进行预训练；2.数据多样性未考虑信道。

发明内容

为了解决上述问题，本发明提出了一种语音识别方法、终端设备及存储介质。

具体方案如下：

一种语音识别方法，包括以下步骤：

S1：采集待识别语种的原始音频数据，并对其进行说话人和文本的标注；

S2：对原始音频数据进行转码处理为转码音频，并对转码音频进行数据增强处理为数据增强音频后，将三种音频合并组成训练集；

S3：提取训练集中各音频的声学特征；

S4：构建3-gram语言模型，通过训练集中各音频对应的文本对3-gram语言模型进行训练；

S5：构建单音素声学模型，通过训练集中各音频的声学特征对单音素声学模型进行训练，并基于单音素声学模型的训练结果构建三音素声学模型，通过训练集中各音频的声学特征对三音素声学模型进行训练；

S6：构建说话人识别模型，通过训练集中各音频的声学特征和对应的说话人对说话人识别模型进行训练；

S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练；

S8：将发音词典、TDNN声学模型和3-gram语言模型共同构建为WFST图，并合并为HCLG图，将合并后的HCLG图作为语音识别模型；

S9：通过语音识别模型对待识别语种的音频进行语音识别。

进一步的，步骤S2中数据增强处理包括增加噪声和混响。

进一步的，步骤S2中还包括：根据训练集中的音频构建音频-路径列表、说话人-音频列表和音频-文本列表三种列表，用于模型训练时的数据提取。

进一步的，步骤S3中提取的声学特征为梅尔倒谱系数，并进行一阶和二阶差分。

进一步的，步骤S5中单音素声学模型和三音素声学模型均采用GMM-HMM模型。

进一步的，步骤S6中说话人识别模型采用I-Vector模型。

进一步的，步骤S8中发音词典的构建过程为：采用词作为建模单元构建音素集，根据词到音素和声调的映射构建发音词典。

一种语音识别终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，能够在增加数据数量的同时，增加信道的多样性，提升了系统的识别效果及鲁棒性。本发明无需事先存储数据增强后的音频，直接在特征提取阶段进行转码和数据增强操作，减少了对硬盘存储的要求。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种语音识别方法，如图1所示，所述方法包括以下步骤：

S1：采集待识别语种的原始音频数据，并对其进行说话人和文本的标注。

用于标注的文本为音频数据对应的真实文本。需要注意的是标注的文本为需进行分词。

原始音频数据的可以通过录音笔、麦克风、微信、电话录音、语音合成等多种信道进行采集，在此不做限定。

S2：对原始音频数据进行转码处理为转码音频，并对转码音频进行数据增强处理为数据增强音频后，将三种音频合并组成训练集。

由于不同音频可能采用了不同的编码格式，因此需要将其编码格式进行统一，转码后的编码格式可以为任意编码格式，在此不做限定。

该实施例中数据增强处理包括增加噪声和混响，在其他实施例中也可以采用其他的数据增强方式，在此不做限定。

为了区分三种音频，该实施例中设定三种音频的音频名对应的后缀类型不同，如原始音频无后缀，转码音频以信道名称作为后缀，数据增强音频以增加的噪声或混响的名称作为后缀。

为了更好的方便使用，该实施例中根据训练集中的音频构建音频-路径列表、说话人-音频列表和音频-文本列表三种列表，之后用于模型训练的数据集中的各数据根据上述三种列表提取。

S3：提取训练集中各音频的声学特征。

本实施例中，把训练集中的各音频数据的每一帧波形均变成一个包含声音信息的多维向量，对训练音频数据提取梅尔倒谱系数(MFCC)作为声学特征，并进行一阶和二阶差分。

S4：构建3-gram语言模型，通过训练集中各音频对应的文本对3-gram语言模型进行训练。

S5：构建单音素声学模型，通过训练集中各音频的声学特征对单音素声学模型进行训练并进行音素对齐后，基于单音素声学模型的训练结果构建三音素声学模型，通过训练集中各音频的声学特征对三音素声学模型进行训练并进行音素对齐。

该实施例中单音素声学模型和三音素声学模型均采用GMM-HMM模型。

S6：构建说话人识别模型，通过训练集中各音频的声学特征和对应的说话人对说话人识别模型进行训练。

该实施例中说话人识别模型采用I-Vector模型。

S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练。

增加说话人识别模型的识别结果可以去除说话人对语音识别的影响。

S8：将发音词典、训练后的TDNN声学模型和训练后的3-gram语言模型共同构建为WFST图，并合并为HCLG图，将合并后的HCLG图作为语音识别模型。

该实施例中发音词典的构建过程为：采用词作为建模单元构建音素集，根据词到音素和声调的映射构建发音词典。

将WFST图并为HCLG图时通过最小化、确定化等操作实现。

S9：通过语音识别模型对待识别语种的音频进行语音识别。

进行语音识别时，首先要提取待识别语种的音频的声学特征，之后将声学特征输入语音识别模型内，即可通过语音识别模型的输出得到语音识别结果。

本发明实施例能够在增加数据数量的同时，增加信道的多样性，提升了系统的识别效果及鲁棒性。本实施例无需事先存储数据增强后的音频，直接在特征提取阶段进行转码和数据增强操作，减少了对硬盘存储的要求。

实施例二：

本发明还提供一种语音识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述语音识别终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音识别终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述语音识别终端设备的组成结构仅仅是语音识别终端设备的示例，并不构成对语音识别终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述语音识别终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述语音识别终端设备的控制中心，利用各种接口和线路连接整个语音识别终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述语音识别终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述语音识别终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

S3：提取训练集中各音频的声学特征；

S9：通过语音识别模型对待识别语种的音频进行语音识别。

2.根据权利要求1所述的语音识别方法，其特征在于：步骤S2中数据增强处理包括增加噪声和混响。

3.根据权利要求1所述的语音识别方法，其特征在于：步骤S2中还包括：根据训练集中的音频构建音频-路径列表、说话人-音频列表和音频-文本列表三种列表，用于模型训练时的数据提取。

4.根据权利要求1所述的语音识别方法，其特征在于：步骤S3中提取的声学特征为梅尔倒谱系数，并进行一阶和二阶差分。

5.根据权利要求1所述的语音识别方法，其特征在于：步骤S5中单音素声学模型和三音素声学模型均采用GMM-HMM模型。

6.根据权利要求1所述的语音识别方法，其特征在于：步骤S6中说话人识别模型采用I-Vector模型。

7.根据权利要求1所述的语音识别方法，其特征在于：步骤S8中发音词典的构建过程为：采用词作为建模单元构建音素集，根据词到音素和声调的映射构建发音词典。

8.一种语音识别终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任一所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～7中任一所述方法的步骤。