CN111145725A

CN111145725A - 近音汉字的语音识别方法及装置

Info

Publication number: CN111145725A
Application number: CN201911245051.XA
Authority: CN
Inventors: 刘洋; 唐大闰
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-12

Abstract

本发明提供了一种近音汉字的语音识别方法及装置，该方法包括：收集多组声韵母相同但声调不同的近音汉字发音的语音数据；对语音数据进行标注和进行特征提取以形成特征文件；根据所述语音数据构建字典、音素声调表；基于所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。在本发明中，通过在语音识别引擎的训练数据中添加声调信息，从而提高了语音识别引擎对近音汉字的识别准确性。

Description

近音汉字的语音识别方法及装置

技术领域

本发明涉及语音识别领域，具体而言，涉及一种近音汉字的语音识别方法及装置。

背景技术

在对汉字的语音识别过程中，根据汉字的特性，有些近音字声韵母相同但声调不同，同一汉字在不同的声调下代表不同的意义，而且相同的读音可能代表完全不同的汉字。而现有针对近音汉字的语音识别模型，通常是由音素相同，发音不同的汉字生成的，所以无法选出最优的汉字，所以导致语音识别引擎对近音汉字的识别准确率很低。

发明内容

本发明实施例提供了一种近音汉字的语音识别方法及装置，以至少解决相关技术中语音识别引擎对近音汉字的识别准确率很低的问题。

根据本发明的一个实施例，提供了一种近音汉字的语音识别方法，包括：收集多组声韵母相同但声调不同的近音汉字发音的语音数据；对语音数据进行标注和进行特征提取以形成特征文件；根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成；根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表；根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

可选地，根据所述语音数据构建字典包括：将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

可选地，根据所述语音数据构建音素声调表包括：在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

可选地，基于训练的所述语音识别引擎进行语音识别之前，还包括：从所述语音数据中划分出测试数据；基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

根据本发明的另一个实施例，提供了一种近音汉字的语音识别装置，包括：收集模块，用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据；特征提取模块，用于对语音数据进行标注和进行特征提取以形成特征文件；字典构建模块，用于根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成；音素声调表构建模块，用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表；语音识别引擎构建模块，用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；语音识别模块，用于对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

可选地，所述字典构建模块包括：结合单元，用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

可选地，所述音素声调表构建模块包括：添加单元，用于在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

可选地，所述装置还包括：划分模块，用于从所述语音数据中划分出测试数据；测试模块，用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

在本发明的上述实施例中，通过在语音识别引擎的训练数据中添加声调信息，从而提高了语音识别引擎对近音汉字的识别准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的近音汉字的语音识别方法的流程图；

图2是根据本发明实施例的针对近音汉字的语音识别方法的流程图；

图3是根据本发明实施例的近音汉字的语音识别装置的结构框图；

图4是根据本发明可选实施例的近音汉字的语音识别装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本实施例中提供了一种近音汉字的语音识别方法，图1是根据本发明实施例的方法流程图，如图1所示，该流程包括如下步骤：

步骤S101，收集多组声韵母相同但声调不同的近音汉字发音的语音数据；

步骤S102，对语音数据进行标注和进行特征提取以形成特征文件；

步骤S103，根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成；

步骤S104，根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表；

步骤S105，根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；

步骤S106，对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

在本实施例的步骤S103中，可将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

在本实施例的步骤S104中，可在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

在本实施例中，在基于训练的所述语音识别引擎进行语音识别之前，还可以包括：从所述语音数据中划分出测试数据，并基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行详细描述。

为了提高语音识别引擎在近音字识别上的准确性，本实施例提供了一种针对近音汉字的语音识别方法。在本实施例中，通过在语音模型的训练数据中加入声调信息，从而提高近音字的语音识别率。

如图2所示，本实施例的语音识别方法主要包括如下步骤：

步骤S201：收集n组声韵母相同但声调不同的单个汉字发音的语音数据，每组数据有不同人的发音，将这些数据标记为A1,A2,…,An等。例如每组数据为ya1呀、ya2压、ya3牙、ya4雅、ya5亚、ya6鸭等形式。

步骤S202：从收集的语音数据中划分出测试数据。

步骤S203：对收集的语音数据进行标注，并对该语音文件进行特征提取，转换为特征文件。

步骤S204：基于该语音数据构建字典，字典由汉字和音素、声调组成，将声调与每个字的最后一个音素结合，生成含有音调的字典。

步骤S205：构建音素-声调表，在音素表的基础上加入声调信息，在每个元音后面加上声调，声母不变。

步骤S206：构建基于步骤S205产生的音素-声调的语音识别引擎，例如，隐马尔科夫模型，并进行迭代训练。该模型训练的过程可以采用语音识别中通用的模型训练方式。

步骤S207：基于训练好的语音识别引擎对步骤S202划分出的测试数据进行识别测试，验证加入声调后的语音识别引擎准确性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种近音汉字的语音识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的近音汉字的语音识别装置的结构框图，如图3所示，该装置包括收集模块10、特征提取模块20、字典构建模块30、音素声调表构建模块40、语音识别引擎构建模块50和语音识别模块60。

收集模块10，用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据。

特征提取模块20，用于对语音数据进行标注和进行特征提取以形成特征文件。

字典构建模块30，用于根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成。

音素声调表构建模块40，用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表。

语音识别引擎构建模块50，用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎。

语音识别模块60，用于对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

图4是根据本发明可选实施例的近音汉字的语音识别装置的结构框图，如图4所示，该装置除包括图3所示的所有模块外，所述装置还包括划分模块70和测试模块80。

划分模块70用于从所述语音数据中划分出测试数据。

测试模块80，用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

在本实施例中，字典构建模块30还可以包括结合单元31，该结合单元31用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

在本实施例中，音素声调表构建模块40还可以包括添加单元41，该添加单元41用于在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种近音汉字的语音识别方法，其特征在于，包括：

收集多组声韵母相同但声调不同的近音汉字发音的语音数据；

对语音数据进行标注和进行特征提取以形成特征文件；

根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成；

根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表；

根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；

对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

2.根据权利要求1所述的方法，其特征在于，根据所述语音数据构建字典包括：

将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

3.根据权利要求1所述的方法，其特征在于，根据所述语音数据构建音素声调表包括：

在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

4.根据权利要求1所述的方法，其特征在于，基于训练的所述语音识别引擎进行语音识别之前，还包括：

从所述语音数据中划分出测试数据；

基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

5.一种近音汉字的语音识别装置，其特征在于，包括：

收集模块，用于收集多组声韵母相同但声调不同的近音汉字发音的语音数据；

特征提取模块，用于对语音数据进行标注和进行特征提取以形成特征文件；

字典构建模块，用于根据所述语音数据构建字典，所述字典由所述语音数据中的汉字和所述汉字的音素、声调组成；

音素声调表构建模块，用于根据所述语音数据在音素表的基础上加入声调信息以构建音素声调表；

语音识别引擎构建模块，用于根据所述特征文件、所述字典以及所述音素声调表构建语音识别引擎；

语音识别模块，用于对所述语音识别引擎进行迭代训练，并基于训练的所述语音识别引擎进行语音识别。

6.根据权利要求5所述的装置，其特征在于，所述字典构建模块包括：

结合单元，用于将所述语音数据中每个汉字的声调与该汉字的最后一个音素结合，生成含有音调的所述字典。

7.根据权利要求5所述的装置，其特征在于，所述音素声调表构建模块包括：

添加单元，用于在所述语音数据中每个汉字的元音后面添加对应的声调，而声母保持不变。

8.根据权利要求1所述的装置，其特征在于，还包括：

划分模块，用于从所述语音数据中划分出测试数据；

测试模块，用于基于训练的所述语音识别引擎对所述测试数据进行语音识别测试，以验证所述语音识别引擎语音识别的准确性。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。