CN117558269B

CN117558269B - 声音识别方法、装置、介质和电子设备

Info

Publication number: CN117558269B
Application number: CN202410040171.0A
Authority: CN
Inventors: 胡程远; 吴真飞; 魏祥成
Original assignee: Shenzhen Boluosi Technology Co ltd
Current assignee: Shenzhen Boluosi Technology Co ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-03-15
Anticipated expiration: 2044-01-11
Also published as: CN117558269A

Abstract

本申请涉及声音识别技术领域，特别是涉及一种声音识别方法、装置、介质和电子设备。该方法包括：获取预处理后的待识别声音；对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量；将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；根据上述声音类别遍历预设映射表，得到目标声音识别模型；将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。本申请对不同声音类别的待识别声音进行分类处理，每一声音类别均有对应的声音识别模型，由此，利用不同声音识别模型针对性处理不同口音的待识别声音，识别的结果的准确度更高。

Description

声音识别方法、装置、介质和电子设备

技术领域

本申请涉及声音识别技术领域，特别是涉及一种声音识别方法、装置、介质和电子设备。

背景技术

随着人工智能技术的不断发展，语音识别技术已成为日常生活中不可或缺的一部分。传统的声音识别控制方法主要基于模板匹配或动态时间规整（DTW）等技术，但这些方法在面对口音差异时，识别准确率较低。因此，如何提高声音识别的准确性，是当前语音识别领域亟待解决的问题。

发明内容

本申请要解决的技术问题为：如何提高声音识别的准确性。

针对上述技术问题，根据本申请的第一方面，提供了一种声音识别方法，包括

获取预处理后的待识别声音；

对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量；

将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；上述目标卷积神经网络模型是基于目标生成模型训练得到的；

根据上述声音类别遍历预设映射表，得到目标声音识别模型；

将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。

根据本申请的第二方面，提供了一种声音识别装置，该装置包括：

获取单元，被配置成获取预处理后的待识别声音；

提取单元，被配置成对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量；

输入单元，被配置成将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；上述目标卷积神经网络模型是基于目标生成模型训练得到的；

遍历单元，被配置成根据上述声音类别遍历预设映射表，得到目标声音识别模型；

输出单元，被配置成将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。

根据本申请的第三方面，提供一种非瞬时性计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述任意一项的声音识别方法。

根据本申请的第四方面，提供一种电子设备，包括处理器和上述的非瞬时性计算机可读存储介质。

本申请至少具有以下有益效果：

本申请提供的声音识别方法，首先，获取预处理后的待识别声音。其次，对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量。然后，将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；上述目标卷积神经网络模型是基于目标生成模型训练得到的。这里，基于目标生成模型对目标卷积神经网络进行训练，以此得到的目标卷积神经网络的精度更高。基于精度较高的目标卷积神经网络将获取的待识别声音进行分类，确定不同的声音类别。然后，根据上述声音类别遍历预设映射表，得到目标声音识别模型。这里，针对不同口音的待识别声音确定不同的目标声音识别模型。最后将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。本申请在将声音转换为文字之前首先获取声音的特征向量并基于其特征向量对声音进行分类，将不同声音类别的待识别声音输入不同的声音识别模型，即对不同声音类别的待识别声音进行分类处理，每一声音类别均有对应的声音识别模型，由此，利用不同声音识别模型针对性处理不同口音的待识别声音，识别的结果的准确度更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的声音识别方法的流程图；

图2为本申请一个实施例提供的声音识别方法装置的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请的一个实施例提供的一种声音识别方法，包括：

S100，获取预处理后的待识别声音。

在一些实施例中，步骤S200还包括：

S210，获取初始声音。

S220，对上述初始声音进行降噪和语音增强，得到待识别声音。

具体的，降噪即去除初始声音中的背景噪音，提高声音识别的准确性。而语音增强是为了进一步改善语音质量，提高语音的清晰度和可懂度。可以使用语音增强算法和技术，如基于规则的语音增强、基于深度学习的语音增强等。这些算法和技术可以帮助提取更纯净的语音信号，减少背景噪音和其他干扰因素的影响。

S200，对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量。

在一些实施例中，上述待识别特征向量包括：音高特征、音强特征、音质特征和频谱特征。这里，为了能够实现对待识别声音的精准分类，首先提取待识别声音对应的待识别特征向量，进一步，音高是指声音的频率，即音调的高低。不同口音的音高特征会有所不同，因此可以通过提取音高信息来区分不同口音；音强是指声音的响度，即声音的大小。不同口音的音强特征也会有所不同，因此也可以通过提取音强信息来进行分类；音质是指声音的质量，包括音色的差异、噪音等。不同口音的音质特征也可能有所不同，因此可以通过提取音质信息来进行分类；频谱特征是指声音的频谱分布，包括倒谱系数、梅尔频率倒谱系数等。这些特征能够反映不同口音在频谱方面的差异，因此也可以用于分类。

S300，将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别。其中，任两种声音类别对应的口音不同；上述目标卷积神经网络模型是基于目标生成模型训练得到的。

在一些实施例中，上述目标卷积神经网络模型是根据以下步骤训练得到的：

S310，获取初始卷积神经网络模型的若干关键训练样本；上述关键训练样本为样本长度超过预设长度阈值的训练样本。

具体的，获取若干长度较长的关键训练样本。

S320，根据若干关键训练样本，得到若干向量空间。

具体的，首先将若干关键训练样本转换为对应的标准文字字段。其次，根据每一向量空间对应的字节大小值，对每一标准文字字段进行拆分得到若干标准子文字字段；这里，每一向量空间对应一个字节大小值，字节大小值即划分后的标准子文字字段包括的字节数，这里，基于预设的数据库，确定每一标准字节。然后，获取每一标准子文字字段在预设训练样本集中出现的频率；最后，根据每一标准子文字字段和对应的频率，得到若干向量空间；每一向量空间对应一个字节大小值；上述字节大小值是根据目标生成模型确定的。这里，作为示例：目标生成模型可以为N-gram模型。字节大小值可以为N-gram模型的N值。

S330，根据若干向量空间，得到每一向量空间对应的若干目标训练样本；其中，每一向量空间对应的任两个目标训练样本的预设起始词不同。

具体的，根据若干向量空间，得到每一向量空间对应的若干目标训练样本；这里，对于同一关键训练样本，由于不同的向量空间对应的字节大小值不同，所以其在不同的向量空间内可以生成不同长度的训练样本。由此，根据同一个关键训练样本可以生成多个训练样本，对于不同口音对应的关键训练样本的数量实现了有效扩充，且不同的向量空间均对每一关键训练样本进行分割，得到不同长度的子标准字段。得到的目标训练样本的种类更丰富。

S340，根据若干目标训练样本对上述初始卷积神经网络模型进行训练，得到目标卷积神经网络模型。

具体的，根据上述目标训练样本对初始卷积神经网络训练时，需要将目标训练样本转换回语音形式，进而进行训练。

S400，根据上述声音类别遍历预设映射表，得到目标声音识别模型。

在一些实施例中，上述预设映射表包括每一声音类别及其对应的目标声音识别模型。根据预设映射表，可以确定对应的目标声音识别模型。

S500，将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。

在一些实施例中，目标声音识别模型可以是隐马尔可夫模型（HMM）、循环神经网络（RNN）、长短期记忆网络（LSTM）等，此处不做限定。

在本申请的一种示例性实施例中，上述方法还包括：

S600，基于预设的校准模型对上述待识别声音对应的文字进行校准，得到目标文字。

具体的，获取待识别声音对应的文字之后，为了提高易读性，可以对预设的校准模型对上述待识别声音对应的文字进行校准，得到目标文字。还可以及逆行去除重复的文字等处理。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

在本申请的一种示例性实施例中，还提供了一种声音识别装置100，如图2所示，该装置包括：

获取单元110，被配置成获取预处理后的待识别声音。

提取单元120，被配置成对上述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量。

输入单元130，被配置成将上述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；上述目标卷积神经网络模型是基于目标生成模型训练得到的。

遍历单元140，被配置成根据上述声音类别遍历预设映射表，得到目标声音识别模型。

输出单元150，被配置成将上述待识别声音输入至上述目标声音识别模型，输出待识别声音对应的文字。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同系统组件（包括储存器和处理器）的总线。

其中，上述储存器存储有程序代码，上述程序代码可以被上述处理器执行，使得上述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器（RAM）和/或高速缓存储存器，还可以进一步包括只读储存器（ROM）。

储存器还可以包括具有一组（至少一个）程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当上述程序产品在终端设备上运行时，上述程序代码用于使上述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声音识别方法，其特征在于，所述方法包括：

获取预处理后的待识别声音；

对所述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量；

将所述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；所述目标卷积神经网络模型是基于目标生成模型训练得到的；

根据所述声音类别遍历预设映射表，得到目标声音识别模型；

将所述待识别声音输入至所述目标声音识别模型，输出待识别声音对应的文字；

所述目标卷积神经网络模型是根据以下步骤训练得到的：

获取初始卷积神经网络模型的若干关键训练样本；所述关键训练样本为样本长度超过预设长度阈值的训练样本；

根据若干关键训练样本，得到若干向量空间；

根据若干向量空间，得到每一向量空间对应的若干目标训练样本；其中，每一向量空间对应的任两个目标训练样本的预设起始词不同；

根据若干目标训练样本对所述初始卷积神经网络模型进行训练，得到目标卷积神经网络模型；

所述根据若干关键训练样本，得到若干向量空间，包括：

将若干关键训练样本转换为对应的标准文字字段；

根据每一向量空间对应的字节大小值，对每一标准文字字段进行拆分得到若干标准子文字字段；

获取每一标准子文字字段在预设训练样本集中出现的频率；

根据每一标准子文字字段和对应的频率，得到若干向量空间；每一向量空间对应一个字节大小值；所述字节大小值是根据目标生成模型确定的。

2.根据权利要求1所述的声音识别方法，其特征在于，所述获取预处理后的待识别声音，包括：

获取初始声音；

对所述初始声音进行降噪和语音增强，得到待识别声音。

3.根据权利要求1所述的声音识别方法，其特征在于，所述待识别特征向量包括：音高特征、音强特征、音质特征和频谱特征。

4.根据权利要求1所述的声音识别方法，其特征在于，所述预设映射表包括每一声音类别及其对应的目标声音识别模型。

5.根据权利要求1所述的声音识别方法，其特征在于，在将所述待识别声音输入至所述目标声音识别模型，输出待识别声音对应的文字之后，所述方法还包括：

基于预设的校准模型对所述待识别声音对应的文字进行校准，得到目标文字。

6.一种声音识别装置，其特征在于，所述装置包括：

获取单元，被配置成获取预处理后的待识别声音；

提取单元，被配置成对所述待识别声音进行特征提取，得到待识别声音对应的待识别特征向量；

输入单元，被配置成将所述待识别特征向量输入目标卷积神经网络模型，得到对应的声音类别；其中，任两种声音类别对应的口音不同；所述目标卷积神经网络模型是基于目标生成模型训练得到的；

遍历单元，被配置成根据所述声音类别遍历预设映射表，得到目标声音识别模型；

输出单元，被配置成将所述待识别声音输入至所述目标声音识别模型，输出待识别声音对应的文字；

所述目标卷积神经网络模型是根据以下步骤训练得到的：

根据若干关键训练样本，得到若干向量空间；

所述根据若干关键训练样本，得到若干向量空间，包括：

将若干关键训练样本转换为对应的标准文字字段；

获取每一标准子文字字段在预设训练样本集中出现的频率；

7.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令，其特征在于，所述至少一条指令由处理器加载并执行以实现如权利要求1-5中任意一项的所述方法。

8.一种电子设备，其特征在于，包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。