CN115810343A

CN115810343A - 语音的识别方法、装置、电子设备和存储介质

Info

Publication number: CN115810343A
Application number: CN202111083156.7A
Authority: CN
Inventors: 魏文琦; 林倩倩; 高强; 蒋栋蔚
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-03-17

Abstract

本公开公开了一种语音的识别方法、装置、电子设备和存储介质，尤其涉及人工智能技术领域。其中，具体实现方案为：获取待识别的语音对应的频谱图；根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征；根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；根据所述频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；对所述频谱特征进行识别，以确定所述语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

Description

语音的识别方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及深度学习、语音技术等人工智能技术领域，尤其涉及一种语音的识别方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的蓬勃发展，人工智能领域也得到了迅速发展，语音识别技术的应用也越来越广泛。相关技术中，通常使用语音识别模型进行语音识别，模型的准确性依赖于训练数据的规模以及训练数据中语音数据涵盖的发音类型的数量等。比如说，训练数据的规模足够大，但训练数据均为成人的语音数据，则使用经该训练数据训练得到的模型，对童声进行识别时，识别的准确性就较低。由此，如何提高语音识别的准确性，成为当前亟待解决的问题。

发明内容

本公开提供了一种语音的识别方法、装置、电子设备和存储介质。

本公开一方面，提供了一种语音的识别方法，包括：

获取待识别的语音对应的频谱图；

根据所述频谱图中每个特征点的特征值，确定所述频谱图中中每个特征点对应的全局特征；

根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；

根据所述频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；

对所述频谱特征进行识别，以确定所述语音对应的识别结果。

本公开的另一方面，提供了一种语音识别模型，包括：依次相连的N个语音特征提取模块以及语音识别模块，其中，N为大于1的正整数；

每个所述语音特征提取模块中包括卷积网络、全局注意力网络以及频域注意力网络；

所述卷积网络，用于对获取的语音特征进行卷积处理，以获取新的语音特征；

所述全局注意力网络，用于对所述新的语音特征进行处理，以输出所述新的语音特征的全局特征；

所述频域注意力网络，用于对所述新的语音特征进行处理，以确定所述新的语音特征中每个频段的频域特征；

所述语音识别模块，用于对第N个语音特征提取模块输出的全局特征及频域特征进行识别，以输出识别结果。

本公开的另一方面，提供了一种语音的识别装置，包括：

获取模块，用于获取待识别的语音对应的频谱图；

第一确定模块，用于根据所述频谱图中每个特征点的特征值，确定所述频谱图中中每个特征点对应的全局特征；

第二确定模块，用于根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；

第三确定模块，用于根据频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；

识别模块，用于对所述频谱特征进行识别，以确定所述语音对应的识别结果。

本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的语音的识别方法。

本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音的识别方法。

本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述一方面实施例所述的语音的识别方法。

本公开提供的语音的识别方法、装置、电子设备和存储介质，可以先获取待识别的语音对应的频谱图，之后根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征，再根据每个特征点的特征值、关联矩阵以及每个频段的频域特征，确定待识别的频谱特征，之后对频谱特征进行识别，以确定待识别的语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例提供的一种语音的识别方法的流程示意图；

图2为本公开另一实施例提供的一种语音的识别方法的流程示意图；

图3为本公开又一实施例提供的一种语音的识别方法的流程示意图；

图4为本公开一实施例提供的一种语音识别模型的结构示意图；

图4A为本公开一实施例提供的一种语音识别模型的结构示意图；

图5为本公开另一实施例提供的一种语音的识别装置的结构示意图；

图6为用来实现本公开实施例的语音的识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。

深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

下面参考附图描述本公开实施例的语音的识别方法、装置、电子设备和存储介质。

本公开实施例的语音的识别方法，可由本公开实施例提供的语音的识别装置执行，该装置可配置于电子设备中。

图1为本公开实施例提供的一种语音的识别方法的流程示意图。

如图1所示，该语音的识别方法，可以包括以下步骤：

步骤101，获取待识别的语音对应的频谱图。

其中，待识别的语音，可以为任意类型的语音，比如可以为儿童语音、女性语音等等，本公开对此不做限定。

可选的，可以在获取待识别的语音后，通过对其进行处理，以获取该待识别的语音对应的频谱图。比如，可以进行傅里叶变换处理，或者也可以借助其他工具等进行处理，以获取对应的频谱图等等，本公开对此不做限定。

可以理解的是，频谱图的横坐标可以为时间维度，纵坐标可以为频率维度，本公开对此不做限定。

步骤102、根据频谱图中每个特征点的特征值，确定频谱图中每个特征点对应的全局特征。

其中，频谱图中每个特征点对应的特征值，可能相同，或者也可能不同，本公开对此不做限定。

可以理解的是，频谱图中特征点对应的全局特征，可以表征该特征点在频谱图中的权重。

可选的，可以先确定出频谱图中每两个特征点间的关系，之后根据每两个特征点间的关系，确定给出每两个特征点间的关联度，之后可以将每个特征点对应的多个关联度进行融合，以确定频谱图中每个特征点对应的全局特征。

比如，频谱图中共有4个特征点，对于特征点1，其对应的关联度有：特征点2与特征点1间的关联度：a₂₁、特征点3与特征点1间的关联度：a₃₁、特征点4与特征点1间的关联度：a₄₁。之后，可以将a₂₁、a₃₁和a₄₁进行融合，以确定频谱图中特征点1对应的全局特征。本公开对此不做限定。

可选的，也可以根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，之后根据关联矩阵及每个特征点的特征值，确定全局特征。

可以理解的是，可以根据频谱图中每两个特征点间的关系，确定出每两个特征点间的关联度，进而根据每两个特征点间的关联度，确定出频谱图中各个特征点之间的关联矩阵。

比如说，频谱图的大小为2*2，其中共有4个特征点，各个特征点的特征值分别为：

通过分析频谱图中各个特征点与特征点1关系，可以确定出特征点1与自身的关联度为a₂₁、特征点2与特征点1间的关联度：a₂₁、特征点3与特征点1间的关联度：a₃₁、特征点4与特征点1间的关联度：a₄₁。之后，分别确定出每个特征点与特征点2间的关联度：a₁₂、a₂₂、a₃₂、a₄₂；每个特征点与特征点3间的关联度：a₁₃、a₂₃、a₃₃、a₄₃；每个特征点与特征点4间的关联度：a₁₄、a₂₄、a₃₄、a₄₄。之后可以根据上述各个关联度，确定该频谱图中各个特征点间的关联矩阵可以为：

之后，可以将频谱图中各个特征点间的关联矩阵与每个特征点的特征值进行融合，确定全局特征：

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中频谱图的大小、特征点的数量、各个特征点的特征值以及确定特征点间的关联矩阵的方式等的限定。

步骤103、根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征。

其中，可以有多种方式确定频段。比如，可以提前设定好频段的数量以及各个频段对应的频率范围；或者，也可以提前设定好频段的数量，之后根据频谱图中每个特征点对应的频率值，确定出每个频段分别对应的频率范围等等，本公开对此不做限定。

可以理解的是，频谱图中可以包含多个频段的频谱，若某一频段对应的频域特征较弱，则该频段在识别过程中会很容易被忽略，即在语音识别过程中可能会丢失该频段的特征信息，从而可能导致识别结果不够准确。从而，本公开实施例中，为了提高识别结果的准确性，可以将频谱图分频段进行特征提取，以尽量将较弱频段的频域特征进行增强，以使频谱图中每个频段都可以占据一定的比重，从而可以避免遗漏较弱频段对应的特征信息，从而使得特征信息更为完整和全面，进而提高识别结果的准确性。

另外，确定频谱图中每个频段的频域特征的方式有多种。

比如，可以先将每个频段对应的所有特征点的特征值相加，得到每个频段对应的特征均值。之后对于特征均值较小的频段，可以为其赋予相对较大的权重，以得到该频段的频域特征；对于特征均值较大的频段，可以为其赋予相对较小的权重，以得到该频段的频域特征。由此，可以使得频谱图中特征均值较弱的频段的权重增加，即较弱频段的特征均值得到了增强，从而在后续处理过程中，该频段的特征信息不会丢失或遗漏。从而提高了特征信息的完整性和全面性，进而提高了识别结果的准确性。

步骤104、根据频谱图对应的全局特征以及每个频段的频域特征，确定待识别的频谱特征。

其中，可以将频谱图对应的全局特征与每个特征点所属的频段的频域特征进行融合，从而确定出待识别的频谱特征等等，本公开对此不做限定。

比如，可以将频谱图中每个特征点对应的全局特征与该特征点所属的频段的频域特征相乘，确定待识别的频谱特征；或者也可以将频谱图中每个特征点对应的全局特征与该特征点所属的频段的频域特征进行加权融合，确定待识别的频谱特征。本公开对此不做限定。

可以理解的是，本公开实施例中，确定的待识别的频谱特征中，包含频谱图中每个频段的频域特征，从而使得确定出的待识别的频谱特征也更为全面与可靠，进而为提高语音识别的准确度提供了依据。

步骤105、对待识别的频谱特征进行识别，以确定待识别的语音对应的识别结果。

需要说明的是，可以采用任何可取的方式，对频谱特征进行识别，从而确定出待识别的语音的识别结果，本公开对此不做限定。

本公开实施例，可以先获取待识别的语音对应的频谱图，之后根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征，再根据每个特征点的特征值、关联矩阵以及每个频段的频域特征，确定待识别的频谱特征，之后对频谱特征进行识别，以确定待识别的语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

上述实施例，在进行语音识别的过程中，充分考虑到了频谱图中各个特征点的关系及各个频段的频域特征，从而在进行语音识别时，提高了语音识别结果的准确性和完整性。在实际实现过程中，可以先根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值，之后再根据特征均值对特征点的特征值进行更新，进而再确定出频段的频域特征，下面结合图2对上述过程进行详细说明。

图2为本公开实施例提供的一种语音的识别方法的流程示意图，如图2所示，该语音的识别方法，可以包括以下步骤：

步骤201，获取待识别的语音对应的频谱图。

步骤202，基于第一映射函数及第二映射函数，分别将频谱图进行线性映射，以获取变换后的第一矩阵以及第二矩阵。

其中，第一映射函数与第二映射函数可以为同类型函数，或者也可以为不同类型函数；第一映射函数中的参数与第二映射函数中的参数，可以相同，或者也可以不同，本公开对此不做限定。

比如，第一映射函数与第二映射函数可以为参数不同的高斯函数。若频谱图的大小为6*6，则使用第一映射函数将频谱图进行线性映射，得到变换后的第一矩阵的大小可以为36*1；使用第二映射函数将频谱图进行线性映射，得到变换后的第二矩阵的大小可以为1*36。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中第一映射函数、第二映射函数、频谱图大小、第一矩阵、第二矩阵等的限定。

步骤203，将第一矩阵及第二矩阵进行点乘，以确定关联矩阵。

比如，第一矩阵的大小为：36*1，第二矩阵的大小为1*36，若将二者进行点乘，即可得到关联矩阵，其大小可以为36*36。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中第一矩阵、第二矩阵、关联矩阵的大小等的限定。

步骤204，根据关联矩阵及每个特征点的特征值，确定全局特征。

其中，可以将关联矩阵与每个特征点的特征值进行融合，以确定全局特征

比如，可以将关联矩阵与每个特征点的特征值相乘，以确定全局特征等等，本公开对此不做限定。

步骤205，根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值。

其中，可以先根据每个特征点对应的频率值，确定出该特征点所属的频段，之后再根据每个特征点的特征值，确定每个频段对应的特征均值。

比如，特征点1、特征点2、特征点3属于频段1，则可以将特征点1、特征点2、特征点3各自的特征值相加之后取平均，作为频段1的特征均值；特征点4和特征点5属于频段2，则可以将特征点4和特征点5的特征值取平均作为频段2的特征均值。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中特征点、特征值、特征点所属的频段以及确定频段对应的特征均值的方式等的限定。

步骤206，将每个特征点的特征值减去所属频段对应的特征均值，确定为每个特征点对应的更新后的特征值。

比如，特征点1的特征值为a1、特征点2的特征值为a2、特征点3的特征值为a3。其中，特征点1所属的频段为频段1，其对应的特征均值为m₁，特征点2和特征点3所属的频段为频段2，其对应的特征均值为m₂。则可以确定特征点1更新后的特征值为：a₁-m₁；特征点2更新后的特征值为a₂-m₂，特征点3更新后的特征值为a₃-m₂。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中特征点、特征值、特征点所属的频段、频段对应的特征均值以及确定各特征点更新后的特征值的方式等的限定。

步骤207，将每个频段中更新后的最大特征值，确定为每个频段的频域特征。

其中，每个频段中可以对应有一个特征点，或者也可以对应有多个特征点，本公开对此不做限定。

可以理解的是，若某一频段仅包含一个特征点，则可以将该特征点更新后的特征值，确定为该某一频段的频段特征。

比如，频段1中只包含特征点5，则可以将该特征点5更新后的特征值，确定为该频段1的频域特征。

可以理解的是，若某一频段中包含多个特征点，则可以将该某一频段中更新后的特征值按照大小进行排序，将其中更新后的最大特征值，确定为该频段的频域特征。

比如，频段2包含特征点2、特征点3、特征点6，其中，特征点3对应的更新后的特征值最大，则可以将特征点3对应的更新后的特征值确定为该频段2的频域特征。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中频段、特征点以及更新后的特征值等的限定。

从而，本公开实施例中，可以通过将每个特征点的特征值减去所属频段对应的特征均值，以对特征点的特征值进行更新，从而使得较弱频段的频域特征得到了增强，避免了特征信息的丢失或遗漏，保证了特征信息的完整性和全面性，进而提高了识别结果的准确性。

步骤208，根据频谱图对应的全局特征以及每个频段的频域特征，确定待识别的频谱特征。

步骤209，对待识别的频谱特征进行识别，以确定待处理的语音对应的识别结果。

本公开实施例，可以先获取待识别的语音对应的频谱图，之后可以基于第一映射函数及第二映射函数，分别将频谱图进行线性映射，以获取变换后的第一矩阵以及第二矩阵，再将第一矩阵及第二矩阵进行点乘，以确定关联矩阵，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值，再将每个特征点的特征值减去所属频段对应的特征均值，确定为每个特征点对应的更新后的特征值，再将每个频段中更新后的最大特征值，确定为每个频段的频域特征，根据每个特征点的特征值、关联矩阵以及每个频段的频域特征，确定待识别的频谱特征，并对频谱特征进行识别，以确定语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

上述实施例，在进行语音识别的过程中，先根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值，之后再根据特征均值对特征点的特征值进行更新，进而再确定出频段的频域特征，之后对其进行处理，即可得到语音识别结果。在实际实现过程中，可以先根据关联矩阵，确定每个特征点对应的全局权重值，之后对每个特征点的特征值进行更新，以获取每个特征点更新后的特征值，之后再进行处理，下面结合图3对上述过程进行详细说明。

步骤301，获取待识别的语音对应的频谱图。

步骤302，根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵。

步骤303，根据频谱图中各个特征点之间的关联矩阵及每个特征点的特征值，确定全局特征。

步骤304，根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征。

步骤305，将每个频段的频域特征进行归一化处理，以确定每个频段的频域特征在待识别的语音中的频域权重。

可以理解的是，为了保证频域权重的准确性，可以先对每个频段的频域特征进行归一化处理，之后可以将每个频段归一化处理后的频域特征确定为频域权重。

比如，频段1的频域特征为a1、频段2的频域特征为b2、频段3的频域特征为c3，若进行归一化处理后的结果为：频段1对应与d1、频段2对应于d2、频段3对应于d3，频段1、频段2和频段3对应的频域权重分别为：d1/(d1+d2+d3)、d2/(d1+d2+d3)、d3/(d1+d2+d3)。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中频段、频段的频域特征以及确定每个频段的频域权重的方式等的限定。

步骤306，根据每个频段的频域权重及频谱图对应的全局特征，确定待识别的频谱特征。

可以理解的是，可以将每个频段的频域权重及频谱图中每个特征点的全局特征进行融合，从而确定待识别的频谱特征。

比如，可以将每个频段的频域权重与频谱图中每个特征点的全局特征相乘，之后再进行融合，所得结果即为待识别的频谱特征。

比如，频谱图中特征点1的全局特征为b₁，特征点1所属的频段为频段1，频段1的频域权重为c₁，则特征点1融合后的结果为：b₁*c₁。若将频谱图中每个特征点的全局特征均与其所属的频域权重相乘，则可以得到每个特征点融合后的结果，频谱图中全部特征点融合后的结果即为待识别的频谱特征。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中特征点、更新后的特征值、频域权重等的限定。

步骤307，对频谱特征进行识别，以确定待处理的语音对应的识别结果。

本公开实施例，可以获取待识别的语音对应的频谱图，之后根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，再根据关联矩阵及每个特征点的特征值，确定全局特征，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征，，将每个频段的频域特征进行归一化处理，以确定每个频段的频域特征在待识别的语音中的频域权重，再根据每个频段的频域权重及频谱图中每个特征点的全局特征，确定待识别的频谱特征，之后对频谱特征进行识别，以确定待处理的语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

为了实现上述实施例，本公开还提出一种语音识别模型。

图4为本公开实施例提供的一种语音识别模型的结构示意图。

如图4所示，该语音识别模型，可以包括：依次相连的N个语音特征提取模块以及语音识别模块，其中，N为大于1的正整数。

其中，每个语音特征提取模块中可以包括卷积网络、全局注意力网络以及频域注意力网络。

可以理解的是，N个语音特征提取模块对应的通道数量可以相同，也可以不同，本公开对此不做限定。

其中，通道数量可以表征卷积核的颗粒度大小，从而在进行处理时，使用不同通道数量的语音特征提取模块，也即使用不同颗粒度的卷积核，从而可使得提取到的语音特征更为全面和可靠。

可以理解的是，卷积网络(convolutional neural network,CNN)，可以用于对获取的语音特征进行卷积处理，以获取更加鲁棒的语音特征。

其中，卷积网络的卷积层可以包括：卷积(convolutional,CONV)、批归一化(batchnormalization,BN)、激活函数rectified linear units(ReLU)，或者，也可以包含其他网络结构，本公开对此不做限定。

另外，全局注意力网络，可以用于对新的语音特征进行处理，以输出新的语音特征的全局特征。

另外，频域注意力网络，可以用于对新的语音特征进行处理，以确定新的语音特征中每个频段的频域特征。

另外，语音识别模块，可以用于对第N个语音特征提取模块输出的全局特征及频域特征进行识别，以输出识别结果。

下面以一个语音特征提取模块为例，结合图4A对本公开提供的语音识别模型的结构及语音识别过程进行详细说明。

图4A为本公开提供的一种语音识别模型的结构示意图。

如图4A所示，首先，可以先将待识别的语音进行处理，以获取对应的语音特征。

之后，可以将该语音特征输入到卷积网络中，以获得更加鲁棒的新的语音特征。

其中，卷积网络可以包含卷积层(Conv layer)、BN层、Relu层，本公开对此不做限定。

之后，可以将新的语音特征输入至全局注意力网络，以利用全局注意力网络中的第一映射函数及第二映射函数，对新的语音特征中每个特征点的特征值进行处理，以获取变换后的第一矩阵及第二矩阵，之后将第一矩阵及第二矩阵进行点乘，确定出新的语音特征中各个特征点之间的关联矩阵。

另外，第三映射函数，可以与第一映射函数、第二映射函数相同，或者也可以不同，本公开对此不做限定。

可以理解的是，通过第三映射函数，可以将新的语音特征按照其自身的特点进行增强，以得到对应的第三矩阵，本公开对此不做限定。

之后，将经过softmax处理的关联矩阵与第三矩阵进行融合，以获取新的语音特征的全局特征。

另外，可以将新的语音特征输入至频域注意力网络中，以使频域注意力网络可以对新的语音特征进行处理，从而确定新的语音特征中每个频段的频域特征。

比如，频域注意力网络中有N个CNN网络，其中，N为任意正数。可以将新的语音特征按照频率的不同分别送入到N个CNN网络中，经过处理之后，可以得到新的语音特征中每个特征点的特征值及每个特征点所属的频段。之后再确定每个频段对应的特征均值，之后可以将每个特征点的特征值减去所属频段对应的特征均值，并将其确定为每个特征点对应的更新后的特征值，之后可以按照特征点所属的频段，将更新后的特征值送入到最大池化层当中，以确定每个频段的频域特征。

之后，可以将新的语音特征的全局特征、以及新的语音特征中每个频段的频域特征进行融合，将融合后的结果输入到语音识别模块中。

可选的，在确定出每个频段的频域特征之后，还可以将每个频段的频域特征都送入到全连接层(fully connected layers,FC)中，再通过归一化处理，可以得到新的语音特征中每个频段的频域权重。

上述过程，可以用如下公式(1)表示：

M_fre＝softmax(FC(maxpooling(CNN(x))))(1)其中，M_fre为频域权重，softmax为输出层，FC为全连接层，maxpool ing为最大池化层，CNN为卷积神经网络，x为新的语音特征。

可选的，在实际实现过程中，还可以在确定出频域权重之后，根据频域权重对频域特征进行融合。

比如，可以先将频域权重与第三矩阵进行融合，以得到更新后的频域特征：

x'_zw'_z＝x_zw_z*M_fre (2)

其中，x′_zw′_z为更新后的频域特征，x_zw_z为第三矩阵，M_fre为频域权重。

之后，可以将全局特征与更新后的频域特征进行融合，从而得到待识别的全局特征与频域特征：

X＝softmax(x_iw_iw_jx_j)*(x'_zw'_z) (3)

其中，X为待识别的全局特征与频域特征，softmax(x_iw_iw_jx_j)为全局特征，x′_zw′_z为更新后的频域特征。

之后，语音识别模块，可以对语音特征提取模块输出的全局特征及频域特征进行识别，以输出识别结果。

比如，可以将新的语音特征中每个频段的频域特征及新的语音特征的全局特征输入到语音识别模块中，之后经过语音识别模块的处理，即可输出识别结果。

可选的，也可以将新的语音特征中每个频段的频域特征及新的语音特征的全局特征先进行融合，之后再输入到语音识别模块中。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中语音识别模块的输入的限定。

可选的，语音识别模块中可以包含基于神经网络的时序类分类网络(connectionist temporal classification，CTC)，从而使用CTC来对语音特征提取模块输出的全局特征及频域特征进行识别，之后输出识别结果等等，本公开对此不做限定。

本公开实施例提供的语音识别模型，可以包括依次相连的N个语音特征提取模块以及语音识别模块，从而将获取的语音特征输入至语音特征提取模块，经过N个语音特征提取模块的处理后，再将其输入至语音识别模块，即可输出语音识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

为了实现上述实施例，本公开还提出一种语音的识别装置。

图5为本公开实施例提供的一种语音的识别装置的结构示意图。

如图5所示，该语音的识别装置500，包括：获取模块510、第一确定模块520、第二确定模块530、第三确定模块540、以及识别模块550。

其中，获取模块510，用于获取待识别的语音对应的频谱图。

第一确定模块520，用于根据所述频谱图中每个特征点的特征值，确定所述频谱图中中每个特征点对应的全局特征。

第二确定模块530，用于根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征。

第三确定模块540，用于根据频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征。

识别模块550，用于对所述频谱特征进行识别，以确定所述语音对应的识别结果。

可选的，所述第一确定模块520，包括：

第一确定单元，用于根据所述频谱图中每个特征点的特征值，确定所述频谱图中各个特征点之间的关联矩阵；

第二确定单元，用于根据所述关联矩阵及每个所述特征点的特征值，确定所述全局特征。

可选的，所述第一确定单元，具体用于：

基于第一映射函数及第二映射函数，分别将所述频谱图进行线性映射，以获取变换后的第一矩阵以及第二矩阵；

将所述第一矩阵及所述第二矩阵进行点乘，以确定所述关联矩阵。

可选的，所述第二确定模块530，具体用于：

根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值；

将每个特征点的特征值减去所属频段对应的特征均值，确定为每个特征点对应的更新后的特征值；

将每个频段中更新后的最大特征值，确定为每个频段的频域特征。

可选的，所述第三确定模块540，用于：

将所述每个频段的频域特征进行归一化处理，以确定每个所述频段的频域特征在所述待识别的语音中的频域权重；

根据每个所述频段的频域权重及每个所述特征点更新后的特征值，确定所述待识别的频谱特征。

本公开实施例中的上述各模块的功能及具体实现原理，可参照上述各方法实施例，此处不再赘述。

本公开实施例的语音的识别装置，可以先获取待识别的语音对应的频谱图，之后根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征，再根据每个特征点的特征值、关联矩阵以及每个频段的频域特征，确定待识别的频谱特征，之后对频谱特征进行识别，以确定待识别的语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音的识别方法。例如，在一些实施例中，语音的识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语音的识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音的识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案，可以先获取待识别的语音对应的频谱图，之后根据频谱图中每个特征点的特征值，确定频谱图中各个特征点之间的关联矩阵，之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段，确定频谱图中每个频段的频域特征，再根据每个特征点的特征值、关联矩阵以及每个频段的频域特征，确定待识别的频谱特征，之后对频谱特征进行识别，以确定待识别的语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音的识别方法，其特征在于，包括：

获取待识别的语音对应的频谱图；

根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征；

2.如权利要求1所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征，包括：

根据所述频谱图中每个特征点的特征值，确定所述频谱图中各个特征点之间的关联矩阵；

根据所述关联矩阵及每个所述特征点的特征值，确定所述全局特征。

3.如权利要求2所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值，确定所述频谱图中各个特征点之间的关联矩阵，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述全局特征以及所述每个频段的频域特征，确定待识别的频谱特征，包括：

根据每个所述频段的频域权重及所述全局特征，确定所述待识别的频谱特征。

6.一种语音识别模型，其特征在于，包括：依次相连的N个语音特征提取模块以及语音识别模块，其中，N为大于1的正整数；

7.如权利要求6所述的模型，其特征在于，所述N个语音特征提取模块对应的通道数量不同。

8.一种语音的识别装置，包括：

获取模块，用于获取待识别的语音对应的频谱图；

9.如权利要求8所述的装置，其特征在于，所述第一确定模块，包括：

10.如权利要求9所述的装置，其特征在于，所述第一确定单元，具体用于：

11.如权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

12.如权利要求8所述的装置，其特征在于，所述第三确定模块，用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。