CN118038851A

CN118038851A - 一种多方言语音识别方法、系统、设备及介质

Info

Publication number: CN118038851A
Application number: CN202311817602.1A
Authority: CN
Inventors: 王建英; 苏江
Original assignee: Dark Matter Beijing Intelligent Technology Co ltd
Current assignee: Dark Matter Beijing Intelligent Technology Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-05-14

Abstract

本发明公开了一种多方言语音识别方法、系统、设备及介质，方法包括：获取方言数据；提取方言数据的语音特征表示以及方言标签特征表示；将语音特征表示以及方言标签特征表示作为多方言语音识别模型的输入，输出每种方言对应的方言语音识别文本；将方言语音识别文本转换为普通话文本。通过使用基于transformer的语音识别技术，结合多方言语音数据集进行训练和优化，实现对多种方言的准确识别，提高了识别准确性和鲁棒性。

Description

一种多方言语音识别方法、系统、设备及介质

技术领域

本发明涉及语音识别技术领域，更具体的说是涉及一种多方言语音识别方法、系统、设备及介质。

背景技术

为了满足实际应用需求，开发能够准确识别多种方言的语音识别系统具有重要意义，可以提高人们的生活质量和工作效率。通过该系统，不仅可以有效减少方言使用者与机器交互时的误解和沟通障碍，还能提供更加个性化和定制化的服务。在人机交互中，与机器人进行方言的语音交互可以提供更加自然和亲切的交流方式。这种交互方式让用户感到更舒适自在，更轻松地表达自己的意图和需求，增加用户与机器人之间的互动体验。此外，方言的使用还能促进文化交流和保护地域文化，使人与机器之间的交流更加丰富多样。

然而，传统的语音识别系统通常只能处理标准语言，对方言的识别效果较差。这导致了在使用语音识别技术的应用中，比如智能助理、语音导航等，对于方言使用者来说存在一定的困扰。

因此，如何提供一种多方言语音识别方法和系统是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种多方言语音识别方法、系统、设备及介质，可以有效解决传统语音识别系统在处理方言识别时的问题，提高识别准确性和鲁棒性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种多方言语音识别方法，包括：

获取方言数据；

提取方言数据的语音特征表示以及方言标签特征表示；

将语音特征表示以及方言标签特征表示作为多方言语音识别模型的输入，输出每种方言对应的方言语音识别文本；

将方言语音识别文本转换为普通话文本。

优选地，语音特征表示具体获取步骤包括：

对方言数据进行预处理；

将预处理后的方言语音信号进行分帧和加窗处理；

对加窗后的帧进行快速傅里叶变换，得到频域信号；

通过梅尔滤波器组对频域信号进行滤波，并对输出的能量值进行对数运算，得到对数能量值序列；

将对数能量值序列进行离散余弦变换，得到梅尔频率倒谱系数；

将梅尔频率倒谱系数中的第一个能量特征去除，得到语音特征表示。

优选地，通过词嵌入方法提取方言数据的方言标签特征表示。

优选地，多方言语音识别模型为transformer模型；

在模型训练阶段包括：

编码器负责接收语音特征表示和方言标签特征表示，并通过自注意力机制进行特征提取和抽象表示；

解码器则负责生成相应的输出；

输出层通过softmax单元输出每种方言对应的方言语音识别文本。

优选地，将方言语音识别文本转换为普通话文本具体包括：

将方言语音识别文本与预设的第一阈值进行对比；

若小于等于第一阈值，则通过预设的规则将方言语音识别文本转换为普通话文本；

若大于第一阈值，通过机器翻译模型将方言语音识别文本转换为普通话文本。

第二方面，本发明提供了一种多方言语音识别系统，包括：

数据获取模块：用于获取方言数据；

特征提取模块：用于提取方言数据的语音特征表示以及方言标签特征表示；

多方言语音识别模块：用于将语音特征表示以及方言标签特征表示作为多方言语音识别模型的输入，输出每种方言对应的方言语音识别文本；

语言转换模块：将方言语音识别文本转换为普通话文本。

优选地，特征提取模块获取语音特征表示具体处理过程为：

对方言数据进行预处理；

将预处理后的方言语音信号进行分帧和加窗处理；

对加窗后的帧进行快速傅里叶变换，得到频域信号；

优选地，特征提取模块通过词嵌入方法提取方言数据的方言标签特征表示。

优选地，多方言语音识别模型为transformer模型；

在模型训练阶段包括：

解码器则负责生成相应的输出；

优选地，语言转换模块具体处理过程为：

将方言语音识别文本与预设的第一阈值进行对比；

第三方面，本发明提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现所述一种多方言语音识别方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述一种多方言语音识别方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种多方言语音识别方法、系统、设备及介质，通过使用基于深度学习的语音识别技术，结合多方言语音数据集进行训练和优化，实现对多种方言的准确识别，提高了识别准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种多方言语音识别方法流程图。

图2为本发明提供的一种多方言语音识别系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种多方言语音识别方法，如图1所示，包括：

获取方言数据；

提取方言数据的语音特征表示以及方言标签特征表示；

将方言语音识别文本转换为普通话文本。

其中，在获取方言数据时应考虑以下因素：

定义方言类型：首先确定要收集的方言类型，因为不同地区可能存在多种方言。明确方言类型有助于确定数据收集的范围和目标。

地点选择：选择代表性的地点来收集方言语音数据。可以考虑方言使用频率高、方言地区分布密集的地方，比如方言使用人口多的乡村、市场或方言传统区域。

样本选择：在所选地点寻找多样性的样本，包括不同年龄、性别和社会背景的人员。这有助于收集到多样的方言语音数据，并提高方言识别的泛化能力。

数据录制设备：选择适当的录音设备进行数据录制，可以是专业的语音录制设备或者高质量的智能手机。确保录制设备的音质好，并可以捕捉到方言的细微差异。

数据存储和整理：将收集到的方言数据进行存储和整理。使用数据存储设备，同时为每个样本附上相应的信息如年龄、性别、方言类型等。

数据标注：对收集到的方言语音数据进行标注，即将语音样本与对应的文本或方言词汇进行配对。标注的准确性对于训练和评估方言识别系统非常重要。

数据验证和质量控制：检查数据的准确性和质量，并排除不符合要求的样本。可以借助专业人士的协助进行数据验证和质量控制，确保数据的有效性和可用性。

在本实施例中，语音特征表示具体获取步骤包括：

预处理：对原始方言语音信号进行预处理，包括去除静音段、降噪和标准化等。

分帧：将预处理后的方言语音信号分割成长度为固定时间窗口的帧。通常每个帧的持续时间为20-40毫秒，相邻帧之间有一定的重叠。

加窗：为了减少帧边缘产生的不连续和频谱泄漏的影响，在每个帧上应用加窗函数，常用的窗函数有汉宁窗、海明窗等。

快速傅里叶变换(FFT)：对每个加窗后的帧进行快速傅里叶变换，将时域信号转换为频域信号。

梅尔滤波器组：利用梅尔滤波器组对FFT的结果进行滤波。梅尔滤波器组的作用是模拟人类听觉系统对音频信号的感知，更好地适应人类听觉对声音感知的非线性特性。

对数运算：将梅尔滤波器组输出的能量值取对数，以更好地适应人耳对声音强度的感知。

倒谱系数提取：对取对数的能量值序列应用离散余弦变换(Discrete CosineTransform，DCT)得到梅尔频率倒谱系数。通常，只保留前几个倒谱系数作为特征向量，这些系数通常包含大部分有用的声学信息。

去除能量特征：通常，倒谱系数中的第一个特征是能量特征，它对于语音识别任务没有太多作用。因此，可以选择在特征向量中去除该能量特征。

在本实施例中，对于方言标签特征提取，可以采用词嵌入方法将方言标签表示为低维向量，并与方言的语音特征进行结合，从而得到更全面、更丰富的特征表示。常见的方法包括使用预训练的词向量模型(如Word2Vec、GloVe)来获取方言标签的词向量表示，或者基于深度学习的模型如BERT来进行方言标签的语义编码。

通过引入词嵌入方法，可以从方言标签的语义角度进行建模，更好地描述方言特征，提取与方言相关的语义信息，有助于增强方言标签特征的表征能力，提高方言识别和分类的准确性和鲁棒性。

在本实施例中，多方言语音识别模型是基于模型参数共享的多方言模型，是一种利用Transformer模型进行多方言语音模型建模的方法。这种方法采用多任务学习的框架，通过共享深层神经网络的参数来利用多个方言数据之间的相关性和共性。

在这种方法中，编码器负责接收语音特征表示和方言标签特征表示，并通过自注意力机制进行特征提取和抽象表示。解码器则负责生成相应的输出。

在Transformer模型中，编码器由多个相同的编码器层组成，每个编码器层由一个多头自注意力机制和一个前馈神经网络组成。自注意力机制可以帮助模型捕捉输入序列中的上下文信息，而前馈神经网络则负责进一步处理特征表示。编码器的每个层之间都有残差连接和层归一化操作，以减轻梯度消失和加速训练过程。

在处理输入序列时，Transformer模型还引入了位置编码器来对输入序列中的位置信息进行建模。位置编码器通过学习可学习的向量来表示位置信息，将其与语音特征表示和方言标签特征表示相加，以获得整体的输入表示。

使用Transformer模型进行方言共享时，可以将编码器和解码器的参数在不同方言之间进行共享，从而减少模型参数量并提高模型效率。在模型优化期间，共享的参数会在多个方言之间进行更新，以使模型更好地适应不同方言的语音特征和方言标签。

具体而言，在训练期间，共享的隐藏层参数会根据全部方言数据进行更新，以捕捉多个方言之间的共性和共享的特征表示。每个独立的输出层则基于各自方言的数据进行更新，以使其能够更好地区分和预测对应方言的声学特征。

采用基于区间的softmax结构是为了更好地处理多方言声学建模中的不平衡问题，确保对每个方言的识别都有合理的权重分配和调整。这种结构可以帮助提高多方言声学模型的效果和泛化能力。

这种基于模型参数共享的多方言声学模型建模技术能够充分利用多方言数据的信息，提高模型的性能和泛化能力，以适应不同方言的声学特征和语音特点。在实际应用中，在训练过程中，采用数据增强技术，如语速变化、噪声添加等，可以提高模型的鲁棒性，或者构建适合方言的语言模型，可以进一步优化模型的效果。

在本实施例中，将方言语音识别文本转换为普通话文本的具体转换方法包括：

将方言语音识别文本与预设的第一阈值进行对比，其中，第一阈值已知；

若方言语音识别文本小于等于第一阈值，则说明该方言与普通话发音比较相似的方言，如东北话，则采用规则替换的方式，针对方言词汇和句法结构，可以编写一系列规则，将方言词汇和句法结构替换成普通话对应的词汇和句法结构。这需要根据方言和普通话之间的差异和规律进行规则的设计和编写。

若方言语音识别文本大于第一阈值，则说明该方言与普通话发音相差比较远，如粤语，则采用机器翻译模型，使用机器翻译的方法将方言语音识别文本翻译成普通话文本。可以使用已经训练好的方言到普通话的翻译模型，或者根据方言和普通话之间的差异训练新的翻译模型。

本发明实施例了一种多方言语音识别系统，如图2所示，包括：

数据获取模块：用于获取方言数据；

语言转换模块：将方言语音识别文本转换为普通话文本。

其中，在获取方言数据时应考虑以下因素：

在本实施例中，特征提取模块获取语音特征表示具体步骤包括：

这种基于模型参数共享的多方言声学模型建模技术能够充分利用多方言数据的信息，提高模型的性能和泛化能力，以适应不同方言的声学特征和语音特点。在实际应用中，通过合理设计网络结构和训练策略，可以进一步优化模型的效果。

在本实施例中，语言转换模块具体处理过程为：

本发明提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述一种多方言语音识别方法的步骤。

对于本发明提供的一种计算机设备的介绍请参照上述方法实施例，本发明在此不再赘述。

本发明中的计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述一种多方言语音识别方法的步骤。存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不再赘述。

本发明可以应用于以下几个具体场景：

教育领域：在教育领域中，许多地区会有自己独特的方言系统。本发明可以被用于方言区域的学校教育中，帮助学生更好地理解和使用标准普通话。通过将学生用方言表达的回答转化为普通话，教师可以更准确地评估学生的语言水平，并提供相应的指导和辅导。

语音翻译和跨文化交流：在跨地域和跨文化交流中，方言可能成为沟通的障碍。本发明可以被应用于语音翻译领域，将方言转化为普通话或其他目标语言，使不同语种的人们更容易进行交流和理解。例如，在商务会议、旅行指南和社交媒体等场景中，通过智能设备实时地将方言转化为普通话，可以极大地促进跨文化交流。

方言文化保护与传承：方言作为地区文化的重要组成部分，承载着独特的历史和传统。本发明可以应用于方言文化的保护和传承中。通过将方言语音转化为普通话，可以更方便地进行方言材料的整理、收集和保存，帮助研究人员和保护者更好地记录和传承方言文化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多方言语音识别方法，其特征在于，包括：

获取方言数据；

提取方言数据的语音特征表示以及方言标签特征表示；

将方言语音识别文本转换为普通话文本。

2.根据权利要求1所述的一种多方言语音识别方法，其特征在于，语音特征表示具体获取步骤包括：

对方言数据进行预处理；

将预处理后的方言语音信号进行分帧和加窗处理；

对加窗后的帧进行快速傅里叶变换，得到频域信号；

3.根据权利要求1所述的一种多方言语音识别方法，其特征在于，通过词嵌入方法提取方言数据的方言标签特征表示。

4.根据权利要求1所述的一种多方言语音识别方法，其特征在于，多方言语音识别模型为transformer模型；

在模型训练阶段包括：

解码器负责生成相应的输出；

5.根据权利要求1所述的一种多方言语音识别方法，其特征在于，将方言语音识别文本转换为普通话文本具体包括：

将方言语音识别文本与预设的第一阈值进行对比；

6.一种多方言语音识别系统，其特征在于，包括：

数据获取模块：用于获取方言数据；

语言转换模块：将方言语音识别文本转换为普通话文本。

7.根据权利要求6所述的一种多方言语音识别系统，其特征在于，特征提取模块获取语音特征表示具体处理过程为：

对方言数据进行预处理；

将预处理后的方言语音信号进行分帧和加窗处理；

对加窗后的帧进行快速傅里叶变换，得到频域信号；

8.根据权利要求6所述的一种多方言语音识别系统，其特征在于，特征提取模块通过词嵌入方法提取方言数据的方言标签特征表示。

9.根据权利要求6所述的一种多方言语音识别系统，其特征在于，多方言语音识别模型为transformer模型；

在模型训练阶段包括：

解码器负责生成相应的输出；

10.根据权利要求6所述的一种多方言语音识别系统，其特征在于，语言转换模块具体处理过程为：

将方言语音识别文本与预设的第一阈值进行对比；

11.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述一种多方言语音识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种多方言语音识别方法的步骤。