CN118155463B

CN118155463B - 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

Info

Publication number: CN118155463B
Application number: CN202410571244.9A
Authority: CN
Inventors: 赵志立; 李潭清; 屠盈渊
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-07-19
Anticipated expiration: 2044-05-10
Also published as: CN118155463A

Abstract

本发明涉及学习设备技术领域，尤其是一种嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置。本发明采集用户口述的待学习语句作为输入语音，通过说话人声纹识别模型从输入语音提取目标用户语音，将目标用户语音转换为拼音表达式；结合目标用户语音的拼音表达式和标准语音的拼音表达式，获取将目标用户语音纠正到标准语音的发音纠正要点并输出。本发明通过模拟沟通场景为听障人士提供在真实生活中的对话场景模拟，使得学习者在学习过程中能够更好地适应实际语境，增加学习的实用性和可操作性。本发明能实现噪音背景环境下的目标用户语音信息精准提取，避免传统方法对发音学习环境安静的要求，极大方便了听障人士随时随地进行发音学习和训练。

Description

嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

技术领域

本发明涉及学习设备技术领域，尤其是一种嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置。

背景技术

语音学习作为语言教育中一个至关重要的领域，持续吸引着广泛的关注。特别是聋哑人士在学习语言的过程中，他们面临着一系列独特的挑战，尤其是在掌握准确的语音发音方面。尽管现代听力辅助技术已经在一定程度上帮助聋哑人士在学习汉语发音方面改善了听觉体验，但在发音的精确度上仍然面临着挑战。目前，专门针对聋哑人士的语音学习工具还相对不足。

传统的语音学习方法很大程度上依赖于听觉反馈，但这种方法对于聋哑人士而言，并不总是奏效。随着计算机技术和人工智能的突飞猛进，计算机辅助的语言学习已经变成了一个备受瞩目的领域。尽管如此，市面上现有的语音学习工具大多集中于提升发音的准确性，而对于模拟真实语境和提供个性化指导的需求，这些工具尚未能够完全满足。

当前的语音学习工具主要集中于语音识别和发音训练两个方面。尽管传统的语音识别技术取得了一定的进步，但对于聋哑人这一特殊群体来说，仍然存在诸多挑战，如识别多样化的口音、纠正发音错误等。此外，发音训练往往局限于单一的发音元素，缺少对真实交流场景的模拟，这限制了工具为用户提供全面和实用的语音学习体验。在自然语言处理领域，尽管已经开展了拼音纠错和语法校正的相关研究，但这些技术在语音学习工具中的应用还不够广泛。现有的方法通常缺乏有效的抗噪音功能，难以从背景噪音中准确区分出用户的语音，这导致用户不得不在无噪音的环境中进行学习。这种限制对于聋哑人来说尤为突出，因为它极大地缩小了他们进行发音练习的时间窗口和地点选择。

传统工具难以提供一个符合聋哑人实际需求的学习环境。聋哑人在社会交往中经常感受到语言沟通的障碍，因此需要一种抗噪声的，更加综合和智能的语音学习方法。现有方法存在的不足如下：

1.缺乏场景模拟和实际应用性：大多数现有的语音学习工具集中于发音准确性的提高，但缺乏对真实场景的模拟。这使得学习者在实际语言运用中可能感到失落，无法将学到的知识灵活应用于日常生活对话中。

2.缺少个性化指导：现有技术在个性化指导方面存在不足。每位学习者的语音发音问题都是独特的，但现有工具通常未能提供精准的个性化反馈和指导，从而限制了学习效果的最大化。

3.忽视自然语言处理技术的应用：一些工具虽然提供了语音识别和发音练习，却忽视了自然语言处理技术在拼音纠错和发音要点搜索中的潜在应用。这导致了在语法和语境方面的理解不足。

4.对聋哑人群体的适应性不足：传统的语音学习工具主要设计用于能够听到声音的学习者，对于聋哑人这一特殊群体的适应性不足，无法有效解决他们的学习需求。

5.不具备抗噪音能力：传统语音学习工具要求用户在安静环境进行学习，难以区分用户语音和背景语音噪声，在噪声环境下表现差，限制了聋哑人的学习场景。

因此，亟需一种嘈杂环境下听障人士汉语发音计算机辅助学习方法，为聋哑人学习发音提供帮助。

发明内容

为了克服上述现有技术中缺乏适合聋哑人的汉语发音学习方法的缺陷，本发明提出了一种嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置，通过模拟日常生活对话场景，结合先进的语音识别和自然语言处理技术，协助聋哑人随时随地学习和提高汉语拼音发音的准确性。

本发明提出的一种嘈杂环境下听障人士汉语发音计算机辅助学习方法：

设置模拟沟通场景以及待学习语句，获取待学习语句的标准语音以及拼音表达式；

采集用户说出的待学习语句作为输入语音，通过说话人声纹识别模型从输入语音提取目标用户语音，将目标用户语音转换为拼音表达式；

结合目标用户语音的拼音表达式和标准语音的拼音表达式，获取将目标用户语音纠正到标准语音的发音纠正要点并输出；

说话人声纹识别模型包括顺序连接的声纹特征提取模块、注意力特征提取模块和分类器，声纹特征提取模块用于从输入语音中提取符合目标用户声纹特征的语音作为说话人语音；注意力特征提取模块用于提取说话人语音的注意力特征，分类器基于注意力特征对说话人语音进行分类；

说话人声纹识别模型的训练过程为：采用无监督学习方式对声纹特征提取模块进行预训练，然后组合预训练后的声纹特征提取模块、注意力特征提取模块和分类器作为基础模型，最后采用有监督学习方式对基础模型进行训练，固定收敛后的基础模型作为说话人声纹识别模型，其输入为语音数据，输出为目标用户语音。

优选的，声纹特征提取模块包括顺序连接的输入层，频率特征嵌入网络和上下文特征融合网络；输入层用于提取语音数据的时域信息并窗口化处理，频率特征嵌入网络从各窗口化的时域信息中提取语音的频率特征并生成指定长度的特征向量，上下文特征融合网络用于将频率特征嵌入网络输出的所有特征向量融合为上下文特征向量。

优选的，频率特征嵌入网络和上下文特征融合网络均采用多层卷积神经网络。

优选的，注意力特征提取模块包括顺序连接的卷积层、ResNet特征提取网络、注意力层和全连接层。

优选的，分类器采用softmax分类器。

优选的，对采用无监督学习方式对声纹特征提取模块进行预训练时：在无噪音环境下采集的目标用户的语音作为正样本，对正样本进行窗口化处理后作为正样本训练数据；负样本的生成方式为：对正样本进行多频段调频以生成多个相同内容不同声纹的用户语音作为备选样本；将备选样本调频后再叠加随机噪声，形成负样本，再对负样本进行窗口化处理后作为负样本训练数据。

优选的，采用有监督学习方式对基础模型进行训练时，学习样本为标注说话人标签的样本数据；样本数据为：正样本、增强后的正样本、负样本或者增强后的负样本；正负样本的增强方式包括加混响、音频调速和/或频谱增强；说话人标签包括：目标用户以及非目标用户。

优选的，基于预先构建的汉语语音样本数据集，获取标准语音和目标用户语音的拼音表达式；汉语语音样本数据集用于存储标注有拼音表达式的语音样本，语音样本包括标准发音样本和发音障碍者的样本，拼音表达式涵盖声母、韵母和声调。

优选的，语音样本的拼音表达式通过预训练的语音转拼音模型生成，语音转拼音模型的输入为语音，输出为输入的语音的拼音表达式；语音转拼音模型包括特征提取模块、多层LSTM深度学习架构、注意力机制模块和输出层；特征提取模块、多层LSTM深度学习架构和输出层顺序连接，注意力机制模块设置在语音转拼音模型的输入端与输出层之间；特征提取模块用于提取输入语音的声学声调特征，多层LSTM深度学习架构捕捉语音特征中声学声调特征的时序关系特征，注意力机制模块基于输入语音生成表征音节和声调变化的注意力特征，输出层基于时序关系特征和注意力特征生成输入语音的拼音表达式。

优选的，通过检索预先设置的发音纠错数据集获取将目标用户语音纠正到标准语音的发音纠正要点；发音纠错数据集存储有标注发音纠正要点以及参照语音向量的拼音组合，拼音组合包括待纠正语音的拼音表达式和纠正后标准语音的拼音表达式，参照语音向量为对应的拼音组合中两个拼音表达式合并后对应的标准语音的语音向量；

检索发音纠错数据集时，首先获取目标用户语音的拼音表达式与标准语音的拼音表达式构成的目标拼音组合，再将目标拼音组合中的两个拼音表达式合并后向量化，作为待检索语音向量，然后根据待检索语音向量与参照语音向量的相似度进行检索。

优选的，当待检索语音向量与参照语音向量的相似度达到设定的第二阈值，判断两者一致；当发音纠错数据集中不存在与待检索语音向量一致的参照语音向量时，根据以下步骤生成将目标用户语音纠正到标准语音的发音纠正要点；

在发音纠错数据集中筛选N个与待检索语音向量最相似的参照语音向量所指向的发音纠正要点作为待排序发音纠正要点；结合目标用户语音和标准语音，使用预训练的重排序模型对N个待排序发音纠正要点进行重排序；

将重排序后的发音纠正要点与目标用户语音、标准语音输入预训练的大语言模型，大语言模型输出最终发音纠正要点，用于将目标用户语音纠正到标准语音。

优选的，大语言模型输出最终发音纠正要点后，将目标拼音组合与最终发音纠正要点相关联增量存储到发音纠错数据集中，将待检索语音向量标注为目标拼音组合的参照语音向量。

本发明提出的一种采用所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法的装置，包括：

场景诱导模块，存储有多种模拟沟通情境，用户在场景诱导模块选取模拟沟通情境；

语音输入模块，用于收集音频数据；

说话人声纹识别模块，用于从语音输入模块收集的音频数据中提取目标用户语音；

语音纠错模块分别连接场景诱导模块和说话人声纹识别模块，语音纠错模块用于生成目标用户语音的拼音表达式；语音纠错模块根据选取的模拟沟通情景对目标用户语音的拼音表达式进行拼音检查与纠正；

标准发音生成模块，根据纠正后的拼音表达式生成标准语音；

发音要点搜索模块，用于获取目标用户语音与标准语音的发音要点；

语音相似度判别模块，用于计算目标用户语音与标准语音的语音相似度；

纠音指导生成模块，结合语音相似度以及目标用户语音与标准语音的发音要点生成发音纠正要点并输出，发音纠正要点用于指导用户将目标用户语音的音调纠正为标准发音语音的音调。

本发明的优点在于：

1、本发明提出的嘈杂环境下听障人士汉语发音计算机辅助学习方法通过模拟沟通场景为听障人士提供真实生活对话场景的模拟，使得学习者在学习过程中能够更好地适应实际语境，增加学习的实用性和可操作性。本发明通过说话人声纹识别模型，能实现噪音背景环境下的目标用户语音信息精准提取，避免传统方法对发音学习环境安静的要求，极大方便了听障人士随时随地进行发音学习和训练。

2、本发明通过引入发音相似度计算，为学习者提供一个客观、量化的评估工具，将标准语音与学习者的原始语音进行对比，为用户提供具体的相似度得分，帮助用户更直观地了解自己的发音水平，从而有针对性地改进。

3、本发明提供了基于大模型和纠错数据集的纠错方法，可结合发音要点针对性的对用户语音进行发音细致矫正，深入分析用户的发音细节，特别是声母、韵母、声调等要素，提供更为准确和全面的纠正和指导，确保用户能够形成标准的语音发音。

4、本发明是针对听障人士群体的特殊需求，考虑到听障人士通过听力辅助设备获得语音信息的情况，设计的语音学习辅助工具，以确保对这一特殊群体的适应性和可用性。

5、本发明提出的嘈杂环境下听障人士汉语发音计算机辅助学习装置，为听障人士创造一个更方便、更智能、更具实际应用性的语音学习工具，有利于激发听障人士的学习热情，使用户能够更自信、更流利地参与社交和职业活动。本发明符合社会推动包容性和无障碍交流的愿景，促使听障人士更好地融入社会主流。

附图说明

图1为本发明提出的嘈杂环境下听障人士汉语发音计算机辅助学习方法流程图；

图2为获取将目标用户语音纠正到标准语音的发音纠正要点的方法流程图；

图3为说话人声纹识别模型的训练过程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明提出的嘈杂环境下听障人士汉语发音计算机辅助学习方法，包括以下步骤S1-S3：

S1、设置模拟沟通场景以及待学习语句，获取待学习语句的标准语音以及拼音表达式；

S2、采集用户说出的待学习语句作为输入语音，通过说话人声纹识别模型从输入语音提取目标用户语音，将目标用户语音转换为拼音表达式；

本步骤S2中，首先采用滤波算法对输入语音进行去噪，然后再增强，说话人声纹识别模型基于增强后的输入语音提取目标用户语音。

步骤S1、S2中，基于预先构建的汉语语音样本数据集，获取标准语音和目标用户语音的拼音表达式。汉语语音样本数据集用于存储标注有拼音表达式的语音样本，语音样本包括标准发音样本和发音障碍者的样本，拼音表达式涵盖声母、韵母和声调。

步骤S1、S2中，拼音表达式通过预训练的语音转拼音模型获取。

语音转拼音模型包括特征提取模块、多层LSTM深度学习架构、注意力机制模块和输出层；特征提取模块的输入端即为语音转拼音模型的输入端，特征提取模块、多层LSTM深度学习架构和输出层顺序连接，注意力机制模块的输入端连接语音转拼音模型的输入端，注意力机制模块的输出端连接输出层的输入端。

特征提取模块用于提取输入语音的声学声调特征，多层LSTM深度学习架构捕捉语音特征中声学声调特征的时序关系特征，注意力机制模块基于输入语音生成表征音节和声调变化的注意力特征，输出层基于时序关系特征和注意力特征生成输入语音的拼音表达式。

具体实施时，语音转拼音模型的特征提取模块可使用MFCC和音高追踪算法来提取输入语音的声学声调特征。

S3、结合目标用户语音的拼音表达式和标准语音的拼音表达式，获取将目标用户语音纠正到标准语音的发音纠正要点并输出。

本步骤S3中，基于发音纠错数据集，获取发音纠正要点。发音纠错数据集存储有标注发音纠正要点以及参照语音向量的拼音组合。拼音组合包括待纠正语音的拼音表达式和纠正后标准语音的拼音表达式，参照语音向量为该两个拼音表达式合并后对应的标准语音的语音向量。具体的，可使用预训练的文本嵌入模型合并拼音组合中两条拼音表达式对应的标准语音，文本嵌入模型再对合并后语音进行向量化，以形成参照语音向量。

发音纠正要点用于指导用户将待纠正语音的音调纠正为纠正后标准语音的音调。发音纠正要点包括针对音标、文字、词组、句子、声调和声韵的发音部位和送气方式的调整建议。

步骤S3中，当发音纠错数据集中不存在目标用户语音的拼音表达式与标准语音的拼音表达式构成的目标拼音组合，则基于预存储的发音要点知识库和预训练的发音纠正模型生成目标拼音组合的发音纠正要点。

发音要点知识库存储标注发音要点的拼音表达式，发音要点包括针对音标、文字、词组、句子、声调和声韵的发音部位和送气方式。

发音纠正模型的输入为拼音组合和拼音组合中两条拼音表达式的语音相似度，输出为拼音组合对应的发音纠正要点。

两条拼音表达式的语音相似度的获取方式为：通过MFCC算法从拼音表达式对应的语音信号提取关键声学特征构成语音特征序列，采用相似度算法计算两条拼音表达式的语音特征序列的相似度作为两条拼音表达式的语音相似度。关键声学特征包括：音高、音质、时长和强度等。

具体的，参照图2，步骤S3包括以下分步骤：

S31、组合目标用户语音的拼音表达式和标准语音的拼音表达式作为目标拼音组合；

S32、判断目标拼音组合是否存在于发音纠错数据集；

是，则从发音纠错数据集中获取目标拼音组合的发音纠正要点并输出；

否，则执行步骤S33；

S33、计算目标用户语音的拼音表达式和标准语音的拼音表达式的语音相似度，如果相似度得分高于或等于预设定的第一阈值，则只给出巩固发音的鼓励性建议说明；如果相似度得分低于设定的第一阈值，则执行步骤S34；

S34、使用预训练的文本嵌入模型将目标用户语音和标准语音合并后进行向量化，形成待检索语音向量；计算发音纠错数据集中各参照语音向量与待检索语音向量的向量相似度；

具体实施时，本步骤中，可采用明可夫斯基距离计算向量相似度。

S35、判断是否存在大于设定的第二阈值的向量相似度；是，则输出最大向量相似度对应的发音纠正要点；否，则执行步骤S36；

S36、筛选N个最大的向量相似度对应的参照语音向量所指向的发音纠正要点作为待排序发音纠正要点；结合目标用户语音和标准语音，使用预训练的重排序模型对N个待排序发音纠正要点进行重排序；N为设定值。

重排序模型的输入为N个待排序发音纠正要点、目标用户发音和标准语音，输出为排序后的topN个发音纠正要点。

S37、将重排序后的发音纠正要点与目标用户语音、标准语音输入预训练的大语言模型，大语言模型输出最终发音纠正要点；

大语言模型结合目标用户语音和标准语音，参考、总结重排序后的发音纠正要点，最终获得可将目标用户语音纠正到标准语音的最终发音纠正要点并输出。从发音纠错数据集中根据向量相似度选择的多个发音纠正要点进行排序，有利于大语言模型决定各个发音纠正要点的参考权重，从而快速、精确的得到最终的发音纠正要点。

S38、将目标拼音组合与最终发音纠正要点相关联增量存储到发音纠错数据集中，将待检索语音向量标注为目标拼音组合的参照语音向量。

本实施方式提出的说话人声纹识别模型，用于从获取的语音数据中提取目标用户的说话语音作为目标用户语音。

说话人声纹识别模型包括顺序连接的声纹特征提取模块、注意力特征提取模块和分类器，声纹特征提取模块用于从输入语音中提取符合目标用户声纹特征的语音作为说话人语音；注意力特征提取模块用于提取说话人语音的注意力特征，分类器基于注意力特征对说话人语音进行分类，判断说话人语音是否为目标用户的说话语音，说话人声纹识别模型将分类为目标用户的说话语音的说话人语音作为目标用户语音输出。

具体的，声纹特征提取模块包括顺序连接的输入层，频率特征嵌入网络和上下文特征融合网络；输入层用于提取语音数据的时域信息并窗口化处理，频率特征嵌入网络从各窗口化的时域信息中提取语音的频率特征并生成指定长度的特征向量，上下文特征融合网络用于将频率特征嵌入网络输出的所有特征向量融合为上下文特征向量。

假设，第i个语音数据记作x _i，输入层将x _i处理为时域信息ε _i，ε _i窗口化后形成m个窗口化的时域信息，记作ε _i={ε _i,1,ε _i,2,…,ε _i,k,…,ε _i,m}，k为序号，1≤k≤m；

频率特征嵌入网络从ε _i,k提取语音的频率特征并生成指定长度的特征向量a _i+k，得到所有特征向量{a _i+1,a _i+2,…,a _i+k,…,a _i+m}；

上下文特征融合网络将特征向量{a _i+1,a _i+2,…,a _i+k,…,a _i+m}进行融合形成上下文特征向量c _i。

本实施方式中，频率特征嵌入网络由多层卷积神经网络构成，具体可设置频率特征嵌入网络的卷积层层数不少于6层。上下文特征融合网络的卷积层层数不少于10，且上下文特征融合网络中卷积层的卷积核大小随着卷积层逐层递增，以实现逐层扩大上下文融合范围。

注意力特征提取模块包括顺序连接的卷积层、ResNet特征提取网络、注意力层和全连接层。分类器采用softmax分类器。

参照图3，本发明提出的说话人声纹识别模型的训练过程包括以下步骤。

St1、构建声纹特征提取模块，并进行无监督预训练，直至迭代次数达到设定的迭代次数。

对声纹特征提取模块进行无监督训练时，在无噪音环境下采集的目标用户的语音作为正样本，对正样本进行窗口化处理后作为正样本训练数据。负样本的生成方式为：对正样本进行多频段调频以生成多个相同内容不同声纹的用户语音作为备选样本；将备选样本调频后再叠加随机噪声，形成负样本，再对负样本进行窗口化处理后作为负样本训练数据。正样本训练数据和负样本训练数据的窗口长度一致。

声纹特征提取模型的损失函数设计为对比频率特征向量和上下文特征向量。该损失计算以当前时刻的上下文特征融合网络输出为参照，距离该参照输出向量给定阈值距离范围内的特征嵌入层输出为正样本。目标说话人的语音经过n次不同程度的加噪和调频后形成n个不同说话人的语音，在n个语音上以正样本对应时刻向左右滑动时间t进行采样得到负样本。该声纹特征提取模型训练过程中每一步的对比损失L计算公式如下：

其中，L _k为第k个窗口上的时域信息对应的损失，m为窗口总数量；i为输入的语音样本x _i的下标，I为输入的语音样本x _i的总数量；a _i+k为特征嵌入网络针对ε _i,k生成的特征向量，c _i为语音样本x _i对应的上下文特征向量，f _k为对应当前步数k的特征空间映射函数，f _k(c _i)=W _k c _i+b _k，f _k(c _i)的空间结构与a _i+k相同，W _k表示将c _i映射到a _i+k的空间的矩阵，b _k为将c _i映射到a _i+k的空间的偏置。S为负样本采样策略，λ _S为设定常数，为对x _i基于负样本采样策略S采样得到的负样本对应的频率特征嵌入网络的输出，σ是sigmoid激活函数。

本实施方式中，通过将多步计算得到的L _k进行求和，并对求和损失进行优化，实现对模型的优化。

St2、将预训练后的声纹特征提取模块与初始化的注意力特征提取模块和分类器顺序连接形成基础模型；构建学习样本集用于存储标注说话人标签的样本数据；样本数据为：正样本、增强后的正样本、负样本或者增强后的负样本。正负样本的增强方式包括加混响、音频调速、频谱增强等。说话人标签包括：目标用户以及非目标用户。

St3、令基础模型在学习样本集上进行有监督训练，直至基础模型收敛后，固定基础模型作为说话人声纹识别模型。

基础模型的有监督训练过程包括以下步骤：

St31、从学习样本中选择多个训练样本，令训练样本对学习样本进行学习，以迭代基础模型参数；

St32、从学习样本中选择多个验证样本代入基础模型，基础模型输出验证样本的预测标签；

St33、在验证样本上计算模型损失，模型损失可以是预测标签和真实标签的均方差、交叉熵或者是模型精度；判断基础模型是否收敛；否，则返回步骤St31；是，则固定基础模型作为说话人声纹识别模型。

本实施方式提出的嘈杂环境下听障人士汉语发音计算机辅助学习装置，包括：

语音输入模块，用于收集音频数据；

具体的，模拟沟通情景下设有多条情景语句及语句对应的拼音表达式，语音纠错模块获取与目标用户语音的拼音表达式相似度最高的情景语句拼音表达式作为纠正后的拼音表达式。

发音要点搜索模块，用于获取目标用户语音与标准语音的发音要点。

本发明提出的另一种嘈杂环境下听障人士汉语发音计算机辅助学习装置，包括存储器和处理器，存储器存储有计算机程序，处理器与存储器连接，处理器用于执行所述计算机程序，以实现所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法。

当然，对于本领域技术人员而言，本发明不限于上述示范性实施例的细节，而还包括在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现的相同或类似结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种嘈杂环境下听障人士汉语发音计算机辅助学习方法，其特征在于：

说话人声纹识别模型的训练过程为：采用无监督学习方式对声纹特征提取模块进行预训练，然后组合预训练后的声纹特征提取模块、注意力特征提取模块和分类器作为基础模型，最后采用有监督学习方式对基础模型进行训练，固定收敛后的基础模型作为说话人声纹识别模型，其输入为语音数据，输出为目标用户语音；

声纹特征提取模块包括顺序连接的输入层，频率特征嵌入网络和上下文特征融合网络；输入层用于提取语音数据的时域信息并窗口化处理，频率特征嵌入网络从各窗口化的时域信息中提取语音的频率特征并生成指定长度的特征向量，上下文特征融合网络用于将频率特征嵌入网络输出的所有特征向量融合为上下文特征向量；上下文特征融合网络采用多层卷积神经网络，上下文特征融合网络中卷积层的卷积核大小随着卷积层逐层递增；

注意力特征提取模块包括顺序连接的卷积层、ResNet特征提取网络、注意力层和全连接层；

采用无监督学习方式对声纹特征提取模块进行预训练时：在无噪音环境下采集的目标用户的语音作为正样本，对正样本进行窗口化处理后作为正样本训练数据；负样本的生成方式为：对正样本进行多频段调频以生成多个相同内容不同声纹的用户语音作为备选样本；将备选样本调频后再叠加随机噪声，形成负样本，再对负样本进行窗口化处理后作为负样本训练数据；

采用有监督学习方式对基础模型进行训练时，学习样本为标注说话人标签的样本数据；样本数据为：正样本、增强后的正样本、负样本或者增强后的负样本；正负样本的增强方式包括加混响、音频调速和/或频谱增强；说话人标签包括：目标用户以及非目标用户；

基于预先构建的汉语语音样本数据集，获取标准语音和目标用户语音的拼音表达式；汉语语音样本数据集用于存储标注有拼音表达式的语音样本，语音样本包括标准发音样本和发音障碍者的样本，拼音表达式涵盖声母、韵母和声调；

语音样本的拼音表达式通过预训练的语音转拼音模型生成，语音转拼音模型的输入为语音，输出为输入的语音的拼音表达式；语音转拼音模型包括特征提取模块、多层LSTM深度学习架构、注意力机制模块和输出层；特征提取模块、多层LSTM深度学习架构和输出层顺序连接，注意力机制模块设置在语音转拼音模型的输入端与输出层之间；特征提取模块用于提取输入语音的声学声调特征，多层LSTM深度学习架构捕捉语音特征中声学声调特征的时序关系特征，注意力机制模块基于输入语音生成表征音节和声调变化的注意力特征，输出层基于时序关系特征和注意力特征生成输入语音的拼音表达式；

通过检索预先设置的发音纠错数据集获取将目标用户语音纠正到标准语音的发音纠正要点；发音纠错数据集存储有标注发音纠正要点以及参照语音向量的拼音组合，拼音组合包括待纠正语音的拼音表达式和纠正后标准语音的拼音表达式，参照语音向量为对应的拼音组合中两个拼音表达式合并后对应的标准语音的语音向量；

检索发音纠错数据集时，首先获取目标用户语音的拼音表达式与标准语音的拼音表达式构成的目标拼音组合，再将目标拼音组合中的两个拼音表达式合并后向量化，作为待检索语音向量，然后根据待检索语音向量与参照语音向量的相似度进行检索；

当待检索语音向量与参照语音向量的相似度达到设定的第二阈值，判断两者一致；当发音纠错数据集中不存在与待检索语音向量一致的参照语音向量时，根据以下步骤生成将目标用户语音纠正到标准语音的发音纠正要点：

将重排序后的发音纠正要点与目标用户语音、标准语音输入预训练的大语言模型，大语言模型输出最终发音纠正要点，用于将目标用户语音纠正到标准语音；

发音纠正要点用于指导用户将待纠正语音的音调纠正为纠正后标准语音的音调；发音纠正要点包括针对音标、文字、词组、句子、声调和声韵的发音部位和送气方式的调整建议。

2.如权利要求1所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法，其特征在于，频率特征嵌入网络采用多层卷积神经网络。

3.如权利要求1所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法，其特征在于，分类器采用softmax分类器。

4.如权利要求1所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法，其特征在于，大语言模型输出最终发音纠正要点后，将目标拼音组合与最终发音纠正要点相关联增量存储到发音纠错数据集中，将待检索语音向量标注为目标拼音组合的参照语音向量。

5.一种采用如权利要求1-4任一项所述的嘈杂环境下听障人士汉语发音计算机辅助学习方法的装置，其特征在于，包括：

场景诱导模块，存储有多种模拟沟通场景，用户在场景诱导模块选取模拟沟通场景；

语音输入模块，用于收集音频数据；

语音纠错模块分别连接场景诱导模块和说话人声纹识别模块，语音纠错模块用于生成目标用户语音的拼音表达式；语音纠错模块根据选取的模拟沟通场景对目标用户语音的拼音表达式进行拼音检查与纠正；