CN117275456A

CN117275456A - 一种支持多语种的智能听说训练装置

Info

Publication number: CN117275456A
Application number: CN202311347827.5A
Authority: CN
Inventors: 赵胜; 丁卓; 鲁宁
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-22

Abstract

本发明涉及语种学习技术领域，具体公开了一种支持多语种的智能听说训练装置，包括主机本体、语音真实度模块、语法语义模块、上下文处理模块、SVC克隆模块和TTS心情模块；本发明提供了录音和回放、发音评估、口语练习材料选择与浏览、实时对话交流的多个功能模块，能够满足用户进行口语训练所需的各个方面的需求，用户可以在一个装置上完成全面的口语训练，无需在不同的平台或设备上切换，能够根据用户的口语练习数据和分析结果，给出个性化的评估和建议，可以根据用户的口语表现，评估发音准确度、流利度、语速的关键指标，给出相对应的评分和建议，帮助用户改进口语的表达能力。

Description

一种支持多语种的智能听说训练装置

技术领域

本发明涉及语种学习技术领域，尤其涉及一种支持多语种的智能听说训练装置。

背景技术

目前，口语训练装置在市场上呈现快速发展的态势，口语训练装置是一种应用于语言学习和口语能力提升的技术设备，随着对语言学习和国际交流的需求增加，口语训练装置成为了一个备受关注的领域，主要可以帮助用户进行口语训练和提高口语表达能力，模拟真实对话情境，提供语音的输入和输出，及时纠正发音错误，让用户在练习过程中获得反馈和指导。

但现有技术中，当前市面上存在的口语训练装置存在局限性，缺乏语音真实度、语法和语义的理解、上下文处理困难和缺乏定制性的问题。

发明内容

本发明的目的在于提供一种支持多语种的智能听说训练装置，旨在解决现有技术中的当前市面上存在的口语训练装置存在局限性，缺乏语音真实度、语法和语义的理解、上下文处理困难和缺乏定制性的技术问题。

为实现上述目的，本发明采用的一种支持多语种的智能听说训练装置，包括主机本体、语音真实度模块、语法语义模块、上下文处理模块、SVC克隆模块和TTS心情模块；

所述主机机体用于对模块进行连接与控制；

所述语音真实度模块，通过引入TTS技术和丰富多样的说话人库，使合成语音更接近真实的人类语音表达水平，提高用户的学习效果和体验；

所述语法语义模块，通过不断优化NLP技术，改进对语法语义理解的准确性，更好地理解用户的意图并给予相应的回复和指导；

所述上下文处理模块，通过引入先进的对话系统技术，显著改善了现有口语训练系统在处理复杂上下文环境时的困难；

所述SVC克隆模块，通过采集大量说话人的语音样本并进行声音建模，实现定制音色和发音习惯，用户可以选择自己喜欢的声音和发音风格，使训练装置生成与其真实声音更接近的合成语音，提高语音的真实度和个性化程度；

所述TTS心情模块，采用先进的情感合成技术，结合文本内容和语境情感，为合成语音赋予不同的人物心情。

其中，所述支持多语种的智能听说训练装置还包括录音回放模块、发音评估模块、口语练习材料模块、即时互动模块、个性化评估模块和自定义场景模块；

所述录音回放模块，利用设备内置的麦克风进行声音录制，并将录制的音频保存在设备之中进行存储；

所述发音评估模块，通过分析用户的口语表达与标准的发音模型之间的差异，给出评分和反馈；

所述口语练习材料模块，提供多种类型的口语练习材料，帮助用户进行口语的训练的提高；

所述即时互动模块，利用语音识别和自然语言处理技术，将用户的口语表达转化为文本，并给予规则或者机器学习模型进行语义理解，然后，根据用户的输入提供相应的回复，使用现有的开源库或自行开发实现，通过语音识别和自然语言处理技术，实现用户与系统之间的实时对话和交流；

所述个性化评估模块，基于用户的口语练习数据和分析结果，设计个性化评估指标和算法，可以使用机器人学习模型，来预测用户在不同方面的表现，并给出相应的评估得分；

所述自定义场景模块，用户通过拖拽文件或者指定文件路径的方式，将自己感兴趣的口语练习场景导入到训练装置之中。

其中，所述支持多语种的智能听说训练装置还包括进度追踪模块和自适应学习模块；

所述进度追踪模块，通过记录和分析用户的口语练习数据，利用机器学习和数据分析算法提取关键指标和统计信息，预测用户在不同方面的表现并给出评估得分，根据用户的口语练习情况，为用户提供个性化的建议和改进方向；

所述自适应学习模块，能够根据用户的表现和学习需求，动态地调整学习内容和难度，通过监测用户的进步和弱点，并根据用户的学习目标和能力水平，自动旋转适合的口语练习材料和技巧，提供个性化的学习路径和训练计划。

其中，所述语音真实度模块，引入WaveNet技术，WaveNet是一种基于深度学习的TTS合成技术，通过建模人类声音生成过程，能够生成高品质和逼真的语音，将使用WaveNet技术作为语音合成的核心算法，以提供更加自然、流程的合成语音效果；

通过WaveNet技术，合成的语音将更接近真实的人力语音表达水平，给用户带来更好的学习效果和沉浸式的口语训练体验；

用户可根据个人喜好和学习需求，旋转自己喜欢的说话人进行学习，说话人库中包含不同年龄、性别、地域特征的说话人，口语满足用户对语言特点的不同偏好和个性化需求。

其中，所述发音评估模块，先对用户录制的音频进行声音预处理，包括去噪、降噪和音量标准化，可以使用信号处理算法实现，使用滤波器进行去噪、使用动态范围压缩算法进行音量标准化，建立标准的发音模型，用于与用户的口语表达进行比较，根据差异度量指标给出评分和反馈，通过阈值来判断发音是否准确，根据阈值的不同，可以给出不同的评分和针对性的建议，评分采用百分制或其他形式，可以根据评估结果给出具体的改进方向；在用户界面上，提供一个控制按钮，用户点击按钮则会对用户的发音进行评估，并返回结果。

本发明的一种支持多语种的智能听说训练装置的有益效果为：提供了录音和回放、发音评估、口语练习材料选择与浏览、实时对话交流的多个功能模块，能够满足用户进行口语训练所需的各个方面的需求，用户可以在一个装置上完成全面的口语训练，无需在不同的平台或设备上切换，利用数据记录与分析和所述个性化评估模块的技术，能够根据用户的口语练习数据和分析结果，给出个性化的评估和建议，可以根据用户的口语表现，评估发音准确度、流利度、语速的关键指标，给出相对应的评分和建议，帮助用户改进口语的表达能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种支持多语种的智能听说训练装置的结构示意图。

1-主机本体、2-语音真实度模块、3-语法语义模块、4-上下文处理模块、5-SVC克隆模块、6-TTS心情模块、7-录音回放模块、8-发音评估模块、9-口语练习材料模块、10-即时互动模块、11-个性化评估模块、12-自定义场景模块、13-进度追踪模块、14-自适应学习模块。

具体实施方式

请参阅图1，本发明提供了一种支持多语种的智能听说训练装置，包括主机本体1、语音真实度模块2、语法语义模块3、上下文处理模块4、SVC克隆模块5和TTS心情模块6；

所述主机机体用于对模块进行连接与控制；

所述语音真实度模块2，通过引入TTS技术和丰富多样的说话人库，使合成语音更接近真实的人类语音表达水平，提高用户的学习效果和体验；

所述语法语义模块3，通过不断优化NLP技术，改进对语法语义理解的准确性，更好地理解用户的意图并给予相应的回复和指导；

所述上下文处理模块4，通过引入先进的对话系统技术，显著改善了现有口语训练系统在处理复杂上下文环境时的困难；

所述SVC克隆模块5，通过采集大量说话人的语音样本并进行声音建模，实现定制音色和发音习惯，用户可以选择自己喜欢的声音和发音风格，使训练装置生成与其真实声音更接近的合成语音，提高语音的真实度和个性化程度；

所述TTS心情模块6，采用先进的情感合成技术，结合文本内容和语境情感，为合成语音赋予不同的人物心情。

进一步地，所述支持多语种的智能听说训练装置还包括录音回放模块7、发音评估模块8、口语练习材料模块9、即时互动模块10、个性化评估模块11和自定义场景模块12；

所述录音回放模块7，利用设备内置的麦克风进行声音录制，并将录制的音频保存在设备之中进行存储；

所述发音评估模块8，通过分析用户的口语表达与标准的发音模型之间的差异，给出评分和反馈；

所述口语练习材料模块9，提供多种类型的口语练习材料，帮助用户进行口语的训练的提高；

所述即时互动模块10，利用语音识别和自然语言处理技术，将用户的口语表达转化为文本，并给予规则或者机器学习模型进行语义理解，然后，根据用户的输入提供相应的回复，使用现有的开源库或自行开发实现，通过语音识别和自然语言处理技术，实现用户与系统之间的实时对话和交流；

所述个性化评估模块11，基于用户的口语练习数据和分析结果，设计个性化评估指标和算法，可以使用机器人学习模型，来预测用户在不同方面的表现，并给出相应的评估得分；

所述自定义场景模块12，用户通过拖拽文件或者指定文件路径的方式，将自己感兴趣的口语练习场景导入到训练装置之中。

进一步地，所述支持多语种的智能听说训练装置还包括进度追踪模块13和自适应学习模块14；

所述进度追踪模块13，通过记录和分析用户的口语练习数据，利用机器学习和数据分析算法提取关键指标和统计信息，预测用户在不同方面的表现并给出评估得分，根据用户的口语练习情况，为用户提供个性化的建议和改进方向；

所述自适应学习模块14，能够根据用户的表现和学习需求，动态地调整学习内容和难度，通过监测用户的进步和弱点，并根据用户的学习目标和能力水平，自动旋转适合的口语练习材料和技巧，提供个性化的学习路径和训练计划。

进一步地，所述语音真实度模块2，引入WaveNet技术，WaveNet是一种基于深度学习的TTS合成技术，通过建模人类声音生成过程，能够生成高品质和逼真的语音，将使用WaveNet技术作为语音合成的核心算法，以提供更加自然、流程的合成语音效果；

进一步地，所述发音评估模块8，先对用户录制的音频进行声音预处理，包括去噪、降噪和音量标准化，可以使用信号处理算法实现，使用滤波器进行去噪、使用动态范围压缩算法进行音量标准化，建立标准的发音模型，用于与用户的口语表达进行比较，根据差异度量指标给出评分和反馈，通过阈值来判断发音是否准确，根据阈值的不同，可以给出不同的评分和针对性的建议，评分采用百分制或其他形式，可以根据评估结果给出具体的改进方向；在用户界面上，提供一个控制按钮，用户点击按钮则会对用户的发音进行评估，并返回结果。

在本实施方式中，所述语音真实度模块2通过提供多样化的说话人选择，用户可以自由挑选与自己相似或感兴趣的说话人，使训练过程更贴近实际口语场景，增强学习效果和参与度，相对于现有技术中，无法满足用户对个性化选择的需求，所述语音真实度模块2可以使得训练过程更加贴合个人特点，提高学习效果；

所述语法语义模块3，引入基于深度学习的语言模型，语言模型能够更精准地分析句子中的词语顺序、语法规则以及句子间的语义关联，减少语法错误和理解偏差，用户无论使用简单或复杂的句子进行口语训练，系统都能够更准确地解析其含义，并给予相应的回复和指导；结合语义角色标注和命名实体识别，在语义理解的过程中，通过标注句子中的语义角色和识别命名实体，系统能够更好地理解句子的意图和上下文信息，更准确的语法和语义理解，通过引入语义角色标注和命名实体识别的技术，本发明的系统能够更全面地理解句子的含义，并将其转化为准确的语义表达，这使得系统能够更好地对用户进行回复和指导，促进口语训练的效果提升，提供个性化的训练内容和难度设置，用户可以根据自己的需要选择感兴趣的主题和话题，以及注重的口语方面，同时，系统还根据用户的特点和反馈进行个性化的训练和调整，使口语训练装置具备更高的准确性和智能化水平；

所述上下文处理模块4，上下文感知对话模型，我们采用了基于深度学习的循环神经网络和注意力机制的对话模型，使系统能够在对话过程中动态地建模和记忆对话历史，该模型能够检测到用户的意图转换、问题延伸和信息遗漏的情况，并根据上下文信息生成更准确和连贯的回复，提高对复杂问题的理解和解答能力，强化学习算法：为了进一步优化对话系统的性能，我们引入了强化学习算法进行对话策略的学习和优化，通过定义合适的奖励函数和状态转移规则，系统可以根据用户的反馈和表达习惯进行自动调整和改进，提高对话过程中的交互效果和用户满意度，大规模训练数据集：为了增强系统对不同语境的适应能力，我们构建了一个大规模的训练数据集，包含了各种语言结构、表达方式和上下文环境的对话样本，通过在这个数据集上进行深度学习训练，对话系统可以从丰富的语言背景中学习和泛化，提升对多样化上下文的处理能力；

所述SVC克隆模块5，通过采集大量说话人的语音样本并进行声音建模，可以实现定制音色和发音习惯，用户可以选择自己喜欢的声音和发音风格，从而生成与其真实声音更接近的合成语音，现有的合成语音技术通常无法根据用户的真实声音进行个性化合成，而本发明通过引入SVC声音克隆技术，用户可以获得与自己真实声音更接近的合成语音，增加了口语训练的真实感和个性化程度；

所述TTS心情模块6，通过TTS添加人物心情的技术创新，我们的口语训练装置可以根据文本内容和语境情感，为合成语音赋予相应的情感表达；

所述录音回放模块7，为了提高录音和回放功能的用户体验和性能，进行以下优化措施：

录音参数优化：根据不同的应用场景和设备特性，选择合适的录音参数，例如，对于语音训练装置，我们可以选择适当的采样率和位深度来平衡录音质量和文件大小；

实时显示录音波形：在录音过程中，实时显示录音波形可以帮助用户更好地监控录音进度和录音质量，可以通过在设备界面上添加一个波形图来实现该功能；

回放控制：在回放功能中，添加一些常用的控制选项，如播放、暂停、快进、倒退的按钮，以方便用户对录音文件进行操作；

增加时间戳标记：为了方便用户定位特定的片段或错误，可以在录音和回放过程中添加时间戳标记，用户可以通过点击屏幕上的标记按钮来添加标记，并在需要时跳转到指定的时间点；

录音文件管理：为了方便用户管理录音文件，可以提供一个文件管理界面，用户可以对录音文件进行重命名、删除、导出的操作；

音频剪辑和合并：为了进一步满足用户的需求，可以添加音频剪辑和合并功能，用户可以选择指定的时间区间进行剪辑，或将多个录音文件合并为一个文件；

所述发音评估模块8，首先，对用户录制的音频进行声音预处理，包括去噪、降噪、音量标准化，这可以使用信号处理算法来实现，使用滤波器进行去噪，使用动态范围压缩算法进行音量标准化；

将用户的口语表达与发音模型进行比较，计算差异度量指标，常用的指标包括欧氏距离、动态时间规整，通过这些指标可以衡量用户的发音与标准发音之间的差异程度；

根据差异度量指标给出评分和反馈，可以设定一定的阈值来判断发音是否准确，根据阈值的不同，可以给出不同的评分和针对性的建议，评分可以采用百分制或其他形式，而建议可以根据评估结果给出具体的改进方向，提醒用户注意音调和发音时长；

所述即时互动模块10，利用语音识别和自然语言处理技术，将用户的口语表达转化为文本，并基于规则或机器学习模型进行语义理解，然后，根据用户的输入提供相应的回复，这可以使用现有的开源库或自行开发实现，所述即时互动模块10是口语训练装置中非常重要的功能，它能够通过语音识别和自然语言处理技术，实现用户与系统之间的实时对话和交流，在所述即时互动模块10中，进行语音识别、自然语言处理和回复生成；

语音识别：使用现有的开源库或云服务，将用户的口语表达转化为文本，通过设置正确的采样率和音频格式进行音频的录制和传输；

自然语言处理：利用自然语言处理技术，对用户输入的文本进行语义理解和意图提取；

回复生成：基于用户输入的文本和系统的语义理解结果，利用自然语言生成技术生成回复文本；

所述个性化评估模块11，利用数据分析和机器学习技术，将用户的口语练习情况进行记录和分析，并基于用户的表现给出个性化的评估和建议，可以使用模型训练、特征提取和数据可视化的技术手段来实现该功能；

所述自定义场景模块12，提供一个接口或功能，使用户能够导入自己感兴趣的口语练习场景，用户可以通过拖拽文件或指定文件路径的方式导入自定义的练习材料，为了增加口语训练装置的灵活性和趣味性，提供支持自定义导入功能，用户可以根据自己的需求，导入自定义的口语练习场景、克隆说话人音色以及提供复杂场景模拟。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种支持多语种的智能听说训练装置，其特征在于，

包括主机本体、语音真实度模块、语法语义模块、上下文处理模块、SVC克隆模块和TTS心情模块；

所述主机机体用于对模块进行连接与控制；

2.如权利要求1所述的一种支持多语种的智能听说训练装置，其特征在于，

所述支持多语种的智能听说训练装置还包括录音回放模块、发音评估模块、口语练习材料模块、即时互动模块、个性化评估模块和自定义场景模块；

3.如权利要求2所述的一种支持多语种的智能听说训练装置，其特征在于，

所述支持多语种的智能听说训练装置还包括进度追踪模块和自适应学习模块；

4.如权利要求3所述的一种支持多语种的智能听说训练装置，其特征在于，

所述语音真实度模块，引入WaveNet技术，WaveNet是一种基于深度学习的TTS合成技术，通过建模人类声音生成过程，能够生成高品质和逼真的语音，将使用WaveNet技术作为语音合成的核心算法，以提供更加自然、流程的合成语音效果；

5.如权利要求4所述的一种支持多语种的智能听说训练装置，其特征在于，

所述发音评估模块，先对用户录制的音频进行声音预处理，包括去噪、降噪和音量标准化，可以使用信号处理算法实现，使用滤波器进行去噪、使用动态范围压缩算法进行音量标准化，建立标准的发音模型，用于与用户的口语表达进行比较，根据差异度量指标给出评分和反馈，通过阈值来判断发音是否准确，根据阈值的不同，可以给出不同的评分和针对性的建议，评分采用百分制或其他形式，可以根据评估结果给出具体的改进方向；在用户界面上，提供一个控制按钮，用户点击按钮则会对用户的发音进行评估，并返回结果。