CN116484318A

CN116484318A - 一种演讲训练反馈方法、装置及存储介质

Info

Publication number: CN116484318A
Application number: CN202310734647.6A
Authority: CN
Inventors: 李翔; 赵璧; 刘慧�; 张龙; 方泽军
Original assignee: Xinlicheng Education Technology Co ltd
Current assignee: Xinlicheng Education Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-07-25
Anticipated expiration: 2043-06-20
Also published as: CN116484318B

Abstract

本发明公开了一种演讲训练反馈方法、装置及存储介质，通过采集设备实时获取演讲者的图像数据以及声音数据,图像数据包括演讲者的所在空间的三维深度信息,基于多模态数据进行后续处理分析，有利于提供更加准确的数据支持；通过边缘设备实时地基于自适应增强模型以及区域注意力机制对图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，实现更快速的处理速度，保证实时性；匹配目标演讲效果评估模型输出改进建议，保证了模态分析结果以及改进建议的实时性，有利于演讲者及时改进调整，提高演讲效果，考虑演讲者的需求，有利于提高用户体验。

Description

一种演讲训练反馈方法、装置及存储介质

技术领域

本发明涉及深度学习技术领域，特别是涉及一种演讲训练反馈方法、装置及存储介质。

背景技术

传统对人物对象的分析方法往往只考虑单一的数据源，例如对表情进行单一的分析，数据来源单一导致最终的分析结果准确性较差。同时，传统的图像数据处理往往是在云端进行的，大量图像数据上传至云端，对网络的要求高，并且存在计算延迟高、处理速度慢的问题。最后，传统分析的方法仅仅考虑人物本身的表现而忽略了不同人物对象的不同需求，用户体验差。

发明内容

基于此，本发明的目的在于解决上述问题中的至少之一，提供一种演讲训练反馈方法、装置及存储介质。

本发明实施例提供了一种演讲训练反馈方法，包括：

通过采集设备实时获取演讲者的图像数据以及声音数据；所述图像数据包括所述演讲者的所在空间的三维深度信息；

通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量；

通过所述边缘设备实时地对所述融合特征向量进行模态分析，得到模态分析结果，并响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示所述模态分析结果以及所述改进建议。

进一步，所述通过采集设备实时获取演讲者的图像数据以及声音数据，包括：

通过AI辅助调节系统实时检测所述演讲者的姿态和位置，自动调节高清摄像头以及深度摄像头的位置角度，以通过所述高清摄像头实时获取所述演讲者的高清图像以及通过所述深度摄像头实时获取所述三维深度信息，得到所述图像数据；

通过灵敏麦克风实时采集所述演讲者的声音信号以及通过阵列麦克风实时采集所述演讲者的所在空间的噪声信号并进行降噪处理，得到所述声音数据。

进一步，所述基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理，包括：

基于自适应增强模型对所述图像数据的图像信息进行自适应调整得到质量提高后的新图像数据；

基于所述区域注意力机制学习所述新图像数据不同区域的重要性以及关注度，以对所述新图像数据的不同区域进行不同程度的图像处理，得到第一处理结果。

进一步，所述方法还包括：

通过所述边缘设备实时地通过外表情感识别模型，对所述图像数据或者所述第一处理结果进行外表情感分析，得到所述演讲者的外表情感信息，获取场景信息或者第二需求信息，根据所述外表情感信息以及根据所述场景信息和第二需求信息中的其中一个，实时显示对所述演讲者的外表情感调整建议；

通过所述边缘设备实时地通过语音情感识别模型进行声音情感分析，得到所述演讲者的声音情感信息，获取场景信息或者第三需求信息，根据所述声音情感信息以及根据所述场景信息和第三需求信息中的其中一个，实时显示对所述演讲者的声音情感调整建议。

进一步，所述基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理，包括：

基于所述自适应抑制模型根据所述演讲者的所在空间的噪声特征对所述声音数据进行自适应抑制，得到质量提高后的新声音数据；

基于所述语音活动检测模型对所述新声音数据进行活动检测，识别所述演讲者的声音信号的开始时间以及结束时间，保留所述开始时间至所述结束时间之间的声音信号，得到第二处理结果。

进一步，所述对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量，包括：

通过特征提取模型对所述第一处理结果以及所述第二处理结果通过多模态融合得到多模态数据；

对所述多模态数据进行端到端的学习和特征提取，得到所述融合特征向量；

其中，所述特征提取模型通过教师模型进行蒸馏学习，并进行模型压缩处理后得到。

进一步，所述响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示所述模态分析结果以及所述改进建议，包括：

响应于输入的第一需求信息，提取所述第一需求信息中的关键词；所述第一需求信息包括所述演讲者输入的信息以及通过收看终端观看所述演讲者的观众所输入的信息中的至少一种；

将所述关键词与所述边缘设备的数据库中的演讲效果评估模型的标签进行相似度计算；

将相似度最高的演讲效果评估模型作为所述目标演讲效果评估模型输出改进建议，并将所述改进建议以及所述模态分析结果在所述边缘设备中实时显示。

本发明实施例还提供一种演讲训练反馈装置，包括：

获取模块，用于通过采集设备实时获取演讲者的图像数据以及声音数据；所述图像数据包括所述演讲者的所在空间的三维深度信息；

处理模块，用于通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量；

分析显示模块，用于通过所述边缘设备实时地对所述融合特征向量进行模态分析，得到模态分析结果，并响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示所述模态分析结果以及所述改进建议。

本发明实施例还提供一种演讲训练反馈装置，所述演讲训练反馈装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。

本发明的有益效果是：

通过采集设备实时获取演讲者的图像数据以及声音数据,所述图像数据包括所述演讲者的所在空间的三维深度信息,通过采集演讲者的图像数据以及声音数据，并且包含有演讲者的所在空间的三维深度信息，基于多模态数据进行后续处理分析，有利于提供更加准确的数据支持，提高处理分析的准确性；通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量，实现了更快速的处理速度和更低的能耗，提高了数据处理的实时性，并且提高图像数据以及声音数据的特征表达能力；通过所述边缘设备实时地对所述融合特征向量进行模态分析，得到模态分析结果，并响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示所述模态分析结果以及所述改进建议，保证了模态分析结果以及改进建议的实时性，有利于演讲者及时改进调整，提高演讲效果；同时考虑了演讲者的需求，有利于提高用户体验。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明演讲训练反馈方法的步骤流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本发明实施例提供一种演讲训练反馈方法，包括步骤S100-S300：

S100、通过采集设备实时获取演讲者的图像数据以及声音数据。

可选地，步骤S100包括步骤S110-S130：

S110、通过AI辅助调节系统实时检测演讲者的姿态和位置，自动调节高清摄像头以及深度摄像头的位置角度，以通过高清摄像头实时获取演讲者的高清图像以及通过深度摄像头实时获取三维深度信息，得到图像数据。

本发明实施例中，设置AI辅助调节系统通过计算机视觉技术实时检测演讲者的姿态和位置，然后自动调节高清摄像头以及深度摄像头的位置角度，从而确保图像数据的准确性和可用性。由于实时检测演讲者的姿态和位置进行自动调整，因此通过高清摄像头可以实时获取演讲者的高清图像，捕捉训练者的面部表情和身体姿态，以及通过深度摄像头可以实时获取三维深度信息，如演讲者的所在空间的三维深度信息，包括但不限于距离、方向等等，得到图像数据。传统的拍摄仅通过单一摄像头，无法获取图像的深度信息，采用高清摄像头和深度摄像头相结合的方式，可以同时获取图像的高清和深度信息，从而更加准确地获取演讲者的图像数据。

S120、通过灵敏麦克风实时采集演讲者的声音信号以及通过阵列麦克风实时采集演讲者的所在空间的噪声信号并进行降噪处理，得到声音数据。

本发明实施例中，设置灵敏麦克风(灵敏度高于灵敏度阈值)实时采集演讲者的声音信号，以及通过阵列麦克风实时采集演讲者的所在空间的噪声信号并进行降噪处理，得到最终采集的演讲者的的声音数据。传统的声音采集，采集设备往往只使用单一的麦克风，无法获取用户的空间位置信息，而本申请采用了阵列麦克风相结合的方式，可以获取用户的声音和空间位置信息，从而更加准确地获取用户的声音数据。

需要说明的是，通过上述方式采集图像数据以及声音数据，有利于实现对用户的多维度分析，提高了数据的采集质量和准确性，提高后续的训练效果，减少训练成本，提高训练的普适性和实用性，有助于演讲者全面了解自己的表现，并改善和提高他们的演讲技巧。

S200、通过边缘设备实时地基于自适应增强模型以及区域注意力机制对图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量。

需要说明的是，由于传统的采集数据需要上传至服务器进行数据的处理，服务器的压力大，并且需要经历数据上传、服务器处理到处理结果的反馈三个流程，需要时间长，实时性差，而演讲者训练时或者实际演讲时，可能会利用相应的用户终端进行录制或者直播，此时现场或者通过相应的终端需要收到实时的反馈/建议，从而使得演讲者可以实时地迅速进行调整，提高训练以及演讲的效果，因此对于演讲者来说，实时性非常重要。本发明实施例中，为了解决上述问题，利用边缘设备进行数据的相应实时处理，例如用于实时处理采集到的图像数据以及声音数据，将实时处理后的数据进行进一步的分析，而利用边缘设备(例如可以为用户终端)进行数据实时处理，降低数据传输的延迟和带宽占用，简化数据传输流程，提高数据采集的实时性和效率，提高获取到实时处理结果的速度，更好地满足演讲者实际应用场景的需求。

可选地，步骤S200中基于自适应增强模型以及区域注意力机制对图像数据进行第一处理，包括步骤S211-S212：

S211、基于自适应增强模型对图像数据的图像信息进行自适应调整得到质量提高后的新图像数据。

可选地，自适应增强模型可以通过自适应图像增强技术对图像数据中的图像信息进行自适应调整，适应不同光照和场景的变化，提高原来的图像数据的质量，生成质量提高后的更高质量的新图像数据，特别是在演讲场景中，区域性注意力机制能够加强对演讲者关键部位的关注，提高了演讲者相关特征的提取效果。需要说明的是，图像信息包括但不限于图像的亮度、对比度、饱和度等，对该些图像信息进行自适应调整，提高图像数据的清晰度和质量。

S212、基于区域注意力机制学习新图像数据不同区域的重要性以及关注度，以对新图像数据的不同区域进行不同程度的图像处理，得到第一处理结果。

可选地，利用区域性注意力机制，可以学习新图像数据不同区域的重要性以及关注度，例如可以对新图像数据中的感兴趣区域(即重要性、关注度高的区域)进行加权，提高图像的识别和分析能力，强调对演讲者的关键部位的特别关注，然后基于新图像数据不同区域的重要性以及关注度，对新图像数据的不同区域进行不同程度的图像处理，得到第一处理结果，有利于提高图像中演讲者相关特征的处理、提取效果。

可选地，步骤S200中基于自适应抑制模型以及语音活动检测模型对声音数据进行第二处理，包括步骤S221-S222：

S221、基于自适应抑制模型根据演讲者的所在空间的噪声特征对声音数据进行自适应抑制，得到质量提高后的新声音数据。

本发明实施例中，自适应抑制模型可以通过自适应噪音抑制技术根据演讲者的所在空间的噪声特征对声音数据进行自适应抑制，例如利用阵列麦克风实时采集演讲者的所在空间的噪声信号并进行降噪处理后的噪声处理结果对声音数据进行自适应抑制，提高语音的清晰度和质量，从而得到质量提高后的新声音数据。

S222、基于语音活动检测模型对新声音数据进行活动检测，识别演讲者的声音信号的开始时间以及结束时间，保留开始时间至结束时间之间的声音信号，得到第二处理结果。

本发明实施例中，语音活动检测模型可以通过语音活动检测技术，对新声音数据进行活动检测，从而识别演讲者的声音信号的开始时间以及结束时间，其他时间的声音需要进行剔除，以保证声音数据的准确性以及可用性，因此本发明实施例中保留开始时间至结束时间之间的声音信号，得到第二处理结果，该第二处理结果即为包含演讲者的演讲时间的目标声音信号，目标声音信号的可用性、准确性高，在演讲训练中能够更准确地捕捉演讲者的声音信息，帮助训练者更好地改进自己的发音、语速等语音表现，并且数据处理量大大减少，针对性强。

可选地，步骤S200中对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量，包括步骤S231-S232：

S231、通过特征提取模型对第一处理结果以及第二处理结果通过多模态融合得到多模态数据。

本发明实施例中，特征提取模型将第一处理结果以及第二处理结果融合在一起，以提取更加丰富和准确的特征信息，得到多模态数据。

S232、对多模态数据进行端到端的学习和特征提取，得到融合特征向量。

本发明实施例中，特征提取模型可以利用语音识别技术将多模态数据中的语音内容转换成文字形式的文字数据，然后对多模态数据进行端到端的学习和特征提取，提高特征的表征能力和分类准确率。具体地：利用深度学习技术对转换后的文字数据进行分析和处理，利用自适应特征选择技术提取出关键信息，包括但不限于语速、语调、发音等方面的表现，利用深度学习技术对多模态数据中的图像进行分析、提取，利用自适应特征选择技术提取出图像中的关键特征，如面部表情、肢体动作等，最终得到的融合特征向量中包含关键信息以及关键特征。通过自适应地选择最相关的特征，避免了不必要的计算和干扰，提高了模型的鲁棒性和准确性。

需要说明的是，利用自适应特征选择技术，可以根据不同任务需求自适应选择和调整特征，提高特征的适应性和泛化能力。特征提取模型包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、长短时记忆网络（LSTM）、自注意力机制（Self-Attention）、强化学习（Reinforcement Learning）等，通过教师模型进行蒸馏学习，并进行模型压缩处理后得到。为了适应于边缘设备如用户终端，降低用户终端的占用内存和对处理性能的需求，利用教师模型对特征提取模型进行蒸馏学习得到的学生模型作为特征提取模型，并对特征提取模型进行压缩处理，减小模型的参数量和计算复杂度，例如包括但不限于剪枝，得到轻量级模型，既能够保持模型的准确性，又能够降低模型的计算复杂度，从而提高了模型的实用性和适用性，部署在用户终端时，可以降低用户终端的占用内存和对处理性能的需求，提高模型的运行速度以及响应速度，满足实时性的应用场景需求。

S300、通过边缘设备实时地对融合特征向量进行模态分析，得到模态分析结果，并响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示模态分析结果以及改进建议。

本发明实施例中，通过边缘设备的识别模块对融合特征向量进行模态分析，对提取图像得到的特征以及识别声音得到的特征进行分析、预测，得到模态分析结果。可选地，可以通过决策层融合方法如投票（Voting）、加权平均（Weighted Average）的其中之一进行分类和预测。例如，通过分类结果可以知道语速过慢、适当、过快的哪一种，语调是过低、适当、过高的哪一种，发音是标准、不标准或者具体是哪些字、词不标准，面部表情是发送、无表情还是紧张，肢体动作是否僵硬还是自然，或者是哪个部位的动作僵硬等，然后边缘设备从数据库中找到各个分类对应的矫正意见，并显示在边缘设备上供演讲者查看，进行迅速的纠正。

可选地，步骤S300中响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示模态分析结果以及改进建议，包括步骤S310-S330：

S310、响应于输入的第一需求信息，提取第一需求信息中的关键词。

可选地，演讲者可以通过用户终端输入信息，观众可以通过收看终端观看演讲者的观众输入的信息，从而形成第一需求信息，响应于输入的第一需求信息，提取第一需求信息中的关键词。需要说明的是，观众输入的信息可以实时发出，或者通过问卷调查、用户评价、用户行为数据等方式，采集观众的反馈数据。

S320、将关键词与边缘设备的数据库中的演讲效果评估模型的标签进行相似度计算。

可选地，例如关键词为严肃场合、安静、相声场合、搞笑、激昂、观众集中、观众互动等，边缘设备的数据库中具有多个演讲效果评估模型，每个模型设置有一个或多个标签，表征该模型所适用的、效果最佳的方面，例如具有标签搞笑，该演讲效果评估模型适用于推荐搞笑演讲风格、场合改进建议。需要说明的是，关键词与标签的相似度计算方式不作具体限定。

S330、将相似度最高的演讲效果评估模型作为目标演讲效果评估模型输出改进建议，并将改进建议以及模态分析结果在边缘设备中实时显示。

具体低，将相似度最高的演讲效果评估模型作为目标演讲效果评估模型输出改进建议，并将改进建议以及模态分析结果在边缘设备中实时显示，为演讲者提供实时、准确的改进建议、鼓励或者批评等建议，及时改进，以有利于迅速提高演讲者的演讲效果。

可选地，第一需求信息还可以包括观众的评价或者演讲者的评价，根据观众的评价或者演讲者的评价优化演讲效果评估模型，包括但不限于再次训练，或者调整标签，优化模型的性能，不断改进和优化演讲效果评估模型，提高演讲效果评估的精度和可靠性。

可选地，本发明实施例的演讲训练反馈方法还包括步骤S410-S420，与S200、S300之间不限定执行顺序：

S410、通过边缘设备实时地通过外表情感识别模型，对图像数据或者第一处理结果进行外表情感分析，得到演讲者的外表情感信息，获取场景信息或者第二需求信息，根据外表情感信息以及根据场景信息和第二需求信息中的其中一个，实时显示对演讲者的外表情感调整建议。

可选地，边缘设备中还配置有外表情感识别模型，边缘设备实时地通过该外表情感识别模型，对图像数据或者第一处理结果进行外表情感分析，得到演讲者的外表情感信息，例如包括但不限于高兴、兴奋、悲伤、平和、激动等。然后，演讲者可以输入当前的场景信息，例如学术会议、发布会、相声等等，又或者演讲者通过用户终端输入需求信息，例如：如何提高情绪、如何放轻松，或者通过收看终端收看演讲的观众在收看终端输入第二需求信息，例如：情感平和一点、激昂一点等等，然后边缘设备会根据外表情感信息以及根据场景信息和第二需求信息中的其中一个，实时显示对演讲者的外表情感调整建议。例如，在比较严肃的学术会议的场合，会建议演讲者肢体动作不宜过多、不宜夸张等等。

S420、通过边缘设备实时地通过语音情感识别模型进行声音情感分析，得到演讲者的声音情感信息，获取场景信息或者第三需求信息，根据声音情感信息以及根据场景信息和第三需求信息中的其中一个，实时显示对演讲者的声音情感调整建议。

可选地，边缘设备中还配置有语音情感识别模型，边缘设备实时地通过该语音情感识别模型，对声音数据或者第二处理结果进行声音情感分析，得到演讲者的声音情感分析，例如包括但不限于语调过高、语调过低。然后，演讲者可以输入当前的场景信息，例如学术会议、发布会、相声等等，又或者演讲者通过用户终端输入需求信息，例如：如何改善音调、语速等等，或者通过收看终端收看演讲的观众在收看终端输入第三需求信息，例如：降低语速、声音大一点等等，例如，在比较严肃的学术会议的场合，会建议演讲者语气平稳，语速适中等等。

可选地，本发明实施例的边缘设备中设置有反馈输出模块，用于生成展示可视化的反馈消息，如模态分析结果、改进建议、鼓励或者批评等建议，帮助演讲者更好地了解自己的演讲效果并及时调整。同时，边缘设备还可以设置语音识别模块，可以生成以语音形式的改进建议，通过演讲者所佩戴的耳机反馈至演讲者中，便于演讲者进行实时调整，有效提高演讲者的演讲技巧和效果。例如，如果演讲者的表情和姿态显得紧张和不自信，系统会生成一些鼓励的反馈信息，如“你的声音很好听，但可以放松自己的身体”、“尝试看向观众，让他们感受到你的自信”，通过用户终端显示或者语音播放。

可选地，本发明实施例的边缘设备中设置有系统设置模块，负责管理系统中的用户信息，包括用户的基本信息、角色和权限等，以便系统能够进行身份认证和权限控制；可以记录系统中的各项操作和事件，包括用户登录、操作日志等，以便系统管理员对系统运行情况进行监控和维护，用户通过登录可以查看以往的演讲记录以及演讲建议，用户可以观察自己的演讲水平的变化以及历程。

相对于现有技术，本发明实施例的演讲训练反馈方法；

1)、通过多模态数据采集和处理，可以更加准确地了解演讲者的表现，传统的分析方法往往只考虑单一的数据源，难以全面分析演讲者的姿态、表情、声音等多种信息，可以发现演讲者在特定语速下表现更佳，或者在使用特定手势时更具说服力等，将不同数据源的特征进行融合，得到全局的特征表示，提高了数据分析的综合性和准确性，这些信息可以在训练中提供反馈，帮助演讲者改进演讲技巧，提高演讲效果；

2)、通过采用多种先进的数据处理技术，结合边缘计算和知识蒸馏等新兴技术，实现了从多个数据源中高效地提取有意义的数据特征，并提供了更加精准、实时和个性化的演讲训练反馈，具有较高的实用性和前瞻性；

3)、采用边缘设备进行边缘计算，相对传统的图像和声音预处理技术在云端进行，计算延迟高、处理速度慢，可以将预处理的计算任务从云端转移到边缘设备上，实现更快速的处理速度和更低的能耗，提高了处理效率，而该优点尤其对于实时性要求较高的应用场景非常重要，如在演讲训练中及时获取和处理演讲者的数据，提供实时的反馈和改善建议。具体地，边缘计算被应用于自适应图像增强技术和区域性注意力机制。具体地，边缘设备能够实时获取图像数据，进行自适应增强和区域性注意力机制的计算，并将结果返回给主控制设备。这种边缘计算的方式可以使图像预处理更加实时和高效，同时也能减少对云端计算资源的需求；边缘计算被应用于自适应噪音抑制技术和语音活动检测技术，边缘计算设备能够实时获取声音数据，进行自适应噪音抑制和语音活动检测的计算，并将结果返回给主控制设备。这种边缘计算的方式可以使声音预处理更加实时和高效，同时也能减少对云端计算资源的需求。演讲者的设备作为边缘设备，进行数据处理和计算，所有的数据处理都可以在设备本地进行，不需要将数据传输到云端，大大降低了数据传输的延迟和网络负载，提高了演讲的流畅度和效果；

4)、传统的演讲评估往往只考虑演讲者的表现，难以满足不同用户的需求，本申请通过用户反馈和需求，为用户提供针对性的演讲效果评估和改进建议，增加了用户体验和满意度；

5)、提出了基于语音、自然语言处理和可视化等多样化的交互方式，使用户更加方便快捷地操作系统；

6)、提出了一套完整的数据管理和分析系统，使数据的采集、清洗、存储、分析和可视化等操作得以一体化管理和维护，提高了数据的使用价值和效率；

7)、传统方式用户界面模块通常只能提供单一的交互方式，例如使用鼠标、键盘等进行操作，而这些方式可能并不适合所有用户，特别是对于一些具有特殊需求的用户，如老年人、残障人士等，这些方式可能并不是最理想的。因此，提出了整合多种交互方式的用户界面模块，可以通过语音等形式进行交互，旨在满足不同用户的需求，提高用户的使用体验；

8)、提出的方法和系统能够自动化地进行数据采集、处理和分析，大大降低了训练的成本和时间，提高了训练的效率和可扩展性。

本发明实施例还提供一种演讲训练反馈装置，包括：

获取模块，用于通过采集设备实时获取演讲者的图像数据以及声音数据；图像数据包括演讲者的所在空间的三维深度信息；

处理模块，用于通过边缘设备实时地基于自适应增强模型以及区域注意力机制对图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量；

分析显示模块，用于通过边缘设备实时地对融合特征向量进行模态分析，得到模态分析结果，并响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示模态分析结果以及改进建议。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同，不再赘述。

本发明实施例还提供了另一种演讲训练反馈装置，该演讲训练反馈装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的演讲训练反馈方法。可选地，该演讲训练反馈装置包括但不限于手机、平板电脑、电脑及车载电脑等。

本发明实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的演讲训练反馈方法。

本发明实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述实施例的演讲训练反馈方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种演讲训练反馈方法，其特征在于，包括：

2.根据权利要求1所述演讲训练反馈方法，其特征在于：所述通过采集设备实时获取演讲者的图像数据以及声音数据，包括：

3.根据权利要求1-2任一项所述演讲训练反馈方法，其特征在于：所述基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理，包括：

4.根据权利要求3所述演讲训练反馈方法，其特征在于：所述方法还包括：

5.根据权利要求3所述演讲训练反馈方法，其特征在于：所述基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理，包括：

6.根据权利要求5所述演讲训练反馈方法，其特征在于：所述对第一处理结果以及第二处理结果多模态融合识别，得到外表特征信息以及声音特征信息融合后融合特征向量，包括：

7.根据权利要求1所述演讲训练反馈方法，其特征在于：所述响应于输入的第一需求信息，匹配目标演讲效果评估模型输出改进建议，实时显示所述模态分析结果以及所述改进建议，包括：

8.一种演讲训练反馈装置，其特征在于，包括：

9.一种演讲训练反馈装置，其特征在于：所述演讲训练反馈装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7中任一项所述方法。

10.一种计算机可读存储介质，其特征在于：所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7中任一项所述方法。