CN117541445A - 一种虚拟环境交互的口才训练方法、系统、设备及介质 - Google Patents

一种虚拟环境交互的口才训练方法、系统、设备及介质 Download PDF

Info

Publication number
CN117541445A
CN117541445A CN202311700235.7A CN202311700235A CN117541445A CN 117541445 A CN117541445 A CN 117541445A CN 202311700235 A CN202311700235 A CN 202311700235A CN 117541445 A CN117541445 A CN 117541445A
Authority
CN
China
Prior art keywords
virtual
audience
talent
expressive
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311700235.7A
Other languages
English (en)
Inventor
李翔
赵璧
詹歆
吴美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinlicheng Education Technology Co ltd
Original Assignee
Xinlicheng Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinlicheng Education Technology Co ltd filed Critical Xinlicheng Education Technology Co ltd
Priority to CN202311700235.7A priority Critical patent/CN117541445A/zh
Publication of CN117541445A publication Critical patent/CN117541445A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B9/00Simulators for teaching or training purposes

Abstract

本发明提出一种虚拟环境交互的口才训练方法、系统、设备及介质,方法包括:获取指定请求在现实场景中生成对应类型的虚拟听众,不同的虚拟听众在虚拟交互过程中根据口才表达者的表达产生不同的指定反应;获取口才表达者与虚拟听众在虚拟交互过程中口才表达者的语音数据以及表情数据,对语音数据进行发音分析得到口才表达者的发音特征,并结合对表情数据进行情感分析获得的情感特征,根据发音特征和情感特征生成对应的训练建议。本发明可模拟出不同演讲场景以及虚拟听众,提高口才表达者的模拟效果和反馈准确性;并生成个性化的训练建议,帮助口才表达者调整自己的演讲状态,提升演讲能力。

Description

一种虚拟环境交互的口才训练方法、系统、设备及介质
技术领域
本发明涉及演讲训练技术领域,尤其涉及一种虚拟环境交互的口才训练方法、系统、设备及介质。
背景技术
传统的口才训练方法通常局限于简单的课堂练习。为了提升训练真实性,可以通过虚拟现实技术为口才表达者呈现出各种虚拟场景,提高口才训练体验。但是,现有的虚拟场景中,虚拟人物的存在只能模拟演讲过程过程中听众,但是虚拟听众一般不具备实时反馈的效果,口才表达者无法与听众互动,无法为口才表达者提出全面且个性化建议,导致虚拟环境下口才训练真实性不高,体验较差。
发明内容
本发明实施例提供一种虚拟环境交互的口才训练方法、系统、设备及介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本发明实施例提供了一种虚拟环境交互的口才训练方法,包括:
获取指定请求在现实场景中生成对应类型的虚拟听众,不同的虚拟听众在虚拟交互过程中根据口才表达者的表达产生不同的指定反应;
获取口才表达者与虚拟听众在虚拟交互过程中口才表达者的语音数据以及表情数据,对语音数据进行发音分析得到口才表达者的发音特征,并对表情数据进行情感分析获得情感特征,根据发音特征和情感特征,生成对应的训练建议。
进一步地,还包括:
根据指定请求生成对应的虚拟演讲场景,虚拟演讲场景包括演讲厅、会议室和教室。
进一步地,指定反应的产生方法包括:
实时分析语音数据,获得口才表达者的表达内容;
根据表达内容控制虚拟听众执行对应的语言反馈。
进一步地,指定反应的产生方法,还包括:
实时分析语音数据,获得口才表达者的表达语气;
在虚拟听众执行语言反馈时根据口才表达者的表达语气以及口才表达者的情感特征,调整虚拟听众的反馈状态;反馈状态包括反馈语气和反馈表情。
进一步地,获取指定请求选择对应类型的虚拟听众的方法为:
判断指定请求中所选的听众类型,根据听众类型切换虚拟听众为普通听众或特殊听众;特殊听众在口才表达者的表达期间主动发起提问的频率比普通听众发起提问的频率高。
进一步地,根据发音特征和情感特征,生成对应的训练建议包括:
调取数据库中与发音特征相关联的纠正建议进行推送;
调取数据库中与情感特征相关联的情感调整建议进行推送。
进一步地,还包括:
结合发音特征以及情感特征为口才表达者的表达能力进行评分,根据评分生成对应的训练方案,根据训练方案配置对应的训练任务。
第二方面,本发明实施例提供了一种虚拟环境交互的口才训练方法系统,执行如上述的虚拟环境交互的口才训练方法。
第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器。其中,该该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:
本发明可模拟出不同演讲场景以及虚拟听众,虚拟听众可根据口才表达者的演讲做出对应的个性化指定反应,让口才表达者能够更加真实地感受到演讲场景和听众的存在,提高口才表达者的模拟效果和反馈准确性;同时,可根据口才表达者的演讲表现生成个性化的训练建议,帮助口才表达者调整自己的演讲状态,提升演讲能力。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明虚拟环境交互的口才训练方法的流程示意图;
图2为本发明虚拟环境交互的口才训练系统的模块示意图;
图3为本发明电子设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
本实施例提供一种虚拟环境交互的口才训练方法,如图1所示,包括:
获取指定请求在现实场景中生成对应类型的虚拟听众,不同的虚拟听众在虚拟交互过程中根据口才表达者的表达产生不同的指定反应;
获取口才表达者与虚拟听众在虚拟交互过程中口才表达者的语音数据以及表情数据,实时对语音数据进行发音分析得到口才表达者的发音特征,并结合对表情数据进行情感分析获得的情感特征,根据发音特征和情感特征生成对应的个性化的训练建议。
本实施例通过AR增强现实技术,在现实场景中生成虚拟听众,将虚拟听众与真实环境相融合,提高口才表达者的演讲体验。
此外,还可采集口才表达者与虚拟听众的眼动追踪数据和手势识别数据。其中眼动追踪数据可以是口才表达者在虚拟演讲场景中演讲时,使用眼动追踪设备进行采集,如眼动仪,来实时记录他们的视线移动;通过上述设备能够追踪眼睛在演讲过程中的焦点位置,确定他们是否与虚拟听众建立了良好的眼神接触,是否频繁地看向幻灯片或提示卡,以及他们是否在整个虚拟演讲场景中保持了适当的视觉联系。
基于眼动追踪数据的分析,系统可以为口才表达者提供个性化的反馈和建议。例如,如果口才表达者在演讲中没有与虚拟听众建立足够的眼神接触,系统可以建议他们练习维持更好的眼神接触以增强与观众的联系。
而口才表达者可以使用手势识别设备,如手套式传感器或深度摄像头,来捕获他们在演讲过程中的手势和身体动作,确定他们是否使用了适当的手势来强调关键点,是否有过多的不必要手势分散了观众的注意力等,从而为口才表达者提供改进建议。例如,如果口才表达者过于依赖手势,以至于分散了观众的注意力,系统可以建议他们减少不必要的手势或更好地协调手势与演讲内容。
关于手势识别技术的具体运行过程如下:
1.数据采集与处理
通过从原始传感器数据中提取手势的空间和时间特征,为后续的特征提取和分类提供基础数据;
手势位置坐标的空间坐标计算公式:
P(t)=(x(t),y(t),z(t));
手势动作时间序列分析:
S(t)=f(P(t));
其中,P(t)代表在时间t的手势位置坐标,包括x(t)、y(t)和z(t);
S(t)代表手势动作的时间序列。
2.特征提取
从时间序列数据中提取关键特征,如手势的频率分布、主要动作模式等,从而为更精确的手势识别奠定基础;
例如,将手势频率经过傅里叶变换,用于分析手势的频率特性;
频率k的傅里叶变换公式为:
其中,t为时间,S(t)是手势动作的时间序列数据。
在手势识别技术中,主成分分析PCA用于从高维的手势数据中提取最重要的特征。例如,如果原始手势数据包含多个维度,如手指位置、角度、速度等,PCA可以识别哪些维度是对分类和识别最为关键的。通过消除冗余和不重要的数据,PCA使手势识别算法更加高效且精确。主成分分析对应的公式为:
Y=WTX;
其中,Y是降维后的特征向量,W是特征向量的权重矩阵,X是原始数据矩阵,原始数据矩阵X是由传感器采集到的时间序列数据转化为矩阵而得。
3.手势分类与识别算法
通过SVM公式根据提取的特征向量对不同手势进行分类,通过训练数据学习来达到如何区分各种手势的效果。
其中SVM公式为:
其中,y是分类结果,使用SVM算法基于特征向量进行分类;
αi是拉格朗日乘子;
yi是训练数据的类标签,类标签可通过手动或自动方式对数据进行标注;
<xi,x>是训练样本与测试样本之间的内积;
b是偏置项。
4.动作识别与序列分析
通过HMM公式处理手势动作的时间序列数据,可以识别和预测手势的动态变化和序列模式;
隐马尔可夫模型HMM公式为:
其中,P(P|λ)是给定模型下观测序列的概率;
πi为初始状态概率,指一个特定手势动作序列开始时各个可能状态的概率,可以是基于训练数据集中观察到的状态频率来估计的;
aij是状态转移的概率,指从一个手势动作转移到另一个动作的概率,可通过分析训练数据集中的状态转移频率来估计,也可以使用最大似然估计或贝叶斯方法来估计;
bj(O)是观测概率,代表了在某一特定手势状态下观察到特定手势动作的概率,可通过分析在每个状态下观察到的不同手势动作的频率来估计的。
上述HMM模型参数的准确估计对于有效的手势识别和动作序列分析至关重要。通过从训练数据集中学习这些概率,HMM能够有效地识别和预测手势的动态变化和序列模式,从而提高手势识别技术的准确性和效率。
通过集成眼动追踪数据和手势识别数据的分析,口才训练系统可以更全面地评估口才表达者的演讲技巧。这些额外的生物特征数据可以用来提供更具体的反馈和个性化的建议,帮助口才表达者进一步提高其演讲能力,包括与观众的视觉和身体互动方面的技巧。这样的分析和建议将有助于口才表达者更好地连接和沟通,提升他们的口才表达能力。
口才表达者还可发起指定请求,自定义生成对应的虚拟演讲场景,而虚拟听众则融入虚拟演讲场景中;根据实际需求增加不同类型和风格的场景,如大型演讲厅、会议室、教室等,让口才表达者有身临其境的感觉。该虚拟场景可以是与真实场景相融合的场景,也可以是脱离真实环境的完全虚拟的场景,可根据实际需求进行自定义选择。
其中,自定义虚拟场景可以是根据自己的需求和目标进行个性化场景设计,生成自定义虚拟演讲场景,包括背景、布置、道具等元素,以确保每个演讲任务都与他们的实际需求和兴趣相匹配。例如,如果口才表达者需要练习在学术会议上的演讲,他们可以选择一个虚拟学术会议场景,其中包括演讲台、学者听众等元素,以最大程度地模拟真实情境。
同时,可根据指定请求模拟不同的虚拟演讲任务,如演讲比赛、会议发言、学术报告等。不同的演讲任务,其虚拟演讲场景以及虚拟听众的形象都随着演讲任务进行调整,例如选择了演讲比赛任务,其虚拟演讲场景可以是演讲厅,而听众则可以是老师等评委形象,模拟不同场景、不同听众、不同演讲任务下的环境,让口才表达者身临其境地感受到虚拟听众和演讲场景的存在,提高口才表达者的信心和表现。
关于不同演讲类型的个性化场景设计,口才训练系统可以根据口才表达者的需求和目标,提供特定类型演讲的场景模拟。例如:
演讲比赛任务:如果口才表达者需要参加演讲比赛,系统可以创建一个虚拟演讲比赛场景,包括评委和竞争对手等元素。这有助于他们在紧张的竞争环境中练习演讲技巧。
会议发言任务:对于需要在商务会议上发表讲话的口才表达者,系统可以提供一个虚拟会议室场景,其中包括高级管理层和同事等虚拟听众,以帮助他们适应这种商务环境。
学术报告任务:如果口才表达者需要进行学术报告,系统可以模拟一个虚拟学术会议或讲座厅,包括学术界专家和同行学者作为虚拟听众,以便他们能够更好地练习学术演讲技巧。
此外,还可自定义虚拟听众的种类以及身份,判断指定请求中所选的听众类型,根据听众类型将虚拟听众切换为普通听众或特殊听众;不同的虚拟听众的特点和反应将根据演讲内容和情感状态进行模拟,帮助用户更好地应对不同类型听众的需求和反应。而虚拟听众的身份也可进行自定义,例如在演讲比赛场景中,虚拟听众可以扮演评委,提出具有挑战性的问题,帮助口才表达者提高应变能力。通过增强虚拟听众的互动,让虚拟听众根据场景类型和口才表达者的表现提供不同的反馈和互动,以使演练更加逼真和有针对性。
最主要的是,特殊听众在口才表达者的表达期间主动发起提问的频率比普通听众发起提问的频率高,特殊听众模拟的是相对比较挑剔的听众,系统会增加特殊听众的主动提问次数,口才表达者需要再短时间内针对提问做出回应,以增强口才表达者的应变能力和交际技巧。而虚拟听众的提问可在专属的提问环节根据口才表达者的演讲内容进行随机提问,也可以在口才表达者演讲过程中及时提出,以试验口才表达者的应变能力。而提问的内容可预先进行设置,虚拟听众可提出固定的问题;也可预先设置提问规则,让虚拟听众按照提问规则进行提问,例如对口才表达者的语音数据进行识别,提取语音中的某个词句,对该语句的含义或与该语句相关联的更深入的技术问题进行提问,要求口才表达者进行更详细的解释。
为了提高虚拟听众与口才表达者之间的互动,可增强虚拟听众的即时的语言反馈和情绪反应,即虚拟听众能够通过实时语音识别技术分析口才表达者的演讲内容。当口才表达者提出问题或进行演讲时,虚拟听众可以迅速理解他们的言辞,并基于这些言辞执行适当的语言反馈。例如,如果口才表达者提出一个问题,虚拟听众可以用口头回答来模拟真实听众的互动。这种实时反馈有助于口才表达者更好地理解他们的表达是否清晰、容易理解,以及演讲内容是否引人入胜。
虚拟听众还能够分析口才表达者的情感状态从而做出对应的反馈,这是通过识别口才表达者的表情数据和语音数据中的情感来实现的。如果口才表达者在演讲时表现出紧张或兴奋等情感,虚拟听众可以相应地调整他们的反馈。例如,如果口才表达者表现得紧张,虚拟听众可以以鼓励的方式提问或评论,以缓解口才表达者的紧张感。
此外,虚拟听众的情感状态也可以根据口才表达者的表现而改变。如果口才表达者成功引起情感共鸣,虚拟听众可能会表现出更多的兴奋和积极情感。这种情感驱动互动可以帮助口才表达者更好地掌握情感表达技巧,并学会如何调整演讲以更好地吸引听众。
此外,在虚拟演讲场所中添加更多的元素,例如背景音乐、幻灯片、视频等,以更好地模拟现实演讲场景,提高口才表达者的练习效果;还可在虚拟听众中添加更多的人物形象和个性化特点,使其能够更好地模拟不同类型和风格的听众,提高口才表达者的应变能力。
在虚拟演讲场景下,虚拟听众除了可以通过主动提问的方式与口才表达者进行互动外,还可对口才表达者的演讲内容做出及时的言语反馈以及态度反馈;
具体地:实时分析语音数据,获得口才表达者的表达内容,根据表达内容控制虚拟听众执行对应的语言反馈;例如,口才表达者提出问句,虚拟听众则根据问句进行回答,又或者,当口才表达者使用幽默语言时,虚拟听众可能会发出笑声或评论。其中虚拟听众的及时语言反馈可通过人工智能技术实现,在此不在详细描述。
此外,互动期间,还可实时分析语音数据,获得口才表达者的表达语气;在虚拟听众执行语言反馈时根据口才表达者的表达语气以及口才表达者的情感特征,调整虚拟听众的反馈状态;反馈状态包括反馈语气和反馈表情。例如,口才表达者的表达语气相对急促、情感特征相对紧张时,可调整虚拟听众表达时的反馈语气,以及反馈表情,让虚拟听众以和蔼的表情提出鼓励的问题,缓解口才表达者在演讲过程中的紧张感。
通过自然语言处理和情感分析技术,虚拟听众能够理解口才表达者的言辞,并根据语境和情感状态进行回应,以增加互动真实性。甚至,虚拟听众的情感状态可以根据口才表达者的表现产生变化。例如,如果口才表达者能够引发情感共鸣,虚拟听众可能会表现出更多的兴奋和积极情感。这样的情感驱动互动可以帮助口才表达者更好地掌握情感表达技巧。
其中,语音特征分析的数据采集,系统会实时采集口才表达者的语音数据,这可能包括演讲的音频记录。这些音频数据是分析的基础。通过深度学习模型,例如卷积神经网络(CNN)或循环神经网络(RNN),系统可以进行语音识别。这些模型可以将音频数据转换为文本,从而理解口才表达者的演讲内容。
深度学习算法可以进一步分析口才表达者的发音特征,如语速、语调、发音错误率、口音、流利度等。这些特征有助于评估演讲的清晰度和流利程度。
分析后,系统可以从数据库中检索与发音特征相关联的纠正建议。这些建议可能包括发音错误的修正、语速的调整或其他针对发音的改进建议。这些建议是个性化的,因为它们是基于口才表达者的实际表现和需要生成的。
这些建议可以通过弹窗或虚拟听众的语音反馈方式呈现给口才表达者。此外,虚拟听众可以根据具体情境和情感状态调整反馈的语气和表情,以更好地满足口才表达者的需求。
而情感特征分析中,表情数据采集,包括面部表情、眼神、姿势等信息。情感识别可使用深度学习和AI算法用于分析这些表情数据,以识别口才表达者的情感状态,如紧张、开心、自信等。根据口才表达者的情感状态和表情数据,系统可以调整虚拟听众的反馈状态,包括反馈语气和反馈表情。例如,如果口才表达者表现出紧张,虚拟听众可以以支持和鼓励的方式反馈,以减轻紧张感。
虚拟听众的情感状态也可以根据口才表达者的表现实时调整。如果口才表达者引发情感共鸣,虚拟听众可能会表现出更积极的情感,这样的情感互动可以帮助口才表达者更好地掌握情感表达技巧。
通过引入深度学习和AI算法,系统能够更准确地分析口才表达者的语音和情感数据,并提供个性化的建议和反馈。这种个性化的方法可以帮助口才表达者不断提高其表达能力,增强演讲技能,并通过与虚拟听众的互动来提高信心和应对能力。这也使口才训练更具有效性和个性化,帮助口才表达者在不同情境下更好地表达自己。
口才表达者与虚拟听众进行互动时,实时采集口才表达者的语音数据以及表情数据,分别对语音数据以及表情数据进行分析。具体地,利用语音识别技术对口才表达者的演讲进行实时评估,分析口才表达者的发音特征,发音特征包括语速、语调、发音错误率、口音、流利度等,从数据库中调取与该发音特征相关联的纠正建议进行推送。通过实时分析发音准确度、流利度等,并给出详细的发音纠正和口才改进建议,给予个性化的发音优化建议,根据用户的口音和个性特点,提高口才表达者的适应性和沟通效果。
此外,通过情感识别对表情数据进行分析,识别出面部所呈现出现的情绪,如紧张、开心等;从数据库中调取与情感特征相关联的情感调整建议进行推送。通过分析用户的语言和表情,识别情感状态,如紧张、自信等,根据情感状态给予相应的情感反馈,如鼓励和支持,帮助用户调整情感状态,增强演讲表现的自然性和吸引力。情感识别与反馈模块在增强现实场景中运用,让虚拟听众更真实地感知口才表达者的情感,提高口才表达者的表现能力。
个性化建议的推送,可以通过弹窗的形式呈现,也可以通过虚拟听众通过语音来呈现,期间,虚拟听众还可调整其语音表达的语气、表达过程中的表情和情绪,呈现出虚拟听众对口才表达者的演讲表现做出真实评论的效果。
而数据库可预先存储有大量的不同发音特征和情感特征对应的建议信息,实时分析口才表达者的语音数据和表情数据后搜索数据库中的建议信息即可立即向口才表达者提出对应的调整建议,让口才表达者能够更清晰地了解提升口才能力的具体方法。可通过生成用户的综合表现报告,指出演讲优势和改进点,并根据训练需求和目标提供个性化的进阶建议,帮助口才表达者不断提升。
上述语音识别和情感识别均可通过预先构建的深度学习模型来实现,深度学习模型的构建和使用已是现有技术,在此不详细描述分析过程。
进一步地,根据语音数据和表情数据分析出发音特征和情感特征后,还包括:结合发音特征以及情感特征为口才表达者的表达能力进行评分,根据评分生成对应的训练方案,根据训练方案配置对应的训练任务。
口才表达者在初次使用该系统进行口才训练时,可以通过一次演讲训练后得到本次演讲对应的分数,该分数代表着口才表达者的演讲水平,系统根据该口才表达者的实际情况生成进阶式的演讲任务,让口才表达者可以完成每次演讲任务后对其表达能力有所提升。而进阶式的演讲任务可以从虚拟演讲场景、虚拟听众等方向进行适应性调整,将虚拟演讲场景从普通的教室逐渐调整到大型演讲厅,将虚拟听众从普通听众调整到特殊听众,系统根据口才表达者每次的表现进行评分和建议,让口才表达者在多次演讲任务中逐渐完善自己的表达能力,提高演讲技能。
此外,口才表达者也可自选演讲任务,初学者可以选择较为简单的演讲任务,逐步适应演讲场景和听众反应,而经验丰富的口才表达者可以选择更具挑战性的演讲任务,确保训练的有效性和个性化;让口才表达者能够在虚拟演讲场所中根据自己的兴趣和需求进行个性化定制,提高口才表达者的个性化体验和创造力。
口才表达者在演讲过程中的发音特征以及情感特征、以及生成的个性化建议和口才表达者在进阶式演讲任务中的完成情况等数据都可上传至云端共享平台,其他使用该系统的口才表达者也可以观摩和点评用户的演讲,提供交流和反馈,形成学习共同体,共同促进口才表达能力的提升。
进一步地,还将支持虚拟现实技术的可扩展性,让口才表达者能够在不同平台和设备上进行练习和交流,提高口才表达者的便利和可用性。同时,该模块还支持连接专业教练系统,进行一对一直播教学指导,为口才表达者提供更加个性化的指导和建议。
实施例二
本实施例提供一种虚拟环境交互的口才训练系统,该系统执行如实施例一所述的虚拟环境交互的口才训练方法;如图2所示,系统具体包括有如下模块:
增强现实场景生成模块,负责生成虚拟演讲场景,根据不同的训练要求,创造多样化的场景,如不同大小的演讲厅、多样性的听众组合等。通过增强现实技术,将虚拟听众和演讲场景与真实环境融合,让用户身临其境地进行演讲训练。
其中,增强现实技术,即AR技术在口才训练系统中的应用,主要体现在如下方面:
1.生成虚拟演讲场景:AR技术的关键之一是生成虚拟演讲场景。这可以通过将计算机生成的虚拟元素(如虚拟听众、背景、幻灯片、视频等)叠加到真实环境中来实现。例如,在一个真实的房间中,AR技术可以添加虚拟听众和演讲舞台,使口才表达者感觉自己置身于一个大型演讲厅中。这种混合现实的场景使用户能够练习在不同大小和类型的演讲场所中演讲,从而更好地适应各种情境。
2.虚拟听众的融合:AR技术可以将虚拟听众与真实环境的参与者相融合。例如,在一个真实的教室中,虚拟听众的虚拟形象可以叠加到真实的学生座位上,而这些虚拟听众可以通过AR眼镜或屏幕显示出来。这种融合增加了训练的真实性,因为用户可以与虚拟听众互动,感受他们的反应,就像在真实演讲中一样。
3.多样化的场景和听众组合:利用AR技术,口才训练系统可以提供多种演讲场景和听众组合的选择。用户可以根据其训练需求选择不同大小的演讲厅、会议室或教室等不同场景。此外,用户还可以自定义虚拟听众的组合,包括不同类型、不同数量和不同反应特点的听众。这种自定义性使用户能够有针对性地练习与特定听众的互动,提高适应性和应对能力。
4.实时互动和反馈:AR技术还允许实时的互动和反馈。用户可以使用语音和姿势与虚拟听众交流,提出问题,回答问题,感受听众的反应。虚拟听众可以通过AR技术识别用户的言辞和表情,并根据情境和情感状态做出相应的回应。这种实时的互动增加了练习的真实感,并帮助用户改进演讲技巧。
5.综合反馈和建议:另一个AR技术的应用是综合反馈和建议。口才训练系统可以使用AR技术收集用户的演讲数据,包括语速、语调、表情等方面的表现。然后,系统可以生成综合表现报告,指出用户的演讲优势和改进点,并根据用户的训练需求提供个性化的进阶建议。AR技术还可以引入眼动追踪技术,分析用户的视线焦点,评估对听众的联络效果,提供更加详细和个性化的反馈和建议。
用户交互模块,支持用户与虚拟听众的互动,用户可以在虚拟演讲场景中与虚拟听众进行交流,提问、回答问题,并实时感受听众的反应。通过语音识别和自然语言处理技术,让虚拟听众能够理解和回应用户的言辞,增加虚拟听众的互动性和真实感。
实时发音评估模块,利用语音识别技术对用户的演讲进行实时评估,分析发音准确度、流利度等,给出详细的发音纠正和口才改进建议。通过实时反馈,帮助口才表达者纠正发音错误,提高演讲的清晰度和准确度。
情感识别与反馈模块,通过分析用户的语言和表情,识别情感状态,如紧张、自信等。系统根据情感状态给予相应的情感反馈,如鼓励和支持,帮助用户调整情感状态,增强演讲表现的自然性和吸引力。
自适应学习路径模块,根据用户的演讲能力和训练进度智能调整学习路径。初学者可以选择较为简单的演讲任务,逐步适应演讲场景和听众反应,而经验丰富的口才表达者可以选择更具挑战性的演讲任务,确保训练的有效性和个性化。该模块还将引入智能化技术,根据用户的个性特点和口音等因素进行智能匹配,提高口才表达者的适应性和沟通效果。
数据分析和报告模块,该模块自动收集并分析用户的演讲数据,包括语速、语调、表情等方面的表现。然后,系统生成用户的综合表现报告,指出演讲优势和改进点,并根据用户的训练需求和目标提供个性化的进阶建议,帮助口才表达者不断提升。同时,该模块还将引入眼动追踪技术,分析用户的视线焦点,评估对听众的联络效果,提供更加详细和个性化的反馈和建议。
云端协作和共享模块,该模块允许用户将自己的演讲成果和报告上传至云端共享平台。其他使用该系统的口才表达者也可以观摩和点评用户的演讲,提供交流和反馈,形成学习共同体,共同促进口才表达能力的提升。该模块还将支持虚拟现实技术的可扩展性,让口才表达者能够在不同平台和设备上进行练习和交流,提高口才表达者的便利和可用性。同时,该模块还支持连接专业教练系统,进行一对一直播教学指导,为口才表达者提供更加个性化的指导和建议。
本发明实施例系统中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
实施例三
图3示出根据本发明一实施例的电子设备的结构框图。如图3所示,该电子设备包括:存储器100和处理器200,存储器100内存储有可在处理器200上运行的计算机程序。处理器200执行该计算机程序时实现上述实施例中的虚拟环境交互的口才训练方法。存储器100和处理器200的数量可以为一个或多个。
该电子设备还包括:
通信接口300,用于与外界设备进行通信,进行数据交互传输。
如果存储器100、处理器200和通信接口300独立实现,则存储器100、处理器200和通信接口300可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器100、处理器200及通信接口300集成在一块芯片上,则存储器100、处理器200及通信接口300可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本发明实施例中提供的方法。
本发明实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本发明实施例提供的方法。
本发明实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行发明实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种虚拟环境交互的口才训练方法,其特征在于,包括:
获取指定请求在现实场景中生成对应类型的虚拟听众,不同的所述虚拟听众在虚拟交互过程中根据口才表达者的表达产生不同的指定反应;
获取所述口才表达者与所述虚拟听众在虚拟交互过程中所述口才表达者的语音数据以及表情数据,对所述语音数据进行发音分析得到所述口才表达者的发音特征,并对所述表情数据进行情感分析获得情感特征,根据所述发音特征和所述情感特征,生成对应的训练建议。
2.根据权利要求1所述的虚拟环境交互的口才训练方法,其特征在于,还包括:
根据所述指定请求生成对应的虚拟演讲场景,所述虚拟演讲场景包括演讲厅、会议室和教室。
3.根据权利要求1所述的虚拟环境交互的口才训练方法,其特征在于,所述指定反应的产生方法包括:
实时分析所述语音数据,获得所述口才表达者的表达内容;
根据所述表达内容控制所述虚拟听众执行对应的语言反馈。
4.根据权利要求3所述的虚拟环境交互的口才训练方法,其特征在于,所述指定反应的产生方法,还包括:
实时分析所述语音数据,获得所述口才表达者的表达语气;
在所述虚拟听众执行语言反馈时根据所述口才表达者的表达语气以及所述口才表达者的情感特征,调整所述虚拟听众的反馈状态;所述反馈状态包括反馈语气和反馈表情。
5.根据权利要求1所述的虚拟环境交互的口才训练方法,其特征在于,所述获取指定请求选择对应类型的虚拟听众的方法为:
判断所述指定请求中所选的听众类型,根据所述听众类型切换所述虚拟听众为普通听众或特殊听众;所述特殊听众在所述口才表达者的表达期间主动发起提问的频率比所述普通听众发起提问的频率高。
6.根据权利要求1所述的虚拟环境交互的口才训练方法,其特征在于,所述根据所述发音特征和所述情感特征,生成对应的训练建议包括:
调取数据库中与所述发音特征相关联的纠正建议进行推送;
调取数据库中与所述情感特征相关联的情感调整建议进行推送。
7.根据权利要求1所述的虚拟环境交互的口才训练方法,其特征在于,还包括:
结合所述发音特征以及所述情感特征为所述口才表达者的表达能力进行评分,根据评分生成对应的训练方案,根据所述训练方案配置对应的训练任务。
8.一种虚拟环境交互的口才训练方法系统,其特征在于,执行如权利要求1~7任一所述的虚拟环境交互的口才训练方法。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1~7任一所述的虚拟环境交互的口才训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一所述的虚拟环境交互的口才训练方法。
CN202311700235.7A 2023-12-11 2023-12-11 一种虚拟环境交互的口才训练方法、系统、设备及介质 Pending CN117541445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311700235.7A CN117541445A (zh) 2023-12-11 2023-12-11 一种虚拟环境交互的口才训练方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311700235.7A CN117541445A (zh) 2023-12-11 2023-12-11 一种虚拟环境交互的口才训练方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN117541445A true CN117541445A (zh) 2024-02-09

Family

ID=89789920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311700235.7A Pending CN117541445A (zh) 2023-12-11 2023-12-11 一种虚拟环境交互的口才训练方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117541445A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117788239A (zh) * 2024-02-23 2024-03-29 新励成教育科技股份有限公司 一种口才训练的多模态反馈方法、装置、设备及存储介质
CN117893718A (zh) * 2024-03-18 2024-04-16 新励成教育科技股份有限公司 一种演讲场景动态生成方法、系统、设备及介质
CN117522643B (zh) * 2023-12-04 2024-05-10 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491564A (zh) * 2018-10-18 2019-03-19 深圳前海达闼云端智能科技有限公司 虚拟机器人的互动方法,装置,存储介质及电子设备
CN111596761A (zh) * 2020-05-03 2020-08-28 清华大学 一种基于换脸技术及虚拟现实技术模拟演讲的方法和装置
US11677575B1 (en) * 2020-10-05 2023-06-13 mmhmm inc. Adaptive audio-visual backdrops and virtual coach for immersive video conference spaces
CN116343824A (zh) * 2023-05-29 2023-06-27 新励成教育科技股份有限公司 口才表达能力的全面评估与解决方法、系统、装置及介质
CN116484318A (zh) * 2023-06-20 2023-07-25 新励成教育科技股份有限公司 一种演讲训练反馈方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491564A (zh) * 2018-10-18 2019-03-19 深圳前海达闼云端智能科技有限公司 虚拟机器人的互动方法,装置,存储介质及电子设备
CN111596761A (zh) * 2020-05-03 2020-08-28 清华大学 一种基于换脸技术及虚拟现实技术模拟演讲的方法和装置
US11677575B1 (en) * 2020-10-05 2023-06-13 mmhmm inc. Adaptive audio-visual backdrops and virtual coach for immersive video conference spaces
CN116343824A (zh) * 2023-05-29 2023-06-27 新励成教育科技股份有限公司 口才表达能力的全面评估与解决方法、系统、装置及介质
CN116484318A (zh) * 2023-06-20 2023-07-25 新励成教育科技股份有限公司 一种演讲训练反馈方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522643A (zh) * 2023-12-04 2024-02-06 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117522643B (zh) * 2023-12-04 2024-05-10 新励成教育科技股份有限公司 一种口才训练方法、装置、设备及存储介质
CN117788239A (zh) * 2024-02-23 2024-03-29 新励成教育科技股份有限公司 一种口才训练的多模态反馈方法、装置、设备及存储介质
CN117893718A (zh) * 2024-03-18 2024-04-16 新励成教育科技股份有限公司 一种演讲场景动态生成方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
US11798431B2 (en) Public speaking trainer with 3-D simulation and real-time feedback
US10249207B2 (en) Educational teaching system and method utilizing interactive avatars with learning manager and authoring manager functions
Fothergill et al. Instructing people for training gestural interactive systems
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
US7778948B2 (en) Mapping each of several communicative functions during contexts to multiple coordinated behaviors of a virtual character
US8714982B2 (en) System and method for teaching social skills, social thinking, and social awareness
CN117541445A (zh) 一种虚拟环境交互的口才训练方法、系统、设备及介质
US20210043106A1 (en) Technology based learning platform for persons having autism
JP2012516463A (ja) コンピュータ実行方法
CN110992222A (zh) 教学交互方法、装置、终端设备及存储介质
JP2019086602A (ja) 学習支援システムおよび学習支援方法
CN112070865A (zh) 课堂互动方法、装置、存储介质及电子设备
El-Yamri et al. Designing a VR game for public speaking based on speakers features: a case study
CN117541444B (zh) 一种互动虚拟现实口才表达训练方法、装置、设备及介质
CN114270337A (zh) 用于个性化和多模态的上下文感知的人机对话的系统和方法
Ince et al. An audiovisual interface-based drumming system for multimodal human–robot interaction
KR100432176B1 (ko) 대화형 시뮬레이터를 이용한 훈련 장치 및 방법
Faltaous et al. Understanding Challenges and Opportunities of Technology-Supported Sign Language Learning
CN101739852B (zh) 基于语音识别的实现自动口译训练的方法和装置
Anjos et al. A serious mobile game with visual feedback for training sibilant consonants
Wei Development and evaluation of an emotional lexicon system for young children
Chai et al. SignInstructor: an effective tool for sign language vocabulary learning
Pan et al. Application of virtual reality in English teaching
Adewole et al. Dialogue-based simulation for cultural awareness training
Cinieri et al. Eye Tracking and Speech Driven Human-Avatar Emotion-Based Communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination