CN117522643A - 一种口才训练方法、装置、设备及存储介质 - Google Patents
一种口才训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117522643A CN117522643A CN202311652061.1A CN202311652061A CN117522643A CN 117522643 A CN117522643 A CN 117522643A CN 202311652061 A CN202311652061 A CN 202311652061A CN 117522643 A CN117522643 A CN 117522643A
- Authority
- CN
- China
- Prior art keywords
- emotion
- training
- audio data
- analysis
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008451 emotion Effects 0.000 claims abstract description 225
- 238000004458 analytical method Methods 0.000 claims abstract description 104
- 230000014509 gene expression Effects 0.000 claims abstract description 92
- 230000009471 action Effects 0.000 claims abstract description 47
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 230000006872 improvement Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 4
- 230000033001 locomotion Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 20
- 230000008569 process Effects 0.000 abstract description 18
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000003190 augmentative effect Effects 0.000 description 10
- 210000004556 brain Anatomy 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 210000003792 cranial nerve Anatomy 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003997 social interaction Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 206010002368 Anger Diseases 0.000 description 1
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000010482 emotional regulation Effects 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本申请提出一种口才训练方法、装置、设备及存储介质,口才训练方法获取训练对象的口才表达音频数据以及视频流,对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签,确定口才表达音频数据对应的文本内容,通过跨模态分析模型对口才表达音频数据、视频流以及文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议,基于跨模态的协同分析,有利于准确反映不同模态数据的关联以及保证训练过程中模态数据的连贯性,提高手势动作指导建议以及语音指导建议的准确性;根据情感合成模型、语音指导建议以及文本内容生成情感标签对应的目标改善语音,进一步提高训练对象的训练效果。
Description
技术领域
本申请涉及口才训练领域,尤其涉及一种口才训练方法、装置、设备及存储介质。
背景技术
传统的口才训练方法主要依赖于人工教练的指导和评估,缺乏系统化和个性化的训练支持。在口才表达行业中,存在以下技术问题:
1.传统数据处理效率低下:传统方法在处理口才训练数据时,通常需要将数据转换为特定格式或进行字符型转换,这导致数据处理效率低下。特别是对于大规模数据集或需要实时处理的情况,数据的转换和处理所需的时间过长,极大地影响了训练的效率和实时性。
2.跨模态数据的综合利用问题:口才表达涉及多模态数据,包括语音、图像和文本等。然而,传统方法难以充分利用和分析不同模态数据之间的关联,导致对口才表达的理解和评估不够全面和准确。这限制了训练系统对于演讲者的全面支持,无法提供多模态数据的协同分析和反馈。
3.跨语言训练的挑战:在跨语言环境下进行口才训练一直面临着挑战。传统方法对于跨语言训练的支持有限,无法提供准确的语言转换、发音评估和口音纠正等功能,这限制了学习者在跨文化交流和国际口才表达能力的提升。此外,传统方法未能充分考虑到不同语言和文化之间的差异,因此无法提供个性化的跨文化训练支持。
4.缺乏实际应用场景的模拟:许多口才训练方法缺乏实际应用场景的模拟,这导致学习者在真实演讲中可能会面临适应性问题。传统方法通常无法提供高度互动和实用性的训练环境,无法模拟不同演讲场景和听众反应,这对于提高学习者的适应能力和现场表现力非常关键。
发明内容
本申请实施例提供一种口才训练方法、装置、设备及存储介质,以解决相关技术存在的至少一问题,技术方案如下:
第一方面,本申请实施例提供了一种口才训练的方法,包括:
获取训练对象的口才表达音频数据以及视频流;
对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签;
确定所述口才表达音频数据对应的文本内容,通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议;
根据情感合成模型、所述语音指导建议以及所述文本内容生成所述情感标签对应的目标改善语音。
在一种实施方式中,所述对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签包括:
对所述视频流进行关键帧提取,对提取的关键帧进行姿态识别,确定所述训练对象的姿态信息;
通过第一情感模型对所述姿态信息进行分析,确定第一情感状态,通过第二情感模型对所述口才表达音频数据进行分析,确定第二情感状态,根据所述第一情感状态、所述第二情感状态以及预设权重,计算确定所述训练对象的情感标签;
或者,
将所述口才表达音频数据以及所述视频流输入至多模态分析模型进行情感分析,确定所述训练对象的情感标签。
在一种实施方式中,所述通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议包括:
通过所述跨模态分析模型对所述视频流进行动作分析,确定所述训练对象的手势动作信息;
通过所述跨模态分析模型对所述手势动作信息、所述口才表达音频数据以及所述文本内容建模语义关系以及上下文信息;
利用所述跨模态分析模型通过上下文建模、推理算法以及自然语言处理算法对所述口才表达音频数据以及所述上下文信息进行关联分析,确定所述训练对象的表达意图;
根据所述语义关系以及所述表达意图,生成手势动作指导建议以及语音指导建议。
在一种实施方式中,所述根据情感合成模型以及所述语音指导建议生成所述情感标签对应的目标改善语音包括:
通过所述情感合成模型提取所述语音指导建议中的情感关键词,并根据所述情感关键词匹配目标情感;
通过所述情感合成模型从所述口才表达音频数据中提取所述训练对象的音色,并根据所述目标情感对所述训练对象的音色进行声音调整,确定调整声音;
根据所述调整声音以及所述文本内容,生成所述情感标签对应的目标改善语音。
在一种实施方式中,所述方法还包括:
获取语言转换表达请求,响应所述语言转换表达请求通过机器翻译算法将所述文本内容翻译为第一目标语言;
确定所述目标语言的语言类型,根据所述语言类型以及所述语言转换模型,对所述目标语言进行句子结构的转换,得到第二目标语言;
获取训练对象基于所述第二目标语言的新的口才表达音频数据以及新的视频流;
根据新的口才表达音频数据以及新的视频流,返回所述对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签的步骤。
在一种实施方式中,所述方法还包括:
根据所述文本内容从文化库中确定第一文化信息;
根据所述第二目标语言从所述文化库的第二文化信息;
对所述第一文化信息以及所述第二文化信息进行差异分析,确定差异信息;
根据所述差异信息生成适应性指导建议,适应性指导建议包括言辞选择或者行为举止。
在一种实施方式中,所述方法还包括:
获取所述训练对象的脑电图,通过信号分析模型对所述脑电图进行信号分析,确定所述训练对象的注意力信息以及情绪信息;
当所述注意力信息表征注意力分散时,生成第一调整提醒,以及,当所述情绪信息与所述语音指导建议中的情感关键词存在差异时,生成第二调整提醒。
第二方面,本申请实施例提供了一种口才训练装置,包括:
获取模块,用于获取训练对象的口才表达音频数据以及视频流;
情感分析模块,用于对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签;
协同分析模块,用于确定所述口才表达音频数据对应的文本内容,通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议;
生成模块,用于根据情感合成模型、所述语音指导建议以及所述文本内容生成所述情感标签对应的目标改善语音。
在一种实施方式中,所述生成模块还用于:
获取语言转换表达请求,响应所述语言转换表达请求通过机器翻译算法将所述文本内容翻译为第一目标语言;
确定所述目标语言的语言类型,根据所述语言类型以及所述语言转换模型,对所述目标语言进行句子结构的转换,得到第二目标语言;
获取训练对象基于所述第二目标语言的新的口才表达音频数据以及新的视频流;
根据新的口才表达音频数据以及新的视频流,返回所述对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签的步骤。
在一种实施方式中,所述生成模块还用于:
根据所述文本内容从文化库中确定第一文化信息;
根据所述第二目标语言从所述文化库的第二文化信息;
对所述第一文化信息以及所述第二文化信息进行差异分析,确定差异信息;
根据所述差异信息生成适应性指导建议,适应性指导建议包括言辞选择或者行为举止。
在一种实施方式中,所述生成模块还用于:
获取所述训练对象的脑电图,通过信号分析模型对所述脑电图进行信号分析,确定所述训练对象的注意力信息以及情绪信息;
当所述注意力信息表征注意力分散时,生成第一调整提醒,以及,当所述情绪信息与所述语音指导建议中的情感关键词存在差异时,生成第二调整提醒。
第三方面,本申请实施例提供了一种电子设备,包括:处理器和存储器,该存储器中存储指令,该指令由该处理器加载并执行,以实现上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被执行时实现上述各方面任一种实施方式中的方法。
上述技术方案中的有益效果至少包括:
获取训练对象的口才表达音频数据以及视频流,对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签,确定口才表达音频数据对应的文本内容,通过跨模态分析模型对口才表达音频数据、视频流以及文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议,基于跨模态的协同分析,有利于准确反映不同模态数据的关联以及保证训练过程中模态数据的连贯性,提高手势动作指导建议以及语音指导建议的准确性;根据情感合成模型、语音指导建议以及文本内容生成情感标签对应的目标改善语音,进一步提高训练对象的训练效果。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请一实施例口才训练方法的步骤流程示意图;
图2为本申请一实施例的口才训练装置的结构框图;
图3为本申请一实施例的电子设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
参照图1,示出本申请一实施例的口才训练方法的流程图,该口才训练方法至少可以包括步骤S100-S400:
S100、获取训练对象的口才表达音频数据以及视频流。
S200、对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签。
S300、确定口才表达音频数据对应的文本内容,通过跨模态分析模型对口才表达音频数据、视频流以及文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议。
S400、根据情感合成模型、语音指导建议以及文本内容生成情感标签对应的目标改善语音。
本申请实施例的口才训练方法可以通过计算机、手机、平板、车载终端等终端的电子控制单元、控制器、处理器等执行,也可以通过云服务器进行执行。
本申请实施例的技术方案,通过获取训练对象的口才表达音频数据以及视频流,对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签,确定口才表达音频数据对应的文本内容,通过跨模态分析模型对口才表达音频数据、视频流以及文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议,基于跨模态的协同分析,有利于准确反映不同模态数据的关联以及保证训练过程中模态数据的连贯性,提高手势动作指导建议以及语音指导建议的准确性;根据情感合成模型、语音指导建议以及文本内容生成情感标签对应的目标改善语音,进一步提高训练对象的训练效果。
需要说明的是,本发明旨在克服传统口才训练方法存在的这些技术问题,通过引入增强现实技术、跨模态数据分析、跨语言训练支持、实际应用场景模拟等创新性方法,提供更高效、全面和个性化的口才训练支持,从而帮助演讲者更好地发展其口才表达能力。
在一种实施方式中,本申请实施例可以获取口才训练的训练对象的相关数据,例如口才表达音频数据、视频流、输入的文本内容、脑电波、手势动作、心率、皮肤电导度(用于衡量情感激发度)、肌肉张力等等,多模态数据的采集使系统能够从不同角度获取用户的口才表达信息。需要说明的是,可以将获取的相关数据进行预处理,包括但不限于降噪、语音分割、特征提取、人脸检测、图像增强、对齐数据时间戳、分词、词性标注、语义分析、数据校准、应用自然语言处理技术理解和分析文本内容的语义和意图以提供相应的训练建议和反馈等等,有助于提高后续分析和处理的准确性和可靠性。其中,文本内容除了输入之外也可以通过对口才表达音频数据进行分析得到;手势动作可以通过传感器获取或者通过对视频流进行分析得到。
本申请实施例可以实现个性化训练:基于生理信号的情感识别使口才训练更加个性化,每个训练对象的情感状态不同,因此训练策略会根据他们的需要进行调整,提高训练效果;长期效果监测:系统可以持续监测训练对象的情感状态,以跟踪他们的长期训练效果。这有助于识别并纠正情感状态的持久问题。
在一种实施方式中,步骤S200包括步骤S210或者S220:
S210、对视频流进行关键帧提取,对提取的关键帧进行姿态识别,确定训练对象的姿态信息;
通过第一情感模型对姿态信息进行分析,确定第一情感状态,通过第二情感模型对口才表达音频数据进行分析,确定第二情感状态,根据第一情感状态、第二情感状态以及预设权重,计算确定训练对象的情感标签。
可选的,对实时的视频流进行处理,提取视频流中的关键帧,然后对提取的关键帧进行姿态识别,从而确定训练对象的姿态信息,便于后续对训练对象的姿态,如动作、手势等进行指导。
本申请实施例中,事先采集各种姿态数据对第一情感模型进行训练,使第一情感模型可以根据输入的姿态信息输出情感状态的分类结果,例如当输入姿态信息进入第一情感模型后,第一情感模型输出第一情感状态,第一情感状态中可以包括第一情感类型以及对应的第一概率。类似地,第二情感模型通过类似的方式进行训练,因此当口才表达音频数据输入至第二情感模型,第二情感模型输出第二情感状态,第二情感状态同样可以包括第二情感类型以及对应的第二概率,然后根据预设权重(例如第一概率对应第一权重,第二概率对应第二权重),利用第一概率、第二概率、第一权重、第二权重进行加权计算,从而确定训练对象的情感标签。需要说明的是,第二情感状态可以通过提取语音中的情感特征,如音调、语速和语音能量等,然后使用分类器进行情感分类得到。
例如,假设第一情感类型包括激动,对应的概率为0.5,开心,对应的概率为0.4,第二情感类型同样包括激动,对应的概率为0.45,开心,对应的概率为0.45,假设第一权重为W1,第二权重为W2,计算激动的加权结果:0.5W1+0.4W2,同理计算开心的加权结果,将加权结果更大的一者确定为最终的情感标签。需要说明的是,通过计算加权结果确定训练对象的情感标签,有利于得到更加准确的情感标签。
S220、将口才表达音频数据以及视频流输入至多模态分析模型进行情感分析,确定训练对象的情感标签。
在一些实施方式中,可以通过口才表达音频数据以及视频流作为输入同时训练多模态分析模型,将不同模态的数据融合在一起,创造一个综合的多模态数据集,并将口才表达音频数据以及视频流进行时间对齐、引入共享,保持数据在时间和特征空间上保持一致性,将这样的多模态数据集作为训练集进行多模态分析模型的训练。具体地,将口才表达音频数据以及视频流输入至多模态分析模型进行情感分析,直接输出训练对象的情感标签。
可选地,情感标签可以通过以下方式确定:对视频流的关键帧进行计算机视觉分析,以检测和跟踪人体姿态的关键点,提取姿态信息,这些关键点可能包括头部、双手、双脚、身体的姿势等。然后,提取的姿态信息送入至第一候选情感模型中,这个模型可以为深度学习神经网络,在训练过程中学习从姿态信息到情感状态的映射,同时第一候选情感模型可学会将姿态信息的特定组合与情感状态相关联。例如,如果某人的肩膀紧绷且身体前倾,模型可以将这种姿态映射到"紧张"情感状态。另外,口才表达音频数据提取的情感特征如音调、音量、语速等,可以输入至第二候选情感模型中,类似地可以为深度学习神经网络,在训练过程中学习从情感特征到情感状态的映射,模型学会将不同的情感特征与情感状态相关联。例如,快速而高音调的音频可能与"兴奋"情感状态相关。当第一候选情感模型、第二候选情感模型各自分析后会产生第一情感状态和第二情感状态的估计值,这些情感状态的估计值被合并,通常通过赋予它们不同的权重并加权求和的方式,以计算出最终的情感标签。这个过程可以通过一个数学公式来实现,权重的选择可以根据具体应用的需要来调整。
这个过程的结果是,系统计算出了一个情感标签,该标签反映了训练对象在口才表达时的情感状态。这个标签可以用于生成个性化的口才训练建议,以帮助训练对象在演讲或表达中更好地传达所需的情感。这种多模态分析方法允许系统更全面地了解训练对象的情感状态,从而提供更准确的指导和反馈,有助于提高口才表达的情感传递效果。
提取面部表情特征(如微笑、愤怒、惊讶)、姿态信息等,多模态分析模型基于该些特征、信息以及口才表达音频数据进行情感分析,确定训练对象的情感标签。
在一种实施方式中,还可通过语音识别纠错模型,对口才表达音频数据进行纠错,例如读音、咬字等等。
需要说明的是,在口才表达中,情感传递是至关重要的,而语音作为一种重要的表达方式,能够有效地传递情感。传统的口才训练系统通常只关注语音的准确性和流畅性,而忽略了情感的表达,因此,跨模态情感合成的创新点在于能够根据不同模态的数据,生成与之匹配的情感表达,使演讲者的语音能够更好地传递情感和引发听众的共鸣,使得口才训练系统能够提供个性化和精准的情感表达支持,讲者可以更好地传递情感,使语音表达更加生动和感染力,增强演讲的效果和说服力。
类似地,在演讲行业和口才表达行业中,语义理解和上下文理解对于有效的口才训练至关重要。传统的口才训练系统通常只关注语音的识别和理解,而忽略了与之相关的其他模态数据,如图像和文本等。因此,语义关系建模的创新点在于能够综合不同模态之间的语义关系,提高对演讲者口才表达的综合理解能力。
在一种实施方式中,步骤S300包括步骤S310-S340:
S310、通过跨模态分析模型对视频流进行动作分析,确定训练对象的手势动作信息。
S320、通过跨模态分析模型对手势动作信息、口才表达音频数据以及文本内容建模语义关系以及上下文信息。
可选地,通过跨模态分析模型对视频流进行关键帧的提取后,对关键帧进行动作分析,确定训练对象的手势动作信息。例如,通过计算机视觉和深度学习技术进行关键点检测,识别如手势和其他部位的身体语言,以帮助训练对象改善非语言表达和提升舞台表现力。
另外,通过跨模态分析模型,例如为图神经网络或多模态注意力模型对手势动作信息、口才表达音频数据以及文本内容建模语义关系以及上下文信息,分析不同分析不同模态数据之间的语义联系和相互作用,如分析语音与图像、语音与文本、图像与文本、文本上下文之间的关联。
需要说明的是,分析语义关系可以用自然语言处理技术,如词嵌入和语义分析,理解文本内容,提取关键信息和语义关系。本申请实施例通过语义关系建模的创新点,使得口才训练系统能够更准确地理解和分析训练对象的口才表达,系统能够更好地把握演讲的上下文信息,从而提高口才训练的连贯性、逻辑性和语义一致性,训练对象可以获得更精准的反馈和指导,提升非语言表达能力和演讲的整体效果。
S330、利用跨模态分析模型通过上下文建模、推理算法以及自然语言处理算法对口才表达音频数据以及上下文信息进行关联分析,确定训练对象的表达意图。
需要说明的是,跨模态分析模型可以从多模态数据中提取跨模态特征,以捕捉模态之间的关联信息,并利用机器学习和深度学习技术,建立模态之间的关联模型,例如可以通过共享权重的神经网络架构、跨模态注意力机制等方法来实现。而通过跨模态关联建模,系统能够学习不同模态之间的依赖关系,从而更好地理解用户的口才表达,综合分析用户的口才表达,并提供个性化和综合性的训练反馈,有利于后续提供全面、个性化和精确的训练支持,从而提升用户在演讲行业和口才表达行业中的表现和技能。
同时,本申请实施例中跨模态分析模型还可以通过上下文建模、推理算法以及自然语言处理算法对口才表达音频数据以及上下文信息进行关联分析,从而确定训练对象的表达意图。
S340、根据语义关系以及表达意图,生成手势动作指导建议以及语音指导建议。
最后,在分析得到语义关系以及表达意图后,基于语义关系以及表达意图确定标准手势动作以及标准语音,比较标准手势动作与训练者的手势动作的动作差异,基于动作差异生成针对性的手势动作指导建议;比较标准语音与训练者的口才表达音频数据的语音差异,例如音色、音调、音量、语速等的差异,基于标准语音生成针对性的语音指导建议。
在一种实施方式中,步骤S400包括步骤S410-S430:
S410、通过情感合成模型提取语音指导建议中的情感关键词,并根据情感关键词匹配目标情感。
S420、通过情感合成模型从口才表达音频数据中提取训练对象的音色,并根据目标情感对训练对象的音色进行声音调整,确定调整声音。
可选地,通过情感合成模型提取语音指导建议中的情感关键词,并根据情感关键词匹配目标情感。例如,语音指导建议为采取更温柔的语调,此时可以提取出的情感关键词为温柔,然后确定匹配温柔的目标情感。
可选地,通过情感合成模型提取从口才表达音频数据中提取训练对象的音色,使得后续生成的语音为与训练对象的声音,增加真实性和体验感,使得训练者能够更加容易学习。然后,根据目标情感对训练对象的音色进行声音调整,确定调整音色。例如目标情感为温柔,此时在训练对象原有音色上基于目标情感温柔进行声音调整,从而确定调整声音。可选地,声音调整包括但不限于响度、音调、音量、语速等,情感合成模型中实现设置有各个情感所对应的一组响度、音调、音量、语速的声音参数,确定目标情感后可以基于对应的声音参数进行调整。
S430、根据调整声音以及文本内容,生成情感标签对应的目标改善语音。
具体地,在确定调整声音后,结合文本内容,生成情感标签对应的目标改善语音,从而辅导训练对象进行口才训练。
例如,当系统分析到训练对象的情感为紧张时,语音指导建议中的情感关键词为自信或者舒缓,此时可以合成更加自信或者舒缓的目标改善语音,帮助训练对象调整情感表达,提升演讲的情感传递能力。
可选地,步骤S430中,还可以为将情感标签和文本内容编码为向量表示,例如通过使用预训练的词嵌入模型来编码。例如,用$\mathbf{e}_{\text{情感}}$表示情感标签的向量表示,$\mathbf{e}_{\text{文本}}$表示文本内容的向量表示。
情感标签编码:
$\mathbf{e}_{\text{情感}}=\text{encode_emotion}(\text{情感标签})$
文本内容编码:
$\mathbf{e}_{\text{文本}}=\text{encode_text}(\text{文本内容})$
这些向量$\mathbf{e}_{\text{情感}}$和$\mathbf{e}_{\text{文本}}$将作为生成模型的输入,使用生成模型$G$来生成情感标签对应的目标改善语音的声音特征向量。生成模型的参数记为$\theta$,生成模型的输入是情感标签编码$\mathbf{e}_{\text{情感}}$和文本内容编码$\mathbf{e}_{\text{文本}}$,生成模型将这些输入映射到声音特征向量$\mathbf{F}_{\text{声音}}$,例如使用一个深度神经网络来完成,该网络可能包含多个层次和激活函数。
其中,生成模型的数学表示可以用以下公式表示:
$\mathbf{F}_{\text{声音}}=G(\mathbf{e}_{\text{情感}},\mathbf{e}_{\text{文本}};\theta)$,描述了如何从情感标签和文本内容的编码生成声音特征向量。
最后,将声音特征向量$\mathbf{F}_{\text{声音}}$转换为实际的声音波形$W$,可以使用声音合成技术来实现,如WaveNet或Griffin-Lim算法。声音合成技术将声音特征向量映射到时域的声音波形。这个过程可以用以下数学公式表示:$W=\text{synthesize_audio}(\mathbf{F}_{\text{声音}})$,描述了如何从声音特征向量生成实际的声音波形,即情感标签对应的目标改善语音。
需要注意的是,上述公式和计算过程是一个概念性的框架,用于说明情感标签对应的目标改善语音生成的基本步骤和核心思想,不构成具体限定。
在一种实施方式中,还可以通过图像生成模型,根据文本内容以及情感关键词,生成与情感和内容相匹配的图像,用于辅助口才训练。需要说明的是,图像生成模型可以事先采集训练对象的情感和内容相关的图像数据,例如可以来自于演讲者的面部表情、姿态、手势等,以及与演讲内容相关的场景、背景等图像;训练模型:基于收集的图像数据,利用图像生成技术,训练一个图像生成模型,例如训练生成对抗网络(GAN)或者或变分自编码器(VAE);情感和内容编码:在图像生成过程中,需要将演讲者的情感状态和内容信息编码成向量形式,以便输入到生成模型中,利用训练好的生成对抗网络和情感内容编码,输入到生成器中,让生成器产生与演讲者情感和内容相匹配的图像。
本申请实施例中,针对与演讲内容相关的场景,由于使用增强现实技术模拟不同演讲场景对于提高口才训练的效果具有重要性,可以为训练者提供更真实、身临其境的练习环境,帮助他们更好地适应各种演讲情境,从而提高演讲表现的自信度和适应性。以下提供使用增强现实技术模拟不同演讲场景的具体过程:
1.场景模拟:
选择演讲场景:首先,通过增强现实技术,选择不同种类的演讲场景,例如大型会议厅、教室、演讲台等。每个场景都可以有不同的特点,如观众规模、灯光效果、背景音乐等。
虚拟场景创建:利用增强现实技术,创建虚拟演讲场景的三维模型。这些模型包括虚拟的听众、背景、舞台布置等元素。这些元素会与真实世界相融合,形成增强现实环境。
2.互动性和实时反馈:
虚拟观众互动:通过增强现实技术,虚拟听众可以以各种方式互动,例如提问、鼓掌、嘘声等。这种互动性可以让训练者更好地适应真实演讲中可能遇到的情况。
实时反馈:系统可以根据训练者的表现实时生成反馈。例如,如果训练者的语速过快或紧张度过高,系统可以通过虚拟听众的反应来提醒他们,帮助他们调整表现。
3.情感调整和情境逼真性:
情感调整:根据训练者的目标情感,增强现实技术可以调整虚拟场景中的情感元素,如虚拟听众的情感反应、背景音乐的节奏等,以帮助训练者更好地传达所需的情感。
情境逼真性:通过增强现实技术,虚拟场景可以变得非常逼真,包括观众的外貌、衣着、反应等。这种逼真性有助于训练者更好地感受到真实演讲情境,增强他们的训练体验。
4.个性化训练:
场景选择:根据训练者的需要,可以选择不同类型的场景进行个性化训练,以满足他们在不同情境下的训练需求。
反馈和改进:系统可以记录训练者在不同场景下的表现并提供反馈。这有助于训练者了解他们在各种情境下的表现,以便改进。
通过以上过程,增强现实技术可以为口才训练提供更具挑战性和逼真性的训练环境,使训练者能够更好地适应各种演讲场景,提高演讲表现的自信度和适应性。这种模拟的实际应用场景有助于提高口才训练的效果,使训练者能够更好地应对各种演讲挑战。
在一种实施方式中,本申请实施例的口才训练方法还包括S510-S540:
S510、获取语言转换表达请求,响应语言转换表达请求通过机器翻译算法将文本内容翻译为第一目标语言。
可选地,当训练对象有不同语言的训练需求时,可以输入语言转换表达请求供系统获取,系统响应语言转换表达请求通过机器翻译算法将文本内容翻译为第一目标语言。例如,当前的文本内容为中文,输入的训练需求为英文,此时将文本内容翻译为第一目标语言即利用英文表达的文本内容。
S520、确定目标语言的语言类型,根据语言类型以及语言转换模型,对目标语言进行句子结构的转换,得到第二目标语言。
可选地,由于不同语音的表达习惯有所不同,例如词汇、语法、语言习惯等方面,为了提高训练者不同语言的训练效果需要进行句子结构的转换。例如,目标语言的语言类型为英文,通过语言转换模型基于英文的表达习惯进行句子结构的转换,得到第二目标语言。
例如,可以通过处理模型比较句子结构、目标语言的语法、句法规则等内容的不同,进行相应的转换和调整,以提高训练对象在目标语言下的表达准确性和流畅度。
可选地,事先利用自然语言处理技术和句法分析算法构建处理模型,获取大量不同语言的语料库,然后进行模型的训练,得到处理模型。通过处理模型,可以提升句子结构准确性,通过句子结构转换,训练对象可以在口才训练中更好地适应目标语言的句子结构,使表达更加自然和准确;增强流利度:转换后的句子结构符合目标语言的语法规则,帮助训练对象提高口才表达的流利度;个性化训练:系统根据训练对象的输入和目标语言的特点,提供个性化的句子结构转换,满足不同训练对象的需求。
S530、获取训练对象基于第二目标语言的新的口才表达音频数据以及新的视频流。
具体地,在确定第二目标语言后,训练者可以基于第二目标语言进行口才训练,在训练的过程中获取训练对象基于第二目标语言的新的口才表达音频数据以及新的视频流。
S540、根据新的口才表达音频数据以及新的视频流,返回对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签的步骤。
具体地,根据新的口才表达音频数据以及新的视频流,返回对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签的步骤,即返回步骤S200,从而生成基于新的口才表达音频数据以及新的视频流的新的手势动作指导建议、新的语音指导建议、新的目标改善语音。
可选地,本申请实施例的手势动作指导建议以及语音指导建议还可以通过显示屏如拍摄视频流的电子设备的屏幕中进行显示,以进行实时提醒便于调整。
在一种实施方式中,本申请实施例的方法还可以根据不同不同语种的发音特点,对训练对象的发音进行评估、反馈以及口音纠正,帮助其纠正发音错误、改善口语表达以及改善口音,帮助训练对象更清晰、流畅地发音。例如,使用声学模型和发音数据库,通过对训练对象的发音进行语音识别和声学特征分析,评估其发音准确性和流利度,并提供相应的反馈和指导。
在一种实施方式中,本申请实施例的口才训练方法还包括S610-S640:
S610、根据文本内容从文化库中确定第一文化信息。
S620、根据第二目标语言从文化库的第二文化信息。
需要说明的是,由于不同文化之间可能存在差异,例如演讲习俗、礼仪规范、言辞惯例、沟通方式可能存在区别,此时需要采取相应的措施提高训练对象在跨文化演讲中的表达能力。可选地,文化库中事先采集了大量的不同国家的习俗、礼仪、沟通方式等数据,在确定文本内容后,根据文本内容确定对应国家的第一文化信息,同样地,根据第二目标语言从文化库中确定对应国家的的第二文化信息。
S630、对第一文化信息以及第二文化信息进行差异分析,确定差异信息。
然后,利用可以提取第一文化信息、第二文化信息的关键词进行相似度分析,或者通过事先训练的分析模型分析第一文化信息、第二文化信息,从而确定差异分析结果,即差异信息。
S640、根据差异信息生成适应性指导建议,适应性指导建议包括言辞选择或者行为举止。
本申请实施例中,在确定差异信息后,根据差异信息生成适应性指导建议,例如言辞选择或者行为举止等内容,从而提高训练对象在跨文化演讲中的表达能力,使其更符合目标文化的期望和需求。本申请实施例,通过提供相关的文化指导、示范和反馈,帮助训练对象调整表达方式,使其更符合目标文化的期望和需求,提高跨文化沟通效果,增强表达的文化敏感性以及培养全球视野。
可选地,一种实施方式中可以通过专家系统根据差异信息生成适应性指导建议。
在一种实施方式中,本申请实施例的口才训练方法还包括S710-S720:
S710、获取训练对象的脑电图,通过信号分析模型对脑电图进行信号分析,确定训练对象的注意力信息以及情绪信息。
S720、当注意力信息表征注意力分散时,生成第一调整提醒,以及,当情绪信息与语音指导建议中的情感关键词存在差异时,生成第二调整提醒。
可选地,可以通过设备获取训练对象的脑电波线形成脑电图(EEG),通过信号分析模型提取有关训练对象的注意力信息和情绪信息,基于这些信息,系统可以提供实时的反馈,例如通过视觉或音频提示来指导训练对象调整注意力水平或情感状态,以提高口才表达的效果。例如,当注意力信息表征注意力分散时,生成第一调整提醒,以及,当情绪信息与语音指导建议中的情感关键词存在差异时,生成第二调整提醒。例如,情绪信息为低落,而指导建议中的情感关键词为高昂,此时提醒训练对象注意情感,提高兴奋度。
通过分析脑电波数据,系统能够了解训练对象的注意力水平、情绪状态和认知负荷,从而针对性地调整训练内容、难度和节奏,提供更加精准和有效的口才训练;提升演讲效果和自信心:脑神经反馈训练可以帮助训练对象改善注意力集中、情绪调控和自我调整的能力,从而提升演讲的表达效果和自信心。通过实时的脑神经反馈,训练对象可以更加准确地了解自己的脑电波活动和内在状态,及时调整自己的表达方式和情感表达,提高演讲的感染力和说服力。同时可以实现科学化的训练方法和指导:脑神经反馈训练提供了一种科学化的训练方法和指导,通过客观的脑电波数据,帮助训练对象更好地认识自己的表达过程和内在机制。训练对象可以根据脑神经反馈数据进行自我评估和调整,了解自己在不同情境下的脑电波模式,从而优化口才表达的效果和策略。
在一种实施方式中,本申请实施例的口才训练方法还可以包括:
1)、个性化推荐算法:基于训练对象的口才训练需求或者基于历史数据如历史的口才表达音频数据以及历史的视频流,提供个性化的训练内容和学习路径。例如,应用协同过滤、内容过滤和深度学习等技术来挖掘训练对象的潜在兴趣和需求,分析训练对象的口才表达水平、兴趣偏好、学习进展等信息,采用机器学习和推荐系统技术,生成针对每位用户的个性化训练推荐结果,同时,可以借助训练对象反馈和评估结果进行实时调整和优化,以提供更准确、个性化的推荐;
2)、训练策略调整:可以利用强化学习算法,根据训练对象的训练进展和目标,通过设定适当的奖励和惩罚机制来调整训练策略。例如,当训练对象表现良好时,可以增加训练难度或提供挑战性的任务;当训练对象遇到困难或出现错误时,可以提供适当的辅助提示和指导。通过不断优化训练策略,系统可以根据训练对象的个体差异和学习能力,提供更有效、个性化的训练支持。
3)、社交互动支持:提供社交互动功能,可以通过构建在线社区、讨论平台或即时通讯工具来实现。让训练对象能够与其他训练对象、教练或专家进行交流、分享经验和接受反馈,以促进学习动力和交流合作。训练对象可以在社交平台上与其他训练对象分享学习心得、提问问题、讨论口才训练的技巧和策略。此外,系统可以提供教练或专家的参与和反馈,通过在线互动或定期讨论会议等方式,与训练对象进行交流和指导,提供更个性化的训练建议。
4)、激励机制设计:通过奖励、目标设定和个人进展跟踪等方式,激发训练对象的学习动力、提升参与度和坚持训练的意愿。例如,可以通过设定具有挑战性和奖励性的任务和目标,激发训练对象的内在动机。例如,系统可以设定阶段性的目标,当训练对象达到特定的学习里程碑或取得进展时,提供奖励或认可。此外,系统可以设计排行榜、徽章系统或虚拟货币等形式的奖励和竞争机制,鼓励训练对象积极参与训练、提高自身水平,并与其他训练对象进行比较和交流。
通过强化学习优化模块的结构和功能,口才训练系统能够提供个性化的学习推荐、动态调整的训练策略、社交互动支持、脑神经反馈训练和激励机制设计等功能。这些创新点能够增强训练对象的学习动力、提升训练效果,并提供个性化的训练体验。同时,结合演讲行业和口才表达行业的需求,这些创新功能可以满足训练对象在口才训练过程中的个性化需求、提高训练效果、促进交流合作和持续参与。
通过本申请实施例的方法,至少能够达到效果:
1.采用高效的模型数据处理技术,避免了繁琐的数据转换和字符型转换,提高了数据处理的效率,通过优化数据处理过程,系统能够快速获取和处理口才训练数据,提高实时性和处理速度。
2.多模态数据分析与协同:引入跨模态数据分析技术,充分利用语音、图像和文本等多种模态的数据,并进行协同分析,通过跨模态数据的协同分析,系统能够更全面、准确地理解和评估口才表达,提供个性化的训练支持。
3.跨语言训练的创新支持:采用先进的跨语言训练技术,包括机器翻译、语言转换和口音纠正等功能,能够支持用户在不同语言环境下进行口才训练,提升跨文化交流和国际口才表达能力。
4.通过解决传统口才训练方法中的数据处理效率问题、跨模态数据分析挑战和跨语言训练限制等技术问题,实现了口才训练系统的高效性、全面性和个性化支持,为演讲行业和口才表达行业的发展和进步提供了创新的解决方案。
参照图2,示出了本申请一实施例的口才训练装置的结构框图,该装置可以包括:
获取模块,用于获取训练对象的口才表达音频数据以及视频流;
情感分析模块,用于对口才表达音频数据以及视频流进行情感分析,确定训练对象的情感标签;
协同分析模块,用于确定口才表达音频数据对应的文本内容,通过跨模态分析模型对口才表达音频数据、视频流以及文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议;
生成模块,用于根据情感合成模型、语音指导建议以及文本内容生成情感标签对应的目标改善语音。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
参照图3,示出了本申请一实施例电子设备的结构框图,该电子设备包括:存储器310和处理器320,存储器310内存储有可在处理器320上运行的指令,处理器320加载并执行该指令实现上述实施例中的口才训练方法。其中,存储器310和处理器320的数量可以为一个或多个。
在一种实施方式中,电子设备还包括通信接口330,用于与外界设备进行通信,进行数据交互传输。如果存储器310、处理器320和通信接口330独立实现,则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器310、处理器320及通信接口330集成在一块芯片上,则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的口才训练方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求保护范围为准。
Claims (10)
1.一种口才训练方法,其特征在于,包括:
获取训练对象的口才表达音频数据以及视频流;
对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签;
确定所述口才表达音频数据对应的文本内容,通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议;
根据情感合成模型、所述语音指导建议以及所述文本内容生成所述情感标签对应的目标改善语音。
2.根据权利要求1所述口才训练方法,其特征在于:所述对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签包括:
对所述视频流进行关键帧提取,对提取的关键帧进行姿态识别,确定所述训练对象的姿态信息;
通过第一情感模型对所述姿态信息进行分析,确定第一情感状态,通过第二情感模型对所述口才表达音频数据进行分析,确定第二情感状态,根据所述第一情感状态、所述第二情感状态以及预设权重,计算确定所述训练对象的情感标签;
或者,
将所述口才表达音频数据以及所述视频流输入至多模态分析模型进行情感分析,确定所述训练对象的情感标签。
3.根据权利要求1所述口才训练方法,其特征在于:所述通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议包括:
通过所述跨模态分析模型对所述视频流进行动作分析,确定所述训练对象的手势动作信息;
通过所述跨模态分析模型对所述手势动作信息、所述口才表达音频数据以及所述文本内容建模语义关系以及上下文信息;
利用所述跨模态分析模型通过上下文建模、推理算法以及自然语言处理算法对所述口才表达音频数据以及所述上下文信息进行关联分析,确定所述训练对象的表达意图;
根据所述语义关系以及所述表达意图,生成手势动作指导建议以及语音指导建议。
4.根据权利要求1-3任一项所述口才训练方法,其特征在于:所述根据情感合成模型以及所述语音指导建议生成所述情感标签对应的目标改善语音包括:
通过所述情感合成模型提取所述语音指导建议中的情感关键词,并根据所述情感关键词匹配目标情感;
通过所述情感合成模型从所述口才表达音频数据中提取所述训练对象的音色,并根据所述目标情感对所述训练对象的音色进行声音调整,确定调整声音;
根据所述调整声音以及所述文本内容,生成所述情感标签对应的目标改善语音。
5.根据权利要求1-3任一项所述口才训练方法,其特征在于:所述方法还包括:
获取语言转换表达请求,响应所述语言转换表达请求通过机器翻译算法将所述文本内容翻译为第一目标语言;
确定所述目标语言的语言类型,根据所述语言类型以及所述语言转换模型,对所述目标语言进行句子结构的转换,得到第二目标语言;
获取训练对象基于所述第二目标语言的新的口才表达音频数据以及新的视频流;
根据新的口才表达音频数据以及新的视频流,返回所述对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签的步骤。
6.根据权利要求5所述口才训练方法,其特征在于:所述方法还包括:
根据所述文本内容从文化库中确定第一文化信息;
根据所述第二目标语言从所述文化库的第二文化信息;
对所述第一文化信息以及所述第二文化信息进行差异分析,确定差异信息;
根据所述差异信息生成适应性指导建议,适应性指导建议包括言辞选择或者行为举止。
7.根据权利要求1-3任一项所述口才训练方法,其特征在于:所述方法还包括:
获取所述训练对象的脑电图,通过信号分析模型对所述脑电图进行信号分析,确定所述训练对象的注意力信息以及情绪信息;
当所述注意力信息表征注意力分散时,生成第一调整提醒,以及,当所述情绪信息与所述语音指导建议中的情感关键词存在差异时,生成第二调整提醒。
8.一种口才训练装置,其特征在于,包括:
获取模块,用于获取训练对象的口才表达音频数据以及视频流;
情感分析模块,用于对所述口才表达音频数据以及所述视频流进行情感分析,确定所述训练对象的情感标签;
协同分析模块,用于确定所述口才表达音频数据对应的文本内容,通过跨模态分析模型对所述口才表达音频数据、所述视频流以及所述文本内容进行语义关系、上下文信息以及手势动作的协同分析,生成手势动作指导建议以及语音指导建议;
生成模块,用于根据情感合成模型、所述语音指导建议以及所述文本内容生成所述情感标签对应的目标改善语音。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由所述处理器加载并执行,以实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311652061.1A CN117522643B (zh) | 2023-12-04 | 一种口才训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311652061.1A CN117522643B (zh) | 2023-12-04 | 一种口才训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117522643A true CN117522643A (zh) | 2024-02-06 |
CN117522643B CN117522643B (zh) | 2024-05-10 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788239A (zh) * | 2024-02-23 | 2024-03-29 | 新励成教育科技股份有限公司 | 一种口才训练的多模态反馈方法、装置、设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2317359A1 (en) * | 1999-09-09 | 2001-03-09 | Lucent Technologies Inc. | A method and apparatus for interactive language instruction |
KR20040014123A (ko) * | 2002-08-06 | 2004-02-14 | 윤재민 | 가상인격체의 감정표현과 동작구현 시스템 및 그 방법 |
US20080281620A1 (en) * | 2007-05-11 | 2008-11-13 | Atx Group, Inc. | Multi-Modal Automation for Human Interactive Skill Assessment |
WO2014061015A1 (en) * | 2012-10-16 | 2014-04-24 | Sobol Shikler Tal | Speech affect analyzing and training |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN114187544A (zh) * | 2021-11-30 | 2022-03-15 | 厦门大学 | 大学英语演讲多模态自动评分方法 |
CN114973062A (zh) * | 2022-04-25 | 2022-08-30 | 西安电子科技大学 | 基于Transformer的多模态情感分析方法 |
CN115690553A (zh) * | 2023-01-03 | 2023-02-03 | 华南理工大学 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
CN116484318A (zh) * | 2023-06-20 | 2023-07-25 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
CN116862287A (zh) * | 2023-06-14 | 2023-10-10 | 北京邮电大学 | 一种多模态英语演讲能力评估方法 |
CN117057961A (zh) * | 2023-10-12 | 2023-11-14 | 新励成教育科技股份有限公司 | 一种基于云服务的线上口才训练方法及系统 |
CN117541444A (zh) * | 2023-12-04 | 2024-02-09 | 新励成教育科技股份有限公司 | 一种互动虚拟现实口才表达训练方法、装置、设备及介质 |
CN117541445A (zh) * | 2023-12-11 | 2024-02-09 | 新励成教育科技股份有限公司 | 一种虚拟环境交互的口才训练方法、系统、设备及介质 |
CN117635383A (zh) * | 2023-11-30 | 2024-03-01 | 新励成教育科技股份有限公司 | 一种虚拟导师与多人协作口才培训系统、方法及设备 |
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2317359A1 (en) * | 1999-09-09 | 2001-03-09 | Lucent Technologies Inc. | A method and apparatus for interactive language instruction |
KR20040014123A (ko) * | 2002-08-06 | 2004-02-14 | 윤재민 | 가상인격체의 감정표현과 동작구현 시스템 및 그 방법 |
US20080281620A1 (en) * | 2007-05-11 | 2008-11-13 | Atx Group, Inc. | Multi-Modal Automation for Human Interactive Skill Assessment |
WO2014061015A1 (en) * | 2012-10-16 | 2014-04-24 | Sobol Shikler Tal | Speech affect analyzing and training |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN114187544A (zh) * | 2021-11-30 | 2022-03-15 | 厦门大学 | 大学英语演讲多模态自动评分方法 |
CN114973062A (zh) * | 2022-04-25 | 2022-08-30 | 西安电子科技大学 | 基于Transformer的多模态情感分析方法 |
CN115690553A (zh) * | 2023-01-03 | 2023-02-03 | 华南理工大学 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
CN116862287A (zh) * | 2023-06-14 | 2023-10-10 | 北京邮电大学 | 一种多模态英语演讲能力评估方法 |
CN116484318A (zh) * | 2023-06-20 | 2023-07-25 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
CN117057961A (zh) * | 2023-10-12 | 2023-11-14 | 新励成教育科技股份有限公司 | 一种基于云服务的线上口才训练方法及系统 |
CN117635383A (zh) * | 2023-11-30 | 2024-03-01 | 新励成教育科技股份有限公司 | 一种虚拟导师与多人协作口才培训系统、方法及设备 |
CN117541444A (zh) * | 2023-12-04 | 2024-02-09 | 新励成教育科技股份有限公司 | 一种互动虚拟现实口才表达训练方法、装置、设备及介质 |
CN117541445A (zh) * | 2023-12-11 | 2024-02-09 | 新励成教育科技股份有限公司 | 一种虚拟环境交互的口才训练方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
范玉凤: "师范生口语表达能力训练虚拟平台设计", 《软件导刊》, no. 10, 30 October 2012 (2012-10-30), pages 98 - 99 * |
马淼;李贻斌;武宪青;高金凤;潘海鹏;: ""视频中多特征融合人体姿态跟踪"", 《中国图象图形学报》, no. 07, 16 July 2020 (2020-07-16), pages 181 - 194 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788239A (zh) * | 2024-02-23 | 2024-03-29 | 新励成教育科技股份有限公司 | 一种口才训练的多模态反馈方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schroder et al. | Building autonomous sensitive artificial listeners | |
AU2006252392B2 (en) | Mapping each of several communicative functions during contexts to multiple coordinated behaviours of a virtual character | |
CN112992316A (zh) | 用于诊断和治疗语言相关障碍的计算技术 | |
JP6419924B1 (ja) | 学習支援システムおよび学習支援方法 | |
JP2012516463A (ja) | コンピュータ実行方法 | |
KR101048214B1 (ko) | 소셜 러닝 및 시맨틱 기술을 응용한 발음 교정 서비스 장치 | |
CN114270337A (zh) | 用于个性化和多模态的上下文感知的人机对话的系统和方法 | |
KR20220128897A (ko) | 인공지능 아바타를 활용한 회화 능력 평가 시스템 및 그 방법 | |
CN117541445A (zh) | 一种虚拟环境交互的口才训练方法、系统、设备及介质 | |
CN117541444B (zh) | 一种互动虚拟现实口才表达训练方法、装置、设备及介质 | |
Hoque et al. | Robust recognition of emotion from speech | |
De Wit et al. | The design and observed effects of robot-performed manual gestures: A systematic review | |
CN101739852A (zh) | 基于语音识别的实现自动口译训练的方法和装置 | |
CN117522643B (zh) | 一种口才训练方法、装置、设备及存储介质 | |
KR20140087956A (ko) | 단어 및 문장과 이미지 데이터 그리고 원어민의 발음 데이터를 이용한 파닉스 학습장치 및 방법 | |
US20220309936A1 (en) | Video education content providing method and apparatus based on artificial intelligence natural language processing using characters | |
CN110852922A (zh) | 动态剧情导向的语言数位教学的方法及系统 | |
CN117522643A (zh) | 一种口才训练方法、装置、设备及存储介质 | |
Doumanis | Evaluating humanoid embodied conversational agents in mobile guide applications | |
Leppik et al. | Estoñol, a computer-assisted pronunciation training tool for Spanish L1 speakers to improve the pronunciation and perception of Estonian vowels | |
Khaustova et al. | CAPTuring accents: An approach to personalize pronunciation training for learners with different L1 backgrounds | |
Kacorri et al. | Evaluating a dynamic time warping based scoring algorithm for facial expressions in ASL animations | |
KR20200064021A (ko) | 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버 | |
CN111695777A (zh) | 教学方法、装置、电子设备以及存储介质 | |
Xu | Language technologies in speech-enabled second language learning games: From reading to dialogue |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |