CN117711444B

CN117711444B - 一种基于口才表达的互动方法、装置、设备及存储介质

Info

Publication number: CN117711444B
Application number: CN202410162326.8A
Authority: CN
Inventors: 李翔; 詹歆; 吴美玲; 赵璧
Original assignee: Xinlicheng Education Technology Co ltd
Current assignee: Xinlicheng Education Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-23
Anticipated expiration: 2044-02-05
Also published as: CN117711444A

Abstract

本申请提出一种基于口才表达的互动方法、装置、设备及存储介质，基于口才表达的互动方法通过获取口才表达的语音数据，对语音数据进行情感分析，得到原始情感分析结果以及原始情感分析结果的情感高潮点，以及对语音数据进行口才维度分析，得到口才维度分析结果，根据情感高潮点以及原始情感分析结果，对原始情感分析结果进行情感调整，得到调整后的目标情感分析结果，有利于提升情感的传达能力；根据目标情感分析结果以及口才维度分析结果，确定目标互动元素，根据目标情感分析结果以及目标互动元素，生成互动内容，有利于提升口才表达的吸引力以及提高互动内容的参与性，增强参与感以及互动效果。

Description

一种基于口才表达的互动方法、装置、设备及存储介质

技术领域

本申请涉及口才表达领域，尤其涉及一种基于口才表达的互动方法、装置、设备及存储介质。

背景技术

传统的演讲和口才培训方法通常依赖于个体经验和训练，缺乏科学、系统性和个性化的指导。此外，现有的语音合成和情感识别系统虽然能够处理文本到语音的转换和情感分析，但缺乏多维度的口才分析和综合性的口才增强功能。

在传统演讲和口才培训中，一般存在以下问题：1.缺乏个性化指导：无法为不同个体提供个性化的演讲和口才培训建议，导致培训效果有限；2.口才维度不足：通常只关注基本的发音和语法，而忽视了口才中的多维度要素，如情感表达、语言结构、声音调性等；3.缺乏实时反馈：无法在演讲过程中提供实时反馈和指导，学员往往需要在演讲结束后才能得知改进建议；4.有限的情感传达：虽然可以合成语音，但对于情感的传达能力有限，无法实现情感与语音的精确匹配；5.缺乏智能适应性：不能智能地适应不同的演讲情境、听众和目的，导致演讲效果难以优化；6.听众与演讲者的互动仅限于表情、文字输入、点赞等等的常规操作，互动效果差。

发明内容

本申请实施例提供一种基于口才表达的互动方法、装置、设备及存储介质，以解决相关技术存在的至少一个问题，技术方案如下：

第一方面，本申请实施例提供了一种基于口才表达的互动的方法，包括：

获取口才表达的语音数据；

对所述语音数据进行情感分析，得到原始情感分析结果以及所述原始情感分析结果的情感高潮点，以及对所述语音数据进行口才维度分析，得到口才维度分析结果；

根据所述情感高潮点以及所述原始情感分析结果，对所述原始情感分析结果进行情感调整，得到调整后的目标情感分析结果；

根据所述目标情感分析结果以及所述口才维度分析结果，确定目标互动元素；

根据所述目标情感分析结果以及所述目标互动元素，生成互动内容。

在一种实施方式中，所述根据所述目标情感分析结果以及所述口才维度分析结果，确定目标互动元素包括：

生成若干个互动元素，每一所述互动元素包含情感标签以及口才维度标签；

计算每一所述互动元素中情感标签与所述目标情感分析结果的第一匹配度以及口才维度标签与口才维度分析结果的第二匹配度；

获取用户反馈以及情节主题，根据所述第一匹配度、所述第二匹配度、所述用户反馈以及所述情节主题，计算每一所述互动元素的互动权重；

确定所述互动权重最大的互动元素为目标互动元素。

在一种实施方式中，所述根据所述目标情感分析结果以及所述目标互动元素，生成互动内容包括：

根据所述目标互动元素以及自然语言生成算法，生成叙事结构；

根据所述目标情感分析结果的情感高潮点和/或所述叙事结构，确定所述语音数据的关键时刻；

在所述关键时刻时，生成互动内容。

在一种实施方式中，所述方法还包括：

确定所述原始情感分析结果、所述口才维度分析结果以及情感戏剧性的强度参数的第一乘积；

根据所述第一乘积以及所述语音数据的和值，确定增强情感戏剧性后的目标语音数据；

将所述目标语音数据作为新的语音数据。

在一种实施方式中，所述根据所述情感高潮点以及所述原始情感分析结果，对所述原始情感分析结果进行情感调整，得到调整后的目标情感分析结果包括：

确定所述情感高潮点对应的目标时间点；

根据所述目标时间点、情感高潮点的强度调整参数以及宽度调整参数，对所述原始情感分析结果进行情感调整，得到所述目标情感分析结果。

在一种实施方式中，所述对所述语音数据进行口才维度分析，得到口才维度分析结果包括：

通过深度学习模型对所述语音数据进行口才维度的分析处理，得到原始口才维度向量；

确定情感影响度参数与所述原始情感分析结果的第二乘积；

根据所述原始口才维度向量与所述第二乘积的和值，得到所述口才维度分析结果。

在一种实施方式中，所述方法还包括：

根据若干个预设叙事风格权重，生成对应的若干个叙事风格内容；

通过深度学习模型对所述叙事风格内容进行口才维度评估，得到口才维度评估结果；

获取反馈内容，所述反馈内容包括叙事风格或者满意度；

根据所述反馈内容、所述叙事风格内容以及所述口才维度评估结果，调整所述预设叙事风格权重；

根据调整后的预设叙事风格权重，确定对应的若干个新的叙事风格内容，以供用户选择。

第二方面，本申请实施例提供了一种基于口才表达的互动装置，包括：

获取模块，用于获取口才表达的语音数据；

分析模块，用于对所述语音数据进行情感分析，得到原始情感分析结果以及所述原始情感分析结果的情感高潮点，以及对所述语音数据进行口才维度分析，得到口才维度分析结果；

调整模块，用于根据所述情感高潮点以及所述原始情感分析结果，对所述原始情感分析结果进行情感调整，得到调整后的目标情感分析结果；

互动模块，用于根据所述目标情感分析结果以及所述口才维度分析结果，确定目标互动元素；

生成模块，用于根据所述目标情感分析结果以及所述目标互动元素，生成互动内容。

在一种实施方式中，所述调整模块还用于：

将所述目标语音数据作为新的语音数据。

在一种实施方式中，所述生成模块还用于：

获取反馈内容，所述反馈内容包括叙事风格或者满意度；

第三方面，本申请实施例提供了一种电子设备，包括：处理器和存储器，该存储器中存储指令，该指令由该处理器加载并执行，以实现上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被执行时实现上述各方面任一种实施方式中的方法。

上述技术方案中的有益效果至少包括：

通过获取口才表达的语音数据，对语音数据进行情感分析，得到原始情感分析结果以及原始情感分析结果的情感高潮点，以及对语音数据进行口才维度分析，得到口才维度分析结果，根据情感高潮点以及原始情感分析结果，对原始情感分析结果进行情感调整，得到调整后的目标情感分析结果，有利于提升情感的传达能力；根据目标情感分析结果以及口才维度分析结果，确定目标互动元素，根据目标情感分析结果以及目标互动元素，生成互动内容，有利于提升口才表达的吸引力以及提高互动内容的参与性，增强参与感以及互动效果。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请一实施例基于口才表达的互动方法的步骤流程示意图；

图2为本申请一实施例的基于口才表达的互动装置的结构框图；

图3为本申请一实施例的电子设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

参照图1，示出本申请一实施例的基于口才表达的互动方法的流程图，该基于口才表达的互动方法至少可以包括步骤S100-S500：

S100、获取口才表达的语音数据。

S200、对语音数据进行情感分析，得到原始情感分析结果以及原始情感分析结果的情感高潮点，以及对语音数据进行口才维度分析，得到口才维度分析结果。

可选地，在进行语音数据情感分析、口才维度分析时，可以直接对语音数据进行分析，也可以先将语音数据转换为文本数据后再进行分析，不作具体限定。

S300、根据情感高潮点以及原始情感分析结果，对原始情感分析结果进行情感调整，得到调整后的目标情感分析结果。

S400、根据目标情感分析结果以及口才维度分析结果，确定目标互动元素。

S500、根据目标情感分析结果以及目标互动元素，生成互动内容。

本申请实施例的基于口才表达的互动方法可以通过计算机、手机、平板、车载终端等终端的电子控制单元、控制器、处理器等执行，也可以通过云服务器执行，例如通过终端的系统实现。

本申请实施例的技术方案，通过获取口才表达的语音数据，对语音数据进行情感分析，得到原始情感分析结果以及原始情感分析结果的情感高潮点，以及对语音数据进行口才维度分析，得到口才维度分析结果，根据情感高潮点以及原始情感分析结果，对原始情感分析结果进行情感调整，得到调整后的目标情感分析结果，有利于提升情感的传达能力；根据目标情感分析结果以及口才维度分析结果，确定目标互动元素，根据目标情感分析结果以及目标互动元素，生成互动内容，有利于提升口才表达的吸引力以及提高互动内容的参与性，增强参与感以及互动效果。

在一种实施方式中，步骤S200中，可以通过情感分析算法、声音特征提取算法等对语音数据进行情感分析，从而确定原始情感分析结果，然后将原始情感分析结果中最高的情感维度值作为情感高潮点。

可选地，步骤S200中对语音数据进行口才维度分析，得到口才维度分析结果，包括步骤S210-S230：

S210、通过深度学习模型对语音数据进行口才维度的分析处理，得到原始口才维度向量。

可选地，通过深度学习模型对语音数据进行口才维度的分析处理，从而确定语音数据的原始口才维度向量。其中，口才维度包括但不限于声音情感、表达风格、语音节奏、语气控制、难点突破、陈述解决方案、叙事戏剧性、语境感知与适应等。

本申请实施例中，在进行口才维度的分析处理时，可以对各个口才维度进行得分计算，例如声音情感通过计算情感维度的差异与最大值的比值来得出分数，表达风格通过分析声音和文本中的表达风格维度值来计算分数，语音节奏通过分析声音和文本中的节奏和语气维度值来计算分数，难点突破和陈述解决方案通过比较难点突破和解决方案维度的值来计算分数，叙事戏剧性通过分析声音和文本中的语境感知和适应维度值来计算分数，语境感知与适应通过比较情感合一维度的值来计算分数。其中，分数的计算公式可以基于实际需要设定，原始口才维度向量可以包括各个分数；在一些实施例中，也可以不计算分数，而直接利用深度学习模型如支持向量机（SVM）或深度神经网络（DNN）等对每个口才维度进行评估和打分，确定原始口才维度向量。

在一种实施方式中，表达风格的分数可以基于情感传递、风格多样性、声音音调与语速匹配度、口才维度权重分析确定：

情感传递分数 E = α1×正面情感得分- α2×负面情感得分

其中，α1和α2 是权重参数，正面情感得分和负面情感得分是通过情感分析技术获得的。

风格多样性分数 S = β1 ×词汇多样性 + β2×语法多样性)+β3×语气多样性，其中，β1、β2 和 β3 是权重参数，词汇多样性、语法多样性和语气多样性可以通过文本分析技术获得。

声音音调与语速匹配度分数 M = γ1×声音音调匹配度 +γ2×语速匹配度，其中，γ1和γ2 是权重参数，声音音调匹配度和语速匹配度可以通过声音分析技术获得。

口才维度权重向量W表示每个口才维度在表达风格中的重要性(得分)，W=δ1×情感传递分数+δ2×表达风格多样性分数+δ3×声音音调与语速匹配度分数，其中，δ1、δ2 和δ3 是权重参数，

S220、确定情感影响度参数与原始情感分析结果的第二乘积。

S230、根据原始口才维度向量与第二乘积的和值，得到口才维度分析结果。

可选地，本申请实施例中，为了进一步丰富原始口才维度向量，通过公式(1)对原始口才维度向量进行调整：

D调整(t)=D(t)+β×E(t)(1)

其中，D调整(t)为口才维度分析结果，D(t)为原始口才维度向量，β为情感影响度参数，E(t)为情感影响度参数。

在一种实施方式中，步骤S300包括步骤S310-S320：

S310、确定情感高潮点对应的目标时间点。

可选地，在确定情感高潮点后，将情感高潮点在语音数据中的时间点作为目标时间点P高潮。

S320、根据目标时间点、情感高潮点的强度调整参数以及宽度调整参数，对原始情感分析结果进行情感调整，得到目标情感分析结果。

本申请实施例中，通过公式(2)进行情感调整：

(2)

其中，E调整(t)表示目标情感分析结果，E(t)是原始情感分析结果，t是时间点，γ是情感高潮点的强度(幅度)调整参数，σ是情感高潮点的宽度调整参数。

在一种实施方式中，步骤S400包括步骤S410-S440：

S410、生成若干个互动元素，每一互动元素包含情感标签以及口才维度标签。

可选地，例如系统可以基于预设预设情节主题生成若干个互动元素，而每一互动元素包含情感标签以及口才维度标签。其中，互动元素包括但不限于情感化的对话选项、情感化的声音控制、情感化的音效等等。

S420、计算每一互动元素中情感标签与目标情感分析结果的第一匹配度以及口才维度标签与口才维度分析结果的第二匹配度。

本申请实施例中，分别计算每一互动元素中情感标签与目标情感分析结果的第一匹配度，以及计算口才维度标签与口才维度分析结果的第二匹配度。

S430、获取用户反馈以及情节主题，根据第一匹配度、第二匹配度、用户反馈以及情节主题，计算每一互动元素的互动权重。

可选地，系统可以获取用户输入的用户反馈以及情节主题，然后根据第一匹配度、第二匹配度、用户反馈以及情节主题，计算每一互动元素的互动权重。需要说明的是，每一互动元素可以有默认的权重，通过步骤S430可以调整这些权重，从而确定每一互动元素的互动权重。例如，可以采用机器学习模型、强化学习或深度学习方法来实现权重计算。

需要说明的是，用户反馈U指是用户提供的文本，其中可能包含了情感、主题以及其他相关信息，这个文本可以是用户在某个语境下的言论、评论、问题等等，具体内容会因用户的需求和交流背景而异。例如，假设我们正在开发一个社交媒体应用，用户在应用中发布帖子，此时用户反馈U是一个用户发布的帖子的文本，这个帖子的文本中可能包含情感E’，比如用户可能表达了兴奋、愤怒或快乐等情感。同时，帖子也可能包含主题T’，可能是关于某个话题、事件、产品或体验的描述。此外，帖子中还可能包含其他上下文信息、评论、问题等。

例如：假设一个用户在社交媒体应用上发布了以下内容：

```

"今天天气真好！阳光明媚，心情大好！"

```

在这个例子中，用户反馈U是这个帖子的文本，情感E’是积极的，主题T’是天气。用户通过这个帖子表达了他们对今天天气的愉快心情。这个帖子中还包含了其他上下文信息，比如时间和天气状况。

S440、确定互动权重最大的互动元素为目标互动元素。

然后，将互动权重最大的互动元素为目标互动元素。

在一种实施方式中，步骤S500包括步骤S510-S530：

S510、根据目标互动元素以及自然语言生成算法，生成叙事结构。

本申请实施例中，在确定目标互动元素后，可以通过自然语言生成算法（NLG）利用目标互动元素生成叙事结构。

S520、根据目标情感分析结果的情感高潮点和/或叙事结构，确定语音数据的关键时刻。

需要说明的是，叙事结构可以包括引人入胜的叙事结构，包括故事情节、转折点等，根据叙事结构的转折点可以确定语音数据中转折点对应的位置作为关键时刻或者利用情感高潮点作为关键时刻，又或者存在多个转折点时，利用最靠近情感高潮点的转折点对应的位置作为关键时刻。一些实施例中，用户可以基于叙事结构进行口才表达生成新的语音数据以更新步骤S100中的语音数据，然后再根据情感高潮点和/或叙事结构，确定语音数据的关键时刻。需要说明的是，可以通过情感合成，根据叙事结构、目标情感分析结果、口才维度分析结果合成新的语音数据。

可选地，叙事结构的互动式叙事的叙事性能S′引导公式：

其中，是互动元素，N是可选的互动元素的数量，w _i是每个互动元素i的调整后的权重，f _i是互动元素的适应度函数，取决于用户反馈U、情感标签 E、口才维度标签C 和情节主题T。

S530、在关键时刻时，生成互动内容。

可选地，在关键时刻时，生成互动内容，包括但不限于提问或引导思考，互动内容可以为文字或者语音的形式。

在一种实施方式中，本申请实施例的基于口才表达的互动方法，还可以包括步骤S610-S630：

S610、确定原始情感分析结果、口才维度分析结果以及情感戏剧性的强度参数的第一乘积。

S620、根据第一乘积以及语音数据的和值，确定增强情感戏剧性后的目标语音数据。

本申请实施例中，通过公式(3)对语音数据进行情感戏剧性增强：

S增强(t)=S原始(t)+α×D调整(t)×E(t)(3)

其中，S增强(t)为目标语音数据，α为情感戏剧性的强度参数，D调整(t)为口才维度分析结果，E(t)为情感戏剧性的强度参数，S原始(t)为语音数据(声音信号的时间序列。

S630、将目标语音数据作为新的语音数据。

可选地，在确定增强情感戏剧性后的目标语音数据时，将目标语音数据作为新的语音数据，记为第一新语音数据，将新的语音数据给听众播放。

可选地，在一些实施例中，利用目标情感分析结果以及口才维度分析结果，进行情感合成，合成用户的声音，合成过程考虑口才维度的不同要求，如情感传递、语速控制、音调调整等，以确保声音与口才维度匹配。

可选地，情感合成时，口才维度具有不同维度的权重，目标情感分析结果引入多维度情感向量，每个维度表示不同情感状态的期望值，例如愉悦、紧张、专注等，通过深度情感分析和用户情感需求，动态生成多维度情感向量，以实现更丰富的声音情感传递。例如，可以建立一个深度神经网络模型，利用口才维度、目标情感分析结果作为输入生成与口才维度和情感向量相关的声音特征，然后引入高级的波形生成算法将生成的声音特征通过逆变换方法转换为声音波形数据，得到新的语音数据，记为第二新语音数据。

本申请实施例中，根据情感和口才维度进行细致的优化和增强，以提高说话者的沟通效果和表达能力；且具有实时适应性，可以根据说话者的实际口才维度变化和情感变化动态调整合成声音，以实现更精确的口才表达。

在一种实施方式中，本申请实施例的基于口才表达的互动方法，还可以包括步骤S710-S750：

S710、根据若干个预设叙事风格权重，生成对应的若干个叙事风格内容。

本申请实施例中，系统根据若干个预设叙事风格权重，生成对应的若干个叙事风格内容，叙事风格内容包括但不限于如幽默风格、正式风格、故事风格等的内容。

S720、通过深度学习模型对叙事风格内容进行口才维度评估，得到口才维度评估结果。

可选地，通过深度学习模型对每一叙事风格内容进行口才维度评估，得到每一叙事风格内容对应的口才维度评估结果。

S730、获取反馈内容。

本申请实施例中，用户可以输入反馈内容，反馈内容包括但不限于具体的叙事风格或者满意度，例如对当前生成的叙事风格内容的满意度。

S740、根据反馈内容、叙事风格内容以及口才维度评估结果，调整预设叙事风格权重。

可选地，通过用深度强化学习（Deep Reinforcement Learning, DRL）算法如Proximal Policy Optimization (PPO) 或 Trust Region Policy Optimization (TRPO)利用反馈内容、叙事风格内容以及口才维度评估结果，调整预设叙事风格权重，以适应用户的需求。

S750、根据调整后的预设叙事风格权重，确定对应的若干个新的叙事风格内容，以供用户选择。

然后，调整预设叙事风格权重后，可以利用多样化叙事风格生成算法（EnhancedDiversity in Narrative Styles, EDiNS）根据调整后的预设叙事风格权重，确定对应的若干个新的叙事风格内容，供用户进行选择，便于用户利用所需要的新的叙事风格内容进行口才表达训练。需要说明的是，如果用户不满意，还可以再次输入反馈内容，返回步骤S740直至用户满意。

本申请实施例中，在生成叙事风格内容时，基于最大化以下函数叙事函数F的标准生成：

其中，S_m代表第m个叙事风格内容的权重，n为口才维度数量，W_j为口才维度的权重，S_j为第j种叙事风格内容，D_i为第i种叙事风格下的口才维度得分(匹配度)。另外，如果用户希望使用不同的叙事风格，可以在系统的显示页面上显示不同的叙事风格供用户选择，或者让系统自动选择适合主题的风格。

本申请实施例中，系统还具有以下功能：

1、高级语言结构识别：将语音数据转换为文本数据，并使用自然语言处理（NLP）技术、深度学习模型来识别和理解文本数据中的高级语言结构，包括但不限于暗喻、反讽、幽默、隐喻等复杂语言元素，通过深度学习模型，可以准确地检测并解释这些结构，以确保全面的语言理解。例如，可以事先采用大规模预训练模型，如GPT-4，作为核心技术工具，通过在大量语料库上进行训练，从而可以自动学习语言结构的模式和规律。

2、上下文感知：能够识别并分析文本数据或语音数据中的上下文，以更好地理解语言结构的含义和用法，有助于避免误解和提高口才的连贯性。例如，引入循环神经网络（RNN）或注意力机制，以考虑文本中不同部分之间的关联性，更好地理解语言结构在上下文中的含义。

3、口才指标测量：测量口才表达的多维度指标，包括口才的清晰度、表达力、逻辑性等，能够将识别的语言结构与口才指标进行关联，以帮助用户改进口才表达。例如，利用情感分析技术，以检测文本数据中的情感色彩和情感变化。

其中，识别的高级语言结构、上下文感知以及情感分析等内容可以用于后续的口才训练和表达建议。

本申请实施例中，在进行高级语言结构的评价时通过与专业人士标注的语料库进行比较，或者通过以下公式评估对高级语言结构的识别准确性。

1：高级语言结构准确性指数（Advanced Linguistic Accuracy Index，ALAI）

ALAI = (ΣTP + ΣTN) / (ΣTP + ΣTN + ΣFP + ΣFN)

其中：

ΣTP（ΣTrue Positives）：表示所有高级语言结构正确识别的数量的总和。ΣTN（ΣTrue Negatives）：表示所有高级语言结构正确未识别的数量的总和。ΣFP（ΣFalsePositives）：表示所有高级语言结构错误识别的数量的总和。ΣFN（ΣFalse Negatives）：表示所有高级语言结构错误未识别的数量的总和。

2：口才表达维度得分（Eloquence Dimension Score，EDS）

EDS = (Σ口才维度指标值) / N₁

其中：

Σ口才维度指标值：表示口才维度指标的值之和，可以包括声音情感合一、表达风格与个性化沟通等口才维度。N₁：表示口才维度指标的数量。

3：数学运算公式 3：综合评估指数（Comprehensive Evaluation Index，CEI）

CEI = ALAI×EDS

综合评估指数CEI综合考虑了高级语言结构的准确性（ALAI）和口才表达的质量（EDS）。它量化了模块在综合口才维度下的性能。

4：数学运算公式 4：创新性权重指数（Innovation Weight Index，IWI）

IWI = a×ALAI+b×EDS

其中，a和b 是用于平衡高级语言结构准确性和口才表达质量的权重系数，它们的值可以根据特定需求进行调整。

5：数学运算公式 5：优化目标函数（Optimization Objective Function，OOF）

OOF = max(ALAI, EDS)

优化目标函数OOF用于指导模块的性能优化，目标是最大化OOF，以确保既提高高级语言结构的准确性，又提高口才表达的质量。

通过引入这些更多复杂的数学运算公式和综合口才维度指标，创造了一个独创性的评估框架，能够更全面地衡量语言结构理解模块的性能，不仅仅关注准确性，还关注口才表达的质量，从而提高口才增强系统的独特性和实用性。

本申请实施例中，综合运用了先进的深度学习技术和自然语言处理技术，以提高对口才表达中高级语言结构的准确理解，它是多维口才增强系统中的关键组件，为用户提供了更智能、更有创造性的口才训练和表达建议。

本申请实施例中，在分析情感分析时，可以采用声学信号处理技术，包括短时傅里叶变换（STFT）和梅尔频率倒谱系数（MFCC）等，从语音数据中中提取关键声音特征，例如音调、音量、语速、音频频谱等，再利用使用深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN）等情感分析算法进行情感分析。需要说明的是，本申请实施例中可以实时地进行关键声音特征提取，进行情感分析以及口才维度分析，以及可以进行实时反馈，指导说话者调整声音和口才表达，以提高口才效果。

本申请实施例中，还基于情感分析的结果，使用声音合成技术，如音高转换和语音合成，调整说话者的声音特征，以确保声音情感与语言内容相匹配，实现声音调性匹配。比如，对于一段激情洋溢的演讲，可以提高音调和音量，以增强情感表达。另外，引入最新的声音情感合一技术，例如生物特征生成网络（BioGAN），使说话者能够更精确地控制声音情感，允许说话者实时调整声音情感，以更好地传递情感，实现声音情感传递。而最终输出经过多维度分析和调整的声音，以用于演讲或沟通，声音分析与调性模块能够为用户提供更具情感表达力和多维度口才的声音，以增强演讲或口才训练的效果。

本申请实施例中，系统可以根据情感分析目标情感分析结果以及口才维度分析结果，基于生成对抗网络（GAN）和强化学习算法，生成精细的个性化建议，针对每个口才特征提供针对性的改进建议，通过用户界面或语音合成引擎，供用户实时在演讲过程中实时获得反馈和建议，以便说话者随时了解反馈并对口才表达进行调整，动态调整表达风格，提高与听众的互动效果。

本申请实施例中，系统还具有情境感知功能，识别当前的沟通情境，包括主题、场合、听众特点等因素：

（1）情境表示C生成公式：

C=g(E(X),P,L)

其中，L是情境标签，用于区分不同情境,情境标签可以是文本分类模型的输出或其他情境分类方法的结果,P是当前的口才维度指标。其中，g( )是将不同的参数组合成一个情境表示的函数。在这个上下文中，g( )函数的参数包括了 E(X)、P、L，并将它们组合成情境表示 C，E(X)代表文本或言辞中的情感信息，可以通过情感分析等方法来提取文本中的情感信息，比如积极、消极或中性等，X 为用户反馈，如评论、文章或其他文本形式，E(X)可以通过情感分析等方法来提取文本中的情感信息，比如积极、消极或中性等。

（2）情境相似性度量：

为了确定输入情境与目标情境之间的相似性，可以使用以下余弦相似性度量公式：

其中，C是当前生成的情境表示，C′是目标情境的表示。

（3）情境适应性损失函数：

为了优化情境感知模型，可以定义情境适应性损失函数，用于衡量生成情境与目标情境之间的差异：

Loss(C,C′)=α’×CosineSimilarity(C,C′)−β’×Penalty(P,P′)

其中，α’、β’是权重参数，用于平衡相似性和口才维度匹配，P′是目标口才维度指标，P是当前口才维度指标。

（4）情境适应性优化：

通过梯度下降或其他优化算法，最小化情境适应性损失函数，可以实现情境感知模型的优化。

（5）情境感知性能评估指标：

为了验证情境感知技术的性能，可以引入不同的情境标签L，并使用一系列性能指标，如准确率、召回率、F1分数等来评估模型的性能。

（6）算法逻辑：

对语言数据进行预处理，如分词、去除停用词、语音特征提取等，词嵌入：对于文本数据，将其转化为词嵌入向量，通常使用词嵌入模型，如Word2Vec、GloVe等。对于语音数据，可以使用声学特征提取算法，如梅尔频率倒谱系数（MFCC），深度学习模型：将词嵌入向量或声学特征输入到深度学习模型中。这个模型可以是Transformer等，用于学习输入数据的表示。情境表示生成：深度学习模型通过学习输入数据的上下文信息，生成情境的表示C。同时，模型还考虑口才维度指标P，以确保生成的情境与口才需求相匹配。

本申请实施例中，系统能够处理多种语言和文化情境，以满足不同用户的需求。

本申请实施例中，系统具有个性化口才推荐模块，根据口才维度分析结果，使用深度学习技术和自然语言处理技术生成更精细的个性化口才建议。这些建议可以针对每个口才维度，包括情感传递、表达风格、声音音调、语速等多个口才维度，为每个口才维度提供具体的建议，例如在特定情境下改变语速，调整语气等，建议可以为文本或者语音的形式，并可以实时地输出建议。其中，生成文本可以通过如循环神经网络（RNN）或Transformer模型来实现。

通过本申请实施例的方法，至少能够达到效果：

1. 个性化口才培训：通过深度学习技术和口才维度指标，系统能够根据每位用户的口才水平和需求，提供个性化的口才培训建议。这有助于用户更高效地提高演讲和口才表达能力；

2. 多维度口才分析：本系统不仅关注语音合成和情感分析，还强调多维度的口才要素，包括语言结构、声音调性、表达风格等。这有助于用户全面提升口才，使其更具吸引力和影响力；

3. 实时反馈与指导：系统能够在演讲过程中提供实时反馈和指导，帮助用户即时改进演讲技巧，有效地提高了用户的学习效率和口才表达水平。

4. 情感合一的语音合成：系统能够将情感与语音精确匹配，实现情感与声音的协调传达，有助于用户在演讲中更生动地表达情感，增强沟通效果。

5. 智能适应性：系统能够根据演讲情境、听众和目的智能调整口才建议，确保演讲内容的适应性和贴切性，提高演讲效果。

6. 口才维度数据分析：系统采用复杂的口才数学运算公式，对口才表现进行深入分析，提供了更多数据支持和洞察，有助于用户更好地了解和改进口才。

7. 多样化叙事风格：通过创新的算法，系统可以生成多样化的叙事风格，帮助用户根据不同情境和目的塑造自己独特的口才风格，最终带来个性化、多维度、实时、情感合一、智能适应的口才培训和演讲支持，显著提高用户的演讲和口才表达能力，同时满足了口才培训领域的技术需求，使用户更具自信，更有影响力地进行演讲和沟通。

参照图2，示出了本申请一实施例的基于口才表达的互动装置的结构框图，该装置可以包括：

获取模块，用于获取口才表达的语音数据；

分析模块，用于对语音数据进行情感分析，得到原始情感分析结果以及原始情感分析结果的情感高潮点，以及对语音数据进行口才维度分析，得到口才维度分析结果；

调整模块，用于根据情感高潮点以及原始情感分析结果，对原始情感分析结果进行情感调整，得到调整后的目标情感分析结果；

互动模块，用于根据目标情感分析结果以及口才维度分析结果，确定目标互动元素；

生成模块，用于根据目标情感分析结果以及目标互动元素，生成互动内容。

在一种实施方式中，调整模块还用于：

确定原始情感分析结果、口才维度分析结果以及情感戏剧性的强度参数的第一乘积；

根据第一乘积以及语音数据的和值，确定增强情感戏剧性后的目标语音数据；

将目标语音数据作为新的语音数据。

在一种实施方式中，生成模块还用于：

通过深度学习模型对叙事风格内容进行口才维度评估，得到口才维度评估结果；

获取反馈内容，反馈内容包括叙事风格或者满意度；

根据反馈内容、叙事风格内容以及口才维度评估结果，调整预设叙事风格权重；

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

参照图3，示出了本申请一实施例电子设备的结构框图，该电子设备包括：存储器310和处理器320，存储器310内存储有可在处理器320上运行的指令，处理器320加载并执行该指令实现上述实施例中的基于口才表达的互动方法。其中，存储器310和处理器320的数量可以为一个或多个。

在一种实施方式中，电子设备还包括通信接口330，用于与外界设备进行通信，进行数据交互传输。如果存储器310、处理器320和通信接口330独立实现，则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent Interconnect ，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture ，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器310、处理器320及通信接口330集成在一块芯片上，则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的基于口才表达的互动方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（digital signal processing，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现场可编程门阵列（fieldprogrammablegate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器（advanced RISC machines，ARM）架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器（read-onlymemory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以包括随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（dynamic random access memory ，DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data date SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhancedSDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络，或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”“一些实施例”“示例”“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于口才表达的互动方法，其特征在于，包括：

获取口才表达的语音数据；

根据所述目标情感分析结果以及所述目标互动元素，生成互动内容；

所述根据所述目标情感分析结果以及所述口才维度分析结果，确定目标互动元素包括：

确定所述互动权重最大的互动元素为目标互动元素；

所述根据所述目标情感分析结果以及所述目标互动元素，生成互动内容包括：

在所述关键时刻时，生成互动内容；

所述根据所述情感高潮点以及所述原始情感分析结果，对所述原始情感分析结果进行情感调整，得到调整后的目标情感分析结果包括：

确定所述情感高潮点对应的目标时间点；

根据所述目标时间点、情感高潮点的强度调整参数以及宽度调整参数，对所述原始情感分析结果进行情感调整，得到所述目标情感分析结果；

所述对所述语音数据进行口才维度分析，得到口才维度分析结果包括：

确定情感影响度参数与所述原始情感分析结果的第二乘积；

2.根据权利要求1所述基于口才表达的互动方法，其特征在于：所述方法还包括：

将所述目标语音数据作为新的语音数据。

3.根据权利要求1所述基于口才表达的互动方法，其特征在于：所述方法还包括：

获取反馈内容，所述反馈内容包括叙事风格或者满意度；

4.一种基于口才表达的互动装置，其特征在于，包括：

获取模块，用于获取口才表达的语音数据；

生成模块，用于根据所述目标情感分析结果以及所述目标互动元素，生成互动内容；

确定所述互动权重最大的互动元素为目标互动元素；

在所述关键时刻时，生成互动内容；

确定所述情感高潮点对应的目标时间点；

确定情感影响度参数与所述原始情感分析结果的第二乘积；

5.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由所述处理器加载并执行，以实现如权利要求1至3任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被执行时实现如权利要求1-3中任一项所述的方法。