CN117012198B

CN117012198B - 基于人工智能的语音交互方法及系统

Info

Publication number: CN117012198B
Application number: CN202311265089.XA
Authority: CN
Inventors: 郭勇; 苑朋飞; 靳世凯; 赵存喜
Original assignee: China Film Annual Beijing Culture Media Co ltd
Current assignee: Zhongying Nian Nian Beijing Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-19
Anticipated expiration: 2043-09-28
Also published as: CN117012198A

Abstract

本发明涉及人工智能领域，公开了一种基于人工智能的语音交互方法及系统，用于提高三维动画生成的准确率并且提升三维动画的动画效果。方法包括：获取目标语音交互数据并确定初始三维动画数据，对目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；对初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合；将多个动画音频序列组合输入三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；对多个目标动画序列进行动作类别分类以及设置多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

Description

基于人工智能的语音交互方法及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的语音交互方法及系统。

背景技术

在过去的几年里，人工智能（AI）领域取得了巨大的进展，包括语音识别、自然语言处理和计算机视觉等领域的重大突破。这些进展使得AI能够更好地理解和响应人类语音和文本输入，为人机交互领域带来了重大变革。

同时，三维动画技术在娱乐、教育、虚拟现实（VR）和增强现实（AR）等领域的应用也在不断扩展。传统的三维动画制作通常需要大量的人工工作和时间，限制了其广泛应用的性，并且人工经验容易导致三维动画生成的效果不佳。

发明内容

本发明提供了一种基于人工智能的语音交互方法及系统，用于提高三维动画生成的准确率并且提升三维动画的动画效果。

本发明第一方面提供了一种基于人工智能的语音交互方法，所述基于人工智能的语音交互方法包括：

获取多个训练三维动画数据，并对所述多个训练三维动画数据进行预处理，得到多个三维动画序列；

通过遗传模拟退火算法和所述多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型；

通过预置的动画交互界面获取目标用户的目标语音交互数据，根据所述目标语音交互数据确定待处理的初始三维动画数据，并对所述目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；

对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

将所述多个动画音频序列组合输入所述三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；

对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分别结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

结合第一方面，在本发明第一方面的第一种实现方式中，所述通过遗传模拟退火算法和所述多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型，包括：

将所述多个三维动画序列对预置的卷积长短时记忆网络，其中，所述卷积长短时记忆网络包括：第一时间门控卷积层、空间图卷积层以及第二时间门控卷积层；

通过所述卷积长短时记忆网络对所述多个三维动画序列进行时间特征提取和空间特征提取，得到每个三维动画序列的时间特征及空间特征；

根据每个三维动画序列的时间特征及空间特征，计算所述卷积长短时记忆网络的初始网络参数集合；

通过预置的遗传模拟退火算法，根据所述初始网络参数集合对所述卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型。

结合第一方面，在本发明第一方面的第二种实现方式中，所述通过预置的遗传模拟退火算法，根据所述初始网络参数集合对所述卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型，包括：

通过所述遗传模拟退火算法，构建所述初始网络参数集合的初始网络参数种群；

基于预置的目标函数计算所述初始网络参数种群中每个第一网络参数个体的适应度值；

根据每个第一网络参数个体的适应度值，对所述初始网络参数种群进行群体分割，得到已感染网络参数种群、易感染网络参数种群以及未感染网络参数种群；

对所述已感染网络参数种群进行繁殖和变异操作，生成多个第一网络参数种群，并对所述易感染网络参数种群进行繁殖、交叉和变异操作，生成多个第二网络参数种群，以及对所述未感染网络参数种群进行繁殖、交叉和变异操作，生成多个第三网络参数种群；

对所述多个第一网络参数种群、所述多个第二网络参数种群以及所述多个第三网络参数种群进行网络参数个体最优化组合分析，得到多个第二网络参数个体；

根据所述多个第二网络参数个体，对所述卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型。

结合第一方面，在本发明第一方面的第三种实现方式中，所述通过预置的动画交互界面获取目标用户的目标语音交互数据，根据所述目标语音交互数据确定待处理的初始三维动画数据，并对所述目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令，包括：

当检测到目标用户进入终端的动画交互界面时，获取所述目标用户的交互输入信息，并对所述交互输入信息进行分析，得到信息标识；

根据所述信息标识判断所述交互输入信息是否满足预设的主动交互条件；

若满足，则将所述交互输入信息输入预置的主动交互模型进行语音交互处理，得到所述目标用户的目标语音交互数据；

对所述目标语音交互数据进行文本转换，得到对应的语音交互文本，并对所述语音交互文本进行语义识别，得到目标语义信息；

对所述目标语义信息进行解析，得到目标语义特征，并根据所述目标语义特征匹配待处理的初始三维动画数据；

对所述语音交互文本进行关键词提取，得到多个目标关键词，并对所述多个关键词进行关联关系分析，得到多个关键词组合；

对所述多个关键词组合进行关键词向量转换，得到每个关键词组合的目标关键词向量；

调用预置的音频交互指令向量集合，对所述每个关键词组合的目标关键词向量进行相似度计算，得到每个关键词组合的相似度数据；

根据所述相似度数据，确定所述多个关键词组合对应的多个目标音频交互指令。

结合第一方面，在本发明第一方面的第四种实现方式中，所述对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合，包括：

获取所述初始三维动画数据的第一时间戳数据和动画帧率，并根据所述第一时间戳数据和所述动画帧率计算所述初始三维动画数据的动画序列数量；

根据所述动画序列数量，对所述初始三维动画数据进行动画序列分割，得到多个原始动画序列；

对所述多个原始动画序列进行变化率计算，得到目标变化率，并根据所述目标变化率对所述多个原始动画序列进行动态调整，得到多个初始动画序列；

获取所述多个目标音频交互指令的第二时间戳数据，并根据所述第一时间戳数据和所述第二时间戳数据，对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合。

结合第一方面，在本发明第一方面的第五种实现方式中，所述将所述多个动画音频序列组合输入所述三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列，包括：

将所述多个动画音频序列组合输入所述三维动画处理模型中的第一时间门控卷积层进行时序特征提取，得到每个动画音频序列组合的时序特征；

将所述多个动画音频序列组合输入所述三维动画处理模型中的空间图卷积层进行动画空间关系分析，得到每个动画音频序列组合的空间特征；

通过所述三维动画处理模型中的第二时间门控卷积层，对每个动画音频序列组合的时序特征和空间特征进行特征映射处理，生成每个动画音频序列组合的三维动画操作；

根据所述三维动画操作，对所述多个动画音频序列组合进行动画调整，生成多个目标动画序列。

结合第一方面，在本发明第一方面的第六种实现方式中，所述对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分别结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据，包括：

对所述多个目标动画序列进行动作类别标记，得到每个目标动画序列的动作类别标签；

根据所述动作类别标签，对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果；

根据所述动作类别分类结果，对所述多个目标动画序列进行动画切换参数设置，得到目标动画切换参数集合，其中，所述目标动画切换参数集合包括：动画过渡时间、过渡方式、速度及缩放参数；

根据每个目标动画序列的动作类别和所述目标动画切换参数集合，对所述初始三维动画数据进行修改、组合和插值，生成目标三维动画数据。

本发明第二方面提供了一种基于人工智能的语音交互系统，所述基于人工智能的语音交互系统包括：

获取模块，用于获取多个训练三维动画数据，并对所述多个训练三维动画数据进行预处理，得到多个三维动画序列；

建模模块，用于通过遗传模拟退火算法和所述多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型；

提取模块，用于通过预置的动画交互界面获取目标用户的目标语音交互数据，根据所述目标语音交互数据确定待处理的初始三维动画数据，并对所述目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；

匹配模块，用于对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

分析模块，用于将所述多个动画音频序列组合输入所述三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；

生成模块，用于对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分别结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

本发明第三方面提供了一种基于人工智能的语音交互设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人工智能的语音交互设备执行上述的基于人工智能的语音交互方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于人工智能的语音交互方法。

本发明提供的技术方案中，获取目标语音交互数据并确定初始三维动画数据，对目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；对初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合；将多个动画音频序列组合输入三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；对多个目标动画序列进行动作类别分类以及设置多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据，本发明利用遗传模拟退火算法和卷积长短时记忆网络，可以自动化生成高质量的三维动画序列。通过优化ConvLSTM网络参数，该方法能够提高三维动画的质量和逼真度。ConvLSTM能够更好地捕捉动画序列中的时间和空间关系，使得生成的动画更加流畅和真实。通过语音识别和语义分析，该方法实现了自然的语音交互。用户可以通过口头指令轻松控制和定制三维动画，而无需手动输入复杂的指令或进行繁琐的操作。通过分析用户的语音输入和意图，可以生成个性化的三维动画内容。用户在实时环境中进行语音交互，并即时观看动画的生成过程，使用户能够更快速地获得所需的动画效果。通过动作类别分类和动画切换参数设置，该方法能够智能地将不同的动画序列组合在一起，实现平滑的动画过渡。这提高了动画的连贯性和真实性。进而提高了三维动画生成的准确率，并且提升了三维动画的动画效果。

附图说明

图1为本发明实施例中基于人工智能的语音交互方法的一个实施例示意图；

图2为本发明实施例中网络建模和参数优化的流程图；

图3为本发明实施例中网络参数优化的流程图；

图4为本发明实施例中映射匹配的流程图；

图5为本发明实施例中基于人工智能的语音交互系统的一个实施例示意图；

图6为本发明实施例中基于人工智能的语音交互设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于人工智能的语音交互方法及系统，用于提高三维动画生成的准确率并且提升三维动画的动画效果。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于人工智能的语音交互方法的一个实施例包括：

S101、获取多个训练三维动画数据，并对多个训练三维动画数据进行预处理，得到多个三维动画序列；

可以理解的是，本发明的执行主体可以为基于人工智能的语音交互系统，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器获取多个训练三维动画数据并对其进行预处理，以获得多个三维动画序列。这个步骤是整个基于人工智能的语音交互方法的关键部分之一，因为它为后续的建模和优化提供了必要的数据基础。获取多个训练三维动画数据涉及多个渠道和来源。这些数据可以来自各种动画制作公司、游戏开发工作室、动画片制作、或者甚至是公开可用的动画数据集。这些数据集可以包含各种类型的三维动画，如人物角色的动作、物体的运动、表情变化等等。对其进行预处理。预处理的目的是将原始数据转化为适合用于训练的形式。数据清洗包括检查数据是否存在缺失值、异常值或不一致性。例如，需要处理一些动画帧率不一致的情况，或者修复损坏的三维模型文件。数据标准化和归一化是为了确保所有数据都处于一致的尺度和范围内，以便后续的处理和建模。这包括对动画帧的时间戳进行统一，或者将不同角色的动画尺寸和比例进行标准化。进行数据分割。这涉及将整个动画序列切割成较小的时间段或动画片段，以便在建模和分析中更容易处理。这些片段可以是几个动画帧到几秒钟的长度，具体取决于应用的需求。数据需要进行数据增强的处理。这包括在原始数据上应用一些变换，以增加数据的多样性。例如，在某些情况下，可以对动画片段进行镜像反转、旋转或平移操作，以获得更多的训练样本。数据的格式也需要适应模型的需求。这包括将数据转化为适合神经网络的张量格式，以便于输入到模型中进行训练。例如，假设服务器正在开发一个基于AI的虚拟健身教练应用。服务器多个训练三维动画数据，以便应用程序可以为用户展示不同类型的健身动作。服务器从多个来源获取这些数据，包括专业的健身教程视频、模型库以及自己的三维动画制作。服务器收集了数百个不同健身动作的三维动画数据。这些数据包括各种运动，如俯卧撑、仰卧起坐、深蹲等。服务器进行数据清洗，检查每个动画片段是否存在异常或不一致之处。例如，确保每个动画的起始帧和结束帧都正确，没有缺失帧。服务器对数据进行了标准化，以确保不同动画之间的尺寸和比例一致。这是为了使用户在应用中观看动画时，可以保持逼真的比例和流畅的过渡。服务器将每个健身动作的三维动画序列分割成适当的时间段，例如每个动作片段持续10秒。这使得用户可以在应用中根据需要选择不同的动作。在数据增强方面，服务器对某些动作进行变换，例如旋转或镜像反转，以增加数据的多样性。这有助于模型更好地适应用户的各种运动姿势。服务器将所有数据转化为神经网络所需的张量格式，以便于服务器构建卷积长短时记忆网络并进行训练。这个网络将用于后续的动画生成和交互过程。

S102、通过遗传模拟退火算法和多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型；

具体的，卷积长短时记忆网络（Convolutional Long Short-Term MemoryNetwork，ConvLSTM），它包括了第一时间门控卷积层、空间图卷积层以及第二时间门控卷积层。这些层次结构用于处理输入序列数据，并捕获时间和空间信息的关联。将多个三维动画序列输入到卷积长短时记忆网络中。这些序列可以代表不同的动画动作或场景，例如一个人物的跳跃、行走、或者物体的移动。每个序列包含了在时间上连续的帧，其中包含了动画的变化。卷积长短时记忆网络的第一时间门控卷积层用于捕获每个序列中的时间依赖性。这一层将关注动画序列中的帧与前一帧的关系，以便理解动画动作的时间演变。这一步骤产生了每个序列的时间特征。卷积长短时记忆网络的空间图卷积层用于处理每一帧内的像素或节点信息，以捕获动画中的空间关系。这一层有助于理解动画中不同对象的相对位置和交互。这一步骤产生了每个序列的空间特征。基于每个三维动画序列的时间特征和空间特征，服务器计算卷积长短时记忆网络的初始网络参数集合。这些参数包括卷积核的权重、偏置项等等。这些参数用于初始化网络模型。通过遗传模拟退火算法（Genetic SimulatedAnnealing Algorithm）对这些参数进行优化。这个优化过程旨在使卷积长短时记忆网络更好地适应提供的三维动画数据，以便生成更准确的动画。遗传模拟退火算法是一种优化算法，模拟了自然选择和退火过程。在这个算法中，服务器通过生成一组不同的参数组合，然后评估每个组合的性能。性能评估可以基于模型的损失函数，即模型对三维动画数据的拟合程度。通过选择和交叉这些参数组合，生成新的一代参数组合。算法通过逐渐降低温度来控制参数的随机性，直到找到一个满足性能要求的最佳参数组合。例如，假设服务器正在开发一个虚拟角色生成应用，用户可以通过语音交互来指示虚拟角色执行不同的动作，例如跳舞或打招呼。服务器有一组三维动画序列，代表了不同动作的虚拟角色的动作。通过卷积长短时记忆网络和遗传模拟退火算法，服务器优化网络参数，使得虚拟角色的动作更加逼真和流畅。例如，服务器调整网络参数，以使虚拟角色的舞蹈动作与用户的音频交互更加同步，从而提供更好的用户体验。

其中，使用预置的遗传模拟退火算法，构建初始网络参数集合的初始网络参数种群。这个种群包含了一组不同的网络参数组合，作为优化的起点。基于预置的目标函数，计算初始网络参数种群中每个第一网络参数个体的适应度值。目标函数通常用于衡量网络模型的性能，例如，对三维动画数据的拟合程度可以作为一个性能度量。适应度值越高，代表模型性能越好。根据每个第一网络参数个体的适应度值，将初始网络参数种群分割成三个群体：已感染网络参数种群、易感染网络参数种群以及未感染网络参数种群。已感染网络参数种群包含适应度值高的参数组合，易感染网络参数种群包含适应度值中等的参数组合，未感染网络参数种群包含适应度值较低的参数组合。对已感染网络参数种群进行繁殖和变异操作，生成多个第一网络参数种群。同时，对易感染网络参数种群进行繁殖、交叉和变异操作，生成多个第二网络参数种群。还要对未感染网络参数种群进行繁殖、交叉和变异操作，生成多个第三网络参数种群。这些操作有助于引入新的参数组合，以寻找更好的性能。对多个第一网络参数种群、第二网络参数种群和第三网络参数种群进行组合分析，以识别性能最佳的参数个体。这可以涉及选择适应度值最高的参数组合，或者根据算法的进化过程来选择最佳的参数。使用经过组合分析的多个第二网络参数个体来对卷积长短时记忆网络进行网络参数优化。采用最佳的网络参数组合，以提高网络模型的性能。例如，假设服务器正在开发一款虚拟游戏，其中玩家可以通过语音指令来操控虚拟角色的动作。服务器通过卷积长短时记忆网络来模拟虚拟角色的动画，并且希望通过遗传模拟退火算法来优化网络参数，以获得更加逼真的动画。服务器有一个初始的网络参数种群，其中包含了不同的参数组合，例如不同的卷积核大小、卷积层深度、学习率等。服务器使用预置的目标函数，如虚拟角色动画的逼真程度，来计算每个参数组合的适应度值。服务器根据适应度值将参数种群分成三个群体：已感染、易感染和未感染。已感染群体包含性能最好的参数组合，易感染群体包含中等性能的参数组合，未感染群体包含性能较差的参数组合。服务器对这三个群体分别进行繁殖、交叉和变异操作，以生成新的参数组合。这些新的参数组合将代表下一代网络参数。通过分析这些参数组合，服务器选择性能最佳的参数组合，并将其应用于卷积长短时记忆网络，以优化网络模型。这将导致生成更加逼真和流畅的虚拟角色动画，以响应用户的语音指令。

S103、通过预置的动画交互界面获取目标用户的目标语音交互数据，根据目标语音交互数据确定待处理的初始三维动画数据，并对目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；

需要说明的是，当目标用户进入终端的动画交互界面时，系统会获取用户的交互输入信息，并进行分析以提取信息标识。系统会判断输入信息是否符合预设的主动交互条件。如果符合条件，系统将交互信息输入到主动交互模型中进行语音交互处理，然后将处理后的语音交互数据进行文本转换，以获取语音交互文本。系统进行语义识别，以获得目标语义信息，包括用户的意图和需求。这些信息会被解析，得到目标语义特征，并用于匹配待处理的初始三维动画数据。同时，系统提取关键词，分析关键词之间的关联关系，然后将关键词组合转换为关键词向量，以进行相似度计算。最终，根据相似度数据，系统确定多个关键词组合对应的多个目标音频交互指令。例如，当用户进入应用的动画交互界面并说出：“执行动作A”，系统会分析此输入，提取信息标识，并验证是否满足主动交互条件。如果条件满足，系统会处理该指令，将其转化为文本：“执行动作A”。系统识别用户的意图是执行动作A，解析出相关的语义特征。系统还会提取关键词“执行”和“动作A”，分析它们之间的关联关系，然后将它们转换为关键词向量。系统会与预置的音频交互指令向量集合进行相似度计算，以确定与执行动作A相关的目标音频交互指令。最终，系统可以生成相应的音频指令，例如：“正在执行动作A”。通过这个方法，系统能够根据用户的语音指令识别其意图，并与三维动画数据进行匹配，以实现高度个性化的虚拟交互体验。

S104、对初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

具体的，从初始三维动画数据中获取第一时间戳数据和动画帧率。使用这些信息来计算初始三维动画数据中包含的动画序列数量。例如，如果第一时间戳是0秒，动画帧率是30帧/秒，那么在3秒的动画中将有90帧，可以将其分成若干个动画序列。根据计算得到的动画序列数量，对初始三维动画数据进行动画序列分割，从而得到多个原始动画序列。这些序列代表了不同的动作或阶段。例如，一个动画序列对应虚拟角色的走路，另一个对应跳跃。对多个原始动画序列进行变化率计算，以确定它们的动画速度或变化程度。这有助于理解每个动画序列的特征。例如，一个快速的变化率表示一个迅速的动作，而一个慢速的变化率表示一个缓慢的动作。根据目标变化率，对多个原始动画序列进行动态调整。可以加速或减慢某些动画序列，以匹配目标速度或变化程度。例如，如果用户的指令是“加快跑步”，系统可以加快相关动画序列的播放速度。同时，获取多个目标音频交互指令的第二时间戳数据。这些时间戳用于确定何时应该将音频指令与动画序列进行匹配。根据第一时间戳数据和第二时间戳数据，将多个目标音频交互指令与多个初始动画序列进行映射匹配。这可以通过时间对齐来实现，确保音频指令与相应的动画序列同步。例如，如果用户说“跳跃”时的时间戳是2秒，系统会将这个指令映射到初始动画序列中的相应时间点，以确保虚拟角色在正确的时间执行跳跃动作。完成映射匹配后，系统可以生成多个动画音频序列组合。每个组合包括一个动画序列和一个相应的音频指令，这些组合代表了虚拟角色的不同动作和对话。这些组合可以在用户与虚拟角色进行互动时播放，以实现更生动和交互性的体验。

S105、将多个动画音频序列组合输入三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；

具体的，将多个动画音频序列组合输入到三维动画处理模型的第一时间门控卷积层，以进行时序特征提取。这一步骤有助于捕捉动画序列中的时间相关信息。例如，模型可以分析音频指令何时出现以及动画序列何时做出响应。时序特征提取后，得到每个动画音频序列组合的时序特征。将这些动画音频序列组合输入到三维动画处理模型的空间图卷积层中，以进行动画空间关系分析。这一步骤有助于理解动画序列中的物体位置、运动轨迹等信息。例如，模型可以分析虚拟场景中的物体互动或虚拟角色的运动路径。空间特征分析后，得到每个动画音频序列组合的空间特征。通过三维动画处理模型的第二时间门控卷积层，对每个动画音频序列组合的时序特征和空间特征进行特征映射处理。这一步骤将时序特征和空间特征融合在一起，以生成每个动画音频序列组合的三维动画操作。特征映射处理是将语音指令和动画序列相互关联的关键步骤。根据生成的三维动画操作，对多个动画音频序列组合进行动画调整。虚拟角色的动作或场景将根据生成的三维动画操作进行相应的修改。例如，如果用户说“转身”，生成的三维动画操作将使虚拟角色在动画序列中执行转身动作。例如，假设服务器正在开发一款虚拟导游应用，用户可以通过语音与虚拟导游互动，导游会根据用户的指令在虚拟城市中导航。用户发出语音指令。将这个语音指令与当前动画音频序列组合一起输入到三维动画处理模型中。模型分析语音指令的时间点和动画序列的响应时间，以理解用户的指令和需求。模型分析虚拟城市中的场景和虚拟导游的位置，以确定导游如何导航到目的地。模型将时序特征和空间特征结合起来，生成三维动画操作，例如导游开始向左转并开始导航到博物馆。导游的动作和导航路径将根据生成的三维动画操作进行相应的调整，以满足用户的指令。

S106、对多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据动作类别分别结果设置多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

具体的，对多个目标动画序列进行动作类别标记，为每个目标动画序列分配一个动作类别标签。这些标签用于表示每个序列代表的动作或行为。例如，一个标签可以是“行走”，另一个可以是“跳跃”。根据动作类别标签，对多个目标动画序列进行动作类别分类，以得到动作类别分类结果。这一步骤涉及使用机器学习或深度学习模型，根据动画序列的特征将其分类为不同的动作类别。例如，模型可以将一个具有特定运动特征的序列分类为“奔跑”，将另一个具有不同特征的序列分类为“跳跃”。根据动作类别分类结果，为每个目标动画序列设置动画切换参数。这些参数确定了动画序列之间的切换方式和效果，包括动画过渡时间、过渡方式、速度以及缩放参数。例如，对于从“行走”到“跳跃”的切换，需要设置较快的过渡时间和一种流畅的过渡方式，以反映出跳跃动作的迅速性质。根据每个目标动画序列的动作类别和设置的动画切换参数集合，对初始三维动画数据进行修改、组合和插值，以生成目标三维动画数据。这一步骤涉及对动画序列的时间轴进行调整和合成，以确保动画之间的过渡流畅且符合用户的指令。例如，假设服务器正在开发一款虚拟运动教练应用，用户可以通过语音指令选择不同的运动动作，例如“跳绳”和“俯卧撑”。系统对每个目标动画序列进行动作类别标记，将“跳绳”序列标记为“有氧运动”类别，将“俯卧撑”序列标记为“力量训练”类别。系统使用深度学习模型对这些序列进行动作类别分类。模型分析每个序列的运动特征，将其分类为相应的动作类别，例如“有氧运动”或“力量训练”。根据分类结果，系统设置动画切换参数。对于从“有氧运动”到“力量训练”的切换，系统会选择较短的过渡时间，以便用户不必等待太长时间。过渡方式是一种平滑的淡入淡出效果，以确保动画切换不会显得突兀。系统根据动作类别和动画切换参数，对初始三维动画数据进行修改和组合，以生成目标三维动画数据。这些数据会反映用户选择的不同运动动作，同时确保过渡效果自然且符合用户的预期。

本发明实施例中，获取目标语音交互数据并确定初始三维动画数据，对目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；对初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合；将多个动画音频序列组合输入三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；对多个目标动画序列进行动作类别分类以及设置多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据，本发明利用遗传模拟退火算法和卷积长短时记忆网络，可以自动化生成高质量的三维动画序列。通过优化ConvLSTM网络参数，该方法能够提高三维动画的质量和逼真度。ConvLSTM能够更好地捕捉动画序列中的时间和空间关系，使得生成的动画更加流畅和真实。通过语音识别和语义分析，该方法实现了自然的语音交互。用户可以通过口头指令轻松控制和定制三维动画，而无需手动输入复杂的指令或进行繁琐的操作。通过分析用户的语音输入和意图，可以生成个性化的三维动画内容。用户在实时环境中进行语音交互，并即时观看动画的生成过程，使用户能够更快速地获得所需的动画效果。通过动作类别分类和动画切换参数设置，该方法能够智能地将不同的动画序列组合在一起，实现平滑的动画过渡。这提高了动画的连贯性和真实性。进而提高了三维动画生成的准确率，并且提升了三维动画的动画效果。

在一具体实施例中，如图2所示，执行步骤S102的过程可以具体包括如下步骤：

S201、将多个三维动画序列对预置的卷积长短时记忆网络，其中，卷积长短时记忆网络包括：第一时间门控卷积层、空间图卷积层以及第二时间门控卷积层；

S202、通过卷积长短时记忆网络对多个三维动画序列进行时间特征提取和空间特征提取，得到每个三维动画序列的时间特征及空间特征；

S203、根据每个三维动画序列的时间特征及空间特征，计算卷积长短时记忆网络的初始网络参数集合；

S204、通过预置的遗传模拟退火算法，根据初始网络参数集合对卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型。

具体的，服务器构建一个卷积长短时记忆网络，该网络包括第一时间门控卷积层、空间图卷积层以及第二时间门控卷积层。这个网络架构允许服务器同时考虑时间和空间特征，以更好地理解三维动画序列。多个三维动画序列将依次输入到卷积长短时记忆网络中。第一时间门控卷积层用于提取每个序列的时间特征，例如动画序列中的时间相关模式。同时，空间图卷积层负责提取每个序列的空间特征，这些特征包括物体的位置、姿态和相互关系。在经过时间特征提取和空间特征提取后，服务器得到了每个三维动画序列的时间特征和空间特征。这些特征是序列的抽象表示，包含了序列中的关键信息。服务器将利用这些时间特征和空间特征来计算卷积长短时记忆网络的初始网络参数集合。这些参数包括了卷积层的权重、偏置等，用于定义卷积操作的方式。为了更好地优化网络参数，服务器引入了预置的遗传模拟退火算法。这个算法通过构建初始网络参数集合的初始网络参数种群，基于预置的目标函数计算每个个体的适应度值，然后根据适应度值进行种群分割、繁殖、交叉和变异操作，最终得到了经过优化的网络参数集合。最终，通过这个优化后的卷积长短时记忆网络，服务器获得了三维动画处理模型。这个模型具备了出色的时间和空间特征提取能力，可以用于处理输入的三维动画序列，例如改进动画的流畅性、生成更生动的动画等。

在一具体实施例中，如图3所示，执行步骤S204的过程可以具体包括如下步骤：

S301、通过遗传模拟退火算法，构建初始网络参数集合的初始网络参数种群；

S302、基于预置的目标函数计算初始网络参数种群中每个第一网络参数个体的适应度值；

S303、根据每个第一网络参数个体的适应度值，对初始网络参数种群进行群体分割，得到已感染网络参数种群、易感染网络参数种群以及未感染网络参数种群；

S304、对已感染网络参数种群进行繁殖和变异操作，生成多个第一网络参数种群，并对易感染网络参数种群进行繁殖、交叉和变异操作，生成多个第二网络参数种群，以及对未感染网络参数种群进行繁殖、交叉和变异操作，生成多个第三网络参数种群；

S305、对多个第一网络参数种群、多个第二网络参数种群以及多个第三网络参数种群进行网络参数个体最优化组合分析，得到多个第二网络参数个体；

S306、根据多个第二网络参数个体，对卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型。

具体的，服务器定义卷积长短时记忆网络（Convolutional Long Short-TermMemory，ConvLSTM）的网络结构，并初始化一组随机的网络参数。这组参数将构成初始网络参数种群。例如，假设服务器正在构建一个ConvLSTM网络，它包括多个卷积层、长短时记忆层和全连接层。每个卷积层和全连接层都有权重矩阵和偏置项，这些参数需要在种群中初始化。为了评估每个网络参数个体的性能，服务器定义一个目标函数或适应度函数。这个函数通常包括与任务相关的性能指标，例如损失函数、准确度、速度等。通过计算每个第一网络参数个体的适应度值，服务器了解其在任务上的表现。例如，对于三维动画处理模型，适应度值可以是关于生成动画的质量和准确性的评估指标。例如，服务器使用均方误差（MSE）来衡量生成动画与目标动画之间的差异，MSE越小，适应度值越高。根据计算得到的适应度值，服务器将初始网络参数种群分为三个群体：已感染、易感染和未感染。已感染网络参数群体包含适应度值高的参数个体，易感染网络参数群体包含中等适应度值的参数个体，未感染网络参数群体包含适应度值低的参数个体。例如，如果服务器设定适应度值高于某一阈值的参数个体为已感染，适应度值在一定范围内的参数个体为易感染，适应度值低于某一阈值的参数个体为未感染，这种分割方法可以实现不同程度的参数选择。已感染网络参数群体将进行繁殖和变异操作，生成多个新的第一网络参数群体。易感染网络参数群体和未感染网络参数群体也将分别进行繁殖、交叉和变异操作，以增加多样性。例如，繁殖操作可以通过交叉两个参数个体的参数来生成新的参数个体。变异操作可以在某些参数上引入随机扰动，以增加多样性。这些操作将在不同程度上影响参数个体的适应度，促使进化过程。通过比较多个新生成的第一网络参数群体，服务器选择具有最高适应度值的参数个体，这些参数将被视为最有希望的参数组合。这个选择过程将重复多次，以确保找到最佳的参数个体。例如，如果服务器生成了多个新的第一网络参数群体，通过比较它们的适应度值，选择适应度值最高的参数个体。这个个体的参数将用于下一代的参数群体。选定的最佳参数个体将应用于卷积长短时记忆网络，用于三维动画处理模型。这个过程将在网络参数上进行优化，以提高模型性能和生成质量。例如，选定的最佳参数个体将应用于ConvLSTM网络的权重和偏置项，然后通过训练数据进行网络参数的优化，以获得更好的三维动画处理模型。

在一具体实施例中，执行步骤S103的过程可以具体包括如下步骤：

（1）当检测到目标用户进入终端的动画交互界面时，获取目标用户的交互输入信息，并对交互输入信息进行分析，得到信息标识；

（2）根据信息标识判断交互输入信息是否满足预设的主动交互条件；

（3）若满足，则将交互输入信息输入预置的主动交互模型进行语音交互处理，得到目标用户的目标语音交互数据；

（4）对目标语音交互数据进行文本转换，得到对应的语音交互文本，并对语音交互文本进行语义识别，得到目标语义信息；

（5）对目标语义信息进行解析，得到目标语义特征，并根据目标语义特征匹配待处理的初始三维动画数据；

（6）对语音交互文本进行关键词提取，得到多个目标关键词，并对多个关键词进行关联关系分析，得到多个关键词组合；

（7）对多个关键词组合进行关键词向量转换，得到每个关键词组合的目标关键词向量；

（8）调用预置的音频交互指令向量集合，对每个关键词组合的目标关键词向量进行相似度计算，得到每个关键词组合的相似度数据；

（9）根据相似度数据，确定多个关键词组合对应的多个目标音频交互指令。

具体的，服务器当系统检测到目标用户进入终端的动画交互界面时，它会开始获取目标用户的交互输入信息。这些信息来自于用户的语音输入、手势、眼神或其他交互方式。系统会不断监听和捕获这些输入。系统对获取的交互输入信息进行分析，以得到信息标识。这个信息标识可以是有关用户交互行为的描述，例如"用户正在要求三维动画演示"或"用户正在提问有关虚拟世界的问题"。信息标识的目的是为后续处理提供上下文和指导。一旦获得信息标识，系统会根据它判断交互输入信息是否满足预设的主动交互条件。这些条件包括用户的请求类型、语音质量、语速等。如果输入满足这些条件，系统将继续进行下一步处理。若满足主动交互条件，系统将交互输入信息输入到预置的主动交互模型中进行语音交互处理。这个模型可以理解用户的语音输入，识别用户的意图，并生成目标用户的目标语音交互数据。这包括回答用户的问题、执行用户的命令或提供虚拟助手的服务。系统将目标语音交互数据进行文本转换，将语音内容转化为对应的语音交互文本。这个文本是计算机更容易处理的形式，并为后续的语义识别提供了输入。随后，系统进行语义识别，分析语音交互文本，以得到目标语义信息。这个步骤涉及自然语言处理技术，可以理解文本中的关键信息、命令和问题。得到目标语义信息后，系统会对其进行解析，提取出目标语义特征。这些特征描述了用户的具体需求、意图和操作。系统对语音交互文本进行关键词提取，得到多个目标关键词。这些关键词通常是与用户需求和意图相关的关键词，用于进一步的分析和匹配。系统不仅提取了关键词，还对这些关键词进行关联关系分析，以得到多个关键词组合。这些组合包括多个关键词的组合，有助于更准确地描述用户的需求。对于每个关键词组合，系统进行关键词向量转换，将文本关键词转化为数学向量，以便进行相似度计算。这个向量表示有助于将用户需求与预置的音频交互指令向量集合进行比较。系统调用预置的音频交互指令向量集合，对每个关键词组合的目标关键词向量进行相似度计算。这个相似度计算可以帮助系统确定哪些音频交互指令最符合用户的需求。

在一具体实施例中，如图4所示，执行步骤S104的过程可以具体包括如下步骤：

S401、获取初始三维动画数据的第一时间戳数据和动画帧率，并根据第一时间戳数据和动画帧率计算初始三维动画数据的动画序列数量；

S402、根据动画序列数量，对初始三维动画数据进行动画序列分割，得到多个原始动画序列；

S403、对多个原始动画序列进行变化率计算，得到目标变化率，并根据目标变化率对多个原始动画序列进行动态调整，得到多个初始动画序列；

S404、获取多个目标音频交互指令的第二时间戳数据，并根据第一时间戳数据和第二时间戳数据，对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合。

具体的，服务器系统获取初始三维动画数据的第一时间戳数据和动画帧率。第一时间戳数据表示动画的起始时间，而动画帧率表示每秒播放的帧数。通过这两个参数，系统可以计算初始三维动画数据的动画序列数量。例如，如果第一时间戳是0秒，动画帧率是30帧/秒，那么在3秒内将有90帧的动画数据。系统根据计算出的动画序列数量对初始三维动画数据进行动画序列分割。将初始动画数据按照时间划分成多个序列，每个序列包含一定数量的帧。这些序列被称为原始动画序列。对于每个原始动画序列，系统进行变化率计算，得到目标变化率。这个变化率反映了每个原始动画序列中动画内容的变化速度。例如，某个序列包含缓慢的动画效果，而另一个序列包含快速的动画效果。目标变化率用于后续的动态调整。系统获取多个目标音频交互指令的第二时间戳数据。第二时间戳数据表示每个音频指令的开始时间。系统将第一时间戳数据和第二时间戳数据结合起来，以便将多个目标音频交互指令与多个初始动画序列进行映射匹配。映射匹配确定了哪个音频指令应该与哪个动画序列组合。这种匹配通常基于时间戳的对齐，确保音频指令与相应的动画序列保持同步。例如，如果某个音频指令的第二时间戳是2秒，系统可以将其映射到初始动画序列的第一个序列中，因为这个序列的时间范围包括2秒。最终，通过映射匹配，系统生成多个动画音频序列组合。每个组合包含一个初始动画序列和一个与之匹配的目标音频交互指令。这样，当用户进行语音交互时，系统可以动态地选择合适的动画音频序列组合来呈现给用户，以满足其需求。

在一具体实施例中，执行步骤S105的过程可以具体包括如下步骤：

（1）将多个动画音频序列组合输入三维动画处理模型中的第一时间门控卷积层进行时序特征提取，得到每个动画音频序列组合的时序特征；

（2）将多个动画音频序列组合输入三维动画处理模型中的空间图卷积层进行动画空间关系分析，得到每个动画音频序列组合的空间特征；

（3）通过三维动画处理模型中的第二时间门控卷积层，对每个动画音频序列组合的时序特征和空间特征进行特征映射处理，生成每个动画音频序列组合的三维动画操作；

（4）根据三维动画操作，对多个动画音频序列组合进行动画调整，生成多个目标动画序列。

具体的，将多个动画音频序列组合输入到三维动画处理模型中的第一时间门控卷积层。这一层的主要任务是提取动画序列的时序特征。时序特征捕捉了动画中随时间变化的信息，例如动画对象的运动轨迹、速度和加速度。每个动画音频序列组合都经过这个卷积层，生成相应的时序特征。将这些时序特征输入到三维动画处理模型中的空间图卷积层。空间图卷积层的作用是进行动画空间关系分析，即理解动画中不同对象之间的相对位置、大小和交互关系。这一层会生成每个动画音频序列组合的空间特征。通过三维动画处理模型中的第二时间门控卷积层，对时序特征和空间特征进行特征映射处理。这一步骤将时序特征和空间特征融合，以生成每个动画音频序列组合的三维动画操作。这些操作描述了如何调整和变换动画序列，以满足用户的需求。系统根据生成的三维动画操作，对多个动画音频序列组合进行动画调整。系统将应用这些操作来修改、组合和插值动画序列，以生成多个目标动画序列。这些目标动画序列将呈现给用户，以满足其语音交互需求。例如，考虑一个虚拟游戏场景，用户要求在游戏中实现一个角色的跳跃动作。系统首先获取了与跳跃动作相关的多个动画音频序列组合，这些组合包括不同的跳跃动画变体。这些组合被送入三维动画处理模型，首先通过第一时间门控卷积层提取了每个组合的时序特征。这些时序特征包括角色的运动轨迹和速度信息。时序特征被送入空间图卷积层，以分析角色在游戏场景中的位置和姿态关系。通过第二时间门控卷积层，系统将时序特征和空间特征进行特征映射处理。这将生成与跳跃动作相关的三维动画操作，描述了如何调整角色的动作来实现跳跃。系统应用这些三维动画操作来调整多个动画音频序列组合，以生成多个跳跃动作的目标动画序列。每个目标动画序列代表了一个不同类型的跳跃，如高跳、翻跟头等，以满足用户在语音交互中提出的具体需求。用户可以通过声音或语音命令来触发不同类型的跳跃动画，使虚拟游戏场景更加生动和互动。这个过程充分利用了语音交互和动画处理技术，提供了更丰富的用户体验。

在一具体实施例中，执行步骤S106的过程可以具体包括如下步骤：

（1）对多个目标动画序列进行动作类别标记，得到每个目标动画序列的动作类别标签；

（2）根据动作类别标签，对多个目标动画序列进行动作类别分类，得到动作类别分类结果；

（3）根据动作类别分类结果，对多个目标动画序列进行动画切换参数设置，得到目标动画切换参数集合，其中，目标动画切换参数集合包括：动画过渡时间、过渡方式、速度及缩放参数；

（4）根据每个目标动画序列的动作类别和目标动画切换参数集合，对初始三维动画数据进行修改、组合和插值，生成目标三维动画数据。

具体的，系统对多个目标动画序列进行动作类别标记。为每个动画序列分配一个动作类别标签，以描述它所代表的动作类型。这一步骤可以使用机器学习算法，例如卷积神经网络（CNN）或循环神经网络（RNN），对动画序列进行分类和标记。系统根据动作类别标签对多个目标动画序列进行动作类别分类。这一步骤涉及将动画序列分成不同的类别，以便后续的处理。分类结果表明每个目标动画序列属于哪种特定的动作类别。基于动作类别分类的结果，系统为每个目标动画序列设置动画切换参数。这些参数包括动画过渡时间、过渡方式、速度及缩放参数。这些参数的设置是为了实现从一个动画序列到另一个动画序列的平滑过渡和切换，以确保动画之间的连贯性和自然性。系统根据每个目标动画序列的动作类别和动画切换参数集合，对初始三维动画数据进行修改、组合和插值，以生成目标三维动画数据。这一步骤可以包括对动画关键帧的调整、动画序列的拼接和动画速度的控制等操作，以确保生成的三维动画数据与用户的语音交互需求相匹配。例如，考虑一个虚拟演示应用，用户通过语音命令要求系统展示不同类型的交通工具动画，包括汽车、飞机和火车。系统首先获取了与这些动作相关的多个目标动画序列，每个序列代表一个交通工具的动画。系统使用机器学习算法对这些目标动画序列进行了动作类别标记，例如将汽车动画标记为“汽车”、将飞机动画标记为“飞机”等。系统根据标记结果对这些目标动画序列进行动作类别分类，将它们分成不同的类别。基于分类结果，系统设置了动画切换参数，例如将不同交通工具之间的过渡时间设置为3秒，过渡方式采用渐变，速度保持一致，缩放参数调整为适合显示的大小。系统根据每个目标动画序列的动作类别和动画切换参数，对初始三维动画数据进行了修改和组合，生成了展示汽车、飞机和火车的目标三维动画数据。这些动画在用户的语音交互下平滑切换，呈现出流畅和生动的交通工具动画，满足了用户的需求。这个过程充分结合了语音交互和动画处理技术，提供了更丰富的用户体验。

上面对本发明实施例中基于人工智能的语音交互方法进行了描述，下面对本发明实施例中基于人工智能的语音交互系统进行描述，请参阅图5，本发明实施例中基于人工智能的语音交互系统一个实施例包括：

获取模块501，用于获取多个训练三维动画数据，并对所述多个训练三维动画数据进行预处理，得到多个三维动画序列；

建模模块502，用于通过遗传模拟退火算法和所述多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型；

提取模块503，用于通过预置的动画交互界面获取目标用户的目标语音交互数据，根据所述目标语音交互数据确定待处理的初始三维动画数据，并对所述目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；

匹配模块504，用于对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

分析模块505，用于将所述多个动画音频序列组合输入所述三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；

生成模块506，用于对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分别结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

通过上述各个组成部分的协同合作，获取目标语音交互数据并确定初始三维动画数据，对目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令；对初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对多个目标音频交互指令与多个初始动画序列进行映射匹配，生成多个动画音频序列组合；将多个动画音频序列组合输入三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列；对多个目标动画序列进行动作类别分类以及设置多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据，本发明利用遗传模拟退火算法和卷积长短时记忆网络，可以自动化生成高质量的三维动画序列。通过优化ConvLSTM网络参数，该方法能够提高三维动画的质量和逼真度。ConvLSTM能够更好地捕捉动画序列中的时间和空间关系，使得生成的动画更加流畅和真实。通过语音识别和语义分析，该方法实现了自然的语音交互。用户可以通过口头指令轻松控制和定制三维动画，而无需手动输入复杂的指令或进行繁琐的操作。通过分析用户的语音输入和意图，可以生成个性化的三维动画内容。用户在实时环境中进行语音交互，并即时观看动画的生成过程，使用户能够更快速地获得所需的动画效果。通过动作类别分类和动画切换参数设置，该方法能够智能地将不同的动画序列组合在一起，实现平滑的动画过渡。这提高了动画的连贯性和真实性。进而提高了三维动画生成的准确率，并且提升了三维动画的动画效果。

上面图5从模块化功能实体的角度对本发明实施例中的基于人工智能的语音交互系统进行详细描述，下面从硬件处理的角度对本发明实施例中基于人工智能的语音交互设备进行详细描述。

图6是本发明实施例提供的一种基于人工智能的语音交互设备的结构示意图，该基于人工智能的语音交互设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于人工智能的语音交互设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于人工智能的语音交互设备600上执行存储介质630中的一系列指令操作。

基于人工智能的语音交互设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于人工智能的语音交互设备结构并不构成对基于人工智能的语音交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于人工智能的语音交互设备，所述基于人工智能的语音交互设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于人工智能的语音交互方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于人工智能的语音交互方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的语音交互方法，其特征在于，所述基于人工智能的语音交互方法包括：

对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；具体包括：获取所述初始三维动画数据的第一时间戳数据和动画帧率，并根据所述第一时间戳数据和所述动画帧率计算所述初始三维动画数据的动画序列数量；根据所述动画序列数量，对所述初始三维动画数据进行动画序列分割，得到多个原始动画序列；对所述多个原始动画序列进行变化率计算，得到目标变化率，并根据所述目标变化率对所述多个原始动画序列进行动态调整，得到多个初始动画序列；获取所述多个目标音频交互指令的第二时间戳数据，并根据所述第一时间戳数据和所述第二时间戳数据，对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分类结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

2.根据权利要求1所述的基于人工智能的语音交互方法，其特征在于，所述通过遗传模拟退火算法和所述多个三维动画序列对预置的卷积长短时记忆网络进行网络建模和参数优化，得到三维动画处理模型，包括：

将所述多个三维动画序列输入预置的卷积长短时记忆网络，其中，所述卷积长短时记忆网络包括：第一时间门控卷积层、空间图卷积层以及第二时间门控卷积层；

3.根据权利要求2所述的基于人工智能的语音交互方法，其特征在于，所述通过预置的遗传模拟退火算法，根据所述初始网络参数集合对所述卷积长短时记忆网络进行网络参数优化，得到三维动画处理模型，包括：

4.根据权利要求1所述的基于人工智能的语音交互方法，其特征在于，所述通过预置的动画交互界面获取目标用户的目标语音交互数据，根据所述目标语音交互数据确定待处理的初始三维动画数据，并对所述目标语音交互数据进行音频交互指令提取，得到多个目标音频交互指令，包括：

5.根据权利要求1所述的基于人工智能的语音交互方法，其特征在于，所述将所述多个动画音频序列组合输入所述三维动画处理模型进行三维动画特征提取和音频指令分析，生成多个目标动画序列，包括：

6.根据权利要求1所述的基于人工智能的语音交互方法，其特征在于，所述对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分类结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据，包括：

7.一种基于人工智能的语音交互系统，其特征在于，所述基于人工智能的语音交互系统包括：

匹配模块，用于对所述初始三维动画数据进行动画序列分割，得到多个初始动画序列，并对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；具体包括：获取所述初始三维动画数据的第一时间戳数据和动画帧率，并根据所述第一时间戳数据和所述动画帧率计算所述初始三维动画数据的动画序列数量；根据所述动画序列数量，对所述初始三维动画数据进行动画序列分割，得到多个原始动画序列；对所述多个原始动画序列进行变化率计算，得到目标变化率，并根据所述目标变化率对所述多个原始动画序列进行动态调整，得到多个初始动画序列；获取所述多个目标音频交互指令的第二时间戳数据，并根据所述第一时间戳数据和所述第二时间戳数据，对所述多个目标音频交互指令与所述多个初始动画序列进行映射匹配，生成多个动画音频序列组合；

生成模块，用于对所述多个目标动画序列进行动作类别分类，得到动作类别分类结果，并根据所述动作类别分类结果设置所述多个目标动画序列之间的动画切换参数，生成对应的目标三维动画数据。

8.一种基于人工智能的语音交互设备，其特征在于，所述基于人工智能的语音交互设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于人工智能的语音交互设备执行如权利要求1-6中任一项所述的基于人工智能的语音交互方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的基于人工智能的语音交互方法。