CN117173365B

CN117173365B - 基于声音ai模型的虚拟场景生成方法及系统

Info

Publication number: CN117173365B
Application number: CN202310992938.5A
Authority: CN
Inventors: 吴砥; 康宸; 钟正; 徐建
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2024-05-24
Anticipated expiration: 2043-08-07
Also published as: CN117173365A

Abstract

本发明属于人工智能的教学应用领域，提供一种基于声音AI模型的虚拟场景生成方法及系统，本发明系统包括多源音频数据采集、声音特征提取、声音AI模型学习、教学环境轮廓识别、师生状态识别、教学环境对象生成和教学环境动态重构模块，本发明方法构建声音AI模型，提取教学环境中师生的声纹、环境轮廓特征，识别、分割和生成教学环境中对象，并聚合虚拟模型和师生化身。本发明方法及系统有助于虚拟教学资源和教学场景的生成，为虚拟教学资源提供新的生成方式。

Description

基于声音AI模型的虚拟场景生成方法及系统

技术领域

本发明属于人工智能的教学应用领域，更具体地，涉及基于声音AI模型的虚拟场景生成方法及系统。

背景技术

AIGC可根据师生的需求和课程内容，利用人工智能(Artificial Intelligence，AI)技术自动化生成高质量、个性化的教学资源，为师生提供更好的学习体验。将AIGC技术应用于虚拟场景的生成，能够生成逼真的教学情境，为教育元宇宙中学习者提供与学习目标适切的丰富教学资源。利用AI、深度学习等算法构建的声音AI模型在语音处理、声音分析、智能交互等领域作用非常广泛，如通过声音特征识别不同的说话者，也可通过识别说话人声音的音调、语速、语气等特征，判断其情绪状态。在AIGC中引入声音AI模型，可为教育元宇宙中虚拟教学场景创设提供了一种新的路径。然而，目前使用声音AI模型生成虚拟场景大多仅使用直接音频数据，且未经过信号增强处理，导致经过媒介反射的混响数据利用效率较低，与环境相关的声音特征未得到充分利用。因此，通过采集、增强多源音频数据，采用AI技术提取声音特征，构建声音AI模型，提取教学环境中师生的声纹、环境轮廓特征，匹配教学空间的模型库，识别、分割、生成教学环境中对象，并聚合环境模型和师生主体。将生成式AI技术应用于教学资源和教学场景的生成，可为教学资源的供给提供自动化、智能化的生成方式。

当前基于声音AI模型的虚拟场景生成领域还存在诸多的问题：(1)虚拟场景生成未充分考虑教学环境反射所形成的混响音频数据：仅使用师生对话的直接音频数据难以分析、理解师生所处真实教学环境的概貌；(2)多源音频的特征提取的手段还不丰富：由于多源音频数据的非线性和非平稳性特点，直接使用未经信号增强处理的音频数据难以充分挖掘其隐含特征，可能导致关键信息在特征提取过程中丢失或模糊；(3)虚拟教学环境对象分割尚未自动化、智能化：根据声音特征可生成虚拟教学环境轮廓，缺乏使用3D场景库匹配、分割，智能化创设虚拟教学场景和教学主体的能力。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于声音AI模型的虚拟场景生成方法及系统，为教育元宇宙中虚拟场景生成提供一种智能、系统的方法。

本发明的目的是通过以下技术措施实现的。

本发明提供一种基于声音AI模型的虚拟场景生成方法，该方法包括以下步骤：

(1)多源音频数据采集，采用VR终端内置麦克风录制师生授课、提问、问答的直接音频数据，捕捉经过介质反射传播的混响音频数据；运用模数转换算法将音频信号转换为数字信号，经过预加重、分帧、端点检查和加窗处理；采用基于感知编码的音频压缩算法编码音频帧，存储为.ACC音频文件格式；

(2)声音特征提取，运用声学变换以及时间和频率掩蔽算法处理、增强直接和混响音频信号；采用伽玛通滤波器组处理时频图，使用对数变换运算处理每个滤波器组输出结果，提取师生音频特征；运用残差神经网络层提取教学环境的特征向量；

(3)声音AI模型学习，依次堆叠CNN-BiLSTM模型、FFTBlock模块，构造声音AI模型；使用随机初始化剪枝算法剔除敏感度低的神经元，采用Xavier算法初始化模型中权重和阈值训练参数；采用自适应学习率算法作为优化器，设置多种模型超参数，训练声音AI模型；

(4)教学环境轮廓识别，使用已训练的声音AI模型，提取混响信号特征；采用EDTER算法，设置不同属性对声音反射的影响系数，生成教学环境的形状、纹理、深度和运动信息边缘特征向量；依次使用EfficientNet、ShuffleNet和Wide-ResNet神经网络层，提取教学环境轮廓的特征；

(5)师生状态识别，依次堆叠声音AI模型和嵌入声纹特征孪生残差网络，提取教学环境中师生的声纹特征；采用短时幅度差特征检测算法获取声纹特征的突变点和变化率，分割直接音频信号；使用时空网络提取师生的空间特征向量，采用定位算法，推断师生声源的空间信息；

(6)教学环境对象生成，采用基于Pixel2Mesh的三维重建算法，实现基于图像的人体3D模型生成；运用约束Delaunay三角剖分算法生成轮廓点的三角网，平滑教学空间的轮廓；采用粒子群优化算法检索对象模型库，依据最优参数组合，使用立体视觉重建算法，生成环境对象；

(7)教学环境动态重构，依据声音AI模型推断教学环境的类别，使用基于生成对抗网络算法调整教学环境长和宽；使用基于空间分割的八叉树算法，重划虚拟教学环境的网格；结合碰撞检测和场景约束布局算法设置网格的尺寸，放置对象和化身到对应网格，聚合虚拟环境中教学主体和教学模型。

本发明还提供一种基于声音AI模型的虚拟场景生成系统，用于实现上述的方法，包括多源音频数据采集模块、声音特征提取模块、声音AI模型学习模块、教学环境轮廓识别模块、师生状态识别模块、教学环境对象生成模块和教学环境动态重构模块。

所述多源音频数据采集模块，用于录制师生授课、提问、问答的直接音频数据，捕捉经过介质反射传播的混响音频数据，将音频信号转换为数字信号，采用音频压缩算法编码音频帧。

所述声音特征提取模块，用于增强音频信号，使用对数变换运算处理滤波器组输出的结果并提取师生音频特征，运用残差神经网络层提取环境特征向量。

所述声音AI模型学习模块，用于堆叠CNN-BiLSTM和FFTBlock模块，构造声音AI模型，剔除敏感度低的神经元，采用Xavier算法初始化训练参数，设置模型超参数，训练声音AI模型。

所述教学环境轮廓识别模块，用于使用声音AI模型提取混响信号特征，采用EDTER算法生成环境边缘特征向量，使用神经网络层提取教学环境轮廓的特征。

所述师生状态识别模块，用于提取教学环境中师生交流的声纹特征，获取声纹的突变点和变化率，分割直接音频信号，采用定位算法推断师生声源的空间信息。

所述教学环境对象生成模块，用于生成图像的人体3D模型，运用约束Deluanay三角网平滑教学空间的轮廓，依据最优参数组合，生成环境对象。

所述教学环境动态重构模块，用于调整教学环境的长、宽参数，使用八叉树算法划分教学环境为网格，运用碰撞检测和场景约束布局算法设置网格尺寸，在虚拟环境中聚合教学主体和教学模型。

本发明的有益效果在于：采用VR终端内置麦克风录制师生授课、提问、问答的直接音频数据，捕捉经过介质反射传播的混响音频数据；运用模数转换算法将音频信号转换为数字信号，经过预加重、分帧、端点检查和加窗处理；采用感知编码的音频压缩算法编码音频帧，存储为.ACC音频文件格式；运用声学变换算法处理、增强直接和混响音频信号；采用伽玛通滤波器组处理时频图，使用对数变换运算处理每个滤波器组输出结果，提取师生音频特征；运用残差神经网络层提取环境的特征向量；依次堆叠CNN-BiLSTM模型、FFTBlock模块，构造声音AI模型；使用随机初始化剪枝算法剔除敏感度低的神经元，采用Xavier算法初始化模型中的权重和阈值训练参数；采用自适应学习率算法作为优化器，设置多种模型超参数，训练声音AI模型；使用已训练的声音AI模型，提取混响信号特征；采用EDTER算法，设置不同属性对声音反射的影响系数，生成教学环境的形状、纹理、深度和运动信息边缘特征向量；依次使用EfficientNet、ShuffleNet和Wide-ResNet神经网络层，提取教学环境轮廓的特征；依次堆叠声音AI模型和嵌入声纹特征孪生残差网络，提取教学环境中师生的声纹特征；采用短时幅度差特征检测算法获取声纹特征的突变点和变化率，分割直接音频信号；使用时空网络提取师生的空间特征向量，采用定位算法，推断师生声源的空间信息；采用基于Pixel2Mesh的三维重建算法，实现基于图像的人体3D模型生成；运用Delaunay三角剖分算法生成轮廓点的三角网，平滑教学空间的轮廓；采用粒子群优化算法检索对象模型库，依据最优参数组合，使用立体视觉重建算法，生成环境对象；依据声音AI模型推断教学环境的类别，使用基于生成对抗网络算法调整教学环境长和宽；使用基于空间分割的八叉树算法，重划虚拟教学环境的网格；结合碰撞检测和场景约束布局算法设置网格的尺寸，放置对象和化身到对应网格，聚合虚拟环境中教学主体和教学模型。

附图说明

图1是本发明实施例中基于声音AI模型的虚拟场景生成系统架构图。

图2是本发明实施例中声音AI模型示意图。

图3是本发明实施例中EDTER模型示意图，301-图卷积神经网络层，302-空间特征，303-纹理对声音反射影响系数，304-颜色对声音反射影响系数，305-材质对声音反射影响系数，306-形状对声音反射影响系数，307-时间序列，308-循环神经网络层，309-时序特征。

图4是本发明实施例中时空网络模型示意图，401-线性层，402-拼接层，403-卷积神经网络层，404-循化神经网络层，405-全连接层。

图5是本发明实施例中教学环境三角形面片示意图。

图6是本发明实施例中师生化身位置关系示意图，601-教师化身，602-学生化身。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施案例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本实施例提供一种基于声音AI模型的虚拟场景生成方法，包括：

(1)多源音频数据采集。采用VR终端内置麦克风录制师生授课、提问、问答的直接音频数据，捕捉经过介质反射传播的混响音频数据；运用模数转换算法将音频信号转换为数字信号，经过预加重、分帧、端点检查和加窗处理；采用基于感知编码的音频压缩算法编码音频帧，存储为.ACC音频文件格式。具体地：

(1-1)多源音频数据捕捉。设置扬声器的频率响应、灵敏度、阻抗和回声失真性能参数，拾取师生在真实教学环境中授课、提问、问答的声音数据，采用VR终端内置麦克风录制直接音频数据，并捕捉经过教室中空气、桌椅、墙壁、门窗、地面介质反射传播的混响音频数据。

(1-2)音频信号预处理。使用时间对齐算法同步多源音频信号，采用数字滤波器均衡化处理音频信号，设置采样率和量化位数，运用模数转换算法将音频信号转换为数字信号，经过预加重、分帧、端点检查和加窗处理消除混叠、高次谐波失真、高频影响。模数转换算法具体步骤：

I：定义连续直接音频信号为V；

II：使用公式1采样音频信号：

V(n)＝V·δ(t-nT_s) (公式1)

其中，V(n)为第n∈{1,2,...,n,...,N}个采样值，T_s为时间间隔，δ表示单位冲激函数；

III：采用公式2量化采样值：

V'_n＝Q[V_n] (公式2)

其中，V'_n为量化后的采样值，Q为均匀量化函数；

Ⅳ：编码量化后的采样值，如公式3所示：

X_n＝Encoder[V'_n] (公式3)

其中，Encoder为立体声编码函数，X_n表示第n个数字信号；

Ⅴ：重复II～Ⅳ，将直接音频信号转换为数字信号X＝{X₁,X₂,...X_n,...,X_N}，N为直接音频的数字信号长度。

(1-3)音频数据编码。使用短时傅里叶变换算法，结合滑动窗口操作，将数字信号分割为音频帧，采用基于感知编码的音频压缩算法编码音频帧，并将结果保存为.ACC音频文件格式，运用固定时长切割算法将音频文件分割为数据包，采用TCP网络传输协议将数据包传输到云端服务器。

(2)声音特征提取。运用声学变换以及时间和频率掩蔽算法处理、增强直接和混响音频信号；采用伽玛通滤波器组处理时频图，使用对数变换运算处理每个滤波器组输出结果，提取师生音频特征；运用残差神经网络层提取教学环境的特征向量。

(2-1)数字信号增强。运用声学变换处理，结合正向音高偏移、负向音高偏移、音频时间拉伸、音频时间缩短和添加白噪声操作处理直接和混响音频数字信号，将新生成的数字信号作为新音频数据源，采用时间和频率掩蔽算法优化、增强该音频数字信号。直接音频信号声学变换处理具体步骤：

I：获取直接音频的数字信号X＝{X₁,X₂,...X_n,...,X_N}；

II：使用公式4转换数字信号为频谱：

其中，k∈{1,2,...,K}为频谱信号的索引，n为数字信号的索引，i为虚数单位；

III：正向、负向高音偏移计算如公式5、6所示：

其中，其中Δk为音高偏移，N为频谱长度；

Ⅳ：采用公式7、8实现音频时间伸长和缩短：

其中，为相位插值函数，Δ_伸长和Δ_缩短分别为时间拉伸和缩短系数；

Ⅴ：运用伪随机数生成器生成服从均匀分布白噪声序列N＝{N₁,N₂,...,N_K}，其中k为白噪声序列长度；

Ⅵ：白噪声添加如公式9所示：

X”_k＝Y_缩(k)+α*w(k)(公式9)

其中，α为白噪声与频谱信号的混合系数；

Ⅶ：使用公式10将经过声学变换处理后的音频信号X”_k转换为新的数字信号：

(2-2)师生音频特征提取。使用时域卷积算法处理增强的直接音频数字信号，将输出结果拼接成时频图，先采用伽玛通滤波器组处理时频图，再使用对数变换运算处理每个滤波器组的输出结果，提取师生对话的基频、共振峰、声纹特征向量、能量、时长和韵律音频特征。

(2-3)环境特征提取。依次堆叠卷积神经网络层和线性整流函数，结合残差映射函数，构造残差神经网络层，将增强处理的混响音频输入到残差神经网络层，获得声源距离、声音方位、立体声效果和声源所在环境的特征向量，提取教学环境的特征。

(3)声音AI模型学习。依次堆叠CNN-BiLSTM模型、FFTBlock模块，构造声音AI模型；使用随机初始化剪枝算法剔除敏感度低的神经元，采用Xavier算法初始化模型中权重和阈值训练参数；采用自适应学习率算法作为优化器，设置多种模型超参数，训练声音AI模型。

(3-1)声音AI模型构建，如图2所示。使用一维卷积神经网络层、池化层、双向循环神经网络层和随机丢失层构建CNN-BiLSTM模型，运用多头注意力机制、残差连接、归一化和一维卷积神经网络层构建FFT Block模块，依次堆叠CNN-BiLSTM模型、FFT Block模块，构造声音AI模型。

(3-2)模型参数初始化。运用敏感度分析算法计算声音AI模型中神经元之间连接的敏感度，按照从高到低的顺序排列敏感度，采用基于稀疏二值规划的随机初始化剪枝算法剔除敏感度低于阈值的神经元，依据声学AI模型中输入和输出尺寸，使用Xavier算法初始化模型中权重和阈值训练参数。Xavier算法初始化具体步骤：

I：获取声学AI模型中输入和输出尺寸分别为n_in和n_out；

II：定义权重矩阵和阈值向量分别为W和b；

III：使用公式11、12实现W和b的初始化：

W～U(-a,a)(公式11)

b～N(0,1)(公式12)

其中，N(0,1)为均值为0，方差为1的正太分布。

(3-3)声音AI模型训练。使用softmax交叉熵和联合函数，结合L1正则化算法，构造模型损失函数，采用自适应学习率算法作为优化器，设置学习率、批量大小、正则化参数、学习率衰减值、模糊因子、训练轮数和迭代次数模型超参数，训练声音AI模型。

(4)教学环境轮廓识别。使用已训练的声音AI模型，提取混响信号特征；采用EDTER算法，设置不同属性对声音反射的影响系数，生成教学环境的形状、纹理、深度和运动信息边缘特征向量；依次使用EfficientNet、ShuffleNet和Wide-ResNet神经网络层，提取教学环境轮廓的特征。

(4-1)教学环境声音特征提取。当师生佩戴VR或AR头显在教学环境中移动和查看教学资源时，设备上的麦克风阵列将采集环境中师生交谈的声音或经过环境中对象反弹回的混响声音信号，使用已训练的声音AI模型，提取混响信号中教学环境声音特征。

(4-2)教学环境边缘检测。使用短时自相关能量算法计算混响信号特征的短时能量向量，采用如图3所示的EDTER模型，设置教学环境中不同纹理、颜色、材质属性对声音反射影响系数，如表1所示，输入短时能量向量，生成教学环境的外观、纹理、深度和运动信息的边缘特征向量。

表1不同材质对声音反射影响系数

材质	影响系数
		混凝土	0.2-0.5
砖墙	0.1-0.4
		木材	0.2-0.4
木地板	0.1-0.3
		玻璃	0.05-0.2
金属	0.1-0.6
		……	……
地毯	0.1-0.3

(4-3)环境轮廓特征提取。依次使用EfficientNet、ShuffleNet和Wide-ResNet神经网络层，从教学环境的外观、纹理、深度和运动信息的边缘特征向量，提取教学环境外轮廓和内部轮廓形状、轮廓长度、轮廓面积、轮廓分支数、轮廓方向、轮廓凸度和轮廓分形维度的特征。

(5)师生状态识别。依次堆叠声音AI模型和嵌入声纹特征孪生残差网络，提取教学环境中师生的声纹特征；采用短时幅度差特征检测算法获取声纹特征的突变点和变化率，分割直接音频信号；使用时空网络提取师生的空间特征向量，采用定位算法，推断师生声源的空间信息。

(5-1)师生声纹特征提取。依次堆叠已训练的声音AI模型、嵌入声纹特征孪生残差网络，重构声音AI模型，输入教学环境中师生音频特征，获取师生对话的语音纹理、音色特征、说话习惯和语音节奏的声纹特征，提取教学环境中师生的声纹特征。嵌入声纹特征孪生残差网络提取声纹特征具体步骤：

I：获取已训练的声音AI模型输出特征为S；

II：将卷积神经网络层、残差网络、均值池化层和全连接层分别定义为Cov、Res、Avgpool和Dense；

III：依次堆叠Cov、Res、Avgpool和Dense构造嵌入声纹特征孪生残差网络，并使用Net表示；

Ⅳ：模型输出特征如公式13所示：

Eb＝Net(S)(公式13)

Ⅴ：嵌入声纹特征孪生残差网络损失函数如公式14所示：

L_Net＝CE(S,Eb)(公式14)

其中，CE表示交叉熵函数；

Ⅵ：依次堆叠已训练的声音AI模型和Net，重构声音AI模型；

Ⅶ：重构声音AI模型的损失函数如公式15所示：

L＝L_Net+αL_con(公式15)

其中，L_con表示说话人一致性约束，α＝0.32。

Ⅷ：若损失函数值不再改变，获取此时的Eb值，并将其作为师生对话的语音纹理、音色特征、说话习惯和语音节奏的声纹特征。

(5-2)师生音频分割。判断声纹库中是否已存在师生的声纹，使用i-vector算法匹配，若不存在，则将该声纹加入到声纹库，采用短时幅度差特征检测算法，获取声纹特征的突变点和变化率，识别声音分割边界，沿边界分割直接音频信号，关联、标记师生身份ID。师生声纹库构建具体步骤：

I：使用外置麦克风录制每位师生语音样本，并关联、标记对应师生ID；

II：采用GMM模型建模师生语音样本，获取每个样本的GMM模型；

III：定义全局总变差矩阵和权重矩阵为T和W；

Ⅳ：使用公式16、17初始化T和W：

T～exp(0.5)(公式16)

W～P(2)(公式17)

其中，exp(0.5)表示参数为0.5的指数分布，P(2)表示均值和方差为2的泊松分布；

Ⅴ：运用EM算法估计每个样本的GMM模型：

E步骤：采用公式18计算样本中每一帧属于每个高斯组件的后验概率：

其中，X_t为第t∈{1,2,...,t,...,T}个帧，M表示高斯组件个数，p(X_t|j)是第j个高斯组件生成X_t的概率密度函数，p(j)是第j个高斯组件的先验概率。

M步骤：根据E步骤中计算得到的后验概率，运用公式19计算第t帧语音

样本特征向量的i-vector：

其中，m为GMM模型的均值超向量。

Ⅵ：重复E步骤和M步骤s次，其中s为重复迭代的次数；

Ⅶ：绑定每位师生的i-vector向量和师生身份ID，构建声纹库；

(5-3)空间信息提取。使用如图4所示的时空网络处理已分割直接音频信号，输出各位师生的空间特征向量，采用基于交叉相关法的定位算法判定特征向量，结合时间差、振幅差和频谱特征参数，提取师生相对于麦克风的朝向、距离和位置空间信息。

(6)教学环境对象生成。采用基于Pixel2Mesh的三维重建算法，实现基于图像的人体3D模型生成；运用约束Delaunay三角剖分算法生成轮廓点的三角网，平滑教学空间的轮廓；采用粒子群优化算法检索对象模型库，依据最优参数组合，使用立体视觉重建算法，生成环境对象。

(6-1)师生化身生成。依据识别的师生身份ID，关联学校校务管理系统中的师生证件照以及性别、身高、体重信息，采用基于Pixel2Mesh的三维重建算法，实现基于图像的人体3D模型生成，运用基于LOD的多边形优化算法平滑模型细节，压缩师生化身模型的表面面片。

(6-2)空间虚拟轮廓构建。设置轮廓点密度和分布，根据(4-3)提取的教学环境外部和内部轮廓特征，使用Catmull-Rom插值算法加密生成轮廓点，运用约束Delaunay三角剖分算法构建轮廓点的三角形网格，采用贪婪投影的三角化算法，平滑如图5所示教学空间的三角形面片。贪婪投影的三角化算法具体步骤：

I：依据轮廓点的三角形网格构建教学空间三角网格模型；

II：定义三角网格模型的顶点为{Ve₁,Ve₂,Ve₃,...,Ve_t,...,Ve_N}，其中N为顶点总个数；

III：使用公式20计算三角形顶点Ve_t的法向量：

N＝(Ve_t-Ve_t-1)×(Ve_t+1-Ve_t-1)(公式20)

其中，N为法向量，Ve_t-1、Ve_t+1为与Ve_t相邻顶点；

Ⅳ：采用公式21平滑顶点Ve_t法向量：

其中，N'为经过归一化处理的法向量；

Ⅴ：采用公式22更新Ve_t的位置：

Ve'_t＝Ve_t+d*N'(公式22)

其中，Ve'为更新后的顶点位置，Ve_t为原始顶点位置，d为移动的距离。

Ⅵ：更新三角网格模型的每个顶点，平滑教学空间三角形面片。

(6-3)环境对象生成。依据教学环境的空间表面轮廓，采用粒子群优化算法检索对象模型库，结合阴影映射和环境遮挡，匹配与空间对象的相似度，分割表面轮廓，获取教学环境中各元素的形状和表面纹理3D模型属性，使用参数化模型拟合算法，优化、拟合生成环境对象。

(7)教学环境的动态重构。依据声音AI模型推断教学环境的类别，使用基于生成对抗网络算法调整教学环境长和宽；使用基于空间分割的八叉树算法，重划虚拟教学环境的网格；结合碰撞检测和场景约束布局算法设置网格的尺寸，放置对象和化身到对应网格，聚合虚拟环境中教学主体和教学模型。

(7-1)教学环境生成。依据声音AI模型推断教学环境的所属普通教室、会议室、实验室、图书馆、培训中心、礼堂、社区活动中心、运动场、室外活动类别，根据推断的空间轮廓，获取教学环境的长度和宽度，运用基于生成对抗网络算法调整教学环境。

(7-2)虚拟教学环境网格划分。采用基于深度图像的法向量和曲率估计算法，计算虚拟教学环境的法向量和曲率特征信息，依据特征信息，使用基于空间分割的八叉树算法，结合边坍缩、边翻转、面合并、无效面移除，简化和重划虚拟教学环境的三角形网格。基于深度图像的法向量和曲率估计算法具体步骤：

I：采用立体视觉算法获取虚拟教学环境的深度图像数据；

II：水平和竖直方向梯度计算如公式23、24所示：

其中，和/>分别表示深度图像在x和y方向上的导数。

III：使用公式25、26计算法向量的X和Y分量：

其中，N_x和N_y分别表示法向量在X和Y方向上的分量；

Ⅳ：采用公式27归一化法向量：

其中，N表示归一化后的法向量；

Ⅴ：曲率估算如公式28所示：

其中，H为Hessian矩阵，K为曲率。

(7-3)模型聚合。依据教学环境中模型对象的大小和形状，以及师生化身朝向、位置，生成环境对象和化身之间距离限制、形状约束和层级关系，结合碰撞体检测和场景约束布局算法设置师生化身和环境对象模型之间如图6所示的位置关系，聚合虚拟教学环境中教学主体和教学模型。

本实施例还提供一种基于声音AI模型的虚拟场景生成系统，用于实现上述的方法，包括多源音频数据采集模块、声音特征提取模块、声音AI模型学习模块、教学环境轮廓识别模块、师生状态识别模块、教学环境对象生成模块和教学环境动态重构模块。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进，均应包含在本发明的保护范围之内。

Claims

1.基于声音AI模型的虚拟场景生成方法，其特征在于该方法包括以下步骤：

2.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(1)所述的多源音频数据采集具体包括：

(1-1)多源音频数据捕捉，设置扬声器的频率响应、灵敏度、阻抗和回声失真性能参数，拾取师生在真实教学环境中授课、提问、问答的声音数据，采用VR终端内置麦克风录制直接音频数据，并捕捉经过教室中空气、桌椅、墙壁、门窗、地面介质反射传播的混响音频数据；

(1-2)音频信号预处理，使用时间对齐算法同步多源音频信号，采用数字滤波器均衡化处理音频信号，设置采样率和量化位数，运用模数转换算法将音频信号转换为数字信号，经过预加重、分帧、端点检查和加窗处理消除混叠、高次谐波失真、高频影响；

(1-3)音频数据编码，使用短时傅里叶变换算法，结合滑动窗口操作，将数字信号分割为音频帧，采用基于感知编码的音频压缩算法编码音频帧，并将结果保存为.ACC音频文件格式，运用固定时长切割算法将音频文件分割为数据包，采用TCP网络传输协议将数据包传输到云端服务器。

3.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(2)所述的声音特征提取具体包括：

(2-1)数字信号增强，运用声学变换处理，结合正向音高偏移、负向音高偏移、音频时间拉伸、音频时间缩短和添加白噪声操作处理直接和混响音频数字信号，将新生成的数字信号作为新音频数据源，采用时间和频率掩蔽算法优化、增强该音频数字信号；

(2-2)师生音频特征提取，使用时域卷积算法处理增强的直接音频数字信号，将输出结果拼接成时频图，先采用伽玛通滤波器组处理时频图，再使用对数变换运算处理每个滤波器组的输出结果，提取师生对话的基频、共振峰、声纹特征向量、能量、时长和韵律音频特征；

(2-3)环境特征提取，依次堆叠卷积神经网络层和线性整流函数，结合残差映射函数，构造残差神经网络层，将增强处理的混响音频输入到残差神经网络层，获得声源距离、声音方位、立体声效果和声源所在环境的特征向量，提取教学环境的特征。

4.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(3)所述的声音AI模型学习具体包括：

(3-1)声音AI模型构建，使用一维卷积神经网络层、池化层、双向循环神经网络层和随机丢失层构建CNN-BiLSTM模型，运用多头注意力机制、残差连接、归一化和一维卷积神经网络层构建FFT Block模块，依次堆叠CNN-BiLSTM模型、FFT Block模块，构造声音AI模型；

(3-2)模型参数初始化，运用敏感度分析算法计算声音AI模型中神经元之间连接的敏感度，按照从高到低的顺序排列敏感度，采用基于稀疏二值规划的随机初始化剪枝算法剔除敏感度低于阈值的神经元，依据声学AI模型中输入和输出尺寸，使用Xavier算法初始化模型中权重和阈值训练参数；

(3-3)声音AI模型训练，使用softmax交叉熵和联合函数，结合L1正则化算法，构造模型损失函数，采用自适应学习率算法作为优化器，设置学习率、批量大小、正则化参数、学习率衰减值、模糊因子、训练轮数和迭代次数模型超参数，训练声音AI模型。

5.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(4)所述的教学环境轮廓识别具体包括：

(4-1)教学环境声音特征提取，当师生佩戴VR或AR头显在教学环境中移动和查看教学资源时，设备上的麦克风阵列将采集环境中师生交谈的声音或经过环境中对象反弹回的混响声音信号，使用已训练的声音AI模型，提取混响信号中教学环境声音特征；

(4-2)教学环境边缘检测，使用短时自相关能量算法计算混响信号特征的短时能量向量，采用EDTER模型，设置教学环境中不同纹理、颜色、材质属性对声音反射影响系数，输入短时能量向量，生成教学环境的外观、纹理、深度和运动信息的边缘特征向量；

(4-3)环境轮廓特征提取，依次使用EfficientNet、ShuffleNet和Wide-ResNet神经网络层，从教学环境的外观、纹理、深度和运动信息的边缘特征向量，提取教学环境外轮廓与内部轮廓形状、轮廓长度、轮廓面积、轮廓分支数、轮廓方向、轮廓凸度和轮廓分形维度的特征。

6.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(5)所述的师生状态识别具体包括：

(5-1)师生声纹特征提取，依次堆叠已训练的声音AI模型、嵌入声纹特征孪生残差网络，重构声音AI模型，输入教学环境中师生音频特征，获取师生对话的语音纹理、音色特征、说话习惯和语音节奏的声纹特征，提取教学环境中师生的声纹特征；

(5-2)师生音频分割，判断声纹库中是否已存在师生的声纹，使用i-vector算法匹配，若不存在，则将该声纹加入到声纹库，采用短时幅度差特征检测算法，获取声纹特征的突变点和变化率，识别声音分割边界，沿边界分割直接音频信号，关联、标记师生身份ID；

(5-3)空间信息提取，使用时空网络处理已分割的直接音频信号，输出各位师生的空间特征向量，采用基于交叉相关法的定位算法判定特征向量，结合时间差、振幅差和频谱特征参数，提取师生相对于麦克风的朝向、距离和位置空间信息。

7.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(6)所述的教学环境对象生成具体包括：

(6-1)师生化身生成，依据识别的师生身份ID，关联学校教务管理系统中的师生证件照以及性别、身高、体重信息，采用基于Pixel2Mesh的三维重建算法，实现基于图像的人体3D模型生成，运用基于LOD的多边形优化算法平滑模型细节，压缩师生化身模型的表面面片；

(6-2)空间轮廓生成，设置轮廓点密度和分布，根据步骤(4)中提取的教学环境轮廓特征，使用Catmull-Rom插值算法加密生成轮廓点，运用约束Delaunay三角剖分算法构建轮廓点的三角形网格，采用贪婪投影的三角化算法，平滑教学空间的表面轮廓；

(6-3)环境对象生成，依据教学环境的空间表面轮廓，采用粒子群优化算法检索对象模型库，结合阴影映射和环境遮挡，匹配与空间对象的相似度，分割表面轮廓，获取教学环境中各元素的形状和表面纹理3D模型属性，使用参数化模型拟合算法，优化、拟合生成环境对象。

8.根据权利要求1所述的基于声音AI模型的虚拟场景生成方法，其特征在于步骤(7)所述的教学环境动态重构具体包括：

(7-1)教学环境生成，依据声音AI模型推断教学环境的所属普通教室、会议室、实验室、图书馆、培训中心、礼堂、社区活动中心、运动场、室外活动类别，根据推断的空间轮廓，获取教学环境的长度和宽度，运用基于生成对抗网络算法调整教学环境；

(7-2)虚拟教学环境网格划分，采用基于深度图像的法向量和曲率估计算法，计算虚拟教学环境的法向量和曲率特征信息，依据特征信息，使用基于空间分割的八叉树算法，结合边坍缩、边翻转、面合并、无效面移除，简化和重划虚拟教学环境的三角形网格；

(7-3)模型聚合，依据教学环境中模型对象的大小和形状，以及师生化身朝向、位置，生成环境对象和化身之间距离限制、形状约束和层级关系，结合碰撞体检测和场景约束布局算法设置师生化身和环境对象模型之间的位置关系，聚合虚拟教学环境中教学主体和教学模型。

9.基于声音AI模型的虚拟场景生成系统，其特征在于，用于实现权利要求1～8任一项中所述的方法，包括：多源音频数据采集模块、声音特征提取模块、声音AI模型学习模块、教学环境轮廓识别模块、师生状态识别模块、教学环境对象生成模块和教学环境动态重构模块；

所述多源音频数据采集模块，用于录制师生授课、提问、问答的直接音频数据，捕捉经过介质反射传播的混响音频数据，将音频信号转换为数字信号，采用音频压缩算法编码音频帧；

所述声音特征提取模块，用于增强音频信号，使用对数变换运算处理滤波器组输出的结果并提取师生音频特征，运用残差神经网络层提取环境特征向量；

所述声音AI模型学习模块，用于堆叠CNN-BiLSTM和FFTBlock模块，构造声音AI模型，剔除敏感度低的神经元，采用Xavier算法初始化训练参数，设置模型超参数，训练声音AI模型；

所述教学环境轮廓识别模块，用于使用声音AI模型提取混响信号特征，采用EDTER算法生成环境边缘特征向量，使用神经网络层提取教学环境轮廓的特征；

所述师生状态识别模块，用于提取教学环境中师生交流的声纹特征，获取声纹的突变点和变化率，分割直接音频信号，采用定位算法推断师生声源的空间信息；

所述教学环境对象生成模块，用于生成图像的人体3D模型，运用约束Deluanay三角网平滑教学空间的轮廓，依据最优参数组合，生成环境对象；