CN112672090B

CN112672090B - 一种云视频会议中优化音视频效果的方法

Info

Publication number: CN112672090B
Application number: CN202011495518.9A
Authority: CN
Inventors: 胡鹏; 刘清; 冯文澜
Original assignee: Shenzhen Suirui Audio Visual Technology Co ltd; Suirui Technology Group Co Ltd
Current assignee: Shenzhen Suirui Audio Visual Technology Co ltd; Suirui Technology Group Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-04-18
Anticipated expiration: 2040-12-17
Also published as: CN112672090A

Abstract

本发明提供了一种云视频会议中优化音视频效果的方法，包括：对存储在云端的视频数据进行解码并从中截取待处理的视频帧，视频数据为采集本地端对参会人员进行拍摄上传至云端获得；在采集本地端网络波动状况下，通过获取参会人员各自所属的行为轨迹预测以及根据行为轨迹预测提前准备的静态图像和虚拟场景，以静态图像和虚拟场景的结合替换视频帧，进行视频会议中网络波动的视频自动补帧；在采集本地端网络波动状况下，将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端，通过字幕和智能音频替换音频数据，进行视频会议中网络波动的音频效果的修复；实现网络波动中音视频数据的自动优化。

Description

一种云视频会议中优化音视频效果的方法

技术领域

本发明涉及网络多媒体技术领域，具体而言，涉及一种云视频会议中优化音视频效果的方法。

背景技术

随着计算机硬件和网络技术的高速发展，传统的通讯方式如电话、传真等已无法满足人们深层次的交流需求，近年来以声音和视频作为主要传输对象的多媒体通信成为当今通信领域研究的热点。视频会议系统作为一种现代化的办公系统，它可以将不同会场的实时场景和语音互连起来，使各与会者有“面对面”交谈的感觉。伴随着通信技术的进一步提升，高质量的多媒体视频会议也成为一种发展趋势，被越来越多的人们所需求。

然而，音视频通讯中依然存在很多技术问题影响与会者们的实际沟通效果，例如，视频会议在遇到网络波动时，往往会遇到以下难题：画面卡顿、局部马赛克；动态掉帧、聚焦不清晰；声音模糊、唇音不同步；人物移动卡图、且延迟过高等。因此，有待继续研发在网络波动的情况下，优化音视频效果。

申请内容

本发明旨在克服现有技术的不足，针对视频会议中遇到网络波动时发生画面卡顿、局部马赛克；动态掉帧、聚焦不清晰；声音模糊、唇音不同步；人物移动卡图、且延迟过高等难题；本方法在视频会议中，根据网络波动状况的优良选择合适的音视频数据发送策略，解决了视频会议在网络波动情况下音视频效果的自动优化问题。

本发明的实施例通过以下技术方案实现：

一种云视频会议中优化音视频效果的方法，包括如下步骤：

步骤一，对存储在云端的视频数据进行解码并从中截取待处理的视频帧，所述视频数据为采集本地端对参会人员进行拍摄上传至云端获得；

步骤二，在采集本地端网络波动状况下，通过获取参会人员各自所属的行为轨迹预测以及根据所述行为轨迹预测提前准备的静态图像和虚拟场景，以静态图像和虚拟场景的结合替换所述视频帧，进行视频会议中网络波动的视频自动补帧；

步骤三，在采集本地端网络波动状况下，将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端，通过字幕和智能音频替换所述音频数据，进行视频会议中网络波动的音频效果的修复。

根据一种优选实施方式,获取参会人员各自所属的行为轨迹预测包括如下步骤：

将所述待处理的视频帧输入人脸朝向识别模型，所述人脸朝向识别模型用于对所述待处理的视频帧进行人脸特征提取，得到参会人员中关键人员的面部朝向信息，

将面部朝向信息输入行为轨迹预判模型，所述行为轨迹预判模型基于云计算和所述面部朝向信息做出行为轨迹的预判，获取关键人员的行为轨迹预判结果，所述行为轨迹预判模型是以携带动作编号的动态轨迹图像为训练样本对第一基础模型进行训练得到的。

根据一种优选实施方式,音频数据翻译成字幕以及生成智能音频包括如下步骤：

将所述音频数据输入数字音频模型，所述数字音频模型用于对所述音频数据进行声纹和音量大小提取，得到音频数据中的声纹编号和音量大小数据编号；

所述数字音频模型是以携带声纹编号和音量大小数据编号的音频样本为训练样本，对第三基础模型进行训练得到的；

所述字幕是通过声纹编号获得，所述智能音频是通过机械发声模块根据所述字幕、所述声纹和音量大小生成。

根据一种优选实施方式,所述步骤二包括：

在采集本地端网络波动状况下，将行为轨迹预判结果输入场景模拟模型，所述场景模拟模型用于根据所述行为轨迹预判结果，提前准备静态画面和提前处理环境模拟；

通过所述场景模拟模型对视频帧进行静态画面替换以及虚拟场景的导入，进行视频会议中网络波动的视频自动补帧；所述场景模拟模型是以携带场景编号的多个场景图像样本为训练样本，对第二基础模型进行训练得到的。

根据一种优选实施方式,所述步骤二进一步包括：

在采集本地端网络状况较佳情况下，采集本地端上传高于当前清晰度的视频数据至云端。

根据一种优选实施方式,所述步骤三包括：

在采集本地端网络波动状况下，数字音频模型识别由拾音麦克风采集到的音频数据，生成字幕，以及获取音频数据中的声纹编号和音量大小数据编号，生成智能音频；

采集本地端将字幕以及智能音频上传至云端，通过字幕和智能音频替换所述音频数据，进行视频会议中网络波动的音频效果的修复。

根据一种优选实施方式,所述步骤三进一步包括：

在采集本地端网络状况较佳情况下，采集本地端上传高于当前清晰度的音频数据至云端。

根据一种优选实施方式,所述场景模拟模型通过以下步骤得到：

通过摄像头捕捉面对会议终端的多个关键点，在网络状况良好时将由关键点组成的场景和图像上传至云端；

所述关键点包括但不限于会议桌左侧位第一关键点、会议桌正对位第二关键点、会议桌右侧位第三关键点、会议桌左后方第四关键点、会议桌右后方第五关键点以及会议桌正对位背景第六关键点；

通过云计算对多个所述关键点进行场景编号，获取场景图像样本；以携带场景编号的多个场景图像样本为训练样本，对所述第二基础模型进行训练，得到场景模拟模型。

根据一种优选实施方式,所述行为轨迹预判模型通过以下步骤得到：

通过摄像头捕捉参会人员在多个所述关键点移动的动态轨迹图像以及移动前参会人员的面部朝向信息，在网络状况良好时将动态轨迹图像以及面部朝向信息上传至云端；

所述动态轨迹图像包括但不限于参会人员A行动到第一关键点、第二关键点、第三关键点、第四关键点、第五关键点以及第六关键点，然后返回第一关键点的一个行为轨迹过程；

采用相同方法捕捉参会人员B、参会人员C、参会人员D、参会人员E以及参会人员F对应的动态轨迹图像和移动前对应的面部朝向信息；

通过云计算对所述面部朝向信息进行动作编号，以携带动作编号的动态轨迹图像样本为训练样本，对所述第一基础模型进行训练，得到行为轨迹预判模型。

根据一种优选实施方式,所述数字音频模型通过以下步骤得到：

通过拾音麦克风捕捉参会人员在多个所述关键点的音频数据，在网络状况良好时将音频数据上传至云端；通过云计算处理参会人员在不同所述关键点上传的音频数据，进行声纹编号和音量大小数据编号，

以携带声纹编号和音量大小数据编号的音频样本为训练样本，对所述第三基础模型进行训练，得到数字音频模型。

本发明实施例的技术方案至少具有如下优点和有益效果：本发明在视频会议网络波动下，通过场景模拟模型和行为轨迹预判模型预判参会人员的行为轨迹，提前准备场景，对有卡图和马赛克等现象的地方进行静态画面补帧以及虚拟场景的导入，使得远端用户在肉眼上看不出卡顿画面和迷糊的现象出现，实现较好的视频数据补帧及效果优化；本发明通过数字语音模型，云端调用声纹编号，远端用智能音频和字幕播放，即便是网络恶劣的情况下，只要不是断网，只是几个字节的传输，远远小于音频数据的传输耗费，且通过声纹处理和字幕，体验效果大大提升；且智能音频根据音量大小和声纹生成，结合虚拟场景，能够实现真实会场场景的模拟，实现网络波动中音视频数据的自动优化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例1的云视频会议中优化音视频效果的方法步骤流程图；

图2为本发明实施例1的获取行为轨迹预测的步骤流程图；

图3为本发明实施例1的生成字幕及智能音频的步骤流程图；

图4为本发明实施例1的视频数据自动优化的步骤流程图；

图5为本发明实施例1的采集本地端获取网络波动状况的示意图；

图6为本发明实施例1的采集视频数据点位示意图；

图7为本发明实施例1的采集音频数据的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

在网络多媒体技术领域，视频会议得到大规模的应用；且如今音视频采集技术以及音视频编解码技术较为成熟，但是视频会议中遇到网络波动时，还是会出现画面卡顿、局部马赛克；动态掉帧、聚焦不清晰；声音模糊、唇音不同步；人物移动卡图、且延迟过高等影响音视频效果的现象。

实际中，通常需要对音视频进行优化，以达到最佳通讯效果。相关技术中，一般由技术人员或软件对视频会议的音视频流进行视频帧采集、音频帧采集，检测音视频效果，从而对音视频进行优化；但是，通过这种方式会耗费大量的人力资源以及花费大量的时间，最终实现的优化结果也不尽人意，用户在使用过程中会看到明显卡顿画面和模糊的现象出现。因此，需要视频会议能够实现自动优化音视频的功能。

有鉴于此，本实施例中提出了本发明的核心构思：利用云计算的大数据处理能力，通过对视频会议的云端存储和大数据进行分析，通过将网络状态良好时捕捉的音视频数据建立数据模型，在网络波动时将云端存储数据和本地当前数据相结合。

参阅图1所示，本实施例提供一种云视频会议中优化音视频效果的方法，包括如下步骤：

通过采集本地端采集会议室的音视频数据，进一步的，本实施例中的采集本地端可以为音视频会议终端T1，且在本实施例中，采集本地端在网络状况优时，将采集的音视频数据上传至云端，在网络状况差时，在采集本地端存储音频数据，视频数据上传至云端进行优化处理。

参阅图5所示，实际中，音视频会议终端T1可以从统计信息模块获取音频或视频的网络传输状况；当然，也可以将网络传输状况信息发送至云端。

在本实施例中，当获取的采集本地端网络状况为优时，即可以判断为视频会议中的音视频数据效果较佳；此时，为了进一步优化音视频效果，采集本地端向远端发送高于当前清晰度的音视频数据，从而提高用户使用体验。当然，实际使用中，可能需要结合接收终端的网络情况和整体网络情况进行发送端的清晰度调整。

在本实施例中，当采集到的采集本地端网络状况为差时，即表明视频会议中的音视频数据可能会出现画面卡顿、局部马赛克；动态掉帧、聚焦不清晰；声音模糊、唇音不同步；人物移动卡图、且延迟过高等现象；此时，有必要对音视频数据传输效果进行优化处理。

进一步的，对视频数据效果优化处理包括：首先，从云端获取采集本地端上传的视频数据，从视频数据中截取视频帧；其次，对截取的视频帧进行人脸朝向识别，获取人脸朝向识别结果；进一步的，根据人脸朝向识别结果获取对应参会人员的行为轨迹预测，从而根据行为轨迹预测结果提前准备静态画面和虚拟场景，其中，静态画面和虚拟场景均为采集本地端网络状况优时上传至云端的数据，以此保证数据的质量；最后，通过云计算静态画面和虚拟场景替换视频帧，可以理解的是，通过该种补帧方式，不仅能够实现高效率的自动补帧，还能够提供较好的补帧效果；在实际运用过程中，采用该种补帧方式以及虚拟场景的导入进行视频数据效果优化，效果表明远端用户在肉眼上看不出卡顿画面和模糊的现象出现，实现了较好的优化效果。

对于音频数据效果优化处理包括：首先，采集本地端通过拾音麦克风采集音频数据，从音频数据中截取音频帧；其次，对音频帧进行声纹识别，获取声纹识别结果；进一步的，采集本地端根据声纹识别结果生成字幕以及智能音频；可选的，在网络状况足以支持音频数据上传至云端时，字幕以及智能音频还可以是通过云计算实时生成智能音频，以此提高字幕以及智能音频获取速度；可选的，本实施例中采用采集本地端生成的字幕以及智能音频的方式，将更小字节的智能音频及字幕代替音频数据上传至云端，避免网络状况差时，云端无法获取完整的音频数据的现象，实现更高效快速的音频数据优化；最后，云端通过字幕和智能音频替换音频数据发送至远端；可以理解的是，通过该种音频数据效果优化方式，将网络状况差时声音模糊或唇音不同步的音频数据通过字幕以及智能音频进行播放，即便是在网络状况恶劣的情况下，只要不是断网，只是几个字节的传输，远远小于音频数据的传输耗费，且通过声纹处理的智能音频和字幕，远端的体验效果获得了巨大提升。

参阅图2所示，示出了由云端执行人脸朝向识别，根据所述人脸朝向识别结果获取行为轨迹预测的步骤流程图，具体可以包括以下步骤：

具体的，将待处理的视频帧输入人脸朝向识别模型，人脸朝向识别模型用于对待处理的视频帧进行特征提取，得到参会人员中关键人员的面部朝向信息，实际中，关键人员即当前讲话人，在本实施例中，采集本地端可自动进行关键人员的画面及音频捕捉；其中，待识别的视频帧由音视频会议终端采集T1，该视频帧可以是对一个会场进行拍摄所得到的的图像，进而该视频帧中包括该会场中部分参会人员乃至于所有参会人员的人脸图像、面部朝向等；当然，该视频帧中还可以包括会场图像。

进一步的，将面部朝向信息输入行为轨迹预判模型；实际中，参会人员的面部朝向信息能够作为参会人员后续行为的预判依据；即，获取参会人员的面部朝向，即能够根据该面部朝向信息，从对应该参会人员的行为轨迹数据库中进行数据筛选，提高行为轨迹预判的准确率，以使得能够减少提前准备静态画面和虚拟场景的工作量，提高运算速度；进一步的，行为轨迹预判模型基于云计算和面部朝向信息做出行为轨迹的预判，获取关键人员的行为轨迹预判结果，行为轨迹预判模型是以携带动作编号的动态轨迹图像为训练样本对第一基础模型进行训练得到的。

参阅图3所示，示出了由数字音频模型执行声纹识别，根据所述声纹的识别结果生成字幕及智能音频的步骤流程图，具体可以包括以下步骤：

具体的，将待识别的音频帧输入数字音频模型，数字音频模型用于对待识别的音频帧进行声纹和音量大小提取，得到待识别的音频帧中的声纹编号和音量大小数据编号；在实际中，音频帧为采集本地端的拾音麦克风采集参会人员在不同位置的音频数据截取获得，以此采集到的音频数据包括不同音量大小信息；进一步的，数字音频模型是以携带声纹编号和音量大小数据编号的音频样本为训练样本，对第三基础模型进行训练得到的；

进一步的，字幕是通过音频数据翻译获得，智能音频是根据字幕、声纹和音量大小生成；可以理解的是，通过进行声纹和音量大小提取，即可通过数字音频模型进行声纹模拟以及音量大小模拟，以此输出对应声纹和音量大小的智能音频，模拟参会人员的真实音频数据，提供较高质量且占用传输耗费较小的字幕以及智能音频输出至远端，实现网络波动状况下的音频数据效果优化；其中，智能音频和字幕的生成方式为较为成熟的技术，本实施例再此不做过多赘述。

参阅图4所示，示出了由云计算执行视频数据效果自动补帧的步骤流程图，具体可以包括以下步骤：

具体的，获取采集本地端的网络波动状况，判断采集本地端是否发生网络波动，若是，将行为轨迹预判结果输入场景模拟模型，场景模拟模型用于根据行为轨迹预判结果，提前准备静态画面和提前处理环境模拟。

进一步的，通过场景模拟模型对视频帧进行静态画面替换以及虚拟场景的导入，通过静态画面和虚拟场景替换该视频帧进行视频会议中网络波动的视频自动补帧；其中，场景模拟模型是以携带场景编号的多个场景图像样本为训练样本，对第二基础模型进行训练得到的；若否，视频数据可以在网络状况优时专注于1080P和4K往上提升，向远端发送高于当前清晰度的视频数据，提升远端参会人员的视频会议感官体验。

具体的，云计算执行音频数据效果优化可以包括以下步骤：获取采集本地端的网络波动状况，判断采集本地端是否发生网络波动；若是，数字音频模型获取声纹编号并生成字幕以及根据声纹编号和音量大小数据编号生成对应的智能音频；通过智能音频和字幕替换音频数据在远端播放，进行视频会议中网络波动的音频效果的修复；若否，采集本地端上传更高清晰度的音频数据至云端。可选的，在采集本地端网络状况较差，且无法将音频数据上传至云端时，采集本地端可以通过将拾音麦克风采集的音频数据在本地进行翻译以及智能音频生成，再将字幕以及智能音频上传至云端。

在本实施例中，场景模拟模型可以通过以下步骤获得：首先，通过摄像头捕捉面对会议终端的多个关键点，在本实施例中，音视频会议终端T1提供90°广角镜头，以此采集本地端能够采集到的部分参会人员乃至于全部参会人员及场景的图像；优选的，在网络状况优时将由关键点组成的场景和图像上传至云端，在网络状况差时，由关键点组成的场景和图像存储在采集本地端；

参阅图6所示，在本实施例中，第一、第二、第三、第四.........第N等关键点分别为面对采集本地端的会场会议桌对应的位置，图6中以阿拉伯数字1至6代表第一、第二、第三、第四.........第6关键点示出，本实施例共计择取六个能够包含较大空间范围的关键点，分别为会议桌左侧位第一关键点、会议桌正对位第二关键点、会议桌右侧位第三关键点、会议桌左后方第四关键点、会议桌右后方第五关键点以及会议桌正对位背景第六关键点；

进一步的，本实施例通过云计算对多个关键点进行场景编号，获取场景图像样本；以携带场景编号的多个场景图像样本为训练样本，对第二基础模型进行训练，得到场景模拟模型；实际中，将行为轨迹预判结果输入场景模拟模型，由于行为轨迹预判结果包含场景信息，由此场景模拟模型能够根据行为轨迹预判结果提前准备对应场景信息的静态图像以及虚拟场景；在本实施例中，为了进一步提升视频数据优化效果，场景模拟模型还提供自动调节光线影响；以使得在网络波状况下，通过场景模拟模型进行虚拟场景导入，使得替换的视频帧能够提供真实会场的模拟场景。

在本实施例中，行为轨迹预判模型可以通过以下步骤获得：首先，通过摄像头捕捉参会人员在多个关键点移动的动态轨迹图像以及移动前参会人员的面部朝向信息，在网络状况优时将动态轨迹图像以及面部朝向信息上传至云端，在网络状况差时将动态轨迹图像以及面部朝向信息存储在采集本地端；

参阅图7所示，在本实施例中，基于上述六个能够包含较大空间范围的关键点，本实施例例举六个参会人员进行举例说明，图7中以英文A至F代表参会人员A、参会人员B、参会人员C、参会人员D、参会人员E以及参会人员F示出；本实施例的动态轨迹图像包括参会人员A行动到第一关键点、第二关键点、第三关键点、第四关键点、第五关键点以及第六关键点，然后返回第一关键点的一个行为轨迹过程，过程数据在网络状况优时上传至云端，在网络状况差时存储在采集本地端；

参会人员B行动到第一关键点、第二关键点、第三关键点、第四关键点、第五关键点以及第六关键点，然后返回第一关键点的一个行为轨迹过程，过程数据在网络状况优时上传至云端，在网络状况差时存储在采集本地端；

进一步的，采用相同方法捕捉参会人员A、参会人员B、参会人员C、参会人员D、参会人员E以及参会人员F对应的动态轨迹图像和移动前对应的面部朝向信息；

最终，将择取的六个关键点以及六个参会人员进行排列组合，计算获得参会人员A有720种行为轨迹，参会人员B有720种行为轨迹....参会人员F也有720种行为轨迹，那么共计得到720*6种动态轨迹图像；

进一步的，通过云计算对面部朝向信息进行动作编号，以携带动作编号的动态轨迹图像为训练样本，对第一基础模型进行训练，得到行为轨迹预判模型。

在实际中，行为轨迹预判模型即能够基于输入的面部朝向信息获得参会人员的面部朝向是要做出何种行为；例如，参会人员A的面部朝向为朝向会议桌右侧位第三关键点是要从第一关键点经由第二关键点到第三关键点，还是经由第六关键点、第五关键点、第四关键点至第三关键点等等，行为轨迹预判模型输出行为轨迹预判结果，场景模拟模型即可通过行为轨迹预判结果提前准备对应行为轨迹预判街过的静态图像以及虚拟场景，其中，静态图像包括参会人员A行为轨迹过程的图像；可以理解的是，当网络波动时，获取的视频帧为参会人员A面部朝向为朝向会议桌右侧位第三关键点，那么场景模拟模型即可提前准备从第一关键点经由第二关键点到第三关键点，经由第六关键点、第五关键点、第四关键点至第三关键点等等的静态图像，可选的，静态图像包含会场背景、会议桌图像以及参会人员A行为图像，以此能够实现真实的模拟场景；在实际中，将虚拟场景导入进行补帧，远端接收到的视频数据无限趋近于真实场景，且远端用户在肉眼上看不出卡顿画面和模糊的现象出现。

在本实施例中，数字音频模型可以通过以下步骤获得：首先，通过拾音麦克风捕捉参会人员在多个关键点的音频信息，在本实施例中，根据上述例举的参会人员A至参会人员F，以及第一关键点至第六关键点，拾音麦克风捕捉参会人员A至参会人员F在第一关键点至第六关键点各自的音频数据，该音频数据包括参会人员的声纹特征和音量大小，在网络状况优时音频数据上传至云端，在网络状况差时音频数据记忆存储在采集本地端；

进一步的，通过云计算处理参会人员在不同关键点上传的音频信息，进行声纹编号和音量大小数据编号，以携带声纹编号和音量大小数据编号的音频样本为训练样本，对第三基础模型进行训练，得到数字音频模型。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种云视频会议中优化音视频效果的方法，其特征在于,包括如下步骤：

步骤二，在采集本地端网络波动状况下，通过获取参会人员各自所属的行为轨迹预测以及根据所述行为轨迹预测提前准备的静态图像和虚拟场景，以静态图像和虚拟场景的结合替换所述视频帧，进行视频会议中网络波动的视频自动补帧，其中，所述静态图像包括参会人员行为轨迹过程的图像；

步骤三，在采集本地端网络波动状况下，将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端，通过字幕和智能音频替换所述音频数据，进行视频会议中网络波动的音频效果的修复；

获取参会人员各自所属的行为轨迹预测包括如下步骤：

2.如权利要求1所述的云视频会议中优化音视频效果的方法，其特征在于,

音频数据翻译成字幕以及生成智能音频包括如下步骤：

3.如权利要求2所述的云视频会议中优化音视频效果的方法，其特征在于,

所述步骤二包括：

4.如权利要求3所述的云视频会议中优化音视频效果的方法，其特征在于,

所述步骤二进一步包括：

5.如权利要求2所述的云视频会议中优化音视频效果的方法，其特征在于,

所述步骤三包括：

6.如权利要求5所述的云视频会议中优化音视频效果的方法，其特征在于,

所述步骤三进一步包括：

7.如权利要求3所述的云视频会议中优化音视频效果的方法，其特征在于,

所述场景模拟模型通过以下步骤得到：

所述关键点包括会议桌左侧位第一关键点、会议桌正对位第二关键点、会议桌右侧位第三关键点、会议桌左后方第四关键点、会议桌右后方第五关键点以及会议桌正对位背景第六关键点；

8.如权利要求7所述的云视频会议中优化音视频效果的方法，其特征在于,

所述行为轨迹预判模型通过以下步骤得到：

所述动态轨迹图像包括参会人员A行动到第一关键点、第二关键点、第三关键点、第四关键点、第五关键点以及第六关键点，然后返回第一关键点的一个行为轨迹过程；

通过云计算对所述面部朝向信息进行动作编号，以携带动作编号的动态轨迹图像为训练样本，对所述第一基础模型进行训练，得到行为轨迹预判模型。

9.如权利要求7所述的云视频会议中优化音视频效果的方法，其特征在于,

所述数字音频模型通过以下步骤得到：