CN118283218A

CN118283218A - 用于实时会话的音视频重建方法及装置、电子设备

Info

Publication number: CN118283218A
Application number: CN202410443441.2A
Authority: CN
Inventors: 徐雪; 江文乐
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Filing date: 2024-04-12
Publication date: 2024-07-02

Abstract

本发明公开了一种用于实时会话的音视频重建方法及装置、电子设备，涉及人工智能技术领域或其他相关领域，其中，该方法包括：获取目标会话的实时会话数据，至少包括：原始音频数据和原始视频数据；使用光流提取模型对原始视频数据进行信息提取，得到光流信息；依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据；依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。本发明解决了相关技术中提升音视频实时通话质量过程中由于逐帧处理不够流畅导致处理速度较慢的技术问题。

Description

用于实时会话的音视频重建方法及装置、电子设备

技术领域

本发明涉及人工智能技术领域或其他相关领域，具体而言，涉及一种用于实时会话的音视频重建方法及装置、电子设备。

背景技术

音视频通话常被用于在线会议、双录质检、远程面审等应用场景，通话质量便极为重要。

相关技术中，在音频方面，通常使用Encoder-LSTM-Decoder的一维卷积神经网络进行噪声抑制、人声增益等操作，在视频方面，通常采用递归或者滑动窗口的CNN重建视频，在图像真实性方面经常使用GAN网络(生成对抗网络)提升感知质量，有时会结合双向处理，即先退化，再超分的方式，提升感知质量，视频帧方面也有逐级进行处理，一层层通过判别器和生成器进行处理。

但是，目前的音视频通话质量提升技术对于GAN的使用都是简单的用来进行感知质量提升，做一个简单的零和博弈训练，不能充分挖掘判别器作用；使用cnn的网络不能捕获全局信息，使用transformer的网络对于资源的消耗非常大，在实际使用中相对不理想，而且训练也比较慢；逐帧逐级处理的方法速度不太理想，而且对于跨帧信息提取不到位，容易逐渐偏离锚定信息。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种用于实时会话的音视频重建方法及装置、电子设备，以至少解决相关技术中提升音视频实时通话质量过程中由于逐帧处理不够流畅导致处理速度较慢的技术问题。

根据本发明实施例的一个方面，提供了一种用于实时会话的音视频重建方法，包括：获取目标会话的实时会话数据，其中，所述实时会话数据至少包括：原始音频数据和原始视频数据；使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息，其中，所述光流信息是指所述原始视频数据中的运动物体在连续视频帧之间的运动信息；依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据，其中，所述音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，所述瑕疵处理层用于消除音视频重建过程中产生的伪影；依据实时会话需求对所述目标音视频数据进行格式转换，并将格式转换后的所述目标音视频数据存储至会话数据库。

可选地，在获取所述目标会话的实时会话数据之后，还包括：对所述原始音频数据和所述原始视频数据进行数据清洗；按照预设抽取策略对数据清洗后的所述原始视频数据进行视频帧抽取，得到目标视频帧组；在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；基于所述抽取率计算间隔时长，并依据所述间隔时长对所述原始音频数据进行切片，得到音频片段集合，其中，所述音频片段集合中的每个音频片段对应所述目标视频帧组中的一个视频帧。

可选地，使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息的步骤，包括：将所述原始视频数据对应的所述目标视频帧组输入至所述光流提取模型，其中，所述目标视频帧组中的所有所述视频帧按照所述抽取顺序排列；对于所述目标视频帧组中的每组相邻帧，使用所述光流提取模型对所述相邻帧进行像素亮度分析，得到像素亮度分析结果；基于所述目标视频帧组中所有所述相邻帧的所述像素亮度分析结果，计算所述原始视频数据中每个像素点的运动方向和运动速度；基于所有所述像素点的所述运动方向和所述运动速度生成所述光流信息。

可选地，依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据的步骤，包括：获取所述实时会话数据对应的所述目标视频帧组和所述音频片段集合；通过所述特征分析层对所述目标视频帧组和所述音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合，其中，所述视频帧特征集合中的视频帧特征与所述音频片段特征集合中的音频片段特征一一对应；使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合；依据所述光流信息对所述伪重建视频帧特征集合和所述音频片段特征集合进行音视频融合重建，得到所述目标音视频数据。

可选地，通过所述特征分析层对所述目标视频帧组进行特征分析，得到视频帧特征集合的步骤，包括：对于所述目标视频帧组中的每个所述视频帧，使用卷积算法提取所述视频帧的局部视频特征；对于所述目标视频帧组中的所有所述视频帧，使用全局提取算法提取该目标视频帧组的全局视频信息；基于所述局部视频特征和所述全局视频信息生成每个所述视频帧的所述视频帧特征；整合所有所述视频帧的所述视频帧特征，得到所述视频帧特征集合。

可选地，通过所述特征分析层对所述音频片段集合进行特征分析，得到音频片段特征集合的步骤，包括：对于所述音频片段集合中的每个所述音频片段，使用卷积算法提取所述音频片段的局部音频特征；对于所述音频片段集合中的所有所述音频片段，使用全局提取算法提取该音频片段集合的全局音频信息；基于所述局部音频特征和所述全局音频信息生成每个所述音频片段的所述音频片段特征；整合所有所述音频片段的所述音频片段特征，得到所述音频片段特征集合。

可选地，使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合的步骤，包括：使用所述瑕疵处理层中的瑕疵判别器对所述视频帧特征集合中的所述视频帧特征逐一进行判别，得到判别结果，其中，所述判别结果用于指示所述视频帧特征中是否存在伪影；对于每个所述视频帧特征，在所述判别结果指示该视频帧特征中存在伪影的情况下，将该视频帧特征确定为所述瑕疵特征；对于所述视频帧特征集合中的每个所述瑕疵特征，基于所述目标视频帧组中与该瑕疵特征对应的所述目标视频帧对该瑕疵特征进行瑕疵修复，得到所述伪重建视频帧特征集合。

可选地，所述音视频重建模型包括：输入层，用于接收所述实时会话数据和所述光流信息，并将所述实时会话数据传输至所述特征分析层，将所述光流信息传输至所述数据重建层；所述特征分析层，用于对所述实时会话数据对应的目标视频帧组和音频片段集合进行特征分析，得到视频帧特征集合和音频片段特征集合，并将所述视频帧特征集合传输至瑕疵处理层；所述瑕疵处理层，用于使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合，并将所述伪重建视频帧特征集合传输至所述数据重建层；所述数据重建层，用于依据所述光流信息对所述伪重建视频帧特征集合和所述音频片段特征集合进行音视频融合重建，得到重建后的所述目标音视频数据，并将所述目标音视频数据传输至输出层；所述输出层，用于输出所述目标音视频数据。

可选地，所述音视频重建模型是通过如下步骤得到的：获取模型训练样本，其中，所述模型训练样本包括未经实时会话系统传输的第一音视频数据，以及所述第一音视频数据对应的经过所述实时会话系统传输的第二音视频数据；将所述第一音视频数据作为模型训练标签预先置入初始音视频重建模型；将所述第二音视频数据输入至所述初始音视频重建模型，输出模型重建音视频数据；依据所述第一音视频数据和所述模型重建音视频数据评估所述初始音视频重建模型的重建准确度；在所述重建准确度小于预设准确度阈值的情况下，调整所述初始音视频重建模型的模型参数；在所述重建准确度大于等于预设准确度阈值的情况下，得到所述音视频重建模型。

根据本发明实施例的另一方面，还提供了一种用于实时会话的音视频重建装置，包括：获取单元，用于获取目标会话的实时会话数据，其中，所述实时会话数据至少包括：原始音频数据和原始视频数据；提取单元，用于使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息，其中，所述光流信息是指所述原始视频数据中的运动物体在连续视频帧之间的运动信息；重建单元，用于依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据，其中，所述音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，所述瑕疵处理层用于消除音视频重建过程中产生的伪影；转换单元，用于依据实时会话需求对所述目标音视频数据进行格式转换，并将格式转换后的所述目标音视频数据存储至会话数据库。

可选地，所述用于实时会话的音视频重建装置还包括：清洗模块，用于对所述原始音频数据和所述原始视频数据进行数据清洗；抽取模块，用于按照预设抽取策略对数据清洗后的所述原始视频数据进行视频帧抽取，得到目标视频帧组；记录模块，用于在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；切片模块，用于基于所述抽取率计算间隔时长，并依据所述间隔时长对所述原始音频数据进行切片，得到音频片段集合，其中，所述音频片段集合中的每个音频片段对应所述目标视频帧组中的一个视频帧。

可选地，所述提取单元包括：第一输入模块，用于将所述原始视频数据对应的所述目标视频帧组输入至所述光流提取模型，其中，所述目标视频帧组中的所有所述视频帧按照所述抽取顺序排列；第一分析模块，用于对于所述目标视频帧组中的每组相邻帧，使用所述光流提取模型对所述相邻帧进行像素亮度分析，得到像素亮度分析结果；计算模块，用于基于所述目标视频帧组中所有所述相邻帧的所述像素亮度分析结果，计算所述原始视频数据中每个像素点的运动方向和运动速度；生成模块，用于基于所有所述像素点的所述运动方向和所述运动速度生成所述光流信息。

可选地，所述重建单元包括：第一获取模块，用于获取所述实时会话数据对应的所述目标视频帧组和所述音频片段集合；第二分析模块，用于通过所述特征分析层对所述目标视频帧组和所述音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合，其中，所述视频帧特征集合中的视频帧特征与所述音频片段特征集合中的音频片段特征一一对应；修复模块，用于使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合；重建模块，用于依据所述光流信息对所述伪重建视频帧特征集合和所述音频片段特征集合进行音视频融合重建，得到所述目标音视频数据。

可选地，所述第二分析模块包括：第一提取子模块，用于对于所述目标视频帧组中的每个所述视频帧，使用卷积算法提取所述视频帧的局部视频特征；第二提取子模块，用于对于所述目标视频帧组中的所有所述视频帧，使用全局提取算法提取该目标视频帧组的全局视频信息；第一生成子模块，用于基于所述局部视频特征和所述全局视频信息生成每个所述视频帧的所述视频帧特征；第一整合子模块，用于整合所有所述视频帧的所述视频帧特征，得到所述视频帧特征集合。

可选地，所述第二分析模块还包括：第三提取子模块，用于对于所述音频片段集合中的每个所述音频片段，使用卷积算法提取所述音频片段的局部音频特征；第四提取子模块，用于对于所述音频片段集合中的所有所述音频片段，使用全局提取算法提取该音频片段集合的全局音频信息；第二生成子模块，用于基于所述局部音频特征和所述全局音频信息生成每个所述音频片段的所述音频片段特征；第二整合子模块，用于整合所有所述音频片段的所述音频片段特征，得到所述音频片段特征集合。

可选地，所述修复模块包括：判别子模块，用于使用所述瑕疵处理层中的瑕疵判别器对所述视频帧特征集合中的所述视频帧特征逐一进行判别，得到判别结果，其中，所述判别结果用于指示所述视频帧特征中是否存在伪影；确定子模块，用于对于每个所述视频帧特征，在所述判别结果指示该视频帧特征中存在伪影的情况下，将该视频帧特征确定为所述瑕疵特征；修复子模块，用于对于所述视频帧特征集合中的每个所述瑕疵特征，基于所述目标视频帧组中与该瑕疵特征对应的所述目标视频帧对该瑕疵特征进行瑕疵修复，得到所述伪重建视频帧特征集合。

可选地，所述用于实时会话的音视频重建装置还包括：第二获取模块，用于获取模型训练样本，其中，所述模型训练样本包括未经实时会话系统传输的第一音视频数据，以及所述第一音视频数据对应的经过所述实时会话系统传输的第二音视频数据；置入模块，用于将所述第一音视频数据作为模型训练标签预先置入初始音视频重建模型；第二输入模块，用于将所述第二音视频数据输入至所述初始音视频重建模型，输出模型重建音视频数据；评估模块，用于依据所述第一音视频数据和所述模型重建音视频数据评估所述初始音视频重建模型的重建准确度；调整模块，用于在所述重建准确度小于预设准确度阈值的情况下，调整所述初始音视频重建模型的模型参数；确定模块，用于在所述重建准确度大于等于预设准确度阈值的情况下，得到所述音视频重建模型。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的用于实时会话的音视频重建方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项所述的用于实时会话的音视频重建方法。

本发明中，提出一种用于实时会话的音视频重建方法，先获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据，再使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息，然后依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据，其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影，最后依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

本发明中，结合深度学习策略和人工智能技术，预先构建音视频重建模型，将目标会话的实时会话数据输入至音视频重建模型，利用音视频重建模型中的特征分析层、瑕疵处理层和数据重建层对实时会话数据中的原始音频数据和原始视频数据分别进行特征分析、瑕疵处理以及数据融合重建，同时，预先使用光流提取模型提取原始视频信息中运动物体的运动信息作为模型数据重建的参考数据，可以在不增加模型调用资源的情况下提升模型处理速度，并提升模型修复质量。本发明利用音视频重建模型对实时会话数据进行全局特征提取和分析，还结合逐帧光流信息捕获方法，参与模型重建，在保持视频数据流畅性的情况下，进一步提升音视频会话质量和处理速度，进而解决了相关技术中提升音视频实时通话质量过程中由于逐帧处理不够流畅导致处理速度较慢的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的用于实时会话的音视频重建方法的流程图；

图2是根据本发明实施例的一种音视频通话质量提升系统的结构示意图；

图3是根据本发明实施例的一种可选的光流信息的获取方法的流程图；

图4是根据本发明实施例的一种可选的音视频重建方法的流程图；

图5是根据本发明实施例的一种可选的用于音视频数据的格式转换方法的流程图；

图6是根据本发明实施例的一种可选的音视频重建模型的训练方法的流程图；

图7是根据本发明实施例的一种可选的基于音视频重建模型的音视频数据处理流程示意图；

图8是根据本发明实施例的一种可选的用于实时会话的音视频重建装置的示意图；

图9是根据本发明实施例的一种用于实时会话的音视频重建方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

Hyena，一个用于音频分析和音频特征提取的开源工具包。提供了一系列用于处理音频数据的工具和算法，可以用于提取音频文件中的各种特征，如梅尔频谱系数(Mel-frequency cepstral coefficients，MFCC)、音频能量、光谱质心等。也可以用于处理视频文件，具体来说，Hyena可以从视频文件中提取音频部分，并对这些音频数据进行特征提取和分析。

LiteFlowNet2，一种轻量级的光流估计算法，用于计算视频帧之间的运动信息。

需要说明的是，本发明中的用于实时会话的音视频重建方法及其装置可用于人工智能技术领域在对实时会话中的音视频数据进行质量提升的情况下，也可用于除人工智能领域之外的任何领域在对实时会话中的音视频数据进行质量提升的情况下，本发明中对用于实时会话的音视频重建方法及其装置的应用领域不做限定。

需要说明的是，本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、存储、加工、传输、提供、公开、使用和处理需要遵守相关地区的法律法规和标准，采取了必要保密措施，不违背公序良俗，并提供有相应的操作入口，供用户选择授权或者拒绝。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

本发明所涉及的信息采集(例如，用户语音、视频、文字采集)以及分析操作在执行时已经为用户提供相应的操作入口，供用户选择同意或者拒绝自动化决策结果；若用户选择拒绝，则进入专家决策流程。

本发明下述各实施例可应用于各种需要对实时会话中的音视频数据进行质量提升的系统/应用/设备中，能够实现在不增加调用资源的情况下提升音视频会话处理速度，并提升会话修复质量。本发明结合深度学习策略和人工智能技术预先构建音视频重建模型，对实时会话数据中的原始音频数据和原始视频数据进行数据融合重建。

本发明还使用原始视频信息的光流数据作为模型数据重建的参考数据。

下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例，提供了一种用于实时会话的音视频重建方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的用于实时会话的音视频重建方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据。

步骤S102，使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息。

步骤S103，依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据。

步骤S104，依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

通过上述步骤，可以先获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据，再使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息，然后依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据，其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影，最后依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

本发明实施例中，结合深度学习策略和人工智能技术，预先构建音视频重建模型，将目标会话的实时会话数据输入至音视频重建模型，利用音视频重建模型中的特征分析层、瑕疵处理层和数据重建层对实时会话数据中的原始音频数据和原始视频数据分别进行特征分析、瑕疵处理以及数据融合重建，同时，预先使用光流提取模型提取原始视频信息中运动物体的运动信息作为模型数据重建的参考数据，可以在不增加模型调用资源的情况下提升模型处理速度，并提升模型修复质量。本发明利用音视频重建模型对实时会话数据进行全局特征提取和分析，还结合逐帧光流信息捕获方法，参与模型重建，在保持视频数据流畅性的情况下，进一步提升音视频会话质量和处理速度，进而解决了相关技术中提升音视频实时通话质量过程中由于逐帧处理不够流畅导致处理速度较慢的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

本发明实施例的实施主体可以是实时会话系统，结合深度学习策略和人工智能技术，构建音视频重建模型，对目标会话的实时会话数据进行数据重建以达到提升实时会话的通话质量的技术效果。

可选地，在执行步骤S101之后，还包括：对原始音频数据和原始视频数据进行数据清洗；按照预设抽取策略对数据清洗后的原始视频数据进行视频帧抽取，得到目标视频帧组；在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；基于抽取率计算间隔时长，并依据间隔时长对原始音频数据进行切片，得到音频片段集合，其中，音频片段集合中的每个音频片段对应目标视频帧组中的一个视频帧。

需要说明的是，数据清洗的具体操作包括但不限于：去除异常频率、脉冲毛刺和底噪噪音等干扰元素，音视频数据清洗是在处理音视频数据时常常需要进行的重要步骤，其目的是去除干扰元素，提高数据质量和准确性。

其中，在去除异常频率方面，对于音频数据，可以通过频谱分析技术检测异常频率，并利用滤波器或其他信号处理方法将其去除；对于视频数据，可以通过频域分析等技术检测异常频率点或频率段，进而进行修复或剔除。

在去除脉冲毛刺方面，针对音频数据，可以采用滤波器、平滑算法等手段来平滑脉冲信号，或者通过插值等方法修复损坏的数据；对于视频数据，可以利用插值或运动补偿等方法来修复包含脉冲毛刺的图像帧。

在去除底噪噪音方面，针对音频数据，可以利用降噪算法(如维纳滤波器、谱减法等)来去除底噪和环境噪音；对于视频数据，可以通过降噪滤波器或其他图像处理技术来减少图像中的底噪。

本发明实施例除上述数据清洗操作之外，还可以应用数据插值、滤波、去噪等技术来处理音视频数据中的其他干扰元素(例如伪影、色斑等)。

另一需要说明的，可以使用帧间插值算法对视频帧进行抽取。帧间插值是一种通过分析相邻帧之间的差异来生成新的帧的方法，可以提高视频的帧率和流畅度。

本发明实施例还提供以下几种示例性的视频帧抽取策略：关键帧提取，在视频中提取关键帧，即包含最丰富信息的视频帧，可以根据图像质量、运动信息等指标进行筛选；固定间隔抽样，按照固定的时间间隔从视频中抽取帧，例如每秒钟抽取一帧或者每隔几秒钟抽取一帧。运动补偿，通过分析相邻帧之间的运动信息，选择具有代表性的帧来进行抽取，通常用于视频压缩和视频编解码过程中。

需要说明的是，光流技术是计算机视觉领域的一种重要技术，用于分析图像序列中相邻帧之间的运动情况。在光流技术中，通过对相邻帧之间像素亮度的变化进行分析，推断出物体在图像中的移动和速度信息。视频帧的光流信息指的是在视频序列中，相邻帧之间的像素亮度变化所蕴含的运动信息。通过分析相邻帧之间像素值的变化，可以计算出每个像素点在图像中的运动方向和速度，从而实现对视频中物体运动的跟踪和分析。

可选地，步骤S102包括：将原始视频数据对应的目标视频帧组输入至光流提取模型，其中，目标视频帧组中的所有视频帧按照抽取顺序排列；对于目标视频帧组中的每组相邻帧，使用光流提取模型对相邻帧进行像素亮度分析，得到像素亮度分析结果；基于目标视频帧组中所有相邻帧的像素亮度分析结果，计算原始视频数据中每个像素点的运动方向和运动速度；基于所有像素点的运动方向和运动速度生成光流信息。

需要说明的是，光流提取模型中可以预先置入像素分析策略，至少包括下述之一：基于亮度梯度的策略，通过比较相邻帧之间像素的亮度差异来计算光流；基于相关性的策略，利用相邻帧像素之间的相似性或相关性推断运动关系；基于卷积神经网络(CNN)的策略，能够学习复杂的光流模式，提高光流估计的准确性和鲁棒性；光流约束优化策略，通过最小化光流场的误差函数，来提高光流估计的精度并减少噪声；金字塔光流策略，对图像金字塔的不同尺度上进行光流估计，通过金字塔结构来融合和优化光流信息。

可选地，步骤S103中的音视频重建模型包括：输入层，用于接收实时会话数据和光流信息，并将实时会话数据传输至特征分析层，将光流信息传输至数据重建层；特征分析层，用于对实时会话数据对应的目标视频帧组和音频片段集合进行特征分析，得到视频帧特征集合和音频片段特征集合，并将视频帧特征集合传输至瑕疵处理层；瑕疵处理层，用于使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合，并将伪重建视频帧特征集合传输至数据重建层；数据重建层，用于依据光流信息对伪重建视频帧特征集合和音频片段特征集合进行音视频融合重建，得到重建后的目标音视频数据，并将目标音视频数据传输至输出层；输出层，用于输出目标音视频数据。

需要说明的是，使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复的过程中，可以选用以下修复方法：帧间插值、块匹配和替换、运动补偿、纹理合成等。

其中，帧间插值是指通过对目标视频帧组中相邻健康帧(瑕疵特征在目标视频帧组中对应的视频帧)之间的像素进行插值，可以将瑕疵帧中的缺失或损坏像素(即瑕疵特征)进行修复。常用的插值方法包括双线性插值、双三次插值等。

块匹配和替换是指将目标视频帧组中与瑕疵帧相似的块或区域匹配到瑕疵帧中，并对瑕疵特征进行替换，以修复瑕疵帧中的损坏或缺失部分。

运动补偿是指利用目标视频帧组中的运动信息(即光流信息)，对瑕疵帧中的运动物体进行补偿，从而修复因为物体运动而导致的模糊或瑕疵。

纹理合成是指基于目标视频帧组中的纹理信息，可以对瑕疵帧中的纹理进行合成，从而修复损坏或缺失的纹理特征(指瑕疵特征)。

可选地，音视频重建模型是通过如下步骤得到的：获取模型训练样本，其中，模型训练样本包括未经实时会话系统传输的第一音视频数据，以及第一音视频数据对应的经过实时会话系统传输的第二音视频数据；将第一音视频数据作为模型训练标签预先置入初始音视频重建模型；将第二音视频数据输入至初始音视频重建模型，输出模型重建音视频数据；依据第一音视频数据和模型重建音视频数据评估初始音视频重建模型的重建准确度；在重建准确度小于预设准确度阈值的情况下，调整初始音视频重建模型的模型参数；在重建准确度大于等于预设准确度阈值的情况下，得到音视频重建模型。

其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影。

可选地，步骤S103包括：获取实时会话数据对应的目标视频帧组和音频片段集合；通过特征分析层对目标视频帧组和音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合，其中，视频帧特征集合中的视频帧特征与音频片段特征集合中的音频片段特征一一对应；使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合；依据光流信息对伪重建视频帧特征集合和音频片段特征集合进行音视频融合重建，得到目标音视频数据。

可选地，通过特征分析层对目标视频帧组进行特征分析，得到视频帧特征集合的步骤，包括：对于目标视频帧组中的每个视频帧，使用卷积算法提取视频帧的局部视频特征；对于目标视频帧组中的所有视频帧，使用全局提取算法提取该目标视频帧组的全局视频信息；基于局部视频特征和全局视频信息生成每个视频帧的视频帧特征；整合所有视频帧的视频帧特征，得到视频帧特征集合。

需要说明的是，音视频重建模型中的特征分析层中至少包括卷积层和池化层，用于获取视频帧的局部视频特征，对于每个视频帧提取得到的局部特征，可以考虑使用池化操作或者其他特征融合方式，将局部特征进行整合和提炼，得到更高层次的局部特征表示。

在提取全局视频信息的过程中，可以在时间序列的基础上对整个视频帧组的序列信息进行学习从而提取全局视频信息，可以考虑在全局提取算法的基础上引入注意力机制，使模型能够更加集中地关注视频帧序列中的重要部分，从而提取更具代表性的全局视频信息，最后，将全局视频信息与局部视频特征进行融合，以获得每个视频帧以及视频帧组的更加全面和丰富的视频特征表示。

可选地，通过特征分析层对音频片段集合进行特征分析，得到音频片段特征集合的步骤，包括：对于音频片段集合中的每个音频片段，使用卷积算法提取音频片段的局部音频特征；对于音频片段集合中的所有音频片段，使用全局提取算法提取该音频片段集合的全局音频信息；基于局部音频特征和全局音频信息生成每个音频片段的音频片段特征；整合所有音频片段的音频片段特征，得到音频片段特征集合。

可选地，使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合的步骤，包括：使用瑕疵处理层中的瑕疵判别器对视频帧特征集合中的视频帧特征逐一进行判别，得到判别结果，其中，判别结果用于指示视频帧特征中是否存在伪影；对于每个视频帧特征，在判别结果指示该视频帧特征中存在伪影的情况下，将该视频帧特征确定为瑕疵特征；对于视频帧特征集合中的每个瑕疵特征，基于目标视频帧组中与该瑕疵特征对应的目标视频帧对该瑕疵特征进行瑕疵修复，得到伪重建视频帧特征集合。

需要说明的是，在图像处理和计算机视觉领域中，伪影指的是图像中出现的一种视觉现象，通常是由于图像采集或处理过程中产生的不良效应或干扰引起的。伪影可能出现在数字图像、视频或其他视觉数据中，具体表现为与原始场景不符合的重复、残留或失真的影像。

本发明实施例中的瑕疵判别器可以选用GAN(生成对抗网络)，检测视频帧特征中是否存在伪影，除此之外，还可以选用CNN(卷积神经网络)或RNN(循环神经网络)，可以通过训练来学习识别音视频数据中的异常、噪音、失真等瑕疵信息，以帮助进行音视频质量检测和改进。

需要说明的是，在实时通信场景中，不同的应用或设备可能需要不同的音视频数据格式来进行传输和展示，因此，需要将原始的音视频数据转换为符合实时会话需求的格式，以满足通信的要求。

这种格式转换可能涉及以下方面：

编解码格式转换：将音频或视频数据从一种编解码格式转换为另一种，以确保数据能够在通信中被正确解码和播放。

分辨率和帧率调整：根据实时会话的需求，调整音视频数据的分辨率和帧率，以适配通信设备或网络的性能。

音频通道和采样率转换：对音频数据进行通道数和采样率的转换，以适应不同设备或系统的要求。

封装格式转换：将音视频数据封装到不同的容器格式中，如从AVI转换为MP4，以便在不同平台上播放和传输。

协议转换：在网络通信中，将音视频数据转换为符合通信协议的格式，以便在网络上传输和接收。

本发明实施例通过对目标音视频数据进行格式转换，可以保证数据在实时通信过程中的兼容性和稳定性，从而提升用户体验和通信质量。

本发明实施例中，通过提取全局视频信息和局部视频特征，并在全局视频信息和局部视频特征之间建立完善的依赖关系，更加准确和丰富的表示实时会话中会话音视频的特征，同时确保了较好的实时性能和较少的资源占用。

本发明实施例中的方法还充分利用了数据之间的内部关联，在处理音视频会话的质量提升任务时，将音频和视频数据进行了有机融合，能够更高效地提升音视频会话质量。

本发明实施例中的方法还使用了GAN模型进行感知质量提升和瑕疵处理，功能强大，还结合了最新的光流技术，能够保持数据的流畅性。

下面结合另一种具体的实施方式来说明本发明。

本发明实施方式提出了一种基于hyena和瑕疵检测的音视频通话质量提升系统，克服现有提升音视频通话质量方法的局限性，构建基于图卷积深度学习的音视频重建模型，以解决在进行音视频通话质量提升时信息捕获不全或资源消耗较大的问题。

此外，本发明实施方式的质量提升方法并行性极高，可以有效快速处理数据，结合跨帧光流捕获方式可以在保持视频流畅性的情况下，充分发挥判别器网络的效用，判别视频帧的瑕疵特征并进一步处理，还能够联合处理音视频通话中的音频和视频数据，深入学习内部关联。

图2是根据本发明实施例的一种音视频通话质量提升系统的结构示意图，如图2所示，该音视频通话质量提升系统1包括：光流积累模块2、音视频质量提升模块3以及结果处理模块4。

其中，光流积累模块2中可以预先置入光流提取模型，负责处理视频帧的光流信息，其中，视频帧的光流信息指的是在视频序列中，相邻帧之间的像素亮度变化所蕴含的运动信息。

本发明实施方式可以将每个相邻帧的光流进行积累，并结合实时会话系统的外设(例如监控摄像头)的特殊性，获取同一场景内的输入视频帧，大大提升视频帧的前后流畅一致性。

光流积累模块中的光流处理模型可以结合使用LiteFlowNet2算法，一种快速且轻量级的CNN，模型尺寸小，运行速度快，单独提取，快于视频帧重建，足够在处理一批视频帧前获取每个视频帧的光流信息。

此外，光流处理模型还可以预先置入像素分析策略，例如，基于亮度梯度的策略，通过比较相邻帧之间像素的亮度差异来计算光流；基于相关性的策略，利用相邻帧像素之间的相似性或相关性推断运动关系；基于卷积神经网络(CNN)的策略，能够学习复杂的光流模式，提高光流估计的准确性和鲁棒性；光流约束优化策略，通过最小化光流场的误差函数，来提高光流估计的精度并减少噪声；金字塔光流策略，对图像金字塔的不同尺度上进行光流估计，通过金字塔结构来融合和优化光流信息。

音视频质量提升模块3中可以预先置入音视频重建模型，负责将音频切片(即音频片段)和视频切片(即视频帧)经过浅层特征卷积模块和深层特征提取模块(对应音视频重建模型中的特征分析层)，从而获取局部特征(包括局部视频特征和局部音频特征)和全局信息(包括全局视频信息和全局音频信息)。

然后基于音视频重建模型中的瑕疵处理层，检测并修复视频瑕疵伪影，结合光流信息并使用全局和局部交替的模块去除瑕疵，此外还可以利用全局残差学习提升性能，获取较好的去瑕疵和增益效果。

最后基于音视频重建模型中的数据重建层，融合通过检测修复的音频特征和视频特征(对应上述实施例一中的伪重建视频帧特征集合和音频片段特征集合)，重建得到目标音视频数据并输出。

结果处理模块4负责将音视频质量提升模块输出的目标音视频数据进行格式转换处理，按照实时通信场景中的会话类型和收集到的使用的数据格式，进行合适的数据类型转换转化，对外传输合适的音视频数据。

下面对音视频通话质量提升系统中光流积累模块、音视频质量提升模块以及结果处理模块的作用逐一进行介绍。

图3是根据本发明实施例的一种可选的光流信息的获取方法的流程图，如图3所示，该方法包括如下步骤：

步骤S301，获取目标会话的实时会话数据，至少包括：原始音频数据和原始视频数据。

步骤S302，对实时会话数据进行数据清洗。

步骤S303，抽取视频帧，并依据视频帧的抽取率切片音频将视频帧进行抽取，并按照抽取率切片音频片段。

需要说明的是，按照预设抽取策略对数据清洗后的原始视频数据进行视频帧抽取，得到目标视频帧组；在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；基于抽取率计算间隔时长，并依据间隔时长对原始音频数据进行切片，得到音频片段集合，其中，音频片段集合中的每个音频片段对应目标视频帧组中的一个视频帧。

本发明实施方式可以使用帧间插值算法对视频帧进行抽取。帧间插值是一种通过分析相邻帧之间的差异来生成新的帧的方法，可以提高视频的帧率和流畅度。

步骤S304，将视频帧逐一输入光流提取模型，得到光流信息。

图4是根据本发明实施例的一种可选的音视频重建方法的流程图，如图4所示，该方法包括如下步骤：

步骤S401，获取数据清洗后的目标视频帧组和音频片段集合。

步骤S402，基于特征分析层对目标视频帧组和音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合。

步骤S403，基于瑕疵处理层对视频帧特征集合中的瑕疵特征进行检测，并使用目标视频帧组中的视频帧对瑕疵特征进行对照修复，得到伪重建视频帧特征集合。

步骤S404，基于数据重建层和光流信息进行音视频融合重建，得到目标音视频数据并输出。

图5是根据本发明实施例的一种可选的用于音视频数据的格式转换方法的流程图，如图5所示，该方法包括如下步骤：

步骤S501，获取质量提升后的目标音视频数据，并按照抽取顺序重新组装为顺序视频帧和音频片段。

步骤S502，按照实时通信场景中的会话类型和数据格式，将组装好的顺序视频帧和音频片段进行格式转换。

步骤S503，将格式转换后的目标音视频数据存储至会话数据库。

下面对音视频质量提升模块中所使用的音视频重建模型的训练过程进行说明。

图6是根据本发明实施例的一种可选的音视频重建模型的训练方法的流程图，如图6所示，该方法包括如下步骤：

S601，采集未经过传输的高质量原始视频数据和通过会议系统传输的低质量视频数据。

S602，将数据进行清洗生成训练数据，其中，高质量的原始数据置为标签，传输后的音视频数据置为输入。

S603，使用训练数据对初始神经网络模型进行训练，直到模型准确率达到阈值，得到预设神经网络模型。

图7是根据本发明实施例的一种可选的基于音视频重建模型的音视频数据处理流程示意图，如图7所示，该处理流程包括：

将音频片段和视频帧分别输入至音视频重建模型，音视频重建模型中的特征处理层包含卷积子层(图7中以Conv示意)和特征处理子层(图7中以Hyena示意)，其中，卷积子层进行局部特征提取，特征处理子层进行全局信息提取；

视频帧对应的局部特征和全局信息会输入瑕疵处理层(图7中以GAN示意)，检测出来的瑕疵特征直接用对应的输入视频帧代替，这样在提高感知质量的同时，减少GAN带来的伪影，得到伪重建视频帧特征。

新生成的伪重建视频帧特征，和音频片段对应的音频片段特征进行融合操作(图7中以Concat示意)，通过6层的特征优化处理子层(图7中以hyena模块和Dense模块示意)进行特征优化处理，然后将上一个模块获取的光流信息和优化后的特征进行基于注意力机制(图7中以attention示意)的修复处理操作，最后输入数据重建层。

重建层主要由卷积子层、分离子层、卷积转化子层组成，第一个卷积层做一个简单的特征处理，分离层将音频和视频分离，两个卷积转化层分别把分离的音频片段特征和视频帧特征转化为融合的目标音视频数据即可，最后输出由音频片段和视频帧组成的目标音视频数据。

本发明实施例中的方法还使用了GAN模型进行感知质量提升和瑕疵处理，功能强大，还结合了最新的光流技术，能够保持数据的流畅性。下面结合另一种可选的实施例来说明本发明。

实施例二

本实施例中提供的一种用于实时会话的音视频重建装置包含了多个实施单元，每个实施单元对应于上述实施例一中的各个实施步骤。

图8是根据本发明实施例的一种可选的用于实时会话的音视频重建装置的示意图，如图8所示，该装置可以包括：获取单元81，提取单元82，重建单元83，转换单元84。

其中，获取单元81，用于获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据。

提取单元82，用于使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息。

重建单元83，用于依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据，其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影。

转换单元84，用于依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

上述用于实时会话的音视频重建装置，可以先通过获取单元81获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据，再通过提取单元82使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息，然后通过重建单元83依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据，其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影，最后通过转换单元84依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

在本发明实施例中，结合深度学习策略和人工智能技术，预先构建音视频重建模型，将目标会话的实时会话数据输入至音视频重建模型，利用音视频重建模型中的特征分析层、瑕疵处理层和数据重建层对实时会话数据中的原始音频数据和原始视频数据分别进行特征分析、瑕疵处理以及数据融合重建，同时，预先使用光流提取模型提取原始视频信息中运动物体的运动信息作为模型数据重建的参考数据，可以在不增加模型调用资源的情况下提升模型处理速度，并提升模型修复质量。本发明利用音视频重建模型对实时会话数据进行全局特征提取和分析，还结合逐帧光流信息捕获方法，参与模型重建，在保持视频数据流畅性的情况下，进一步提升音视频会话质量和处理速度，进而解决了相关技术中提升音视频实时通话质量过程中由于逐帧处理不够流畅导致处理速度较慢的技术问题。

可选地，用于实时会话的音视频重建装置还包括：清洗模块，用于对原始音频数据和原始视频数据进行数据清洗；抽取模块，用于按照预设抽取策略对数据清洗后的原始视频数据进行视频帧抽取，得到目标视频帧组；记录模块，用于在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；切片模块，用于基于抽取率计算间隔时长，并依据间隔时长对原始音频数据进行切片，得到音频片段集合，其中，音频片段集合中的每个音频片段对应目标视频帧组中的一个视频帧。

可选地，提取单元包括：第一输入模块，用于将原始视频数据对应的目标视频帧组输入至光流提取模型，其中，目标视频帧组中的所有视频帧按照抽取顺序排列；第一分析模块，用于对于目标视频帧组中的每组相邻帧，使用光流提取模型对相邻帧进行像素亮度分析，得到像素亮度分析结果；计算模块，用于基于目标视频帧组中所有相邻帧的像素亮度分析结果，计算原始视频数据中每个像素点的运动方向和运动速度；生成模块，用于基于所有像素点的运动方向和运动速度生成光流信息。

可选地，重建单元包括：第一获取模块，用于获取实时会话数据对应的目标视频帧组和音频片段集合；第二分析模块，用于通过特征分析层对目标视频帧组和音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合，其中，视频帧特征集合中的视频帧特征与音频片段特征集合中的音频片段特征一一对应；修复模块，用于使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合；重建模块，用于依据光流信息对伪重建视频帧特征集合和音频片段特征集合进行音视频融合重建，得到目标音视频数据。

可选地，第二分析模块包括：第一提取子模块，用于对于目标视频帧组中的每个视频帧，使用卷积算法提取视频帧的局部视频特征；第二提取子模块，用于对于目标视频帧组中的所有视频帧，使用全局提取算法提取该目标视频帧组的全局视频信息；第一生成子模块，用于基于局部视频特征和全局视频信息生成每个视频帧的视频帧特征；第一整合子模块，用于整合所有视频帧的视频帧特征，得到视频帧特征集合。

可选地，第二分析模块还包括：第三提取子模块，用于对于音频片段集合中的每个音频片段，使用卷积算法提取音频片段的局部音频特征；第四提取子模块，用于对于音频片段集合中的所有音频片段，使用全局提取算法提取该音频片段集合的全局音频信息；第二生成子模块，用于基于局部音频特征和全局音频信息生成每个音频片段的音频片段特征；第二整合子模块，用于整合所有音频片段的音频片段特征，得到音频片段特征集合。

可选地，修复模块包括：判别子模块，用于使用瑕疵处理层中的瑕疵判别器对视频帧特征集合中的视频帧特征逐一进行判别，得到判别结果，其中，判别结果用于指示视频帧特征中是否存在伪影；确定子模块，用于对于每个视频帧特征，在判别结果指示该视频帧特征中存在伪影的情况下，将该视频帧特征确定为瑕疵特征；修复子模块，用于对于视频帧特征集合中的每个瑕疵特征，基于目标视频帧组中与该瑕疵特征对应的目标视频帧对该瑕疵特征进行瑕疵修复，得到伪重建视频帧特征集合。

可选地，音视频重建模型包括：输入层，用于接收实时会话数据和光流信息，并将实时会话数据传输至特征分析层，将光流信息传输至数据重建层；特征分析层，用于对实时会话数据对应的目标视频帧组和音频片段集合进行特征分析，得到视频帧特征集合和音频片段特征集合，并将视频帧特征集合传输至瑕疵处理层；瑕疵处理层，用于使用目标视频帧组中的视频帧对视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合，并将伪重建视频帧特征集合传输至数据重建层；数据重建层，用于依据光流信息对伪重建视频帧特征集合和音频片段特征集合进行音视频融合重建，得到重建后的目标音视频数据，并将目标音视频数据传输至输出层；输出层，用于输出目标音视频数据。

可选地，用于实时会话的音视频重建装置还包括：第二获取模块，用于获取模型训练样本，其中，模型训练样本包括未经实时会话系统传输的第一音视频数据，以及第一音视频数据对应的经过实时会话系统传输的第二音视频数据；置入模块，用于将第一音视频数据作为模型训练标签预先置入初始音视频重建模型；第二输入模块，用于将第二音视频数据输入至初始音视频重建模型，输出模型重建音视频数据；评估模块，用于依据第一音视频数据和模型重建音视频数据评估初始音视频重建模型的重建准确度；调整模块，用于在重建准确度小于预设准确度阈值的情况下，调整初始音视频重建模型的模型参数；确定模块，用于在重建准确度大于等于预设准确度阈值的情况下，得到音视频重建模型。

上述的用于实时会话的音视频重建装置还可以包括处理器和存储器，上述获取单元81，提取单元82，重建单元83，转换单元84等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标会话的实时会话数据，其中，实时会话数据至少包括：原始音频数据和原始视频数据；使用光流提取模型对原始视频数据进行信息提取，得到光流信息，其中，光流信息是指原始视频数据中的运动物体在连续视频帧之间的运动信息；依据实时会话数据、光流信息以及音视频重建模型对目标会话进行音视频重建，得到重建后的目标音视频数据，其中，音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，瑕疵处理层用于消除音视频重建过程中产生的伪影；依据实时会话需求对目标音视频数据进行格式转换，并将格式转换后的目标音视频数据存储至会话数据库。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述实施例一中任意一项的用于实时会话的音视频重建方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述实施例一中任意一项的用于实时会话的音视频重建方法。

图9是根据本发明实施例的一种用于实时会话的音视频重建方法的电子设备(或移动设备)的硬件结构框图。如图9所示，电子设备可以包括一个或多个(图9中采用902a、902b，……，902n来示出)处理器902(处理器902可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器904。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于实时会话的音视频重建方法，其特征在于，包括：

获取目标会话的实时会话数据，其中，所述实时会话数据至少包括：原始音频数据和原始视频数据；

使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息，其中，所述光流信息是指所述原始视频数据中的运动物体在连续视频帧之间的运动信息；

依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据，其中，所述音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，所述瑕疵处理层用于消除音视频重建过程中产生的伪影；

依据实时会话需求对所述目标音视频数据进行格式转换，并将格式转换后的所述目标音视频数据存储至会话数据库。

2.根据权利要求1所述的音视频重建方法，其特征在于，在获取所述目标会话的实时会话数据之后，还包括：

对所述原始音频数据和所述原始视频数据进行数据清洗；

按照预设抽取策略对数据清洗后的所述原始视频数据进行视频帧抽取，得到目标视频帧组；

在进行视频帧抽取的过程中，记录抽取率以及所有视频帧的抽取顺序；

基于所述抽取率计算间隔时长，并依据所述间隔时长对所述原始音频数据进行切片，得到音频片段集合，其中，所述音频片段集合中的每个音频片段对应所述目标视频帧组中的一个视频帧。

3.根据权利要求2所述的音视频重建方法，其特征在于，使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息的步骤，包括：

将所述原始视频数据对应的所述目标视频帧组输入至所述光流提取模型，其中，所述目标视频帧组中的所有所述视频帧按照所述抽取顺序排列；

对于所述目标视频帧组中的每组相邻帧，使用所述光流提取模型对所述相邻帧进行像素亮度分析，得到像素亮度分析结果；

基于所述目标视频帧组中所有所述相邻帧的所述像素亮度分析结果，计算所述原始视频数据中每个像素点的运动方向和运动速度；

基于所有所述像素点的所述运动方向和所述运动速度生成所述光流信息。

4.根据权利要求2所述的音视频重建方法，其特征在于，依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据的步骤，包括：

获取所述实时会话数据对应的所述目标视频帧组和所述音频片段集合；

通过所述特征分析层对所述目标视频帧组和所述音频片段集合分别进行特征分析，得到视频帧特征集合和音频片段特征集合，其中，所述视频帧特征集合中的视频帧特征与所述音频片段特征集合中的音频片段特征一一对应；

使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合；

依据所述光流信息对所述伪重建视频帧特征集合和所述音频片段特征集合进行音视频融合重建，得到所述目标音视频数据。

5.根据权利要求4所述的音视频重建方法，其特征在于，通过所述特征分析层对所述目标视频帧组进行特征分析，得到视频帧特征集合的步骤，包括：

对于所述目标视频帧组中的每个所述视频帧，使用卷积算法提取所述视频帧的局部视频特征；

对于所述目标视频帧组中的所有所述视频帧，使用全局提取算法提取该目标视频帧组的全局视频信息；

基于所述局部视频特征和所述全局视频信息生成每个所述视频帧的所述视频帧特征；

整合所有所述视频帧的所述视频帧特征，得到所述视频帧特征集合。

6.根据权利要求4所述的音视频重建方法，其特征在于，通过所述特征分析层对所述音频片段集合进行特征分析，得到音频片段特征集合的步骤，包括：

对于所述音频片段集合中的每个所述音频片段，使用卷积算法提取所述音频片段的局部音频特征；

对于所述音频片段集合中的所有所述音频片段，使用全局提取算法提取该音频片段集合的全局音频信息；

基于所述局部音频特征和所述全局音频信息生成每个所述音频片段的所述音频片段特征；

整合所有所述音频片段的所述音频片段特征，得到所述音频片段特征集合。

7.根据权利要求4所述的音视频重建方法，其特征在于，使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合的步骤，包括：

使用所述瑕疵处理层中的瑕疵判别器对所述视频帧特征集合中的所述视频帧特征逐一进行判别，得到判别结果，其中，所述判别结果用于指示所述视频帧特征中是否存在伪影；

对于每个所述视频帧特征，在所述判别结果指示该视频帧特征中存在伪影的情况下，将该视频帧特征确定为所述瑕疵特征；

对于所述视频帧特征集合中的每个所述瑕疵特征，基于所述目标视频帧组中与该瑕疵特征对应的所述目标视频帧对该瑕疵特征进行瑕疵修复，得到所述伪重建视频帧特征集合。

8.根据权利要求1所述的音视频重建方法，其特征在于，所述音视频重建模型包括：

输入层，用于接收所述实时会话数据和所述光流信息，并将所述实时会话数据传输至所述特征分析层，将所述光流信息传输至所述数据重建层；

所述特征分析层，用于对所述实时会话数据对应的目标视频帧组和音频片段集合进行特征分析，得到视频帧特征集合和音频片段特征集合，并将所述视频帧特征集合传输至瑕疵处理层；

所述瑕疵处理层，用于使用所述目标视频帧组中的所述视频帧对所述视频帧特征集合中的瑕疵特征进行对照修复，得到伪重建视频帧特征集合，并将所述伪重建视频帧特征集合传输至所述数据重建层；

所述数据重建层，用于依据所述光流信息对所述伪重建视频帧特征集合和所述音频片段特征集合进行音视频融合重建，得到重建后的所述目标音视频数据，并将所述目标音视频数据传输至输出层；

所述输出层，用于输出所述目标音视频数据。

9.根据权利要求8所述的音视频重建方法，其特征在于，所述音视频重建模型是通过如下步骤得到的：

获取模型训练样本，其中，所述模型训练样本包括未经实时会话系统传输的第一音视频数据，以及所述第一音视频数据对应的经过所述实时会话系统传输的第二音视频数据；

将所述第一音视频数据作为模型训练标签预先置入初始音视频重建模型；

将所述第二音视频数据输入至所述初始音视频重建模型，输出模型重建音视频数据；

依据所述第一音视频数据和所述模型重建音视频数据评估所述初始音视频重建模型的重建准确度；

在所述重建准确度小于预设准确度阈值的情况下，调整所述初始音视频重建模型的模型参数；

在所述重建准确度大于等于预设准确度阈值的情况下，得到所述音视频重建模型。

10.一种用于实时会话的音视频重建装置，其特征在于，包括：

获取单元，用于获取目标会话的实时会话数据，其中，所述实时会话数据至少包括：原始音频数据和原始视频数据；

提取单元，用于使用光流提取模型对所述原始视频数据进行信息提取，得到光流信息，其中，所述光流信息是指所述原始视频数据中的运动物体在连续视频帧之间的运动信息；

重建单元，用于依据所述实时会话数据、所述光流信息以及音视频重建模型对所述目标会话进行音视频重建，得到重建后的目标音视频数据，其中，所述音视频重建模型中至少包括：特征分析层、瑕疵处理层和数据重建层，所述瑕疵处理层用于消除音视频重建过程中产生的伪影；

转换单元，用于依据实时会话需求对所述目标音视频数据进行格式转换，并将格式转换后的所述目标音视频数据存储至会话数据库。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的用于实时会话的音视频重建方法。

12.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至9中任意一项所述的用于实时会话的音视频重建方法。