CN112969065B

CN112969065B - 一种评估视频会议质量的方法、装置及计算机可读介质

Info

Publication number: CN112969065B
Application number: CN202110536988.3A
Authority: CN
Inventors: 曹亚曦; 许磊
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-03
Anticipated expiration: 2041-05-18
Also published as: CN112969065A

Abstract

本发明公开了一种评估视频会议质量的方法、装置及计算机可读介质，属于人工智能技术领域。该方法包括：获取视频会议的多模态数据，多模态数据至少包括两种模态数据；对多模态数据分别进行编码处理，生成多模态表示；对多模态表示进行拼接处理或加和处理，生成融合向量；将融合向量作为训练样本，利用多个训练样本进行模型训练，生成评估模型；获取视频会议的待测多模态数据；利用评估模型对待测多模态数据进行预测，生成质量评估结果。由此能够基于评估模型对视频会议质量进行客观评估，提高了视频会议质量评估的准确性和时效性，解决了现有技术中视频会议质量评估准确率低的问题。

Description

一种评估视频会议质量的方法、装置及计算机可读介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种评估视频会议质量的方法、装置及计算机可读介质。

背景技术

在当代办公流程中，视频会议逐步被普及，重要性也逐步凸显。视频会议质量的好坏直接反映视频会议的使用效果。为此需要对视频会议的质量进行有效的评估。

传统的评估方式是采用问卷调查的方式进行的，采用问卷调查的方式不仅调查过程中需要耗费大量的人力，而且还需要专门设计调查内容，并且针对调查结果采用的是打分制，因此整个问卷调查过程中主观性比较强。因此，不能准确客观地评估视频会议的质量。

发明内容

为了解决上述现有技术存在的问题，本发明实施例提供一种评估视频会议质量的方法、装置及计算机可读介质，能够对视频会议的质量进行准确评估，提高视频会议质量评估的准确性和客观性。

为实现上述目的，根据本发明实施例第一方面，提供一种评估视频会议质量的方法，该方法包括：获取视频会议的多模态数据，所述多模态数据至少包括两种模态数据；对所述多模态数据分别进行编码处理，生成多模态表示；对所述多模态表示进行拼接处理或加和处理，生成融合向量；将所述融合向量作为训练样本，利用多个所述训练样本进行模型训练，生成评估模型；获取视频会议的待测多模态数据；利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

可选的，所述多模态数据为视频图像数据、音频数据和文本数据；所述对所述多模态数据分别进行编码处理，生成多模态表示，包括：对所述视频图像数据进行编码处理，生成图像表示；对所述音频数据进行编码处理，生成音频表示；对所述文本数据进行编码处理，生成文本表示；将所述图像表示、音频表示和文本表示确定为多模态表示。

可选的，所述视频图像数据通过如下方法获得：获取视频图像源数据以及视频时长；基于所述视频图像源数据和所述视频时长，确定发生特定事件的高频时段；从所述视频图像源数据中选取所述高频时段的所有视频源图像，得到视频源图像子数据；从所述视频源图像子数据中抽取特定数量的视频源图像，得到视频图像数据。

可选的，所述对所述视频图像数据进行编码处理，生成图像表示，包括：

对所述视频图像数据进行编码，生成图像向量；将所述图像向量确定为图像表示。

可选的，所述对所述音频数据进行编码处理，生成音频表示，包括：识别所述音频数据中无效音频数据，并从所述音频数据中剔除所述无效音频数据；对剔除后剩余的音频数据进行组合，生成有效音频数据；获取音频数据的总时长，以及有效音频数据的有效时长；基于所述有效时长和所述总时长，确定视频会议的有效音效率；对所述音频数据进行编码，生成音频向量；将所述音频向量和所述有效音效率进行拼接，生成音频表示。

可选的，所述对所述文本数据进行编码处理，生成文本表示，包括：从所述文本数据中选取特定种类的文本数据，得到文本子数据；从不同维度对所述文本子数据进行统计，得到文本统计量；其中，所述不同维度包括文本总条数、文本总长度、文本去重总长度，以及文本关键词词频；对所述文本数据进行编码，生成文本向量；将所述文本向量和所述文本统计量进行拼接，生成文本表示。

可选的，所述评估模型为回归任务的分数制模型或分类任务的等级制模型。

为实现上述目的，根据本发明实施例第二方面，还提供一种评估视频会议质量的装置，该装置包括：第一获取模块，用于获取视频会议的多模态数据，所述多模态数据至少包括两种模态数据；编码模块，用于对所述多模态数据分别进行编码处理，生成多模态表示；融合模块，用于对所述多模态表示进行拼接处理或加和处理，生成融合向量；训练模块，用于将所述融合向量作为训练样本，利用多个所述训练样本进行模型训练，生成评估模型；第二获取模块，用于获取视频会议的待测多模态数据；预测模块，用于利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

为实现上述目的，根据本发明实施例第三方面，还提供一种电子设备，该电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的评估视频会议质量的方法。

为实现上述目的，根据本发明实施例的第四方面，还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的评估视频会议质量的方法。

与现有技术相比，本发明实施例提供的评估视频会议质量的方法，该方法通过获取视频会议的多模态数据，对多模态数据分别进行编码处理，之后再对编码处理后生成的多模态表示进行拼接或加和处理，生成融合向量；将融合向量作为训练样本，利用算法对多个训练样本进行模型训练，生成评估模型；由此通过编码处理将非结构化的模态数据转化为结构化的模态表示，并通过拼接或加和的方式对多模态表示进行融合，从而能够准确地评估视频会议的质量；之后基于多个融合向量，利用算法进行建模，生成评估模型，从而实现了视频会议质量评估的智能化。

最后利用训练好的评估模型对待测视频会议的多模态数据进行预测，输出质量评估结果，由此通过评估模型能够对视频会议的质量进行客观评估，并实现了端到端的实时评估，提高了视频会议质量评估的准确性和时效性，解决了现有技术中由于采用问卷调查等方式进行评估导致视频会议质量评估耗时耗力且评估准确率低的问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例评估视频会议质量的示意性流程图；

图2为本发明另一实施例评估视频会议质量的示意性流程图；

图3为本发明另一实施例生成音频表示的示意性流程图；

图4为本发明另一实施例生成文本表示的示意性流程图；

图5为本发明一实施例评估视频会议装置的示意性框图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有技术中，在进行视频会议质量评估时通常是采用问卷调查的方式进行的。由于问卷调查的方式会掺入很多人为主观因素，因此导致评估结果不准确，而且问卷调查的整个过程比较耗时耗力，因此时效性比较差。虽然现有技术中也不乏智能评估方法，但是智能评估方法通常不是应用于视频会议中，而且现有的智能评估方法都是基于单一模态数据进行评估，因此导致评估结果不够准确。

本发明的方法应用于云视频会议的质量评估场景中，通过应用多模态数据，再结合深度学习的方法对多模态数据进行编码处理、之后基于编码后的多模态向量和多模态数据对应的统计量或其他指标进行拼接生成多模态表示，最后将多模态表示进行融合，并基于融合向量，利用深度学习的方法进行建模，从而获得评估模型。之后利用评估模型对待测多模态数据进行预测，由此对视频会议质量实现了端到端的实时评估，从而提高了视频会议质量评估的准确性和时效性。

如图1所示，本发明一实施例评估视频会议质量的示意性流程图。一种评估视频会议质量的方法，包括如下步骤：S101，获取视频会议的多模态数据，多模态数据至少包括两种模态数据；S102，对多模态数据分别进行编码处理，生成多模态表示；S103，对多模态表示进行拼接处理或加和处理，生成融合向量；S104，将融合向量作为训练样本，利用多个训练样本进行模型训练，生成评估模型；S105，获取视频会议的待测多模态数据；S106，利用评估模型对待测多模态数据进行预测，生成质量评估结果。

在S101中，多模态用来表示不同形态的数据形式。每一种模态具有对应形态的数据形式。在这里，对视频会议的多模态数据中每种模态数据不作限定，可以是视频图像数据、音频数据、文本数据以及其他形态的数据。由此，通过采用至少两种模态数据对视频会议质量进行评估，从而能够更全面且更准确地评估视频会议的质量，提高了视频会议质量评估的准确性。

除此之外，模态数据可以是源数据，也可以是处理后的数据。对于视频会议每种模态数据的获取方式也不作限定，可以采用定时采集的方式进行获取，也可以是实时获取。

在S102中，对多模态数据中每种模态数据进行编码处理，生成对应的模态表示，将多个模态表示确定为多模态表示。由此，通过编码处理将非结构化的模态数据转换成结构化的模态表示，从而方便建模时用于模型训练。

在这里，针对每种模态数据进行据编码处理时所用到的算法不作限定，每种模态数据进行编码处理时所用到的算法可以相同的，也可以是不同的。通常会根据模态数据的形态选择能够获取最佳结果的算法进行编码。

需要说明的是，模态表示是一种向量。

在S103中，多模态表示中每个模态表示的维数可能是不同的。在对多模态表示进行融合处理时有两种方法：一种是，利用现有的算法对多模态表示直接进行拼接处理，生成融合向量，由此通过拼接处理能够将具有不同维数的多个模态表示进行有效融合。另一种是，先利用全连接层将不同维数的模态表示均转换成具有相同维数的模态表示，然后将多个具有相同维数的模态表示进行加和，生成融合向量；由此通过加和处理能够将具有不同维数的多模态表示进行有效融合。

在S104中，一组多模态数据对应一个融合向量，多组多模态数据对应多个融合向量；将融合向量作为训练样本，利用算法对多个融合向量进行模型训练，生成评估模型。模型架构可以是基于注意力机制的Transformer，即通过Transformer或其变形构建评估模型。由此，通过深度学习的方法建立评估模型，从而能够对视频会议质量进行客观评估，进而实现端到端的实时评估，提高了视频会议质量评估的准确性和时效性。

在这里，当多组多模态数据均来源于同一场景的视频会议，则获得的评估模型就是针对特定场景的评估模型。视频会议的场景有多种，例如讨论视频会议，发言视频会议，演讲视频会议等等。当多组多模态数据分别来自不同场景的视频会议，则获得的评估模型能够适用于不同场景的视频会议。

除此之外，对评估模型的种类不作限定，需要根据预先设定的任务来确定评估模型的类型，例如，评估模型可以是基于回归任务的分数制模型，也可以是基于分类任务的等级制模型。

在S105和S106中，将视频会议的待测多模态数据输入评估模型进行预测，输出视频会议的质量评估结果。例如，质量评估结果可以是以分数的形式表示，也可以是以等级的形式表示。

本发明实施例通过获取视频会议的多模态数据，并利用深度学习的方法将非结构化的多模态数据转化成结构化的多模态表示；之后通过拼接处理或加和处理将多模态表示进行融合，并基于融合结果，利用深度学习的方法进行建模，从而生成评估模型，进而能够基于评估模型对视频会议的质量进行客观评估，提高了视频会议质量评估准确率和时效性，解决了现有技术中由于采用问卷调查方式进行评估导致视频会议质量评估耗时耗力且评估准确率低的问题。

如图2所示，本发明另一实施例评估视频会议质量的示意性流程图。本实施例是在图1实施例的基础上进一步优化得到的。一种评估视频会议质量的方法，包括如下步骤：S201，获取视频会议的多模态数据，多模态数据为视频图像数据、音频数据和文本数据；S202，对视频图像数据进行编码处理，生成图像表示；S203，对音频数据进行编码处理，生成音频表示；S204，对文本数据进行编码处理，生成文本表示；S205，将图像表示、文本表示和音频表示进行拼接处理或加和处理，生成融合向量；S206，将融合向量作为训练样本，利用多个训练样本进行模型训练，生成评估模型；S207，获取视频会议的待测多模态数据；S208，利用评估模型对待测多模态数据进行预测，生成质量评估结果。

其中，在S205、S206、S207和S208的具体实现过程与图1所示实施例中在S103，S104、S105和S106的具体实现过程相类似，这里不再赘述。

在S201中，多模态数据为视频图像数据、音频数据和文本数据；由此通过选取能有效反应视频会议质量的音频数据、文本数据和视频图像数据，并基于这三种模态数据，利用深度学习的方法进行建模，从而能够获得准确率更高的评估模型。

由于视频图像源数据包含丰富的人像信息、行为信息等，因此数据量巨大，对计算机算力要求较高。为此，需要事先对获取的视频图像源数据进行清洗处理，以获得有效的视频图像数据。视频图像数据通过如下方法获得：获取视频图像源数据以及视频时长；基于视频图像源数据和视频时长，确定发生特定事件的高频时段；从视频图像源数据中选取高频时段的所有视频源图像，得到视频源图像子数据；从视频源图像子数据中抽取特定数量的视频源图像，得到视频图像数据。例如：一场视频会议包括主持人发言事件和演讲事件。利用整个视频会议的图像源数据和视频时长，统计发生演讲事件的高频时段，高频时段是指发生演讲事件的时间段，从高频时段对应的视频源图像子数据中随机或者按特定时间步长选取视频源图像，将选取的特定数量的视频源图像按时间顺序组合生成视频图像数据，例如

，其中N表示视频图像数据，n表示视频源图像。由此，通过对视频图像源数据进行清洗处理，能够减小模型训练和预测过程中的计算量，从而提高了模型预测的速度。

在S202至S204中，图像表示是利用算法对视频图像数据进行编码后生成的图像向量；音频表示可以是利用算法对音频数据进行编码后生成的音频向量，也可以是音频向量和与音频数据相关的统计量进行拼接后形成的；文本表示可以是利用算法对文本数据进行编码后生成的文本向量，也可以是文本向量和与文本数据相关的统计量进行拼接后形成的。

例如，利用卷积神经网络（CNN）对视频图像数据进行编码，生成图像向量；利用循环神经网络（RNN）或者深度神经网络（DNN）对音频数据进行编码，生成音频向量；利用Embedding等词嵌入技术对文本数据进行编码，生成文本向量；由此，针对不同模态数据选取合适的编码表示方式，从而能够使模型进行有效学习，提高了评估模型的准确率，进而能够利用评估模型对视频会议质量进行准确评估。

如图3所示，本发明另一实施例生成音频表示的示意性流程图。本实施例是在图2实施例的基础上进一步优化得到的。对音频数据进行编码处理，生成音频表示，包括如下步骤：S301，识别音频数据中无效音频数据，并从音频数据中剔除无效音频数据；S302，对剔除后剩余的音频数据进行组合，生成有效音频数据；S303，获取音频数据的总时长，以及有效音频数据的有效时长；S304，基于有效时长和所述总时长，确定视频会议的有效音效率；S305，对音频数据进行编码，生成音频向量；S306，将音频向量和有效音效率进行拼接，生成音频表示。

具体地，音频数据是连续的数字信号。无效音频数据是指包含无声、杂声的音频数据。对剔除后剩余的音频数据按照音频数据的时间序列进行组合，生成有效音频数据。例如音频数据的总时长为L1，有效音频数据的有效时长为L2，视频会议的有效音效率为

，具体公式如式（1）所示：

式（1）。

音频向量为

，将音频向量和有效音效率进行拼接后生成音频表示，该音频表示即为

。

本实施例通过在音频向量中拼接有效音效率，从而能够更有效地利用音频数据对视频会议的质量进行评估，提高视频会议质量评估的准确性。

如图4所示，本发明另一实施例生成文本表示的示意性流程图。本实施例是在图3实施例的基础上进一步优化得到的。对文本数据进行编码处理，生成文本表示，包括如下步骤：S401，从文本数据中选取特定种类的文本数据，得到文本子数据；S402，从不同维度对文本子数据进行统计，得到文本统计量；其中，不同维度包括文本总条数、文本总长度、文本去重总长度，以及文本关键词词频；S403，对文本数据进行编码，生成文本向量；S404，将文本向量和文本统计量进行拼接，生成文本表示。

具体地，文本数据包括不同含义的数据，例如文本数据是由视频会议的会议纪要、评论信息等组成的集合。文本子数据是从文本数据抽取的且具有特定含义的数据，例如会议纪要或者评论信息等，文本统计量是从不同维度对文本子数据进行统计后获得的统计量，例如从文本总条数、文本总长度、文本去重总长度，以及文本关键词词频等维度对会议纪要进行统计而生成的统计量，即

，其中Y表示会议纪要的统计量，y表示会议纪要的不同维度，例如

表示会议纪要的总条数，

表示会议纪要的总长度。文本向量为

，将文本向量和文本统计量拼接后生成文本表示，该文本表示即为

。

本实施例通过在文本向量中拼接有文本统计量，从而能够更有效地利用文本数据对视频会议的质量进行评估，提高视频会议质量评估的准确性。

应理解，在本发明的各实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图5所示，本发明一实施例评估视频会议质量的装置的示意性框图。一种评估视频会议质量的装置，该装置500包括：第一获取模块501，用于获取视频会议的多模态数据，多模态数据至少包括两种模态数据；编码模块502，用于对所述多模态数据分别进行编码处理，生成多模态表示；融合模块503，用于对所述多模态表示进行拼接处理或加和处理，生成融合向量；训练模块504，用于将所述融合向量作为训练样本，利用多个所述训练样本进行模型训练，生成评估模型；第二获取模块505，用于获取视频会议的待测多模态数据；预测模块506，用于利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

在可选的实施例中，多模态数据为视频图像数据、音频数据和文本数据；编码模块包括：第一编码单元，用于对所述视频图像数据进行编码处理，生成图像表示；第二编码单元，用于对所述音频数据进行编码处理，生成音频表示；第三编码单元，用于对所述文本数据进行编码处理，生成文本表示；确定单元，用于将所述图像表示、音频表示和文本表示确定为多模态表示。

在可选的实施例中，视频图像数据通过如下方法获得：获取视频图像源数据以及视频时长；基于所述视频图像源数据和所述视频时长，确定发生特定事件的高频时段；从所述视频图像源数据中选取所述高频时段的所有视频源图像，得到视频源图像子数据；从所述视频源图像子数据中抽取特定数量的视频源图像，得到视频图像数据。

在可选的实施例中，第一编码单元包括：编码子单元，用于对所述视频图像数据进行编码，生成图像向量；确定子单元，用于将所述图像向量确定为图像表示。

在可选的实施例中，第二编码单元包括：识别子单元，用于识别所述音频数据中无效音频数据，并从所述音频数据中剔除所述无效音频数据；组合子单元，用于对剔除后剩余的音频数据进行组合，生成有效音频数据；获取子单元，用于获取音频数据的总时长，以及有效音频数据的有效时长；确定子单元，用于基于所述有效时长和所述总时长，确定视频会议的有效音效率；编码子单元，用于对所述音频数据进行编码，生成音频向量；生成子单元，用于将所述音频向量和所述有效音效率进行拼接，生成音频表示。

在可选的实施例中，第三编码单元包括：选取子单元，用于从所述文本数据中选取特定种类的文本数据，得到文本子数据；统计子单元，用于从不同维度对所述文本子数据进行统计，得到文本统计量；其中，所述不同维度包括文本总条数、文本总长度、文本去重总长度，以及文本关键词词频；编码子单元，用于对所述文本数据进行编码，生成文本向量；拼接子单元，用于将所述文本向量和所述文本统计量进行拼接，生成文本表示。

在可选的实施例中，评估模型为回归任务的分数制模型或分类任务的等级制模型。

上述测试装置可执行本发明一实施例所提供的评估视频会议质量的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的评估视频会议质量的方法。

根据本发明再一实施例，还提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当该一个或多个程序被该一个或多个处理器执行，使得该一个或多个处理器实现本发明上述实施例提供的评估视频会议质量的方法。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备至少执行如下所示的操作步骤：S101，获取视频会议的多模态数据，所述多模态数据至少包括两种模态数据；S102，对所述多模态数据分别进行编码处理，生成多模态表示；S103，对所述多模态表示进行拼接处理或加和处理，生成融合向量；S104，将所述融合向量作为训练样本，利用多个所述训练样本进行模型训练，生成评估模型；S105，获取视频会议的待测多模态数据；S106，利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种评估视频会议质量的方法，其特征在于，包括：

获取视频会议的多模态数据，所述多模态数据为视频图像数据、音频数据和文本数据；

对所述视频图像数据进行编码处理，生成图像表示；所述图像表示是利用算法对视频图像数据进行编码后生成的图像向量；

对所述音频数据进行编码处理，生成音频表示；所述音频表示是与所述音频数据对应的音频向量和与音频数据相关的统计量进行拼接后形成的；

对所述文本数据进行编码处理，生成文本表示；所述文本表示是与所述文本数据对应的文本向量和与文本数据相关的统计量进行拼接后形成的；

将所述图像表示、音频表示和文本表示确定为多模态表示；

对所述多模态表示进行拼接处理或加和处理，生成融合向量；

将所述融合向量作为训练样本，基于Transformer或其变形利用多个所述训练样本进行模型训练，生成评估模型；

获取视频会议的待测多模态数据；

利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

2.根据权利要求1所述的方法，其特征在于，所述视频图像数据通过如下方法获得：

获取视频图像源数据以及视频时长；

基于所述视频图像源数据和所述视频时长，确定发生特定事件的高频时段；

从所述视频图像源数据中选取所述高频时段的所有视频源图像，得到视频源图像子数据；

从所述视频源图像子数据中抽取特定数量的视频源图像，得到视频图像数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述视频图像数据进行编码处理，生成图像表示，包括：

对所述视频图像数据进行编码，生成图像向量；

将所述图像向量确定为图像表示。

4.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行编码处理，生成音频表示，包括：

识别所述音频数据中无效音频数据，并从所述音频数据中剔除所述无效音频数据；

对剔除后剩余的音频数据进行组合，生成有效音频数据；

获取音频数据的总时长，以及有效音频数据的有效时长；

基于所述有效时长和所述总时长，确定视频会议的有效音效率；

对所述音频数据进行编码，生成音频向量；

将所述音频向量和所述有效音效率进行拼接，生成音频表示。

5.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行编码处理，生成文本表示，包括：

从所述文本数据中选取特定种类的文本数据，得到文本子数据；

从不同维度对所述文本子数据进行统计，得到文本统计量；其中，所述不同维度包括文本总条数、文本总长度、文本去重总长度，以及文本关键词词频；

对所述文本数据进行编码，生成文本向量；

将所述文本向量和所述文本统计量进行拼接，生成文本表示。

6.根据权利要求1所述的方法，其特征在于，所述评估模型为回归任务的分数制模型或分类任务的等级制模型。

7.一种评估视频会议质量的装置，其特征在于，包括：

第一获取模块，用于获取视频会议的多模态数据，所述多模态数据为视频图像数据、音频数据和文本数据；

编码模块，用于对所述视频图像数据进行编码处理，生成图像表示；所述图像表示是利用算法对视频图像数据进行编码后生成的图像向量；对所述音频数据进行编码处理，生成音频表示；所述音频表示是与所述音频数据对应的音频向量和与音频数据相关的统计量进行拼接后形成的；对所述文本数据进行编码处理，生成文本表示；所述文本表示是与所述文本数据对应的文本向量和与文本数据相关的统计量进行拼接后形成的；将所述图像表示、音频表示和文本表示确定为多模态表示；

融合模块，用于对所述多模态表示进行拼接处理或加和处理，生成融合向量；

训练模块，用于将所述融合向量作为训练样本，基于Transformer或其变形利用多个所述训练样本进行模型训练，生成评估模型；

第二获取模块，用于获取视频会议的待测多模态数据；

预测模块，用于利用所述评估模型对所述待测多模态数据进行预测，生成质量评估结果。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。