CN116708055B

CN116708055B - 智能多媒体视听图像处理方法、系统及存储介质

Info

Publication number: CN116708055B
Application number: CN202310659951.9A
Authority: CN
Inventors: 张正; 骆真; 蔡春明
Original assignee: Shenzhen Aimshi E Commerce Co ltd
Current assignee: Shenzhen Aimshi E Commerce Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2024-02-20
Anticipated expiration: 2043-06-06
Also published as: CN116708055A

Abstract

本发明涉及多媒体信息处理的技术领域，特别是涉及一种智能多媒体视听图像处理方法、系统及存储介质，其能够提高会议总结效率；所述方法包括以下步骤：S1、获取与会人员的语音、人脸视频以及多媒体播放图像；S2、利用预先训练的会议视听分析模型识别与会人员的语音及人脸视频；S3、根据会议视听分析模型的识别结果，获取每个与会人员的语音时间节点；S4、根据语音时间节点，截取相同时间内语音对应的与会人员的人脸视频和多媒体播放图像；S5、将相同时间节点内的语音、人脸视频以及多媒体播放图像转换成同屏双显的单个视听文件；S6、根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件。

Description

智能多媒体视听图像处理方法、系统及存储介质

技术领域

本发明涉及多媒体信息处理的技术领域，特别是涉及一种智能多媒体视听图像处理方法、系统及存储介质。

背景技术

在会议召开中，多媒体技术的使用可以帮助促进信息共享和思路交流，提高会议的效率和质量。现有的会议多媒体存在一些弊端，弊端是在对会议进行总结时，难以对每个与会人员的语音、人脸视频以及同一时刻多媒体播放图像进行分割并归类，因此在需要调取每位与会人员的发言时的场景，需要手动截取，导致会议总结效率较低。

发明内容

为解决上述技术问题，本发明提供一种能够提高会议总结效率的智能多媒体视听图像处理方法。

第一方面，本发明提供了智能多媒体视听图像处理方法，所述方法包括以下步骤：

S1、获取与会人员的语音、人脸视频以及多媒体播放图像；

S2、利用预先训练的会议视听分析模型识别与会人员的语音及人脸视频；

S3、根据会议视听分析模型的识别结果，获取每个与会人员的语音时间节点；

S4、根据语音时间节点，截取相同时间内语音对应的与会人员的人脸视频和多媒体播放图像；

S5、将相同时间节点内的语音、人脸视频以及多媒体播放图像转换成同屏双显的单个视听文件；

S6、根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件。

另一方面，本申请还提供了智能多媒体视听图像处理系统，所述系统包括：

数据采集模块，负责获取会议现场的语音、人脸视频和多媒体播放图像数据，并将数据存储到服务器中供后续处理使用；

会议视听分析模块，用于存储会议视听分析模型，并处理语音和人脸识别，实现对与会人员的识别，并提供每个与会人员的语音时间节点信息；

数据处理模块，用于分割和归类多媒体数据，根据语音时间节点截取相同时间内的人脸视频和多媒体播放图像，并对这些数据进行转换和存储；

个人视听库模块，用于为每位与会人员建立个人视听库，并将经过处理的数据存储到对应的视听库中；

数据检索模块，用于根据需求检索视听图像；

多媒体播放模块，实现同屏双显的多媒体播放，将同一时间节点内的语音、人脸视频和多媒体播放图像同步展示在同屏幕上；

系统管理模块，包括人员管理、权限管理、数据清理和维护功能，用于系统的日常维护和管理。

第三方面，本申请提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述方法中的步骤。

进一步地，所述会议视听分析模型包括语音识别模型和人脸识别模型；

语音识别模型由卷积神经网络和循环神经网络组成，卷积神经网络用于从语音中提取特征，循环神经网络则用于捕捉语音中的时序信息；

人脸识别模型由多层卷积神经网络组成，用于从人脸视频的图像帧中提取人脸特征。

进一步地，在会议视听分析模型对语音和人脸视频进行识别分类之前，需要对语音和人脸视频进行数据预处理，包括语音和人脸视频的特征提取、数据增强、归一化、降噪。

进一步地，人脸识别模型对首次采集的人脸进行独立分类，在后续识别过程中将与该人脸分类相同的视频划分至该分类，完成对从未识别过的多个人脸的分类任务。

进一步地，获取每个与会人员语音时间节点的方法包括：

S31、根据S2得到的会议视听分析模型的识别结果，对每个与会人员的语音进行预处理；

S32、对于每个与会人员预处理后的语音，根据其在时间轴上的概率分布情况，识别出其中具有代表性的话语或音节；

S33、根据每个与会人员的语音时间节点，获得发言的起点和终点；

S34、将每个与会人员的发言起点和终点拼接起来，得到该与会人员在会议期间发言的时间节点。

进一步地，截取会人员的人脸视频和多媒体播放图像的方法包括：

S41、根据会议视听分析模型的识别结果中的每个与会人员的语音时间节点，确定每个语音时间节点所在的时间段；

S42、根据确定的时间段，将所有与会人员的人脸视频和多媒体播放图像进行时间轴对齐，并按时间段进行分割；

S43、对于每个与会人员，根据其对应的语音时间节点所在的时间段，从该时间段的人脸视频和多媒体播放图像序列中，截取与该时间段对应的人脸视频和多媒体播放图像。

进一步地，实现所述S5的方法包括：

S51、将语音、人脸视频以及多媒体播放图像进行文件格式和编码的统一，以便于后续处理和合成；

S52、对于语音和人脸视频，需要进行音视频同步，使得它们在时间轴上对齐；对于多媒体播放图像，截取多媒体播放图像中与语音时间戳内正在展示的内容部分；

S53、对于音视频的分辨率、画质进行调整和优化；

S54、将音视频与截取的多媒体播放图像进行双显合成，使得它们能够在同一屏幕上显示，得到同屏双显的单个视听文件

与现有技术相比本发明的有益效果为：

1、本方法利用预训练的会议视听分析模型自动识别与会人员的语音及人脸视频，自动获取每个与会人员的语音时间节点，以及自动截取相同时间内语音对应的与会人员的人脸视频和多媒体播放图像，大大减少了人工处理的工作量。

2、本方法利用S6中的个人视听库，将会议视听图像文件归类管理，有利于提高多媒体数据的组织和检索效率，方便查找某个与会人员的发言内容和相关讨论。

3、本方法将相同时间节点内的语音、人脸视频和多媒体播放图像转换成同屏双显的单个视听文件，即进行了视听同步处理，可以更准确地还原会议现场情况，有利于提高会议总结的质量。

4、基于个人视听库的存储方式，可以将同一与会人员的多个视听文件进行整合存储，减少了多余的存储空间和处理时间。

5、本方法采用预训练模型和自动化处理技术，可以支持对更多类型的会议多媒体数据进行处理和管理，具有一定的通用性和可扩展性。

附图说明

图1是本发明的逻辑流程图；

图2是转换视听文件的逻辑流程图；

图3是智能多媒体视听图像处理系统的结构图。

具体实施方式

在本申请的描述中，所属技术领域的技术人员应当知道，本申请可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本申请可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本申请还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器、闪存、光纤、光盘只读存储器、光存储器件、磁存储器件或以上任意组合。在本申请中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律的相关规定。

本申请通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

实施例一

下面结合本申请中的附图对本申请进行描述。

如图1至图2所示，本发明的智能多媒体视听图像处理方法，所述方法包括：

S1、获取与会人员的语音、人脸视频以及多媒体播放图像；

具体的，获取与会人员的语音、人脸视频以及多媒体播放图像是整个方法的第一步。具体的步骤包括以下几个方面：

S11、确定语音、人脸视频和多媒体播放图像的来源：根据具体情况，可以确定与会人员通过哪种方式参加会议，常见的方式包括使用话筒、摄像头、显示器等设备，不同的方式会影响到获取语音、人脸视频和多媒体播放图像的方式；

S12、获取语音数据：为了获取与会人员的语音数据，可以利用麦克风或其他录音设备对会议进行录音，也可以从录制的视频或音频文件中获取语音数据；

S13、获取人脸视频数据：为了获取与会人员的人脸视频数据，需要使用摄像头或其他采集设备对会议进行录像，或者从录制的视频文件中获取视频数据；

S14、获取多媒体播放图像：在会议过程中，会有其他多媒体播放图像，比如PPT等，需要通过相关软件或设备获取这些图像数据，与人脸视频和语音数据进行同步截取；

需要注意的是，在获取这些数据时需要注意保护与会人员的隐私，确保数据的安全性和合法性。

具体的，会议视听分析模型用来对与会人员的语音和人脸视频进行识别分类；针对语音和人脸视频识别的任务，可以使用卷积神经网络和循环神经网络的结合模型；

对于语音识别任务，可以采用深度学习中常用的一种模型——端到端语音识别模型，该模型通常由多层卷积神经网络和循环神经网络组成；卷积神经网络用于从语音信号中提取特征，循环神经网络则用于捕捉语音信号中的时序信息；语音识别任务中特征提取通常采用Mel频率倒谱系数或其它类似特征，使用基于卷积神经网络和长短时记忆神经网络的混合模型或Transformer等模型，后处理通常采用CTC或BeamSearch等算法进行文本解码；针对语音识别任务，需要进行语音信号的预处理，例如语音分帧、语音滤波、语音标准化等；这些预处理步骤有助于降低噪声和增强语音信号的鲁棒性，提高语音信号的识别准确度；

对于人脸视频识别任务，可以采用深度学习中常用的一种模型——人脸识别模型，该模型通常由多层卷积神经网络组成，用于从视频帧中提取人脸特征，并提取每个人脸的特征向量，在人脸识别任务中特征提取通常采用卷积神经网络，模型预测使用基于DeepMetric Learning的模型或基于多任务学习的模型等，后处理通常使用欧氏距离或余弦相似度进行距离计算和阈值判断；针对人脸视频识别任务，需要进行数据预处理和数据增强；预处理步骤包括灰度化、归一化、图像增强等，可以提高模型的鲁棒性和识别准确度；数据增强包括随机裁剪、水平/竖直翻转、色彩抖动等，可以扩大数据规模，增加训练数据的多样性，提升模型泛化能力。

在实际应用过程中，大多与会人员未被会议视听分析模型识别过，因此要求会议视听分析模型具有有效的特征提取能力和自适应性，能够从输入语音或输入人脸视频中抽取多个层次的特征，并自动优化模型参数。

更为具体的，以人脸识别为例，人脸识别任务通常可以分为两个阶段：人脸检测和人脸识别。在人脸检测阶段，通过使用特定的算法可以从输入图像或视频中提取出人脸区域，取得需要的人脸图像。在人脸识别阶段，使用卷积神经网络模型对人脸图像进行分类或特征提取，从而判断该人脸的归属分类。对于从未识别过的多个人脸进行分类的任务，可以使用以下步骤：

数据预处理：将人脸图像进行预处理，包括图像缩放、颜色映射、亮度调整等操作，使得人脸图像能够适合进入卷积神经网络模型。

模型训练：使用类别标记的人脸数据进行卷积神经网络模型的训练，包括卷积神经网络结构和网络参数的调优。

模型测试：对于从未识别过的多个人脸，首先使用人脸检测算法提取人脸图像，然后将提取的人脸图像输入卷积神经网络模型中，进行预测和分类。

分类结果输出：人脸识别模型分类结果会输出对应的类别标记或属性信息；首次采集的人脸，进行独立分类，后续识别过程中将与该人脸分类相同的视频划分至该分类，从而完成对从未识别过的多个人脸的分类任务。

为了提升会议视听分析模型的性能和鲁棒性，在会议视听分析模型对语音和人脸视频进行识别分类之前，需要对语音和人脸视频进行数据预处理，包括语音和人脸视频的特征提取、数据增强、归一化、降噪等。预处理的效果对模型的性能和鲁棒性有很大影响。例如，在语音识别任务中，采用MFCC特征提取和数据增强，如音频加噪、音频速度变化等，可以提高模型的准确率和鲁棒性；在人脸识别任务中，采用数据增强，如旋转、对比度调整、随机裁剪等，可以提高模型的泛化能力和鲁棒性。

在本步骤中需要使用预先训练好的会议视听分析模型对与会人员的语音和人脸视频进行识别分类，通过对语音和人脸视频的分类结果为后续步骤中确定每个与会人员的发言时间节点，提供数据提取和处理的依据。

具体的，在S2中，会议视听分析模型已经对与会人员的语音进行了识别；因此在S3中，可以利用这些识别结果来获取每个与会人员的语音时间节点；一般的实现流程如下：

S31、根据S2得到的会议视听分析模型的识别结果，先对每个与会人员的语音进行预处理，比如去除噪声、增加语速、补充缺失部分等；

S32、对于每个与会人员的语音，可以根据其在时间轴上的概率分布情况，识别出其中具有代表性的话语或音节；可以选用一些常用的语音信号处理算法及模型，如时域和频域的特征抽取、隐马尔可夫模型或卷积神经网络等作为语音时间节点的识别方法；

S33、根据每个与会人员的语音时间节点，可以获得发言的起点和终点；取起点时，可以在概率曲线上寻找由低到高第一个超过一个预设阈值的位置；取终点时，可以在概率曲线上寻找由高到低的第一次下降超过一个预设阈值的位置；

S34、最终，将每个与会人员的发言起点和终点拼接起来，即可得到该与会人员在会议期间发言的时间节点；

需要注意的是，语音时间节点的精度和准确性会受到多方面因素的影响，比如语音本身的质量、环境噪声的大小、语速的变化、各种噪音的干扰等等；在实际的情况中，为了提高算法的鲁棒性和准确性，往往需要参考多种算法或模型来完成所有与会人员的语音的时间节点的识别。

在S3中，我们已经获取了每个与会人员的语音时间节点，接下来在S4中，我们需要根据这些时间节点来截取同一时间内相应与会人员的人脸视频和多媒体播放图像；具体步骤如下：

S41、根据会议视听分析模型的识别结果中的每个与会人员的语音时间节点，确定每个语音时间节点所在的时间段，通常以该语音时间节点的中心时间为基准，也称为语音重心时间；时间段的长度通常也需要根据实际需求来确定，通常是多个语音时间节点的平均长度或一个固定长度；

S42、根据确定的时间段，将所有与会人员的人脸视频和多媒体播放图像进行时间轴对齐，并按时间段进行分割；具体分割方法可以采用图像帧率等等方式进行实现；

S43、对于每个与会人员，根据其对应的语音时间节点所在的时间段，从该时间段的人脸视频和多媒体播放图像序列中，截取与该时间段对应的人脸视频和多媒体播放图像；

S44、为了使得后续处理更加高效并且可以在同一时间内展示多个视听元素，需要将所截取到的相同时间内的语音、人脸视频以及多媒体播放图像进行合并；具体实现方式可以通过音视频同步和合成技术来实现；

需要注意的是，截取到的人脸视频和多媒体播放图像可能需要经过特定的处理操作，如自动人脸识别、内容识别和语义分析等等；同样，视频质量和精度也可能受到很多因素的影响，包括景深、清晰度、光线、动态范围等等；因此在实际应用中，我们需要选择合适的算法和模型对视频进行处理和优化，在保证视频质量的同时，提高算法的效率和准确性。

在S5中，我们要将相同时间节点内的语音、人脸视频以及多媒体播放图像转换成同屏双显的单个视听文件，具体流程如下：

S51、将语音、人脸视频以及多媒体播放图像进行文件格式和编码的统一，以便于后续处理和合成；可以采用常见的音视频格式，如MP4、AVI、FLV等；

S52、对于语音和人脸视频，需要进行音视频同步，使得它们在时间轴上对齐；这可以通过时间轴上的时间戳来进行实现，具体可以采用时间戳对齐的方式进行实现；对于多媒体播放图像，它们通常都是固定时间长度的短片段，截取其中与上述时间戳内正在展示的内容部分即可；

S53、对于音视频的分辨率、画质等进行调整和优化，以便于显示在同屏幕上；这可以采用合适的算法和工具进行实现，如基于WGAN的图像生成算法、基于AI的图像增强和降噪算法等；

S54、对于音视频和多媒体播放图像进行双显合成，使得它们能够在同一屏幕上显示；根据实际需求，我们可以采用不同的合成方式，如画中画、分屏、拼接等；画中画模式适用于需要强调某一位与会人员发言时，将该人员的语音和人脸视频放在较大的区域显示；同时，将截取的部分多媒体播放图像放在小的画面中，反之亦可；

需要注意的是，不同的合成方式会对展示效果和交互体验产生影响，应该根据具体应用场景和需求进行选择和优化；同时，合成算法的准确性、效率和稳定性也会影响整个系统的可靠性和用户体验，需要在算法设计和实现中加以考虑。

S6、根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件；

在S6中，我们需要根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件；具体流程如下：

S61、根据S3中的识别结果，确定每个与会人员的身份；

S62、根据身份，为每个与会人员建立一个个人视听库，并对其进行命名和编号；

S63、根据S4中截取的视频和音频文件，将每位与会人员的视听文件进行归类和存储；可以采用文件夹、数据库、云存储等方式进行管理；

S64、对于每位与会人员，可以根据其在会议中的发言时长和次数等信息，对其视听库中的文件进行分类和排序，并提供检索功能；

S65、为了方便管理和使用，可以对视听库中的每个文件进行元数据标注，如文件名、时间、持续时长、涉及议题、播放设备等信息；元数据标注可以通过人工或自然语言处理技术进行完成；

需要注意的是，视听库中的文件需要进行备份和保护，以避免意外删除或丢失；同时，也需要进行权限控制和保密处理，以防止文件泄露和滥用；此外，在处理个人隐私信息时，还需要遵守相关法律法规和道德规范，保护每位与会人员的合法权益。

需要说明的是，上述各类参数仅仅是较为典型的部分参数，其他能够被获取及利用的参数也均在本发明的保护范围内。

实施例二

如图3所示，一种智能多媒体视听图像处理系统，所述系统包括：

数据检索模块，用于根据需求检索视听图像；

在本实施例中，数据采集模块负责获取会议现场的语音、人脸视频和多媒体播放图像数据，并将数据存储到服务器中供后续处理使用；会议视听分析模块利用预处理的数据，对于与会人员的语音和人脸进行分析，通过预先训练好的视听分析模型，实现对与会人员的识别，同时提供每个与会人员的语音时间节点信息；数据处理模块是对多媒体数据的处理，包括分割和归类多媒体数据，根据语音时间节点截取相同时间内的人脸视频和多媒体播放图像，并对这些数据进行转换和存储；个人视听库模块为每位与会人员建立个人视听库，并将经过处理的数据存储到对应的视听库中；数据检索模块提供多种检索方式，例如按会议时间、与会人员、关键字等属性进行检索，快速找到需要的视听图像；多媒体播放模块实现同屏双显的多媒体播放，将同一时间节点内的语音、人脸视频和多媒体播放图像同步展示在同屏幕上；系统管理模块包括人员管理、权限管理、数据清理和维护等功能，用于系统的日常维护和管理；

最终，完成以上步骤后，系统可以支持用户在个人电脑或移动设备上搜索观看任何与会人员的发言并快速跳转，从而提高会议总结的效率和质量。

前述实施例一中的智能多媒体视听图像处理方法的各种变化方式和具体实施例同样适用于本实施例的智能多媒体视听图像处理系统,通过前述对智能多媒体视听图像处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中智能多媒体视听图像处理系统的实施方法,所以为了说明书的简洁,在此不再详述。

此外,本申请还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述控制输出数据的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种智能多媒体视听图像处理方法，其特征在于，所述方法包括以下步骤：

S1、获取与会人员的语音、人脸视频以及多媒体播放图像；

S3、根据会议视听分析模型的识别结果，获取每个与会人员的语音时间节点；获取每个与会人员语音时间节点的方法包括：

S34、将每个与会人员的发言起点和终点拼接起来，得到该与会人员在会议期间发言的语音时间节点；

2.如权利要求1所述的智能多媒体视听图像处理方法，其特征在于，所述会议视听分析模型包括语音识别模型和人脸识别模型；

3.如权利要求2所述的智能多媒体视听图像处理方法，其特征在于，在会议视听分析模型对语音和人脸视频进行识别之前，需要对语音和人脸视频进行数据预处理，包括语音和人脸视频的特征提取、数据增强、归一化、及降噪。

4.如权利要求2所述的智能多媒体视听图像处理方法，其特征在于，人脸识别模型对首次采集的人脸进行独立分类，在后续识别过程中将与该人脸分类相同的视频划分至该分类，完成对从未识别过的多个人脸的分类任务。

5.如权利要求1所述的智能多媒体视听图像处理方法，其特征在于，截取相同时间内语音对应的与会人员的人脸视频和多媒体播放图像的方法包括：

6.如权利要求5所述的智能多媒体视听图像处理方法，其特征在于，实现所述S5的方法包括：

S52、对于语音和人脸视频，需要进行音视频同步，使得它们在时间轴上对齐；对于多媒体播放图像，截取多媒体播放图像中与对应语音所在的时间段内正在展示的内容部分；

S53、对于音视频的分辨率、画质进行调整和优化；

S54、将音视频与截取的多媒体播放图像进行双显合成，使得它们能够在同一屏幕上显示，得到同屏双显的单个视听文件。

7.一种智能多媒体视听图像处理系统，其特征在于，所述系统包括：

会议视听分析模块，用于存储会议视听分析模型，并利用预先训练的会议视听分析模型识别与会人员的语音及人脸视频，实现对与会人员的识别，并提供每个与会人员的语音时间节点信息；所述提供每个与会人员语音时间节点信息，包括：根据得到的会议视听分析模型的识别结果，对每个与会人员的语音进行预处理；对于每个与会人员预处理后的语音，根据其在时间轴上的概率分布情况，识别出其中具有代表性的话语或音节；根据每个与会人员的语音时间节点，获得发言的起点和终点；将每个与会人员的发言起点和终点拼接起来，得到该与会人员在会议期间发言的语音时间节点；

数据处理模块，用于分割和归类多媒体数据，根据语音时间节点截取相同时间内的人脸视频和多媒体播放图像，并将相同时间节点内的语音、人脸视频以及多媒体播放图像转换成同屏双显的单个视听文件，并存储；

个人视听库模块，用于根据会议视听分析模型的识别结果，为每位与会人员建立个人视听库，并存储属于该与会人员的多个视听文件，并将经过处理的数据存储到对应的视听库中；

数据检索模块，用于根据需求检索视听图像；

系统管理模块，包括人员管理、权限管理、数据清理、及维护功能，用于系统的日常维护和管理。

8.一种智能多媒体视听图像处理的电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1-6中任一项所述方法中的步骤。

9.一种智能多媒体视听图像处理方法的存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法中的步骤。