CN116405635A

CN116405635A - 一种基于边缘计算的多模态会议记录方法及系统

Info

Publication number: CN116405635A
Application number: CN202310643786.8A
Authority: CN
Inventors: 郭锐; 李士宽; 许志国; 马晓红; 张建成; 陈纪旸; 鹿全礼; 任强; 宁伟; 祝天成; 刘永泉; 杨锐
Original assignee: Shandong Center Information Technology Ltd By Share Ltd
Current assignee: Shandong Center Information Technology Ltd By Share Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-07-07

Abstract

本发明公开了一种基于边缘计算的多模态会议记录方法及系统，涉及边缘计算技术领域。该方法包括：获取会议中说话人的实时视频数据和音频数据；将视频数据和音频数据传输到边缘计算设备的唇动识别模型中，利用唇动识别模型确定说话人的第一身份信息；将音频数据传输到边缘计算设备的语音识别模型中，利用语音识别模型确定说话人的第二身份信息；采用身份判定模型确定最终说话人身份；将音频数据按照说话人身份分别进行转译得到文本数据，形成会议记录。本发明在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备，将计算任务卸载到边缘设备，提高了运算能力，可以在多场景下实时识别对应人员身份并快速记录会议内容。

Description

一种基于边缘计算的多模态会议记录方法及系统

技术领域

本发明涉及边缘计算技术领域，尤其涉及一种基于边缘计算的多模态会议记录方法及系统。

背景技术

随着人工智能技术的不断发展，人脸识别、唇动识别、语音识别、文本转译等技术在人机交互中有了突飞猛进的进展，在会议人员身份识别、会议记录等场景中都有应用，但是单一模态识别难以满足多场景、多环境的会议人员身份识别及会议记录要求，多模态识别分析技术能让设备看清、听清，更能深入理解交流场景背后的各方表达的内容，减少会议中的错误记录。

然而，基于多模态识别分析技术的会议记录结合了多种人工智能处理技术，需要更加复杂的神经网络模型来支撑，在进行会议记录时要求人员身份定位要准确、会议内容要及时，需要大量的计算资源和高通信效率，当前的计算场景难以支撑。目前的终端计算能力有限，而多模态人员身份识别、会议记录设备中多模态计算模型的计算需要大量的资源消耗，因此目前的终端设备大多采用单模态处理，难以实现多模态身份识别、会议记录的要求。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于边缘计算的多模态会议记录方法及系统，在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备，将计算任务卸载到边缘设备，提高了运算能力，可以在多场景下实时识别对应人员身份并快速记录会议内容。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于边缘计算的多模态会议记录方法，包括以下步骤：

获取会议中说话人的实时视频数据和音频数据；

将视频数据和音频数据传输到边缘计算设备的唇动识别模型中，利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征，将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对，确定说话人的第一身份信息；

将音频数据传输到边缘计算设备的语音识别模型中，利用语音识别模型对音频数据进行转换得到当前说话人的音频特征，将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对，确定说话人的第二身份信息；

其中，预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征；

采用身份判定模型对第一身份信息和第二身份信息进行综合判定，确定最终说话人身份；

将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据，形成会议记录。

进一步的，唇动识别模型的构建过程为：

将已有训练样本中的视频数据按照时间排序提取唇动数据；

将唇动数据作为动态变化特征的最小训练单元；

将唇动数据进行说话人唇部动作的分解，按照分解数据得到连续帧点的唇部位置变化，作为静态瞬时特征的最小训练单元；

对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。

进一步的，语音识别模型的构建过程为：

将已有训练样本中的音频数据转换为频谱信号；

利用小波变换去除频谱信号中的噪声信息；

利用去噪后的频谱信号中的频点能量确定不同人员的音色特征；

利用音色特征进行训练得到语音识别模型。

进一步的，所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。

更进一步的，所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。

进一步的，将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为：

构建文本转译模型，根据文本转译模型将音频数据转化为数字向量；

从预设的转译表中查找与数字向量相映射的文字；对文字进行组合得到音频数据对应的文本数据。

更进一步的，根据文本转译模型将音频数据转化为数字向量的具体步骤为：

依据确定的说话人身份，将说话人身份的音频数据进行音频划分，得到连续采样值；

对连续采样值进行算术平均处理，得到所述音频数据对应的滤波值；

对所述滤波音频进行信号切割处理，得到音频段，并将所述音频段进行向量化处理，得到数字向量。

本发明第二方面提供了一种基于边缘计算的多模态会议记录系统，包括：

数据采集模块，被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册，形成会议人员信息库；实时采集会议中说话人的视频数据和音频数据；

边缘计算模块，被配置为对数据进行计算和处理；所述边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块和文本转译模块；

唇动识别模块，被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征，将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对，确定说话人的第一身份信息；

语音识别模块，被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征，将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对，确定说话人的第二身份信息；

身份判定模块，被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定，确定最终说话人身份；

文本转译模块，被配置为将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据，形成会议记录。

进一步的，还包括网络传输模块，网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。

进一步的，唇动识别模块和语音识别模块在识别过程中，将识别任务卸载到边缘计算设备中，生成任务卸载的相应指令，根据指令在对应的边缘计算模块执行相应的识别任务。

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种基于边缘计算的多模态会议记录方法及系统，将视频数据、音频数据利用边缘计算设备的唇动识别模型和语音识别模型，对说话人身份进行多模态综合判定，保障了说话人身份识别的准确性。确定说话人身份之后，利用说话人的音频数据通过边缘计算设备的文本转译模型转译成不同说话人对应的文本数据，自动形成会议记录。上述唇动识别、语音识别、文本转译过程处理充分利用了边缘计算设备，将计算任务卸载到边缘设备，提高了运算能力，提升了响应时间，同时自动生成会议记录，提高了会议记录的效率及会议记录内容的准确性，实现了多模态技术下的实时会议记录。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于边缘计算的多模态会议记录方法的流程图；

图2为本发明实施例一中多模态身份识别流程示意图；

图3为本发明实施例二中基于边缘计算的多模态会议记录系统的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

应当说明的是，本发明实施例中，涉及到会议视频和音频及会议人员身份等相关的数据，当本发明以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关法律法规和标准。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

实施例一：

本发明实施例一提供了一种基于边缘计算的多模态会议记录方法，如图1所示，包括以下步骤：

步骤1，将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册，形成会议人员信息库；实时采集会议中说话人的视频数据和音频数据，将视频数据、音频数据通过网络传输模块传输至边缘计算模块。其中，边缘计算模块中部署有唇动识别模型、语音识别模型、身份判定模型和文本转译模型。

步骤2，将视频数据和音频数据传输到边缘计算设备的唇动识别模型中，利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征，将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对，确定说话人的第一身份信息I1（初始值设为0）。

步骤3，将音频数据传输到边缘计算设备的语音识别模型中，利用语音识别模型对音频数据进行转换得到当前说话人的音频特征，将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对，确定说话人的第二身份信息I2；

步骤4，采用身份判定模型对第一身份信息I1和第二身份信息I2进行综合判定，确定最终说话人身份I；

步骤5，根据判定说话人的身份，采用文本转译模型将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据，自动形成所需的会议记录，并将会议记录存储只存储设备中。

步骤1中，将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册，形成会议人员信息库；实时采集会议中说话人的视频数据和音频数据。

具体的，利用音、视频采集设备对视频数据、音频数据进行采集，进行说话人基本信息的录入，说话人基本信息包含姓名等信息，将说话人的身份信息及关联的唇动特征、语音特征信息存储在采集设备中，形成会议人员的信息库。

在一种具体的实施方式中，将视频数据进行序列帧的拆分，根据唇部图像的时序变化，对唇部关键点进行自动锁定，利用关键点信息提取唇动特征信息；

将音频数据进行音频拆分，得到对应的频谱信号，利用频谱信号中的频点能量确定语音特征信息。

本实施例中，视频数据、音频数据均不上传到云端，利用网络传输模块在局域网内传输到边缘计算模块的边缘计算设备中进行处理和计算。

由于各种人工智能模型需求数据量很大，如果利用云计算资源，会造成巨大的网络传输数据的压力，而且计算时效性比较差。因此，将视频数据、音频数据的计算放在边缘计算设备中，不在云端处理，降低网络传输的压力，通过靠近采集设备的边缘侧进行数据的处理，保证数据处理的时效性。如图2所示，本实施例将采集的说话人的视频数据、音频数据通过网络传输模块推送至边缘计算模块中，利用其中的唇动识别模型和语音识别模型分别进行身份识别，并将唇动识别模型和语音识别模型的身份识别结果通过身份判定模型进行综合判定，得到最终的身份识别结果。

步骤2中，根据边缘计算模块接收的视频数据中的唇部数据，确定唇动识别模型的识别任务，生成任务卸载的唇动识别指令，根据唇动识别指令，在对应的边缘计算模块执行唇动识别模型，唇动识别模型使用ResNet-34网络进行特征提取，利用全连接层实现说话人身份的识别任务，得到所述视频数据中的第一身份信息I1。

在一种具体的实施方式中，唇动识别模型的构建过程为：

将已有训练样本中的视频数据按照时间排序提取唇动数据；

将唇动数据作为动态变化特征的最小训练单元；

在一种具体的实施方式中，使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征。使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征，再沿通道融合，通过卷积网络和三个全连接层得到唇动识别模型。

步骤3中，根据边缘计算模块接收的音频数据，确定所述语音识别模型的识别任务，生成任务卸载的语音识别指令，根据语音识别指令，在对应的边缘计算模块执行语音识别模型，并通过语音识别模型识别说话人的音频信息，确定第二身份信息I2。

在一种具体的实施方式中，语音识别模型的构建过程为：

将已有训练样本中的音频数据转换为频谱信号；

利用小波变换去除频谱信号中的噪声信息；

利用音色特征进行训练得到语音识别模型。

步骤4中，身份判定模型将第一身份信息I1和第二身份信息I2通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份I。其加权值可以根据第一身份信息和第二身份信息的决策占比进行自定义设置。

在一种具体的实施方式中，I=n*I1+(1-n)*I2，

其中，n<(0,1]为系统设置的加权值，当且仅当I2=0时，n=1。

步骤5中，根据所述边缘计算模块中的文本转译信息，确定文本转译模型在边缘计算模块的转译任务，生成任务卸载的转译指令，根据转译指令，在对应的边缘计算模块执行文本转译模型，并通过文本转译模型，将音频数据按照说话人身份分别进行转译得到文本数据。

在一种具体的实施方式中，将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为：

构建文本转译模型，利用文本转译模型依据确定的说话人身份，将说话人身份的音频数据进行音频划分，得到连续采样值；

对所述滤波音频进行信号切割处理，得到音频段，并将所述音频段进行向量化处理，得到数字向量；

实施例二：

本发明实施例二提供了一种基于边缘计算的多模态会议记录系统，如图3所示，包括：数据采集模块、网络传输模块、边缘计算模块和存储模块。数据采集模块用于进行数据采集和身份注册，将采集的数据通过网络传输模块传输至边缘计算模块。边缘计算模块，用于对数据进行计算和处理；边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块、文本转译模块和语义识别模块。通过唇动识别模块和语音识别模块对说话人身份分别进行识别，并通过身份判定模块对两个模块的识别结果进行综合判定。文本转译模块根据确认的说话人身份进行分别转译，通过语义识别模块生成会议记录，并将会议记录储存至存储模块的存储设备中。

在一种具体的实施方式中，数据采集模块，被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册，形成会议人员信息库；实时采集会议中说话人的视频数据和音频数据；

网络传输模块，网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。

唇动识别模块，被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征，将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对，确定说话人的第一身份信息。

语音识别模块，被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征，将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对，确定说话人的第二身份信息。

在一种具体的实施方式中，唇动识别模块和语音识别模块在识别过程中，将识别任务卸载到边缘计算设备中，生成任务卸载的相应指令，根据指令在对应的边缘计算模块执行相应的识别任务。

具体的，将唇动识别模型的识别任务卸载到边缘计算设备中，生成任务卸载的唇动识别指令，根据唇动识别指令，在对应的边缘计算模块执行识别任务，得到视频数据中的第一身份信息I1。

将语音识别模型的识别任务卸载到边缘计算设备中，生成任务卸载的语音识别指令，根据语音识别指令，在对应的边缘计算模块执行识别任务，得到音频数据中的第二身份信息I2。

身份判定模块，被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定，确定最终说话人身份。

在一种具体的实施方式中，根据文本转译模型在所述边缘计算模块的转译任务，生成任务卸载的转译指令，根据转译指令，在对应的边缘计算模块执行文本转译模型，并通过文本转译模型，将确定说话人身份的音频数据转译为文本数据；

存储模块包括存储设备，被配置为存储边缘计算模块处理得到的会议记录。

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于边缘计算的多模态会议记录方法，其特征在于，包括以下步骤：

获取会议中说话人的实时视频数据和音频数据；

2.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，

唇动识别模型的构建过程为：

将已有训练样本中的视频数据按照时间排序提取唇动数据；

将唇动数据作为动态变化特征的最小训练单元；

3.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，语音识别模型的构建过程为：

将已有训练样本中的音频数据转换为频谱信号；

利用小波变换去除频谱信号中的噪声信息；

利用音色特征进行训练得到语音识别模型。

4.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。

5.如权利要求4所述的基于边缘计算的多模态会议记录方法，其特征在于，所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。

6.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为：

7.如权利要求6所述的基于边缘计算的多模态会议记录方法，其特征在于，根据文本转译模型将音频数据转化为数字向量的具体步骤为：

8.一种基于边缘计算的多模态会议记录系统，其特征在于，包括：

9.如权利要求8所述的基于边缘计算的多模态会议记录系统，其特征在于，还包括网络传输模块，网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。

10.如权利要求8所述的基于边缘计算的多模态会议记录系统，其特征在于，唇动识别模块和语音识别模块在识别过程中，将识别任务卸载到边缘计算设备中，生成任务卸载的相应指令，根据指令在对应的边缘计算模块执行相应的识别任务。