CN113746822A

CN113746822A - 一种远程会议管理方法及系统

Info

Publication number: CN113746822A
Application number: CN202110981739.5A
Authority: CN
Inventors: 戴李
Original assignee: Anhui Chuangbian Information Technology Co ltd
Current assignee: Guangzhou Bonbs Electronic Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-03
Anticipated expiration: 2041-08-25
Also published as: CN113746822B

Abstract

本发明公开了一种远程会议管理方法及系统，包括：接收在用户权限范围内创建的会议创建请求数据，并基于所述请求数据生成会议通知数据发送给参会用户端；接收用户的参会请求以及用户登录信息，经过匹配判断确定允许加入会议的用户并生成签到记录；接收音频设备采集的音频数据和视频图像采集设备的图像数据并进行用户户端语音数据的识别和目标说话人的匹配以生成会议纪要；基于会议数据进行分类存档。本发明能够实现主会议室、多个子会议室和多个个人参会终端的会议过程管理，让会议从会议室走向个人，实现丰富的应用场景，支持个人手机和电脑在任何一个地方接入。

Description

一种远程会议管理方法及系统

技术领域

本发明涉及远程会议技术领域，具体涉及一种远程会议管理方法及系统。

背景技术

随着企业的发展，迫切需要远程会议来实现企业各个部门之间的互动分享。会议规模的不断增长，产生出了很多诸如用工成本高、系统操作复杂、与会者自助服务体验差等问题。种种迹象说明，现今，会议已经成为人们日常生活和工作中快速获取信息的一种重要的途径。但是，每一次进行会议对于会议前、会议中、会议后的包括会议创建信息、参会人员签到信息、会议中发言人的意见信息等各种会议记录数据的整理汇总工作都要花费人们大量的时间和经历，降低会议效率。

发明内容

针对上述现有技术存在的问题，本发明提供了一种远程会议管理方法，包括如下步骤：

接收在用户权限范围内创建的会议创建请求数据，并基于所述请求数据生成会议通知数据发送给参会用户端；

接收用户的参会请求以及用户登录信息，经过匹配判断确定允许加入会议的用户并生成签到记录；

接收音频设备采集的音频数据和视频图像采集设备的图像数据并进行用户户端语音数据的识别和目标说话人的匹配以生成会议纪要；

接收会议结束信号并基于参会签到信息、音频数据、视频数据以及生成会议纪要进行分类存档。

进一步的，所述接收的音频设备采集的音频数据和视频图像采集设备的图像数据包括：主会议室的音频数据和图像视频数据以及将主会议室的音频数据和图像视频数据经过网关模块传输到多个子会议室和多个个人参会终端的音频和视频播放设备进行实时播放时，多个子会议室和多个个人参会终端的音频和视频采集设备经过网关模块传输到主会议室的音频数据和图像视频数据。

进一步的，所述用以生成会议纪要的语音数据识别方法包括：

在所述接收的音频数据中分别设定有表示音频数据是主会议室、子会议室以及个人参会终端的音频来源类型，

在所述音频来源类型为主会议室或者子会议室的情况下，通过估计会议室背景噪声、补偿会议室背景噪声进行去噪，并经过会议纪要文件模板调用以及语音识别、文本转化获得会议记录文本，通过视频图像采集数据确定当前音频数据对应的目标说话人，

在所述音频来源类型为个人参会终端的情况下，通过会议纪要文件模板调用以及语音识别、文本转化获得会议记录文本，通过个人参会终端登录信息确定当前音频数据对应的目标说话人。

进一步的，所述估计会议室背景噪声包括：

提取所述音频数据的特征数据；

调用具有待确定第一类参数和第二类参数的会议室背景噪声的分布模型；

基于待确定的会议室背景噪声的分布模型输出所述音频数据的特征数据的概率，在该概率值最大的条件下获取会议室背景噪声的分布模型中的第一类参数和第二类参数的估计值，获得确定的会议室背景噪声的分布模型。

进一步的，所述获取会议室背景噪声的分布模型中的第一类参数和第二类参数的估计值的方法包括：

(1)初始化第一类参数和第二类参数并设定最大迭代次数和第一更新误差最大阈值；

(2)基于当前迭代次数的第一类参数和第二类参数数值获取分布模型中每个子分布模型输出所述音频数据的特征数据的概率值；

(3)基于输出的多个所述概率值更新第一类参数和第二类参数数值；

(4)判断所述第一类参数和第二类参数数值的更新数值是否大于第一更新误差最大阈值，若是，则停止对第一类参数和第二类参数的迭代获取，否则进入下一步；

(5)判断当前迭代次数是否大于最大最大迭代次数，若是，则停止对第一类参数和第二类参数的迭代获取，否则回到(2)。

进一步的，所述初始化第一类参数和第二类参数采用模糊C均值聚类算法。

进一步的，所述模糊C均值聚类算法包括：

(1)基于第一类参数和第二类参数在求解空间内的组合作为样本；

(2)初始化每个样本xj属于i类的隶属度获得隶属度矩阵；

(3)基于样本xj属于每个类的概率，确定概率最大的类为样本xj所属的类，并更新聚类中心和隶属度矩阵，所属聚类中心和隶属度矩阵的更新值根据所有样本分别属于每一类的平方距离总和趋向最小的变化方向时对应的聚类中心和隶属度矩阵的更新方法确定；

(4)判断隶属度矩阵的更新值是否大于预设第二更新误差最大阈值，若是，则停止算法并获得聚类中心和隶属度矩阵，否则，回到步骤(3)。

进一步的，所述补偿会议室背景噪声，是将接收到的音频数据减去a倍的会议室背景噪声估计值，其中参数a为k倍的当前时刻接收到的音频数据与当前时刻前的k个时刻接收的音频数据的总和的比值。

本发明还提供了一种远程会议管理系统，包括：

会议创建单元，用于接收在用户权限范围内创建的会议创建请求数据，并基于所述请求数据生成会议通知数据发送给参会用户端；

参会人员确定单元，用于接收用户的参会请求以及用户登录信息，经过匹配判断确定允许加入会议的用户并生成签到记录；

会议纪要生成单元，用于接收音频设备采集的音频数据和视频图像采集设备的图像数据并进行用户户端语音数据的识别和目标说话人的匹配以生成会议纪要；

会议数据分类存档单元，用于接收会议结束信号并基于参会签到信息、音频数据、视频数据以及生成会议纪要进行分类存档。

本发明还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现上述的一种远程会议管理方法。

本发明的一种远程会议管理方法及系统，具备如下有益效果：

1.本发明的远程会议管理方法能够实现主会议室、多个子会议室和多个个人参会终端的会议过程管理，让会议从会议室走向个人，实现丰富的应用场景，支持个人手机和电脑在任何一个地方接入，同时，基于自动生成会议纪要解决了会议过程中高效的集中的记录会议所提议内容，避免参会人员手记遗漏或者会后整理的不准确不完整。

2.本发明通过通过对音频数据中的会议室背景噪声识别和检测，进行去噪，提高了音频数据识别的准确性，进一步提高了文本转化获得的会议记录文本的准确性和可读性。

3.本发明在会议室背景噪声识别中，对于会议室背景噪声分布模型的参数估计通过模糊C均值聚类算法进行初始化，减少了会议室背景噪声分布模型的参数迭代更新的迭代次数，缩短了会议室背景噪声分布模型的参数估计的获取时间，同时避免会议室背景噪声分布模型的参数初始化的不适当选择造成的无法估计分布模型参数的问题。

附图说明

图1是本发明的一种远程会议管理方法的整体流程图；

图2是本发明的一种远程会议管理系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例提供的一种远程会议管理方法，包括如下步骤：

接收在用户权限范围内创建的会议创建请求数据，并基于所述请求数据生成会议通知数据发送给参会用户端，具体的，该步骤中，会议创建请求数据包括会议时间、主题内容、会议资料、参会人员等；

接收用户的参会请求以及用户登录信息，经过匹配判断确定允许加入会议的用户并生成签到记录；具体的，该步骤中，通过用户登录信息确定用户身份信息，用户登录信息包括基于用户终端的视频图像采集设备采集的人脸数据，基于该登录信息，进行人脸识别并与预设参会用户端进行匹配判断用户终端的参会权限，通过确定的人脸身份信息与会议创建请求数据中的参会人员在数据库中的人脸进行对比，确认会议创建请求数据中的参会人员实际是否参加会议；

本实施例的远程会议管理方法能够实现主会议室、多个子会议室和多个个人参会终端的会议过程管理，让会议从会议室走向个人，实现丰富的应用场景，支持个人手机和电脑在任何一个地方接入，能够在人员出差路途中及其他移动场景下无法在会议室中参加会议时，可通过个人终端参加会议，同时，基于自动生成会议纪要解决了会议过程中高效的集中的记录会议所提议内容，避免参会人员手记遗漏或者会后整理的不准确不完整。

本实施例的一种远程会议管理方法，还包括在未接收到会议结束信号之前，对每个用户终端的通信连接状态进行检测判断，对于确定为通信中断的终端重新建立连接，同时监控视频会议中多个设备及网络主干链路运行情况，发现问题时及时启用备份设备，保障视频会议顺利召开。

上述接收的音频设备采集的音频数据和视频图像采集设备的图像数据包括：主会议室的音频数据和图像视频数据以及将主会议室的音频数据和图像视频数据经过网关模块传输到多个子会议室和多个个人参会终端的音频和视频播放设备进行实时播放时，多个子会议室和多个个人参会终端的音频和视频采集设备经过网关模块传输到主会议室的音频数据和图像视频数据。

进一步的，用以生成会议纪要的语音数据识别方法包括：

具体的，通过视频图像采集数据确定当前音频数据对应的目标说话人，包括基于视频图像中的连续M帧图像进行人脸检测，获取人脸检测框区域，基于所述人脸检测框区域获取唇部区域并进行唇动检测，该步骤通过训练完成的卷积神经网络模型进行唇部区域获取，并基于连续M帧图像中的唇部区域特征进行对比判断唇动变化情况，基于同一时刻的视频图像数据分析的目标说话人和音频数据中分析的语音转化的文本数据，结合生成该目标说话人说话期间的会议纪要数据。

本实施例中，通过对音频数据中的会议室背景噪声识别和检测，进行去噪，提高了音频数据识别的准确性，进一步提高了文本转化获得的会议记录文本的准确性和可读性。

上述估计会议室背景噪声包括如下步骤：

提取所述音频数据的特征数据；

基于待确定的会议室背景噪声的分布模型输出所述音频数据的特征数据的概率，在该概率值最大的条件下获取会议室背景噪声的分布模型中的第一类参数和第二类参数的估计值，获得确定的会议室背景噪声的分布模型，其中，获取会议室背景噪声的分布模型中的第一类参数和第二类参数的估计值的方法包括：

(1)初始化第一类参数和第二类参数并设定最大迭代次数和第一更新误差最大阈值，该第一类参数为当前音频数据的特征数据所属于的子分布模型，第二类参数是子分布模型中的均值和方差；

(2)基于当前迭代次数的第一类参数和第二类参数数值获取分布模型中每个子分布模型输出所述音频数据的特征数据的概率值γ(i,k)；

(3)基于输出的多个所述概率值更新第一类参数和第二类参数数值，该更新公式包括：第一类参数

第二类参数中子分布模型中的均值

第二类参数中子分布模型中的方差

其中,M为子分布模型个数；

(4)判断所述第一类参数和第二类参数数值的更新数值是否大于第一更新误差最大阈值，若是，则停止对第一类参数和第二类参数的迭代获取，否则进入下一步；该第一更新误差最大阈值包括

和

每次更新后的值与未更新前的值的差值的最大阈值，若其中一个差值超出其对应的最大阈值，则停止对第一类参数和第二类参数的迭代获取；

上述步骤中初始化第一类参数和第二类参数采用模糊C均值聚类算法，该模糊C均值聚类算法包括如下步骤：

(2)初始化每个样本x_j属于i类的隶属度μ_i(x_j)获得隶属度矩阵；

(3)基于样本x_j属于每个类的概率，确定概率最大的类为样本xj所属的类，并更新聚类中心和隶属度矩阵，所属聚类中心和隶属度矩阵的更新值根据所有样本分别属于每一类的平方距离总和趋向最小的变化方向时对应的聚类中心和隶属度矩阵的更新方法确定；

该步骤中，所有样本分别属于每一类的平方距离总和为：

其中，k为聚类类别个数，n为样本个数，x_j为样本，C_i为第i类聚类中心，m为隶属度因子，本实施例中m＝2；在F1趋向最小的变化方向下，对应的聚类中心和隶属度矩阵的更新公式为：

基于上述会议室背景噪声的估计，对会议室背景噪声的补偿方法采用将接收到的音频数据减去a倍的会议室背景噪声估计值，其中参数a为k倍的当前时刻接收到的音频数据与当前时刻前的k个时刻接收的音频数据的总和的比值，其中a值的可变设置，能够自适应匹配不同会议室背景噪声特性，改善对会议室背景噪声的降噪效果。

本实施例还提供了一种远程会议管理系统，包括：

关于上述远程会议管理系统的具体限定可以参见上文中对于上述远程会议管理方法的限定，在此不再赘述。上述远程会议管理系统中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个单元对应的操作。

本实施例还提供了一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的一种远程会议管理方法。

本实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现上述的一种远程会议管理方法。

上述电子设备包括：至少一个处理器、存储器、用户接口和至少一个网络接口。电子设备中的各个组件通过总线系统耦合在一起。可以理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。其中，用户接口可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。该电子设备的处理器用于提供计算和控制能力，电子设备的存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者，本实施例中的存储器存储有操作系统、计算机程序和数据库，该计算机程序被处理器执行时以实现上述一种远程会议管理方法。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种远程会议管理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种远程会议管理方法，其特征在于，所述接收的音频设备采集的音频数据和视频图像采集设备的图像数据包括：主会议室的音频数据和图像视频数据以及将主会议室的音频数据和图像视频数据经过网关模块传输到多个子会议室和多个个人参会终端的音频和视频播放设备进行实时播放时，多个子会议室和多个个人参会终端的音频和视频采集设备经过网关模块传输到主会议室的音频数据和图像视频数据。

3.根据权利要求1所述的一种远程会议管理方法，其特征在于，所述用以生成会议纪要的语音数据识别方法包括：

4.根据权利要求3所述的一种远程会议管理方法，其特征在于，所述估计会议室背景噪声包括：

提取所述音频数据的特征数据；

5.根据权利要求4所述的一种远程会议管理方法，其特征在于，所述获取会议室背景噪声的分布模型中的第一类参数和第二类参数的估计值的方法包括：

6.根据权利要求5所述的一种远程会议管理方法，其特征在于，所述初始化第一类参数和第二类参数采用模糊C均值聚类算法。

7.根据权利要求6所述的一种远程会议管理方法，其特征在于，所述模糊C均值聚类算法包括：

(2)初始化每个样本xj属于i类的隶属度获得隶属度矩阵；

8.根据权利要求5所述的一种远程会议管理方法，其特征在于，所述补偿会议室背景噪声，是将接收到的音频数据减去a倍的会议室背景噪声估计值，其中参数a为k倍的当前时刻接收到的音频数据与当前时刻前的k个时刻接收的音频数据的总和的比值。

9.一种远程会议管理系统，其特征在于，包括：

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至8任一项所述的一种远程会议管理方法。