CN109525800A

CN109525800A - 一种远程会议语音识别数据传输方法

Info

Publication number: CN109525800A
Application number: CN201811323511.1A
Authority: CN
Inventors: 何镝; 诸健文; 胡红林; 周骋
Original assignee: Jiangxi Guotai Limin Information Technology Co Ltd
Current assignee: Jiangxi Guotai Limin Information Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-26

Abstract

本发明是一种远程会议语音识别数据传输方法，包括若干个参会终端设备，每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏，所述语音处理模块分别连接声纹训练模块和麦克风阵列，所述中央处理器分别连接存储模块、摄像头、wifi模块、扬声器和显示屏，所述Wifi模块通过互联网连接语音识别服务器。本发明不仅构建了远程视频会议，还通过语音识别将会议上发言人的语音进行处理，并转换成文档进行存储，通过声纹识别确认发音人的身份，并对会议中不同的发言人进行身份记录。

Description

一种远程会议语音识别数据传输方法

技术领域

本发明涉及智能办公技术领域，具体涉及一种远程会议语音识别数据传输方法。

背景技术

远程视频会议系统是一种在位于两个或多个地点的多个用户之间提供语音和运动彩色画面的双向实时传送的视听会话型会议业务。大型远程视频会议系统在政府、企业、医疗等方面有广泛的应用。

传统的视频会议系统可以满足基本的远程视频会议要求，解决空间以及时间对会议的限制，但是部分重要的远程视频会议需要对会议内容进行记录，因为对于重要会议的内容需要进行记录与总结，在工作过程中需要对会议内容进行回顾调阅，视频可以录制，但是把一个会议视频全部看完耗时耗力，无法准确的定位关键会议内容，且保存视频耗费大量内存。如果通过人工方式进行记录，可能在记录内容上有所缺失或者不够完善。

语音识别技术是通过将语音指令或语音转换成计算机可识别的信息进行一系列交互处理的技术。

本发明提供一种远程会议语音识别数据传输方法，采用基于语音识别的多人远程会议记录系统，在远程会议的过程中分角色的进行会议内容记录，并生成完整的全过程的会议文档，方便之后的查阅，并且较小体积的文档基本不占用内存，节省硬件资源和人力资源。

发明内容

本发明的目的在于克服现有技术存在的问题，提供一种远程会议语音识别数据传输方法，通过语音识别将会议上发言人的语音进行处理，并转换成文档进行存储，通过声纹识别确认发音人的身份，并对会议中不同的发言人进行身份记录。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种远程会议语音识别数据传输方法，包括若干个参会终端设备，每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏，所述语音处理模块分别连接声纹训练模块和麦克风阵列，所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏，所述Wifi模块通过互联网连接语音识别服务器，该方法包括构建远程视频会议和生成会议记录文档，其中，

构建远程视频会议包括以下步骤：

步骤1.1）多个参会终端设备同步运行，打开显示屏，并开启摄像头和麦克风阵列分别对现场会议视频和音频进行拾取；

步骤1.2）摄像头捕捉视频画面传送到对应参会终端设备的中央处理器进行编解码，麦克风阵列搜集语音，一份传送至对应参会终端设备的中央处理器进行编解码，另一份传送至语音处理模块进行声纹特征对比以及降噪去回音；

步骤1.3）参会终端设备的中央处理器将编解码后的视频画面和语音通过wifi模块连接互联网传送至其它参会终端设备进行解码，解码后的视频画面通过显示器显示，解码后的语音通过扬声器播放，实现远程视频会议；

生成会议记录文档包括以下步骤：

步骤2.1）语音处理模块对步骤1.2）中传输来的语音流进行声纹特征对比、降噪、去回声处理，声纹训练模块从语音处理模块调用处理过的语音流进行处理并返回给语音处理模块建立声纹角色数据库；

步骤2.2）语音处理模块将处理后的语音流通过wifi模块上传至语音识别服务器进行识别转码，并生成会议记录文档；

步骤2.3）语音识别服务器将生成的会议记录文档回传至语音处理模块；

步骤2.4）语音处理模块通过中央处理器将生成的会议记录文档根据保存地址进行存储。

进一步的，所述步骤2.1）中，进行声纹特征对比之前，需对参会人员角色通过声纹训练模块定义需做声纹训练处理，对于训练结果需要对每段人声进行一次性定义，当语音处理模块接收到语音流时对声纹信息进行对比，如果比对成功，则判定发声人，如果比对失败，则进行默认定义。

进一步的，所述步骤2.2）中，语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比，最后生成会议记录文档。

进一步的，在声纹训练处理时，每个角色的定义需要一定量的训练语音流，在视频会议之前进行语音流训练，训练语音流传通过语音处理模块建立语音流类别，从而确定发声角色，类库中的语音流传输至声纹训练模块进行训练，声纹训练模块对训练语音流进行特征提取以及通过模型进行训练，当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义，从而建立声纹角色数据库，方便在今后的远程视频会议文档记录的时候进行调用。

进一步的，在远程视频会议过程中，参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比，当对比特征阈值R≤1时，表示角色语音能够与声纹角色数据库中的角色匹配，匹配成功后则定义记录角色，同时开始识别发声角色的语音内容，从而生成特定角色的文档，当对比特征阈值R＞1时，则标识无法在声纹角色数据库中匹配到准确定义的角色，则系统定义发声角色为默认角色，然后以默认角色的定义识别语音内容后生成文档。

本发明的有益效果是:

相对于现有技术，本发明结合语音识别与视频会议系统，弥补了传统远程视频会议系统无法进行会议文档记录的缺陷，满足了部门、企业等对于远程会议记录需求，方便了对于会议内容的调取与回顾，本发明通过麦克风阵列在本地实现降噪与回声处理，能够得到清晰的语音音频，进而能够通过语音识别服务器处理获取准确的文档内容，形成有效的文档进行存储。

附图说明

图1是本发明的运行结构图；

图2是本发明的系统结构图；

图3是本发明的语音流流程图；

图4是本发明的角色特征训练模型图；

图5是本发明的视频会议角色定义方法图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

如图1所示，一种远程会议语音识别数据传输方法，包括若干个参会终端设备，每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏，所述语音处理模块分别连接声纹训练模块和麦克风阵列，所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏，所述Wifi模块通过互联网连接语音识别服务器，在本实施例中，显示屏采用7寸液晶显示屏，通过屏线与主板连接，同时搭载8欧10W的功放音腔，通过排线与主板连接，顶部装配一块6麦克风阵列，通过排线连接主板。麦克风阵列上有轻触开关控制电源，同时搭载9颗5050RGB灯珠显示参会终端设备状态，参会终端设备电源输入使用12V2A的适配器供电，该方法包括构建远程视频会议和生成会议记录文档，其中，

如图2和图3所示，构建远程视频会议包括以下步骤：

步骤1.1）多个参会终端设备同步运行，在本实施例中，采用两个参会终端设备同步运行，打开显示屏，并开启摄像头和麦克风阵列分别对现场会议视频和音频进行拾取；

继续参照图2和图3所示，生成会议记录文档包括以下步骤：

所述步骤2.1）中，进行声纹特征对比之前，需对参会人员角色通过声纹训练模块定义需做声纹训练处理，对于训练结果需要对每段人声进行一次性定义，当语音处理模块接收到语音流时对声纹信息进行对比，如果比对成功，则判定发声人，如果比对失败，则进行默认定义。

所述步骤2.2）中，语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比，最后生成会议记录文档。

如图4所示，在声纹训练处理时，每个角色的定义需要一定量的训练语音流，在视频会议之前进行语音流训练，训练语音流传通过语音处理模块建立语音流类别，从而确定发声角色，类库中的语音流传输至声纹训练模块进行训练，声纹训练模块对训练语音流进行特征提取以及通过模型进行训练，当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义，从而建立声纹角色数据库，方便在今后的远程视频会议文档记录的时候进行调用。

在本实施例中，训练语音首先需要利用麦克风矩阵收集音频，通过语音处理模块进行去除静音、去除能量偏移以及消除信道影响等操作寻找特征；特征参数为13维的梅尔倒谱系数MFCC特征值及其一阶和二阶差分；然后通过最大似然估计的方法训练获得一个与角色有关的通用背景模型UBM；UBM其实是一个大型的GMM模型，它的训练数据是各个信道下角色的语音，用来训练表示与角色有关语音的特征空间分布；最后与传统的直接基于最大期望EM算法训练GMM的方法不同，每个角色的GMM是通过采用最大后验概率MAP的方法从UBM上自适应得到；每个角色的GMM由均值向量，协方差矩阵和混合权重组成。

如图5所示，在远程视频会议过程中，参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比，当对比特征阈值R≤1时，表示角色语音能够与声纹角色数据库中的角色匹配，匹配成功后则定义记录角色，同时开始识别发声角色的语音内容，从而生成特定角色的文档，当对比特征阈值R＞1时，则标识无法在声纹角色数据库中匹配到准确定义的角色，则系统定义发声角色为默认角色，然后以默认角色的定义识别语音内容后生成文档。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种远程会议语音识别数据传输方法，包括若干个参会终端设备，每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏，所述语音处理模块分别连接声纹训练模块和麦克风阵列，所述中央处理器分别连接存储模块、摄像头、麦克风阵列、wifi模块、扬声器和显示屏，所述Wifi模块通过互联网连接语音识别服务器，其特征在于，该方法包括构建远程视频会议和生成会议记录文档，其中，

构建远程视频会议包括以下步骤：

生成会议记录文档包括以下步骤：

2.根据权利要求1所述的远程会议语音识别数据传输方法，其特征在于，所述步骤2.1）中，进行声纹特征对比之前，需对参会人员角色通过声纹训练模块定义需做声纹训练处理，对于训练结果需要对每段人声进行一次性定义，当语音处理模块接收到语音流时对声纹信息进行对比，如果比对成功，则判定发声人，如果比对失败，则进行默认定义。

3.根据权利要求1或2所述的远程会议语音识别数据传输方法，其特征在于，所述步骤2.2）中，语音识别服务器对语音处理模块上传来的语音流进行角色特征识别对比以及语音内容识别对比，最后生成会议记录文档。

4.根据权利要求2所述的远程会议语音识别数据传输方法，其特征在于，在声纹训练处理时，每个角色的定义需要一定量的训练语音流，在视频会议之前进行语音流训练，训练语音流传通过语音处理模块建立语音流类别，从而确定发声角色，类库中的语音流传输至声纹训练模块进行训练，声纹训练模块对训练语音流进行特征提取以及通过模型进行训练，当训练得出的对比特征阈值R稳定在一定范围内后对角色进行定义，从而建立声纹角色数据库，方便在今后的远程视频会议文档记录的时候进行调用。

5.根据权利要求4所述的远程会议语音识别数据传输方法，其特征在于，在远程视频会议过程中，参会人员的角色语音通过语音处理模块处理后与声纹角色数据库中的角色语音进行特征对比，当对比特征阈值R≤1时，表示角色语音能够与声纹角色数据库中的角色匹配，匹配成功后则定义记录角色，同时开始识别发声角色的语音内容，从而生成特定角色的文档，当对比特征阈值R＞1时，则标识无法在声纹角色数据库中匹配到准确定义的角色，则系统定义发声角色为默认角色，然后以默认角色的定义识别语音内容后生成文档。