CN109150556A

CN109150556A - 基于语音识别的多人远程会议记录系统

Info

Publication number: CN109150556A
Application number: CN201810858206.6A
Authority: CN
Inventors: 诸健文; 胡红林
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2019-01-04

Abstract

本发明公开一种基于语音识别的多人远程会议记录系统，本系统应用到的技术包括远程视频会议系统以及语音识别技术。包括至少两台机器人系统，至少两台机器人系统通过互联网建立通信连接；所述机器人系统包括：均与电源模块连接的语音处理模块和中央处理器；还包括均与中央处理器连接的摄像头、触摸式显示器、扬声器、第一WIFI模块；还包括与语音处理模块连接的麦克风阵列、第二WIFI模块；还包括与第二WIFI模块连接的存储模块、语音识别服务器；还包括与语音识别服务器连接的角色定义模块、内容识别模块；还包括与角色定义模块和内容识别模块连接的文档生成模块。

Description

基于语音识别的多人远程会议记录系统

技术领域

本发明涉及智能办公技术领域，尤其涉及一种基于语音识别的多人远程会议记录系统。

背景技术

远程视频会议系统是一种在位于两个或多个地点的多个用户之间提供语音和运动彩色画面的双向实时传送的视听会话型会议业务。大型远程视频会议系统在政府、企业、医疗等方面有广泛的应用。

语音识别技术是通过将语音指令或音频转换成计算机可识别的信息进行一系列交互处理的技术。其中包含语音识别以及声纹识别，通过语音识别将会议上发言人的语音进行处理，并转换成文档进行存储。通过声纹识别确认发音人的身份，并对会议中不同的发声人进行身份记录。

传统的视频会议系统可以满足基本的远程视频会议要求，解决空间以及时间对会议的限制，但是部分重要的远程视频会议需要对会议内容进行记录，因为对于重要会议的内容需要进行记录与总结，

在工作过程中需要对会议内容进行回顾调阅，视频可以录制，但是把一个会议视频全部看完耗时耗力，无法准确的定位关键会议内容，且保存视频耗费大量内存。如果通过人工方式进行记录，可能在记录内容上有所缺失或者不够完善。

发明内容

本发明的目的在于克服现有技术的不足，适应现实需要，提供一种基于语音识别的多人远程会议记录系统，本系统应用到的技术包括远程视频会议系统以及语音识别技术。

为了实现本发明的目的，本发明所采用的技术方案为：

公开一种包括至少两台机器人系统，至少两台机器人系统通过互联网建立通信连接；其特征在于：所述机器人系统包括：

均与电源模块连接的语音处理模块和中央处理器；

还包括均与中央处理器连接的摄像头、触摸式显示器、扬声器、第一WIFI模块；

还包括与语音处理模块连接的麦克风阵列、第二WIFI模块；

还包括与第二WIFI模块连接的存储模块、语音识别服务器；

还包括与语音识别服务器连接的角色定义模块、内容识别模块；

还包括与角色定义模块和内容识别模块连接的文档生成模块；

机器人系统通过第一WIFI模块与互联网连接，多台机器人系统通过互联网连接。

本发明的有益效果在于：

本发明的系统在视频会议系统的基础上增加麦克风矩阵作为音频拾音器，对会议语音进行处理，并通过语音平台进行语音识别，可以在远程会议的过程中分角色的进行会议内容记录，并生成完整的全过程的会议文档，方便之后的查阅，同时较小体积的文档基本不占用内存，同时节省人力资源，通过此系统，能够解决传统远程视频会议的会议内容记录问题，使得会议内容能够实时记录下来，方便今后的会议内容回顾。

相对于现有技术，本发明结合语音识别与视频会议系统，弥补了传统远程视频会议系统无法进行会议文档记录的缺陷。满足了部门、企业等对于远程会议记录需求，方便了对于会议内容的调取与回顾。本发明通过麦克风阵列在本地实现降噪与回声处理，能够得到清晰的语音音频，进而能够通过语音识别服务器处理获取准确的文档内容，形成有效的文档进行存储。

附图说明

图1是本发明的运行结构图；

图2是本发明的系统结构图；

图3是本发明的语音流流程图；

图4是本发明的角色特征训练模型图；

图5是本发明的视频会议角色定义方法图。

具体实施方式

下面结合附图和实施例对本发明进一步说明：

实施例1：一种基于语音识别的多人远程会议记录系统，参见图1至图5；包括至少两台机器人系统，至少两台机器人系统通过互联网建立通信连接；其特征在于：所述机器人系统包括：

均与电源模块连接的语音处理模块和中央处理器，电源模块给语音处理模块以及中央处理器供电，以供其运行。

还包括均与中央处理器连接的摄像头、触摸式显示器、扬声器、第一WIFI模块，触摸式显示器用于显示经过中央处理器解码回传的视频流，摄像头用于捕捉当前的彩色画面，扬声器用于播放回传解码的音频流，第一Wifi模块用于连接互联网并与机器人系统通讯。

还包括与语音处理模块连接的麦克风阵列、第二WIFI模块，语音处理模块中内置有声纹训练模块，麦克风阵列用于接收语音信号并发送回语音处理模块中进行处理，声纹训练模块从语音处理模块调用处理过的音频流进行处理并返回给语音处理模块建立声纹角色数据库。

还包括与第二WIFI模块连接的存储模块、语音识别服务器，存储模块用于存储视频、音频、回传的会议记录文档。

还包括与语音识别服务器连接的角色定义模块、内容识别模块。

还包括与角色定义模块和内容识别模块连接的文档生成模块。

如图2所示，图2本设计系统的结构。整套系统通过两台机器人设备互通实现，摄像头捕捉视频画面传送到机器人1的中央处理器进行编解码。麦克风阵列模块搜集音频，一份传送至机器人1的中央处理器进行编解码，另外一份传送至语音处理模块进行声纹特征对比以及降噪去回音；机器人1的中央处理器将编解码后的视频画面以及音频通过第一wifi模块连接互联网后传送至机器人2进行解码，视频画面通过显示器显示，音频通过扬声器播放，从而实现远程视频会议。

另外，语音处理模块将音频进行处理后通过第二wifi模块上传至语音识别服务器，语音识别服务器对音频进行角色特征识别对比以及语音内容识别对比，最后生成会议记录文档，通过wifi模块回传至存储模块进行存储。在实施中，机器人2与机器人1同步系统运行。

在实施中，按照如下步骤进行：

步骤一：打开触摸式显示器、摄像头、麦克风阵列对会议视频、音频进行拾取。

步骤二：通过第一wifi模块将视频解码传送至另一台设备；

步骤三：通过第一wifi模块将语音流解码传送至另一台设备；

步骤四：通过语音处理模块对拾取的语音流进行降噪、去回声处理；

步骤五：将处理后的语音流通过第二wifi模块上传至语音识别服务器进行识别转码；

步骤六：语音识别服务器将得到的音频进行识别处理，生成文档；

步骤七：语音识别服务器将生成的文档通过第二wifi模块回传至语音处理模块；

步骤八：通过中央处理器将生成的文档存储至存储模块；

参见图3，上诉方案中，会议语音通过麦克风阵列进行拾取，拾取到的音频进行分类处理，一类不通过语音处理模块，直接通过中央处理器解码后传送至其它设备，一类通过语音处理模块对音频进行处理上传至语音识别服务器进行处理，处理结果返回至中央处理器。

如图3所示，角色语音流通过麦克风阵列搜集后会分为两部分，一部分不需要处理的音频流通过中央处理器编码后通过第一wifi模块直接与视频会议系统通讯，在接收端解码后实现语音对话。另一部分需要传输至语音处理模块进行回声消除以及降噪处理，从而上传到语音识别服务器后提升识别准确度，通过语音识别服务器的编译，生成会议记录文档。

如图4所示，每个角色的定义需要一定量的训练语音流。在视频会议之前就需要进行语音流训练。训练语音流传通过语音处理模块建立语音流类别，从而确定发声角色。类库中的语音流传输至声纹训练模块进行训练，声纹训练模块对训练语音流进行特征提取以及通过模型进行训练。当训练得出的阈值稳定在一定范围内后对角色进行定义，从而建立角色库，方便在今后的远程视频会议文档记录的时候进行调用。

如图5所示，在远程视频会议过程中，参会人员的角色语音会通过语音处理模块处理后与声纹库中的角色语音进行特征对比。当对比特征阈值R≤1时，表示角色语音能够与声纹库中的角色匹配，匹配成功后则定义记录角色，同时开始识别发声角色的语音内容，从而生成特定角色的文档。当对比特征阈值R＞1时，则标识无法在声纹库中匹配到准确定义的角色，则系统定义发声角色为默认角色(例如：甲乙丙丁等)，然后以默认角色的定义识别语音内容后生成文档。

参见图4、5，上述方案中，对于参会人员角色定义需做声纹训练处理。训练语音首先需要利用麦克风矩阵收集音频，通过语音处理模块进行去除静音、去除能量偏移以及消除信道影响等操作寻找特征。特征参数为13维的梅尔倒谱系数MFCC特征值及其一阶和二阶差分。然后通过最大似然估计的方法训练获得一个与角色有关的通用背景模型(UBM)。UBM其实是一个大型的GMM模型。它的训练数据是各个信道下角色的语音，用来训练表示与角色有关语音的特征空间分布。最后与传统的直接基于最大期望(EM)算法训练GMM的方法不同，每个角色的GMM是通过采用最大后验概率MAP的方法从UBM上自适应得到。每个角色的GMM由均值向量，协方差矩阵和混合权重组成。对于训练结果需要对每段人声进行一次性定义。当语音处理模块接收到音频时会对声纹信息进行对比，如果比对成功，则判定发声人，如果比对失败，则进行默认定义。

作为本领域内的技术人员应当理解的是，本系统的实现需要借助软件的植入实现软硬件的结合方可实现本设计的目的，对与本领域内的技术人员而言，通过本实施例的介绍，并借助现有技术实现上述功能的软件设计属于常规技术的组合，本实施例在此不再对其做过多的赘述。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种基于语音识别的多人远程会议记录系统，包括至少两台机器人系统，至少两台机器人系统通过互联网建立通信连接；其特征在于：所述机器人系统包括：

均与电源模块连接的语音处理模块和中央处理器；

还包括与语音处理模块连接的麦克风阵列、第二WIFI模块；

还包括与第二WIFI模块连接的存储模块、语音识别服务器；