CN113542661A

CN113542661A - 一种视频会议语音识别方法及系统

Info

Publication number: CN113542661A
Application number: CN202111058454.0A
Authority: CN
Inventors: 李鹏
Original assignee: Beijing Dingtian Hongsheng Technology Co ltd
Current assignee: Beijing Dingtian Hongsheng Technology Co ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-10-22

Abstract

本发明公开了一种视频会议语音识别方法及系统，涉及会议语音识技术领域，本发明实施例对参会的各麦克风进行编号，每个麦克风编号唯一，记录麦克风编号及该麦克风发出的语音，待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本；操作简单，且不会存在识别错误的情况。可以快速定位会议的重点内容，且只需要保持会议重点音频或视频即可，节约内存。能够一边开会议一边发生音频。达到预设网络标准再传输会议语音，避免数据丢失。

Description

一种视频会议语音识别方法及系统

技术领域

本发明涉及会议语音识别技术领域，具体而言，涉及一种视频会议语音识别方法及系统。

背景技术

远程会议是指利用现代化的通讯手段，实现跨区域召开会议的目的。要召开远程会议，通常需要有通信线路、远程会议系统，当然在某些情况下还需要专业的服务来协助获得更好的远程会议效果。远程会议系统主要包含音频会议和视频会议。

现有技术中远程会议存在以下缺陷：

参会者需要对会议内容进行回顾调阅，虽然可以全程录制会议，但是录制整个会议过程以及把一个会议视频全部看完或会议音频全部听完耗时耗力，需要拉进度条或快进播放定位会议的重点内容，容易遗漏重点内容，且费时费力，保存整个会议的音频或视频也会耗费大量内存；

录制语音后需要将音频上传至转写服务器以生成文字，当参会者所在地网络状态欠佳时，若强行将音频通过网络发送给转写服务器会出现数据丢失等情况。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种视频会议语音识别方法及系统，以快速定位会议的重点内容及避免数据丢失。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供一种视频会议语音识别方法，包括：

S1：对参会的麦克风进行编号，每个麦克风编号唯一；

S2：参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；

S3：若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中；

S4：重复S2-S3，当存储器存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；

S5：若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；

S6：重复步骤S2-S5，直至会议结束，根据文字文本整理生成会议文本；

S7：将讲话者的名称替换麦克风编号生成最终会议文本。

基于第一方面，在本发明的一些实施例中，基于第一方面，在本发明的一些实施例中，步骤S3中所述将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中包括：

对讲话者输出的语音进行断句，上述断句的方法包括：

讲话者输出语音时的中止时间超过预设时间，则进行断句。

基于第一方面，在本发明的一些实施例中，步骤S5还包括：

将文字文本发送给对应的讲话者进行审核。

基于第一方面，在本发明的一些实施例中，上述审核的方法包括：

判断转写服务器转写的文字是否准确，讲话者对转写不准确的文字进行手动编辑替换。

基于第一方面，在本发明的一些实施例中，步骤S2中对当前会议语音进行录音的步骤包括：

录音时检测讲话者输出的语音音量大小，若音量小于第一预设值则自动放大语音音量。

基于第一方面，在本发明的一些实施例中，步骤S3离线存储的方法包括：

将录音存储至录音设备搭载的本地存储器中。

第二方面，本发明实施例提供一种视频会议语音识别系统，包括：

编号模块，对参会的麦克风进行编号，每个麦克风编号唯一；

开始录音模块，参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；

离线存储模块，若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中；

检测网络模块，当存储器存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；

转写模块，若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；

生成会议文模块，根据文字文本整理生成会议文本；

替换模块，将讲话者的名称替换麦克风编号生成最终会议文本。

基于第二方面，在本发明的一些实施例中，还包括：

断句模块，讲话者输出语音时的中止时间超过预设时间，则进行断句。

第三方面，本发明提供一种电子设备，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

上述处理器与上述存储器通过上述数据总线完成相互间的通信；上述存储器存储有可被上述处理器执行的程序指令，上述处理器调用上述程序指令以执行上述的方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使上述计算机执行上述的方法。

本发明实施例至少具有如下优点或有益效果：

1、多人参与的远程视频会议，如钉钉会议、微信群聊会议等，需要记录多个讲话者和讲话者对应的语音内容，现有技术中通过音色识别对应的讲话者，需要硬件要求很高，且存在识别错误的情况，因此，本发明对参会的各麦克风进行编号，每个麦克风编号唯一，记录麦克风编号及该麦克风发出的语音，待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本；操作简单，且不会存在识别错误的情况。

2、参会者需要对会议内容进行回顾调阅，虽然可以全程录制会议，但是录制整个会议过程以及把一个会议视频全部看完或会议音频全部听完耗时耗力，需要拉进度条或快进播放定位会议的重点内容，容易遗漏重点内容，且费时费力，保存整个会议的音频或视频也会耗费大量内存；本发明中，参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中。开始记录会议指令可以是一个快捷键，当其中一参会者觉得讲话者要说的内容对自己很重要时，则按下快捷键进行录音，直至要讲的内容对于自己并不重要时则可以停止录音。可以快速定位会议的重点内容，且只需要保持会议重点音频或视频即可，节约内存。

3、现有技术中通常是在整个会议结束后才开始进行音频转写，参会人员需要等待较长的时间才能得到文字文本，本发明中，当存储器存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；第一预设容量可以是10M、20M、50M等，当达到第一预设容量时就可以发送，能够一边开会议一边发生音频。

4、现有技术中，录制语音后需要将音频上传至转写服务器以生成文字，当参会者所在地网络状态欠佳时，若强行将音频通过网络发送给转写服务器会出现数据丢失等情况。本发明中，若达到预设网络标准则将存储器中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；达到预设网络标准再传输会议语音，避免数据丢失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一种视频会议语音识别方法的流程图；

图2为本发明一种视频会议语音识别系统的结构框图；

图3为本发明一种电子设备的结构框图。

图标：1、编号模块；2、开始录音模块；3、离线存储模块；4、检测网络模块；5、转写模块；6、生成会议文模块；7、替换模块；8、处理器；9、存储器；10、数据总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请所提供的实施例中，应该理解到，所揭露的方法和系统，也可以通过其它的方式实现。系统实施例仅仅是示意性的，例如，附图中的框图显示了根据本申请的多个实施例的系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，可以是个人计算机，服务器，或者网络设备等，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

实施例

请参照图1，第一方面，本发明实施例提供方法实施例，一种视频会议语音识别方法，包括：

S1：对参会的麦克风进行编号，每个麦克风编号唯一；

该步骤中，考虑到多人参与的远程视频会议，如钉钉会议、微信群聊会议等，需要记录多个讲话者和讲话者对应的语音内容，现有技术中通过音色识别对应的讲话者，需要硬件要求很高，且存在识别错误的情况，因此，本发明对参会的各麦克风进行编号，每个麦克风编号唯一，示例性的，如有5人参会，则5人对应的麦克风编号为麦克风001、麦克风002、麦克风003、麦克风004、麦克风005。记录麦克风编号及该麦克风发出的语音，待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本；操作简单，且不会存在识别错误的情况。

该步骤中，考虑搭配参会者需要对会议内容进行回顾调阅，虽然可以全程录制会议，但是录制整个会议过程以及把一个会议视频全部看完或会议音频全部听完耗时耗力，需要拉进度条或快进播放定位会议的重点内容，容易遗漏重点内容，且费时费力，保存整个会议的音频或视频也会耗费大量内存；本发明中，参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中。开始记录会议指令可以是一个快捷键，当其中一参会者觉得讲话者要说的内容对自己很重要时，则按下快捷键进行录音，直至要讲的内容对于自己并不重要时则可以停止录音。可以快速定位会议的重点内容，且只需要保持会议重点音频或视频即可，节约内存。

S3：若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中；

该步骤中，停止记录会议指令可以是一个快捷键，该快捷键可以停止录音，考虑到若在线发送，则存在网络状态欠佳而数据丢失情况，因此离线存储录音，示例性的，如参会者通过手机参加会议，则可将录音先存储至手机内存器中。

S4：重复S2-S3，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；

该步骤中，考虑到现有技术中通常是在整个会议结束后才开始进行音频转写，参会人员需要等待较长的时间才能得到文字文本，本发明中，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；第一预设容量可以是10M、20M、50M等，当达到第一预设容量时就可以发送，能够一边开会议一边发生音频。

S5：若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；

该步骤中，考虑到现有技术中，录制语音后需要将音频上传至转写服务器以生成文字，当参会者所在地网络状态欠佳时，若强行将音频通过网络发送给转写服务器会出现数据丢失等情况。本发明中，若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；达到预设网络标准再传输会议语音，避免数据丢失。

该步骤中，根据文字文本的时间顺序整理生成会议文本，以便于查阅者按照时间线进行阅读，便于理解。

S7：将讲话者的名称替换麦克风编号生成最终会议文本。

对讲话者输出的语音进行断句，上述断句的方法包括：

讲话者输出语音时的中止时间超过预设时间，则进行断句。

上述实施例中，若不对音频进行断句，则音频转写的生成的文字准确率不高，因此，本实施例对语音进行断句处理。

基于第一方面，在本发明的一些实施例中，步骤S5还包括：

将文字文本发送给对应的讲话者进行审核。

上述审核的方法包括：判断转写服务器转写的文字是否准确，讲话者对转写不准确的文字进行手动编辑替换。

上述实施例中，转写服务器转写的文字有一定几率存在错位，将转写的文字发送给对应的讲话者进行审核，通过人工的方式进行审核，以保障音频转文字的准确率

上述实施例中，可以在麦克风中设置自动增益控制部分，用于自动调节所收到的麦克风音量，对音量进行放大，能够有效的抑制输入端输入的共模干扰。

示例性的，步骤S3离线存储的方法包括：将录音存储至搭载的本地存储器9中。

请参照图2，第二方面，本发明实施例提供系统实施例，一种视频会议语音识别系统，包括：

编号模块1，对参会的麦克风进行编号，每个麦克风编号唯一；

开始录音模块2，参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；

离线存储模块3，若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中；

检测网络模块4，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；

转写模块5，若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；

生成会议文模块6，根据文字文本整理生成会议文本；

替换模块7，将讲话者的名称替换麦克风编号生成最终会议文本。

本系统实施例的具体实施方案请参考上述方法实施例，在此不作过多阐述。

基于第二方面，在本发明的一些实施例中，还包括：

请参照图3，第三方面，本发明提供一种电子设备，包括：至少一个处理器8、至少一个存储器9和数据总线10；其中：上述处理器8与上述存储器9通过上述数据总线10完成相互间的通信；上述存储器9存储有可被上述处理器8执行的程序指令，上述处理器8调用上述程序指令以执行上述的方法。例如执行：S1：对参会的麦克风进行编号，每个麦克风编号唯一；S2：参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；S3：若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中；S4：重复S2-S3，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；S5：若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；S6：重复步骤S2-S5，直至会议结束，根据文字文本整理生成会议文本；S7：将讲话者的名称替换麦克风编号生成最终会议文本。

第四方面，本发明提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使上述计算机执行上述的方法。例如执行：S1：对参会的麦克风进行编号，每个麦克风编号唯一；S2：参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；S3：若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中；S4：重复S2-S3，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；S5：若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；S6：重复步骤S2-S5，直至会议结束，根据文字文本整理生成会议文本；S7：将讲话者的名称替换麦克风编号生成最终会议文本。

综上，本发明的实施例提供一种视频会议语音识别方法和系统，本发明实施例对参会的各麦克风进行编号，每个麦克风编号唯一，记录麦克风编号及该麦克风发出的语音，待生成会议文本后将讲话者的名称替换麦克风编号生成最终会议文本；操作简单，且不会存在识别错误的情况。本发明中，参会的麦克风中的任一麦克风若接收到开始记录会议指令，则开始对当前会议语音进行录音；若接收到停止记录会议指令，则停止录音，将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器9中。开始记录会议指令可以是一个快捷键，当其中一参会者觉得讲话者要说的内容对自己很重要时，则按下快捷键进行录音，直至要讲的内容对于自己并不重要时则可以停止录音。可以快速定位会议的重点内容，且只需要保持会议重点音频或视频即可，节约内存。本发明中，当存储器9存储的多个语音包的占用容量累加达到第一预设容量时，检测网络传输状态是否达到预设网络标准；第一预设容量可以是10M、20M、50M等，当达到第一预设容量时就可以发送，能够一边开会议一边发生音频。本发明中，若达到预设网络标准则将存储器9中存储的多段会议语音通过网络传输至转写服务器，转写服务器按照录音时间的顺序生成对应文字文本；达到预设网络标准再传输会议语音，避免数据丢失。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种视频会议语音识别方法，其特征在于，包括：

S1：对参会的麦克风进行编号，每个麦克风编号唯一；

S7：将讲话者的名称替换麦克风编号生成最终会议文本。

2.根据权利要求1所述的一种视频会议语音识别方法，其特征在于，步骤S3中所述将开始至停止的这段时间的录音打包生成语音包并离线存储至存储器中包括：

对讲话者输出的语音进行断句，所述断句的方法包括：

讲话者输出语音时的中止时间超过预设时间，则进行断句。

3.根据权利要求1所述的一种视频会议语音识别方法，其特征在于，步骤S5还包括：

将文字文本发送给对应的讲话者进行审核。

4.根据权利要求3所述的一种视频会议语音识别方法，其特征在于，所述审核的方法包括：

5.根据权利要求1所述的一种视频会议语音识别方法，其特征在于，步骤S2中对当前会议语音进行录音的步骤包括：

6.根据权利要求1所述的一种视频会议语音识别方法，其特征在于，步骤S3离线存储的方法包括：

将录音存储至录音设备搭载的本地存储器中。

7.一种视频会议语音识别系统，其特征在于，包括：

生成会议文模块，根据文字文本整理生成会议文本；

8.根据权利要求7所述的一种视频会议语音识别系统，其特征在于，还包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至6任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使计算机执行如权利要求1至6任一所述的方法。