CN110740283A

CN110740283A - 一种基于视频通讯的语音转文字方法

Info

Publication number: CN110740283A
Application number: CN201911039641.7A
Authority: CN
Inventors: 沈梦超; 裘昊; 文志平; 何志明; 沈德欢
Original assignee: Hangzhou Dang Hong Polytron Technologies Inc
Current assignee: Hangzhou Dang Hong Polytron Technologies Inc; Hangzhou Arcvideo Technology Co ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-01-31

Abstract

本发明公开了一种基于视频通讯的语音转文字方法。它针对一般的视频会议系统，具体包括如下步骤：(1)在数据采集端，把音频数据和视频数据采集到了之后，送去编码器编码，同时保留一定时间的音频数据，进行文字识别处理，两者整合完毕后，一起发送给媒体服务器；(2)媒体服务器把收到的音视频数据包进行转发给客户端，同时对音视频数据包进行持久化保存下来；(3)客户端在收到音视频数据后，将其送入解码器解码，之后对音频进行播放以及视频进行渲染，把收到的文字信息渲染到视频上，显示到用户指定的区域上。本发明的有益效果是：给视频会议使用者提供更加直观的感受，提高语言听力上的容错率；使用文字形式记录视频会议的内容。

Description

一种基于视频通讯的语音转文字方法

技术领域

本发明涉及视频通讯相关技术领域，尤其是指一种基于视频通讯的语音转文字方法。

背景技术

随着音视频技术的不断发展，音频的质量也在不断提高。在正常使用视频通讯进行通话过程中，已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下，比如地铁公交车或者广场等声音嘈杂的区域，有时候听不清对方的声音会降低音视频通话的体验。

在现代音视频通讯的视频和音频，一般都可以做到保存。如果在一些开会的场景中，视频通讯时中保存了领导的重要讲话。当想要回看某个点(或者回看确认某个数据)时，去回看整个视频效率是比较低的。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种提高容错率的基于视频通讯的语音转文字方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于视频通讯的语音转文字方法，针对一般的视频会议系统，具体包括如下步骤：

(1)在数据采集端，把音频数据和视频数据采集到了之后，送去编码器编码，同时保留一定时间的音频数据，进行文字识别处理，两者整合完毕后，一起发送给媒体服务器；

(2)媒体服务器把收到的音视频数据包进行转发给客户端，同时对音视频数据包进行持久化保存下来；

(3)客户端在收到音视频数据后，将其送入解码器解码，之后对音频进行播放以及视频进行渲染，把收到的文字信息渲染到视频上，显示到用户指定的区域上。

本发明聚焦于解决视频通讯中语音数据表现的问题，由于声音受外部环境影响较大，只要略微有点噪音，就会造成声音听不清楚的情况。这样就需要对方再次说话，才能听清楚。为了解决这个问题，本发明将音频进行文字识别，把识别出来的文字通过服务端进行转发，然后再又客户端进行画面合成，没有在媒体服务器端做太多工作，客户端同时收到音视频以及文字消息，这样多元化的数据类型，可以给视频会议使用者提供更加直观的感受，文字字幕辅助音频的形式，可以提高语言听力上的容错率(声音听不清，可以观看字幕来进行弥补)。

作为优选，在步骤(1)中，由于文字的数据量不会太大，所以不需要加入编码器编码，可以直接使用文字编码格式编码，然后按照时间戳的先后顺序加入到音视频编码后的数据帧中，整合完毕后，一起发送给媒体服务器。

作为优选，在步骤(1)中，整合过程如下：语音分割并识别，将连续不断的语音，输出为分段的文字帧，文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容，将分段完成后并且带有时间戳的文字帧立即进行传输，并且文字包优先级提高，这样可以降低文字的时延。

作为优选，在步骤(2)中，媒体服务器在收到音频、视频和音频转换而来的文字时，一方面把文字按照一定规则进行持久化保存到数据库；另一方面，把音频、视频以及文字转发给客户端。

作为优选，在步骤(2)中，根据需要把文字与视频进行合成，然后再录制下来保存到数据库，合成过程如下：在服务端对视频进行录制时，需要先等待文字帧的到来，将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染。

作为优选，在步骤(3)中，音频使用系统扬声器播放，视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

作为优选，步骤(3)中，视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要媒体服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。

作为优选，在步骤(3)中，在客户端如果想对本次视频会议的文字内容进行查看，可以请求服务端接口，来调取视频会议的文字记录。本发明可以使用文字形式记录视频会议的内容，使得文字作为更书面化更正式的信息载体得以很方便的来记录，当视频会议结束后，想要再次查阅会议内容时，文本查询就是最方便快捷的查询方式。

本发明的有益效果是：可以给视频会议使用者提供更加直观的感受，文字字幕辅助音频的形式，可以提高语言听力上的容错率；可以使用文字形式记录视频会议的内容，使得文字作为更书面化更正式的信息载体得以很方便的来记录。

附图说明

图1是本发明的方法流程图；

图2是语音转文字的过程图；

图3是媒体服务端文字合成的过程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种基于视频通讯的语音转文字方法，针对一般的视频会议系统，具体包括如下步骤：

(1)在数据采集端，把音频数据和视频数据采集到了之后，送去编码器编码，同时保留一定时间的音频数据，一般保留3-5s(这个时间长度根据实际情况而定)音频，进行文字识别处理，两者整合完毕后，一起发送给媒体服务器；由于文字的数据量不会太大，所以不需要加入编码器编码，可以直接使用文字编码格式如“utf-8”等编码格式编码，然后按照时间戳的先后顺序加入到音视频编码后的数据帧中，整合完毕后，一起发送给媒体服务器；

如图2所示，整合过程如下：语音分割并识别，将连续不断的语音，输出为分段的文字帧，文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容，文字帧的内容格式具体为，“start:1569307050000,end:1569307051000,body:这是我们会议的开始”，其中：“start”字段表示文字分段时间戳的起点，“end”字段表示文字分段时间戳的终点，“body”字段表示识别后的文字内容；将分段完成后并且带有时间戳的文字帧立即进行传输，并且文字包优先级提高，这样可以降低文字的时延；

(2)媒体服务器把收到的音视频数据包进行转发给客户端，同时对音视频数据包进行持久化保存下来；媒体服务器在收到音频、视频和音频转换而来的文字时，一方面把文字按照一定规则进行持久化保存到数据库，方便以后查询使用；另一方面，把音频、视频以及文字转发给客户端；根据需要把视频和音频录制下来，或者把文字与视频进行合成，然后再录制下来保存到数据库；如图3所示，合成过程如下：在服务端对视频进行录制时，需要先等待文字帧的到来，将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染；

(3)客户端在收到音视频数据后，将其送入解码器解码，之后对音频进行播放以及视频进行渲染，把收到的文字信息渲染到视频上，显示到用户指定的区域上；音频使用系统扬声器播放，视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要媒体服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上；在客户端(包括手机端、web端或其他客户端)如果想对本次视频会议的文字内容进行查看，可以请求服务端接口，因为之前已经对文字进行了持久化保存到了数据库，所以这里可以很方便的来调取视频会议的文字记录。

本发明聚焦于解决视频通讯中语音数据表现的问题，由于声音受外部环境影响较大，只要略微有点噪音，就会造成声音听不清楚的情况。这样就需要对方再次说话，才能听清楚。为了解决这个问题，本发明将音频进行文字识别，把识别出来的文字通过服务端进行转发，然后再又客户端进行画面合成，没有在媒体服务器端做太多工作，客户端同时收到音视频以及文字消息，这样多元化的数据类型，可以给视频会议使用者提供更加直观的感受，文字字幕辅助音频的形式，可以提高语言听力上的容错率(声音听不清，可以观看字幕来进行弥补)。本发明还可以使用文字形式记录视频会议的内容，使得文字作为更书面化更正式的信息载体得以很方便的来记录，当视频会议结束后，想要再次查阅会议内容时，文本查询就是最方便快捷的查询方式。

Claims

1.一种基于视频通讯的语音转文字方法，其特征是，针对一般的视频会议系统，具体包括如下步骤：

2.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(1)中，由于文字的数据量不会太大，所以不需要加入编码器编码，可以直接使用文字编码格式编码，然后按照时间戳的先后顺序加入到音视频编码后的数据帧中，整合完毕后，一起发送给媒体服务器。

3.根据权利要求1或2所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(1)中，整合过程如下：语音分割并识别，将连续不断的语音，输出为分段的文字帧，文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容，将分段完成后并且带有时间戳的文字帧立即进行传输，并且文字包优先级提高，这样可以降低文字的时延。

4.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(2)中，媒体服务器在收到音频、视频和音频转换而来的文字时，一方面把文字按照一定规则进行持久化保存到数据库；另一方面，把音频、视频以及文字转发给客户端。

5.根据权利要求4所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(2)中，根据需要把文字与视频进行合成，然后再录制下来保存到数据库，合成过程如下：在服务端对视频进行录制时，需要先等待文字帧的到来，将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染。

6.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(3)中，音频使用系统扬声器播放，视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

7.根据权利要求6所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(3)中，视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要媒体服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。

8.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征是，在步骤(3)中，在客户端如果想对本次视频会议的文字内容进行查看，可以请求服务端接口，来调取视频会议的文字记录。