CN111798854A

CN111798854A - 一种基于视频通讯的语音转文字方法

Info

Publication number: CN111798854A
Application number: CN202010547221.6A
Authority: CN
Inventors: 蒲瑶; 何国涛; 李全忠
Original assignee: Pachira Technology Beijing Co ltd
Current assignee: Pachira Technology Beijing Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-20
Anticipated expiration: 2040-06-16

Abstract

本发明公开了一种基于视频通讯的语音转文字方法，包括以下步骤：S1.将预设语音文本库和预设特征词和敏感词文本库存入服务器内；S2.采集音频数据，然后进行语音识别；S3.将语音识别的音频数据进行纠错处理，生成目标文字信息；S4.对S3中的目标文字信息进行特征词识别，然后生成转化文字信息；S5.将S4中的转化文字信息发送给服务器，并保存；S6.把服务器收到的文字信息渲染到视频上，显示到用户指定的区域上。本发明通过进行纠错处理，能够在语音转文字的过程中实现对同音字的纠错，进而提高语音转文字的准确性，从而提高了用户的体验，另外通过特征词的识别，在需要发送敏感词时，不必说出敏感词，也可以发送敏感文字，避免直接说出敏感词的尴尬。

Description

一种基于视频通讯的语音转文字方法

技术领域

本发明属于视频通讯技术领域，具体涉及一种基于视频通讯的语音转文字方法。

背景技术

随着音视频技术的不断发展，音频的质量也在不断提高。在正常使用视频通讯进行通话过程中，已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下，比如地铁公交车或者广场等声音嘈杂的区域，有时候听不清对方的声音会降低音视频通话的体验，然而市面上各种的基于视频通讯的语音转文字方法仍存在各种各样的问题。

如授权公告号为CN106297794A所公开的一种语音文字的转换方法及设备，其虽然实现了解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题，但是并未解决现有的基于视频通讯的语音转文字方法还存在的问题：不方便在在语音转文字的过程中对文字信息进行纠偏处理，降低了语音转文字的准确性，同时在公众场所需要使用语音转文字功能时，有时需要发送一些敏感词给对方，但在公众场合说出敏感词，往往会造成用户的尴尬，为此我们提出一种基于视频通讯的语音转文字方法。

发明内容

本发明的目的在于提供一种基于视频通讯的语音转文字方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于视频通讯的语音转文字方法，包括以下步骤：

S1.将预设语音文本库存入服务器内，预设语音文本库包括预设方言语音文本库和预设外语语音文本库，同时将预设特征词和敏感词文本库存入服务器内；

S2.采集音频数据，先进行保存，然后进行语音识别；

S3.将语音识别的音频数据转化为第一文字信息，并对第一文字信息进行纠错处理，生成目标文字信息；

S4.对S3中的目标文字信息进行特征词识别，判断目标文字信息中是否含有特征词，然后生成转化文字信息；

S5.将S4中的转化文字信息发送给服务器，并保存；

S6.采集视频数据，并将S2中的音频数据和视频数据送入解码器解码，之后对音频数据进行播放以及视频数据进行渲染，最后把服务器收到的文字信息渲染到视频上，显示到用户指定的区域上。

优选的，所述预设方言语音文本库包括中国十大方言，所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。

优选的，所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语，所述汉语设置为普通话。

优选的，所述S3中的纠错处理具体包括以下步骤：

S31.对所述第一文字信息进行同音字纠错得到第二文字信息，基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息；

S32.对所述第二文字信息进行同音字纠错得到第三文字信息，基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息；

S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同；若所述第一初始目标文字信息和所述第二初始目标文字信息相同，将所述第二初始目标文字信息相同确定生层目标文字信息；若所述第一初始目标文字信息和所述第二初始目标文字信息不相同，对所述第二初始目标文字进行同音字纠错生成第三初始目标文字，将所述第三初始目标文字信息确定生成目标文字信息。

优选的，所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系，每组所述特征词均对应有一组所述敏感词。

优选的，所述S4中的判断方法为：如果识别到特征词，根据预先设置的对应关系，查找到与所述特征词对应的敏感词，将所述特征词替换为对应的敏感词，生成转化文字信息；若果没有识别到特征词，则直接生成转化文字信息。

优选的，所述S6中视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

优选的，所述视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。

与现有技术相比，本发明的有益效果是：

(1)本发明通过进行纠错处理，能够在语音转文字的过程中实现对同音字的纠错，进而提高语音转文字的准确性，从而提高了用户的体验。

(2)本发明通过对特征词的识别，根据特征词与敏感词的对应关系，可以将特征词替换成敏感词，在需要发送敏感词时，不必说出敏感词，也可以发送敏感文字，避免直接说出敏感词的尴尬。

(3)本发明通过将文字信息合成到视频上，并显示到用户指定的区域上，不仅可以观察说话者的动作和情绪，而且能够更加清楚的知道说话者说的内容，方便进行沟通交流。

附图说明

图1为本发明的步骤流程图；

图2为本发明中S1的主要流程图；

图3为本发明中S3中纠错处理的流程图；

图4为本发明中S4中判断方法的流程图；

图5为本发明S1中预设方言语音文本库的示意图；

图6为本发明S1中预设外语语音文本库的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图6，本发明提供一种技术方案：一种基于视频通讯的语音转文字方法，其特征在于：包括以下步骤：

S2.采集音频数据，先进行保存，然后进行语音识别；

S5.将S4中的转化文字信息发送给服务器，并保存；

本实施例中，优选的，所述预设方言语音文本库包括中国十大方言，所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。

本实施例中，优选的，所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语，所述汉语设置为普通话。

本实施例中，优选的，所述S3中的纠错处理具体包括以下步骤：

本实施例中，优选的，所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系，每组所述特征词均对应有一组所述敏感词。

本实施例中，优选的，所述S4中的判断方法为：如果识别到特征词，根据预先设置的对应关系，查找到与所述特征词对应的敏感词，将所述特征词替换为对应的敏感词，生成转化文字信息；若果没有识别到特征词，则直接生成转化文字信息。

本实施例中，优选的，所述S6中视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

本实施例中，优选的，所述视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于视频通讯的语音转文字方法，其特征在于：包括以下步骤：

S2.采集音频数据，先进行保存，然后进行语音识别；

S5.将S4中的转化文字信息发送给服务器，并保存；

2.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述预设方言语音文本库包括中国十大方言，所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。

3.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语，所述汉语设置为普通话。

4.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述S3中的纠错处理具体包括以下步骤：

5.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系，每组所述特征词均对应有一组所述敏感词。

6.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述S4中的判断方法为：如果识别到特征词，根据预先设置的对应关系，查找到与所述特征词对应的敏感词，将所述特征词替换为对应的敏感词，生成转化文字信息；若果没有识别到特征词，则直接生成转化文字信息。

7.根据权利要求1所述的一种基于视频通讯的语音转文字方法，其特征在于：所述S6中视频使用opengles或者其他渲染工具进行渲染，视频渲染到画布上的同时，把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上，这样就做到了视频与文字的合成，合成完毕之后，进行交换缓冲区，显示到用户指定的区域上。

8.根据权利要求7所述的一种基于视频通讯的语音转文字方法，其特征在于：所述视频与文字的合成过程如下：将文字帧与视频帧对齐，一个文字帧对应多个视频帧，将文字帧对应的视频帧分别渲染上文字帧中的文字内容，一个文字帧结束之后就可以把视频保存下来，进行下一个文字帧与视频帧的对齐与渲染，由于客户端是实时收到画面显示，而语音转文字的过程则会有一段时间的延迟，所以相同时间戳的文字帧会晚于视频帧的到达，这就需要服务端尽可能的把文字帧时间间隔缩短，使得客户端将多个文字帧按顺序显示在视频帧之上。