CN110415706A

CN110415706A - 一种在视频通话中实时叠加字幕的技术及其应用

Info

Publication number: CN110415706A
Application number: CN201910731851.6A
Authority: CN
Inventors: 谢锋; 黄胜男; 李璟; 苏耀飞; 乐程胜; 张意
Original assignee: Changzhou First Information Technology Co Ltd
Current assignee: Changzhou First Information Technology Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-05

Abstract

本发明公开了一种在视频通话中实时叠加字幕的技术及其应用，包括字幕软件，包括以下实现步骤:S1：语音识别算法，通过机器学习算法，实时捕捉视频中的音频数据，将音频数据转换成具有实际意义的语言数据；S2：文字转化算法，对提取的语音数据通过算法处理后实时转换成文字信息；S3：字幕显示算法，对文字信息进行实时逐字或逐词显示；S4：自动断句算法，通过对音频文件分析，获取一句话的起始及停顿点；S5：文字和音视频叠加算法，文字直接叠加显示于视频界面上形成视频字幕，视频界面不指定文字字幕显示位置。该在视频通话中实时叠加字幕的技术及其应用，可以在获取完整句子后对已显示的所有字符按完整句子意思进行更新。

Description

一种在视频通话中实时叠加字幕的技术及其应用

技术领域

本发明涉及视频通话技术领域，具体为一种在视频通话中实时叠加字幕的技术及其应用。

背景技术

时代在进步，我们的沟通方式也在不断地发生着变化。仅以短信和电话语音进行远程沟通的2G时代已成为历史，伴随着3G通信地出现，人们的沟通方式进入了视频远程通信的时代，后面又经过智能设备的爆发和4G通信的发展，直到如今5G时代的来临，视频通信的使用频率变得极其广泛，人们对视频通信的依赖也越来越大。

虽然视频通信已慢慢取代仅文字和语音的通信方式，但视频通信往往也存在一些弊端和不尽如人意的地方。由于智能手机形式的限制，喇叭和麦克风均在机体上，如不借助耳机或其他设备时，如需摄像头捕捉使用者的头部，或者需要看着屏幕内的对方说话，则需要把设备放到离耳朵比较远的地方，然而又需要听清对方的声音，就不得不外放声音，即开启扬声器，这样有如下弊端：如果在比较嘈杂的地方，就算开启了扬声器也听不清对方的声音，对方也可能听不清自己的声音，这样双方可能需要面临来回重复说话的尴尬，而且沟通效率大大降低。

此外，对于一些特殊人群，比如失聪人士，在进行视频通话时无法获取对方的语音信息，使视频通话难以惠及这部分群体。

发明内容

针对现有技术的不足，本发明提供了一种在视频通话中实时叠加字幕的技术及其应用，使用后。

为实现以上目的，本发明通过以下技术方案予以实现：一种在视频通话中实时叠加字幕的技术，包括字幕软件，包括以下实现步骤:

S1：语音识别算法，通过机器学习算法，实时捕捉视频中的音频数据，将音频数据转换成具有实际意义的语言数据；

S2：文字转化算法，对提取的语音数据通过算法处理后实时转换成文字信息；

S3：字幕显示算法，对文字信息进行实时逐字或逐词显示；

S4：自动断句算法，通过对音频文件分析，获取一句话的起始及停顿点；

S5：文字和音视频叠加算法，文字直接叠加显示于视频界面上形成视频字幕，视频界面不指定文字字幕显示位置，同时不指定字幕显示行数与字体大小。

优选的，所述文字转化算法还包括整句转化算法，随着语音数据的不断完善，在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。

优选的，所述文字和音视频叠加算法还包括重力感应，其可识别设备的重力方向，则字幕可以根据重力方向调节叠加显示的方向，并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。

优选的，还包括文本内容保存算法，可以选中文字信息保存为文本文件以便后期查看。

优选的，所述语音识别算法包括获取视频通话中的音频数据，从音频数据中提取声音特征并与语音库对比。

优选的，所述字幕显示算法包括识别的第一句话文字显示于第一行，识别的第二句话文字显示于第二行，第二行文字显示完整后将第一行文字删除，第一行文字删除后，将第二行文字提升至第一行，空余下的第二行显示新文字。

优选的，一种在视频通话中实时叠加字幕的应用，包括以下应用步骤：

A1:在设备终端上利用视频通话软件发起视频通话；

A2:点击字幕软件“显示字幕”的控制键，应用程序获取音频软件；

A3:语音识别算法对提取的语音数据通过算法处理后实时转换成文字信息；

A4:文字直接叠加显示于视频界面上形成视频字幕。

本发明提供了一种在视频通话中实时叠加字幕的技术及其应用。具备以下有益效果：

该在视频通话中实时叠加字幕的技术及其应用，结合了深度学习的语音识别并实时转换为文本的技术，并且其可以在获取完整句子后对已显示的所有字符按完整句子意思进行更新，创新性地将这种技术应用到视频通话领域，并采用字幕叠加的技术方案，灵活地将字幕展现到视频图像上，解决前面所提及用户的苦恼。

附图说明

图1为本发明整体流程图；

图2为本发明语音识别流程图；

图3为本发明字幕叠加形式示意图。

具体实施方式

以下实施例所用材料，方法和仪器，未经特殊说明，均为本领域常规材料，方法和仪器，本领域普通技术人员均可通过商业渠道获得。

在本发明以下的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”和“竖着”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明以下的描述中，需要说明的是，除非另有明确规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接连接，亦可以是通过中间媒介间接连接，可以是两个部件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1-3所示，一种在视频通话中实时叠加字幕的技术，包括字幕软件，包括以下实现步骤:

S3：字幕显示算法，对文字信息进行实时逐字或逐词显示；

实施例2：

在实施例1的基础上，文字转化算法还包括整句转化算法，随着语音数据的不断完善，在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。

实施例3：

在实施例1、2的基础上，文字和音视频叠加算法还包括重力感应，其可识别设备的重力方向，则字幕可以根据重力方向调节叠加显示的方向，并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。

实施例4：

在实施例1-3的基础上，还包括文本内容保存算法，可以选中文字信息保存为文本文件以便后期查看。

实施例5：

在实施例1-4的基础上，语音识别算法包括获取视频通话中的音频数据，从音频数据中提取声音特征并与语音库对比。

实施例6：

在实施例1-5的基础上，字幕显示算法包括识别的第一句话文字显示于第一行，识别的第二句话文字显示于第二行，第二行文字显示完整后将第一行文字删除，第一行文字删除后，将第二行文字提升至第一行，空余下的第二行显示新文字。

实施例7：

在实施例1-6的基础上，一种在视频通话中实时叠加字幕的应用，包括以下应用步骤：

A1:在设备终端上利用视频通话软件发起视频通话；

A4:文字直接叠加显示于视频界面上形成视频字幕。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种在视频通话中实时叠加字幕的技术，包括字幕软件，其特征在于：包括以下实现步骤:

S3：字幕显示算法，对文字信息进行实时逐字或逐词显示；

2.根据权利要求1所述的一种在视频通话中实时叠加字幕的技术，其特征在于：所述文字转化算法还包括整句转化算法，随着语音数据的不断完善，在后续识别到完整句子后根据大致句意将所识别的文本内容更新显示。

3.根据权利要求2所述的一种在视频通话中实时叠加字幕的技术，其特征在于：所述文字和音视频叠加算法还包括重力感应，其可识别设备的重力方向，则字幕可以根据重力方向调节叠加显示的方向，并以当前字体大小根据屏幕尺寸自动调节单行显示的字符个数。

4.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术，其特征在于：还包括文本内容保存算法，可以选中文字信息保存为文本文件以便后期查看。

5.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术，其特征在于：所述语音识别算法包括获取视频通话中的音频数据，从音频数据中提取声音特征并与语音库对比。

6.根据权利要求3所述的一种在视频通话中实时叠加字幕的技术，其特征在于：所述字幕显示算法包括识别的第一句话文字显示于第一行，识别的第二句话文字显示于第二行，第二行文字显示完整后将第一行文字删除，第一行文字删除后，将第二行文字提升至第一行，空余下的第二行显示新文字。

7.根据权利要求7所述的一种在视频通话中实时叠加字幕的应用，其特征在于：包括以下应用步骤：

A1:在设备终端上利用视频通话软件发起视频通话；

A4:文字直接叠加显示于视频界面上形成视频字幕。