CN112511847A

CN112511847A - 视频图像叠加实时语音字幕的方法及装置

Info

Publication number: CN112511847A
Application number: CN202011227644.6A
Authority: CN
Inventors: 吴诗擎; 陶丹
Original assignee: Gonsin Conference Equipment Co ltd
Current assignee: Gonsin Conference Equipment Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-03-16

Abstract

本发明公开了一种视频图像叠加实时语音字幕的方法及装置，应用于视频会议的应用场景中，其中，该方法包括：所述第一服务主机获取第一音频数据；所述第一服务主机获取第一视频数据；所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据；所述第一服务主机将所述文字数据叠加到所述第一视频数据中，形成第二视频数据；所述第一服务主机通过所述显示屏输出所述第二视频数据。该装置用于执行该方法。可见，实施本发明能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利。

Description

视频图像叠加实时语音字幕的方法及装置

技术领域

本发明涉及视频会议技术领域，尤其涉及一种视频图像叠加实时语音字幕的方法及装置。

背景技术

现如今，视频会议已经得到广泛应用，因互联网传输技术、视频处理技术、音频处理技术等各项技术逐渐提高，视频会议产品已做得相当出色，市面上也不乏成熟稳定的视频会议产品。近年，随着人工智能的兴起，智能语音识别/翻译技术高速发展，该技术未能在传统视频会议中得到有效应用。

在传统的视频会议中，近端设备只能显示远端的视频图像和播放远端声音，当参会人员存在听力障碍时，传统视频会议无法起到良好的沟通效果，当参会人员之间需要跨语种交流时，传统视频会议无法起到作用。通过完全编码实现的方式，来重新布置一套叠加实时语音字幕的视频会议系统的成本较高，已有视频会议系统的用户还需安装调试及适应使用重新开发的系统，不利于推广。

发明内容

本发明所要解决的技术问题在于，提供一种视频图像叠加实时语音字幕的方法及装置，能够将视频会议中的实时语音转换成文字并叠加到实时视频图像上。

为了解决上述技术问题，本发明第一方面公开了一种视频图像叠加实时语音字幕的方法，应用于视频会议的应用场景中，其中，所述应用场景包括通信连接的第一服务主机和显示屏，所述方法包括：

所述第一服务主机获取第一音频数据，其中，所述第一音频数据包括所述视频会议中的实时音频数据；

所述第一服务主机获取第一视频数据，其中，所述第一视频数据包括所述视频会议中的实时视频数据；

所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据；

所述第一服务主机将所述文字数据叠加到所述第一视频数据中，形成第二视频数据；

所述第一服务主机通过所述显示屏输出所述第二视频数据。

作为一种可选的实施方式，在本发明第一方面中，在所述第一服务主机获取第一音频数据之前，所述方法还包括：

所述第一服务主机通过互联网与远端设备建立通信连接；

所述第一服务主机获取由所述远端设备发送的所述视频会议中的实时视音频数据流；

以及，所述第一服务主机获取第一音频数据，具体包括：

所述第一服务主机从所述实时视音频数据流中，获取第一音频数据。

作为一种可选的实施方式，在本发明第一方面中，所述第一服务主机获取第一视频数据，具体包括：

所述第一服务主机从所述实时视音频数据流中，获取第一视频数据。

作为一种可选的实施方式，在本发明第一方面中，在所述第一服务主机将所述文字数据叠加到所述第一视频数据中，形成第二视频数据之后，所述方法还包括：

所述第一服务主机将所述第二视频数据发送至所述远端设备，以供所述远端设备输出所述第二视频数据。

所述第一服务主机与拾音器通信连接；

所述第一服务主机通过所述拾音器获取所述视频会议中的实时近端音频数据；

以及，所述第一服务主机获取第一音频数据，具体包括：

所述第一服务主机从所述实时近端音频数据中，获取第一音频数据。

所述第一服务主机与摄像机建立通信连接；

所述第一服务主机通过所述摄像机获取所述视频会议中的实时近端视频数据；

所述第一服务主机根据所述实时近端视频数据，获取第一视频数据。

作为一种可选的实施方式，在本发明第一方面中，所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据，具体包括：

所述第一服务主机根据所述第一音频数据，生成PCM音频编码数据；

所述第一服务主机根据所述PCM音频编码数据，生成预先确定的语言环境下所对应的文字数据。

作为一种可选的实施方式，在本发明第一方面中，在所述第一服务主机通过所述显示屏输出所述第二视频数据之前，所述方法还包括：

所述第一服务主机与扬声器建立通信连接，

以及，在所述第一服务主机通过所述显示屏输出所述第二视频数据的同时，所述第一服务主机通过所述扬声器输出第一音频数据。

可见，本发明第一方面中，通过将视频会议中的实时音频数据转换为文字数据，该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中，而形成第二视频数据，并通过显示屏输出该第二视频数据，能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利，另外，该实时音频数据转换成预先确定的语言环境下所对应的文字数据，能够为跨语种交流提供便利，除此之外，基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备，与市面上的视频会议系统中的硬件设备具有可替代性和兼容性，有利于减少布置视频会议系统的成本。

本发明第二方面公开了一种用于实现视频图像叠加实时语音字幕的装置，应用于视频会议的应用场景中，所述装置包括获取模块、转换模块、叠加模块和输出模块，

所述获取模块用于获取第一音频数据，其中，所述第一音频数据包括所述视频会议中的实时音频数据；

所述获取模块还用于获取第一视频数据，其中，所述第一视频数据包括所述视频会议中的实时视频数据；

所述转换模块用于将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据；

所述叠加模块用于将所述文字数据叠加到所述第一视频数据中，形成第二视频数据；

所述输出模块用于输出所述第二视频数据。

本发明第三方面公开了另一种用于实现视频图像叠加实时语音字幕的装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的视频图像叠加实时语音字幕的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种视频图像叠加实时语音字幕方法的视频会议系统的结构示意图；

图2是本发明实施例的一种视频图像叠加实时语音字幕方法的流程示意图；

图3是本发明实施例的一种用于实现视频图像叠加实时语音字幕的装置的结构示意图；

图4是本发明实施例的另一种用于实现视频图像叠加实时语音字幕的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种视频图像叠加实时语音字幕的方法及装置，通过将视频会议中的实时音频数据转换为文字数据，该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中，而形成第二视频数据，并通过显示屏输出该第二视频数据，能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利，另外，该实时音频数据转换成预先确定的语言环境下所对应的文字数据，能够为跨语种交流提供便利，除此之外，基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备，与市面上的视频会议系统中的硬件设备具有可替代性和兼容性，有利于减少布置视频会议系统的成本。

为了更好的理解本发明所描述的一种视频图像叠加实时语音字幕的方法及装置，首先对一种可以用于实现视频图像叠加实时语音字幕的方法及装置的视频会议系统加以描述，具体的，该视频会议系统的结构示意图可以如图1所示。如图1所示，视频会议系统包括基于互联网通信连接的近端设备和远端设备。其中，近端设备包括第一服务主机，远端设备包括第二服务主机。

进一步的，第一、第二服务主机具有互联网通信接口，可以实现互联网通信。

又进一步的，第一服务主机可以通过互联网，与第二服务主机通信连接。

又进一步的，如图1所示，近端设备还包括与第一服务主机通信连接的显示屏，其中，第一服务主机可以通过该显示屏，输出视频会议中的实时视频数据。具体地，为了保障视频数据的高效输出，第一服务主机与显示屏可以通过HDMI线连接。

又进一步的，如图1所示，近端设备还包括与第一服务主机通信连接的摄像机，其中，第一服务主机可以通过该摄像机，获取实时近端视频数据。

又进一步的，该显示屏包括主显示屏和副显示屏，其中，主显示屏用于显示第二服务主机发送至第一服务主机的实时远端视频数据，副显示屏可用于显示第一服务主机通过摄像机获取的实时近端视频数据。

又进一步的，如图1所示，近端设备还包括与第一服务主机通信连接的拾音器，其中，第一服务主机可以通过该拾音器，获取视频会议中的实时近端音频数据。

又进一步的，如图1所示，近端设备还包括与第一服务主机通信连接的扬声器，其中，第一服务主机可以通过该扬声器，输出视频会议中的实时近端音频数据。

以上对可用于实现视频图像叠加实时语音字幕的方法的视频会议系统做了描述，下面对视频图像叠加实时语音字幕的方法及装置进行详细的描述。

请参阅图2，图2是本发明第一方面实施例公开的一种视频图像叠加实时语音字幕的方法的流程示意图。其中，图2所描述的视频图像叠加实时语音字幕的方法适用于图1所描述的视频会议系统中。如图2所示，该视频图像叠加实时语音字幕的方法可以包括以下操作：

201、第一服务主机获取第一音频数据。

本发明实施例中，第一音频数据包括视频会议中的实时音频数据。

202、第一服务主机获取第一视频数据。

本发明实施例中，第一视频数据包括视频会议中的实时视频数据。

本发明实施例中，步骤201与步骤202的具体顺序可以根据实际应用场景中的设备布置而确定，步骤201与步骤202可以是同时进行，也可以是步骤201在先，步骤202在后，还可以是步骤201在后，步骤202在先，需要说明的是，本发明中，对于步骤201与步骤202的确切的顺序，不作限定。

203、第一服务主机将第一音频数据转换成预先确定的语言环境下所对应的文字数据。

本发明实施例中，预先确定的语言环境可以根据使用者的需要而进行设置，比如，英语、中文、西班牙语等。例如，当第一音频数据所对应的语言为英语，而使用者预先确定的语言环境对应的是中文，则需要将第一音频数据进行语言转换，该语言转换的过程可以基于现有的多国语言数据库实现。

204、第一服务主机将文字数据叠加到第一视频数据中，形成第二视频数据。

本发明实施例中，可选的，文字数据可以叠加到第一视频数据的视频图像的下方，形成视频图像对应的字幕。

205、第一服务主机通过显示屏输出第二视频数据。

可见，本发明第一方面实施例通过将视频会议中的实时音频数据转换为文字数据，该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中，而形成第二视频数据，并通过显示屏输出该第二视频数据，能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利，另外，该实时音频数据转换成预先确定的语言环境下所对应的文字数据，能够为跨语种交流提供便利，除此之外，基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备，与市面上的视频会议系统中的硬件设备具有可替代性和兼容性，有利于减少布置视频会议系统的成本。

在本发明的一个具体实施例中，在第一服务主机获取第一音频数据之前，该方法还包括以下步骤：

第一服务主机通过互联网与远端设备建立通信连接；

第一服务主机获取由远端设备发送的视频会议中的实时视音频数据流；

以及，第一服务主机获取第一音频数据，具体包括以下步骤：

第一服务主机从实时视音频数据流中，获取第一音频数据。

在该实施例中，可选的，远端设备包括第二服务主机，其中，第一服务主机通过互联网与第二服务主机建立通信连接。

可见，该实施例中，第一服务主机可以通过远端设备发送的实时视音频数据流，获取第一音频数据。

在该实施例中，进一步的，第一服务主机获取第一视频数据，具体包括：

第一服务主机从实时视音频数据流中，获取第一视频数据。

可见，该实施例中，第一服务主机可以通过远端设备发送的实时视音频数据流，获取第一视频数据。

在该实施例中，进一步的，在第一服务主机将文字数据叠加到第一视频数据中，形成第二视频数据之后，方法还包括：

第一服务主机将第二视频数据发送至远端设备，以供远端设备输出第二视频数据。

可见，该实施例中，第一服务主机可以通过远端设备输出第二视频数据。

在本发明的一些具体实施例中，在第一服务主机获取第一音频数据之前，方法还包括：

第一服务主机与拾音器通信连接；

第一服务主机通过拾音器获取视频会议中的实时近端音频数据；

以及，第一服务主机获取第一音频数据，具体包括：

第一服务主机从实时近端音频数据中，获取第一音频数据。

可见，该实施例中，第一服务主机可以通过拾音器获取第一视频数据。

第一服务主机与摄像机建立通信连接；

第一服务主机通过摄像机获取视频会议中的实时近端视频数据；

第一服务主机根据实时近端视频数据，获取第一视频数据。

可见，该实施例中，第一服务主机可以通过摄像机获取第一视频数据。

在本发明的一些具体实施例中，第一服务主机将第一音频数据转换成预先确定的语言环境下所对应的文字数据，具体包括：

第一服务主机根据第一音频数据，生成PCM(Pulse Code Modulation,脉冲编码调制)音频编码数据；

第一服务主机根据PCM音频编码数据，生成预先确定的语言环境下所对应的文字数据。

可见，在该实施例中，根据第一音频数据，生成对应的PCM音频编码数据，有利于第一音频数据的高效利用。

在本发明的一些具体实施例中，在第一服务主机通过显示屏输出第二视频数据之前，该方法还包括以下步骤：

第一服务主机与扬声器建立通信连接，

以及，在第一服务主机通过显示屏输出第二视频数据的同时，第一服务主机通过扬声器输出第一音频数据。

可见，在该实施例中，第一服务主机可以在显示屏输出第二视频数据的同时，通过扬声器输出第一音频数据，有利于实现视频输出和音频输出的同步性。

请参阅图3，图3是本发明第二方面实施例公开的一种用于实现视频图像叠加实时语音字幕的装置。图3所描述的用于实现视频图像叠加实时语音字幕的装置适用于图1所描述的视频会议系统中。如图3所示，该装置可以包括获取模块301、转换模块302、叠加模块303和输出模块304，

获取模块301用于获取第一音频数据，其中，第一音频数据包括视频会议中的实时音频数据；

获取模块301还用于获取第一视频数据，其中，第一视频数据包括视频会议中的实时视频数据；

转换模块302用于将第一音频数据转换成预先确定的语言环境下所对应的文字数据；

叠加模块303用于将文字数据叠加到第一视频数据中，形成第二视频数据；

输出模块304用于输出第二视频数据。

可见，本发明第二方面实施例通过将视频会议中的实时音频数据转换为文字数据，该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中，而形成第二视频数据，并通过显示屏输出该第二视频数据，能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利，另外，该实时音频数据转换成预先确定的语言环境下所对应的文字数据，能够为跨语种交流提供便利，除此之外，基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备，与市面上的视频会议系统中的硬件设备具有可替代性和兼容性，有利于减少布置视频会议系统的成本。

请参阅图4，图4是本发明第三方面实施例公开的另一种用于实现视频图像叠加实时语音字幕的装置。图4所描述的用于实现视频图像叠加实时语音字幕的装置适用于图1所描述的视频会议系统中。如图4所示，该装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

进一步的，还可以包括与处理器402耦合的输入接口403和输出接口404；

其中，处理器402调用存储器401中存储的可执行程序代码，用于执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。

本发明第四方面实施例公开了一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。

本发明第五方面实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种视频图像叠加实时语音字幕的方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述的实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明的实施例技术方案的精神和范围。

Claims

1.一种视频图像叠加实时语音字幕的方法，其特征在于，应用于视频会议的应用场景中，其中，所述应用场景包括通信连接的第一服务主机和显示屏，所述方法包括：

所述第一服务主机通过所述显示屏输出所述第二视频数据。

2.根据权利要求1所述的视频图像叠加实时语音字幕的方法，其特征在于，在所述第一服务主机获取第一音频数据之前，所述方法还包括：

所述第一服务主机通过互联网与远端设备建立通信连接；

以及，所述第一服务主机获取第一音频数据，具体包括：

3.根据权利要求2所述的视频图像叠加实时语音字幕的方法，其特征在于，所述第一服务主机获取第一视频数据，具体包括：

4.根据权利要求2所述的视频图像叠加实时语音字幕的方法，其特征在于，在所述第一服务主机将所述文字数据叠加到所述第一视频数据中，形成第二视频数据之后，所述方法还包括：

5.根据权利要求1所述的视频图像叠加实时语音字幕的方法，其特征在于，在所述第一服务主机获取第一音频数据之前，所述方法还包括：

所述第一服务主机与拾音器通信连接；

以及，所述第一服务主机获取第一音频数据，具体包括：

6.根据权利要求5所述的视频图像叠加实时语音字幕的方法，其特征在于，所述第一服务主机获取第一视频数据，具体包括：

所述第一服务主机与摄像机建立通信连接；

7.根据权利要求1至6任一项所述的视频图像叠加实时语音字幕的方法，其特征在于，所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据，具体包括：

8.根据权利要求1至6任一项所述的视频图像叠加实时语音字幕的方法，其特征在于，在所述第一服务主机通过所述显示屏输出所述第二视频数据之前，所述方法还包括：

所述第一服务主机与扬声器建立通信连接，

9.一种用于实现视频图像叠加实时语音字幕的装置，其特征在于，应用于视频会议的应用场景中，所述装置包括获取模块、转换模块、叠加模块和输出模块，

所述输出模块用于输出所述第二视频数据。

10.一种用于实现视频图像叠加实时语音字幕的装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-8任一项所述的视频图像叠加实时语音字幕的方法的步骤。