CN112511847A - 视频图像叠加实时语音字幕的方法及装置 - Google Patents
视频图像叠加实时语音字幕的方法及装置 Download PDFInfo
- Publication number
- CN112511847A CN112511847A CN202011227644.6A CN202011227644A CN112511847A CN 112511847 A CN112511847 A CN 112511847A CN 202011227644 A CN202011227644 A CN 202011227644A CN 112511847 A CN112511847 A CN 112511847A
- Authority
- CN
- China
- Prior art keywords
- video
- service host
- data
- real
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004891 communication Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013519 translation Methods 0.000 abstract description 6
- 208000032041 Hearing impaired Diseases 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 208000016621 Hearing disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种视频图像叠加实时语音字幕的方法及装置,应用于视频会议的应用场景中,其中,该方法包括:所述第一服务主机获取第一音频数据;所述第一服务主机获取第一视频数据;所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据;所述第一服务主机将所述文字数据叠加到所述第一视频数据中,形成第二视频数据;所述第一服务主机通过所述显示屏输出所述第二视频数据。该装置用于执行该方法。可见,实施本发明能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利。
Description
技术领域
本发明涉及视频会议技术领域,尤其涉及一种视频图像叠加实时语音字幕的方法及装置。
背景技术
现如今,视频会议已经得到广泛应用,因互联网传输技术、视频处理技术、音频处理技术等各项技术逐渐提高,视频会议产品已做得相当出色,市面上也不乏成熟稳定的视频会议产品。近年,随着人工智能的兴起,智能语音识别/翻译技术高速发展,该技术未能在传统视频会议中得到有效应用。
在传统的视频会议中,近端设备只能显示远端的视频图像和播放远端声音,当参会人员存在听力障碍时,传统视频会议无法起到良好的沟通效果,当参会人员之间需要跨语种交流时,传统视频会议无法起到作用。通过完全编码实现的方式,来重新布置一套叠加实时语音字幕的视频会议系统的成本较高,已有视频会议系统的用户还需安装调试及适应使用重新开发的系统,不利于推广。
发明内容
本发明所要解决的技术问题在于,提供一种视频图像叠加实时语音字幕的方法及装置,能够将视频会议中的实时语音转换成文字并叠加到实时视频图像上。
为了解决上述技术问题,本发明第一方面公开了一种视频图像叠加实时语音字幕的方法,应用于视频会议的应用场景中,其中,所述应用场景包括通信连接的第一服务主机和显示屏,所述方法包括:
所述第一服务主机获取第一音频数据,其中,所述第一音频数据包括所述视频会议中的实时音频数据;
所述第一服务主机获取第一视频数据,其中,所述第一视频数据包括所述视频会议中的实时视频数据;
所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据;
所述第一服务主机将所述文字数据叠加到所述第一视频数据中,形成第二视频数据;
所述第一服务主机通过所述显示屏输出所述第二视频数据。
作为一种可选的实施方式,在本发明第一方面中,在所述第一服务主机获取第一音频数据之前,所述方法还包括:
所述第一服务主机通过互联网与远端设备建立通信连接;
所述第一服务主机获取由所述远端设备发送的所述视频会议中的实时视音频数据流;
以及,所述第一服务主机获取第一音频数据,具体包括:
所述第一服务主机从所述实时视音频数据流中,获取第一音频数据。
作为一种可选的实施方式,在本发明第一方面中,所述第一服务主机获取第一视频数据,具体包括:
所述第一服务主机从所述实时视音频数据流中,获取第一视频数据。
作为一种可选的实施方式,在本发明第一方面中,在所述第一服务主机将所述文字数据叠加到所述第一视频数据中,形成第二视频数据之后,所述方法还包括:
所述第一服务主机将所述第二视频数据发送至所述远端设备,以供所述远端设备输出所述第二视频数据。
作为一种可选的实施方式,在本发明第一方面中,在所述第一服务主机获取第一音频数据之前,所述方法还包括:
所述第一服务主机与拾音器通信连接;
所述第一服务主机通过所述拾音器获取所述视频会议中的实时近端音频数据;
以及,所述第一服务主机获取第一音频数据,具体包括:
所述第一服务主机从所述实时近端音频数据中,获取第一音频数据。
作为一种可选的实施方式,在本发明第一方面中,所述第一服务主机获取第一视频数据,具体包括:
所述第一服务主机与摄像机建立通信连接;
所述第一服务主机通过所述摄像机获取所述视频会议中的实时近端视频数据;
所述第一服务主机根据所述实时近端视频数据,获取第一视频数据。
作为一种可选的实施方式,在本发明第一方面中,所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据,具体包括:
所述第一服务主机根据所述第一音频数据,生成PCM音频编码数据;
所述第一服务主机根据所述PCM音频编码数据,生成预先确定的语言环境下所对应的文字数据。
作为一种可选的实施方式,在本发明第一方面中,在所述第一服务主机通过所述显示屏输出所述第二视频数据之前,所述方法还包括:
所述第一服务主机与扬声器建立通信连接,
以及,在所述第一服务主机通过所述显示屏输出所述第二视频数据的同时,所述第一服务主机通过所述扬声器输出第一音频数据。
可见,本发明第一方面中,通过将视频会议中的实时音频数据转换为文字数据,该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中,而形成第二视频数据,并通过显示屏输出该第二视频数据,能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利,另外,该实时音频数据转换成预先确定的语言环境下所对应的文字数据,能够为跨语种交流提供便利,除此之外,基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备,与市面上的视频会议系统中的硬件设备具有可替代性和兼容性,有利于减少布置视频会议系统的成本。
本发明第二方面公开了一种用于实现视频图像叠加实时语音字幕的装置,应用于视频会议的应用场景中,所述装置包括获取模块、转换模块、叠加模块和输出模块,
所述获取模块用于获取第一音频数据,其中,所述第一音频数据包括所述视频会议中的实时音频数据;
所述获取模块还用于获取第一视频数据,其中,所述第一视频数据包括所述视频会议中的实时视频数据;
所述转换模块用于将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据;
所述叠加模块用于将所述文字数据叠加到所述第一视频数据中,形成第二视频数据;
所述输出模块用于输出所述第二视频数据。
本发明第三方面公开了另一种用于实现视频图像叠加实时语音字幕的装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的视频图像叠加实时语音字幕的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种视频图像叠加实时语音字幕方法的视频会议系统的结构示意图;
图2是本发明实施例的一种视频图像叠加实时语音字幕方法的流程示意图;
图3是本发明实施例的一种用于实现视频图像叠加实时语音字幕的装置的结构示意图;
图4是本发明实施例的另一种用于实现视频图像叠加实时语音字幕的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种视频图像叠加实时语音字幕的方法及装置,通过将视频会议中的实时音频数据转换为文字数据,该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中,而形成第二视频数据,并通过显示屏输出该第二视频数据,能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利,另外,该实时音频数据转换成预先确定的语言环境下所对应的文字数据,能够为跨语种交流提供便利,除此之外,基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备,与市面上的视频会议系统中的硬件设备具有可替代性和兼容性,有利于减少布置视频会议系统的成本。
为了更好的理解本发明所描述的一种视频图像叠加实时语音字幕的方法及装置,首先对一种可以用于实现视频图像叠加实时语音字幕的方法及装置的视频会议系统加以描述,具体的,该视频会议系统的结构示意图可以如图1所示。如图1所示,视频会议系统包括基于互联网通信连接的近端设备和远端设备。其中,近端设备包括第一服务主机,远端设备包括第二服务主机。
进一步的,第一、第二服务主机具有互联网通信接口,可以实现互联网通信。
又进一步的,第一服务主机可以通过互联网,与第二服务主机通信连接。
又进一步的,如图1所示,近端设备还包括与第一服务主机通信连接的显示屏,其中,第一服务主机可以通过该显示屏,输出视频会议中的实时视频数据。具体地,为了保障视频数据的高效输出,第一服务主机与显示屏可以通过HDMI线连接。
又进一步的,如图1所示,近端设备还包括与第一服务主机通信连接的摄像机,其中,第一服务主机可以通过该摄像机,获取实时近端视频数据。
又进一步的,该显示屏包括主显示屏和副显示屏,其中,主显示屏用于显示第二服务主机发送至第一服务主机的实时远端视频数据,副显示屏可用于显示第一服务主机通过摄像机获取的实时近端视频数据。
又进一步的,如图1所示,近端设备还包括与第一服务主机通信连接的拾音器,其中,第一服务主机可以通过该拾音器,获取视频会议中的实时近端音频数据。
又进一步的,如图1所示,近端设备还包括与第一服务主机通信连接的扬声器,其中,第一服务主机可以通过该扬声器,输出视频会议中的实时近端音频数据。
以上对可用于实现视频图像叠加实时语音字幕的方法的视频会议系统做了描述,下面对视频图像叠加实时语音字幕的方法及装置进行详细的描述。
请参阅图2,图2是本发明第一方面实施例公开的一种视频图像叠加实时语音字幕的方法的流程示意图。其中,图2所描述的视频图像叠加实时语音字幕的方法适用于图1所描述的视频会议系统中。如图2所示,该视频图像叠加实时语音字幕的方法可以包括以下操作:
201、第一服务主机获取第一音频数据。
本发明实施例中,第一音频数据包括视频会议中的实时音频数据。
202、第一服务主机获取第一视频数据。
本发明实施例中,第一视频数据包括视频会议中的实时视频数据。
本发明实施例中,步骤201与步骤202的具体顺序可以根据实际应用场景中的设备布置而确定,步骤201与步骤202可以是同时进行,也可以是步骤201在先,步骤202在后,还可以是步骤201在后,步骤202在先,需要说明的是,本发明中,对于步骤201与步骤202的确切的顺序,不作限定。
203、第一服务主机将第一音频数据转换成预先确定的语言环境下所对应的文字数据。
本发明实施例中,预先确定的语言环境可以根据使用者的需要而进行设置,比如,英语、中文、西班牙语等。例如,当第一音频数据所对应的语言为英语,而使用者预先确定的语言环境对应的是中文,则需要将第一音频数据进行语言转换,该语言转换的过程可以基于现有的多国语言数据库实现。
204、第一服务主机将文字数据叠加到第一视频数据中,形成第二视频数据。
本发明实施例中,可选的,文字数据可以叠加到第一视频数据的视频图像的下方,形成视频图像对应的字幕。
205、第一服务主机通过显示屏输出第二视频数据。
可见,本发明第一方面实施例通过将视频会议中的实时音频数据转换为文字数据,该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中,而形成第二视频数据,并通过显示屏输出该第二视频数据,能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利,另外,该实时音频数据转换成预先确定的语言环境下所对应的文字数据,能够为跨语种交流提供便利,除此之外,基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备,与市面上的视频会议系统中的硬件设备具有可替代性和兼容性,有利于减少布置视频会议系统的成本。
在本发明的一个具体实施例中,在第一服务主机获取第一音频数据之前,该方法还包括以下步骤:
第一服务主机通过互联网与远端设备建立通信连接;
第一服务主机获取由远端设备发送的视频会议中的实时视音频数据流;
以及,第一服务主机获取第一音频数据,具体包括以下步骤:
第一服务主机从实时视音频数据流中,获取第一音频数据。
在该实施例中,可选的,远端设备包括第二服务主机,其中,第一服务主机通过互联网与第二服务主机建立通信连接。
可见,该实施例中,第一服务主机可以通过远端设备发送的实时视音频数据流,获取第一音频数据。
在该实施例中,进一步的,第一服务主机获取第一视频数据,具体包括:
第一服务主机从实时视音频数据流中,获取第一视频数据。
可见,该实施例中,第一服务主机可以通过远端设备发送的实时视音频数据流,获取第一视频数据。
在该实施例中,进一步的,在第一服务主机将文字数据叠加到第一视频数据中,形成第二视频数据之后,方法还包括:
第一服务主机将第二视频数据发送至远端设备,以供远端设备输出第二视频数据。
可见,该实施例中,第一服务主机可以通过远端设备输出第二视频数据。
在本发明的一些具体实施例中,在第一服务主机获取第一音频数据之前,方法还包括:
第一服务主机与拾音器通信连接;
第一服务主机通过拾音器获取视频会议中的实时近端音频数据;
以及,第一服务主机获取第一音频数据,具体包括:
第一服务主机从实时近端音频数据中,获取第一音频数据。
可见,该实施例中,第一服务主机可以通过拾音器获取第一视频数据。
在该实施例中,进一步的,第一服务主机获取第一视频数据,具体包括:
第一服务主机与摄像机建立通信连接;
第一服务主机通过摄像机获取视频会议中的实时近端视频数据;
第一服务主机根据实时近端视频数据,获取第一视频数据。
可见,该实施例中,第一服务主机可以通过摄像机获取第一视频数据。
在本发明的一些具体实施例中,第一服务主机将第一音频数据转换成预先确定的语言环境下所对应的文字数据,具体包括:
第一服务主机根据第一音频数据,生成PCM(Pulse Code Modulation,脉冲编码调制)音频编码数据;
第一服务主机根据PCM音频编码数据,生成预先确定的语言环境下所对应的文字数据。
可见,在该实施例中,根据第一音频数据,生成对应的PCM音频编码数据,有利于第一音频数据的高效利用。
在本发明的一些具体实施例中,在第一服务主机通过显示屏输出第二视频数据之前,该方法还包括以下步骤:
第一服务主机与扬声器建立通信连接,
以及,在第一服务主机通过显示屏输出第二视频数据的同时,第一服务主机通过扬声器输出第一音频数据。
可见,在该实施例中,第一服务主机可以在显示屏输出第二视频数据的同时,通过扬声器输出第一音频数据,有利于实现视频输出和音频输出的同步性。
请参阅图3,图3是本发明第二方面实施例公开的一种用于实现视频图像叠加实时语音字幕的装置。图3所描述的用于实现视频图像叠加实时语音字幕的装置适用于图1所描述的视频会议系统中。如图3所示,该装置可以包括获取模块301、转换模块302、叠加模块303和输出模块304,
获取模块301用于获取第一音频数据,其中,第一音频数据包括视频会议中的实时音频数据;
获取模块301还用于获取第一视频数据,其中,第一视频数据包括视频会议中的实时视频数据;
转换模块302用于将第一音频数据转换成预先确定的语言环境下所对应的文字数据;
叠加模块303用于将文字数据叠加到第一视频数据中,形成第二视频数据;
输出模块304用于输出第二视频数据。
可见,本发明第二方面实施例通过将视频会议中的实时音频数据转换为文字数据,该文字数据(即语音字幕)叠加到视频会议中的实时视频数据中,而形成第二视频数据,并通过显示屏输出该第二视频数据,能够为有语言翻译需求的参会者或者听力障碍者提供参与视频会议的便利,另外,该实时音频数据转换成预先确定的语言环境下所对应的文字数据,能够为跨语种交流提供便利,除此之外,基于视频图像叠加实时语音字幕的方法中所用到的视频会议系统中的硬件设备,与市面上的视频会议系统中的硬件设备具有可替代性和兼容性,有利于减少布置视频会议系统的成本。
请参阅图4,图4是本发明第三方面实施例公开的另一种用于实现视频图像叠加实时语音字幕的装置。图4所描述的用于实现视频图像叠加实时语音字幕的装置适用于图1所描述的视频会议系统中。如图4所示,该装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
进一步的,还可以包括与处理器402耦合的输入接口403和输出接口404;
其中,处理器402调用存储器401中存储的可执行程序代码,用于执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。
本发明第四方面实施例公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。
本发明第五方面实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行本发明第一方面实施例所描述的视频图像叠加实时语音字幕的步骤。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种视频图像叠加实时语音字幕的方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述的实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明的实施例技术方案的精神和范围。
Claims (10)
1.一种视频图像叠加实时语音字幕的方法,其特征在于,应用于视频会议的应用场景中,其中,所述应用场景包括通信连接的第一服务主机和显示屏,所述方法包括:
所述第一服务主机获取第一音频数据,其中,所述第一音频数据包括所述视频会议中的实时音频数据;
所述第一服务主机获取第一视频数据,其中,所述第一视频数据包括所述视频会议中的实时视频数据;
所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据;
所述第一服务主机将所述文字数据叠加到所述第一视频数据中,形成第二视频数据;
所述第一服务主机通过所述显示屏输出所述第二视频数据。
2.根据权利要求1所述的视频图像叠加实时语音字幕的方法,其特征在于,在所述第一服务主机获取第一音频数据之前,所述方法还包括:
所述第一服务主机通过互联网与远端设备建立通信连接;
所述第一服务主机获取由所述远端设备发送的所述视频会议中的实时视音频数据流;
以及,所述第一服务主机获取第一音频数据,具体包括:
所述第一服务主机从所述实时视音频数据流中,获取第一音频数据。
3.根据权利要求2所述的视频图像叠加实时语音字幕的方法,其特征在于,所述第一服务主机获取第一视频数据,具体包括:
所述第一服务主机从所述实时视音频数据流中,获取第一视频数据。
4.根据权利要求2所述的视频图像叠加实时语音字幕的方法,其特征在于,在所述第一服务主机将所述文字数据叠加到所述第一视频数据中,形成第二视频数据之后,所述方法还包括:
所述第一服务主机将所述第二视频数据发送至所述远端设备,以供所述远端设备输出所述第二视频数据。
5.根据权利要求1所述的视频图像叠加实时语音字幕的方法,其特征在于,在所述第一服务主机获取第一音频数据之前,所述方法还包括:
所述第一服务主机与拾音器通信连接;
所述第一服务主机通过所述拾音器获取所述视频会议中的实时近端音频数据;
以及,所述第一服务主机获取第一音频数据,具体包括:
所述第一服务主机从所述实时近端音频数据中,获取第一音频数据。
6.根据权利要求5所述的视频图像叠加实时语音字幕的方法,其特征在于,所述第一服务主机获取第一视频数据,具体包括:
所述第一服务主机与摄像机建立通信连接;
所述第一服务主机通过所述摄像机获取所述视频会议中的实时近端视频数据;
所述第一服务主机根据所述实时近端视频数据,获取第一视频数据。
7.根据权利要求1至6任一项所述的视频图像叠加实时语音字幕的方法,其特征在于,所述第一服务主机将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据,具体包括:
所述第一服务主机根据所述第一音频数据,生成PCM音频编码数据;
所述第一服务主机根据所述PCM音频编码数据,生成预先确定的语言环境下所对应的文字数据。
8.根据权利要求1至6任一项所述的视频图像叠加实时语音字幕的方法,其特征在于,在所述第一服务主机通过所述显示屏输出所述第二视频数据之前,所述方法还包括:
所述第一服务主机与扬声器建立通信连接,
以及,在所述第一服务主机通过所述显示屏输出所述第二视频数据的同时,所述第一服务主机通过所述扬声器输出第一音频数据。
9.一种用于实现视频图像叠加实时语音字幕的装置,其特征在于,应用于视频会议的应用场景中,所述装置包括获取模块、转换模块、叠加模块和输出模块,
所述获取模块用于获取第一音频数据,其中,所述第一音频数据包括所述视频会议中的实时音频数据;
所述获取模块还用于获取第一视频数据,其中,所述第一视频数据包括所述视频会议中的实时视频数据;
所述转换模块用于将所述第一音频数据转换成预先确定的语言环境下所对应的文字数据;
所述叠加模块用于将所述文字数据叠加到所述第一视频数据中,形成第二视频数据;
所述输出模块用于输出所述第二视频数据。
10.一种用于实现视频图像叠加实时语音字幕的装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-8任一项所述的视频图像叠加实时语音字幕的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011227644.6A CN112511847A (zh) | 2020-11-06 | 2020-11-06 | 视频图像叠加实时语音字幕的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011227644.6A CN112511847A (zh) | 2020-11-06 | 2020-11-06 | 视频图像叠加实时语音字幕的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112511847A true CN112511847A (zh) | 2021-03-16 |
Family
ID=74955315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011227644.6A Pending CN112511847A (zh) | 2020-11-06 | 2020-11-06 | 视频图像叠加实时语音字幕的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112511847A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113873306A (zh) * | 2021-09-23 | 2021-12-31 | 深圳市多狗乐智能研发有限公司 | 一种将实时翻译字幕叠加画面经硬件投射到直播间的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104427294A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 支持电视会议同声传译的方法及云端服务器 |
CN105430308A (zh) * | 2014-09-17 | 2016-03-23 | 索尼公司 | 交互式投影机的曝光值自动调整装置及其方法 |
US20170242847A1 (en) * | 2016-02-19 | 2017-08-24 | Kabushiki Kaisha Toshiba | Apparatus and method for translating a meeting speech |
CN109819202A (zh) * | 2019-03-20 | 2019-05-28 | 上海高屋信息科技有限公司 | 字幕添加装置及字幕添加方法 |
CN111447397A (zh) * | 2020-03-27 | 2020-07-24 | 深圳市贸人科技有限公司 | 一种基于视频会议的翻译方法以及翻译装置 |
-
2020
- 2020-11-06 CN CN202011227644.6A patent/CN112511847A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104427294A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 支持电视会议同声传译的方法及云端服务器 |
CN105430308A (zh) * | 2014-09-17 | 2016-03-23 | 索尼公司 | 交互式投影机的曝光值自动调整装置及其方法 |
US20170242847A1 (en) * | 2016-02-19 | 2017-08-24 | Kabushiki Kaisha Toshiba | Apparatus and method for translating a meeting speech |
CN109819202A (zh) * | 2019-03-20 | 2019-05-28 | 上海高屋信息科技有限公司 | 字幕添加装置及字幕添加方法 |
CN111447397A (zh) * | 2020-03-27 | 2020-07-24 | 深圳市贸人科技有限公司 | 一种基于视频会议的翻译方法以及翻译装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113873306A (zh) * | 2021-09-23 | 2021-12-31 | 深圳市多狗乐智能研发有限公司 | 一种将实时翻译字幕叠加画面经硬件投射到直播间的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5564459B2 (ja) | ビデオ会議に翻訳を追加するための方法及びシステム | |
EP2348671B1 (en) | Conference terminal, conference server, conference system and method for data processing | |
US10176366B1 (en) | Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment | |
CN102006453B (zh) | 视频信号的辅助信息叠加方法及装置 | |
CN101309390B (zh) | 视讯通信系统、装置及其字幕显示方法 | |
US6771302B1 (en) | Videoconference closed caption system and method | |
US11710488B2 (en) | Transcription of communications using multiple speech recognition systems | |
CN102984496B (zh) | 视频会议中的视音频信息的处理方法、装置及系统 | |
CN102422639A (zh) | 用于在会议环境中翻译参与者之间的通信的系统和方法 | |
JP2003345379A (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
JP2003345379A6 (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
EP2924985A1 (en) | Low-bit-rate video conference system and method, sending end device, and receiving end device | |
CN109743529A (zh) | 一种多功能视频会议系统 | |
KR20120073795A (ko) | 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법 | |
CN111107301A (zh) | 一种视频会议平台及基于视频会议平台的通讯方法 | |
CN112511847A (zh) | 视频图像叠加实时语音字幕的方法及装置 | |
CN102262344A (zh) | 可即时分享所播放投影片影像的投影机 | |
CN111757187A (zh) | 多语言字幕显示方法、装置、终端设备及存储介质 | |
CN111355918A (zh) | 一种智能远程视频会议系统 | |
JP2019176375A (ja) | 動画出力装置、動画出力方法および動画出力プログラム | |
CN112825551B (zh) | 一种视频会议重要内容提示及转写存储的方法及系统 | |
US11838338B2 (en) | Method and device for conference control and conference participation, server, terminal, and storage medium | |
CN111526431A (zh) | 为视音频节目实时添加字幕的设备 | |
CN102263929A (zh) | 会议视像信息实时发布系统和相应装置 | |
JPH10126757A (ja) | ビデオ会議システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210316 |