CN109688363A - 多终端多语言实时视频群内私聊的方法及系统 - Google Patents
多终端多语言实时视频群内私聊的方法及系统 Download PDFInfo
- Publication number
- CN109688363A CN109688363A CN201811651791.9A CN201811651791A CN109688363A CN 109688363 A CN109688363 A CN 109688363A CN 201811651791 A CN201811651791 A CN 201811651791A CN 109688363 A CN109688363 A CN 109688363A
- Authority
- CN
- China
- Prior art keywords
- server
- audio stream
- video
- streaming media
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims abstract description 23
- 238000013519 translation Methods 0.000 claims abstract description 18
- 238000012546 transfer Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 abstract description 2
- 230000006835 compression Effects 0.000 abstract description 2
- 238000007906 compression Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 208000030251 communication disease Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种实现多终端多语言实时视频群内私聊的方法及系统,移动终端在聊天群组里的移动终端中选定至少一个私聊的第二移动终端并采集视频流、音频流和时间戳进行压缩分别发送至流媒体服务器和识别服务器,业务服务器向数据库服务器请求查询其他移动终端的预留信息以判断是否需要进行语言翻译并建立直接通信路径,当需要进行翻译时识别服务器将第一音频流转码为第一语言文本并由翻译服务器进行翻译为第二语言文本,并由合成服务器转换为第二音频流并发送至流媒体服务器,混流服务器像流媒体服务器调取视频流及第二音频流混流成第二视频文件,并发送至其他移动终端,使不同的移动终端之间能实现无语言障碍的多终端多语言实时视频群内私聊。
Description
技术领域
本发明涉及实时群聊翻译技术领域,尤其涉及一种多终端多语言实时视频群内私聊的方法及系统。
背景技术
日常生活或商务活动中,随着互联网技术的普及,不同国家(地区)的终端能够通过移动终端同时进行视频聊天对话或视频会议,但不同国家(地区)的人使用的语言也不同,当需要已未掌握的语言进行实时视频交流就会存在着语言的沟通障碍,现在虽然有各种各样的翻译工具,但都是对文本进行翻译或者只是单纯的语音实时翻译,虽然有视频翻译工具,但是都是对录制视频的翻译,暂时还没有可以实现多终端多语言实时视频群内私聊的工具或系统。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种多终端多语言实时视频群内私聊的方法和系统。
本发明解决其技术问题所采用的技术方案是:根据本发明的一方面,提供一种多终端多语言实时视频群内私聊的方法,包括以下步骤:
S10:第一移动终端在群组里选定私聊的至少一个第二移动终端;
S20:第一移动终端同时采集视频流、第一音频流及其对应的时间戳,将视频流及时间戳发送至流媒体服务器,以及将第一音频流发送至识别服务器;
S30:业务服务器向数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,建立直接通信路径,并判断第一语言信息和第二语言信息是否相同,若不相同,则执行步骤S40,若相同,则执行步骤S70;
S40:识别服务器将第一音频流识别为第一语言文本,并发送至翻译服务器;
S50:翻译服务器将第一语言文本翻译为至少一种第二语言文本,并发送至合成服务器;
S60:合成服务器将至少一种第二语言文本合成为至少一种第二音频流,并发送至流媒体服务器;
S70:混流服务器从流媒体服务器调取视频流及至少一种第二音频流,并根据时间戳将视频流及至少一种第二音频流混流成至少一种第二视频文件,并通过直接通信路径对应分别发送至至少一个第二移动终端;
S80:至少一个第二移动终端解码至少一种第二视频文件并播放。
优选的,还包括步骤:
S01:将第一移动终端与至少两个第二移动终端建立群组,并将群组中的第一移动终端与至少一个第二移动终端的身份信息、语言信息以及相互间的链接信息发送至数据库服务器;
选定私聊的第二移动终端个数少于群组内的全部移动终端的个数。
优选的,所述S20:第一移动终端采集视频流、第一音频流及其对应的时间戳,还可以为:
S21:第一移动终端采集获取第一视频文件;
S22:第一移动终端将第一视频文件分解为视频流、第一音频流及其对应的时间戳。
优选的,所述S50,还包括步骤:
S51:翻译服务器将第一语言文本及至少一种第二语言文本,并发送至流媒体服务器;
S70,还包括步骤:
S71:混流服务器将视频流、至少一种第二语言文本和至少一种第二音频流合成为带至少一种第二语言字幕的至少一个第二视频文件;或者
S72:混流服务器将视频流、第一语言文本、至少一种第二语言文本和至少一种第二音频流合成为带第一语言字幕和至少一种第二语言字幕的至少一个第二视频文件。
优选的,还包括步骤:
S90:混流服务器将混流后的至少一个第二视频文件发送流媒体服务器进行存储。
优选的,还包括步骤:
S100:视频管理终端可向流媒体服务器调取至少一个第二视频文件,并可对至少一个第二视频文件进行翻译校正。
优选的,所述S30,还可以为:
S31:业务服务器向数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,屏蔽除选定的至少一个第二移动终端。
优选的,所述S40还可以为:
第一移动终端将第一音频流识别为第一语音文本并直接发送至翻译服务器;
所述S70还可以为:
第二移动终端从流媒体服务器调取视频流及至少一种第二音频流,并根据时间戳将视频流及至少一种第二音频流混流成至少一个第二视频文件。
根据本发明的另一方面,提供一种多终端多语言实时视频群内私聊的系统,包括识别服务器、翻译服务器、合成服务器、流媒体服务器、混流服务器、业务服务器以及数据库服务器;识别服务器、翻译服务器、合成服务器、流媒体服务器、业务服务器依次连接,混流服务器与流媒体服务器、业务服务器均连接,数据库服务器与业务服务器连接;
识别服务器,用于从第一移动终端获取第一音频流,将第一音频流识别为第一语言文本,并发送至翻译服务器和/或流媒体服务器;
翻译服务器,用于将第一语言文本翻译为至少一种第二语言文本,并发送至合成服务器和/或流媒体服务器;
合成服务器,用于将至少一种第二语言文本合成为至少一种第二音频流,并发送至流媒体服务器;
流媒体服务器,用于从第一移动终端获取视频流和/或第一音频流并存储,从识别服务器获取第一语言文本并存储,从翻译服务器获取至少一种第二语言文本并存储,以及从合成服务器获取至少一种第二音频流并存储;
数据库服务器,用于存储第一移动终端以及至少一个第二移动终端的身份信息、语言信息以及相互间的链接信息;
业务服务器,用于查询信息、发送控制命令管理整个系统;
混流服务器,用于从流媒体服务器调取视频流及至少一种第二音频流混流成至少一个第二视频文件,并对应分别发送至至少一个第二移动终端和/或流媒体服务器。
优选的,还包括与流媒体服务器连接的视频管理终端;
视频管理终端,用于对至少一个第二视频文件进行翻译校正。
实施本发明多终端多语言实时视频群内私聊的方法及系统的技术方案,具有以下优点或有益效果:移动终端在群组里的移动终端中选定至少一个私聊的第二移动终端并采集视频流、音频流和时间戳进行压缩分别发送至流媒体服务器和识别服务器,业务服务器向数据库服务器请求查询其他移动终端的预留信息以判断是否需要进行语言翻译并建立直接通信路径,当需要进行翻译时识别服务器将第一音频流转码为第一语言文本并由翻译服务器进行翻译为第二语言文本,并由合成服务器转换为第二音频流并发送至流媒体服务器,混流服务器像流媒体服务器调取视频流及第二音频流混流成第二视频文件,并发送至其他移动终端,使不同的移动终端之间能实现无语言障碍的多终端多语言实时视频群内私聊。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术终端员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,附图中:
图1是本发明多终端多语言实时视频群内私聊的方法实施例一的流程示意图;
图2是本发明多终端多语言实时视频群内私聊的方法实施例二的流程示意图;
图3是本发明多终端多语言实时视频群内私聊的方法实施例的视频采集的流程示意图;
图4是本发明多终端多语言实时视频群内私聊的方法实施例的语言翻译的流程示意图;
图5是本发明多终端多语言实时视频群内私聊的方法实施例的视频流和语音混流的流程示意图;
图6是本发明多终端多语言实时视频群内私聊的方法实施例的视频流和语音混流的另一流程示意图;
图7是本发明多终端多语言实时视频群内私聊的方法实施例的视频文件存取及翻译校正的流程示意图;
图8是本发明多终端多语言实时视频群聊的系统实施例一的示意图;
图9是本发明多终端多语言实时视频群聊的系统实施例二的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下文将要描述的各种实施例将要参考相应的附图,这些附图构成了实施例的一部分,其中描述了实现本发明可能采用的各种实施例,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。应明白,还可使用其他的实施例,或者对本文列举的实施例进行结构和功能上的修改,而不会脱离本发明的范围和实质。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“厚度”、“上下前后左右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的元件必须具有的特定的方位、以特定的方位构造和操作,因此,不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定的“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以是通过中间媒介简介相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术终端员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
如图1-7示出了本发明多终端多语言实时视频群内私聊的方法及系统实施例提供的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
实施例一:
如图1-9所示,在本发明实现多终端多语言实时视频群内私聊的方法实施例,包括以下步骤:
S10:第一移动终端在群组里选定私聊的至少一个第二移动终端;具体的,第一移动终端在群组里限定至少一个第二移动终端,可以用特定标记还表示,如@第二移动终端等等,当然,也可以是其他任何系统设定的符号;
S20:第一移动终端同时采集视频流、第一音频流及其对应的时间戳,将视频流及时间戳发送至流媒体服务器,以及将第一音频流发送至识别服务器;
S30:业务服务器向数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,建立直接通信路径并判断第一语言信息和第二语言信息是否相同,若不相同,则执行步骤S40,若相同,则执行步骤S70;
具体的,这里的第二移动终端仅为代称,可以有多个第二移动终端,也可以为第二移动终端、第三移动终端、第四移动终端等等,同时,第一移动终端和第二移动终端可以完全一样,也可以不一样,只需要这些移动终端能够采集视频流和第一音频流及其对应的时间戳即可。
S40:识别服务器将第一音频流识别为第一语言文本,并发送至翻译服务器;
S50:翻译服务器将第一语言文本翻译为至少一种第二语言文本,并发送至合成服务器;
S60:合成服务器将至少一种第二语言文本合成为至少一种第二音频流,并发送至流媒体服务器;
S70:混流服务器从流媒体服务器调取视频流及至少一种第二音频流,并根据时间戳将视频流及至少一种第二音频流混流成第二视频文件,并通过直接通信路径对应分别发送至至少一个第二移动终端;
S80:至少一个第二移动终端解码至少一种第二视频文件并播放。
在本实施例中,还包括步骤:
S01:将第一移动终端与至少两个第二移动终端建立群组,并将群组中的第一移动终端与至少一个第二移动终端的身份信息、语言信息以及相互间的链接信息发送至数据库服务器,并进行存储供移动终端查询,同时,在群组的移动终端信息有更新时,及时更新数据库服务器的相应信息,如增加群组成员、删除群组成员等等。
选定私聊的第二移动终端个数少于群组内的全部移动终端的个数。
在本实施例中,至少三个移动终端已组建群聊并在进行实时视频群聊时,当第一移动终端在群组里选定至少一个私聊的第二移动终端,并采集视频流、第一音频流及时间戳后,将视频流和时间戳发送至流媒体服务器,将第一音频流发送至识别服务器,假设第一移动终端采集的第一音频流为中文,业务服务器向数据库服务器请求查询至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,并建立直接通信路径,当业务服务器接收到数据库服务器返回的第二移动终端的语言信息为中文时,此时,识别服务器(也可以是第一移动终端)将第一音频流直接发送至流媒体服务器,混频服务器从流媒体服务器调取视频流及第一音频流按照时间戳的要求混流为第一视频文件并通过直接通信路径发送至选定的第二移动终端,第二移动终端对第二视频文件进行解码播放。
当业务服务器接收到数据库服务器返回的第二移动终端的语言信息不是中文以外的任何语言信息,此时识别服务器将第一音频流转换为第一语言文本发送至服务器进行翻译,假设第二移动终端选定的语言信息为英文,此时翻译服务器将第一语言文本翻译为第二语言文本,即由中文翻译为英文发送至合成服务器,由合成服务器将第二语言文本合成为第二音频流并发送至流媒体服务器,混流服务器从流媒体服务器调取视频流及至少一种第二音频流按照时间戳的要求混流成第二视频文件,并通过直接通信路径对应分别发送至至少一个第二移动终端,第二移动终端对第二视频文件进行解码播放,此时第二移动终端播放的为讲英语的第二视频文件。
在本实施例中,当选定的私聊的第二移动终端为两个时,第一移动终端选定两个私聊的第二移动终端,采集视频流、第一音频流及时间戳后将视频流和时间戳发送至流媒体服务器,将第一音频流发送至识别服务器,假设第一移动终端采集的第一音频流为中文,业务服务器向数据库服务器请求查询选定的第二移动终端、第三移动终端的身份信息及其对应的第二语言信息、第三语音信息并创造第二直接通信路径、第三直接通信路径,当业务服务器接收到数据库服务器返回的第二移动终端和第三终端的语言信息都为中文时,此时,识别服务器(也可以是第一移动终端)将第一音频流直接发送至流媒体服务器,混频服务器从流媒体服务器调取视频流及第一音频流混流为第一视频文件并分别通过第二直接通信路径、第三直接通信路径对应分别发送至第二移动终端和第三移动终端。第二移动终端和第三移动终端分别对第二视频文件和第三视频文件进行解码播放;当业务服务器接收到数据库服务器返回的第二移动终端、第三移动终端的语言信息是中文以外的任何语言信息,此时,识别服务器将第一音频流转换为第一语言文本发送至翻译服务器进行翻译,假设第二移动终端的语言信息为英文,第三移动终端的语言信息为法文,此时翻译服务器将第一语言文本分别翻译为第二语言文本和第三语言文本即分别将中文翻译为英文和法文发送至合成服务器,由合成服务器将第二语言文本和第三语言文本转换为第二音频流、第三音频流并发送至流媒体服务器,混流服务器从流媒体服务器调取视频流及第二音频流混流成第二视频文件、调取视频流及第三音频流混流成第三视频文件,并通过第二直接通信路径发送第二视频文件至第二移动终端,第二移动终端对第二视频文件进行解码播放,此时第二移动终端播放的为讲英语的视频文件,同时混流服务器通过第三直接通信路径发送第三视频文件至第三移动终端,第三移动终端对第三视频文件进行解码播放,此时第三移动终端播放的为讲法语的视频文件。当选定私聊的移动终端为三个以上时,具体操作与上述的操作步骤一致。更具体的选定的私聊移动终端应小于群组内的全部移动终端。更具体的,该移动终端可以为移动智能终端或PC端。
在本实施例中,步骤S20:第一移动终端采集视频流、第一音频流及其对应的时间戳,还可以为:
S21:第一移动终端采集获取第一视频文件;
S22:第一移动终将第一视频文件分解为视频流、第一音频流及其对应的时间戳。
具体的,用户可以将已经录制好的第一视频文件进行分解为视频流、第一音频流及其对应的时间戳。
在本实施例中,步骤S50,还包括步骤:
S51:翻译服务器将第一语言文本及至少一种第二语言文本发送至流媒体服务器。即翻译服务器同时将第一语言文本及至少一种第二语言文本发送至流媒体服务器。
具体的,步骤S70,还包括步骤:
S71:混流服务器将视频流、至少一种第二语言文本和至少一种第二音频流混流为带至少一种第二语言字幕的至少一种第二视频文件;或者
S72:混流服务器将视频流、第一语言文本、至少一种第二语言文本和至少一种第二音频流混流为带第一语言字幕和至少一种第二语言字幕的双语字幕的至少一个第二视频文件。即待播放的视频有包括图像和声音,或者包括图像、声音和翻译字幕,或者包括图像、声音、双字幕的三种播放形式。
具体的,还包括步骤:
S90:混流服务器将混流后的至少一个第二视频文件存储至流媒体服务器,当第二移动终端向业务服务器发起请求后,业务服务器可向流媒体服务器调取存储的第二视频文件,观看聊天视频的回放。
具体的,还包括步骤:
S100:视频管理移动终端可向流媒体服务器调取存储的至少一个第二视频文件,并可对至少一个第二视频文件进行翻译校正,通过后期的对实时视频的进行定期翻译的准确性进行核查后可对翻译服务器的词库的词汇量进行实时更新以提高翻译的准确性。
实施例二:
在本实施例中,多终端多语言实时视频群内私聊的方法,步骤S30,业务服务器向数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,建立直接通信路径,还可以为:
S31:业务服务器向数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,屏蔽除选定的至少一个第二移动终端的通信路径;
S32:业务服务器判断第一语言信息和第二语言信息是否相同。
具体的,即当第一移动终端选定私聊的至少一个第二移动终端时,除可以建立直接通信路径,选定私聊的第二移动终端通过直接通信路径进行实时通信外,还可以直接屏蔽掉没有选定的其他移动终端的通信路径,此时只有选定的私聊对象才能接收到第一移动终端发送的实时视频文件;
更具体的;步骤S40可以由第一移动终端完成,即第一移动终端设置将第一音频流识别为第一语音文本直接发送至翻译服务器;步骤S70可以由第二移动终端完成,即第二移动终端直接从流媒体服务器调取视频流及至少一种第二音频流混流成第二视频文件或者被屏蔽的移动终端无法从流媒体服务器调取视频流及至少一种第二音频流。
在本实施例中,第一移动终端内设置有识别模块,可以自己完成第一音频流识别成第一语言文本直接发送至翻译服务器进行翻译为第二语言文本,由合成服务器将第二语言文本合成为第二音频流发送至流媒体服务器,同时第二移动终端内设置有混频模块,可以自己向流媒体服务器调取第二音频流和视频流混流为第二视频文件并进行播放,即移动终端(第一移动终端、第二移动终端)均内置有识别模块、混频模块,本实施例中其他部分的工作原理与实施例一相同,其他相同部分在此不再赘述,详细内容请参见实施例一。
实施例三:
如图8-9所示,根据本发明的另一方面,提供一种多终端多语言实时视频的系统,包括识别服务器、翻译服务器、合成服务器、流媒体服务器、混流服务器、业务服务器以及数据库服务器;识别服务器、翻译服务器、合成服务器、流媒体服务器、业务服务器依次连接,混流服务器与流媒体服务器、业务服务器均连接,数据库服务器与业务服务器连接。
具体的,识别服务器,用于从第一移动终端获取第一音频流,将第一音频流识别为第一语言文本,并发送至翻译服务器和/或流媒体服务器;翻译服务器,用于将第一语言文本翻译为至少一种第二语言文本,并发送至合成服务器和/或流媒体服务器;合成服务器,用于将至少一种第二语言文本合成为至少一种第二音频流,并发送至流媒体服务器;流媒体服务器,用于从第一移动终端获取视频流和/或第一音频流并存储,从识别服务器获取第一语言文本并存储,从翻译服务器获取至少一种第二语言文本并存储,以及从合成服务器获取至少一种第二音频流并存储,具体的,流媒体服务器可以存储视频流、音频流、文字、视频等不同格式的文件;数据库服务器,用于存储第一移动终端以及至少一个第二移动终端的身份信息、语言信息以及相互间的链接信息;业务服务器,用于查询信息、发送控制命令管理整个系统,业务服务器是整个系统的控制中心,用于和移动终端和其他服务器进行实时交互,以便完成整个多终端多语言的实时视频群聊;混流服务器,用于从流媒体服务器调取视频流及至少一种第二音频流混流成至少一个第二视频文件,并发送至至少一个第二移动终端和/或流媒体服务器。
具体的,还包括与流媒体服务器连接的视频管理终端;视频管理终端,用于对至少一个第二视频文件进行翻译校正。
更具体的,上述描述的实现各功能的服务也可部署在一台服务器上,本实施例主要采用的是分布式技术将各个服务部署到每个单独的服务器上,各个服务使用集群技术部署多个实例,当实现各功能的服务分布在不同的服务器上可以提升整个系统的运行性能,同时可根据实际使用用户对各服务集群进行动态扩容以便在实际使用过程中提升用户体验。
在阅读完下面将要描述的内容之后,本领域的技术终端员应当明白,本文描述的各种特征可通过方法、数据处理系统或计算机程序产品来实现。因此,这些特征可部采用硬件的方式、全部采用软件的方式或者采用硬件和软件结合的方式来表现。此外,上述特征也可采用存储在一种或多种计算机可读存储介质上的计算机程序产品的形式来表现,该计算机可读存储介质中包含计算机可读程序代码段或者指令,其存储在存储介质中。可读存储介质被配置为存储各种类型的数据以支持在装置的操作。可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。如静硬盘、态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、光存储设备、磁存储设备、快闪存储器、磁盘或光盘和/或上述设备的组合。
以上仅为本发明的较佳实施例而已,本领域技术终端员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等同替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。
Claims (10)
1.一种多终端多语言实时视频群内私聊的方法,其特征在于,包括以下步骤:
S10:第一移动终端在群组里选定私聊的至少一个第二移动终端;
S20:所述第一移动终端同时采集视频流、第一音频流及其对应的时间戳,将所述视频流及时间戳发送至流媒体服务器,以及将所述第一音频流发送至识别服务器;
S30:业务服务器向所述数据库服务器请求查询选定的至少一个所述第二移动终端的身份信息、第二语言信息以及相互间的链接信息,建立直接通信路径,并判断所述第一语言信息和所述第二语言信息是否相同,若不相同,则执行步骤S40,若相同,则执行步骤S70;
S40:所述识别服务器将所述第一音频流识别为第一语言文本,并发送至翻译服务器;
S50:所述翻译服务器将所述第一语言文本翻译为至少一种第二语言文本,并发送至合成服务器;
S60:所述合成服务器将至少一种所述第二语言文本合成为至少一种第二音频流,并发送至所述流媒体服务器;
S70:混流服务器从所述流媒体服务器调取所述视频流及至少一种所述第二音频流,并根据所述时间戳将所述视频流及至少一种所述第二音频流混流成至少一种第二视频文件,并通过所述直接通信路径对应分别发送至至少一个所述第二移动终端;
S80:至少一个所述第二移动终端解码所述至少一种第二视频文件并播放。
2.根据权利要求1所述的多终端多语言实时视频群内私聊的方法,其特征在于,还包括步骤:
S01:将所述第一移动终端与至少两个所述第二移动终端建立群组,并将所述群组中的所述第一移动终端与至少一个所述第二移动终端的身份信息、语言信息以及相互间的链接信息发送至所述数据库服务器;
选定私聊的所述第二移动终端个数少于群组内的全部移动终端的个数。
3.根据权利要求1所述的多终端多语言实时视频群内私聊的方法,其特征在于,所述S20:第一移动终端采集视频流、第一音频流及其对应的时间戳,还可以为:
S21:所述第一移动终端采集获取第一视频文件;
S22:所述第一移动终端将所述第一视频文件分解为所述视频流、第一音频流及其对应的时间戳。
4.根据权利要求3所述的多终端多语言实时视频群内私聊的方法,其特征在于,所述S50,还包括步骤:
S51:所述翻译服务器将所述第一语言文本及至少一种所述第二语言文本,并发送至所述流媒体服务器;
所述S70,还包括步骤:
S71:所述混流服务器将所述视频流、至少一种所述第二语言文本和至少一种第二音频流合成为带至少一种第二语言字幕的至少一个所述第二视频文件;或者
S72:所述混流服务器将所述视频流、第一语言文本、至少一种第二语言文本和至少一种第二音频流合成为带第一语言字幕和至少一种第二语言字幕的至少一个所述第二视频文件。
5.根据权利要求4所述的多终端多语言实时视频群内私聊的方法,其特征在于,还包括步骤:
S90:所述混流服务器将混流后的至少一个所述第二视频文件发送所述流媒体服务器进行存储。
6.根据权利要求5所述的多终端多语言实时视频群内私聊的方法,其特征在于,还包括步骤:
S100:视频管理终端可向所述流媒体服务器调取至少一个所述第二视频文件,并可对至少一个所述第二视频文件进行翻译校正。
7.根据权利要求1所述的多终端多语言实时视频群内私聊的方法,其特征在于,所述S30,还可以为:
S31:所述业务服务器向所述数据库服务器请求查询选定的至少一个第二移动终端的身份信息、第二语言信息以及相互间的链接信息,屏蔽除选定的至少一个所述第二移动终端。
8.根据权利要求1或7所述的多终端多语言实时视频群内私聊的方法,其特征在于,所述S40还可以为:
所述第一移动终端将所述第一音频流识别为所述第一语音文本并直接发送至翻译服务器;
所述S70还可以为:
所述第二移动终端从所述流媒体服务器调取所述视频流及至少一种所述第二音频流,并根据所述时间戳将所述视频流及至少一种所述第二音频流混流成至少一个第二视频文件。
9.一种多终端多语言实时视频群内私聊的系统,其特征在于,包括识别服务器、翻译服务器、合成服务器、流媒体服务器、混流服务器、业务服务器以及数据库服务器;所述识别服务器、翻译服务器、合成服务器、流媒体服务器、业务服务器依次连接,所述混流服务器与所述流媒体服务器、业务服务器均连接,所述数据库服务器与所述业务服务器连接;
所述识别服务器,用于从第一移动终端获取第一音频流,将所述第一音频流识别为第一语言文本,并发送至所述翻译服务器和/或流媒体服务器;
所述翻译服务器,用于将所述第一语言文本翻译为至少一种第二语言文本,并发送至所述合成服务器和/或流媒体服务器;
所述合成服务器,用于将至少一种所述第二语言文本合成为至少一种第二音频流,并发送至所述流媒体服务器;
所述流媒体服务器,用于从所述第一移动终端获取视频流和/或第一音频流并存储,从所述识别服务器获取所述第一语言文本并存储,从所述翻译服务器获取至少一种所述第二语言文本并存储,以及从所述合成服务器获取至少一种所述第二音频流并存储;
所述数据库服务器,用于存储所述第一移动终端以及至少一个第二移动终端的身份信息、语言信息以及相互间的链接信息;
所述业务服务器,用于查询信息、发送控制命令管理整个系统;
所述混流服务器,用于从所述流媒体服务器调取所述视频流及至少一种所述第二音频流混流成至少一个第二视频文件,并对应分别发送至至少一个所述第二移动终端和/或流媒体服务器。
10.根据权利要求9所述的多终端多语言实时视频的系统,其特征在于,还包括与所述流媒体服务器连接的视频管理终端;
所述视频管理终端,用于对至少一个所述第二视频文件进行翻译校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811651791.9A CN109688363A (zh) | 2018-12-31 | 2018-12-31 | 多终端多语言实时视频群内私聊的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811651791.9A CN109688363A (zh) | 2018-12-31 | 2018-12-31 | 多终端多语言实时视频群内私聊的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109688363A true CN109688363A (zh) | 2019-04-26 |
Family
ID=66190414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811651791.9A Pending CN109688363A (zh) | 2018-12-31 | 2018-12-31 | 多终端多语言实时视频群内私聊的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109688363A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028837A (zh) * | 2019-12-16 | 2020-04-17 | 深圳云之家网络有限公司 | 语音会话方法、语音识别系统及计算机存储介质 |
CN112584078A (zh) * | 2019-09-27 | 2021-03-30 | 深圳市万普拉斯科技有限公司 | 视频通话方法、装置、计算机设备和存储介质 |
CN113014986A (zh) * | 2020-04-30 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1774715A (zh) * | 2003-04-14 | 2006-05-17 | 皇家飞利浦电子股份有限公司 | 用于对音频-视频流执行自动配音的系统和方法 |
CN101697581A (zh) * | 2009-10-26 | 2010-04-21 | 深圳华为通信技术有限公司 | 支持同声传译视讯会议的方法、装置及系统 |
CN102209227A (zh) * | 2010-03-30 | 2011-10-05 | 宝利通公司 | 在视频会议中增加翻译的方法和系统 |
CN102422639A (zh) * | 2009-05-11 | 2012-04-18 | 思科技术公司 | 用于在会议环境中翻译参与者之间的通信的系统和方法 |
CN104427294A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 支持电视会议同声传译的方法及云端服务器 |
CN104780335A (zh) * | 2015-03-26 | 2015-07-15 | 中兴通讯股份有限公司 | 一种WebRTC P2P音视频通话的方法及装置 |
US20170093939A1 (en) * | 2015-09-24 | 2017-03-30 | Flir Commercial Systems, Inc. | Real-time video streaming to client video element |
CN108848019A (zh) * | 2018-05-04 | 2018-11-20 | 毛勇 | 一种即时通讯方法及系统 |
-
2018
- 2018-12-31 CN CN201811651791.9A patent/CN109688363A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1774715A (zh) * | 2003-04-14 | 2006-05-17 | 皇家飞利浦电子股份有限公司 | 用于对音频-视频流执行自动配音的系统和方法 |
CN102422639A (zh) * | 2009-05-11 | 2012-04-18 | 思科技术公司 | 用于在会议环境中翻译参与者之间的通信的系统和方法 |
CN101697581A (zh) * | 2009-10-26 | 2010-04-21 | 深圳华为通信技术有限公司 | 支持同声传译视讯会议的方法、装置及系统 |
CN102209227A (zh) * | 2010-03-30 | 2011-10-05 | 宝利通公司 | 在视频会议中增加翻译的方法和系统 |
CN104427294A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 支持电视会议同声传译的方法及云端服务器 |
CN104780335A (zh) * | 2015-03-26 | 2015-07-15 | 中兴通讯股份有限公司 | 一种WebRTC P2P音视频通话的方法及装置 |
US20170093939A1 (en) * | 2015-09-24 | 2017-03-30 | Flir Commercial Systems, Inc. | Real-time video streaming to client video element |
CN108848019A (zh) * | 2018-05-04 | 2018-11-20 | 毛勇 | 一种即时通讯方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112584078A (zh) * | 2019-09-27 | 2021-03-30 | 深圳市万普拉斯科技有限公司 | 视频通话方法、装置、计算机设备和存储介质 |
WO2021057957A1 (zh) * | 2019-09-27 | 2021-04-01 | 深圳市万普拉斯科技有限公司 | 视频通话方法、装置、计算机设备和存储介质 |
CN112584078B (zh) * | 2019-09-27 | 2022-03-18 | 深圳市万普拉斯科技有限公司 | 视频通话方法、装置、计算机设备和存储介质 |
CN111028837A (zh) * | 2019-12-16 | 2020-04-17 | 深圳云之家网络有限公司 | 语音会话方法、语音识别系统及计算机存储介质 |
CN113014986A (zh) * | 2020-04-30 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
WO2021218631A1 (zh) * | 2020-04-30 | 2021-11-04 | 北京字节跳动网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109688367A (zh) | 多终端多语言实时视频群聊的方法和系统 | |
CN109688363A (zh) | 多终端多语言实时视频群内私聊的方法及系统 | |
Chang et al. | Overview of the MPEG-7 standard | |
CN103069769B (zh) | 用于经译码视频数据的网络串流传输的特技模式 | |
CN102783167B (zh) | 基于文件格式生成和再现自适应流的方法和装置 | |
CN205647778U (zh) | 一种智能会议系统 | |
US11277674B2 (en) | Method and system for promoting interaction during live streaming events | |
CN104396263A (zh) | 用于流式媒体内容的实时复用变换的方法和系统 | |
CN103460667A (zh) | 使用字节范围请求的视频数据的网络流 | |
CN106134146A (zh) | 处理连续的多周期内容 | |
CN103226947A (zh) | 一种基于移动终端的音频处理方法及装置 | |
CN102150424B (zh) | 根据自由视角av服务的文件生成方法 | |
CN103491429A (zh) | 一种音频处理方法和音频处理设备 | |
CN107484002A (zh) | 智能翻译字幕的方法 | |
CN103747065B (zh) | 客户端http检索全索引容器格式媒体资源时间片段的方法 | |
CN103269450B (zh) | 一种面向Android智能电视的多媒体系统 | |
Mannens et al. | A URI-based approach for addressing fragments of media resources on the Web | |
CN102224543A (zh) | 用于将与用户设备之间的基于IP的语音的语音通信会话相关的话音同基于web的应用进行组合的方法、媒体服务器、计算机程序和计算机程序产品 | |
KR20150030185A (ko) | 컨텐트 데이터에 기초하여 정보를 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
CN101600086A (zh) | 互联网电视业务实现方法、设备及系统 | |
US11974028B2 (en) | Information processing device, information processing method, reproduction processing device, and reproduction processing method | |
Black et al. | A compendium of robust data structures | |
KR101592512B1 (ko) | 지식 영상콘텐츠 제공 방법 및 시스템 | |
CN102572532A (zh) | 一种基于有线电视网的电视字幕转播翻译系统 | |
Martínez | MPEG‐7 tools for Universal Multimedia Access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |