CN104780335B

CN104780335B - 一种WebRTC P2P音视频通话的方法及装置

Info

Publication number: CN104780335B
Application number: CN201510136472.4A
Authority: CN
Inventors: 巫妍
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2021-06-22
Anticipated expiration: 2035-03-26
Also published as: CN104780335A; WO2016150235A1

Abstract

发明提供一种WebRTC点对点音视频通话的方法及WebRTC服务器与WebRTC客户端，使用户可以跨越语言的障碍，更方便的进行通话。在多人视频会议中，发言人将自动解析和显示字幕、翻译字幕或翻译音频，用户可以轻松判断谁正在发言和识别发言内容，而不需要在多个视频窗口中寻找发言人。

Description

一种WebRTC P2P音视频通话的方法及装置

技术领域

本发明涉及通讯领域，特别是涉及一种WebRTC P2P音视频通话的方法及WebRTC服务器与WebRTC客户端。

背景技术

随着www万维网和移动互联网的发展，近几年HTML5(Hyper Text Mark-upLanguage5，超文本标记语言5)逐渐成为市场和标准都追捧的热点。作为一个新的网络技术的发展方向，HTML5的一个重要的核心的技术内容就是WEBRTC技术。WebRTC(Web Real-TimeCommunication，网页实时通信)实现了基于网页的视频会议，目的是通过浏览器提供简单的javascript就可以达到实时通讯(Real-Time Communications)能力。

WebRTC项目的最终目的主要是让Web开发者能够基于浏览器(比如Chrome、FireFox...)轻易快捷开发出丰富的实时多媒体应用，而无需下载安装任何插件，Web开发者也无需关注多媒体的数字信号处理过程，只需编写简单的Javascript程序即可实现，W3C(World Wide Web Consortium，万维网联盟)等组织负责制定Javascript(简称JS)标准API(Application Programming Interface，应用程序编程接口)，另外WebRTC还希望能够建立一个多互联网浏览器间健壮的实时通信的平台，形成开发者与浏览器厂商良好的生态环境。

WebRTC的技术已成为HTML5标准之一。并且随着WebRTC标准的日渐成熟，市场上也逐渐出现了基于WebRTC技术实现的各类应用。这些应用的特点就是使用WEB(网页)技术来开发，并且因为浏览器厂商已经逐渐支持webrtc技术，所以使用webrtc技术开发的应用也可以运行在各种支持webrtc的浏览器的PC终端或者手机终端上。这样的技术趋势使得开发难度大大降低，同时维护多终端和多版本的开发工作量也大大减少了。

随着web技术的发展，一些使用HTML5技术开发的应用也越来越多。WEBRTC作为HTML5标准的一个重要组成部分，实现了浏览器之间的实时通讯，以chrome为首的越来越多的浏览器厂家宣布支持webrtc标准。

其中。Webrtc技术和标准的典型应用场景为点对点通话、多方视频会议、客服中心和远程教育。也就是说，使用webrtc技术来开发的浏览器应用，可以实现实时通讯中的获取话筒、屏幕共享、获取摄像头、流媒体传输等功能，使得用户在浏览器中就可以进行实时通话。但是使用webrtc标准接口所开发的浏览器中的音视频多方通话的会议的效果、使用体验仍然需要进一步的改善，比如多方会议时屏幕窗口都比较小，很难判断是谁在进行发言，会议发言记录只能用录音的方式保存，而无法保存字幕，比如，当参加会议的人员使用不同的语言进行时，沟通的语言障碍需要辅助显示字幕才能更好的提升用户的体验。

发明内容

本发明要解决的技术问题是提供一种WebRTC点对点音视频通话的方法及WebRTC服务器与WebRTC客户端，以实现跨越语言的障碍进行通话。

为了解决上述技术问题，本发明提供了一种网页实时通信WebRTC点对点音视频通话的方法，包括：

WebRTC服务器接收到第一WebRTC客户端的字幕请求消息或翻译字幕请求消息后，将所述字幕请求消息或翻译字幕请求消息发送给一个或多个目标WebRTC客户端；

所述WebRTC服务器接收到所述目标WebRTC客户端返回的字幕或翻译后的字幕后，实时地将所述字幕或翻译后的字幕发送给所述第一WebRTC客户端。

进一步地，上述方法还具有下面特点：

所述翻译字幕请求消息包括：翻译源语言、翻译目标语言以及翻译返回类型，所述翻译返回类型包括文字翻译和/或语音翻译。

为了解决上述问题，本发明还提供了一种网页实时通信WebRTC服务器，其中，包括：

第一传输模块，用于接收到第一WebRTC客户端的字幕请求消息或翻译字幕请求消息后，将所述字幕请求消息或翻译字幕请求消息发送给一个或多个目标WebRTC客户端；

第二传输模块，用于接收到所述目标WebRTC客户端返回的字幕或翻译后的字幕后，实时地将所述字幕或翻译后的字幕发送给所述第一WebRTC客户端。

进一步地，上述WebRTC服务器还具有下面特点：

为了解决上述问题，本发明还提供了一种网页实时通信WebRTC点对点音视频通话的方法，包括：

WebRTC客户端向WebRTC服务器发送请求一个或多个目标WebRTC客户端的字幕请求消息或翻译字幕请求消息；

所述WebRTC客户端接收到所述WebRTC服务器返回的字幕或翻译字幕后，将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中。

进一步地，上述方法还具有下面特点：

进一步地，上述方法还具有下面特点：还包括：

所述WebRTC客户端保存所述字幕或所述翻译字幕。

为了解决上述问题，本发明还提供了一种WebRTC客户端，其中，包括：

发送模块，用于向WebRTC服务器发送请求一个或多个目标WebRTC客户端的字幕请求消息或翻译字幕请求消息；

显示模块，用于接收到所述WebRTC服务器返回的字幕或翻译字幕后，将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中。

进一步地，上述WebRTC客户端还具有下面特点：还包括：

保存模块，用于保存所述字幕或所述翻译字幕。

WebRTC客户端接收到WebRTC服务器的字幕请求消息后，将自己的音频发送给语音分析字幕服务器；

所述WebRTC客户端接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器。

进一步地，上述方法具有下面特点：所述WebRTC客户端接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器，包括：

所述WebRTC客户端接收到所述语音分析字幕服务器返回的字幕后，向翻译服务器发送翻译字幕请求，所述翻译字幕请求包括：所述字幕、翻译源语言、翻译目标语言；

所述WebRTC客户端接收到所述翻译服务器返回的翻译后的字幕后，将翻译后的字幕发送给所述WebRTC服务器。

进一步地，上述方法具有下面特点：

所述翻译字幕请求还包括：翻译返回类型，所述翻译返回类型包括语音翻译；所述方法还包括：

所述WebRTC客户端接收到所述翻译服务器返回的翻译后的音频后，将翻译后的音频放到实时的视频流中，通过预先建立的媒体通道发送给请求翻译字幕的WebRTC客户端。

第一传输模块，用于接收到WebRTC服务器的翻译字幕请求消息后，将自己的音频发送给语音分析字幕服务器；

第二传输模块，用于接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器。

进一步地，上述WebRTC客户端还具有下面特点：

所述第二传输模块，具体用于接收到所述语音分析字幕服务器返回的字幕后，向翻译服务器发送翻译字幕请求，所述翻译字幕请求包括：所述字幕、翻译源语言、翻译目标语言；接收到所述翻译服务器返回的翻译后的字幕后，将翻译后的字幕发送给所述WebRTC服务器。

进一步地，上述WebRTC客户端还具有下面特点：所述翻译字幕请求还包括：翻译返回类型，所述翻译返回类型包括语音翻译；所述WebRTC客户端还包括：

第三传输模块，用于接收到所述翻译服务器返回的翻译后的音频后，将翻译后的音频放到实时的视频流中，通过预先建立的媒体通道发送给请求翻译字幕的WebRTC客户端。

综上，本发明提供一种WebRTC点对点音视频通话的方法及WebRTC服务器与WebRTC客户端，使用户可以跨越语言的障碍，更方便的进行通话。在多人视频会议中，发言人将自动解析和显示字幕、翻译字幕或翻译音频，用户可以轻松判断谁正在发言和识别发言内容，而不需要在多个视频窗口中寻找发言人。

附图说明

图1为现有技术的webrtc服务器的功能模块结构图；

图2为现有的使用webrtc技术建立双方通话的流程图；

图3为本发明实施例一的webrtc建立P2P(Peer to Peer，点对点)双方通话时请求字幕的流程图；

图4为本发明实施例二的webrtc建立P2P双方通话时请求翻译字幕的流程图；

图5为webrtc建立P2P三方会议时已经建立P2P媒体通道的示意图；

图6为本发明实施例三的webrtc建立P2P三方会议时请求字幕的的流程图；

图7为本发明实施例四的webrtc建立P2P三方会议时请求翻译字幕/翻译音频的流程图；

图8为本发明实施例的WebRTC服务器的示意图；

图9为本发明实施例的作为请求字幕方的WebRTC客户端的示意图；

图10为本发明实施例的目标WebRTC客户端的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是本发明实施例的webrtc服务器的功能模块结构图。本实施例的Webrtcserver包括：

web server：用于提供webrtc的web服务，用户在浏览器app(应用程序)客户端访问该webserver来获取webrtc服务。

用户通过浏览器访问webrtc server的web server功能模块打开应用，该webserver上部署的服务遵守webrtc的相关标准，用户在浏览器中可以通过webrtc标准的JS来进行注册、建立音频通话、建立多方视频通话等功能。Web server上还可以包括标准之外的应用管理相关功能，比如用户信息维护、好友管理。

信令服务器：用于在webrtc建立连接时进行信令交互。

媒体处理模块：用于处理媒体，包括实时媒体流的切分分段发送到外部字幕服务器，翻译服务器，接收到返回的字幕或音频时将字幕或音频整合到实时的对话的音视频流中。

会议控制模块：用户控制webrtc会议中的会议，包括创建会议、退出会议、加入会议成员、会议主持人控制等控制。

防火墙穿越服务器，用于webrtc音视频会议/音视频通话的防火墙穿越。

防火墙穿越功能模块使得webrtc浏览器侧的应用开发者可以使用标准接口来获取防火墙穿越信息，该功能模块可以部署在webrtc server上，也可以部署在其他地方。

Webrtc client指的是用户通过浏览器访问的地址，上面部署的浏览器侧的应用，用户通过webrtc client来访问webrtc服务器上的web server。

在webrtc的应用中，无论浏览器的client端Javascript代码还是web server上的服务器代码，在使用webrtc标准建立音视频通讯的过程都需要符合webrtc的标准。

在应用侧，使用javascript代码来控制浏览器访问webrtc server上的webrtc服务，是webrtc技术的典型特征。这种技术特征使得浏览器承担了更多的工作，浏览器厂家须提供必要的功能来支持webrtc技术，使得运行在浏览器中的javascript代码可以通过浏览器统一的标准来调用在视频通话中必要的信令和媒体交互。这一技术使得开发者提供的浏览器服务大大的简化了，屏蔽了底层的媒体和信令，只需要调用简单的javascript即可实现。所以在现在和未来，webrtc技术都将是一个趋势。随着移动终端的发展，也会有越来越多浏览器、手机浏览器、手机webkit支持webrtc，这一趋势使得应用的开发更加的简便，并且可以更方便的适应多终端。

使用该装置实现的webrtc P2P音视频会议/音视频通话使得用户可以使用多语言实时进行通话/会议，实现了音视频流的实时同步翻译字幕或直接翻译为语音。使得用户在使用该装置进行通话/会议时可以跨越语言障碍，更方便的进行交流。

该webrtc P2P音视频会议/音视频通话应用主要有如下几个功能特点：1，音视频会议/音视频通话的用户可以在音视频会议/音视频通话实时查看对方语音的字幕；2，音视频会议/音视频通话的用户可以选择翻译目标语言，系统将对方语言翻译为自己可以理解的语言，并显示翻译后的字幕；3，音视频会议/音视频通话的用户可以选择翻译目标语言，系统将对方语言翻译为目标语言，并显示翻译后的字幕的同时播放翻译后的语言的语音。

图2是使用webrtc技术实现点对点呼叫的流程图。这个流程图中涉及了webrtc点对点呼叫时webrtc server中各个功能模块的核心功能。在流程图中使用用户A来表示用户A的浏览器和用户的client(客户端)应用。Client应用实际上是部署在webrtc server上的web server功能模块提供的web服务，用户A通过浏览器打开一个地址来打开这个应用。对这个流程进行详细的说明，如图2所示，包括以下步骤：

步骤201、用户A向防火墙穿越服务器请求防火墙穿越信息，防火墙将用于穿越的信息返回给用户A；

步骤202、用户A向webrtc server中的信令服务器发送媒体呼叫请求；

步骤203、信令服务器向用户B发送A的媒体呼叫请求；

步骤204、用户B向防火墙穿越服务器发送请求防火墙穿越信息，防火墙将用于穿越的信息返回给用户B；

步骤205、用户B向信令服务器发送应答；

步骤206、用户A和用户B之间的媒体连接建立完成，A和B可以通过该媒体链接进行点对点通话。

以上步骤是使用webrtc的协议在浏览器中进行点对点呼叫的流程。该流程也是现有的webrtc实现点对点呼叫使用的一个典型流程。

本发明实施例对webrtcP2P视频通话的流程的改进主要是在双方的P2P媒体通道或数据通道建立完毕之后，这一过程是webrtc建立媒体通道的标准流程，是本发明实施例的前置条件。在通话方建立了P2P的媒体通道后，仍可通过webrtc server的信令服务器来请求字幕或请求翻译字幕，是本发明的发明内容。

本发明提供一种WebRTC点对点音视频通话的方法及WebRTC服务器与WebRTC客户端，使用户可以跨越语言的障碍，更方便的进行通话。在多人视频会议中，发言人将自动解析和显示字幕，用户可以轻松判断谁正在发言，而不需要在多个视频窗口中寻找发言人。并且，当语言不通的时候，这种系统架构也提供了完整的多语言字幕翻译和语音翻译的功能。字幕翻译指的是，对某个正在发言的用户进行语音分析形成文本后，根据实时的发言文本将字幕翻译为请求翻译的语言。语音翻译指的是对某个正在发言的用户进行语音分析形成文本后，根据实时的发言文本将字幕翻译为请求翻译的语言的相应字幕，并将该字幕转化为请求翻译的语言的相应的音频播放出来。

本发明实施例的方法能够将发言的会议成员的语音进行语音解析，形成文本并显示字幕，进一步的，也可以对解析出来的文本进行翻译，显示翻译目标语言的字幕，进一步的，也可以对翻译目标语言的文本进行语音转换，将转换后的音频流合成到视频流中，直接播放翻译目标语言的语音。

对于字幕和字幕翻译，有三种典型的应用场景，1，用户A请求用户B的字幕，2，用户A请求用户B的翻译字幕，3，用户A请求用户B的翻译语音。

下面的实施例将对这几种应用场景进行详细的描述。

实施例1

图3是webrtc双方P2P通话时请求字幕的操作图。假设用户A和用户B已经按照图2的流程或者WEBRTC应用本身的流程建立了媒体通道，已经可以使用媒体通道进行正常的P2P视频通话了。本实施例描述了P2P视频通话过程中用户A请求用户B的字幕的流程图。

步骤301，用户A向webrtc server的信令服务器发送字幕请求消息；

步骤302，webrtc信令服务器向用户B发送字幕请求消息；

步骤303，用户B收到字幕请求后，将自己的音频发送给语音分析字幕服务器；

步骤304，语音分析字幕服务器将音频解析为字幕，将字幕返回给用户B；

步骤305，用户B将字幕返回给webrtc信令服务器；

步骤306，webrtc信令服务器将字幕返回给用户A，用户A的浏览器将收到的B的字幕显示在B的视频框中。

其中，语音分析字幕服务器为外部服务器，不是本发明的发明内容。语音分析字幕服务器的主要功能是根据音频实时进行分析，将语音解析为字幕后返回。在本实施例中，用户的浏览器侧client须将视频流中的音频部分实时分段发送给语音分析字幕服务器来实时解析语音，音频分段发送的规则由浏览器侧的client根据用户习惯和语音停顿来决定。

本实施例的流程是用户A请求用户B的字幕的流程，同样的，B也可以同时请求A的字幕。流程相同。对于双方视频通话时默认为都需要显示字幕的情形，只需要webrtc应用本身使用本流程的基本原理来设置是否请求字幕即可。

实施例2为请求翻译字幕的流程。与实施例1相比，实施例2中的流程在语音分析解析出字幕后多了一个步骤，该步骤就是将解析出来的字每句发给外部翻译服务器，由外部翻译服务器对字幕进行翻译并返回文字翻译字幕或者翻译后的语言的语音音频。图4就是实施例2请求翻译文字字幕的步骤图。其中，

步骤401，用户A向webrtc server的信令服务器发送翻译字幕请求消息，并制定翻译的目标语言，假设B使用语言为英语，A希望B的字幕被翻译为中文并显示出来；

步骤402，webrtc信令服务器向用户B发送字幕请求消息，该请求消息包含翻译源语言、翻译目标语言、翻译返回类型(翻译返回类型假设为文字翻译或语音翻译)；

步骤403，用户B收到字幕请求后，将自己的音频发送给语音分析字幕服务器；

步骤404，语音分析字幕服务器将音频解析为字幕，将字幕返回给用户B；

步骤405，用户B发送翻译字幕请求到翻译服务器。该请求包含了解析后的字幕，翻译源语言，翻译目标语言，翻译返回类型；

假设翻译请求的参数翻译返回类型设置为文字翻译，那么执行以下步骤：

步骤406a，翻译服务器根据翻译请求，将翻译字幕返回给用户B；

步骤407a,用户B将翻译字幕返回给webrtc信令服务器；

步骤408a，webrtc信令服务器将翻译字幕返回给用户A，用户A的浏览器将收到的B的字幕显示在B的视频框中；

假设翻译请求的参数翻译返回类型设置为语音翻译，那么执行以下步骤：

步骤406b，翻译服务器根据翻译请求，将翻译后的字幕和音频返回给用户B。用户B将翻译后的音频放到实时的视频流中通过媒体通道将视频和翻译后的音频发送给用户A；

步骤407b，用户B将翻译字幕返回给webrtc信令服务器；

步骤408b，webrtc信令服务器将翻译字幕返回给用户A，用户A的浏览器将收到的B的翻译字幕显示在B的视频框中。

对于不同的翻译类型的请求，外部的翻译服务器会根据请求中的返回类型参数而选择不同的操作流程。

图5是三方P2P通话建立了媒体通道之后的示意图。本发明实施例在webrtc已经完成了P2P的媒体通道连接，也就是在完成了图5的基础上，增加了字幕解析、翻译字幕、翻译音频的流程，使得用户在三方webrtc P2P通话的时候可以跨越语言的障碍，实现字幕解析、语言翻译、语音翻译。

实施例3，图6显示了webrtc已经完成了P2P的媒体通道连接之后实现字幕解析的流程。

前置条件：用户A，用户B和用户C已经使用WEBRTC视频会议系统进行了登陆并建立了三方P2P通话，A、B和C之间已经建立了媒体通道。信令通道仍然通过和webrtc的信令服务器来进行命令操作。

本实施例假设A请求B和C的发言字幕。

步骤601、用户A向webrtc信令服务器请求用户B和用户C的字幕；

步骤602、webrtc信令服务器向用户C发出字幕请求；

步骤603、用户C向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤604、语音分析字幕服务器向C返回语音解析出来的字幕；

步骤605、用户C向webrtc信令服务器返回实时字幕；

步骤606、webrtc信令服务器向用户B发出字幕请求；

步骤607、用户B向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤608、语音分析字幕服务器向B返回语音解析出来的字幕；

步骤609、用户B向webrtc信令服务器返回实时字幕；

步骤610、webrtc信令服务器在接受到用户B和C的字幕时将实时将字幕发送给用户A，用户A根据返回结果将字幕显示在用户B和C的视频对话框中。

对于以上流程，步骤602～步骤605和步骤606～步骤609可以同时进行，也就是说，当webrtc信令服务器收到请求字幕的时候可以同时向用户B和C发起字幕请求，用户B和C在进行发言时根据发言的情形实时的将字幕返回给webrtc信令服务器，webrtc信令服务器收到字幕就实时将字幕发送给用户A。

同理，当用户B需要请求字幕时也可以向webrtc信令服务器发起字幕请求，当用户C需要请求字幕时也可以向webrtc信令服务器发起字幕请求。

会议也可以设置为自动为每个用户添加字幕，这种情形下，只需要用户测的浏览器端应用向语音分析字幕服务器发起字幕请求获取到字幕后发给webrtc信令服务器并由webrtc信令服务器进行字幕分发即可。

实施例4：

本实施例假设用户A请求B和C的翻译字幕。

步骤701、用户A向webrtc信令服务器请求用户B和用户C的翻译字幕；

步骤702、webrtc信令服务器向用户C发出请求翻译字幕的请求；

步骤703、用户C向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤704、语音分析字幕服务器向C返回语音解析出来的字幕；

步骤705、用户C向外部功能模块翻译服务器发起翻译字幕请求，该请求包含了解析后的字幕、翻译源语言、翻译目标语言、翻译返回类型。本实施例中假设翻译返回类型为文字翻译；

步骤706、翻译服务器根据翻译请求，将翻译字幕返回给用户C；

步骤707、用户C将翻译字幕返回给webrtc信令服务器；

步骤708、webrtc信令服务器向用户B发出请求翻译字幕的请求；

步骤709、用户B向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤710、语音分析字幕服务器向B返回语音解析出来的字幕；

步骤711、用户B向外部功能模块翻译服务器发起翻译字幕请求，该请求包含了解析后的字幕、翻译源语言、翻译目标语言、翻译返回类型。本实施例中假设翻译返回类型为文字翻译。

步骤712、翻译服务器根据翻译请求，将翻译字幕返回给用户B；

步骤713、用户B将翻译字幕返回给webrtc信令服务器；

步骤714、WEBRTC信令服务器根据向用户A返回B和C的翻译字幕。

对于以上流程，步骤702～步骤707和步骤708～步骤613可以同时进行，也就是说，当webrtc信令服务器收到请求字幕的时候可以同时向用户B和C发起字幕请求，用户B和C在进行发言时根据发言的情形实时的将翻译字幕返回给webrtc信令服务器，webrtc信令服务器收到字幕就实时将字幕发送给用户A。A收到后实时的显示B或C的字幕。

对于请求字幕的流程来说，请求只需要发送一次，但是，返回的字幕消息则实时的根据应用的设计来进行返回。也就是说，A只需要请求一次字幕，作为用户B，收到A的请求后，B会在通话过程中将自己的音频分段发送给外部的语音分析字幕服务器和外部的翻译服务器，然后根据发言情况分段将字幕或翻译字幕或翻译音频返回。

实施例5：

本实施例假设A请求B和C的翻译音频及字幕。假设A使用的语言是中文，用户B和用户C使用的语言是英文，用户A希望在视频会议中对B和C的会议语音进行翻译。本实施例的流程图也如图7所示，包括以下步骤：

步骤801、用户A向webrtc信令服务器请求用户B和用户C的翻译字幕。

步骤802、webrtc信令服务器向用户C发出请求翻译字幕的请求；

步骤803、用户C向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤804、语音分析字幕服务器向C返回语音解析出来的字幕；

步骤805、用户C向外部功能模块翻译服务器发起翻译字幕请求，该请求包含了解析后的字幕、翻译源语言、翻译目标语言、翻译返回类型。本实施例中假设翻译返回类型为文字及语音翻译。

步骤806、翻译服务器根据翻译请求，将翻译字幕和翻译音频返回给用户C；

步骤807、用户C将翻译音频替换到现有的视频流中。同时将翻译字幕返回给webrtc信令服务器；

步骤808、webrtc信令服务器向用户B发出请求翻译字幕的请求；

步骤809、用户B向外部的语音分析字幕服务器发送自己的发言音频，请求字幕解析；

步骤810、语音分析字幕服务器向B返回语音解析出来的字幕；

步骤811、用户B向外部功能模块翻译服务器发起翻译字幕请求，该请求包含了解析后的字幕、翻译源语言、翻译目标语言、翻译返回类型。本实施例中假设翻译返回类型为文字及语音翻译。

步骤812、翻译服务器根据翻译请求，将翻译后的字幕和音频返回给用户B。用户B将翻译后的音频放到实时的视频流中通过媒体通道将视频和翻译后的音频发送给用户A。

步骤813、用户B将翻译音频替换到现有的视频流中，用户B将翻译字幕返回给webrtc信令服务器；

步骤814、webrtc信令服务器将B和C的翻译字幕返回给用户A，用户A的浏览器应用根据收到的字幕将B的翻译字幕显示在B的视频框中，将收到的用户C的翻译字幕显示在C的视频框中。

本发明提供了的WebRTC点对点音视频通话的方法，使用webrtc技术实现的视频通话和视频会议中的语音解析并且生成字幕、翻译字幕、翻译音频。通过本系统，webrtc视频会议的会话成员可以在会议视频窗口中查看会议发言人的实时字幕。通过本系统，在webrtc的点对点音视频通话中也可以完成语音解析和语音翻译，并将翻译后的语音解析为文本字幕显示在用户的视频通话窗口上，或者将翻译后的语音解析为其他语言的语音并合成到原有视频流中。翻译出来的语言文本也可以作为会议纪要内容保存起来。本发明可以在使用不同语言进行通话或会议的用户请求字幕翻译或语音翻译，并可以将会议内容以对话文本的方式保存为会议纪要。

图8为本发明实施例的WebRTC服务器的示意图，如图8所示，本实施例的WebRTC服务器包括：

图9为本发明实施例的作为请求字幕方的WebRTC客户端的示意图，如图9所示，本实施例的WebRTC客户端包括：

在一优选实施例中，所述WebRTC客户端还包括：

保存模块，用于保存所述字幕或所述翻译字幕。

图10为本发明一实施例的目标WebRTC客户端的示意图，如图10所示，本实施例的WebRTC客户端包括：

第一传输模块，用于接收到WebRTC服务器的字幕请求消息后，将自己的音频发送给语音分析字幕服务器；

在一优选实施例中，所述第二传输模块，具体用于接收到所述语音分析字幕服务器返回的字幕后，向翻译服务器发送翻译字幕请求，所述翻译字幕请求包括：所述字幕、翻译源语言、翻译目标语言；接收到所述翻译服务器返回的翻译后的字幕后，将翻译后的字幕发送给所述WebRTC服务器。

在一优选实施例中，所述翻译字幕请求还包括：翻译返回类型，所述翻译返回类型包括语音翻译；所述WebRTC客户端还包括：

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种网页实时通信WebRTC点对点音视频通话的方法，包括：

WebRTC服务器接收到第一WebRTC客户端的字幕请求消息或翻译字幕请求消息后，将所述字幕请求消息或翻译字幕请求消息发送给一个或多个目标WebRTC客户端，以由所述目标WebRTC客户端向语音分析字幕服务器请求与所述字幕请求消息对应的字幕或者向翻译服务器请求与所述翻译字幕请求消息对应的翻译字幕，其中，所述字幕请求消息或翻译字幕请求消息为与所述第一WebRTC客户端进行音视频通话的所述目标WebRTC客户端中用户语音对应的字幕或翻译字幕的请求；

所述WebRTC服务器接收到所述目标WebRTC客户端返回的字幕或翻译后的字幕后，实时地将所述字幕或翻译后的字幕发送给所述第一WebRTC客户端，以由所述第一WebRTC客户端将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中、及保存所述字幕或所述翻译字幕。

2.如权利要求1所述的方法，其特征在于：

3.一种网页实时通信WebRTC服务器，其特征在于，包括：

第一传输模块，用于接收到第一WebRTC客户端的字幕请求消息或翻译字幕请求消息后，将所述字幕请求消息或翻译字幕请求消息发送给一个或多个目标WebRTC客户端，以由所述目标WebRTC客户端向语音分析字幕服务器请求与所述字幕请求消息对应的字幕或者向翻译服务器请求与所述翻译字幕请求消息对应的翻译字幕，其中，所述字幕请求消息或翻译字幕请求消息为与所述第一WebRTC客户端进行音视频通话的所述目标WebRTC客户端中用户语音对应的字幕或翻译字幕的请求；

第二传输模块，用于接收到所述目标WebRTC客户端返回的字幕或翻译后的字幕后，实时地将所述字幕或翻译后的字幕发送给所述第一WebRTC客户端，以由所述第一WebRTC客户端将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中、及保存所述字幕或所述翻译字幕。

4.如权利要求3所述的WebRTC服务器，其特征在于：

5.一种网页实时通信WebRTC点对点音视频通话的方法，包括：

WebRTC客户端向WebRTC服务器发送请求一个或多个目标WebRTC客户端的字幕请求消息或翻译字幕请求消息，以由所述WebRTC服务器发送所述字幕请求消息或翻译字幕请求消息给所述目标WebRTC客户端，并由所述目标WebRTC客户端向语音分析字幕服务器请求与所述字幕请求消息对应的字幕或者向翻译服务器请求与所述翻译字幕请求消息对应的翻译字幕，其中，所述字幕请求消息或翻译字幕请求消息为与所述WebRTC客户端进行音视频通话的所述目标WebRTC客户端中用户语音对应的字幕或翻译字幕的请求；

所述WebRTC客户端接收到所述WebRTC服务器返回的字幕或翻译字幕后，将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中；

所述WebRTC客户端保存所述字幕或所述翻译字幕。

6.如权利要求5所述的方法，其特征在于：

7.一种WebRTC客户端，其特征在于，包括：

发送模块，用于向WebRTC服务器发送请求一个或多个目标WebRTC客户端的字幕请求消息或翻译字幕请求消息，以由所述WebRTC服务器发送所述字幕请求消息或翻译字幕请求消息给所述目标WebRTC客户端，并由所述目标WebRTC客户端向语音分析字幕服务器请求与所述字幕请求消息对应的字幕或者向翻译服务器请求与所述翻译字幕请求消息对应的翻译字幕，其中，所述字幕请求消息或翻译字幕请求消息为与所述WebRTC客户端进行音视频通话的所述目标WebRTC客户端中用户语音对应的字幕或翻译字幕的请求；

显示模块，用于接收到所述WebRTC服务器返回的字幕或翻译字幕后，将所述字幕或翻译字幕显示在对应的目标WebRTC客户端的视频框中；

保存模块，用于保存所述字幕或所述翻译字幕。

8.一种网页实时通信WebRTC点对点音视频通话的方法，包括：

WebRTC客户端接收到WebRTC服务器的字幕请求消息后，将自己的音频发送给语音分析字幕服务器，其中，所述字幕请求消息由与所述WebRTC客户端进行音视频通话的第一WebRTC客户端发送给所述WebRTC服务器、并且是与所述WebRTC客户端中用户语音对应的字幕的请求；

所述WebRTC客户端接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器，以由所述WebRTC服务器将所述字幕发送给请求字幕的所述第一WebRTC客户端，并由所述第一WebRTC客户端将所述字幕显示在对应于所述WebRTC客户端的视频框中、及保存所述字幕。

9.如权利要求8所述的方法，其特征在于：所述WebRTC客户端接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器，包括：

10.如权利要求9所述的方法，其特征在于：

11.一种WebRTC客户端，其特征在于，包括：

第一传输模块，用于接收到WebRTC服务器的翻译字幕请求消息后，将自己的音频发送给语音分析字幕服务器，其中，所述字幕请求消息由与所述WebRTC客户端进行音视频通话的第一WebRTC客户端发送给所述WebRTC服务器、并且是与所述WebRTC客户端中用户语音对应的字幕的请求；

第二传输模块，用于接收到所述语音分析字幕服务器返回的字幕后将所述字幕返回给所述WebRTC服务器，以由所述WebRTC服务器将所述字幕发送给请求字幕的所述第一WebRTC客户端，并由所述第一WebRTC客户端将所述字幕显示在对应于所述WebRTC客户端的视频框中、及保存所述字幕。

12.如权利要求11所述的WebRTC客户端，其特征在于，

13.如权利要求12所述的WebRTC客户端，其特征在于，所述翻译字幕请求还包括：翻译返回类型，所述翻译返回类型包括语音翻译；所述WebRTC客户端还包括：