CN107483872A

CN107483872A - 视频通话系统及视频通话方法

Info

Publication number: CN107483872A
Application number: CN201710746658.0A
Authority: CN
Inventors: 张红彬
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-08-27
Filing date: 2017-08-27
Publication date: 2017-12-15

Abstract

本发明公开了视频通话系统及视频通话方法，属于通信技术领域。所述通话系统主要包括通话连接模块、测速反馈模块、选择确定模块、画面生成模块、图像显示模块、交互指令模块、语音时译模块和同步字幕模块。所述通话方法包括：（1）发送通话请求并测试网速；（2）根据网速选择取消、二维或三维视频通话；（3）利用3D摄像头拍摄二维或三维图像并进行二维视频合成或三维视频全息投影；（4）利用语音时译模块和同步字幕模块，同声传译多国及地方方言，并且双语字幕输出。总之，本发明具有系统流畅、选择度高、用户体验效果逼真等优点。

Description

视频通话系统及视频通话方法

技术领域

本发明属于通信技术领域，具体涉及视频通话系统及视频通话方法。

背景技术

随着科技的进步，智能手机、笔记本电脑和计算机之类的终端设备已经成为工作生活中不可缺少的重要组成部分，然而，跨平台、跨终端的即时通讯系统一般只采用人机交互的方式，例如文字，图片，动画，音频，视频和语音通话等，这种交互方式有一定的单一和局限性。

增强现实(Augmented Reality，简称 AR)，是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。它可以将显示器屏幕扩展到真实环境，使计算机窗口与图标叠映于现实对象，由眼睛凝视或手势指点进行操作；让三维物体在用户的全景视野中根据当前任务或需要交互地改变其形状和外观；对于现实目标通过叠加虚拟景象产生类似于X光透视的增强效果；将地图信息直接插入现实景观以引导驾驶员的行动；通过虚拟窗口调看室外景象、使墙壁仿佛变得透明。它使交互从精确的位置扩展到整个环境，从简单的人面对屏幕交流发展到将自己融合于周围的空间与对象中。运用信息系统不再是自觉而有意的独立行动，而是和人们的当前活动自然而然地成为一体。交互性系统不再是具备明确的位置，而是扩展到整个环境。

但是，目前无论采用二维还是三维进行视频通话对网络速度都要求较高，尤其是在用户体验效果更佳的三维视频通话，单纯的建立三维视频通话适用性较低。因此需要建立一种适应性更强且兼容性更高的视频通话系统及视频通话发方法，既能保证通话质量还能提高用户体验。

发明内容

针对以上技术问题，本发明提供一种视频通话系统及视频通话方法，可提高视频通话的质量，以及用户体验效果。

本发明的技术方案为：视频通话系统，主要包括通话连接模块、测速反馈模块、选择确定模块、画面生成模块、图像显示模块和交互指令模块；

所述通话连接模块包括通话请求单元和通话接拒单元，所述通话请求单元用于通话发起端向至少一个通话对端发送视频通话请求，所述通话接拒单元用于所述通话发起端进行单方面挂断，或用于所述通话对端选择接收或拒绝通话发起端的通话请求；

所述测速反馈模块包括信号发送单元、信号接收单元、数模转换单元、网速评估单元和存储单元，所述信号发送单元用于在通话请求单元发送请求的同时，按照一定频率和时间间隔向通话对端发送指定信号，所述信号接收单元用于接收反馈信号，所述存储单元用于记录所述指定信号及发送时间、所述反馈信号及反馈时间，所述数模转换单元将指定信号及反馈信号转换成对应的数据，所述网速评估单元计算所述数据及所述发送时间和反馈时间的时间差评估网速状况；

所述选择确定模块包括网速显示单元、提示建议单元和手动切换单元，所述网速显示单元用于将所述网速评估单元得出的实时网速数据进行显示，所述提示建议单元根据网速评估单元得出的评估结果给出最优建议并进行自动选择，所述手动切换单元用于在自动选择后，根据实际需求进行选择二维平面视频通话方式或三维全息视频通话方式；

所述画面生成模块包括采集获取单元、测算处理单元、存储记录单元和提取应用单元，所述采集获取单元通过摄像头获取人物二维或三维图像，所述测算处理单元对每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，或对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，所述提取应用单元用于将所述连续视频或虚拟三维形象进行提取播放；

所述图像显示模块包括电子屏显示单元和全息投影显示单元，所述电子屏显示单元用于显示二维图像视频，所述全息投影显示单元通过投影机构将原影像按照一定比例进行浮空投影；

所述交互指令模块包括按键触摸单元、跟踪识别单元、指令获取单元和动作执行单元，所述按键触摸单元通过按键或触摸屏幕的方式向二维视频通话下达指令，所述跟踪识别单元用于对人脸和动作进行跟踪识别，所述指令获取单元用于在三维视频通话条件下将所述虚拟三维形象发送至至少一个通话对端后，获取目标动作指令，所述动作执行单元用于控制虚拟三维形象执行所述目标动作指令。

进一步的，还包括语音时译模块，所述语音时译模块包括原音收录单元、语言识别单元、即时翻译单元、混音处理单元和混音输出单元，所述原音收录单元用于收录所述通话发起端或通话对端的现场语音，所述语言识别单元用于识别语言种类，所述即时翻译单元用于将识别出的语言翻译成指定语言，所述混音处理单元用于将原音与翻译后的语音进行分通道处理，所述混音输出单元用于将分到处理后的原音与翻译后的语音进行同时输出。

进一步的，还包括同步字幕模块，所述同步字幕模块包括音频截取单元、识别校准单元、字幕合成单元和输出显示单元，所述音频截取单元用于获取音频子帧，所述识别校准单元用于将所述音频子帧进行进一步识别和校准，所述字幕合成单元将多个音频子帧进行拼接合成组成完整字幕，所述输出显示单元将所述完整字幕输出并显示在图像视频下方。

进一步的，所述摄像头为3D高清摄像头，相较于普通摄像头，3D高清摄像头更加利于三维图像的建立，便于实现三维视频通话。

进一步的，所述语音时译模块可识别多国主流语言，比如，中、英、法、日、韩、俄、德等国家的主流官方语言，以及中国国内地方方言，比如，东北、陕西、山西、甘肃、北京、山东、合肥、上海、广东、杭州、苏州及四川等地区方言。

进一步的，所述同步字幕模块可进行双语字幕输出，添加字幕可大大增加交流沟通的便利性。

进一步的，视频通话系统的视频通话方法，包括以下步骤：

S1：所述通话发起端通过服务器向至少一个所述通话对端发起视频通话请求，若通话发起端单方面挂断或通话对端拒接，则通话结束；反之则进入下一步；

S2：在所述通话请求单元发送请求的同时，利用所述信号发送单元按照一定频率和时间间隔向通话对端发送指定信号，之后，所述数模转换单元将指定信号及反馈信号转换成对应的数据，最后通过网速评估单元计算所述数据及所述发送时间和反馈时间的时间差评估网速状况，所述网速状况通过所述网速显示单元显示，且通过所述提示建议单元给出提示；

S3：若网速低于50KB/S则建议取消视频通话，通话结束；若网速介于50KB/S-400KB/S之间则建议开启二维视频通话模式，通过摄像头获取人物二维图像，将每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，最后通过所述电子屏显示单元进行二维图像视频通话；若网速大于400KB/S则建议开启三维视频通话模式，通过摄像头获取人物多方位的二维图像并合成三维图像，对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，最后所述虚拟三维形象通过投影机构将原影像按照一定比例进行浮空投影，通过全息投影显示单元进行全息投影视频通话；

S4：所述二维图像视频通话通过按键或触摸屏幕的方式传输指令，所述全息投影视频通话通过所述跟踪识别单元对人脸和动作进行跟踪识别，同时利用所述指令获取单元获取目标动作指令，并利用所述动作执行单元控制所述虚拟三维形象执行所述目标动作指令；

S5：通过所述原音收录单元收录所述通话发起端或通话对端的现场语音，再通过所述语言识别单元识别语言种类，并通过所述即时翻译单元将识别出的语言翻译成指定语言，原音与翻译后的语音被进行分通道处理后同时输出；与此同时，所述音频截取单元获取音频子帧，并利用所述识别校准单元将所述音频子帧进行识别和校准，之后通过所述字幕合成单元将多个音频子帧进行拼接合成组成完整字幕，最后同步显示在所述二维图像视频或全息投影视频的下方。

进一步的，所述提示建议单元在初次提示时系统会进行自主选择适合的通话模式，在后期实时网速监测下，若网速出现变动，则通过所述手动切换单元选择通话模式。

与现有技术相比，本发明的有益效果为：本发明的视频通话系统及视频通话方法包括二维视频通话和三维全息投影视频通话两种通话模式，通过测速反馈确定通话发起端与通话对端的实时网速，以此选择通话模式，当网速低于50KB/S时建议取消视频通话，若网速介于50KB/S-400KB/S之间则建议开启二维视频通话模式，若网速大于400KB/S则建议开启三维视频通话模式，合理选择通话方式，既保证了视频通话的流畅性又增加了用户的可选择性，在网速良好的情况下可选择通话体验效果更佳的三维全息投影视频通话。与此同时，本发明还增设了语音时译模块和同步字幕模块，可同声传译多国及地方方言，并且还可显示双语字幕输出，大大增加交流沟通的便利性。总之，本发明具有系统流畅、方法较优、选择度高、用户体验效果更加逼真、无障碍交流沟通等优点。

附图说明

图1是本发明的实施例1的视频通话系统的架构框图；

图2是本发明的实施例1的视频通话方法的步骤流程图；

图3是本发明的实施例2的视频通话系统的架构框图；

图4是本发明的实施例2的视频通话方法的步骤流程图。

其中，1-通话连接模块、11-通话请求单元、12-通话接拒单元、2-测速反馈模块、21-信号发送单元、22-信号接收单元、23-数模转换单元、24-网速评估单元、25-存储单元、3-选择确定模块、31-网速显示单元、32-提示建议单元、33-手动切换单元、4-画面生成模块、41-采集获取单元、42-测算处理单元、43-存储记录单元、44-提取应用单元、5-图像显示模块、51-电子屏显示单元、52-全息投影显示单元、6-交互指令模块、61-按键触摸单元、62-跟踪识别单元、63-指令获取单元、64-动作执行单元、7-语音时译模块、71-原音收录单元、72-语言识别单元、73-即时翻译单元、74-混音处理单元、75-混音输出单元、8-同步字幕模块、81-音频截取单元、82-识别校准单元、83-字幕合成单元、84-输出显示单元、9a-通话发起端、9b-通话对端、10-服务器。

具体实施方式

下面结合附图1-4和具体实施例来对本发明进行更进一步详细的说明。

实施例1

如图1所示，视频通话系统，主要包括通话连接模块1、测速反馈模块2、选择确定模块3、画面生成模块4、图像显示模块5和交互指令模块6；

通话连接模块1包括通话请求单元11和通话接拒单元12，通话请求单元11用于通话发起端9a向至少一个通话对端9b发送视频通话请求，通话接拒单元12用于通话发起端9a进行单方面挂断，或用于通话对端9b选择接收或拒绝通话发起端9a的通话请求；

测速反馈模块2包括信号发送单元21、信号接收单元22、数模转换单元23、网速评估单元24和存储单元25，信号发送单元21用于在通话请求单元11发送请求的同时，按照一定频率和时间间隔向通话对端9b发送指定信号，信号接收单元22用于接收反馈信号，存储单元25用于记录指定信号及发送时间、反馈信号及反馈时间，数模转换单元23将指定信号及反馈信号转换成对应的数据，网速评估单元24计算数据及发送时间和反馈时间的时间差评估网速状况；

选择确定模块3包括网速显示单元31、提示建议单元32和手动切换单元33，网速显示单元31用于将网速评估单元24得出的实时网速数据进行显示，提示建议单元32根据网速评估单元24得出的评估结果给出最优建议并进行自动选择，手动切换单元33用于在自动选择后，根据实际需求进行选择二维平面视频通话方式或三维全息视频通话方式；

画面生成模块4包括采集获取单元41、测算处理单元42、存储记录单元43和提取应用单元44，采集获取单元41通过摄像头获取人物二维或三维图像，其中，摄像头为3D高清摄像头，相较于普通摄像头，3D高清摄像头更加利于三维图像的建立，便于实现三维视频通话。测算处理单元42对每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，或对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，提取应用单元44用于将连续视频或虚拟三维形象进行提取播放；

图像显示模块5包括电子屏显示单元51和全息投影显示单元52，电子屏显示单元51用于显示二维图像视频，全息投影显示单元52通过投影机构将原影像按照一定比例进行浮空投影；

交互指令模块6包括按键触摸单元61、跟踪识别单元62、指令获取单元63和动作执行单元64，按键触摸单元61通过按键或触摸屏幕的方式向二维视频通话下达指令，跟踪识别单元62用于对人脸和动作进行跟踪识别，指令获取单元63用于在三维视频通话条件下将虚拟三维形象发送至至少一个通话对端后，获取目标动作指令，动作执行单元64用于控制虚拟三维形象执行目标动作指令。

如图2所示，视频通话系统的视频通话方法，包括以下步骤，

S1：通话发起端9a通过服务器10向至少一个通话对端9b发起视频通话请求，若通话发起端9a单方面挂断或通话对端9b拒接，则通话结束；反之则进入下一步；

S2：在通话请求单元11发送请求的同时，利用信号发送单元21按照一定频率和时间间隔向通话对端9b发送指定信号，之后，数模转换单元23将指定信号及反馈信号转换成对应的数据，最后通过网速评估单元24计算数据及发送时间和反馈时间的时间差评估网速状况，网速状况通过网速显示单元31显示若网速为310KB/S，且通过提示建议单元32给出提示建议开启二维视频通话模式；

S3：通过摄像头获取人物二维图像，将每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，最后通过电子屏显示单元51进行二维图像视频通话；

S4：二维图像视频通话通过按键或触摸屏幕的方式传输指令，直至通话结束。

实施例2

如图3所示，视频通话系统，主要包括通话连接模块1、测速反馈模块2、选择确定模块3、画面生成模块4、图像显示模块5、交互指令模块6、语音时译模块7和同步字幕模块8；

语音时译模块7包括原音收录单元71、语言识别单元72、即时翻译单元73、混音处理单元74和混音输出单元75，原音收录单元71用于收录通话发起端9a或通话对端9b的现场语音，语言识别单元72用于识别语言种类，即时翻译单元73用于将识别出的语言翻译成指定语言，混音处理单元74用于将原音与翻译后的语音进行分通道处理，混音输出单元75用于将分到处理后的原音与翻译后的语音进行同时输出，其中，语音时译模块可识别多国主流语言，比如，中、英、法、日、韩、俄、德等国家的主流官方语言，以及中国国内地方方言，比如，东北、陕西、山西、甘肃、北京、山东、合肥、上海、广东、杭州、苏州及四川等地区方言。

同步字幕模块8包括音频截取单元81、识别校准单元82、字幕合成单元83和输出显示单元84，音频截取单元81用于获取音频子帧，识别校准单元82用于将音频子帧进行进一步识别和校准，字幕合成单元83将多个音频子帧进行拼接合成组成完整字幕，输出显示单元84将完整字幕输出并显示在图像视频下方。其中，同步字幕模块可进行双语字幕输出，添加字幕可大大增加交流沟通的便利性。

如图4所示，视频通话系统的视频通话方法，包括以下步骤，

S2：在通话请求单元11发送请求的同时，利用信号发送单元21按照一定频率和时间间隔向通话对端发送指定信号，之后，数模转换单元23将指定信号及反馈信号转换成对应的数据，最后通过网速评估单元24计算数据及发送时间和反馈时间的时间差评估网速状况，网速状况通过网速显示单元31显示网速为782KB/S，且通过提示建议单元32给出提示建议开启三维视频通话模式；其中，提示建议单元32在初次提示时系统会进行自主选择适合的通话模式，在后期实时网速监测下，若网速出现变动，则通过手动切换单元33选择通话模式。

S3：通过摄像头获取人物多方位的二维图像并合成三维图像，对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，最后虚拟三维形象通过投影机构将原影像按照一定比例进行浮空投影，通过全息投影显示单元52进行全息投影视频通话；

S4：全息投影视频通话通过跟踪识别单元62对人脸和动作进行跟踪识别，同时利用指令获取单元63获取目标动作指令，并利用动作执行单元64控制虚拟三维形象执行目标动作指令；

S5：通过原音收录单元71收录通话发起端9a或通话对端9b的现场语音，再通过语言识别单元72识别语言种类，并通过即时翻译单元73将识别出的语言翻译成指定语言，原音与翻译后的语音被进行分通道处理后同时输出；与此同时，音频截取单元81获取音频子帧，并利用识别校准单元82将音频子帧进行识别和校准，之后通过字幕合成单元83将多个音频子帧进行拼接合成组成完整字幕，最后同步显示在二维图像视频或全息投影视频的下方。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.视频通话系统，其特征在于，主要包括通话连接模块（1）、测速反馈模块（2）、选择确定模块（3）、画面生成模块（4）、图像显示模块（5）和交互指令模块（6）；

所述通话连接模块（1）包括通话请求单元（11）和通话接拒单元（12），所述通话请求单元（11）用于通话发起端（9a）向至少一个通话对端（9b）发送视频通话请求，所述通话接拒单元（12）用于所述通话发起端（9a）进行单方面挂断，或用于所述通话对端（9b）选择接收或拒绝通话发起端（9a）的通话请求；

所述测速反馈模块（2）包括信号发送单元（21）、信号接收单元（22）、数模转换单元（23）、网速评估单元（24）和存储单元（25），所述信号发送单元（21）用于在通话请求单元（11）发送请求的同时，按照一定频率和时间间隔向通话对端（9b）发送指定信号，所述信号接收单元（22）用于接收反馈信号，所述存储单元（25）用于记录所述指定信号及发送时间、所述反馈信号及反馈时间，所述数模转换单元（23）将指定信号及反馈信号转换成对应的数据，所述网速评估单元（24）计算所述数据及所述发送时间和反馈时间的时间差评估网速状况；

所述选择确定模块（3）包括网速显示单元（31）、提示建议单元（32）和手动切换单元（33），所述网速显示单元（31）用于将所述网速评估单元（24）得出的实时网速数据进行显示，所述提示建议单元（32）根据网速评估单元（24）得出的评估结果给出最优建议并进行自动选择，所述手动切换单元（33）用于在自动选择后，根据实际需求进行选择二维平面视频通话方式或三维全息视频通话方式；

所述画面生成模块（4）包括采集获取单元（41）、测算处理单元（42）、存储记录单元（43）和提取应用单元（44），所述采集获取单元（41）通过摄像头获取人物二维或三维图像，所述测算处理单元（42）对每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，或对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，所述提取应用单元（44）用于将所述连续视频或虚拟三维形象进行提取播放；

所述图像显示模块（5）包括电子屏显示单元（51）和全息投影显示单元（52），所述电子屏显示单元（51）用于显示二维图像视频，所述全息投影显示单元（52）通过投影机构将原影像按照一定比例进行浮空投影；

所述交互指令模块（6）包括按键触摸单元（61）、跟踪识别单元（62）、指令获取单元（63）和动作执行单元（64），所述按键触摸单元（61）通过按键或触摸屏幕的方式向二维视频通话下达指令，所述跟踪识别单元（62）用于对人脸和动作进行跟踪识别，所述指令获取单元（63）用于在三维视频通话条件下将所述虚拟三维形象发送至至少一个通话对端后，获取目标动作指令，所述动作执行单元（64）用于控制虚拟三维形象执行所述目标动作指令。

2.如权利要求1所述的视频通话系统，其特征在于，还包括语音时译模块（7），所述语音时译模块（7）包括原音收录单元（71）、语言识别单元（72）、即时翻译单元（73）、混音处理单元（74）和混音输出单元（75），所述原音收录单元（71）用于收录所述通话发起端（9a）或通话对端（9b）的现场语音，所述语言识别单元（72）用于识别语言种类，所述即时翻译单元（73）用于将识别出的语言翻译成指定语言，所述混音处理单元（74）用于将原音与翻译后的语音进行分通道处理，所述混音输出单元（75）用于将分通道处理后的原音与翻译后的语音进行同时输出。

3.如权利要求1所述的视频通话系统，其特征在于，还包括同步字幕模块（8），所述同步字幕模块（8）包括音频截取单元（81）、识别校准单元（82）、字幕合成单元（83）和输出显示单元（84），所述音频截取单元（81）用于获取音频子帧，所述识别校准单元（82）用于将所述音频子帧进行进一步识别和校准，所述字幕合成单元（83）将多个音频子帧进行拼接合成组成完整字幕，所述输出显示单元（84）将所述完整字幕输出并显示在图像视频下方。

4.如权利要求1所述的视频通话系统，其特征在于，所述摄像头为3D高清摄像头。

5.如权利要求1所述的视频通话系统，其特征在于，所述语音时译模块可识别多国主流语言，以及中国国内地方方言。

6.如权利要求1所述的视频通话系统，其特征在于，所述同步字幕模块可进行双语字幕输出。

7.根据权利要求1-6任意一项所述的视频通话系统的视频通话方法，其特征在于，包括以下步骤：

S1：所述通话发起端（9a）通过服务器（10）向至少一个所述通话对端（9b）发起视频通话请求，若通话发起端（9a）单方面挂断或通话对端（9b）拒接，则通话结束；反之则进入下一步；

S2：在所述通话请求单元（11）发送请求的同时，利用所述信号发送单元（21）按照一定频率和时间间隔向通话对端（9b）发送指定信号，之后，所述数模转换单元（23）将指定信号及反馈信号转换成对应的数据，最后通过网速评估单元（24）计算所述数据及所述发送时间和反馈时间的时间差评估网速状况，所述网速状况通过所述网速显示单元（31）显示，且通过所述提示建议单元（32）给出提示；

S3：若网速低于50KB/S则建议取消视频通话，通话结束；若网速介于50KB/S-400KB/S之间则建议开启二维视频通话模式，通过摄像头获取人物二维图像，将每一帧二维图像进行压缩、量化、编码、排序和存储形成连续视频，最后通过所述电子屏显示单元（51）进行二维图像视频通话；若网速大于400KB/S则建议开启三维视频通话模式，通过摄像头获取人物多方位的二维图像并合成三维图像，对三维图像进行计算、编辑、输出、合成、修正和显影形成虚拟三维形象，最后所述虚拟三维形象通过投影机构将原影像按照一定比例进行浮空投影，通过全息投影显示单元（52）进行全息投影视频通话；

S4：所述二维图像视频通话通过按键或触摸屏幕的方式传输指令，所述全息投影视频通话通过所述跟踪识别单元（62）对人脸和动作进行跟踪识别，同时利用所述指令获取单元（63）获取目标动作指令，并利用所述动作执行单元（64）控制所述虚拟三维形象执行所述目标动作指令；

S5：通过所述原音收录单元（71）收录所述通话发起端（9a）或通话对端（9b）的现场语音，再通过所述语言识别单元（72）识别语言种类，并通过所述即时翻译单元（73）将识别出的语言翻译成指定语言，原音与翻译后的语音被进行分通道处理后同时输出；与此同时，所述音频截取单元（81）获取音频子帧，并利用所述识别校准单元（82）将所述音频子帧进行识别和校准，之后通过所述字幕合成单元（83）将多个音频子帧进行拼接合成组成完整字幕，最后同步显示在所述二维图像视频或全息投影视频的下方。