CN110087015A

CN110087015A - 一种带有字幕翻译的音频通话方法

Info

Publication number: CN110087015A
Application number: CN201910396695.2A
Authority: CN
Inventors: 张文; 王斯海; 高路恒
Original assignee: Nantong Textile Vocational Technology College
Current assignee: Nantong Textile Vocational Technology College
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-02

Abstract

本发明公开了一种带有字幕输翻译的音频通话方法，其方法包括：采用音频发起端采集通话过程当中模拟的音频模拟数据；位于音频发起端一侧的第一即时音频服务器将所述采集到的音频模拟数据进行模/数转换和解析，将解析出来的音频文本数据反回到音频发起端由用户进行源语音的录入判断，若判断源语音录入正确，则由第一即时音频服务器将文本数据发送至音频中转端，由音频中转端一侧的翻译端将所述的无误的源语音文本数据翻译为目标文本数据，进而将第一翻译文本发送至位于音频接受端一侧的第二音频服务器，且同时由音频中转端将音频数据发送到所述第二音频服务器，进而由第二音频服务器将翻译文本发送至接受端显示设备，同时发送音频数据至接受端。

Description

一种带有字幕翻译的音频通话方法

技术领域

本发明涉及视频通话领域技术领域，更具体地说，它涉及一种带有字幕翻译的音频通话方法。

技术背景

作为一个在全球化发展的今天，一个人要想更好的立足于社会，就必须学会用多种语言和人进行沟通，比如在中国最起码的要求是英语的学习和使用，可是就目前的现状分析，就算一个英语书面成绩很好的人也未必能够和老外进行流畅的沟通，现在的聊天软件是完全可以添加到很多的外国朋友，但是我们在语言不同的障碍之下必须借助一些翻译软件进行复制粘贴的环节，很麻烦，一旦国外朋友要和你进行视频电话，就完全丧失了语言的沟通，尴尬对笑。然而作本发明的提出者就是基于这样的现状下，而且参考了国内外所流行的聊天软件之后产生了研发新型聊天软件的想法，解决这种目前尚未解决的聊天问题以及相关跨国办公交往问题。

发明内容

基于视频通话的研究领域，现提供一种带有字幕翻译的音频通话方法，改善现有的音频通话技术当中，语言不通而交流质量和办公质量受阻的问题。

上述技术方案具体包括：

步骤s1：音频发起端对音频通话过程当中的音频模拟数据进行采集；

步骤s2：第一即时服务器对所述音频模拟数据进行文本转换且将转换后的所述语音文本数据作为第一文本反回到所述音频发起端供用户进行判断；

步骤s3:若用户判断源语音的录入正确无语，则将语音文本数据发送到音频中转端，同时由所述第一即时通讯服务器将视频数据发送到所述音频中转端；

步骤s4：所述音频中转端将所述源语音文本数据发送至音频中转端一侧的第一文本翻译端进行目标语种的翻译，将翻译后的目标语种作为第二文本发送到位于音频接受端一侧的第二服务器中；在此同时由音频中转端将视频文本数据发送至所述第二即时服务器；

步骤s5：由第二即时服务器对所述视频数据进行划分且转换为若干频段的视频模拟数据，再和所述第二文本进行组合；

步骤s6：由音频接收端对组合后的模拟音频数据和第二文本数据进行同步输出；

所述步骤3，若所述用户判断源语音的录入错误，则所述第一即时通讯服务器对所述第一文本进行删除；

所述音频发起端将提供本次音频通话的动态密码，用于向音频接受端发出音频邀请；

其中音频发起端还用于判断第一文本的录入正误；

第一即时音频通讯服务器为音频发起端的数据处理端口，用于将视频模拟数据和源语音数据转换为音频文本数据；

第一即时音频服务器还用于将所述第一文本数据反馈到音频发起端进行正误判断；

所述第一即时音频服务器还用于将第一文本数据和视频文本数据发送至所述音频中转端；

所述音频中转端是基于音频会话初始协议工作服务端，用于音频发起端和音频接受端两点之间的交互和所述动态密码的匹配。

音频中转端一侧的所述第一文本翻译端是一个多端式文本翻译接口，用于将第一文本翻译为供音频接收端所能识别的目标语种；

所述第一翻译文本为将源语音在所述第一即时音频通讯服务器中转换出来的源语音文本；

所述音频接收端一侧的第二音频服务器为所述音频接受端的数据处理端口，用于将来自音频中转端的音频模拟数据转换为音频文本数据；

音频接收端一侧的第二音频服务器还用于将音频模拟数据划分为若干频段的数据进行解析，且和所述第一文本数据进行匹配结合；

所述音频接收端将和所述音频发起端以动态密码匹配的方式采用实时传输协议进行视频传输；

所述音频接受端还用于将音频模拟数据和第一文本从所述第二即时音频通讯服务器中进行输出；

启动本端设备的前置摄像头，利用唇动识别技术，进行参数分析和模拟函数建立，配合语音录入识别音频通话时所要采集的语音数据信息，提高语音数据的准确度；

所述文本输入模块，用于将第一文本数据录入本翻译端口；

所述文本翻译模块，用于将第一文本翻译为目标语种的第二文本；

所述文本输出模块，用于将翻译后的目标语种的第二文本输出以至所述的第二音频服务器；

在所述音频中转端和所述音频接受端之间的语种探测门，用于确定本次音频通话将第一文本翻译成的语种类别；

预测每一通话音频的翻译耗时

根据所述翻译耗时，调整音频模拟数据从所述音频中转端发送至所述第二音频服务器的发送速率；

根据所述音频发起端的GPS位置信息确定本次通话所需将通话音频数据翻译成目标语种。

和/或

根据所述音频发起端设备所关键的对象设备的位置信息确定本次通话所需将通话音频数据翻译成目标语种。

一种带字幕的音频通话端采用上述方法；

上述技术方案的有益效果是：在视频通话的基础上添加上目标语种翻译字幕，有益改善了多个国家之间视频对话的语言不通的障碍，提高了国际之间的通话质量，提高了办公效率。

附图说明

图1是本发明较佳的实施例中，一种带有字幕的音频通话方法流程图；

图2是本发明较佳的实施例中，一种通话方法的时续流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种带有翻译字幕的视频通话方法，该方法具体如图1所示，包括：

步骤s2：第一即时服务器对所述音频模拟数据进行文本转换且将转换后的所述语音文本数据作为第一文本反馈到所述音频发起端供用户进行判断；

步骤s3:若用户判断源语音的录入正确无语，则将语音文本数据发送到音频中转端，同时由所述第一即时通讯服务器将视频文本数据发送到所述音频中转端；

步骤s4：所述音频中转端将所述源语音文本数据发送至音频中转端一侧的第一文本翻译端进行目标语种的翻译，将翻译后的目标语种作为第二文本发送到位于音频接受端一侧的第二即时服务器中；在此同时由音频中转端将视频文本数据发送至所述第二音频通讯服务器；

步骤s5：由第二即时服务器对所述视频文本数据进行划分且转换为若干频段的视频模拟数据，再和所述第二文本进行组合；

上述步骤s1所述的音频采集在图1所述的音频发起端设备上进行，在此之前还包括打开手机客户端设备的前置摄像头，对用户嘴唇运动的识别和参数分析，以及辅助对所述录入的第一文本进行二次监测，提高准确性；

所述的唇动识别技术包括唇部监测，唇读识别，所述的唇动识别技术包括唇部监测，唇读识别，snake模型的嘴唇轮廓提取，用运BP神经网络的唇读识别法；以及唇动监测是根据人脸的生理结构确定；

所述唇部识别的验证及定位是通过带约束条件的所述唇部识别的验证及定位是通过带约束条件的fisher变换能去除口腔内部干扰，在对用户舌尖区域进行有效虑除；

最后的所述识别过程将进行语音建模，静态建模和动态建模，或者混合建模法。

所述方法如图1所述的音频发起端利用唇动识别参数和语音录入到终端进行解析和减压；

再进行模拟数据发送至图一所述的音频发起端一侧的第一即时服务器当中，对所获取的模拟数据进行文本转换以及第一文本的转换结果进行反馈；

进一步有图1的音频发起端对所述第一文本结果进行判断；

若判断无误，则由图1所述的第一即时服务器将文本数据发送到图1所述的音频中转端一侧的文本翻译端进行目标语种的翻译；

具体的所述动态加密包括：

对采集到的无误的语音数据进行编码压缩；

将压缩后的的语音数据进行加密；

将加密的语音数据和密钥通过将加密的语音数据和密钥通过通讯协议发送到所述第一通讯服务器；

所述动态密码的产生因子是采用双运算因子(two factor)

其一为用户的私有密码，代表用户身份的识别码，是固定不变得；

其二为变动因子，是变动因子的不断变化，产生不断变化的动态密码

所述动态密码将在发送短端和接收端随机生成，用于客户之间的通话匹配和数据安全传输。

最终到达所述对象接受端一侧的第二即时服务器上进行初步解密；

同时由第一即时服务器将音频数据发送至图1所述的音频中转端；

进一步由音频中转端将所述音频数据和第一文本转发至图1所述的音频接收端一侧的第二音即时服务器上；

在上述步骤之后还要对音频的文本数据进行频段的划分，以及反馈调节翻译速率，进而将所述的翻译后的第一文本在所述第二音频通话服务器当中进行匹配组合；

进一步要将组合好了的音频文本数据转换为音频模拟数据发送至图1所述的音频接收端；

具体的，本发明的较佳实施例当中，所述音频发起端也可作为音频的接收端，所述音频接受端也可作为音频的发起端，进行双线互动交流，建立多端接入式系统；

具体的，当其所述的音频接收端作为音频发起端时，所述位于音频接受端一侧的第二即时服务器也将作为所述的第一即时通话服务器，进行反馈判断的环节；

本发明的较佳的实施例中，还提供一种带有字幕翻译的音视频通话端，其中采用上文中所述的音视频通话方法。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种带有字幕翻译的音频通话方法，其特征在于，包括：

步骤s2：第一即时通讯服务器对所述音频模拟数据进行文本转换且将转换后的所述语音文本数据作为第一文本反馈到所述音频发起端供用户进行判断；

步骤s3:若用户判断源语音的录入正确无误，则将语音文本数据发送到音频中转端，同时由所述第一即时通讯服务器将视频文本数据发送到所述音频中转端；

步骤s4：所述音频中转端将所述源语音文本数据发送至音频中转端一侧的第一文本翻译端进行目标语种的翻译，将翻译后的目标语种作为第二文本发送到位于音频接受端一侧的第二即使时通讯服务器中；在此同时由音频中转端将视频数据发送至所述第二即时通讯服务器；

步骤s5：由第二音频通讯服务器对所述视频文本数据进行划分且转换为若干频段的视频模拟数据，再和所述第二文本进行组合；

步骤s6：由音频接收端对组合后的模拟音频数据和第二文本数据进行同步输出。

所述步骤3，若所述用户判断源语音的录入错误，则所述第一即时通讯服务器对所述第一文本进行删除。

2.根据权利要求1所述的方法，其特征在于，

所述音频发起端将提供本次音频通话的动态密码，用于向音频接收端发出音频邀请；

所述音频发起端还用于判断第一文本的录入正误。

3.根据权利要求1所述的方法，其特征在于，

所述第一即时音频通讯服务器为音频发起端的数据处理端口，用于将视频模拟数据和源语音数据转换为音频文本数据；

所述第一即时音频服务器还用于将所述第一文本数据反馈到音频发起端进行正误判断；

所述第一即时音频服务器还用于将第一文本数据和视频数据发送至所述音频中转端。

4.根据权利要求1所述的方法，其特征在于，

所述音频中转端是基于音频会话初始协议工作服务端，用于音频发起端和音频接受端两点之间的交互和所述动态密码的匹配；

所述位于音频中转端一侧的所述第一文本翻译端是一个多端式文本翻译接口，用于将第一文本翻译为供音频接收端所能识别的目标语种；

所述第一翻译文本为将源语音在所述第一即时音频通讯服务器中转换出来的源语音文本。

5.根据权利要求1所述的方法，其特征在于，

所述音频接收端一侧的第二即时服务器为所述音频接受端的数据处理端口，用于将来自音频中转端的音频模拟数据转换为音频文本数据；

所述音频接收端一侧的第二即时服务器还用于将音频模拟数据划分为若干频段的数据进行解析，且和所述第一文本数据进行匹配结合；

所述音频接收端将和所述音频发起端以动态密码匹配的方式采用实时传输协议进行音频传输；

所述音频接受端还用于将音频模拟数据和第一文本从所述第二即时音频通讯服务器中进行输出。

6.根据权利要求1所述的方法其特征在于，在音频发起之前还包括：

启动本端设备的前置摄像头，利用唇动识别技术，进行参数分析和模拟函数建立，配合语音录入识别音频通话时所要采集的语音数据信息，提高语音数据的准确度。

7.根据权利要求4所述的方法，其特征在于，所述翻译端还包括：

所述文本输入模块，用于将第一文本数据录入本翻译端口；

所述文本输出模块，用于将翻译后的目标语种的第二文本输出至所述的第二音频服务器。

8.根据权利要求4所述方法，其特征在于，在将所述第一文本翻译为所述目标第二文本之前还包括：

在所述音频中转端和所述音频接受端之间的语种探测门，用于确定本次音频通话将第一文本翻译成的语种类别。

9.根据权利要求4所述的方法，其特征在于，在所述获取对所读取的通话音频数据按照所述目标语种翻译后的第二翻译文本之前，还包括：

计算每一通话音频的翻译耗时；

根据所述翻译耗时，调整音频模拟数据从所述音频中转端发送至所述第二音频服务器的发送速率。

10.根据权利要求8所述的方法，其特征在于，为所述确定本通话要翻译的第二文本数据之前还包括：

和/或

根据所述音频发起端的对象端设备的位置信息确定本次通话所需将通话音频数据翻译成目标语种。