CN117336282A - 一种实时翻译方法、装置、电子设备及存储介质 - Google Patents
一种实时翻译方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117336282A CN117336282A CN202311176267.1A CN202311176267A CN117336282A CN 117336282 A CN117336282 A CN 117336282A CN 202311176267 A CN202311176267 A CN 202311176267A CN 117336282 A CN117336282 A CN 117336282A
- Authority
- CN
- China
- Prior art keywords
- terminal
- call
- translated
- real
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 title claims abstract description 128
- 230000006870 function Effects 0.000 claims description 93
- 230000011664 signaling Effects 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 51
- 238000012545 processing Methods 0.000 description 23
- 230000003993 interaction Effects 0.000 description 13
- 238000007726 management method Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1016—IP multimedia subsystem [IMS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种实时翻译方法、装置、电子设备及存储介质,涉及通信技术领域,用于解决若用户同时收听到通话声音和翻译好的音频,可能会听不清楚音频内容,体验感较差的问题。该方法包括:获取待翻译的音频数据;待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;将待翻译的音频数据翻译为目标语言类型的文本;基于文本,生成实时传输协议RTP视频流;将RTP视频流发送给目标终端;目标终端为具有显示RTP视频流权限的终端。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种实时翻译方法、装置、电子设备及存储介质。
背景技术
随着移动通信网络技术的快速发展,运营商网络已经由第二/三代移动通信(the2th/3th generation mobile communication,2G/3G)技术,发展到第四/五代移动通信(the 4th/5th generation mobile communication,4G/5G)技术,同时移动终端设备的性能也极大提高,因此网络运营商能够在基础多媒体通话业务基础之外,为用户提供更加丰富多彩的增值业务。
随着全球化进程的加快,国际间的商务往来越来越密切,但通话双方语言的不通,给双方的通话带来了不便,因此亟需一种能够在通话中进行实时翻译的方法。相关技术中,在实现通话双方实时翻译功能时,往往是实时为用户播放翻译好的音频;当用户在通话过程中,若同时收听到通话声音和翻译好的音频,可能会听不清楚音频内容,体验感较差。
发明内容
本申请提供一种实时翻译方法、装置、电子设备及存储介质,涉及通信技术领域,通过在通话过程中,将翻译好的文本以视频流的形式显示在用户的通话界面上,以便用户实时查看双方的通话内容,可以解决若用户同时收听到通话声音和翻译好的音频,可能会听不清楚音频内容,体验感较差的问题。
第一方面,本申请提供一种实时翻译方法,包括:获取待翻译的音频数据;待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;将待翻译的音频数据翻译为目标语言类型的文本;基于文本,生成实时传输协议RTP视频流;将RTP视频流发送给目标终端;目标终端为具有显示RTP视频流权限的终端。
本申请提供的技术方案至少带来以下有益效果:区别于现有技术中,将通话双方的语音翻译为音频并播放,用户可能会听不清楚音频内容,体验感较差的问题,本申请提供的方法通过获取通话双方的待翻译的音频数据,并根据目标语言类型,将待翻译的音频数据翻译为文本,并将文本以视频流的形式发送给用户,可以在不影响用户原本的音频或视频通话的基础上,在通话界面为用户显示实时翻译的文本,使得用户在保持正常通话的同时,实时查看双方的通话内容,提高了用户的通话体验。
在一种可能的实现方式中,方法还包括:接收第一配置操作;第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为主叫终端和/或被叫终端配置显示RTP视频流权限;将待翻译的音频数据翻译为目标语言类型的文本,包括:基于第一配置操作,将待翻译的音频数据翻译为目标语言类型的文本;将RTP视频流发送给目标终端,包括:基于第一配置操作,确定目标终端;将RTP视频流发送给目标终端。
另一种可能的实现方式中,基于文本,生成实时传输协议RTP视频流,包括:在主叫终端与被叫终端之间的通话方式为视频通话的情况下,获取目标终端通话界面的视频画面;将文本叠加在视频画面上,生成RTP视频流。
又一种可能的实现方式中,基于文本,生成实时传输协议RTP视频流,包括:在主叫终端与被叫终端之间的通话方式为音频通话的情况下,获取目标终端通话界面的背景图片;将文本叠加在背景图片上,生成RTP视频流。
又一种可能的实现方式中,获取待翻译的音频数据之前,方法还包括:接收业务转接网元发送的呼叫信令;呼叫信令包括网络标识和业务标识;网络标识用于指示主叫终端和被叫终端的网络状态;业务标识用于指示主叫终端和被叫终端所开通的业务;在网络状态满足预设网络状态,且业务标识包括实时翻译功能标识的情况下,桥接音视频媒体;音视频媒体用于传输主叫终端和被叫终端之间的通话数据。
又一种可能的实现方式中,方法还包括:检测待翻译的音频数据的音质,得到音质检测结果;在音质检测结果不满足预设音质标准的情况下,向主叫终端及被叫终端发送提示信息;提示信息用于提示主叫终端和被叫终端重新发起通话。
第二方面,本申请提供一种实时翻译装置,该装置包括:获取模块、翻译模块、生成模块和发送模块;获取模块,用于获取待翻译的音频数据;待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;翻译模块,用于将待翻译的音频数据翻译为目标语言类型的文本;生成模块,用于基于文本,生成实时传输协议RTP视频流;发送模块,用于将RTP视频流发送给目标终端;目标终端为具有显示RTP视频流权限的终端。
在一种可能的实现方式中,该装置还包括:接收模块;接收模块,用于接收第一配置操作;第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为主叫终端和/或被叫终端配置显示RTP视频流权限;翻译模块,具体用于基于第一配置操作,将待翻译的音频数据翻译为目标语言类型的文本;发送模块,具体用于基于第一配置操作,确定目标终端;将RTP视频流发送给目标终端。
另一种可能的实现方式中,生成模块,具体用于在主叫终端与被叫终端之间的通话方式为视频通话的情况下,获取目标终端通话界面的视频画面;将文本叠加在视频画面上,生成RTP视频流。
又一种可能的实现方式中,生成模块,具体用于在主叫终端与被叫终端之间的通话方式为音频通话的情况下,获取目标终端通话界面的背景图片;将文本叠加在背景图片上,生成RTP视频流。
又一种可能的实现方式中,装置还包括:桥接模块;接收模块,还用于接收业务转接网元发送的呼叫信令;呼叫信令包括网络标识和业务标识;网络标识用于指示主叫终端和被叫终端的网络状态;业务标识用于指示主叫终端和被叫终端所开通的业务;桥接模块,用于在网络状态满足预设网络状态,且业务标识包括实时翻译功能标识的情况下,桥接音视频媒体;音视频媒体用于传输主叫终端和被叫终端之间的通话数据。
又一种可能的实现方式中,装置还包括:检测模块;检测模块,用于检测待翻译的音频数据的音质,得到音质检测结果;发送模块,还用于在音质检测结果不满足预设音质标准的情况下,向主叫终端及被叫终端发送提示信息;提示信息用于提示主叫终端和被叫终端重新发起通话。
第三方面,本申请提供一种电子设备,该电子设备包括:处理器和用于存储处理器可执行指令的存储器;其中,处理器被配置为执行如第一方面及其任一种可能的实现方式的实时翻译方法。
第四方面,本申请提供一种计算机可读存储介质,当计算机可读存储介质中的指令由服务端的处理器执行时,使得服务端能够执行如第一方面及其任一种可能的实现方式所提供的方法;或者,当计算机可读存储介质中的指令由客户端的处理器执行时,使得客户端能够执行如第一方面及其任一种可能的实现方式所提供的方法。
上述第二方面至第四方面的有益效果,可以参考第一方面所述,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的实时翻译系统的组成示意图;
图2为本申请实施例提供的XR通话业务平台系统结构图;
图3为本申请实施例提供的实时翻译方法的流程示意图;
图4为本申请实施例提供的实时翻译方法的另一种流程示意图;
图5为本申请实施例提供的实时翻译方法的又一种流程示意图;
图6为本申请实施例提供的实时翻译方法的又一种流程示意图;
图7为本申请实施例提供的实时翻译方法的又一种流程示意图;
图8为本申请实施例提供的实时翻译方法的又一种流程示意图;
图9为本申请实施例提供的实时翻译方法的又一种流程示意图;
图10为本申请实施例提供的实时翻译方法的又一种流程示意图;
图11为本申请实施例提供的实时翻译方法的又一种流程示意图;
图12为本申请实施例提供的实时翻译方法的又一种流程示意图;
图13为本申请实施例提供的实时翻译方法的又一种流程示意图;
图14为本申请实施例提供的实时翻译方法的又一种流程示意图;
图15为本申请实施例提供的实时翻译方法的又一种流程示意图;
图16为本申请实施例提供的实时翻译方法的又一种流程示意图;
图17为本申请实施例提供的实时翻译方法的又一种流程示意图;
图18为本申请实施例提供的实时翻译方法的又一种流程示意图;
图19为本申请实施例提供的实时翻译方法的又一种流程示意图;
图20为本申请实施例提供的实时翻译方法的又一种流程示意图;
图21为本申请实施例提供的实时翻译装置的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
另外,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
如背景技术所述,运营商网络已经由2G/3G技术发展到4G/5G技术,同时移动终端设备的性能也极大提高;因此网络运营商能够在最重要的基础多媒体通话业务之外,为用户提供更加丰富多彩的增值业务。但目前为止,这些增值业务通常应用在通话前的早期媒体阶段,例如视频彩铃、视频名片等;而对于通话过程中的媒体阶段,尚未给用户提供相关增值业务,用户在通话过程中的增值业务服务领域还处于较空白阶段。随着全球化进程的加快,国际间的商务往来越来越密切,但通话双方语言的不通,给双方的通话带来了不便,因此亟需一种能够在通话中进行实时翻译的方法。
目前运营商能够提供的基础多媒体通话基础流程如下:被叫终端开通了视频彩铃业务,主叫终端呼叫被叫终端时,彩铃业务平台在通话接通前,为主叫终端和被叫终端播放一段视频彩铃,以替代传统的音频彩铃;双方接通后,停止播放视频彩铃,双方进入通话状态。但在通话过程中,并不给用户提供相关增值业务,也不提供实时翻译功能,双方通话完成后,挂断电话,整个通话流程完成;当前的通话流程,无法满足通话双方多语言交流的需求。
此外,在相关技术中,在实现通话双方实时翻译功能时,往往是实时为用户播放翻译好的音频;当用户在通话过程中,若同时收听到通话声音和翻译好的音频,可能会听不清楚音频内容,体验感较差。
针对上述技术问题,本申请提供一种实时翻译方法、装置、电子设备及存储介质,涉及通信技术领域,通过在通话过程中,将翻译好的文本以视频流的形式显示在用户的通话界面上,以便用户实时查看双方的通话内容,可以解决若用户同时收听到通话声音和翻译好的音频,可能会听不清楚音频内容,体验感较差的问题。
区别于现有技术中,将通话双方的语音翻译为音频并播放,用户可能会听不清楚音频内容,体验感较差的问题,本申请提供的方法通过获取通话双方的待翻译的音频数据,并根据目标语言类型,将待翻译的音频数据翻译为文本,并将文本以视频流的形式发送给用户,可以在不影响用户原本的音频或视频通话的基础上,在通话界面为用户显示实时翻译的文本,使得用户在保持正常通话的同时,实时查看双方的通话内容,提高了用户的通话体验。
为了便于理解,以下结合附图对本申请提供的实时翻译方法进行具体介绍。
图1为本申请实施例提供的实时翻译系统的组成示意图。如图1所示,该实时翻译系统100包括:主叫终端1001、被叫终端1002、核心网1003、业务分发平台1004、彩铃业务平台1005、扩展现实(extended reality,XR)通话业务平台1006和业务管理平台1007。
其中,XR通话业务平台1006包括:XR通话业务逻辑处理模块、管理控制模块、基础媒体业务模块、翻译模块和增强媒体模块。
其中,主叫终端1001和被叫终端1002分别与核心网1003通信连接;核心网1003、彩铃业务平台1005和XR通话业务平台1006分别与业务分发平台1004通信连接;彩铃业务平台1005和XR通话业务平台1006分别与业务管理平台1007通信连接。
主叫终端1001,用于发起电话呼叫或执行其他通信服务。
在一些实施例中,主叫终端1001开通了实时翻译功能;主叫终端1001,具体用于向被叫终端1002发起呼叫,并使用实时翻译功能在通话界面显示翻译后的文本的视频流。
被叫终端1002,用于接收来自主叫终端的电话呼叫或执行其他通信服务。
在一些实施例中,被叫终端1002开通了实时翻译功能;被叫终端1002,具体用于在接收到主叫终端1001的呼叫后,使用实时翻译功能在通话界面显示翻译后的文本的视频流。
其中,主叫终端和被叫终端可以是支持基于IP多媒体子系统(ip multimediasubsyste,IMS)的高清语音通话VoLTE(voice over long-term evolution)的终端;和/或支持5G语音业务(Voice over new radio,VoNR)的终端,能够在通话过程中,在终端通话界面显示通话翻译后的文本的视频流,以供用户实时查看。
示例性的,主机终端和被叫终端可以是手机,本申请实施例对主叫终端和被叫终端的具体形态不作限定。
核心网1003,用于提供多媒体业务和服务。
在一些实施例中,核心网1003,具体用于根据来自主叫终端1001或被叫终端1002的信令信息,对呼叫进行识别、路由和转发,将信令传递给相应的网络节点,以确保呼叫能够成功连接到被叫终端1002。
其中,核心网1003可以是IMS核心网。
其中,核心网1003包括业务转接网元。
可选的,业务转接网元可以是网络侧集中业务控制功能(ip multimediasubsystem centralized services control function)网元。
示例性的,核心网1003,在接收到主叫终端1001或被叫终端1002的信令信息后,若判断出任一终端开通了实时翻译功能时,可以按照初始过滤规则(initial filtercriteria,IFC),将该业务触发到XR通话业务平台。
业务分发平台1004,用于根据不同的需求和条件,将业务应用和服务分发到合适的终端设备或平台。
在一些实施例中,业务分发平台1004可以与核心网1003集成,已实现更灵活和智能的业务分发和绘画控制。
彩铃业务平台1005,用于管理和提供彩铃业务。
在一些实施例中,彩铃业务平台1005中包括彩铃业务逻辑处理模块,用于通过彩铃的上传、订购、分发和管理等功能,为用户提供了个性化的来电体验,并帮助运营商或服务提供商进行业务运营和管理。
XR通话业务平台1006,用于实现增强现实和虚拟现实通话服务。
在一些实施例中,如图2所示,为XR通话业务平台1006的系统结构图;其中,XR通话业务平台1006包括:XR通话业务逻辑处理模块11、管理控制模块12、基础媒体业务模块13、翻译模块14和增强媒体模块15。
XR通话业务逻辑处理模块11,用于在主叫终端1001的呼叫到达和被叫终端1002摘机前,转发主叫终端1001和被叫终端1002的彩铃的通信信令、记录主叫终端1001和被叫终端1002的媒体能力和网络状态。
在一些实施例中,XR通话业务逻辑处理模块11,还用于当被叫终端1002摘机时,向管理控制模块12发送HTTP请求,获取下一步的指示,按照其指示完成摘机协商。
在一些实施例中,当主叫终端1001或被叫终端1002中至少一个有实时翻译功能时,XR通话业务逻辑处理模块11通过会话初始协议(session initiation protocol,SIP)接口,向基础媒体业务模块13发送SIP请求,申请其音视频资源,经过invite/200/ACK(确认)的媒体交互完成音视频媒体资源的申请过程,桥接音视频媒体;通过超文本传输协议(hypertext transfer protocol,HTTP)接口向增强媒体模块15发送HTTP请求,申请翻译功能;增强媒体模块15响应于自身的收流地址和端口,由XR通话业务逻辑处理模块11将其收流地址和端口告知基础媒体业务模块13。
在一些实施例中,XR通话业务逻辑处理模块11是基础媒体业务模块13和增强媒体模块15进行媒体关联的中转者。
管理控制模块12,用于根据当前通话的主叫终端1001和被叫终端1002的业务的触发方式、业务开通情况、网络状态等向XR通话业务逻辑处理模块11确认被叫终端1002摘机后的处理流程。
示例性的,当网络状态正常时,若仅主叫终端1001开通了实时翻译功能,则指示XR通话业务逻辑处理模块11在被叫终端1002摘机时,向主叫终端1001和被叫终端1002启动翻译功能;若主叫终端1001和被叫终端1002都开通了实时翻译功能,则指示XR通话业务逻辑处理模块11在被叫终端1002摘机时,只向主叫终端1001执行翻译功能;否则指示XR通话业务逻辑处理模块11在被叫终端1002摘机时,只记录被叫终端1002摘机,不执行实时翻译功能。
基础媒体业务模块13,用于根据XR通话业务逻辑处理模块11发送的SIP请求,获取待翻译的音频数据。
其中,待翻译的音频数据包括主叫终端1001的音频数据和被叫终端1002的音频数据。
可以理解的是,主叫终端1001和被叫终端1002的音频数据,可以是主叫终端1001和被叫终端1002进行音频通话时的音频数据,也可以是主叫终端1001和被叫终端1002进行视频通话时的音频数据。
在一些实施例中,基础媒体业务模块13,还用于接受和转发音视频媒体流。
翻译模块14,用于将待翻译的音频数据翻译为目标语言类型的文本。
在一些实施例中,翻译模块14可以集成在XR通话业务平台1006上,作为XR通话业务平台1006内部的一个模块。
示例性的,翻译模块14和增强媒体模块15通过网络套接字websocket接口建立连接,完成双方收发流地址的交换,为之后的音视频流的发送和翻译后的文本的传输建立连接通道。
可选的,翻译模块14,也可以作为外部的模块,通过内部接口与XR通话业务平台1006连接,进行通信和数据传输。
可以理解的是,上述翻译模块14集成在XR通话业务平台1006上,作为XR通话业务平台1006内部的一个模块,仅为本申请实施例给出的一个示例,翻译模块14可以根据实际情况的不同,在不同的位置,本申请实施例对此不作限定。
在一些实施例中,媒体增强模块15包括字幕合成模块;其中,字幕合成模块基于上述文本,生成实时传输协议(real-time transport protocol,RTP)视频流。
在一些实施例中,媒体增强模块15还用于将该视频流转发给基础媒体业务模块13;最后由基础媒体业务模块13发送给目标终端。
其中,目标终端为具有显示RTP视频流权限的终端。
可以理解的是,XR通话业务平台,在原有的彩铃业务和放音业务的基础上,新增了字幕合成模块和翻译模块,以实现媒体流的合成与叠加,将原有框架和流程均进行了创新升级,用于实现实时翻译功能。
业务管理平台1007,用于业务数据的策略设置和下发。
在一些实施例中,业务管理平台1007具体用于将实时翻译功能的相关数据同步到XR通话业务平台1006;例如,将翻译语言和字幕显示大小等数据同步到XR通话业务平台1006。
在一些实施例中,上述业务分发平台1004、彩铃业务平台1005、XR通话业务平台1006和业务管理平台1007都可以是应用服务器(application server,AS)。
其中,上述应用服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。可选地,服务器还可以在云平台上实现,例如,云平台可以包括私有云、公有云、混合云、社区云(communitycloud)、分布式云、跨云(inter-cloud)以及多云(multi-cloud)等,或者它们的任意组合。
下面结合附图对本申请实施例提供的实时翻译方法进行介绍。
图3为本申请实施例提供的实时翻译方法的流程示意图。如图3所示,该实时翻译方法包括:
S101、获取待翻译的音频数据。
其中,待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据。
在一些实施例中,基础媒体业务模块根据XR通话业务平台的指示,获取主叫终端和被叫终端的音视频媒体流,并将其转发给XR通话业务逻辑处理模块。
在一些实施例中,上述方法还包括:接收第一配置操作。
其中,第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为主叫终端和/或被叫终端配置显示RTP视频流权限。
在一些实施例中,XR通话业务逻辑处理模块接收基础媒体业务模块的平台地址和端口、待翻译的音频数据的语言类型、以及具有显示RTP视频流权限的目标终端。
在一些实施例中,开通了实时翻译功能的用户,在其终端界面进行第一配置,可以选择具有显示RTP视频流权限的目标终端。
示例性的,当开通了实时翻译功能的用户,在其终端界面选择翻译内容仅向自己展示,则目标终端为开通了实时翻译功能的终端;当用户在其终端界面选择翻译内容向双方展示,则目标终端为主叫终端和被叫终端。
可以理解的是,区别于现有技术中若要实现实时翻译功能,需要借助OTT(overthe top,通过互联网向用户提供各种应用服务)类通信软件,但OTT类通信软件提供的相关服务极大地受限于OTT应用本身,例如双方都需要安装OTT应用,而OTT应用往往具备区域性,无法实现全球任意互通;本申请提供的方法在通话过程中为用户提供实时翻译功能,可以根据用户的第一配置操作,开启实时翻译功能,为用户提供便利。
S102、将待翻译的音频数据翻译为目标语言类型的文本。
在一些实施例中,上述步骤S102具体可实现为:基于第一配置操作,将待翻译的音频数据翻译为目标语言类型的文本。
在一些实施例中,翻译模块在接收到XR通话业务逻辑处理模块发送的音视频媒体流后,将其作为待翻译的音频数据,并识别其对应的文本结果;翻译模块将该文本结果翻译为目标语言类型的文本后,通过websocket接口将其转发给增强媒体模块。
在一些实施例中,翻译模块可以根据翻译为目标语言类型的文本,对主叫终端和被叫终端后续的通话内容进行预测,进而根据预测结果生成备选词库,从而降低后续实时翻译过程的计算量,提高翻译效率。
在一些实施例中,上述文本可以只包括目标语言,也可以同时双语展示待翻译的语言和目标语言。
可以理解的是,用户目前对实时翻译功能或语音转文本功能的需求比较强烈,当前运营商提供的多媒体音视频方案已不能满足用户日益增长的需求,特别是对于常常需要多语言通话的商业用户,实时翻译功能尤为重要。本申请提供的方法可以将待翻译的音频数据翻译为目标语言类型的文本,满足用户的翻译需求,提高用户的使用体验。
S103、基于文本,生成实时传输协议RTP视频流。
作为一种可能的实现方式,如图4所示,上述步骤S103具体可实现为:步骤S1031-S1032。
S1031、在主叫终端与被叫终端之间的通话方式为视频通话的情况下,获取目标终端通话界面的视频画面。
示例性的,当目标终端为主叫终端时,获取主叫终端通话界面的视频画面;当目标终端为主机终端和被叫终端时,分别获取主叫终端通话界面的视频画面和被叫终端通话界面的视频画面。
S1032、将文本叠加在视频画面上,生成RTP视频流。
示例性的,当目标终端为主叫终端时,将文本叠加在主叫终端通话界面的视频画面上,生成主叫终端的RTP视频流。
当目标终端为主叫终端和被叫终端时,分别将文本叠加在主叫终端通话界面的视频画面上和被叫终端通话界面的视频画面上,生成主叫终端的RTP视频流和被叫终端的RTP视频流。
可以理解的是,相比于相关技术中,直接将翻译后的文本转换为音频为用户播放,给用户带来了不好的通话体验的问题,本申请提供的方法,当通话双方的通话方式为视频通话的情况下,将文本叠加在视频画面上,进而生成RTP视频流,可以在不影响用户原有的视频通话的基础上,为用户展示翻译后的文本,提高了用户的通话体验,进而提高了用户的沟通效率。
另一种可能的实现方式,如图5所示,上述步骤S103具体可实现为:步骤S1033-S1034。
S1033、在主叫终端与被叫终端之间的通话方式为音频通话的情况下,获取目标终端通话界面的背景图片。
示例性的,当目标终端为主叫终端时,获取主叫终端通话界面的背景图片;当目标终端为主机终端和被叫终端时,分别获取主叫终端通话界面的背景图片和被叫终端通话界面的背景图片。
S1034、将文本叠加在背景图片上,生成RTP视频流。
示例性的,当目标终端为主叫终端时,将文本叠加在主叫终端通话界面的背景图片上,生成主叫终端的RTP视频流。
当目标终端为主叫终端和被叫终端时,分别将文本叠加在主叫终端通话界面的背景图片上和被叫终端通话界面的背景图片上,生成主叫终端的RTP视频流和被叫终端的RTP视频流。
可以理解的是,相比于相关技术中,直接将翻译后的文本转换为音频为用户播放,给用户带来了不好的通话体验的问题,本申请提供的方法,当通话双方的通话方式为音频通话的情况下,将文本叠加在通话界面的背景图片上,进而生成RTP视频流,可以在不影响用户原有的音频通话的基础上,为用户展示翻译后的文本,提高了用户的通话体验,进而提高了用户的沟通效率。
S104、将RTP视频流发送给目标终端。
其中,目标终端为具有显示RTP视频流权限的终端。
在一些实施例中,如图6所示,上述步骤S104具体可实现为:步骤S201-S202。
S201、基于第一配置操作,确定目标终端。
在一些实施例中,第一配置操作包括为主叫终端和/或被叫终端配置显示RTP视频流的权限,因此根据第一配置操作,即可确定目标终端。
S202、将RTP视频流发送给目标终端。
示例性的,当目标终端为主叫终端时,将主叫终端的RTP视频流发送给主叫终端。当目标终端为主叫终端和被叫终端时,将主叫终端的RTP视频流发送给主叫终端,同时将被叫终端的RTP视频流发送给被叫终端。
可以理解的是,本申请提供的方法,可以基于用户在通话界面的第一配置操作,来确定展示实时翻译功能的终端,同时还可以根据第一配置操作,确定翻译后的文本所展示的语言,通过为用户提供个性化的配置操作,提高了用户的通话体验,也为使用不同语言的客户的沟通带来了便利。
在一些实施例中,如图7所示,上述步骤S101之前,上述方法还包括:步骤S301-S302。
S301、接收业务转接网元发送的呼叫信令。
其中,呼叫信令包括网络标识和业务标识;网络标识用于指示主叫终端和被叫终端的网络状态;业务标识用于指示主叫终端和被叫终端所开通的业务。
在一些实施例中,当XR通话业务逻辑处理模块接收到业务转接网元发送的呼叫信令,且XR通话业务逻辑处理模块接收到被叫终端摘机的消息后,向管理控制模块获取下一步的动作指示。
其中,被叫终端摘机的消息可以是invite消息。
S302、在网络状态满足预设网络状态,且业务标识包括实时翻译功能标识的情况下,桥接音视频媒体。
其中,音视频媒体用于传输主叫终端和被叫终端之间的通话数据。
其中,预设网络状态可以是终端支持4G和/或5G网络且带宽不低于1Mbps。
可以理解的是,在不同的使用情况下,预设网络状态可以不同,上述给出的预设网络状态仅为本申请实施例给出的一个示例,在具体的实时翻译功能的实现过程中,本申请实施例对预设网络状态的具体内容不作限定。
在一些实施例中,管理模块在判断网络状态满足预设网络状态,且业务标识包括实时翻译功能标识的情况下,指示XR通话业务逻辑处理模块执行实时翻译功能。
可以理解的是,本申请提供的方法,在用户开通了实时翻译功能时,业务转接网元会将所有的呼叫信令发送给XR通话业务平台,以便于XR通话业务平台根据呼叫信令,确定通话双方的网络状态。并且在网络状态满足预设网络状态且业务标识包括实时翻译功能标识的情况下,指示XR通话业务逻辑处理模块执行实时翻译功能。可以保障实时翻译功能的顺利执行,避免网络状态较差的情况下,对实时翻译功能的影响,给用户带来不好的使用体验。
可以理解的是,传统的计算机化辅助翻译技术和人工智能语音技术的融合是未来的发展趋势,4G和5G网络为本申请提供的实时翻译方法中计算机化辅助翻译技术和人工智能语音技术的融合提供了网络保障。
在一些实施例中,如图8所示,上述方法还包括:步骤S401-S402。
S401、检测待翻译的音频数据的音质,得到音质检测结果。
在一些实施例中,XR通话业务逻辑处理模块在接收到基础媒体业务模块发送的音视频媒体流后,会将该音视频媒体流作为待翻译的音频数据,并检测待翻译的音频数据的音质,得到音质检测结果。
S402、在音质检测结果不满足预设音质标准的情况下,向主叫终端及被叫终端发送提示信息。
在一些实施例中,若音质检测结果不满足预设音质标准,则XR通话业务逻辑处理模块会通过XR通话业务平台,向主叫终端及被叫终端发送提示信息。
其中,提示信息用于提示主叫终端和被叫终端重新发起通话。
在一些实施例中,预设音质标准可以是:信噪比不低于70dB。
可选的,提示信息可以是语音信息,也可以是叠加了提示文字的RTP视频流信息。
在一些实施例中,上述叠加了提示文字的RTP视频流信息的生成方式可参考上述步骤S101-S104,本申请实施例在此不作赘述。
在一些实施例中,若音质检测结果满足预设音质标准,XR通话业务逻辑处理模块将待翻译的音频数据发送给翻译模块。
可以理解的是,当用户的终端信号不好,或者网络状态突然较差时,待翻译的音频数据的音质可能较差,此时若将音质较差的待翻译的音频数据翻译为文本,可能会出现翻译结果不准确的问题,影响用户沟通;因此,本申请提供的方法在检测到待翻译的音频数据的音质不满足预设音质标准的情况下,向通话双方发送提示信息,提示双方重新进行通话,可以使得翻译后的文本更加准确,进而提高用户的使用体验,提高用户的沟通效率。
可以理解的是,区别于现有技术中,将通话双方的语音翻译为音频并播放,用户可能会听不清楚音频内容,体验感较差的问题,本申请提供的方法通过获取通话双方的待翻译的音频数据,并根据目标语言类型,将待翻译的音频数据翻译为文本,并将文本以视频流的形式发送给用户,可以在不影响用户原本的音频或视频通话的基础上,在通话界面为用户显示实时翻译的文本,使得用户在保持正常通话的同时,实时查看双方的通话内容,提高了用户的通话体验。
以上为本申请提供的实时翻译方法的实施例,为便于理解,下面以示例的形式,对上述实时翻译方法作进一步说明。
示例1、假设主叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为音频通话,目标终端为主叫终端,为主叫终端提供实时翻译功能。
示例性的,如图9所示,上述示例1可以实现为以下步骤:
a1、在主叫终端音频呼叫被叫终端的过程中,核心网查询到主叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
a2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行音频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行音频通话的语音流都经过XR通话业务平台。
a3、接收主叫终端和被叫终端通话过程中,主叫终端的第一配置操作。
a4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行音频通话的语音流发送给翻译模块。
其中,在本示例及以下示例中,翻译模块不在XR通话业务平台中,而是通过内部接口与XR通话业务平台连接的连接方式,仅为本申请所提供的实时翻译方法给出的一个示例,根据实际需求的不同,也可以将翻译模块放在XR通话业务平台的内部,本申请对此不作限定。
a5、翻译模块识别语音流对应的文本信息,并将其翻译为目标类型语言的文本。
a6、翻译模块将翻译后的文本发送给媒体增强模块。
a7、媒体增强模块将文本叠加在主叫终端通话界面的背景图片上,生成主叫终端的RTP视频流,并发送给主叫终端。
a8、主叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图10所示,为上述步骤a1-a8在实现的过程中,主叫终端和被叫终端建立语音通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤a11-a111。
可以理解的是,主叫终端和被叫终端建立语音通话后,主叫终端和被叫终端通话过程中的RTP语音流经过XR通话业务平台。
a11、主叫终端侧按键点击第一配置,启动实时翻译功能。
a12、XR通话业务平台查询第一配置,获取主叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是主叫终端,且主叫终端可以为中文,被叫终端可以为英文。
a13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
a14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
a15、XR通话业务平台向主叫终端发送re-invite更新媒体信息;其中,re-invite用于将原本的音频媒体信息更新为音视频媒体信息。
a16、主叫终端向XR通话业务平台发送200reinvite信息。
a17、XR通话业务平台向主叫终端回复ACK信息,完成由音频变为音视频的媒体协商交互和确认。
a18、XR通话业务平台通知翻译模块开启实时翻译功能。
a19、主叫终端和被叫终端在通话过程中的RTP语音流经过XR通话业务平台。
a110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
a111、XR通话业务平台将文本叠加在主叫终端通话界面的通话背景上,生成RTP视频流并发送给主叫终端。
可以理解的是,此时主叫终端可以在通话界面实时观看翻译后的文本内容。
可以理解的是,相比于相关技术中,直接将翻译后的文本转换为音频为用户播放,给用户带来了不好的通话体验的问题,本示例提供的方法,当通话双方的通话方式为音频通话的情况下,将文本叠加在通话界面的背景图片上,进而生成RTP视频流,可以在不影响用户原有的音频通话的基础上,为用户展示翻译后的文本,提高了用户的通话体验,进而提高了用户的沟通效率。
示例2、假设主叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为视频通话,目标终端为主叫终端,为主叫终端提供实时翻译功能。
示例性的,如图11所示,上述示例2可以实现为以下步骤:
b1、在主叫终端视频呼叫被叫终端的过程中,核心网查询到主叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
b2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行视频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行视频通话的视频流都经过XR通话业务平台。
b3、接收主叫终端和被叫终端通话过程中,主叫终端的第一配置操作。
b4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行视频通话的音视频流发送给翻译模块。
b5、翻译模块识别音视频流对应的文本信息,并将其翻译为目标类型语言的文本。
b6、翻译模块将翻译后的文本发送给媒体增强模块。
b7、媒体增强模块将文本叠加在主叫终端通话界面的视频画面上,生成主叫终端的RTP视频流,并发送给主叫终端。
b8、主叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图12所示,为上述步骤b1-b8在实现的过程中,主叫终端和被叫终端建立视频通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤b11-b111。
可以理解的是,主叫终端和被叫终端建立视频通话后,主叫终端和被叫终端通话过程中的RTP视频流经过XR通话业务平台。
b11、主叫终端侧按键点击第一配置,启动实时翻译功能。
b12、XR通话业务平台查询第一配置,获取主叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是主叫终端,且主叫终端可以为中文,被叫终端可以为英文。
b13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
b14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
b15、XR通话业务平台向主叫终端发送re-invite来更新媒体信息。
b16、主叫终端向XR通话业务平台发送200reinvite信息。
b17、XR通话业务平台向主叫终端回复ACK信息,完成媒体协商交互和确认。
b18、XR通话业务平台通知翻译模块开启实时翻译功能。
b19、主叫终端和被叫终端在通话过程中的RTP视频流经过XR通话业务平台。
b110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
b111、XR通话业务平台将文本叠加在主叫终端通话界面的视频画面上,生成带文本的RTP视频流并发送给主叫终端。
可以理解的是,此时主叫终端可以在通话界面实时观看翻译后的文本内容。
可以理解的是,相比于相关技术中,直接将翻译后的文本转换为音频为用户播放,给用户带来了不好的通话体验的问题,本申请提供的方法,当通话双方的通话方式为视频通话的情况下,将文本叠加在视频画面上,进而生成RTP视频流,可以在不影响用户原有的视频通话的基础上,为用户展示翻译后的文本,提高了用户的通话体验,进而提高了用户的沟通效率。
示例3、假设被叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为音频通话,目标终端为被叫终端,为被叫终端提供实时翻译功能。
示例性的,如图13所示,上述示例3可以实现为以下步骤:
c1、在主叫终端音频呼叫被叫终端的过程中,核心网查询到被叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
c2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行音频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行音频通话的语音流都经过XR通话业务平台。
c3、接收主叫终端和被叫终端通话过程中,被叫终端的第一配置操作。
c4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行音频通话的语音流发送给翻译模块。
c5、翻译模块识别语音流对应的文本信息,并将其翻译为目标类型语言的文本。
c6、翻译模块将翻译后的文本发送给媒体增强模块。
c7、媒体增强模块将文本叠加在被叫终端通话界面的背景图片上,生成被叫终端的RTP视频流,并发送给被叫终端。
c8、被叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图14所示,为上述步骤c1-c8在实现的过程中,主叫终端和被叫终端建立语音通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤c11-c111。
可以理解的是,主叫终端和被叫终端建立语音通话后,主叫终端和被叫终端通话过程中的RTP语音流经过XR通话业务平台。
c11、被叫终端侧按键点击第一配置,启动实时翻译功能。
c12、XR通话业务平台查询第一配置,获取被叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是被叫终端,且被叫终端可以为中文,主叫终端可以为英文。
c13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
c14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
c15、XR通话业务平台向被叫终端发送re-invite来更新媒体信息;其中,re-invite用于将原本的音频媒体信息更新为音视频媒体信息。
c16、被叫终端向XR通话业务平台发送200reinvite信息。
c17、XR通话业务平台向被叫终端回复ACK信息,完成由音频变为音视频的媒体协商交互和确认。
c18、XR通话业务平台通知翻译模块开启实时翻译功能。
c19、主叫终端和被叫终端在通话过程中的RTP语音流经过XR通话业务平台。
c110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
c111、XR通话业务平台将文本叠加在被叫终端通话界面的通话背景上,生成RTP视频流并发送给被叫终端。
可以理解的是,此时被叫终端可以在通话界面实时观看翻译后的文本内容。
示例4、假设被叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为视频通话,目标终端为被叫终端,为被叫终端提供实时翻译功能。
示例性的,如图15所示,上述示例4可以实现为以下步骤:
d1、在主叫终端视频呼叫被叫终端的过程中,核心网查询到被叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
d2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行视频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行视频通话的视频流都经过XR通话业务平台。
d3、接收主叫终端和被叫终端通话过程中,被叫终端的第一配置操作。
d4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行视频通话的音视频流发送给翻译模块。
d5、翻译模块识别音视频流对应的文本信息,并将其翻译为目标类型语言的文本。
d6、翻译模块将翻译后的文本发送给媒体增强模块。
d7、媒体增强模块将文本叠加在被叫终端通话界面的视频画面上,生成被叫终端的RTP视频流,并发送给被叫终端。
d8、被叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图16所示,为上述步骤d1-d8在实现的过程中,主叫终端和被叫终端建立视频通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤d11-d111。
可以理解的是,主叫终端和被叫终端建立视频通话后,主叫终端和被叫终端通话过程中的RTP视频流经过XR通话业务平台。
d11、被叫终端侧按键点击第一配置,启动实时翻译功能。
d12、XR通话业务平台查询第一配置,获取被叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是被叫终端,且被叫终端可以为中文,主叫终端可以为英文。
d13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
d14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
d15、XR通话业务平台向被叫终端发送re-invite来更新媒体信息。
d16、被叫终端向XR通话业务平台发送200reinvite信息。
d17、XR通话业务平台向被叫终端回复ACK信息,完成媒体协商交互和确认。
d18、XR通话业务平台通知翻译模块开启实时翻译功能。
d19、主叫终端和被叫终端在通话过程中的RTP视频流经过XR通话业务平台。
d110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
d111、XR通话业务平台将文本叠加在被叫终端通话界面的视频画面上,生成带文本的RTP视频流并发送给被叫终端。
可以理解的是,此时被叫终端可以在通话界面实时观看翻译后的文本内容。
示例5、假设主叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为音频通话,目标终端为主叫终端和被叫终端,为主叫终端和被叫终端提供实时翻译功能。
示例性的,如图17所示,上述示例5可以实现为以下步骤:
e1、在主叫终端音频呼叫被叫终端的过程中,核心网查询到主叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
e2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行音频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行音频通话的语音流都经过XR通话业务平台。
e3、接收主叫终端和被叫终端通话过程中,主叫终端的第一配置操作。
e4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行音频通话的语音流发送给翻译模块。
e5、翻译模块识别语音流对应的文本信息,并将其翻译为目标类型语言的文本。
e6、翻译模块将翻译后的文本发送给媒体增强模块。
e7、媒体增强模块分别将文本叠加在主叫终端通话界面的背景图片和被叫终端通话界面的背景图片上,生成主叫终端的RTP视频流和被叫终端的RTP视频流,并分别发送给主叫终端和被叫终端。
e8、主叫终端和被叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图18所示,为上述步骤e1-e8在实现的过程中,主叫终端和被叫终端建立语音通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤e11-e111。
可以理解的是,主叫终端和被叫终端建立语音通话后,主叫终端和被叫终端通话过程中的RTP语音流经过XR通话业务平台。
e11、主叫终端侧按键点击第一配置,启动实时翻译功能。
e12、XR通话业务平台查询第一配置,获取主叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是主叫终端和被叫终端,且主叫终端可以为中文,被叫终端可以为英文。
e13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
e14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
e15、XR通话业务平台向主叫终端发送re-invite来更新媒体信息;其中,re-invite用于将原本的音频媒体信息更新为音视频媒体信息。
e16、主叫终端向XR通话业务平台发送200reinvite信息。
e17、XR通话业务平台向主叫终端回复ACK信息,完成由音频变为音视频的媒体协商交互和确认。
e18、XR通话业务平台通知翻译模块开启实时翻译功能。
e19、主叫终端和被叫终端在通话过程中的RTP语音流经过XR通话业务平台。
e110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
e111、XR通话业务平台将文本叠加在主叫终端通话界面的通话背景上,生成RTP视频流并发送给主叫终端。
e112、XR通话业务平台将文本叠加在被叫终端通话界面的通话背景上,生成RTP视频流并发送给被叫终端。
可以理解的是,此时主叫终端和被叫终端可以在通话界面实时观看翻译后的文本内容。
示例6、假设被叫终端开通了实时翻译功能,主叫终端与被叫终端的通话方式为视频通话,目标终端为主叫终端和被叫终端,为主叫终端和被叫终端提供实时翻译功能。
示例性的,如图19所示,上述示例5可以实现为以下步骤:
f1、在主叫终端视频呼叫被叫终端的过程中,核心网查询到被叫终端开通了实时翻译功能,将呼叫信令发送到XR通话业务平台。
f2、XR通话业务平台接收呼叫信令,在通话双方网络状态满足预设网络状态且任意一方开通了实时翻译功能的情况下,在主叫终端和被叫终端进行音频通话的过程中桥接音视频媒体。
可以理解的是,此时主叫终端和被叫终端进行视频通话的视频流都经过XR通话业务平台。
f3、接收主叫终端和被叫终端通话过程中,被叫终端的第一配置操作。
f4、XR通话业务平台根据第一配置操作,触发实时翻译功能,并将主叫终端和被叫终端进行音频通话的语音流发送给翻译模块。
f5、翻译模块识别语音流对应的文本信息,并将其翻译为目标类型语言的文本。
f6、翻译模块将翻译后的文本发送给媒体增强模块。
f7、媒体增强模块分别将文本叠加在主叫终端通话界面的视频画面和被叫终端通话界面的视频画面上,生成主叫终端的RTP视频流和被叫终端的RTP视频流,并分别发送给主叫终端和被叫终端。
f8、主叫终端和被叫终端接收到RTP视频流后,可以在通话界面看到翻译后的文本。
在一些实施例中,如图20所示,为上述步骤f1-f8在实现的过程中,主叫终端和被叫终端建立视频通话后,实时翻译系统内各个模块和终端之间的交互,具体可实现为下述步骤f11-f112。
可以理解的是,主叫终端和被叫终端建立语音通话后,主叫终端和被叫终端通话过程中的RTP语音流经过XR通话业务平台。
f11、被叫终端侧按键点击第一配置,启动实时翻译功能。
f12、XR通话业务平台查询第一配置,获取主叫终端设置的通话双方所使用的语言和目标终端。
示例性的,目标终端可以是主叫终端和被叫终端,且主叫终端可以为中文,被叫终端可以为英文。
f13、XR通话业务平台向翻译模块发起上行流翻译申请;其中,申请中携带有通话双方所使用的语言。
f14、XR通话业务平台向翻译模块发起下行流翻译申请;其中,申请中携带有通话双方所使用的语言。
f15、XR通话业务平台向被叫终端发送re-invite来更新媒体信息。
f16、被叫终端向XR通话业务平台发送200reinvite信息。
f17、XR通话业务平台向被叫终端回复ACK信息,完成媒体协商交互和确认。
f18、XR通话业务平台通知翻译模块开启实时翻译功能。
f19、主叫终端和被叫终端在通话过程中的RTP视频流经过XR通话业务平台。
f110、翻译模块将待翻译的音频数据翻译为目标语言类型的文本,并发送给XR通话业务平台。
f111、XR通话业务平台将文本叠加在主叫终端通话界面的视频画面上,生成RTP视频流并发送给主叫终端。
f112、XR通话业务平台将文本叠加在被叫终端通话界面的视频画面上,生成RTP视频流并发送给被叫终端。
可以理解的是,此时主叫终端和被叫终端可以在通话界面实时观看翻译后的文本内容。
可以理解的是,本申请提供的方法,在双方进行语音通话时,将文本叠加在通话界面的背景图片上,并以RTP视频流的方式发送给主叫终端和/或被叫终端,实现实时翻译的功能;在双方进行视频通话时,将文本叠加在通话界面的视频画面上,并以RTP视频流的方式发送给主叫终端和/或被叫终,实现实时翻译的功能;上述两种形式均可以在不影响通话双方原有的音频/视频通话的基础上,为语言不通的用户提供便利,方便用户进行有效交流。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在示例性的实施例中,本申请实施例还提供了一种实时翻译装置,图21为本申请实施例提供的实时翻译装置的组成示意图。如图21所示,该实时翻译装置200包括:获取模块201、翻译模块202、生成模块203和发送模块204、接收模块205、桥接模块206和检测模块207。
获取模块201,用于获取待翻译的音频数据;待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;翻译模块202,用于将待翻译的音频数据翻译为目标语言类型的文本;生成模块203,用于基于文本,生成实时传输协议RTP视频流;发送模块204,用于将RTP视频流发送给目标终端;目标终端为具有显示RTP视频流权限的终端。
在一种可能的实现方式中,接收模块205,用于接收第一配置操作;第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为主叫终端和/或被叫终端配置显示RTP视频流权限;翻译模块202,具体用于基于第一配置操作,将待翻译的音频数据翻译为目标语言类型的文本;发送模块204,具体用于基于第一配置操作,确定目标终端;将RTP视频流发送给目标终端。
另一种可能的实现方式中,生成模块203,具体用于在主叫终端与被叫终端之间的通话方式为视频通话的情况下,获取目标终端通话界面的视频画面;将文本叠加在视频画面上,生成RTP视频流。
又一种可能的实现方式中,生成模块203,具体用于在主叫终端与被叫终端之间的通话方式为音频通话的情况下,获取目标终端通话界面的背景图片;将文本叠加在背景图片上,生成RTP视频流。
又一种可能的实现方式中,接收模块205,还用于接收业务转接网元发送的呼叫信令;呼叫信令包括网络标识和业务标识;网络标识用于指示主叫终端和被叫终端的网络状态;业务标识用于指示主叫终端和被叫终端所开通的业务;桥接模块206,用于在网络状态满足预设网络状态,且业务标识包括实时翻译功能标识的情况下,桥接音视频媒体;音视频媒体用于传输主叫终端和被叫终端之间的通话数据。
又一种可能的实现方式中,检测模块207,用于检测待翻译的音频数据的音质,得到音质检测结果;发送模块204,还用于在音质检测结果不满足预设音质标准的情况下,向主叫终端及被叫终端发送提示信息;提示信息用于提示主叫终端和被叫终端重新发起通话。
可以理解的是,区别于现有技术中,将通话双方的语音翻译为音频并播放,用户可能会听不清楚音频内容,体验感较差的问题,本申请提供的方法通过获取通话双方的待翻译的音频数据,并根据目标语言类型,将待翻译的音频数据翻译为文本,并将文本以视频流的形式发送给用户,可以在不影响用户原本的音频或视频通话的基础上,在通话界面为用户显示实时翻译的文本,使得用户在保持正常通话的同时,实时查看双方的通话内容,提高了用户的通话体验。
在示例性的实施例中,本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关方法步骤,以实现上述实施例中的实时翻译方法。
在示例性的实施例中,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令;当所述计算机程序指令被电子设备执行时,使得电子设备实现如前述实施例中所述的方法。计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机执行指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机执行指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机执行指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(Comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种实时翻译方法,其特征在于,所述方法包括:
获取待翻译的音频数据;所述待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;
将所述待翻译的音频数据翻译为目标语言类型的文本;
基于所述文本,生成实时传输协议RTP视频流;
将所述RTP视频流发送给目标终端;所述目标终端为具有显示RTP视频流权限的终端。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收第一配置操作;所述第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为所述主叫终端和/或所述被叫终端配置显示RTP视频流权限;
所述将所述待翻译的音频数据翻译为目标语言类型的文本,包括:
基于所述第一配置操作,将所述待翻译的音频数据翻译为目标语言类型的所述文本;
所述将所述RTP视频流发送给目标终端,包括:
基于所述第一配置操作,确定所述目标终端;
将所述RTP视频流发送给所述目标终端。
3.根据权利要求1所述的方法,其特征在于,所述基于所述文本,生成实时传输协议RTP视频流,包括:
在所述主叫终端与被叫终端之间的通话方式为视频通话的情况下,获取所述目标终端通话界面的视频画面;
将所述文本叠加在所述视频画面上,生成所述RTP视频流。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文本,生成实时传输协议RTP视频流,包括:
在所述主叫终端与被叫终端之间的通话方式为音频通话的情况下,获取所述目标终端通话界面的背景图片;
将所述文本叠加在所述背景图片上,生成所述RTP视频流。
5.根据权利要求1所述的方法,其特征在于,所述获取待翻译的音频数据之前,所述方法还包括:
接收业务转接网元发送的呼叫信令;所述呼叫信令包括网络标识和业务标识;所述网络标识用于指示所述主叫终端和所述被叫终端的网络状态;所述业务标识用于指示所述主叫终端和所述被叫终端所开通的业务;
在所述网络状态满足预设网络状态,且所述业务标识包括实时翻译功能标识的情况下,桥接音视频媒体;所述音视频媒体用于传输所述主叫终端和所述被叫终端之间的通话数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测待翻译的音频数据的音质,得到音质检测结果;
在所述音质检测结果不满足预设音质标准的情况下,向所述主叫终端及所述被叫终端发送提示信息;所述提示信息用于提示所述主叫终端和所述被叫终端重新发起通话。
7.一种实时翻译装置,其特征在于,所述装置包括:
获取模块,用于获取待翻译的音频数据;所述待翻译的音频数据包括主叫终端的音频数据和被叫终端的音频数据;
翻译模块,用于将所述待翻译的音频数据翻译为目标语言类型的文本;
生成模块,用于基于所述文本,生成实时传输协议RTP视频流;
发送模块,用于将所述RTP视频流发送给目标终端;所述目标终端为具有显示RTP视频流权限的终端。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:接收模块;
所述接收模块,用于接收第一配置操作;所述第一配置操作用于配置待翻译的音频数据的语言类型、要翻译的目标语言类型以及为所述主叫终端和/或所述被叫终端配置显示RTP视频流权限;
所述翻译模块,具体用于基于所述第一配置操作,将所述待翻译的音频数据翻译为目标语言类型的所述文本;
所述发送模块,具体用于基于所述第一配置操作,确定所述目标终端;将所述RTP视频流发送给所述目标终端。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
所述存储器存储有所述处理器可执行的指令;
所述处理器被配置为执行所述指令时,使得所述电子设备实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有软件指令,当所述指令在电子设备中被执行时,使得所述电子设备实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176267.1A CN117336282A (zh) | 2023-09-12 | 2023-09-12 | 一种实时翻译方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176267.1A CN117336282A (zh) | 2023-09-12 | 2023-09-12 | 一种实时翻译方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117336282A true CN117336282A (zh) | 2024-01-02 |
Family
ID=89274620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176267.1A Pending CN117336282A (zh) | 2023-09-12 | 2023-09-12 | 一种实时翻译方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117336282A (zh) |
-
2023
- 2023-09-12 CN CN202311176267.1A patent/CN117336282A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11431811B2 (en) | Notifications of incoming messages | |
EP2012516B1 (en) | Customised playback telephony services | |
US8059645B2 (en) | Method and apparatus for providing E911 services via network announcements | |
EP1968293A1 (en) | Speech response method and speech server | |
CN104601833B (zh) | 融合ims及智能终端技术的智能导引服务系统及方法 | |
US8610755B2 (en) | Methods and apparatuses for multi-lingual support for hearing impaired communication | |
US11032420B2 (en) | Telephone call management system | |
EP4262180A1 (en) | Call processing method, call processing apparatus and related device | |
CN112040073B (zh) | 一种智能查号服务器、查号系统及查号方法 | |
CN1984373B (zh) | 通信系统中提供多媒体内容的系统和方法 | |
US9072074B1 (en) | Method and apparatus for determining the location of a terminal adaptor | |
CN108076451A (zh) | 一种通话类型提示方法及设备 | |
US7822014B2 (en) | Voice communication system and a server apparatus | |
CN114285945B (zh) | 一种视频交互方法、装置和存储介质 | |
CN116233080A (zh) | 数字人视频终端适配的方法、装置、电子设备及存储介质 | |
CN117336282A (zh) | 一种实时翻译方法、装置、电子设备及存储介质 | |
US8315359B2 (en) | Method and system for enabling emergency calling from nomadic VoIP extension telephones | |
US8976227B2 (en) | System and method for initiating video phone calls | |
US9042528B2 (en) | Data communication | |
EP2456182A1 (en) | Method, system and parlay x gateway for implementing advanced call | |
CN112261490B (zh) | 视频分享方法及装置、应用功能实体、拨号软件系统 | |
US20120069775A1 (en) | Graphical User-Interface for Terminals with Visual Call Progress Indicator | |
US20240146560A1 (en) | Participant Audio Stream Modification Within A Conference | |
US20030048883A1 (en) | Integrated pstn-ip answering service | |
CN116634062A (zh) | 彩铃播放的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |