CN113726952A - 通话过程中的同声传译方法及装置、电子设备、存储介质 - Google Patents

通话过程中的同声传译方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113726952A
CN113726952A CN202110927479.3A CN202110927479A CN113726952A CN 113726952 A CN113726952 A CN 113726952A CN 202110927479 A CN202110927479 A CN 202110927479A CN 113726952 A CN113726952 A CN 113726952A
Authority
CN
China
Prior art keywords
terminal
translation
original sound
call
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110927479.3A
Other languages
English (en)
Other versions
CN113726952B (zh
Inventor
张浩波
李孝玲
李黎晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202110927479.3A priority Critical patent/CN113726952B/zh
Publication of CN113726952A publication Critical patent/CN113726952A/zh
Application granted granted Critical
Publication of CN113726952B publication Critical patent/CN113726952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions

Abstract

本公开是关于一种通话过程中的同声传译方法及装置、电子设备、存储介质。其中,该方法,包括:在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路;在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路;基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。该方法在终端的同声传译功能被开启后,建立了额外的译音通话链路以用于对用户的原声进行翻译,并将翻译得到的译音发送至对端通话终端,同时切断了原声通话链路,避免了用户原声与译音混杂的问题。

Description

通话过程中的同声传译方法及装置、电子设备、存储介质
技术领域
本公开涉及通讯领域,尤其涉及一种通话过程中的同声传译方法及装置、电子设备、存储介质。
背景技术
随着跨国贸易、交流的不断增加,导致使用不同语种的用户之间需要频繁沟通。然而,对于大多数用户而言,并不具备跨语种交流的能力,在这样的大环境下,通话过程中的即时翻译功能变得尤为重要。
在相关技术中,通常采用在两通话终端之间的服务器处部署翻译器的方式,使得通话双方的原声均经由服务器翻译后,再传输至对端用户处,进而实现跨语种通话过程中的同声传译。该方式尽管能够避免通话双方由于语种不同而导致的无法沟通的问题,但极易出现翻译后得到的译音与用户原声混杂,而导致对端用户难以听清通话内容的问题。
发明内容
本公开提供一种通话过程中的同声传译方法及装置、电子设备、存储介质,能够在跨语种通话的过程中,避免用户原声与翻译得到的译音混杂的问题。
根据本公开的第一方面,提供一种通话过程中的同声传译方法,应用于本端通话终端,包括:
在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路;
在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路;
基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
根据本公开的第二方面,提供一种通话过程中的同声传译装置,应用于通话终端,包括:
第一建立单元,在所述通话终端发出或接收到通话事件建立请求的情况下,在所述通话终端侧建立原声通话链路;
第二建立单元,在检测到所述通话终端的同声传译功能被开启的情况下,在所述通话终端侧建立译音通话链路,并切断所述原声通话链路;
翻译单元,基于所述译音通话链路对所述通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
在本公开的技术方案中,本端通话终端在接收或发出通话事件建立请求时,会在本端通话终端侧建立原声通话链路,以便本端用户与通话事件的对端用户进行原声通话;而在本端通话终端的同声传译功能被开启的情况下,则会进一步在该本端通话终端侧建立译音通话链路,并切断上述原声通话链路,以通过建立的译音通话链路对本端用户的原声进行翻译后,传输至对端通话终端。
应当理解的是,在本端通话终端与对端通话终端之间建立通话事件之后,本端用户的原声是通过建立的本端通话终端侧的原声通话链路进行传输。而本公开在确定本端通话终端开启同声传译功能之后,会在本端通话终端侧额外建立译音通话链路,并切断原先建立的原声通话链路。一方面,使得本公开可以通过建立的译音通话链路对本端用户的原声进行翻译后,传输至对端通话终端,保证通话双方的顺利沟通;另一方面,由于切断了原声通话链路,避免了用户原声被传输至对端通话终端,而导致本端用户的原声和翻译得到的译音混杂的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开一示例性实施例示出的一种通话过程中的同声传译方法的流程图;
图2是本公开一示例性实施例示出的另一种通话过程中的同声传译方法的流程图;
图3是本公开一示例性实施例示出的一种通话链路示意图之一;
图4是本公开一示例性实施例示出的一种通话链路示意图之二;
图5是本公开一示例性实施例示出的一种基于译音通话链路的原声翻译方法的流程图;
图6是本公开一示例性实施例示出的一种通话链路示意图之三;
图7是本公开一示例性实施例示出的一种通话链路示意图之四;
图8是本公开一示例性实施例示出的一种通话链路示意图之五;
图9是本公开一示例性实施例示出的一种通话链路示意图之六;
图10是本公开一示例性实施例示出的一种通话过程中的同声传译装置的框图;
图11是本公开一示例性实施例示出的另一种通话过程中的同声传译装置的框图;
图12是本公开一示例性实施例中一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在通话过程中的同声传译时”或“当通话过程中的同声传译时”或“响应于确定”。
在跨语种的通话过程中,若通话双方均不具备跨语种交流的能力,则需要在通话双方之间进行同声传译,以保证通话双方之间的顺利沟通。
在相关技术中,通常会在两通话终端之间的服务器处部署翻译器,以在对通话双方的原音进行翻译后,再将翻译得到的译音传输至对端用户,进而实现跨语种通话过程中的同声传译。
然而,尽管上述方法能够避免通话双方由于语种不同而无法沟通的问题,但是,在实际应用中,服务器一方面会基于通话双方之间的通话链路将用户原声发送至对端用户处,另一方面会基于本地部署的翻译器将用户原声翻译为译音后发送至对端用户处。不难看出,通过该方式进行同声传译,极易出现用户原声与翻译得到的译音混杂的问题,进而影响通话双方之间的顺畅沟通。
为此,本公开提出了一种通话过程中的同声传译方法,以避免相关技术在跨语种通话过程中,用户原声与翻译得到的译音混杂的问题。
图1为本公开一示例性实施例示出的一种通话过程中的同声传译方法,该方法应用于本端通话终端,如图1所示,该方法可以包括以下步骤:
步骤102,在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路。
由上述内容可知,相关技术中之所以存在用户原声与译音混杂的问题,是由于一方面用户原声会通过通话双方之间的通话链路被传输至对端用户,另一方面服务器在通过部署的翻译器将通话原声翻译为译音之后,也会将得到的译音传输至对端用户。
有鉴于此,本公开不再由服务器对用户原声进行通话翻译,而是通过通话终端提供的同声传译功能对用户原声进行翻译。在实际操作中,在本端通话终端与对端通话终端之间建立通话事件之后,可以在该本端通话终端侧建立原声通话链路,以用于传输本端用户的原声。而当本端用户在本端通话终端中开启同声传译功能之后,则说明用户存在跨语种通话的需求,因此,可以进一步在本端通话终端侧建立译音通话链路,以通过本地通话终端的同声传译功能对本端用户的原声进行翻译后,再将译音传输至对端通话终端处。除此之外,在开启同声传译功能之后,本端通话终端还会切断上述原声通话链路,以避免本端用户的原声被传输至对端通话终端处。显然,由于本公开切断了原声通话链路,使得本端用户的原声无法传输至对端通话终端处,而本端用户的原声的译音则可以被传输对端通话终端。可见,本公开在保证跨语种通话顺利进行的同时,避免了用户原声与翻译得到的译音混杂的问题。
步骤104,在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路。
在本公开中,在对用户原声进行翻译的过程中,需要优先确定所要翻译的用户原声的语种,即本公开中的原声语种,以根据该原声语种对用户原声进行翻译。在实际应用中,本地通话终端中可以部署有语音识别模块,以对用户的原声进行语种识别,并基于识别得到的原声语种对用户原声进行翻译。当然,除了通过语音识别模块实时识别用户的原声以外,还可以通过其他方式获取本端通话终端侧的用户的原声语种。例如,本地通话终端的使用者通常是固定的,因此,可以在本地通话终端中预设原声语种,以根据该预设的原声语种对用户原声进行翻译;再例如,本地通话终端可以确定出自身的归属地信息,以根据该归属地信息确定出用户的原声语种。具体如何确定出用户的原声语种可由本领域技术人员根据实际情况设定,本公开对此不作限制。
与本端通话终端侧用户使用的原声语种相对应的,本公开还需确定出对端通话终端侧用户使用的语种,以作为翻译的目标语种。在实际应用中,可以采用与“确定原声语种”相类似的方法,确定出目标语种。例如,可以在本端通话终端中预设目标语种,以将本端通话终端侧用户的原声翻译为该目标语种;再例如,可以根据对端通话终端的归属地信息确定出对端用户使用的目标语种,以基于译音通话链路将本端用户的原声翻译为确定出的目标语种;又例如,本端通话终端可以对对端通话终端采集到的原声进行语种识别,以得到对端用户使用的目标语种,并基于译音通话链路将本端用户的原声翻译为识别得到的目标语种。当然,与原声语种相类似的,上述确定目标语种的过程也是示意性的,具体采用何种方式确定目标语种,可由本领域技术人员根据实际情况确定,本公开对此不作限制。
在实际构建语种识别模型的过程中,可以优先获取一定数量的基于不同语种的长语音样本数据,并对每一种语种的长语音样本数据进行特征提取,以作为相应语种的特征信息。在此基础上,即可将各个语种对应的特征信息作为预置模型的入参,将各个语种的类型作为预置模型输出结果,以进行模型训练,进而得到语种识别模型。举例而言,可以将每一语种的长语音样本数据对应的MFCC特征(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)作为相应语种的特征信息;在此基础上,可以将从中文的长语音样本数据中提取的MFCC特征,作为预置模型的入参,将中文这一语种类型作为预置模型的输出结果,进行模型训练。进一步的,与基于中文的长语音样本数据训练模型相类似的,依次基于其他语种的长语音样本数据对模型进行训练,最终得到语种识别模型。
在基于上述长语音样本数据得到语种识别模型之后,还可以进一步获取各个语种的短语音样本数据,并基于短语音样本数据对得到的语种识别模型进行微调,该过程相当于将基于长语音样本数据得到的语种识别模型作为初始语种识别模型。在实际应用中,可以进一步对各个语种的短语音样本数据进行特征提取,并在固定初始语种识别模型的参数之后,将各个语种的短语音样本数据的特征信息输入该初始语种识别模型中,以对初始语种识别模型进行微调,进而得到最终的语种识别模型。在得到最终的语种识别模型之后,只需将用户的语音输入该语种识别模型之后,通过在模型中不断向前运算,即可识别得到语种。
步骤106,基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
在本公开中,在识别得到语种后,可以进一步基于识别得到的语种对本端用户的原声进行翻译。而在执行翻译操作之前,首先需要将用户的原声转化为相应的原声文本。
在实际应用中,本端通话终端中可以预设有若干文本转化模型,以用于将不同语种的原声转化为文本。在此基础上,本端通话终端在确定出本端用户的原声语种之后,即可根据该原声语种获取相对应的文本转化模型,以通过获取到的文本转化模型将本端用户的原声转化为原声文本。
在本端通话终端中还可以部署同传翻译模块,以用于对原声文本进行文本翻译。那么,在完成针对用户原声的文本转化之后,即可将转化得到的原声文本输入该同传翻译模块,以由该同传翻译模块将原声文本翻译为译音文本。在实际应用中,可以将确定的目标语种作为入参输入该同传翻译模块中,以使同传翻译模块能够将原声文本翻译为目标语种对应的译音文本。
应当理解的是,在本端通话终端得到译音文本后,还需将其转化为译音音频。在一实施例中,可以在本端通话终端中部署音频转化模块(也可以称作语音播报模块),以在得到上述译音文本之后,将译音文本输入该音频转化模块中,进而将转化得到的译音音频传输至对端通话终端,以由对端通话终端将译音音频输出。在另一实施例中,上述音频转化模块也可以部署于对端通话终端处,那么,本端通话终端在获得译音文本后,即可将该译音文本传输至对端通话终端,以由对端通话终端通过本地部署的音频转化模块,将该译音文本转化为译音音频并输出。
在实际应用中,本端通话终端可以通过拾音设备采集本端用户的原声,该拾音设备既可以为本端通话终端自带的拾音设备,如内置麦克风;也可以为临时装配于本端通话终端的外接拾音设备,如外接麦克风。应当理解的是,由于本地通话终端所处环境的影响,或者本端通话终端可能处于声音外放状态,很可能导致通话过程中出现回音,因此,本地通话终端还可以通过回音消除算法对采集到的原声进行回音消除。在此基础上,本地通话终端即可将回音消除得到的原声作为本地通话终端侧的原声,以进行上述一系列翻译操作。
需要声明的是,除了需要将本地通话终端侧的用户原声翻译为目标语种以外,还需将对端通话终端侧的用户原声翻译为本端用户所使用的语种。
在一实施例中,对端通话终端也具有本端通话终端一致的同声传译功能,以在对端通话终端开启该同声传译功能之后,通过与上述本端通话终端一致的方式将对端通话终端侧的用户的原声,同传翻译为本端通话终端侧用户使用的语种。
在另一实施例中,对端通话终端不具有上述同声传译功能,则本端通话终端可以在接收到对端通话终端侧的对端用户的原声之后,基于上文所介绍的用于翻译本端用户的原声的译音通话链路,对接收到的原声进行翻译,在该情况下,本端通话终端中部署的用于实现同声传译功能的组件均是双工的,即允许双向传输和处理数据。在另一种情况下,即在本端通话终端中部署的用于实现同声传译功能的组件均是单工的情况下,本端通话终端也可以在本端通话终端侧,额外再建立一条对应于对端通话终端侧的原声的译音通话链路,以用于将对端通话终端返回的对端用户的原声,翻译为本端用户使用的语种。需要声明的是,本公开中建立的译音通话链路均是逻辑链路,因此,在实际应用中,可以通过本端通话终端中装配的同一实体组件实现上述两条译音通话链路(即用于翻译本端用户的原声的译音通话链路,以及用于翻译对端用户的原声的译音通话链路)。当然,无论是采用原先的译音通话链路对对端用户的原声进行翻译,还是额外建立译音通话链路对对端用户的原声进行翻译,均可以将用于将对端用户的原声传输至本端通话终端的原声通话链路切断,以避免对端用户的原声与译音混杂的问题。
除此之外,本公开在通话双方之间建立通话事件之后,本端通话终端还可以对本端用户进行VAD检测(Voice activity detection,语音活性检测),以确定本端用户是否开始发言,具体的,可以采用VAD算法进行检测;在此基础上,当VAD检测表明本端用户正在说话时,即可将采集到的原声输入上述语种识别模型中进行语种识别。相应的,本端通话终端还可以对对端通话终端返回的声音进行VAD检测,以确定对端用户是否开始发言,进而在确定对端用户已经开始发言时,获取对端用户的原声,若采用通过语种识别模型确定目标语种的方式,则可以进一步将对端用户的原声输入语种识别模型中。
在本公开中,上述本端通话终端可以为任一类型的终端设备,例如,该终端设备可以为智能手机、平板电脑等移动终端,也可以为智能电视、PC(Personal Computer,个人计算机)等固定终端。应当理解的是,只需具有通话功能的终端设备均可作为本公开中的本端通话设备;本公开中的对端通话终端也是相类似。具体将哪一种类型的终端设备作为本公开技术方案的执行主体可以由本领域技术人员根据实际需求确定,本公开对此不作限制。
由上述介绍可知,本公开中的本端通话终端在接收或发出通话事件建立请求时,会在本端通话终端侧建立原声通话链路,以便本端用户与通话事件的对端用户进行原声通话;而在本端通话终端的同声传译功能被开启的情况下,则会进一步在该本端通话终端侧建立译音通话链路,并切断上述原声通话链路,以通过建立的译音通话链路对本端用户的原声进行翻译后,传输至对端通话终端。
应当理解的是,在本端通话终端与对端通话终端之间建立通话事件之后,本端用户的原声是通过建立的本端通话终端侧的原声通话链路进行传输。而本公开在确定本端通话终端开启同声传译功能之后,会在本端通话终端侧额外建立译音通话链路,并切断原先建立的原声通话链路。一方面,使得本公开可以通过建立的译音通话链路对本端用户的原声进行翻译后,传输至对端通话终端,保证通话双方的顺利沟通;另一方面,由于切断了原声通话链路,避免了用户原声被传输至对端通话终端,而导致本端用户的原声和翻译得到的译音混杂的问题。
进一步的,本端通话终端在接收到对端通话终端返回的对端用户的原声之后,还可以基于已建立的译音通话终端或额外建立新的译音通话终端,对接收到的原声进行翻译,并将翻译得到的译音输出,进而使本端用户也能获知对端用户的原声含义。
下面,以对端用户与本端用户均通过智能手机,进行跨语种通话为例,对本公开的技术方案进行介绍。
图2为本公开一示例性实施例示出的另一种通话过程中的同声传译方法的流程图。如图2所示,该方法包括以下步骤:
步骤201,接收或发起通话事件建立请求。
在本实施例中,当本端用户通过所使用的本端通话终端向对端用户使用的对端通话终端发起通话事件建立请求时,或在本端通话终端在接收到对端用户通过对端通话终端向本端通话终端发起通话事件建立请求时,即可在对端通话终端和本端通话终端之间建立一条完整的原声通话链路。该完整的原声通话链路可以包含本端通话终端侧和对端通话终端侧两部分。其中,在本端通话终端侧的原声通话链路又可以划分为:用于向通话服务器发送本端用户原声的上行链路,和通话服务器用于向本端通话终端返回对端用户的原声的下行链路。具体的,建立原声通话链路可以如图3所示。
步骤202,与对端通话终端建立完整的原声通话链路。
步骤203,判断同声传译功能是否被开启;若是,则跳转至步骤204,否则,跳转至步骤207。
在本实施例中,当本端用户开启本端通话终端的同声传译功能之后,即意味着即将进行的通话事件为跨语种通话事件。因此,可以进一步在本端通话终端侧建立译音通话链路,以用于对本端用户的原声进行翻译后,再将译音传输至对端通话终端。同时,为了避免本端用户的原声和译音均被传输至对端通话终端,而造成译音和原声混杂的问题,可以将本端通话终端侧的原声通话链路切断,以使用户原声无法被传输至对端通话终端。具体的,可以如图4所示,在本端通话终端侧建立额外的上行的译音通话链路,而上行的原声通话链路被切断(图中的“X”表征相应的通话链路断开”)。
步骤204,在本端通话终端侧建立译音通话链路,并切断本端通话终端侧的原声通话链路。
步骤205,基于译音通话链路对本端用户原声进行翻译。
在建立译音通话链路之后,本端通话终端在采集到本端用户的原声之后,即可对该原声进行翻译,并通过译音通话链路将译音传输至对端通话终端,而本端用户的原声则由于上行的原声通话链路被切断,无法被传输至对端通话终端。
步骤206,将翻译得到的译音发送至对端通话终端。
步骤207,通过原声通话链路传输本端用户的原声。
由上述技术方案可知,本实施例中的本端通话终端在检测到同声传译功能被开启后,会切断原先建立的原声通话链路,并建立额外的译音通话链路。一方面,通过切断原声通话链路的方式,避免了本端用户的原声被传输对端通话终端;另一方面,可以通过译音通话链路对本端用户的原声进行翻译,并将翻译得到的译音传输至对端通话终端,避免了用户原声与译音混杂的问题。
下面,对基于译音通话链路对用户原声进行翻译进行介绍。
图5为本公开一示例性实施例示出的一种基于译音通话链路的原声翻译方法的流程图。如图5所示,该方法包括以下步骤:
步骤501,通过麦克风采集本端用户的原声。
步骤502,将本端用户的原声输入语种识别模型。
在本实施例中,本端通话终端可以通过麦克风对本端用户的原声进行采集,并将采集得到的原声输入语种识别模型中,以确定用户使用的语种。需要声明的是,输入语种识别模型的原声实际上为原声的音频数据。
步骤503,基于语种识别得到的原声语种确定目标文本转化模型。
在基于语种识别模型确定本端用户使用的原声语种之后,即可从预设的若干文本转化模型中,确定出与该原声语种对应的目标文本转化模型,以通过该目标文本转化模型将本端用户的原声转化为原声文本。
步骤504,通过目标文本转化模型将本端用户的原声转化为原声文本。
步骤505,确定对端用户所使用的目标语种。
在本实施例中,还需确定对端用户使用的目标语种,在实际应用中,可以通过多种方式获取该目标语种。例如,可以根据对端通话终端的归属地信息确定该目标语种;再例如,可以由对端通话终端将对端用户在本次通话事件中的第一句原声返回至本端通话终端,以由本端通话终端将接收到的原声输入上述语种识别模型中,确定出对端用户使用的目标语种。当然,还可以直接默认一种语种为目标语种,如将应用较广的英语作为目标语种。具体如何确定目标语种,可由本领域技术人员根据实际情况确定,本实施例对此不作限制。
步骤506,将原声文本输入同传翻译模块中。
在确定目标语种之后,即可将原声文本输入同传翻译模块中,以将原声文本翻译为目标语种的译音文本。
步骤507,将翻译得到的译音文本输入音频转化模块中。
在得到译音文本之后,即可将译音文本输入音频转化模块中,以由音频转化模块将译音文本转化为译音音频,并传输至对端通话终端中。在实际应用中,该音频转化模块可以为TTS模块(Text-To-Speech模块)
步骤508,将转化得到的译音发送至对端通话终端。
需要声明的是,上述若干模型和模块可以均部署于本端通话终端中,并在译音通话链路上执行的逻辑顺序可以如图6所示,图中MIC指的是麦克风;当然,也可以将音频转化模块装配至对端通话终端中,那么,音频转化模块在逻辑上也被部署至对端通话终端的下行通话链路中,即如图7所示。
还需强调的是,在对端通话终端也具有同声传译功能时,可以在对端通话终端中也部署上述若干模块和模型,并在对端通话终端建立上行的译音通话链路,可以如图8所示。
而在对端通话终端不具有同声传译功能时,也可以通过本端通话终端中部署的上述若干模块和模型对对端用户的原声进行翻译,在逻辑通话链路上,同样可以切断本端通话终端侧下行的原声通话链路,建立额外的下行的译音通话链路,用于对对端用户的原声进行翻译。在该情况下,可以如图9所示,当然,图9所示的两条链路上的若干模块的执行顺序,均表征逻辑上的执行顺序,在实际调用的过程中,两条链路上的相同模型或模块调用的实体组件可以为本端通话终端中的同一组件。
由上述技术方案可知,通过本实施例的技术方案,本端通话终端中可以部署有语种识别模块、文本转化模型等一系列用于提供同传翻译功能的模块或模型,使得本端通话终端可以基于这些模块或模型,将本端用户的原声实时翻译为对端用户使用的目标语种。
图10是本公开一示例性实施例示出的一种通话过程中的同声传译装置的框图。参照图10,该装置包括第一建立单元1001、第二建立单元1002和翻译单元1003。
第一建立单元1001,在所述通话终端发出或接收到通话事件建立请求的情况下,在所述通话终端侧建立原声通话链路;
第二建立单元1002,在检测到所述通话终端的同声传译功能被开启的情况下,在所述通话终端侧建立译音通话链路,并切断所述原声通话链路;
翻译单元1003,基于所述译音通话链路对所述通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
可选的,翻译单元1003被进一步用于:
调用所述本端通话终端中的语种识别模块,对所述用户的原声进行语种识别,并基于识别得到的原声语种对所述原声进行翻译。
可选的,翻译单元1003被进一步用于:
获取与所述原声语种对应的文本转化模型,通过获取的文本转化模型将所述原声转化为原声文本;
将所述原声文本输入同传翻译模块,以由所述同传翻译模块将所述原声文本翻译为译音文本。
可选的,翻译单元1003被进一步用于:
将所述译音文本输入音频转化模块,以通过所述音频转化模块将所述译音文本转化为译音音频,并将所述译音音频传输至所述对端通话终端;或者,
将所述译音文本传输至所述对端通话终端,以由所述对端通话终端通过本地部署的音频转化模块将所述译音文本转化为译音音频。
可选的,翻译单元1003被进一步用于:
基于所述译音通话链路将所述本端通话终端侧的用户的原声,翻译为所述本端通话终端中预设的目标语种;或者,
基于所述对端通话终端的归属地信息确定出目标语种,并基于所述译音通话链路将所述本端通话终端侧的用户的原声翻译为所述目标语种;或者,
对所述对端通话终端侧采集到的原声进行语种识别,以得到目标语种,并基于所述译音通话链路将所述本端通话终端侧的用户的原声翻译为所述目标语种。
如图11所示,图11是本公开一示例性实施例示出的另一种通话过程中的同声传译装置的框图,该实施例在前述图10所示实施例的基础上,还包括:采集单元1004和接收单元1005。
可选的,
采集单元1004,通过所述通话终端的拾音设备对所述用户的原声进行采集,并通过回音消除算法对采集到的原声进行回音消除;其中,经过回应消除的原声被作为所述本地通话终端侧的原声,以进行翻译操作。
可选的,
接收单元1005,接收所述对端通话终端返回的对端用户的原声;基于所述译音通话链路对所述对端用户的原声进行翻译。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本公开还提供一种通话过程中的同声传译装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现如上述实施例中任一所述的通话过程中的同声传译方法,比如该方法可以包括:在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路;在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路;基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
相应的,本公开还提供一种电子设备,所述电子设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于实现如上述实施例中任一所述的通话过程中的同声传译方法的指令,比如该方法可以包括:在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路;在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路;基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
图12是根据一示例性实施例示出的一种用于实现进程调度方法的装置1200的框图。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图12,装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当装置1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到装置1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,4G LTE、5G NR(New Radio)或它们的组合。在一个示例性实施例中,通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (10)

1.一种通话过程中的同声传译方法,其特征在于,应用于本端通话终端,包括:
在所述本端通话终端发出或接收到通话事件建立请求的情况下,在所述本端通话终端侧建立原声通话链路;
在检测到所述本端通话终端的同声传译功能被开启的情况下,在所述本端通话终端侧建立译音通话链路,并切断所述原声通话链路;
基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
2.根据权利要求1所述的方法,其特征在于,所述基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,包括:
调用所述本端通话终端中的语种识别模块,对所述用户的原声进行语种识别,并基于识别得到的原声语种对所述原声进行翻译。
3.根据权利要求2所述的方法,其特征在于,所述基于识别得到的原声语种对所述原声进行翻译,包括:
获取与所述原声语种对应的文本转化模型,通过获取的文本转化模型将所述原声转化为原声文本;
将所述原声文本输入同传翻译模块,以由所述同传翻译模块将所述原声文本翻译为译音文本。
4.根据权利要求3所述的方法,其特征在于,所述将翻译得到的译音传输至所述通话事件的对端通话终端,包括:
将所述译音文本输入音频转化模块,以通过所述音频转化模块将所述译音文本转化为译音音频,并将所述译音音频传输至所述对端通话终端;或者,
将所述译音文本传输至所述对端通话终端,以由所述对端通话终端通过本地部署的音频转化模块将所述译音文本转化为译音音频。
5.根据权利要求1所述的方法,其特征在于,所述基于所述译音通话链路对所述本端通话终端侧的用户的原声进行翻译,包括:
基于所述译音通话链路将所述本端通话终端侧的用户的原声,翻译为所述本端通话终端中预设的目标语种;或者,
基于所述对端通话终端的归属地信息确定出目标语种,并基于所述译音通话链路将所述本端通话终端侧的用户的原声翻译为所述目标语种;或者,
对所述对端通话终端侧采集到的原声进行语种识别,以得到目标语种,并基于所述译音通话链路将所述本端通话终端侧的用户的原声翻译为所述目标语种。
6.根据权利要求1所述的方法,其特征在于,还包括:
通过所述通话终端的拾音设备对所述用户的原声进行采集,并通过回音消除算法对采集到的原声进行回音消除;
其中,经过回应消除的原声被作为所述本地通话终端侧的原声,以进行翻译操作。
7.根据权利要求1所述的方法,其特征在于,还包括:
接收所述对端通话终端返回的对端用户的原声;
基于所述译音通话链路对所述对端用户的原声进行翻译。
8.一种通话过程中的同声传译装置,其特征在于,应用于通话终端,包括:
第一建立单元,在所述通话终端发出或接收到通话事件建立请求的情况下,在所述通话终端侧建立原声通话链路;
第二建立单元,在检测到所述通话终端的同声传译功能被开启的情况下,在所述通话终端侧建立译音通话链路,并切断所述原声通话链路;
翻译单元,基于所述译音通话链路对所述通话终端侧的用户的原声进行翻译,并将翻译得到的译音传输至所述通话事件的对端通话终端。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
CN202110927479.3A 2021-08-09 2021-08-09 通话过程中的同声传译方法及装置、电子设备、存储介质 Active CN113726952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927479.3A CN113726952B (zh) 2021-08-09 2021-08-09 通话过程中的同声传译方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927479.3A CN113726952B (zh) 2021-08-09 2021-08-09 通话过程中的同声传译方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113726952A true CN113726952A (zh) 2021-11-30
CN113726952B CN113726952B (zh) 2023-04-28

Family

ID=78675704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927479.3A Active CN113726952B (zh) 2021-08-09 2021-08-09 通话过程中的同声传译方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113726952B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023015987A1 (zh) * 2021-08-13 2023-02-16 中兴通讯股份有限公司 通话过程中实现同声传译的方法、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040092293A1 (en) * 2002-11-06 2004-05-13 Samsung Electronics Co., Ltd. Third-party call control type simultaneous interpretation system and method thereof
CN103533129A (zh) * 2013-10-23 2014-01-22 上海斐讯数据通信技术有限公司 实时的语音翻译通信方法、系统及所适用的通讯设备
WO2014056555A1 (de) * 2012-10-12 2014-04-17 Audi Ag Kraftwagen mit einem sprachübersetzungssystem
CN107465816A (zh) * 2017-07-25 2017-12-12 广西定能电子科技有限公司 一种通话即时原声语音翻译的通话终端及方法
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN111046680A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 一种翻译方法及电子设备
CN111241853A (zh) * 2018-11-29 2020-06-05 Tcl集团股份有限公司 一种会话翻译方法、装置、存储介质及终端设备
US20200211565A1 (en) * 2019-03-06 2020-07-02 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040092293A1 (en) * 2002-11-06 2004-05-13 Samsung Electronics Co., Ltd. Third-party call control type simultaneous interpretation system and method thereof
WO2014056555A1 (de) * 2012-10-12 2014-04-17 Audi Ag Kraftwagen mit einem sprachübersetzungssystem
CN103533129A (zh) * 2013-10-23 2014-01-22 上海斐讯数据通信技术有限公司 实时的语音翻译通信方法、系统及所适用的通讯设备
CN107465816A (zh) * 2017-07-25 2017-12-12 广西定能电子科技有限公司 一种通话即时原声语音翻译的通话终端及方法
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN111046680A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 一种翻译方法及电子设备
CN111241853A (zh) * 2018-11-29 2020-06-05 Tcl集团股份有限公司 一种会话翻译方法、装置、存储介质及终端设备
US20200211565A1 (en) * 2019-03-06 2020-07-02 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023015987A1 (zh) * 2021-08-13 2023-02-16 中兴通讯股份有限公司 通话过程中实现同声传译的方法、系统及存储介质

Also Published As

Publication number Publication date
CN113726952B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
KR101571993B1 (ko) 음성 통화 방법, 음성 재생 방법, 장치, 프로그램 및 기록매체
CN110610699B (zh) 语音信号处理方法、装置、终端、服务器及存储介质
KR101944416B1 (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
CN111696553B (zh) 一种语音处理方法、装置及可读介质
CN104394265A (zh) 基于移动智能终端的自动会话方法及装置
EP4184506A1 (en) Audio processing
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN107135452B (zh) 助听器适配方法及装置
CN110730360A (zh) 视频上传、播放的方法、装置、客户端设备及存储介质
CN108648754B (zh) 语音控制方法及装置
CN111583923A (zh) 信息控制方法及装置、存储介质
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
CN108270661B (zh) 一种信息回复的方法、装置和设备
CN106603381B (zh) 处理聊天信息的方法及装置
CN111382748A (zh) 图像翻译方法、装置及存储介质
CN113726952B (zh) 通话过程中的同声传译方法及装置、电子设备、存储介质
CN111580773B (zh) 信息处理方法、装置及存储介质
CN108173802B (zh) 一种通讯处理方法、装置和终端
CN111667827A (zh) 应用程序的语音控制方法、装置及存储介质
CN111580775A (zh) 信息控制方法及装置、存储介质
CN113127613B (zh) 聊天信息处理方法及装置
JP7307228B2 (ja) プログラム、情報処理方法、端末
CN114245261A (zh) 实时对话翻译方法、系统、耳机设备及移动终端
CN115706746A (zh) 声纹降噪方法、装置、通话设备及存储介质
CN113286217A (zh) 一种通话语音翻译方法、装置和耳机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant