CN116758896A - 会议音频语种调整方法、装置、电子设备和存储介质 - Google Patents

会议音频语种调整方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116758896A
CN116758896A CN202310633175.5A CN202310633175A CN116758896A CN 116758896 A CN116758896 A CN 116758896A CN 202310633175 A CN202310633175 A CN 202310633175A CN 116758896 A CN116758896 A CN 116758896A
Authority
CN
China
Prior art keywords
audio
language
user
conference
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310633175.5A
Other languages
English (en)
Inventor
沈军
亓那
王艳辉
杨春晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visionvera Information Technology Co Ltd
Original Assignee
Visionvera Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visionvera Information Technology Co Ltd filed Critical Visionvera Information Technology Co Ltd
Priority to CN202310633175.5A priority Critical patent/CN116758896A/zh
Publication of CN116758896A publication Critical patent/CN116758896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Abstract

本发明实施例提供了一种会议音频语种调整方法和装置。所述方法包括:获取参会终端的用户音频,识别所述用户音频中语音的用户语种,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。

Description

会议音频语种调整方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种会议音频语种调整方法、一种会议音频语种调整装置、一种电子设备以及一种计算机可读存储介质。
背景技术
随着网络科技的快速发展,视频会议、视频教学、视频通讯等的应用领域逐渐变得越来越广阔。
同声传译,简称“同传”,又称“同声翻译”、“同步口译”,是指译员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式,同声传译员通过专用的设备提供即时的翻译,这种方式适用于大型的研讨会和国际会议,通常由两名到三名译员轮换进行。
另外,同声传译软件也已逐步成熟,可以实现边说边译,提高会议沟通效率,拥有语言翻译功能,可以在大型视频会议现场提供悬浮实时字幕投屏以及人工同传功能。
现有技术中,在视频会议场景下,将靠近会议发言人终端的线路中间加入一台终端,用作翻译终端。这种方法在使用时无法对原始音频进行处理,导致接受者接收到两路音轨(即原始音频和翻译音频),导致翻译音频混杂着原始音频无法听清,影响收听体验,无法自动调节音轨的同声传译并不实用。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种会议音频语种调整方法、相应的一种会议音频语种调整装置、一种电子设备以及一种计算机可读存储介质。
为了解决上述问题,本发明实施例公开了一种会议音频语种调整方法,应用于服务器,所述方法包括:
获取参会终端的用户音频;
识别所述用户音频中语音的用户语种;
根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令;
根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频;
向所述参会终端提供所述音频语种调整后的会议音频。
可选地,所述预设调整机制包括以下至少一种:
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;
在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
本发明实施例还公开了一种会议音频语种调整方法,应用于参会终端,所述方法包括:
获取用户音频;
向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
播放所述服务器提供的音频语种调整后的会议音频。
本发明实施例还公开了一种会议音频语种调整装置,应用于参会终端,所述装置包括:
音频获取模块,用于获取参会终端的用户音频;
语种识别模块,用于识别所述用户音频中语音的用户语种;
语种调整模块,用于根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
可选地,所述语种调整模块包括:
第一替换子模块,用于若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述语种调整模块包括:
第二替换子模块,用于将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述语种调整模块包括:
信令生成子模块,用于在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令;
音频生成子模块,用于根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频;
音频提供子模块,用于向所述参会终端提供所述音频语种调整后的会议音频。
可选地,所述预设调整机制包括以下至少一种:
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;
在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
本发明实施例还公开了一种会议音频语种调整装置,应用于参会终端,所述装置包括:
音频获取模块,用于获取用户音频;
音频提供模块,用于向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
音频播放模块,用于播放所述服务器提供的音频语种调整后的会议音频。
本发明实施例还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上所述任一项所述的会议音频语种调整方法。
本发明实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上所述任一项所述的会议音频语种调整方法。
依据本发明实施例,通过获取参会终端的用户音频,识别所述用户音频中语音的用户语种,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
附图说明
图1是本发明的一种会议音频语种调整方法实施例的步骤流程图;
图2是会议语种配置架构示意图;
图3是语种调整流程的示意图;
图4是本发明的一种会议音频语种调整方法实施例的步骤流程图;
图5是本发明的又一种会议音频语种调整方法实施例的步骤流程图;
图6是本发明的一种会议音频语种调整装置实施例的结构框图;
图7是本发明的一种会议音频语种调整装置实施例的结构框图;
图8是根据一示例性实施例示出的一种用于会议音频语种调整的电子设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种会议音频语种调整方法实施例的步骤流程图,应用于服务器,该方法具体可以包括如下步骤:
步骤101,获取参会终端的用户音频。
在本发明实施例中,参会终端是指会议中参加会议的终端。会议音频是指会议中提供给该参会终端的音频,可以是另一个或多个参会终端的音频。服务器是指为参会终端提供会议音频的服务器。
在本发明实施例中,参会终端具备收音功能,参会终端可以在用户发言时,采集用户的音频,或者参会终端可以在用户选择本终端静音时,采集用户的音频,都记为用户音频,具体可以采用任意适用的方式获取用户音频,本发明实施例对此不做限制。
在本发明实施例中,在会议音频的播放过程中,或者在会议音频的播放之前,参会终端获取用户音频,并提供给服务器。
步骤102,识别所述用户音频中语音的用户语种。
在本发明实施例中,用户语种是指用户音频中语音的语种,例如,汉语、英语、德语等。对用户音频中的语音的语种进行识别,以得到用户语种。
在本发明实施例中,语种识别(又称为语言识别)是指利用计算机自动判定一段语音所属的语言种类的技术。例如,利用多分类语种识别模型实现对语音语种的识别,或者其他任意适用的识别方式,本发明实施例对此不做限制。
步骤103,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
在本发明实施例中,会议音频中语音的一个或多个语种,称为音频语种。在调整前,音频语种可以是原始音频的语种,也可以是翻译音频的语种,或者可以是原始音频的语种和翻译音频的语种。也就是说,会议音频可以仅为原始音频,也可以仅为翻译音频,或者还可以为原始音频和翻译音频两种。
其中,原始音频是指未经翻译的音频,翻译音频是指对原始音频进行翻译得到音频,翻译音频可以是由翻译人员提供,也可以是由某种翻译机器提供,本发明实施例对此不做限制。
在本发明实施例中,预设调整机制是指预设设置的对会议音频进行调整的机制,例如,对音频语种调整的机制。在调整后的音频的语种包括多种时,还可以包括对多种语种的音频的调整机制。具体可以包括任意适用的调整机制,本发明实施例对不做限制。
例如,如图2所示的会议语种配置架构示意图。用户登录移动端或电脑端的视频会议软件(客户端),进行身份验证,例如,用户ID、视频会议号、终端编号等。并且参会终端还需生成收听音频的语种配置信令,即用户自身选择收听的音频的语种:原始音频(相当于用户选择原始音频的语种)、或者用户选择语种的翻译音频、或者原始音频和翻译音频。参会终端将上述身份验证信息和语种配置信令发送给服务器,服务器对用户ID、视频会议号、终端编号认证,认证通过后,对语种配置信令进行解析,服务器获取与语种配置信令对应对音频处理机制,包括:单独播放原始音频(完全抑制翻译音频)、单独播放翻译音频(完全抑制原始音频)、一同播放原始音频和翻译音频。用户可以在登录时对收听的会议音频的语种进行配置,也可以是会议过程中对收听的会议音频的语种进行配置,服务器将会议音频提供给客户端,如图3所示。
在本发明的一种可选实施例中,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整的一种具体实现方式中,可以包括:将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
一种预设调整机制为将用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,无论原本提供给参会终端的会议音频的语种是一个或多种。
在调整前,原始音频为语种A,提供给参会终端的会议音频为语种B的翻译音频。若识别的用户语种为语种A,则获取与用户语种(语种A)一致的原始音频,作为音频语种调整后的会议音频,以替换语种B的翻译音频,从而实现对会议音频的音频语种的调整。
在调整前,原始音频为语种A,提供给参会终端的会议音频为语种B的翻译音频。若识别的用户语种为语种C,则获取与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换语种B的翻译音频,从而实现对会议音频的音频语种的调整。
在调整前,原始音频为语种A,提供给参会终端的会议音频为该原始音频。若识别的用户语种为语种C,则获取与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换语种A的原始音频,从而实现对会议音频的音频语种的调整。
在调整前,原始音频为语种A,提供给参会终端的会议音频为该原始音频和语种B的翻译音频。若识别的用户语种为语种C,则获取与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换原始音频和语种B的翻译音频,从而实现对会议音频的音频语种的调整。
在本发明的一种可选实施例中,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整的一种具体实现方式中,可以包括:若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
另一种预设调整机制为将原始音频和某种翻译音频共同作为音频语种调整后的会议音频,无论原本提供给参会终端的会议音频的语种是一个或多种。
在调整前,原始音频为语种A,提供给参会终端的会议音频为该原始音频和语种B的翻译音频。若识别的用户语种为语种C,则获取原始音频,和与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换原始音频和语种B的翻译音频,从而实现对会议音频的音频语种的调整。
在调整前,原始音频为语种A,提供给参会终端的会议音频为语种B的翻译音频。若识别的用户语种为语种C,则获取原始音频,和与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换语种B的翻译音频,从而实现对会议音频的音频语种的调整。
在调整前,原始音频为语种A,提供给参会终端的会议音频为该原始音频。若识别的用户语种为语种C,则获取原始音频,和与用户语种(语种C)一致的翻译音频,作为音频语种调整后的会议音频,以替换语种A的原始音频,从而实现对会议音频的音频语种的调整。
依据本发明实施例,通过获取参会终端的用户音频,识别所述用户音频中语音的用户语种,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
在本发明的一种可选实施例中,所述预设调整机制可以包括以下至少一种:在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
对于需要混音的音频数据,即一同播放原始音频和翻译音频的情况,可以采用一种或多种处理方式,使听众享受到定制化的音频播放效果,提高用户体验。
例如,一同播放原始音频和翻译音频的情况下,相对于翻译音频,以第一预设幅度降低原始音频的音量,如以翻译音频的音量的60%来播放原始音频,具体可以设置任意适用的第一预设幅度,本发明实施例对此不做限制。
又例如,一同播放原始音频和翻译音频的情况下,原始音频以更慢的速度播放,相对于翻译音频,以第二预设幅度降低原始音频的播放速度,如以翻译音频的播放速度为基础,降低10%-15%的播放速度来播放原始音频。具体可以设置任意适用的第二预设幅度,本发明实施例对此不做限制。
又例如,一同播放原始音频和翻译音频的情况下,相对于原始音频,以预设时长延迟翻译音频的开播时间,如晚于原始音频5秒-10秒来播放翻译音频。
通过上述处理机制,人耳刚好可以听到两种音频的声音,且不相互影响。
参照图4,示出了本发明的又一种会议音频语种调整方法实施例的步骤流程图,应用于服务器,该方法具体可以包括如下步骤:
步骤201,获取参会终端的用户音频。
在本发明实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤202,识别所述用户音频中语音的用户语种。
在本发明实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤203,在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令。
在本发明实施例中,预设调整机制可以指定时间段,在该时间段内可以对会议音频的音频语种进行自动调整。例如,在会议过程刚开始后的10分钟之内。具体可以根据实际需要设置任意适用的指定时间段,本发明实施例对此不做限制。
在本发明实施例中,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令。
在本发明实施例中,服务器调取参会终端最近一次提交给语种配置信令,比对用户语种和语种配置信令,以确定是否需要对语种配置信令进行调整。若需要调整,则根据用户语种,对最近一次的语种配置信令进行调整,生成调整后的语种配置信令,具体调整语种的方式可以参见前述实施例中的描述。
步骤204,根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频。
在本发明实施例中,根据所述调整后的语种配置信令,生成对应的会议音频,记为音频语种调整后的会议音频。例如,将原始音频作为音频语种调整后的会议音频,或者将翻译音频作为音频语种调整后的会议音频,或者将原始音频和翻译音频共同音频语种调整后的会议音频。
步骤205,向所述参会终端提供所述音频语种调整后的会议音频。
在本发明实施例中,服务器向参会终端发送音频语种调整后的会议音频。参会终端接收服务器发送的音频语种调整后的会议音频。
在本发明实施例中,参会终端对音频语种调整后的会议音频进行播放,从而实现上述实施例中描述的各种音频语种的调整。
例如,如图3所示的语种调整流程的示意图。服务器接收用户的发言音频,识别用户语种,将用户语种与最近一次的语种配置信令进行比对,比对不一致,则生成调整后的语种配置信令,然后服务器根据调整后的语种配置信,确定对应的音轨处理机制,按照调整后的音轨处理机制,处理会议音频,将参会终端的会议音频发送给参会终端。
依据本发明实施例,通过获取参会终端的用户音频,将所述用户音频上传至服务器,以供所述服务器识别所述用户语种,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令,根据所述调整后的语种配置信令,向所述参会终端下发音频语种调整后的会议音频,接收所述服务器下发的所述音频语种调整后的会议音频,播放所述音频语种调整后的会议音频,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
参照图5,示出了本发明的又一种会议音频语种调整方法实施例的步骤流程图,应用于参会终端,该方法具体可以包括如下步骤:
步骤301,获取用户音频。
在本发明实施例中,此步骤的具体实现方式,可以参见前述实施例中的描述,此处不另赘述。
步骤302,向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
在本发明实施例中,此步骤的具体实现方式,可以参见前述实施例中的描述,此处不另赘述。
步骤303,播放所述服务器提供的音频语种调整后的会议音频。
在本发明实施例中,此步骤的具体实现方式,可以参见前述实施例中的描述,此处不另赘述。
依据本发明实施例,通过获取用户音频;向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;播放所述服务器提供的音频语种调整后的会议音频,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6示出了本发明的一种会议音频语种调整装置实施例的结构框图,应用于服务器,具体可以包括如下模块:
音频获取模块401,用于获取参会终端的用户音频;
语种识别模块402,用于识别所述用户音频中语音的用户语种;
语种调整模块403,用于根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
可选地,所述语种调整模块包括:
第一替换子模块,用于若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述语种调整模块包括:
第二替换子模块,用于将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述语种调整模块包括:
信令生成子模块,用于在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令;
音频生成子模块,用于根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频;
音频提供子模块,用于向所述参会终端提供所述音频语种调整后的会议音频。
可选地,所述预设调整机制包括以下至少一种:
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;
在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
依据本发明实施例,通过获取参会终端的用户音频,识别所述用户音频中语音的用户语种,根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
参照图7示出了本发明的一种会议音频语种调整装置实施例的结构框图,应用于参会终端,具体可以包括如下模块:
音频获取模块501,用于获取用户音频;
音频提供模块502,用于向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
音频播放模块503,用于播放所述服务器提供的音频语种调整后的会议音频。
依据本发明实施例,通过获取用户音频;向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;播放所述服务器提供的音频语种调整后的会议音频,使得会议过程中,自动识别用户使用的语种,对会议音频的音频语种进行及时调整,从而及时提供用户所需语种的音频,提高用户的收听体验,避免用户漏听,提高收听音频的效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图8是根据一示例性实施例示出的一种用于会议音频语种调整的电子设备600的结构框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的停炉控制方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件604为电子设备600的各种组件提供电力。电力组件604可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件614还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述停炉控制方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述停炉控制方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种会议音频语种调整方法,所述方法包括:
获取参会终端的用户音频;
识别所述用户音频中语音的用户语种;
根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
可选地,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令;
根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频;
向所述参会终端提供所述音频语种调整后的会议音频。
可选地,所述预设调整机制包括以下至少一种:
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;
在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由参会终端的处理器执行时,使得参会终端能够执行一种会议音频语种调整方法,所述方法包括:
获取用户音频;
向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
播放所述服务器提供的音频语种调整后的会议音频。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种会议音频语种调整方法和一种会议音频语种调整装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种会议音频语种调整方法,其特征在于,应用于服务器,所述方法包括:
获取参会终端的用户音频;
识别所述用户音频中语音的用户语种;
根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
若所述会议音频的音频语种不存在与所述用户语种一致的语种,将原始音频,和与所述用户语种一致的翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
3.根据权利要求1所述的方法,其特征在于,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
将与所述用户语种一致的原始音频或翻译音频作为音频语种调整后的会议音频,以替换所述会议音频。
4.根据权利要求1-3所述的方法,其特征在于,所述根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整包括:
在所述预设调整机制的指定时间段内,根据所述用户语种、所述参会终端的最近一次的语种配置信令和所述预设调整机制,生成调整后的语种配置信令;
根据所述调整后的语种配置信令,生成所述音频语种调整后的会议音频;
向所述参会终端提供所述音频语种调整后的会议音频。
5.根据权利要求2所述的方法,其特征在于,所述预设调整机制包括以下至少一种:
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述翻译音频,以第一预设幅度降低所述原始音频的音量;
在同时播放所述原始音频和所述翻译音频的情况下,以第二预设幅度降低所述原始音频的播放速度;
在同时播放所述原始音频和所述翻译音频的情况下,相对于所述原始音频,以预设时长延迟所述翻译音频的开播时间。
6.一种会议音频语种调整方法,其特征在于,应用于参会终端,所述方法包括:
获取用户音频;
向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
播放所述服务器提供的音频语种调整后的会议音频。
7.一种会议音频语种调整装置,其特征在于,应用于服务器,所述装置包括:
音频获取模块,用于获取参会终端的用户音频;
语种识别模块,用于识别所述用户音频中语音的用户语种;
语种调整模块,用于根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整。
8.一种会议音频语种调整装置,其特征在于,应用于参会终端,所述装置包括:
音频获取模块,用于获取用户音频;
音频提供模块,用于向服务器提供所述用户音频,以供所述服务器识别所述用户音频中语音的用户语种;根据所述用户语种和预设调整机制,对所述参会终端的会议音频的音频语种进行调整;
音频播放模块,用于播放所述服务器提供的音频语种调整后的会议音频。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1至6任一项所述的会议音频语种调整方法。
10.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至6任一项所述的会议音频语种调整方法。
CN202310633175.5A 2023-05-31 2023-05-31 会议音频语种调整方法、装置、电子设备和存储介质 Pending CN116758896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310633175.5A CN116758896A (zh) 2023-05-31 2023-05-31 会议音频语种调整方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310633175.5A CN116758896A (zh) 2023-05-31 2023-05-31 会议音频语种调整方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116758896A true CN116758896A (zh) 2023-09-15

Family

ID=87946949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310633175.5A Pending CN116758896A (zh) 2023-05-31 2023-05-31 会议音频语种调整方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116758896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316163A (zh) * 2023-10-08 2023-12-29 江门市麦德利电子科技有限公司 一种无纸化办公会议设备及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316163A (zh) * 2023-10-08 2023-12-29 江门市麦德利电子科技有限公司 一种无纸化办公会议设备及方法

Similar Documents

Publication Publication Date Title
KR102069933B1 (ko) 전자 통신들을 위한 출력 관리
US10586131B2 (en) Multimedia conferencing system for determining participant engagement
CN106454644B (zh) 音频播放方法及装置
CN111583952B (zh) 音频处理方法、装置、电子设备及存储介质
CN109151565B (zh) 播放语音的方法、装置、电子设备及存储介质
US20210266633A1 (en) Real-time voice information interactive method and apparatus, electronic device and storage medium
CN105451056B (zh) 音视频同步方法及装置
WO2021244159A1 (zh) 一种翻译方法、装置、耳机和耳机收纳装置
CN110619873A (zh) 音频处理方法、装置及存储介质
CN116758896A (zh) 会议音频语种调整方法、装置、电子设备和存储介质
US20220210501A1 (en) Method and apparatus for playing data
CN110992920B (zh) 直播合唱方法、装置、电子设备及存储介质
CN112532931A (zh) 一种视频处理方法、装置和电子设备
CN108600503B (zh) 语音通话的控制方法及装置
WO2021244135A1 (zh) 一种翻译方法、装置和耳机
CN111739538B (zh) 一种翻译方法、装置、耳机和服务器
CN107247794B (zh) 直播中的话题引导方法、直播装置及终端设备
CN112637632A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN110970015B (zh) 一种语音处理方法、装置和电子设备
CN116320514A (zh) 一种音视频会议直播的方法、系统、电子设备和介质
CN114374880B (zh) 联合直播方法、装置、电子设备及计算机可读存储介质
CN110868495A (zh) 消息展示方法及装置
CN112541402A (zh) 一种数据处理方法、装置和电子设备
CN112532912A (zh) 一种视频处理方法、装置和电子设备
CN108491180B (zh) 音频播放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication