CN114566173A - 一种音频混音方法、装置、设备及存储介质 - Google Patents
一种音频混音方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114566173A CN114566173A CN202210231888.4A CN202210231888A CN114566173A CN 114566173 A CN114566173 A CN 114566173A CN 202210231888 A CN202210231888 A CN 202210231888A CN 114566173 A CN114566173 A CN 114566173A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- audio data
- mixing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000977 initiatory effect Effects 0.000 claims abstract description 45
- 239000003999 initiator Substances 0.000 claims description 18
- 230000000903 blocking effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种音频混音方法、装置、设备及存储介质,涉及人工智能技术领域,包括:获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,将目标混音数据发送至目标音频接收端。可以有效提升音频混音的灵活性。本申请可以涉及区块链技术,如可将目标混音数据写入区块链中。本申请还可以涉及数字医疗技术领域,如音频数据为医疗技术领域的音频数据。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种音频混音方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,网络会议已广泛推广到人们的生活中。在网络会议中,音频接收端需要听到网络会议中多个音频发起端的音频数据。音频发起端的音频数据可以经过混音处理后发送至音频接收端。然而,现有的音频混音方法对音频发起端或者音频接收端的依赖性太强,导致音频混音的灵活性较低。因此,如何灵活高效的进行音频混音是一个重要研究课题。
发明内容
本申请实施例提供了一种音频混音方法、装置、设备及存储介质。可以有效提升音频混音的灵活性。
第一方面,本申请实施例提供了一种音频混音方法,该音频混音方法包括:
获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;
获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;
对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
将目标混音数据发送至目标音频接收端。
第二方面,本申请实施例提供了一种音频混音装置,该音频混音装置包括:
确定单元,用于获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;
该确定单元,还用于获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;
混音单元,用于对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
发送单元,用于将目标混音数据发送至目标音频接收端。
第三方面,本申请实施例还提供了一种音频混音设备,包括输入接口、输出接口,该音频混音设备还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,该计算机存储介质存储有一条或多条指令,该一条或多条指令适于由处理器加载并执行第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行第一方面所述的方法。
在本申请实施例中,音频混音设备获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,将目标混音数据发送至目标音频接收端。音频混音设备作为音频发起端和音频接收端的中间设备,可以从音频发起端获取多组音频数据,并将多组音频数据中的部分或者全部进行混音,得到音频接收端的混音数据。音频混音设备独立于音频发起端和音频接收端之外,可以有效提升音频混音的灵活性。除此之外,音频混音设备可以从多个音频接收端中确定目标音频接收端,并对目标音频接收端的目标音频数据进行混音,一个音频混音设备可以处理多个音频接收端的混音任务,可以减少音频混音设备的数量,有效降低服务性能的消耗,节省成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频混音系统的架构示意图;
图2是本申请实施例提供的一种音频混音方法的流程示意图;
图3a是本申请实施例提供的一种音频权限表的示意图;
图3b是本申请实施例提供的另一种音频权限表的示意图;
图4是本申请实施例提供的一种音频数据配置界面示意图;
图5是本申请实施例提供的另一种音频混音方法的流程示意图;
图6是本申请实施例提供的一种音频混音装置的结构示意图;
图7是本申请实施例提供的一种音频混音设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着互联网技术的快速发展,网络会议已广泛推广到人们的生活中。在网络会议中,音频接收端需要听到网络会议中多个音频发起端的音频数据。每个音频发起端的音频数据可以经过混音处理后发送至音频接收端。当音频接收端需要获取网络会议中任意几个音频发起端的音频数据时,现有方案中,可以通过关闭音频发起端的音频数据采集设备,从源头阻止音频数据,或者音频接收端可以将不想接收的音频发起端的音频数据屏蔽,上述两种方案对音频发起端或者音频接收端的依赖性太强,灵活性较低。因此,如何灵活高效的进行音频混音是一个重要研究课题。
基于此,本申请实施例提供了一种音频混音方法,音频混音设备获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,并将目标混音数据发送至目标音频接收端。音频混音设备可以从来自音频发起端的多组音频数据中确定目标音频接收端对应的至少两组音频数据,并对目标音频接收端对应的至少两组音频数据进行混音得到目标混音数据,音频混音设备独立于音频发起端以及音频接收端之外,可以提升音频混音的灵活性。
一个实施例中,本申请的音频混音方法可以应用于如图1所示的音频混音系统中,如图1所示,该音频混音系统中可以至少包括多个音频发起端11(具体可以包括如图1所示的音频发起端11a、音频发起端11b以及音频发起端11c)、音频混音设备12以及多个音频接收端13(具体可以包括如图1所示的音频接收端13a和音频接收端13b)。
其中,该音频发起端11携带音频数据采集设备(如麦克风),每个音频发起端11可以用于通过音频数据采集设备生成音频数据。其中,音频混音设备12用于对来自音频发起端的多组音频数据的部分或全部进行混音得到混音数据。其中,音频接收端13可以用于接收来自音频混音设备的混音数据。
可选的,音频发起端11和音频接收端13可以分别部署于网络会议的不同终端设备中,例如,音频发起端11可以部署于网络会议的第一终端设备中,音频接收端13可以部署于网络会议的终端设备第三终端设备中。该终端设备可以包括但不限于:智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机,等等。需要说明,在网络会议中,一个终端设备在不同的时间段内可以具有不同的功能。例如,在第一时间段内,当第一终端设备作为发言方关联的设备时,第一终端设备可以为音频发起端;而在第二时间段内,当第一终端设备作为收听方关联的设备时,第一终端设备又可以为音频接收端。
可选的,音频混音设备12可以与音频发起端11或者音频接收端13部署于同一设备中,例如,音频混音设备12与音频发起端11均部署于网络会议的第一终端设备中;又例如,音频混音设备12与音频接收端13均部署于网络会议的第三终端设备中,等等。可选的,音频混音设备12还可以部署于音频发起端11或者音频接收端13之外的其他设备中,例如,音频混音设备12可以部署于网络会议的第二终端设备中;又例如,音频混音设备12还可以部署于网络会议的服务器中;该服务器的数量可以是一个或多个,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(ContentDelivery Network,CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
在一个实施例中,如图1所示,音频发起端11可以分别为音频发起端11a、音频发起端11b和音频发起端11c。音频发起端生成的多组音频数据分别为:音频发起端11a对应的音频数据A、音频发起端11b对应的音频数据B以及音频发起端11c对应的音频数据C。音频混音设备可以对音频数据A、音频数据B以及音频数据C中的部分或全部进行混音得到各个音频接收端对应的混音数据。如对音频数据A和音频数据B进行混音得到音频接收端13a对应的混音数据,对音频数据A、音频数据B和音频数据C进行混音得到音频接收端13b对应的混音数据。
下面详细阐述本申请实施例的音频混音方法。请参见图2,是本申请实施例提出的一种音频混音方法的流程示意图。如图2所示,该音频混音方法包括S201-S204:
S201:获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端。
其中,混音请求可以用于触发执行本申请实施例的音频混音方法。当音频混音设备接收到目标混音请求时,音频混音设备执行音频混音方法以确定目标音频接收端的混音数据。
一个实施例中,该混音请求可以是由音频接收端生成的。当目标音频接收端需要得到混音数据时,目标音频接收端可以获取自身的目标标识信息(该目标标识信息用于唯一标识目标音频接收端),并基于目标标识信息生成目标混音请求,将目标混音请求发送至音频混音设备,以便音频混音设备可以根据目标混音请求携带的目标标识信息从多个音频接收端中确定目标音频接收端。其中,目标音频接收端可以为多个音频接收端中的任意一个音频接收端。
另一个实施例中,该混音请求可以是由音频混音设备生成的。音频混音设备可以从多个标识信息中任选一个标识信息作为目标标识信息,并基于目标标识信息生成目标混音请求,以便基于目标混音请求携带的目标标识信息从多个音频接收端中确定目标音频接收端。
其中,本申请所提及的标识信息可以用于唯一标识音频接收端。可选的,该标识信息可以包括音频接收端的MAC地址、IP地址或者设备指纹中的一种或多种。其中,设备指纹可以是基于MAC地址和/或IP地址生成的唯一指纹标识。例如,针对图1所示的音频接收端13a和音频接收端13b,当标识信息为IP地址时,可以用音频接收端13a的IP地址“x.x.x.x”唯一标识音频接收端13a,用音频接收端13b的IP地址“x.x.x.y”唯一标识音频接收端13b。
可选的,该标识信息可以包括字符、数值或者比特值中的一种或多种类型。例如,针对图1所示的音频接收端13a和音频接收端13b,可选的,标识信息可以为字符,可以用字符“音频接收端13a”唯一标识音频接收端13a,用字符“音频接收端13b”唯一标识音频接收端13b。又例如,标识信息可以为比特值,可以用比特值“0”唯一标识音频接收端13a,用比特值“1”唯一标识音频接收端13b。等等。本申请对此不做限制。
一个实施例,基于目标混音请求携带的目标标识信息从多个音频接收端中确定目标音频接收端包括:音频混音设备将目标标识信息与各个音频接收端的标识信息进行命中匹配,将命中匹配成功的音频接收端确定为目标音频接收端。例如,当用字符“音频接收端13a”唯一标识音频接收端13a,用字符“音频接收端13b”唯一标识音频接收端13b时,若目标标识信息为“音频接收端13a”时,可以将音频接收端13a作为目标音频接收端。
S202:获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系。
其中,本申请实施例所提及的音频数据可以包括音乐数据、语音数据或者视频数据中的语音部分等等。其中,该语音数据包括即时通信应用程序中获取的语音数据(如即时通信应用中的语音片段),也可以是在语音通话过程中实时生成的语音数据(如网络会议中的实时共享语音),该语音通话过程可以是基于移动通信网络(如第二代移动通信网等)实现的,或者,也可以是经由网际互联协议(Internet Protocol,IP)来实现的语音传输(Voice over Internet Protocol,VoIP)。其中,视频数据可以是影视视频图像、短视频图像、实时共享视频图像,等等。其中,实时共享视频图像可以包括但不限于:直播视频图像、网络会议视频图像,等等。需要说明,在一些时效要求较高的音频混音场景(如网络会议的音频混音)中,多组音频数据之间的时差小于预设时长阈值。
需要说明,本申请的音频数据可以涵盖各个领域,例如该音频数据可以为电商、金融、工业、通信、医疗等各个领域的音频数据。例如,该音频数据为医疗领域的音频数据,该音频数据用于描述个人健康档案、处方、检查报告等医疗数据。
其中,音频权限表用于指示每个音频接收端与音频数据的关联关系。可以直接从音频权限表中获取目标接收端对应的至少两组目标音频数据。一个实施例中,音频权限表中可以包括音频接收端标识项以及音频数据标识项,该音频接收端标识项用于存储音频接收端标识(即前文所述的标识信息),音频数据标识项用于存储音频数据标识。具体的,可以将目标音频接收端标识存储在音频接收端标识项的第一位置,并将音频数据标识项中与第一位置对应位置处存储的音频数据标识指示的音频数据,作为目标音频接收端对应的目标音频数据。如图3a所示,图3a示出了一种音频权限表的示意图。该音频权限表中包括音频接收端标识项以及音频数据标识项,音频接收端标识项可以表示为“音频接收端标识”,如图3a中的301所示,音频数据标识项可以表示为“音频数据标识”,如图3a中的302所示。音频接收端13a的音频接收端标识“音频接收端13a”存储在音频接收端标识项的第一栏,如图3a中的303所示,音频数据标识项中与第一栏对应位置处存储音频接收端13a对应的音频数据标识,如图3a中304所示。
进一步的,一个音频接收端对应的音频数据的数量为至少两个,那么音频标识项中存储的音频数据标识的数量为至少两个,各个音频数据标识之间可以用预设符号隔开。所述预设符号可以指逗号、分号、冒号以及顿号中任意一种。如图3a中所示,音频接收端13a对应的音频数据标识“音频数据A”以及“音频数据B”之间用逗号305隔开。
进一步的,还可以为每个音频数据设置对应的访问时间段。音频权限表中还可以包括访问时间项,图3b示出了另一种音频权限表的示意图,如图3b所示,访问时间项可以表示为“访问时间”。基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据,包括:从音频权限表中查找目标音频接收端对应的多组候选音频数据;获取各组候选音频数据的访问时间,从候选音频数据中剔除访问时间不包括当前时刻的候选音频数据,得到目标音频接收端对应的至少两组目标音频数据。例如,当目标音频接收端为音频接收端13b时,基于音频权限表确定音频接收端13b对应的多组候选音频数据包括音频数据A、音频数据B和音频数据C。分别获取音频数据A的访问时间“2021.10.14 16:25:02-2021.10.15 00:01:00”,音频数据B访问时间“2021.11.14 16:25:02-2021.11.26 01:00:00”和音频数据C的访问时间“2021.11.10 16:25:02-2021.11.28 00:00:00”;若当前时刻为“2021.11.1616:25:02”时,音频数据A的访问时间不包括当前时刻,音频数据B的访问时间包括当前时刻,音频数据C的访问时间包括当前时刻,那么可以将音频数据A从多组候选音频数据中剔除,得到音频数据接收端13b对应的至少两组目标音频数据为音频数据B和音频数据C。
一个实施例中,在基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据之前,音频混音设备还需要获取音频权限表。可选的,音频权限表可以是其他设备生成的,音频混音设备可以直接获取来自其他设备的音频权限表。可选的,音频权限表也可以是在音频混音设备生成的。具体的,音频混音设备可以显示目标音频接收端的音频数据配置界面,该音频数据配置界面包括每组音频数据的音频数据标识以及音频数据对应的候选状态,该候选状态包括允许状态和阻止状态。音频混音设备可以获取对每组音频数据的候选状态的选择指令,并根据选择指令确定处于允许状态的音频数据,将处于允许状态的音频数据作为目标音频数据;将目标音频接收端与目标音频数据关联,以根据关联的目标音频接收端与目标音频数据更新音频权限表。
例如,可参见图4,图4为本申请实施例提供的一种音频数据配置界面示意图,示出了音频接收端13a的音频数据配置界面,在图4所示的示意图中,显示多组音频数据标识,如图4中所示的音频数据A、音频数据B以及音频数据C。每个音频数据标识对应候选状态控件,候选状态控件可以表示为圆形。两种候选状态可以用候选状态控件的两种状态表示,例如,用实心圆形表示候选状态中的允许状态,用空心圆形表示候选状态中的阻止状态。用户可以从允许状态和阻止状态中选择一种状态。音频混音设备可以获取对每组音频数据的候选状态的选择指令(即对音频数据A的候选状态的选择指令、音频数据B的候选状态的选择指令以及音频数据C的候选状态的选择指令),如图4所示,选择指令指示从音频数据A的候选状态中选择了允许状态,从音频数据B的候选状态中选择了允许状态,以及从音频数据C的候选状态中选择了阻止状态。那么根据选择指令确定处于允许状态的音频数据包括音频数据A和音频数据B,可以将音频数据A和音频数据B确定为音频接收端13a的目标音频数据,将音频接收端13a与音频数据A和音频数据B关联,并将音频数据接收端13a的标识信息“音频接收端13a”填入音频权限表的音频接收端标识项,将音频数据A和音频数据B对应的标识“音频数据A”和“音频数据B”填入音频权限表的音频数据标识项,得到音频权限表。如图3中所示。需要说明,当音频权限表中包括访问时间项时,也可以通过音频数据配置界面进行配置,每个音频数据标识还可以对应有访问时间输入栏,用户可以通过访问时间输入栏配置每个音频数据的访问时间。本申请对此不做赘述。
S203:对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据。
其中,音频混音设备可以获取混音比例指令,该混音比例指令用于指示各组目标音频数据的混音比例,基于混音比例指令将至少两组目标音频数据进行混音,得到目标混音数据。
一个实施例中,音频混音设备获取通过输入框输入的混音比例指令。例如,如图4所示,每个音频数据对应一个输入框。每个输入框可以对应两种候选状态,可编辑状态和禁止编辑状态,如图4所示,可以用空心矩阵表示可编辑状态的输入框,用实心矩阵表示禁止编辑状态的输入框。其中,输入框的目标状态与音频数据的目标状态相关,当选择指令指示音频数据处于允许状态时,该音频数据对应的输入框为可编辑状态,当选择指令指示音频数据处于阻止状态时,该音频数据对应的输入框为禁止编辑状态。可以在处于可编辑状态的输入框中输入比例值,例如,在音频数据A对应的输入框中输入“3”,在音频数据对应的数据框中输入“2”,则混音音频设备将以音频数据A:音频数据B的混音比例为3:2,进行混音得到混音数据。
S204:将目标混音数据发送至目标音频接收端。
在一个实施例中,还可以存储目标音频接收端对应的目标混音数据,后续可以便于直接复用目标混音数据。例如,当其他音频接收端的音频数据配置与目标音频接收端相同(如音频接收端对应的音频数据相同以及各个音频数据的混音比例)时,其他音频接收端可以复用目标音频接收端的目标混音数据。进一步的,可以将目标混音数据上传至区块链网络。具体的,可以将目标混音数据上传至区块链网络中的共识节点,该共识节点对目标混音数据进行共识验证,若共识验证通过,则将目标混音数据封装成区块,并传入区块链网络。
在本申请实施例中,音频混音设备获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,将目标混音数据发送至目标音频接收端。音频混音设备作为音频发起端和音频接收端的中间设备,可以从音频发起端获取多组音频数据,并将多组音频数据中的部分或者全部进行混音,得到音频接收端的混音数据。音频混音设备独立于音频发起端和音频接收端之外,可以有效提升音频混音的灵活性。除此之外,音频混音设备可以从多个音频接收端中确定目标音频接收端,并对目标音频接收端的目标音频数据进行混音,一个音频混音设备可以处理多个音频接收端的混音任务,可以减少音频混音设备的数量,有效降低服务性能的消耗,节省成本。
参见上述图2所示方法实施例的相关描述可知,图2所示音频混音方法可以基于音频权限表从多组音频数据中确定目标音频接收端对应的至少两组目标音频数据,并对至少两组目标音频数据进行混音得到目标混音数据。由于不同设备所使用的编码格式可能不同,来自多个音频发起端的音频数据的编码格式可能不同,无法直接进行混音。基于此,本申请实施例还提供了另一种音频混音方法。如图5所示,图5示出了另一种音频混音方法的流程示意图,包括S501-S505:
S501:获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端。
需要说明,S501的具体实现方式可以参见S201相关实施例描述,此处不做赘述。
S502:获取来自多个音频发起端的多组初始音频数据,将各组初始音频数据的编码格式转换为预设编码格式。
其中,由于不同的初始音频数据分别来自不同的音频发起端,不同的音频发起端所使用的编码格式可能不同,那么由不同的音频发起端生成的初始音频数据的编码格式可能不同,不同编码格式的音频数据无法进行混音。其中,初始音频数据的编码格式可以为任意格式,可以包括但不限于G711、opus、pcma等等。
进一步的,音频混音设备与音频发起端所使用的编码格式也可能不同,因此,音频混音设备可能无法直接对来自多个音频发起端的多组初始音频数据进行处理。音频混音设备需要将多组初始音频数据转换为预设编码格式,其中,预设编码格式包括音频混音设备支持的编码格式中的任意一种。
一个实施例中,音频混音设备可以直接将各组初始音频数据的编码格式转换为预设编码格式,得到预设编码格式的多组音频数据。另一个实施例中,音频混音设备可以分别将各组初始音频数据的编码格式与预设编码格式作比较,将编码格式不同于预设编码格式的初始音频数据确定为待转换音频数据,将待转换音频数据的编码格式转换为预设编码格式,得到预设编码格式的多组音频数据。只需将编码格式不同于预设编码格式的初始音频数据进行编码格式转换,可以减少编码格式转换的初始音频数据的数量,节省处理资源,提升处理速率。
S503:基于音频权限表从各组预设编码格式的音频数据中确定目标音频接收端对应的至少两组预设编码格式的目标音频数据。
S504:对目标音频接收端对应的至少两组预设编码格式的目标音频数据进行混音,得到预设编码格式的目标混音数据。
需要说明,S503和S504的具体实现方式可以参见图2的S202以及S203相关实施例描述,此处不做赘述。
S505:将预设编码格式的目标混音数据发送至目标音频接收端。
其中,目标音频接收端与音频混合设备所使用的编码格式也可能不同,由音频混音设备得到的预设编码格式的目标混音数据也可能不为预设编码格式。基于此,当预设编码格式为目标音频接收端对应的目标编码格式时,直接将预设编码格式的目标混音数据发送至目标音频接收端。当预设编码格式不为目标音频接收端对应的目标编码格式时,将目标混音数据的编码格式转换为目标编码格式,将目标编码格式的目标混音数据发送至目标音频接收端。
在本申请实施例中,音频混音设备加入了编码格式转换功能,可以将各组初始音频数据的编码格式转换为预设编码格式,使得音频混音设备不仅可以支持预设编码格式的音频数据的混音,还可以支持其他编码格式的音频数据的混音,有效提升音频混音的兼容性,提升用户体验。并且,针对不同的音频接收端,音频混音设备在发送混音数据之前的操作相同,只需将预设编码格式的混音数据转换为音频接收端支持的编码格式,一个音频混音设备可以实现多个音频接收端的混音任务,可以减少音频混音设备的数量,有效降低服务性能的消耗,节省成本。
请参见图6,图6为本申请实施例提供的一种音频混音装置的结构示意图,该音频混音装置可以为前述方法实施例所提及的音频混音设备,该音频混音装置可以包括确定单元601、混音单元602以及发送单元603。
确定单元601,用于获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;
确定单元601,还用于获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;音频权限表用于指示每个音频接收端与音频数据的关联关系;
混音单元602,用于对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
发送单元603,用于将目标混音数据发送至目标音频接收端。
在一个实施例中,多组音频数据为预设编码格式的多组音频数据,确定单元601用于获取来自音频发起端的多组音频数据,包括:
获取来自多个音频发起端的多组初始音频数据;
分别将各组初始音频数据的编码格式与预设编码格式作比较,将编码格式不同于预设编码格式的初始音频数据确定为待转换音频数据;
将待转换音频数据的编码格式转换为预设编码格式,得到预设编码格式的多组音频数据。
另一个实施例中,目标混音数据的初始编码格式为预设编码格式;发送单元603用于将目标混音数据发送至目标音频接收端,包括:
当预设编码格式不为目标音频接收端对应的目标编码格式时,将目标混音数据的编码格式转换为目标编码格式;
将目标编码格式的目标混音数据发送至目标音频接收端。
另一个实施例中,确定单元601用于基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据之前,确定单元601还用于:
显示目标音频接收端的音频数据配置界面,该音频数据配置界面包括每组音频数据的音频数据标识以及音频数据对应的候选状态,该候选状态包括允许状态和阻止状态;
获取对每组音频数据的候选状态的选择指令,并根据选择指令确定处于允许状态的音频数据,将处于允许状态的音频数据作为目标音频数据;
将目标音频接收端与目标音频数据关联,以根据关联的目标音频接收端与目标音频数据更新音频权限表。
另一个实施例中,每组音频数据对应有访问时间;确定单元601用于基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据,包括:
从音频权限表中查找目标音频接收端对应的多组候选音频数据;
获取各组候选音频数据的访问时间,从候选音频数据中剔除访问时间不包括当前时刻的候选音频数据,得到目标音频接收端对应的至少两组目标音频数据。
另一个实施例中,确定单元601用于根据目标混音请求从多个音频接收端中确定目标音频接收端,包括:
获取目标混音请求携带的目标标识信息,每个标识信息用于唯一标识音频接收端;
基于目标标识信息从多个音频接收端中确定目标音频接收端。
另一个实施例中,混音单元602用于对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,包括:
获取混音比例指令;该混音比例指令用于指示各组目标音频数据的混音比例;
基于混音比例指令将至少两组目标音频数据进行混音,得到目标混音数据。
根据本申请的另一个实施例,图6所示的音频混音装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,音频混音装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6所示的音频混音装置,以及来实现本申请实施例的音频混音方法。该计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述音频混音设备中,并在其中运行。
在本申请实施例中,音频混音装置获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,将目标混音数据发送至目标音频接收端。音频混音装置作为音频发起端和音频接收端的中间设备,可以从音频发起端获取多组音频数据,并将多组音频数据中的部分或者全部进行混音,得到音频接收端的混音数据。音频混音装置独立于音频发起端和音频接收端之外,可以有效提升音频混音的灵活性。除此之外,音频混音装置可以从多个音频接收端中确定目标音频接收端,并对目标音频接收端的目标音频数据进行混音,一个音频混音装置可以处理多个音频接收端的混音任务,可以减少音频混音装置的数量,有效降低服务性能的消耗,节省成本。
请参阅图7,图7为本申请实施例提供的一种音频混音设备的结构示意图。该音频混音设备可以包括:一个或多个处理器701,一个或多个输入接口702,一个或多个输出接口703和计算机存储介质704。上述处理器701、输入接口702、输出接口703以及计算机存储介质704通过总线或其他方式连接。计算机存储介质704是音频混音设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质704既可以包括音频混音设备的内置存储介质,当然也可以包括音频混音设备支持的扩展存储介质。计算机存储介质704提供存储空间,该存储空间存储了音频混音设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、该处理器可以称为中央处理单元(Central Processing Unit,CPU),是音频混音设备的核心以及控制中心,适于被实现一条或多条指令,具体加载并执行一条或多条指令从而实现相应的方法流程或功能。
在一个实施例中,可由处理器701加载并执行计算机存储介质704中存放的一条或多条指令,以实现执行如图2或图5中所示的相应方法所涉及的各步骤,具体实现中,计算机存储介质704中的一条或多条指令由处理器701加载并执行以下步骤:
获取目标混音请求,并根据目标混音请求从多个音频接收端中确定目标音频接收端;
获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;音频权限表用于指示每个音频接收端与音频数据的关联关系;
对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
将目标混音数据发送至目标音频接收端。
在一个实施例中,多组音频数据为预设编码格式的多组音频数据,处理器701用于获取来自音频发起端的多组音频数据,包括:
获取来自多个音频发起端的多组初始音频数据;
分别将各组初始音频数据的编码格式与预设编码格式作比较,将编码格式不同于预设编码格式的初始音频数据确定为待转换音频数据;
将待转换音频数据的编码格式转换为预设编码格式,得到预设编码格式的多组音频数据。
另一个实施例中,目标混音数据的初始编码格式为预设编码格式;处理器701用于将目标混音数据发送至目标音频接收端,包括:
当预设编码格式不为目标音频接收端对应的目标编码格式时,将目标混音数据的编码格式转换为目标编码格式;
将目标编码格式的目标混音数据发送至目标音频接收端。
另一个实施例中,处理器701用于基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据之前,处理器701还用于:
显示目标音频接收端的音频数据配置界面,该音频数据配置界面包括每组音频数据的音频数据标识以及音频数据对应的候选状态,该候选状态包括允许状态和阻止状态;
获取对每组音频数据的候选状态的选择指令,并根据选择指令确定处于允许状态的音频数据,将处于允许状态的音频数据作为目标音频数据;
将目标音频接收端与目标音频数据关联,以根据关联的目标音频接收端与目标音频数据更新音频权限表。
另一个实施例中,每组音频数据对应有访问时间;处理器701用于基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据,包括:
从音频权限表中查找目标音频接收端对应的多组候选音频数据;
获取各组候选音频数据的访问时间,从候选音频数据中剔除访问时间不包括当前时刻的候选音频数据,得到目标音频接收端对应的至少两组目标音频数据。
另一个实施例中,处理器701用于根据目标混音请求从多个音频接收端中确定目标音频接收端,包括:
获取目标混音请求携带的目标标识信息,每个标识信息用于唯一标识音频接收端;
基于目标标识信息从多个音频接收端中确定目标音频接收端。
另一个实施例中,处理器701用于对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,包括:
获取混音比例指令;该混音比例指令用于指示各组目标音频数据的混音比例;
基于混音比例指令将至少两组目标音频数据进行混音,得到目标混音数据。
在本申请实施例中,音频混音设备获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定目标音频接收端对应的至少两组目标音频数据;该音频权限表用于指示每个音频接收端与音频数据的关联关系;对目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据,将目标混音数据发送至目标音频接收端。音频混音设备作为音频发起端和音频接收端的中间设备,可以从音频发起端获取多组音频数据,并将多组音频数据中的部分或者全部进行混音,得到音频接收端的混音数据。音频混音设备独立于音频发起端和音频接收端之外,可以有效提升音频混音的灵活性。除此之外,音频混音设备可以从多个音频接收端中确定目标音频接收端,并对目标音频接收端的目标音频数据进行混音,一个音频混音设备可以处理多个音频接收端的混音任务,可以减少音频混音设备的数量,有效降低服务性能的消耗,节省成本。
本申请实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令。计算机程序指令被处理器执行时,可执行上述音频混音方法实施例中所执行的步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述音频混音方法实施例中所执行的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种音频混音方法,其特征在于,所述方法包括:
获取目标混音请求,并根据所述目标混音请求从多个音频接收端中确定目标音频接收端;
获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据;所述音频权限表用于指示每个音频接收端与音频数据的关联关系;
对所述目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
将所述目标混音数据发送至所述目标音频接收端。
2.如权利要求1所述的方法,其特征在于,所述多组音频数据为预设编码格式的多组音频数据,所述获取来自音频发起端的多组音频数据,包括:
获取来自多个音频发起端的多组初始音频数据;
分别将所述各组初始音频数据的编码格式与所述预设编码格式作比较,将所述编码格式不同于所述预设编码格式的初始音频数据确定为待转换音频数据;
将所述待转换音频数据的编码格式转换为所述预设编码格式,得到所述预设编码格式的多组音频数据。
3.如权利要求2所述的方法,其特征在于,所述目标混音数据的初始编码格式为所述预设编码格式;
所述将所述目标混音数据发送至所述目标音频接收端,包括:
当所述预设编码格式不为所述目标音频接收端对应的目标编码格式时,将所述目标混音数据的编码格式转换为所述目标编码格式;
将所述目标编码格式的目标混音数据发送至所述目标音频接收端。
4.如权利要求1所述的方法,其特征在于,所述基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据之前,所述方法还包括:
显示所述目标音频接收端的音频数据配置界面,所述音频数据配置界面包括每组音频数据的音频数据标识以及所述音频数据对应的候选状态,所述候选状态包括允许状态和阻止状态;
获取对所述每组音频数据的候选状态的选择指令,并根据所述选择指令确定处于允许状态的音频数据,将所述处于允许状态的音频数据作为目标音频数据;
将所述目标音频接收端与所述目标音频数据关联,以根据所述关联的目标音频接收端与所述目标音频数据更新所述音频权限表。
5.如权利要求1所述的方法,其特征在于,每组音频数据对应有访问时间;
所述基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据,包括:
从所述音频权限表中查找所述目标音频接收端对应的多组候选音频数据;
获取所述各组候选音频数据的访问时间,从所述候选音频数据中剔除访问时间不包括当前时刻的候选音频数据,得到所述目标音频接收端对应的至少两组目标音频数据。
6.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述目标混音请求从多个音频接收端中确定目标音频接收端,包括:
获取所述目标混音请求携带的目标标识信息,每个标识信息用于唯一标识音频接收端;
基于所述目标标识信息从所述多个音频接收端中确定目标音频接收端。
7.如权利要求1-5任一项所述的方法,其特征在于,所述对所述目标音频接收端对应的至少两组目标音频数据进行混音,得到所述目标混音数据,包括:
获取混音比例指令;所述混音比例指令用于指示各组目标音频数据的混音比例;
基于所述混音比例指令将所述至少两组目标音频数据进行混音,得到所述目标混音数据。
8.一种音频混音装置,其特征在于,所述装置包括:
确定单元,用于获取目标混音请求,并根据所述目标混音请求从多个音频接收端中确定目标音频接收端;
所述确定单元,还用于获取来自音频发起端的多组音频数据,并基于音频权限表从各组音频数据中确定所述目标音频接收端对应的至少两组目标音频数据;所述音频权限表用于指示每个音频接收端与音频数据的关联关系;
混音单元,用于对所述目标音频接收端对应的至少两组目标音频数据进行混音,得到目标混音数据;
发送单元,用于将所述目标混音数据发送至所述目标音频接收端。
9.一种音频混音设备,包括输入接口、输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载以执行如权利要求1-7任意一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210231888.4A CN114566173A (zh) | 2022-03-09 | 2022-03-09 | 一种音频混音方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210231888.4A CN114566173A (zh) | 2022-03-09 | 2022-03-09 | 一种音频混音方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566173A true CN114566173A (zh) | 2022-05-31 |
Family
ID=81717027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210231888.4A Pending CN114566173A (zh) | 2022-03-09 | 2022-03-09 | 一种音频混音方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566173A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078296A1 (zh) * | 2022-10-09 | 2024-04-18 | 华为技术有限公司 | 一种混音方法及相关装置 |
-
2022
- 2022-03-09 CN CN202210231888.4A patent/CN114566173A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078296A1 (zh) * | 2022-10-09 | 2024-04-18 | 华为技术有限公司 | 一种混音方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7351907B2 (ja) | オンライン文書共有方法、装置、電子機器及び記憶媒体 | |
US10873769B2 (en) | Live broadcasting method, method for presenting live broadcasting data stream, and terminal | |
US11025967B2 (en) | Method for inserting information push into live video streaming, server, and terminal | |
CN110659206B (zh) | 基于微服务的模拟架构建立方法、装置、介质及电子设备 | |
US10165058B2 (en) | Dynamic local function binding apparatus and method | |
CN109862100B (zh) | 用于推送信息的方法和装置 | |
CN110007936B (zh) | 数据处理方法和装置 | |
CN108549586B (zh) | 信息处理方法和装置 | |
US11818491B2 (en) | Image special effect configuration method, image recognition method, apparatus and electronic device | |
CN114566173A (zh) | 一种音频混音方法、装置、设备及存储介质 | |
CN112843681B (zh) | 虚拟场景控制方法、装置、电子设备及存储介质 | |
CN110750295B (zh) | 一种信息处理方法,装置,电子设备和存储介质 | |
CN114422468A (zh) | 消息处理方法、装置、终端及存储介质 | |
WO2020233171A1 (zh) | 歌单切换方法、装置、系统、终端和存储介质 | |
US8654942B1 (en) | Multi-device video communication session | |
CN112291573B (zh) | 直播流推送方法、装置、电子设备和计算机可读介质 | |
CN111782989B (zh) | 快应用的关联方法及相关装置 | |
CN111741365B (zh) | 视频合成数据处理方法、系统、装置和存储介质 | |
CN110290517B (zh) | 数字媒体无线wifi通信点读系统及方法 | |
CN111367592B (zh) | 信息处理方法和装置 | |
CN113852835A (zh) | 直播音频处理方法、装置、电子设备以及存储介质 | |
CN113360704A (zh) | 语音播放方法、装置和电子设备 | |
KR20170086760A (ko) | 에뮬레이션 기반의 포렌식 분석을 수행하는 전자 장치 및 그것을 이용하여 포렌식 분석을 수행하는 방법 | |
CN111263173B (zh) | 一种数据资源添加方法及装置 | |
CN113778387B (zh) | 用于生成代码的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |